Обзор Google Voice Typing

Использование голоса для управления нашими домами и компьютерами становится все более распространенным явлением. Если всего десять лет назад попросить Alexa или Google Home управлять светом или заказать товар в Интернете могло показаться необычным, то сейчас это норма.

Одной из компаний, которая больше всего инвестировала в этот тип технологий, является Google, позволяя своим устройствам Google Home и системам Android принимать словесные команды и даже распознавать говорящего.

Сегодня мы рассмотрим, как они связали эту технологию со своей платформой Google Docs, и рассмотрим, является ли это жизнеспособной альтернативой другим коммерческим решениям для преобразования голоса в текст.

Ценообразование

Программное обеспечение включено в Документы Google и поэтому по своей сути является бесплатным. Все, что вам нужно для его использования, - это учетная запись Google и мобильное устройство или компьютер с микрофоном. Это еще один источник данных для Google, но в наши дни это часть цены «бесплатного» использования.

Дизайн

Можно использовать голос для ввода в Документах Google, эта функция называется «Голосовой ввод», и ее можно найти в меню «Инструменты» в Документе Google или в Google Slides. Его также можно активировать в любом месте с помощью сочетания клавиш Ctrl-Shift-S.

При первой активации вам будет предложено разрешить доступ к микрофону для docs.google.com.

Как только вы согласитесь с тем, что появится небольшой прямоугольник с логотипом микрофона, который вы можете нажать, чтобы активировать голосовой ввод. Затем он заменяется красным значком микрофона рядом с документом, чтобы указать, что система находится в режиме прослушивания.

Прежде чем активировать голосовой ввод на панели управления, вы можете выбрать язык из меню, и, поскольку это Google, есть много вариантов. И вы также можете нажать на вопросительный знак и получить некоторую помощь о том, как использовать систему.

Для этих систем это очень сжатый раствор.

Google обработает то, что вы говорите, в меру своих возможностей, и, если система не уверена в слове, она подчеркнет его серым цветом. Затем на эти «подозрительные» слова можно нажать, и система предоставит некоторые альтернативы.

Но вы можете быстро перемещаться по документу и исправлять проблемы вручную или навести курсор и еще раз нанести голосовой ввод.

Если вам нужно поговорить с другим человеком во время работы, вы можете попросить Google перестать слушать, а затем возобновите разговор.

Но для использования всех возможностей этого решения существует длинный список команд, которые необходимо запомнить, которые могут копировать, вставлять, перемещать документ, вставлять таблицы и множество других функций.

Кроме того, вы можете вставлять знаки препинания, форматировать документ и даже вставлять гиперссылки.

Но получение максимальной отдачи от этого предполагает, что вы можете запоминать команды или иметь открытую справку, которая пробуждает вашу память.

Чтобы быстро получить список, достаточно просто произнести «Список голосовых команд».

Языки

В то время как многие решения для преобразования голоса в текст охватывают лишь небольшое количество языков, у Google есть значительное количество. Текущий окончательный список:

Африкаанс, амхарский, арабский, арабский (Алжир), арабский (Бахрейн), арабский (Египет), арабский (Израиль), арабский (Иордания), арабский (Кувейт), арабский (Ливан), арабский (Марокко), арабский (Оман) , Арабский (Палестина), арабский (Катар), арабский (Саудовская Аравия), арабский (Тунис), арабский (Объединенные Арабские Эмираты), армянский, азербайджанский, индонезийский, баскский, бенгальский (Бангладеш), бенгальский (Индия), болгарский, Каталанский, китайский (упрощенный), китайский (традиционный), китайский (Гонконг), хорватский, чешский, датский, голландский, английский (Австралия), английский (Канада), английский (Гана), английский (Индия), английский (Ирландия) , Английский (Кения), английский (Новая Зеландия), английский (Нигерия), английский (Филиппины), английский (Южная Африка), английский (Танзания), английский (Великобритания), английский (США), фарси, филиппинский, финский, французский , Галисийский, грузинский, немецкий, греческий, гуджарати, иврит, хинди, венгерский, исландский, итальянский, итальянский (Италия), итальянский (Швейцария), японский, яванский, каннада, кхмерский, корейский, лаосский, латышский, литовский, малаялам, Малайзия русский, маратхи, непальский, норвежский, польский, португальский (Бразилия), португальский (Португалия), румынский, русский, словацкий, словенский, сербский, сингальский, испанский, испанский (Аргентина), испанский (Боливия), испанский (Чили), испанский (Колумбия), испанский (Коста-Рика), испанский (Эквадор), испанский (Сальвадор), испанский (Испания), испанский (США), испанский (Гватемала), испанский (Гондурас), испанский (Латинская Америка), испанский (Мексика) ), Испанский (Никарагуа), испанский (Панама), испанский (Парагвай), испанский (Перу), испанский (Пуэрто-Рико), испанский (Уругвай), испанский (Венесуэла), сунданский язык, суахили (Кения), суахили (Танзания), Шведский, тамильский (Индия), тамильский (Малайзия), тамильский (Сингапур), тамильский (Шри-Ланка), тайский, турецкий, украинский, урду (Индия), урду (Пакистан), вьетнамский и зулусский.

Это 119 языков, включая 13 арабских форм, 19 испанских вариантов, 13 английских диалектов и даже четыре разновидности тамильского.

Включены языки, которые редко поддерживаются программным обеспечением для диктовки, например зулусский и исландский, из-за относительно небольшого количества говорящих.

Языковой охват, вероятно, является самой сильной стороной Google Voice Typing.

Записи

Если у этого решения есть недостаток, то это то, что оно не может легко обрабатывать записи.

Хотя это не невозможно сделать, но это требует исправления аудиосистемы компьютера, чтобы он принимал выходной сигнал, предназначенный для динамиков, и направлял его, как если бы он исходил из микрофона. Но это не позволяет вам различать разных людей на записях, и это может помешать работе ИИ, который Google использует для повышения вербальной точности, узнавая, как вы говорите.

Если вы хотите транскрибировать подкасты или записанные интервью, мы рекомендуем вам использовать что-нибудь еще, поскольку этот инструмент не предназначен для этой цели.

Точность

Трудно судить о точности системы обработки голоса, если вы не можете отправить ей те же записи, которые преобразовали другие продукты. И любой, кто использует Alexa или Google Home на регулярной основе, знает, что иногда он не понимает нас, в основном из-за посторонних звуков или непоследовательной речи.

Тем не менее, при активном тестировании, который мы проводили, этот инструмент обычно исправлял большинство слов или правильное слово было быстро доступно в меню подозрительных слов.

Для достижения наилучших результатов требуется некоторый контроль скорости, громкости и тона речи, что, несомненно, приходит с практикой. Кроме того, способность запоминать все специальные команды может существенно уменьшить количество требуемых правок после записи.

В зависимости от ваших ожиданий точность здесь приемлема. В его интерпретациях есть последовательность, которую он поддерживал во время наших тестов. Насколько хорошо это работает для вас, мы не можем предсказать. Но поскольку это бесплатно, вам не нужно ничего, кроме вашего времени, чтобы это определить.

Безопасность

Поскольку это Google, модель безопасности та же, что контролирует доступ ко всем учетным записям Google. Это варьируется от простой защиты паролем до более разумной методологии двухфакторной аутентификации (TFA).

Учитывая количество кражи личных данных, те, кто использует Google без TFA, подвергаются значительному риску взлома своих учетных записей.

Даже у этого параметра безопасности есть свои ограничения, но он лучше, чем просто пароль.

Тем, кто недостаточно параноик, мы настоятельно рекомендуем перейти на https://myactivity.google.com/myactivity.

И вы увидите, что Google собирает о вас ежедневно, и это может включать записи ваших голосовых команд.

Окончательный вердикт

Это могло бы быть более длительным обзором, если бы это программное обеспечение предлагало больше функций, но это не так.

Что касается решений для преобразования голоса в текст, это несложно, но у него достаточно функциональных возможностей, чтобы быть по-настоящему полезным.

Другие решения созданы для обработки расшифровки разговоров между несколькими людьми, где это было разработано для обработки одного человека, который говорит контролируемым и точным образом.

Его использование предполагает, что вы счастливы использовать Google и Google Docs, даже если это не конечный пункт назначения текста, который вы вводите.

Скопировать диктовку из Документов Google в другое приложение совсем несложно, и у вас будет облачная копия для справки, если она вам понадобится.

Понятно, что у некоторых пользователей возникают проблемы с удовлетворением ненасытного аппетита Google к пользовательским данным, и этот механизм является еще одним источником данных для перекуса.

Если вам так кажется, то вы не будете использовать Google Voice Typing или что-то еще от Google.

Для тех, кто готов принять то, что Google может знать о них, решение голосовой диктовки в Документах Google достаточно для общего использования, особенно если вам эта функция нужна только изредка.

Интересные статьи...