Обзор Watson Speech to Text: лучший сервис транскрипции большого объема?

Watson - это компьютерная система IBM для обработки естественного языка. На нем работает знаменитый суперкомпьютер с ответами на вопросы, а также ряд корпоративных продуктов на основе искусственного интеллекта, включая Watson Speech to Text. В нашем обзоре Watson Speech to Text мы рассмотрим одно из лучших приложений для преобразования речи в текст, которое идеально подходит для всех, кто хочет преобразовать звук в текст в любом масштабе.

Платформа обработки речи Watson доступна в IBM Cloud. Это универсальный инструмент, который можно использовать во многих контекстах, включая диктовку и транскрипцию конференц-связи. Более того, в отличие от большинства других приложений для преобразования речи в текст, он доступен в виде API, что позволяет разработчикам, среди прочего, встраивать его в системы голосового управления.

Watson Speech to Text: планы и цены

Вы можете использовать Watson Speech to Text для бесплатной обработки до 500 минут аудио в месяц. Если вы хотите конвертировать больше, вам нужно будет платить за каждую звуковую минуту, а ставка будет меняться в зависимости от продолжительности обработки звука. Стоимость варьируется от 0,01 до 0,02 доллара за минуту, и есть дополнительная плата в размере 0,03 доллара за минуту, если вам требуется Custom Language Model от IBM. Также доступны премиальные тарифные планы Watson, которые предоставляют доступ к расширенным функциям конфиденциальности данных и гарантиям бесперебойной работы.

Стоимость услуги преобразования речи в текст Watson зависит от объема контента, который необходимо расшифровать.

Вы также можете получить доступ к системе Watson Speech to Text через универсальную подписку на IBM Cloud. Обработка естественного языка - это всего лишь одно приложение в широком спектре служб ИИ, которые вы можете получить с помощью IBM Cloud, поэтому это хороший вариант для любой организации, которой требуется доступ к высокоскоростной передаче данных, чат-ботам или инструментам преобразования текста в речь.

Watson Speech to Text: особенности

Благодаря гибкой интеграции API и другим предварительно созданным инструментам IBM, служба распознавания речи Watson выходит далеко за рамки базовой транскрипции. Если вы хотите использовать его в контексте обслуживания клиентов, например, Watson Assistant можно настроить для обработки вопросов на естественном языке напрямую или ответа на запросы по телефону.

В Watson IBM создала многофункциональную платформу обработки естественного языка.

Watson работает с живым звуком на 11 языках и может импортировать звуки в различных предварительно записанных форматах. При потоковой передаче поддержка диагностики в реальном времени означает, что Watson может предложить пользователям подойти ближе к микрофону или изменить среду. Также впечатляет тот факт, что Watson может различать разных говорящих в общем разговоре благодаря функции Speaker Diarization, функции, которая все еще проходит бета-тестирование.

Watson Speech to Text: Настройка

Чтобы использовать Watson, первое, что вам нужно сделать, это создать учетную запись IBM Bluemix. Регистрация бесплатна и безболезненна, требуется только адрес электронной почты и пароль. После входа в систему вам необходимо добавить в свою учетную запись функцию преобразования речи в текст. На этом этапе вам будет предоставлена ​​пара учетных данных, которые вы должны сохранить в своих записях.

Регистрация учетной записи IBM Bluemix необходима для получения доступа к полному набору функций Watson.

После того, как вы это сделаете, все станет намного сложнее. Чтобы получить доступ к Watson, вам необходимо добавить эти учетные данные в пакет кода универсального локатора ресурсов клиента (cURL), а затем запустить его на своем компьютере. Чтобы узнать, какую именно команду вызывать, ознакомьтесь с этим удобным руководством. В качестве альтернативы, если вы просто хотите увидеть, насколько хорошо работает система Watson, не перепрыгивая через все эти препятствия, вы можете вместо этого попробовать ее на демонстрационном сайте IBM.

Watson Speech to Text: Интерфейс

В отличие от приложений для преобразования голоса в текст, предназначенных для потребителей, сервисы Watson предназначены для доступа через API и код, встроенный в другие системы. По этой причине настоящего «интерфейса» Watson нет. Вместо этого к Watson можно получить доступ через три различных интернет-протокола. Это WebSockets, REST API и Watson Developer Cloud.

Watson Speech to Text можно управлять через систему Watson Developer Cloud.

Для управления Watson вам потребуется инструмент командной строки, который подключается к облаку IBM по одному из этих трех маршрутов. Интерфейс, который видит конечный пользователь, взаимодействующий с Watson, должен будет создать кто-то из вашей группы разработчиков отдельно.

Речь в текст Watson: производительность

В целом, мы были впечатлены тем, как эта платформа обработки естественного языка обрабатывает реальную речь. Мы использовали Watson для расшифровки клипов, которые мы записали в различных сложных условиях, а также звуковых фрагментов известных выступлений, произнесенных на нескольких из 11 поддерживаемых Watson языков.

Мы обнаружили, что Watson хорошо справляется с заранее записанной речью.

Хотя ошибки становились более частыми для клипов с большим фоновым шумом, в целом Watson давал невероятно точные результаты. По нашим оценкам, на основе наших тестов непредвиденные ошибки возникали в среднем только один раз на каждые 150 слов. Однако стало ясно, почему функция Watson Speaker Diarization остается в бета-тестировании, так как несколько раз во время нашей оценки один голос был ошибочно обозначен как отдельные динамики.

Watson Speech to Text: Поддержка

Ресурсный центр IBM предлагает множество документации, чтобы лучше понять, как применять Watson в вашем конкретном случае использования. Также стоит использовать API-интеграции и SDK, созданные сообществом разработчиков Watson и опубликованные на GitHub.

Страница Watson API на GitHub является хорошим источником поддержки службы Watson Speech to Text.

Если вы не найдете там решения своей проблемы, вы можете связаться с IBM напрямую, открыв заявку в службу поддержки или связавшись с ними по телефону. Пока вы выбрали один из премиальных пакетов Watson, ваше использование Watson будет защищено соглашением об уровне обслуживания.

Речь Ватсона в текст: окончательный вердикт

Если у вашей организации есть ноу-хау и ресурсы для правильной интеграции платформы IBM Watson Speech to Text в вашу систему, вы получите выгоду от расширенных функций, таких как диагностика звуковой среды в реальном времени и промежуточные результаты транскрипции. Однако малые предприятия и организации столкнутся с технической проблемой правильной настройки Watson.

Соревнование

Служба преобразования речи в текст IBM Watson является прямым конкурентом служб массовой транскрипции Google Cloud Speech-to-Text и Amazon Transcribe. Оба они значительно дешевле, чем Watson, например, с транскрипцией Google Cloud от 0,006 доллара за минуту. Все три сервиса имеют схожие функции, такие как настраиваемый словарь, но одна функция, которой сильно не хватает IBM Watson, но доступна у обоих конкурентов, - это автоматическое распознавание знаков препинания.

Ищете другое решение для преобразования речи в текст? Ознакомьтесь с нашим руководством по лучшему программному обеспечению для преобразования речи в текст.

Интересные статьи...