Электронные средства для распознавания и перевода речи. Программы для распознавания речи

Как мы уже выяснили в первой главе, программы для распознавания речи в наше время очень актуальны и широко используются в повседневной жизни. Две главные задачи машинного распознавания речи -- достижение гарантированной точности при ограниченном наборе команд хотя бы для одного фиксированного голоса и независящее от дикции распознавание произвольной слитной речи с приемлемым качеством -- не решены до сих пор, несмотря на длительную историю их разработки. Более того, существуют сомнения в принципиальной возможности решения обеих задач, поскольку даже человек не всегда может стопроцентно распознать речь собеседника. Рассмотрим некоторые продукты данной области в таблице 3.

Таблица 2

Сравнительная характеристика продуктов «ABBYY FlexiCapture» и «CORRECT. Автоматизация ввода и обработки документов»

Программа

Возможности

Системные требования

ABBYY FlexiCapture

Автоматизирует извлечение информации из бумажных документов и сохраняет данные в информационной системе предприятия

ОС: Windows XP SP2, Vista SP2, 7, Server 2003 SP2, Server 2008 SP2 или R2 + Desktop Expirience. Требования к компьютеру: ПК с процессором семейств Intel Core2/2 Quad/Pentium/Celeron/Xeon/Core i5/Core i7, AMD K6/Turion/Athlon/Duron/Sempron, тактовая частота 2 ГГц или выше;

Требования к установленному программному обеспечению:

Net Framework 2.0 или выше, если используются скрипты.Net.

Дополнительные требования: интернет-соединение для активации серийного номера, USB-порт для аппаратного ключа защиты.

Информация о цене доступна при заказе. Возможен заказ пробной версии.

CORRECT. Автоматизация ввода и обработки документов

Решение для автоматизированной обработки первичной бухгалтерской документации на базе ABBYY FlexiCapture с использованием аутсорсинга.

ОС: Windows XP SP2, Vista SP2, 7, Server 2003 SP2, Server 2008 SP2 или R2 + Desktop Expirience. Требования к компьютеру:

ПК с процессором семейств Intel Core2/2 Quad/Pentium/Celeron/Xeon/Core i5/Core i7, AMD K6/Turion/Athlon/Duron/Sempron, тактовая частота 2 ГГц или выше;

ОП:512 Мб на каждое ядро процессора, но не менее 1 Гб; место на диске: 1 Гб, из них 700 Мб для установки; сканер с поддержкой TWAIN, WIA или ISIS; интернет-соединение для активации серийного номера, USB-порт для аппаратного ключа защиты; видеоплата и монитор с разрешением не менее 1024Ч768; клавиатура, мышь или другое указательное устройство.

Информация о цене доступна при заказе.

Таблица 3

Сравнительная характеристика программ для голосового ввода

Доступно на:

Особенности программы

Яндекс. Диктовка

iPhone и iPad и для Android

  • - Голосовая активация. Чтобы начать запись, достаточно произнести «Яндекс, записывай».
  • - Распознавание речи. Вы говорите, а приложение превращает вашу речь в текст.
  • - Голосовое управление. Отредактировать текст можно с помощью команд -- например, «Удали последнее слово», «Начни с новой строки», «Добавь весёлый смайлик». Яндекс. Диктовка не только распознаёт слова, но и понимает их смысл, поэтому список команд не ограничен.
  • - Расстановка знаков пунктуации. Приложение ориентируется на паузы в речи и само расставляет знаки препинания.
  • - Синтез речи

Windows 7 и 8.Началась разработка Android-приложения

«Скачай бесплатно RealSpeaker, и ты сможешь вводить текст любой длины с помощью голоса в любой текстовый редактор (блокнот, MS Word, Skype, VKontakte, Facebook и т.д.) на любом из одиннадцати языков», -- указано на сайте проекта. При этом системные требования RealSpeaker заявлены вполне демократичные: компьютер с фронтальной камерой и микрофоном, наличие доступа в интернет, ОС Windows 7 или 8.

Горыныч 5.0 Dict Light

Совместимость с операционными системами Microsoft Windows Me/2000/XP.

Очень простой и удобный интерфейс.

Быстрая и легкая настройка микрофона.

Возможность добавлять в словарь собственные слова.

Тренировка слов непосредственно в процессе диктовки.

Интегрируется во множество различных приложений, в первую очередь - в Microsoft Word

Встроенный активный словарь. При выборе и назначении команд следует помнить, что у VOICETYPE существует режим, при котором программа автоматически набирает текстом все то, что не хранится в качестве голосового аналога системной команды. Поэтому если вы использовали созвучные выражения, то скорее всего VOICETYPE начнет спотыкаться, чем испортит все дело. Второй достаточно серьезной проблемой VOICETYPE является встроенный модуль самообучения. Если программа решит, что правильно распознала слово или выражение, в смысле текстового эквивалента, но не уловила до конца вашей индивидуальной тонкости произношения, то она может "попросить" пользователя повторить слово пару раз и перезапишет совершенно исправный фрагмент. При плохом произношении можно вообще все испортить, так как VOICETYPE DICTATION в состоянии все перепутать.

Из данных таблицы 3 следует, что программы голосового ввода распространены не только на компьютеры, но и на смартфоны. Все указанные программы в данной таблице легкодоступны и понятны в использовании. Все данные продукты можно приобрести бесплатно.

Несмотря на все достижения последних лет, средства для распознавания слитной речи все еще допускают большое количество ошибок, нуждаются в длительной настройке, требовательны к аппаратной части и к квалификации пользователя и отказываются работать в зашумленных помещениях, хотя последнее важно как для шумных офисов, так и для мобильных систем и эксплуатации в условиях телефонной связи.

Однако распознавание речи, как и машинный перевод с одного языка на другой, относится к так называемым культовым компьютерным технологиям, к которым проявляется особое внимание. Интерес к данным технологиям постоянно подогревается бесчисленными произведениями писателей-фантастов, поэтому неизбежны постоянные попытки создать такой продукт, который должен соответствовать нашим представлениям о технологиях завтрашнего дня. И даже те проекты, которые по своей сути ничего собой не представляют, часто бывают коммерчески вполне успешны, так как потребителя живо интересует сама возможность подобных реализаций, даже независимо от того, сможет ли он применить ее на практике.

Пожалуй, самая удобная программа для расшифровки текста для Windows и Mac OS, которая совмещает в себе аудиоплеер и текстовый редактор. Принцип работы очень прост – загружаете в программу аудиофайл, прослушиваете его при помощи горячих клавиш на клавиатуре (их можно назначать самому) и параллельно набираете текст. Скорость воспроизведения и громкость аудио также регулируются при помощи клавиатуры. Таким образом, ваши руки постоянно находятся на клавиатуре и отпадает необходимость использовать мышку или переключаться между разными программами. Нужно учитывать, что встроенный редактор текста не распознает ошибки и не имеет многих других привычных функций, например, переключение дефиса в тире. Однако можно пользоваться другими редакторами текста параллельно с Express Scribe, используя горячие клавиши для управления воспроизведением аудио. Программа условно бесплатная, полная стоимость: 17-50 долларов.


02. Transcriber-pro



Русскоязычная программа для Windows, которая позволяет прослушивать не только аудио, но и просматривать видеофайлы. Встроенный текстовый редактор имеет возможность проставлять временные метки и имена собеседников. Полученный текст можно импортировать в «интерактивные стенограммы», а также корректировать в рамках группового проекта. Приложение доступно только при годовой подписке, стоимость – 689 рублей в год.


03. RSplayer V1.4



Простая программа для обработки и расшифровки аудиофайлов с поддержкой горячих клавиш и возможностью набора текста в Microsoft Word. В отличие от предыдущих подобных программ, ее можно скачать бесплатно, но она нестабильно работает на новых версиях Windows.

04. Voco

Профессиональное Windows-приложение для преобразования речи в текст. Поддерживает голосовой набор в любом тестовом браузере, имеет большую коллекцию тематических словарей и не требует подключения к интернету для распознавания речи. Расширенные версии «Voco.Professional» и «Voco.Enterprise» могут работать с готовыми аудиофайлами. Единственный недостаток – высокая стоимость приложения.


05. Dragon Dictation



Бесплатное мобильное приложение для распознавания надиктованной речи. Программа умеет распознавать около 40 языков и их разновидностей, позволяет редактировать текст и отправлять его на почту, социальные сети или копировать в буфер обмена. Для работы необходимо подключение к интернету.


06. RealSpeaker



Уникальное приложение, которое способно не только распознавать аудиофайлы, но и живую речь, наговариваемую на камеру. За счет специального видеорасширения «RealSpeaker» считывает движение губ, тем самым улучшая процесс распознавания речи до 20-30% по сравнению с другими подобными алгоритмами. На данный момент приложение поддерживает 11 языков: русский, английский (американский и британский диалекты), французский, немецкий, китайский, корейский и японский, турецкий, испанский, итальянский и украинский. Программа распространяется условно бесплатно, стоимость зависит от времени подписки, бессрочная версия стоит около 2 тыс. руб.

Сервис SendPulse – это маркетинговый инструмент для создания подписной базы и перевода случайных посетителей вашего сайта в разряд постоянных. SendPulse объединяет на одной платформе важнейшие функции для привлечения и удержания клиентов:
● e-mail-рассылки,
● web-push,
● SMS рассылки,
● SMTP,
● рассылки в Viber,
● отправка сообщений в facebook messenger.

Рассылки email

Вы можете воспользоваться различными тарифами для ведения e-mail-рассылки, в том числе и бесплатным. Бесплатный тариф имеет ограничения: подписная база не более 2500.
Первое, с чего нужно начать, при работе с сервисом e-mail рассыл ок , – это создать свою адресную книгу . Задайте заголовок и загрузите список e-mail адресов.


На SendPulse удобно создавать формы подписки в виде всплывающего окна, встроенные формы, плавающие и фиксированные в определенной части экрана. С помощью форм подписки вы соберете базу подписчиков с нуля или дополните новыми адресами свою базу.
В конструкторе форм вы можете создать именно ту форму подписки, которая наиболее полно отвечает вашим нуждам, а подсказки сервиса помогут вам справится с этой задачей. Так же возможно использование одной из доступных готовых форм.


При создании форм подписки обязательно использование e-mail с корпоративным доменом. Читайте, как .
Шаблоны сообщений помогут красиво оформить ваши письма подписчикам. Собственный шаблон писем вы можете создать в специальном конструкторе.


Авторассылки . Контент-менеджеры активно используют автоматическую рассылку . Это помогает автоматизировать процесс работы с клиентами. Создать авторассылку можно несколькими способами:
Последовательная серия писем . Это самый простой вариант, когда вне зависимости от условий пишутся несколько писем, которые будут разосланы получателям в определенном порядке. Здесь могут быть свои варианты – серия сообщений (простая цепочка сообщений), особая дата (письма приурочены к определенным датам), триггерное письмо – письмо отправляется в зависимости от действий подписчика (открытия сообщения и пр).
Automation360 – рассылка с определенными фильтрами и условиями, а также с учетом конверсий.
Готовые цепочки по шаблону. Вы можете создать серию писем по заданному шаблону или видоизменить шаблон и подстроить его под свои нужды.
А/B тестирование поможет провести эксперимент по различным вариантам отправки серии писем и определить наилучший вариант по открытиям или переходам.

Отправка Push уведомлений

Push-рассылки – это подписка в окне браузера, это своего рода замена rss-подпискам. Технологии web-push стремительно вошли в нашу жизнь, и уже сложно найти сайт, который не использует для привлечения и удержания клиентов пуш-рассылки. Скрипт запроса на , вы можете отправлять письма, как вручную, так и создать авторассылки, создав серию писем или собрав данные с RSS. Второй вариант подразумевает, что после появления новой статьи на вашем сайте, автоматически будет рассылаться уведомление об этом вашим подписчикам с кратким анонсом.


Новинка от Send Pulse – теперь вы можете монетизировать сайт с помощью Push-уведомлений, встраивая в них рекламные объявления. По достижении 10$ каждый понедельник осуществляются выплаты на одну из платежных систем – Visa/mastercard, PayPal или Webmoney.
Push -сообщения на сервисе абсолютно бесплатны. Оплата берется только за White Label – рассылки без упоминания сервиса SendPulse, но если вам не мешает логотип сервиса, то вы можете пользоваться пушами бесплатно без ограничений.

SMTP

Функция SMTP защищает вашу рассылку от попадания в черный список за счет использования белых IP адресов. Технологии криптографической подписи DKIM и SPF, которые используются в рассылках SendPulse, повышают доверие к рассылаемым письмам, благодаря чему ваши письма реже будут попадать в спам или блэк-лист.

Боты Facebook Messenger

Facebook чат-бот находится на этапе бета-тестирования. Вы можете подключить его к своей странице и рассылать сообщения подписчикам.

Отправка SMS

Через сервис SendPulse легко отправлять-рассылки по базе телефонных номеров. Вначале вам нужно создать адресную книгу с перечнем телефонных номеров. Для этого выберите раздел “Адресная книга”, создайте новую адресную книгу, загрузите номера телефонов. Теперь вы можете создать СМС-рассылку по данной базе. Цена СМС рассылки варьирует в зависимости от операторов связи получателей и составляют в среднем от 1,26 рубля до 2,55 рублей за 1 отправленное СМС.

Партнерская программа

SendPulse реализует партнерскую программу, в рамках которой зарегистрированный пользователь по вашей ссылке, который оплатил тариф принесет вам 4000 рублей. Приглашенный же пользователь получает скидку 4000 рублей на первые 5 месяцев использования сервиса.

«Хотелось бы сразу сказать, что с сервисами распознавания имею дело впервые. И поэтому расскажу о сервисах, с обывательской точки зрения» - отметил наш эксперт – «для тестирования распознавания я использовал пользовался тремя инструкциями: Google, Yandex и Azure».

Google

Небезызвестная IT-корпорация предлагает протестировать свой продукт Google Cloud Platform в режиме онлайн. Опробовать работу сервиса может бесплатно любой желающий. Сам продукт удобен и понятен в работе.

Плюсы:

  • поддержка более чем 80 языков;
  • быстрая обработка имен;
  • качественное распознавание в условиях плохой связи и при наличии посторонних звуков.

Минусы :

  • есть трудности при распознавании сообщений с акцентом и плохим произношением, что делает систему трудной в использовании кем-то кроме носителей языка;
  • отсутствие внятной технической поддержки сервиса.

Yandex

Распознавание речи от Yandex предоставляется в нескольких вариантах:

  • Облако
  • Библиотека для доступа с мобильных приложений
  • «Коробочная» версия
  • JavaScript API

Но будем объективными. Нас, в первую очередь, интересует не разнообразие возможностей использования, а качество распознавания речи. Поэтому, мы воспользовались пробной версией SpeechKit .

Плюсы:

  • простота в использовании и настройке;
  • хорошее распознавание текста на Русском языке;
  • система выдаёт несколько вариантов ответов и через нейронные сети пытается найти самый похожий на правду вариант.

Минусы:

  • при потоковой обработке некоторые слова могут определяться некорректно.

Azure

Система Azure разработана компанией Microsoft. На фоне аналогов она сильно выделяется за счёт цены. Но, будьте готовы столкнуться с некоторыми трудностями. Инструкция, представленная на официальном сайте то ли неполная, то ли устаревшая. Адекватно запустить сервис нам так и не удалось, поэтому пришлось воспользоваться сторонним окном запуска. Однако, даже здесь для тестирования вам понадобится ключ от сервиса Azure.

Плюсы:

  • относительно других сервисов, Azure очень быстро обрабатывает сообщения в режиме реального времени.

Минусы:

  • система очень чувствительна к акценту, с трудом распознает речь не от носителей языка;
  • система работает только на английском языке.

Итоги обзора:

Взвесив все плюсы и минусы мы остановились на Яндексе. SpeechKit дороже чем Azure, но дешевле чем Google Cloud Platform. В программе от Google было замечено постоянное улучшение качества и точности распознавания. Сервис самосовершенствуется за счет технологий машинного обучения. Однако, распознавание русскоязычных слов и фраз у Яндекса на уровень выше.

Как использовать распознавание голоса в бизнесе?

Вариантов использования распознавания масса, но мы остановим ваше внимание на том, который, в первую очередь, повлияет на продажи вашей компании. Для наглядности разберём процесс работы распознавания на реальном примере.

Не так давно, нашим клиентом стал один, известный всем SaaS сервис (по просьбе компании, имя сервиса не разглашается). С помощью F1Golos они записали два аудиоролика, один из которых был нацелен на продление жизни тёплых клиентов, другой – на обработку запросов клиентов.

Как продлить жизнь клиентов с помощью распознавания голоса?

Зачастую, SaaS сервисы работают по ежемесячной абонентской плате. Рано или поздно, период пробного пользования или оплаченного трафика - заканчивается. Тогда появляется необходимость продления услуги. Компанией было принято решение предупреждать пользователей об окончании трафика за 2 дня до истечения срока пользования. Оповещение пользователей происходило через голосовую рассылку. Ролик звучал так: «Добрый день, напоминаем, что у вас заканчивается период оплаченного пользования сервисом ХХХ. Для продления работы сервиса скажите - да, для отказа от предоставляемых услуг скажите нет».

Звонки пользователей, которые произнесли кодовые слова: ДА, ПРОДЛИТЬ, ХОЧУ, ПОДРОБНЕЕ; были автоматически переведены на операторов компании. Так, порядка 18% пользователей продлили регистрацию благодаря лишь одному звонку.

Как упростить систему обработки данных с помощью распознавание речи?

Второй аудиоролик, запущенный той же компанией, носил другой характер. Они использовали голосовую рассылку для того, чтобы снизить издержки на верификацию номеров телефона. Ранее они проверяли номера пользователей с помощью звонка-роботом. Робот просил пользователей нажать определенные клавиши на телефоне. Однако с появлением технологий распознавания, компания сменила тактику. Текст нового ролика звучал следующим образом: «Вы зарегистрировались на портале ХХХ, если вы подтверждаете свою регистрацию, скажите да. Если вы не направляли запрос на регистрацию, скажите нет». Если клиент произносил слова: ДА, ПОДТВЕРЖДАЮ, АГА или КОНЕЧНО, данные об этом моментально переводились в CRM-систему компании. И запрос на регистрацию подтверждался автоматически за пару минут. Внедрение технологий распознавания снизило время одного звонка с 30 до 17 секунд. Тем самым, компания снизила издержки почти в 2 раза.

Если вам интересны другие способы использования распознавания голоса, или вы хотите узнать подробнее о голосовых рассылках, переходите по ссылке. На F1Golos вы сможете оформить первую рассылку бесплатно и узнать на себе, как работают новые технологии распознавания.

Для того, чтобы распознать речь и перевести её из аудио или видео в текст , существуют программы и расширения (плагины) для браузеров. Однако зачем всё это, если есть онлайн сервисы? Программы надо устанавливать на компьютер, более того, большинство программ распознавания речи далеко не бесплатны.


Большое число установленных в браузере плагинов сильно тормозит его работу и скорость серфинга в интернет. А сервисы, о которых сегодня пойдет речь, полностью бесплатны и не требуют установки – зашел, попользовался и ушел!

В этой статье мы рассмотрим два сервиса перевода речи в текст онлайн . Оба они работают по схожему принципу: Вы запускаете запись (разрешаете браузеру доступ к микрофону на время пользования сервисом), говорите в микрофон (диктуете), а на выходе получаете текст, который можно скопировать в любой документ на компьютере.

Speechpad.ru

Русскоязычный онлайн сервис распознавания речи. Имеет подробную инструкцию по работе на русском языке.

  • поддержку 7 языков (русский, украинский, английский, немецкий, французский, испанский, итальянский)
  • загрузку для транскрибации аудио или видео файла (поддерживаются ролики с YouTube)
  • синхронный перевод на другой язык
  • поддержку голосового ввода знаков препинания и перевода строки
  • панель кнопок (смена регистра, перевод на новую строку, кавычки, скобки и т.п.)
  • наличие персонального кабинета с историей записей (опция доступна после регистрации)
  • наличие плагина к Google Chrome для ввода текста голосом в текстовом поле сайтов (называется «Голосовой ввод текста — Speechpad.ru»)

Dictation.io

Второй онлайн сервис перевода речи в текст. Иностранный сервис, который между тем, прекрасно работает с русским языком, что крайне удивительно. По качеству распознавания речи не уступает Speechpad, но об этом чуть позже.

Основной функционал сервиса:

  • поддержка 30 языков, среди которых присутствуют даже венгерский, турецкий, арабский, китайский, малайский и пр.
  • автораспознавание произношения знаков препинания, перевода строки и пр.
  • возможность интеграции со страницами любого сайта
  • наличие плагина для Google Chrome (называется «VoiceRecognition»)

В деле распознавания речи самое важное значение имеет именно качество перевода речи в текст. Приятные «плюшки» и вохможности – не более чем хороший плюс. Так чем же могут похвастаться в этом плане оба сервиса?

Сравнительный тест сервисов

Для теста выберем два непростых для распознавания фрагмента, которые содержат нечасто употребляемые в нынешней речи слова и речевые обороты. Для начала читаем фрагмент поэмы «Крестьянские дети» Н. Некрасова.

Ниже представлен результат перевода речи в текст каждым сервисом (ошибки обозначены красным цветом):

Как видим, оба сервиса практически с одинаковыми ошибками справились с распознаванием речи. Результат весьма неплохой!

Теперь для теста возьмем отрывок из письма красноармейца Сухова (к/ф «Белое солнце пустыни»):

Отличный результат!

Как видим, оба сервиса весьма достойно справляются с распознаванием речи – выбирайте любой! Похоже что они даже используют один и тот же движок — уж слижком схожие у них оказались допущенные ошибки по результатам тестов). Но если Вам необходимы дополнительные функции типа подгрузки аудио / видео файла и перевода его в текст (транскрибация) или синхронного перевода озвученного текста на другой язык, то Speechpad будет лучшим выбором!


Кстати вот как он выполнил синхронный перевод фрагмента поэмы Некрасова на английский язык:

Ну а это краткая видео инструкция по работе со Speechpad, записанная самим автором проекта:

Друзья, понравился ли Вам данный сервис? Знаете ли Вы более качественные аналоги? Делитесь своими впечатлениями в комментариях.