Как аудиофайл перевести в текст
Одной из интереснейших задач считается создание системы распознавания голоса и его транскрибирование — перевод в текстовую форму. В этом частенько нуждаются не только профессионалы, но и обычные пользователи в их повседневной жизни.
В то время как одна часть специалистов озабочена переводом текста (в основном книг) в аудиоформат, вторая ломает голову над прямо противоположной задачей. В деле компьютерной оцифровки голоса достигнуты немалые успехи: создано много программ, успешно распознающих речевой ввод и позволяющих управлять электронными приборами посредством голосовых команд. Но стопроцентную гарантию качества преобразования пока обеспечивает только человек, набирающий текст вручную и многократно прослушивая аудиозапись. Безусловно, на это уходит куча времени, ведь записывать информацию приходится в условиях, далеких от идеальных. Скажем, журналист берет интервью, студент фиксирует лекцию, а бизнесмен, врач или юрист ведет деловые заметки – все это делается при помощи диктофонов, смартфонов и планшетов посредством встроенного микрофона, что отрицательно сказывается на качестве аудио и разборчивости речи. А последующее преобразование в текст процесс долгий, нередко в условиях цейтнота, поэтому стремление перепоручить его компьютеру вполне объяснимо: время, которое освобождается, можно потратить на другие важные дела.
Проще всего доверить транскрибирование фрилансерам или организациям, специализирующимся на предоставлении услуг такого рода. Если, конечно, вы готовы их труд оплачивать (а он зачастую недешев), а заодно мириться с тем, что информация станет известна третьим лицам (впрочем, ответственные фирмы в обязательном порядке подписывают с клиентами договор о неразглашении). Зато результат гарантированный: на выходе вы получите качественный текст, помимо всего прочего освобожденный от мусора – информации, не имеющей отношения к делу.
Существуют программы – «Цезарь», «Горыныч», «Диктограф» и др., – способные распознавать текст с любого аудиофайла, помещая его в «Блокнот» или MS Word. Однако они тоже платные и рассчитаны на профессиональное применение. Напрашивается мысль задействовать бесплатные онлайн-сервисы (наподобие speechpad.ru или «Войснот II»), которые позволяют надиктовывать текст непосредственно в браузере – но все они, разумеется, предполагают использование в качестве входящего сигнала аудиопоток с микрофона. Простейший способ обойти это ограничение – установка микрофона перед колонкой: включив воспроизведение и запись, вы добьетесь приемлемого результата, манипулируя лишь уровнем громкости и чувствительностью. Можно, конечно, соединить микрофонный вход с линейным выходом аудиокабелем, но этот способ не всегда приносит желаемый эффект.
Оптимальное решение – виртуальный кабель. Речь идет об утилите, которая позволяет коммутировать вход и выход программно, без изменения физических соединений. Среди подобных продуктов есть как платные (
Процедура установки и настройки включает в себя инсталляцию дистрибутива и выбор виртуального кабеля в «Свойствах аудио – Звукозапись» как устройства по умолчанию. После этого можно открывать страницу с блокнотом, включать запись и начинать воспроизводить аудиофайл. Возможно, еще потребуется ограничить количество знаков (300) в поле предварительного просмотра, чтобы избежать возможных ошибок. Перед тем как запускать процесс транскрибирования, прослушайте исходную запись: возможно, ее придется предварительно очистить от шумов и нормализовать уровень громкости с помощью звукового редактора.
Выводы
Если вы готовы пожертвовать качеством в угоду дешевизне решения и скорости обработки, использование онлайн-сервисов в сочетании с виртуальным кабелем — лучший выбор. Нет, предоставить на выходе идеальный текст они вряд ли смогут – результат будет колебаться от вполне читаемого до похожего на машинный перевод (зависит от качества записи и сложности материала). Зато время сэкономите, да и довести все это дело до нормального уровня можно значительно быстрее — останется привести текст в читабельный вид. К слову, во многих случаях, когда особой литературности не требуется (например, для школьников, студентов и блогеров) возможностей автоматизированного транскрибирования более чем достаточно.
Опубликовано 25.09.2014