Что такое синтезаторы речи? Лучшие синтезаторы речи. Речевой синтезатор капитан Что представляют собой речевые синтезаторы и где они применяются

Внимание! Данный сайт использует технологию JavaScript, поддержка которой отключена в вашем браузере. Для полноценной работы с ресурсом рекомендуется включить эту функцию в настройках вашего Интернет-обозревателя. Однако всё информационное наполнение сайта доступно и в режиме работы с отключённым JavaScript, поэтому активация этой настройки не обязательна, хотя и рекомендована.


Речевой синтезатор Капитан

"Речевой синтезатор Капитан" - это MS SAPI4-совместимый синтезатор. Он поддерживает синтез речи на русском и украинском языке. Поддержка украинского языка основывается на подмене украинских фонем похожими по звучанию фонемами русского языка.

Синтезатор создан на аллофонной базе одного из десяти голосов программного TTS-комплекса "Speaking Mouse Home", который был разработан Клубом голосовых технологий при научном парке МГУ в 1995 году. По наследству данному синтезатору досталось имя его прототипа из "Speaking Mouse Home" - Капитан.

Помимо русского и украинского языков Капитан способен осуществлять работу с английским, немецким и французским языком, а также производить раздельное чтение многоязычных текстов: каждый язык соответствующим голосом синтезатора. Раздельное чтение многоязычных документов и поддержка английского, немецкого и французского языков осуществляется посредствам использования дополнительного модуля, основанного на базе синтезатора eSpeak , однако использования данного модуля для работы Капитана не обязательно. Поддержка русского и украинского языков может осуществляться и без его установки. Данный модуль расширения возможностей Капитана уже включён в архив, который вы можете скачать с нашего сайта, поэтому его отдельная загрузка, как описано в сопроводительной документации самого синтезатора, не требуется.

Синтезатор обладает мужским голосом с хорошей разборчивостью речи, но низкой естественностью звучания. К плюсом можно отнести большую скорость работы, малый размер и малую загрузку системных мощностей. Однако "Капитан" обладает и рядом недостатков:

  • Синтезатором практически не поддерживается функция регулировки высоты речи.
  • В процессе работы иногда могут возникать явления "проглатывания" звуков.
  • Периодически синтезатор может замолкать в процессе работы или начать читать лишь первую часть строк текста. В данном случаи для возвращения штатного режима работы рекомендуется перегрузить синтезатор.

Для работы данного синтезатора может понадобиться системный компонент

VoiceFabric - это интернет-сервис, позволяющий озвучивать синтезированным голосом любую текстовую информацию.
На сайте voicefabric.ru доступен демо-синтез с различными голосами, с его помощью Вы можете оценить качество синтеза. На сегодняшний день доступно 8 голосов (женских и мужских), которые умеют говорить на 3-х языках (русский, английский, казахский).

Синтез речи от ЦРТ полезен при необходимости персонификации исходящих голосовых сообщений. Решение позволяет полностью отказаться от услуг диктора и предзаписи звуковых роликов в IVR-меню, то есть написанный текст моментально преобразуется в звукозапись и озвучивается клиенту в телефонную линию.

Также, используя синтезированные голоса, можно озвучивать книги, видеоролики, записывать голосовые открытки без потери «естественной» интонации. Voicefabric гарантирует грамотную расстановку ударений, правильное чтение сокращений, чисел, аббревиатур.

Вы можете зарегистрироваться на сайте voicefabric.ru и получить бесплатные секунды синтеза, а также доступ к программному интерфейсу сервиса.

Речевые синтезаторы, установленные на компьютеры или мобильные устройства, уже не кажутся такими необычными программами, как раньше. Благодаря современным технологиям обычный настольный ПК может воспроизводить человеческий голос.

Каким образом работают синтезаторы речи? Где они применяются? Какой самый лучший речевой синтезатор? Ответы на эти и другие вопросы изложены в данной статье.

Общее понятие

Синтезаторы речи являются специальными программами, состоящими из некоторого количества модулей, которые предоставляют возможность перевести набранные тексты в озвученные человеческим голосом предложения. Не стоит думать, что вся база слов и фраз записана реальными людьми в профессиональных студиях. Выполнить подобную задачу физически невозможно. Библиотеку с таким большим количеством фраз нельзя установить ни на один современный компьютер, не говоря уже о мобильных телефонах. Для этого разработчики создали технологию Text-to-Speech.

Сфера применения

Синтезаторы речи используются при изучении иностранных языков, прослушивании текстов на страницах книг, создании вокальных партий, выдаче поисковых запросов в форме озвученных фраз и т. п.

Какие разновидности программ существуют? В зависимости от сферы применения утилиты можно разделить на 2 вида: обычные, преобразующие набранный текст в речь, и специальные вокальные модули, используемые в музыкальных приложениях.

Преимущества и недостатки

На данный момент компьютер синтезирует человеческую речь только приблизительно. В простейших программах можно наблюдать проблемы со звуком и правильной постановкой ударений в различных словах. Синтезаторы речи, установленные на мобильные устройства, расходуют много энергии. Нередко можно отметить несанкционированную загрузку дополнительных модулей.

К преимуществам следует отнести удобство восприятия. Многим пользователям гораздо проще усваивать звуковую информацию, нежели какую-либо другую.

Лучшие речевые синтезаторы с русскими голосами

Программа RHVoice была создана Ольгой Яковлевой. Стандартный вариант приложения включает 3 голоса. Настройки очень просты. Программу можно использовать и как самостоятельное приложение, совместимое с SAPI5, и как дополнительный экранный модуль.

Речевой синтезатор Acapela отличается от аналогов идеальным озвучиванием текста. Приложение поддерживает более 30 языков мира. В бесплатной версии доступен лишь 1 женский голос.

Программа Vocalizer часто применяется в call-центрах. Пользователь может настроить постановку ударения, громкость и скорость чтения. При необходимости загружаются дополнительные словари. В приложении есть 1 женский голос. Речевой движок автоматически встраивается в программы для чтения книг в электронном формате.

Утилита eSpeak поддерживает свыше 50 языков. Недостатком программы можно считать сохранение звуковых файлов лишь в формате WAV, который требует много места на жестком диске.

Приложение Festival является мощнейшей утилитой синтеза речи, поддерживающей даже финский язык и хинди.

Установка программы

Как использовать приложения такого типа? Для начала нужно установить программу. В компьютерных ОС применяется стандартный инсталлятор, в котором пользователю остается выбрать лишь поддерживаемый утилитой языковой модуль. Установщик для мобильных устройств можно скачать с официального сайта, Google Play, а также App Store. Инсталляция приложения происходит в автоматическом режиме.

Первый запуск программы

На данном этапе пользователю достаточно установить язык по умолчанию. Иногда требуется отметить качество звучания. Стандартный вариант подразумевает частоту дискретизации 4410 Гц, глубину 16 бит и битрейт 128 кбит/с. В мобильных ОС показатели могут быть ниже. В качестве основы используется определенный голос.

Фильтры и эквалайзеры помогают достичь необходимого звучания. Пользователю доступны три варианта перевода текста. Он может набрать на клавиатуре предложения, включить озвучивание уже имеющегося файла или установить в браузере расширение, которое преобразует содержимое на веб-страницах в речь. Достаточно отметить необходимый вариант действий, тембр голоса и язык, на котором будет произноситься текст. Для включения процесса воспроизведения требуется кликнуть по кнопке «Старт».

Работа со сложными программами

В музыкальных приложениях настройки гораздо сложнее. В речевом модуле программы FL Studio пользователь может выбрать несколько видов голосов, а также указать тональность и скорость воспроизведения. Постановка ударений перед слогами осуществляется с помощью символа «_». С помощью подобного речевого синтезатора можно создать лишь роботизированный голос.

Программа Vocaloid относится к приложениям профессионального типа. Помимо обычных параметров, пользователь может выбирать артикуляцию и глиссандо. В утилите есть база с вокалом профессионалов. При желании можно подгонять под ноты целые предложения. Одна только библиотека с вокалом занимает более 4 Гб в сжатом виде.

"Синтезатор речи Google": что это за программа

В мае 2014 года компания предоставила пользователям возможность опробовать новый бесплатный продукт. Что такое "Синтезатор речи Google" на «Андроиде»? Это программа, озвучивающая текст на экране мобильного устройства или планшета. Теперь нет необходимости устанавливать сторонние утилиты, которые требуют наличия лицензии. "Синтезатор речи Google" используется при чтении электронных книг, прослушивании правильного произношения слов, запуске приложения TalkBack.

Новая версия программы "Синтезатор речи Google 3.1" получила функцию поддержки английского, итальянского, испанского, корейского, немецкого, нидерландского, польского, португальского, русского и французского языков. Где найти голосовые пакеты? Они загружаются из самого приложения.

Преимущества и недостатки продукта от Google

Особенностями русскоговорящего женского голоса является четкое, громкое звучание и плавная интонация. Скорость воспроизведения можно регулировать в настройках программы. Пользователи, использующие TalkBack и русскую языковую локализацию ОС Android, должны проявлять осторожность при переключении на речевой синтезатор, если ранее в приложении по умолчанию был установлен другой голос. Могут возникнуть проблемы, связанные с сохранением контроля над мобильным устройством на слух. Практически все голоса, кроме русского, неспособны обрабатывать предложения на кириллице.

Среди минусов можно отметить задержку реакции на чтение текстов, состоящих из фраз на разных языках. Русский голос отличается металлическими нотками тембра. Можно услышать дребезжащий звук на низких частотах. К преимуществам можно отнести стабильность работы приложения и приемлемое качество чтения англоязычных слов.

"Синтезатор речи Google": как пользоваться программой

Для того чтобы утилита заработала как надо, требуется обновить ее до последней версии. Чтобы активировать процесс озвучивания текста, нужно открыть настройки. В разделе «язык и ввод» необходимо поставить флажок на пункте «синтез речи». Тут же следует отметить строку «система по умолчанию». Не стоит забывать о том, что голосовые пакеты в самой программе также нуждаются в обновлении.

Проблемы при работе с утилитой

При необходимости пользователь может отключить приложение. В самых простых утилитах кнопка остановки находится в самой программе. Деактивация расширения, установленного в браузере, производится путем отключения дополнения или полного удаления плагина. При работе с программой на мобильном телефоне также могут возникнуть проблемы. Дело в том, что синтезатор речи автоматически включает загрузку ненужных пользователю языковых модулей.

Данный процесс занимает много времени и существенно расходует трафик. Как отключить "Синтезатор речи Google" на мобильном устройстве и избавиться от этой проблемы? Для начала нужно открыть настройки приложения. Потом необходимо выбрать раздел «язык и голосовой ввод». Далее нужно отметить последнюю строку.

Выбрав голосовой поиск, следует кликнуть по крестику у пункта «распознавание речи офлайн». Затем рекомендуется удалить кэш приложений. Далее требуется перезагрузить мобильный телефон. Чтобы полностью отключить утилиту, необходимо открыть в настройках раздел «приложения», выбрать в списке синтезатор речи и кликнуть по кнопке «остановить».

Удаление программы

Бывает так, что пользователь вообще не использует "Синтезатор речи Google". Можно ли удалить утилиту с мобильного устройства? Для этого нужно открыть Google Play. Затем следует выбрать в перечне установленных программ синтезатор речи и кликнуть по кнопке «удалить».

Итоги

Обычным пользователям и людям с ограниченными возможностями подойдут приложения с простым интерфейсом. Это может быть как RHVoice, так и "Синтезатор речи Google". Русский голос озвучит отображаемый на экране текст. Большего рядовому пользователю не требуется.

Музыкантам рекомендуется отдавать предпочтение профессиональной программе Vocaloid. В приложении есть дополнительные голосовые библиотеки и множество различных опций. Программа позволит получить естественное звучание голоса. Ведь музыкантам так важно, чтобы компьютерный синтез не ощущался на слух.

Недавно передо мной встала проблема выбора голосового синтезатора речи. Основные требования — это поддержка русского языка и более-менее нормальное произношение.
Для тех, кто не в курсе того, что такое синтезатор речи, расскажу — это специальная программа, смысл работы которой заключается в преобразовании письменного текста в устную речь. Это и есть так называемый синтез.
Зачем это надо? Ну, например, когда надо записать голосовое сообщение чужим голосом. Иностранцам оно может быть полезно для того, чтобы услышать произношение того или иного слова. Синтезатор речи удобен для чтения, когда надо включить ребенку сказку, которой нет в аудиокнигах. Да и вообще, ситуации всякие бывают.
Так вот, в процессе выбора я нашел несколько очень полезных инструментов, среди которых работающих в режиме онлайн с поддержкой русского языка и сейчас я Вам о них и расскажу.

Переводчик Google

Вот поистине многоцелевой продукт, которых можно использовать совершенно по-разному. Главные преимущества:
— это совершенно бесплатный сервис;
— работа в режиме Онлайн без установки. Нужен только доступ в Интернет;
— на мой взгляд этот синтезатор речи имеет лучший голосовой модуль, самое близкое к натуральному;
— наверное самая лучшая команда разработчиков и техподдержка в мире;
— самое большое количество поддерживаемых языков.
К сожалению, вариант голоса только один — женский. Выбора я не нашел.

RHVoice

Отличный многоязычный синтезатор речи от российского разработчика — Ольги Яковлевой. Есть версии, как для операционных систем семейства Windows, так и для Linux. Разработчик синтезатора - Ольга Яковлева. Программа распространяется совершенно бесплатно и доступна на официальном сайте в двух вариантах: как SAPI5-совместимая самостоятельная версия и как модуль для бесплатной программы экранного доступа NVDA. Этот синтезатор голосовой речи умеет озвучивать русские тексты тремя голосами — Елена, Ирина и Александр.

Acapela

Acapela - это, пожалуй, один из самых популярных и распространенных голосовых синтезаторов в мире. Главная особенность — это озвучка текстов более чем на тридцати языках мира. Если рассматривать русский язык, то тут доступны два голоса - Николай и Алена. Причем последний более совершенен и естественен в плане произношения. В демонстрационном режиме на сайте доступен только голос Алена.
Программа доступна для скачивания на официальном сайте и поддерживает все популярные современные операционные системы — Windows, Linux, Mac. Есть даже версии для Android u iOS.

Vokalizer

Женских голос Milena — это ещё один очень популярный движок голосового синтезатора речи от компании Nuance — он очень высококачественный и естественно звучащий. Его Вы можете услышать в call-центрах и в различных сетевых речевых системах, а также в различных приложениях приложениях — таких как Moon+ Reader Pro, Full Screen Caller ID , Cool Reader, в навигационной программах TomTom, iGo Primo.
Среди плюсов можно отметить возможность установки различных словарей, регулировки громкости, ударения и скорости чтения.
Код программы открытый, скачать его бесплатно можно на официальном сайте, собственно как и инсталлятор самой программы.

Festival

Festival - это не просто очередной голосовой речевой синтезатор, а уже целая система распознавания и синтеза речи с различными API. Разработчик — Исследовательский Центр Речевых Технологий университета Эдинбурга.
Festival предназначен для поддержки нескольких языков. По умолчанию поддерживает английский, валлийский и испанский языки. Но есть возможность подключить голосовые пакеты других языков: чешский, финский, хинди, итальянский, маратхи, польский, русский и телугу.
Код программы открытый, сам голосовой синтезатор распространяется по лицензии open source и доступна только для операционных систем Linux. Правда есть портированная версия по Макинтош.

ESpeak

Последняя в моём обзоре система синтеза речи — программа ESpeak — разрабатывается уже около 8 лет. Последняя версия — 1.48.04 от 6 апреля 2014. Данный голосовой синтезатор речи кроссплатформенный — есть версии под Windows, Linux, Mac OS X, и даже под RISC OS, хотя последние две уже давно не поддерживаются.
Отдельно отмечу, что eSpeak используется в мобильных операционных системах Android, правда имеет при этом ряд существенных ошибок.
Программа поддерживает пятидесяти различных языков, поддержка которых указывается при установке программы.
Один из главных минусов это голосового синтезатора — генерирование голоса только в файл формата WAV. Скачать программу бесплатно можно на официальном сайте.

От себя добавлю лишь, что мне понравились RHVoice и Vokalizer, хотя тут во много дело индивидуальное и во многом зависит от того, что Вы хотите получить. Так что пробуйте, ставьте и смотрите. Я думаю, что один из представленных вариантов Вам обязательно должен подойти.

Распозновать речь мы научились хоть и, пока, только английскую, не будем стоять на месте, едем дальше, точнее в противоположную сторону — займемся преобразованием текста в голосовую речь.

Наиболее популярные и свободные синтезаторы речи, которые мне известны и с которыми я имел практический опыт: Festival , eSpeak , OpenMary .
Рассмотрим все 3 по порядку.

Festival

ОС: Linux
Русский язык:
да (мужской голос)
Сайт: http://www.cstr.ed.ac.uk/projects/festival/

Довольно продвинутый синтезатор, поставляется со следующими языковыми пакетами: английский (в английском и американском произношении), валлийский и испанский. Также существуют и другие пакеты, такие, как кастильский испанский, чешский, финский, хинди, итальянский, маратхи, польский, русский и телугу. Festival входит в поставку нескольких дистрибутивов Linux-а. Синтезатор довольно хорошо понимает русский язык, если поиграться с написанием слов, знаками препинания можно добиться вполне вменяемой речи.

Установка

В сети уже много материалов про установку фетиваля и прикрутке русского языка, поэтому особо расписывать не буду скажу лишь, что потребуется установить сам фестиваль (ставится из репозитория — festival) и русский языковой пакет, который также устанавливается из репозитория (festvox-ru), затем следует немного подправить конфиг. Хорошая статья по этому поводу есть .

Использование

В консоли:

Echo "Привет" | festival --tts --language russian

eSpeak

ОС: Linux, Windows, Mac OS X, RISC OS
Русский язык:
да (мужской голос)
Сайт:

Простой, компактный, программный синтезатор речи. Если верить информации, eSpeak используется в мобильных операционных системах Android, начиная с версии 1.6, и Maemo. Версии под Windows и Linux регулярно обновляются вместе с исходным кодом, с остальными платформами дела обстоят хуже. Поддерживается множество языков, в том числе русский, английский, французский, испанский и т.д. Если брать в сравнение русскую речь — eSpeak уступает Festival, английский, франзузский, немецкий — на уровне.

Установка

В некоторых дистрибутивах линукс еСпик уже установлен, если нет — ставится он также просто из консоли (espeak), либо качаем нужную версию с , например, в случае с Windows.

Использование

В консоли:

Espeak "Привет мир!" -vru -s 100

Где:
-v язык (ru, en, de)
-s скорость (80-450)

OpenMary

ОС: Linux, Windows, Mac OS X
Русский язык:
да (мужской голос)
Сайт:
http://mary.opendfki.de

Молодой и, пока еще, не очень популярный синтезатор, но в то же время очень функциональный и продвинутый. Написан на Java, что позволяет ему быть платформонезависимым. Работает по принципу клиент-сервер. Обладает продвинутыми речевыми надстройками, с помощью которых можно указывать интонацию, тембр, скорость для каждого слова. Поставляется с клиентом, написанным на той же яве, с графическим интерфейсом.

Установка

Установка достаточно легкая и не требует определенных усилий, качаем ява-установщик (не забываем, что требуется Java). Запускаем установщик и следуем инструкциям. В определеный этап установки предложат выбрать языковые пакеты, которыми мы будем пользоваться, для себя я выбрал русский и английский.

Использование

Переходим в директорию установки, заходим в папку bin и запускаем сервер — maryserver. Как только сервер будет запущен, запускаем клиент — maryclient.

Если все было сделано правильно, после нажатия кнопки «Play» должно быть слышно произношения написанного текста. В папке example, директорией выше, есть примеры реализации клиентов под разные языки.

Вывод

Festival: для средних домашних и корпоративных проектов (информирование о погоде, чтение писем, «язык» для ботов и т.п.).
eSpeak: для реализации малых задач (сообщение текущего времени, информирование о пробках, количестве писем в почтовом ящике, свободном месте на жестком диске и т.п.).
OpenMary: для крупных проектов (системы «умного дома», озвучка программ, чтение большого текста).