Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
main (Автосохраненный).docx
Скачиваний:
4
Добавлен:
22.08.2019
Размер:
1.74 Mб
Скачать
    1. Необходимые компоненты и их установка

Как и любые функции, речевые технологии подразумевают наличие в операционной системе необходимых компонентов, которые обеспечили бы выполнение эксклюзивных задач. Кроме того, должен быть налажен доступ к ним из любых клиентских приложений. Подобная проблема решается с помощью COM- технологии, поэтому созданные группы COM – объектов реализуют различные задачи по запуску программ распознавания и синтеза речи.

Чтобы воспользоваться речевыми функциями, в операционной системе должен быть установлен пакет речевых функций Microsoft Speech API (SAPI). Установив пакет функций, мы не сможем сразу воспользоваться речевыми функциями, так как сам SAPI не осуществляет синтез и распознавание речи.

Каждый модуль синтеза или распознавания речи можно классифицировать по нескольким параметрам. Прежде всего они различаются по наименованию фирмы, которая их разработала. Модули распознавания речи кроме общих параметров, имеют свои особенности, отличающиеся от свойств модулей синтеза речи. Из них можно назвать такие, как схема распознавания речи, максимальный размер словаря, поддерживаемые типы грамматик. В настоящее время модули синтеза речи разрабатываются следующими фирмами:

  • AcuVoice;

  • Digalo;

  • Digital Equipment Corporation;

  • ELan Informatique;

  • IBM;

  • Lernout & Hauspie;

  • Lucent;

  • Microsoft.

Для разработки программы был выбран модуль синтеза речи от компании Lernout & Hauspie, так как данный модуль поддерживает русский язык.

    1. Оценка разборчивости синтезированной речи

Для оценки разборчивости синтезируемой речи решаются следующие задачи:

- Получить численную оценку слоговой разборчивости синтезированных речевых клонов;

- Оценить вклад элементов компиляции различного фонетического количества в степень разборчивости синтезируемой речи;

- Сравнить результаты слоговой разборчивости синтезированных речевых клонов с результатами разборчивости речи, синтезируемой с использованием наилучших известных синтезаторов русской речи.

В экспериментах по определению слоговой разборчивости речи вычисляется субъективная оценка. Методика проведения эксперимента основывается на ГОСТ Р 50840-2000 «Передача речи по трактам связи. Методы оценки качества, разборчивости, узнаваемости». Для проведения экспериментов используются речевые клоны, синтезированные на основе созданных БД элементов компиляции: БД мужского голоса – БД –М и БД женского голоса – БД – Ж. Содержимое БД, использованных для синтеза речи, приведено в таблице 3.1.

Речевым материалом для тестирования являются слоговые артикуляционные таблицы, которые были синтезированы на основании баз БД-М и БД-Ж с соблюдением постоянного ритма и постоянного уровня речи и сохранены на цифровые носители в формате WAVE PCM с частотой дискретизации 22050 Гц и разрядностью 16 бит. Длительность пауз между слогами была приведена к значению 3 секунды. Кроме того, слоговые артикуляционные таблицы были синтезированы с использованием русскоязычного синтезатора речи компании Nuance. Значения ритма речи, уровня речи, длительности межслоговых пауз, а также формат сохранения были аналогичным указанным выше.

Таблица 3.1 – Содержимое фонетико-акустических БД для тестирования слоговой разборчивости

Название БД

Содержимое БД

БД-М

БД диктора Д1 (мужской голос), содержащая аллофоны, диаллофоны, аллослоги в количестве 6818 едениц

БД-Ж

БД диктора Д2 (женский голос), содержащая аллофоны, диаллофоны, аллослоги в количестве 7073 единиц

Результаты эксперимента по оценке слоговой разборчивости синтезированной речи: степень слоговой разборчивости выражается через среднее значение разборчивости S для каждого измерения, которое вычисляется в несколько этапов. Начальное значение S вычисляется по формуле:

где Si – результат единичного измерения, % (диктор – таблица - аудитор), N – число единичных измерений.

Затем вычисляется среднее квадратическое отклонение (СКО) σ по формуле:

Где N – число единичных измерений, k – число исключенных измерений.

Результаты вычислений значений S для каждого из типов синтезируемых голосов, а также соответствующие классы качества представлены в таблице 3.2.

Таблица 3.2 – Классы качества синтезируемых голосов

Название БД или системы синтеза

Слоговая разборчивость, %

Класс качества

БД-М

91

Высший

БД-Ж

78

1-ый

Nuance

55

2-ой

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]