Добавил:
natribu.org Все что нашел в интернете скидываю сюда Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Точно Не проект 2 / Не books / Источник_1

.pdf
Скачиваний:
10
Добавлен:
01.02.2024
Размер:
20.67 Mб
Скачать

540

Глава 9

 

 

Значение порога определяется эмпирически и адаптируется в процессе поиска.

Если размер словаря составляет десятки тысяч слов, то сложность поиска остается высокой. В этой ситуации применяются иные алгоритмы поиска: А*- алгоритм, алгоритм двунаправленного поиска, алгоритм быстрого сопоставления и др.

При использовании А*- алгоритма (см. § 2.2.2) на каждом шаге продолжается путь, характеризуемый наибольшей величиной оценочной функции, которая в данном случае представляет собой сумму правдоподобия (логарифм от вероятности) уже пройденного пути (т.е. Q1T ) и оценки прав-

доподобия оставшейся части пути (т.е. QtT 1 ) до конечного состояния. Последняя оценка соответствует эвристической составляющей оценочной функции. Если эвристическая оценка правдоподобия оставшейся части пути будет больше или равна реальному значению правдоподобия, то А*- алгоритм обеспечит поиск оптимального пути. Один из простых способов определения эвристической составляющей основан на ее оценке по оставшейся части исходной последовательности акустических элементов XtT1. С этой

целью накапливается статистика соответствия XtT1 последовательности QtT1. Имеются и другие способы определения эвристической составляющей оценочной функции.

9.4.8. Оценивание параметров СММ

Рассмотрим подзадачу оценивания параметров СММ (A,B). Данную подзадачу рассматривают как обучение СММ на множестве обучающих данных, представленных парами “речевой сигнал – последовательность слов”. В ходе обучения необходимо определить по заданной последовательности обучающих данных значения матриц А и В таким образом, чтобы обеспечивался максимум вероятности P(X | ) .

Обучение СММ осуществляется на основе алгоритма Баума-Уэлча [72,74]. Приведем необходимые формулы оценивания параметров СММ в соответствии с алгоритмом Баума-Уэлча без вывода. Обозначим:

1,t (i) 0,

1,t (i, j) 0,

если qt (i),

востальных случаях;

если

qt (i) и

qt 1( j)

в

остальных

случаях;

Обработка естественного языка

541

 

 

 

T 1

 

 

N (i, j) t (i, j) – количество

переходов из состояния S(i) в со-

t 1

 

 

стояние S(j), которое обеспечивает формирование выходного символа;

T

K(i) t (i) – количество переходов из состояния S(i).

t 1

Тогда при 0 < j, i < N элементы матриц A и B вычисляются по формулам:

a0 j 1(j);

aij N(i, j)/K(i); aiN T (i)/K(i);

 

 

 

 

 

T

 

 

 

 

 

 

t (i)/K(i),

1 j M.

bij bi (cj )

 

 

 

 

 

t 1,xt cj

 

Приведенные выражения позволяют по заданной модели (A,B)

построить новую модель (A,B). При этом P(X | ) P(X | ).

В алгоритме Баума-Уэлча на каждом шаге итерации модель замещается моделью . Это обеспечивает монотонное увеличение P(X | ). Процесс завершается, когда вероятность P(X | ) больше не увеличивает-

ся, т.е. P(X | ) P(X | ). К сожалению, алгоритм Баума-Уэлча не гарантирует нахождение глобальных экстремумов.

9.4.9. СММ с непрерывными параметрами

До сих пор рассматривался случай дискретных СММ, в которых наблюдаемый процесс соответствует символам фиксированного алфавита C {c1,c2,...,cM }. В этом случае распределение вероятностей выходных символов i-го состояния задается вероятностями появления отдельных символов bi(cj ), где i j M . Это требует квантования непрерывных зна-

чений векторов-признаков речевого сигнала. Данный процесс реализуется с помощью векторного квантователя. С одной стороны, это обеспечивает эффективное представление речевого сигнала, а с другой, приводит к неизбежным погрешностям квантования, которые могут ухудшать распознавание речи.

Для того чтобы исключить влияние векторного квантования, применяют СММ, в которых наблюдаемый процесс описывается непрерывными

bij (x)

542

Глава 9

 

 

функциями плотности распределения. Наиболее часто функцию плотности распределения представляют в виде суммы распределений гауссовского типа:

 

M

 

M

 

 

, ij

),

(9.18)

bi (x) cijbij

(x) cijN(x

, ij

 

j 1

 

j 1

 

 

 

 

 

где x – вектор признаков речевого сигнала;

i, j – индексы, соответственно, обозначающие номера состояний и номера классов, к которым могут относиться векторы признаков;

cij – весовой коэффициент;

– распределение векторов-признаков для j-го класса, припи-

санное i-му состоянию;

N(x, ij, ij ) – гауссова плотность распределения, характеризуемая

вектором средних значений ij и ковариационной матрицей ij .

Плотность распределения (9.18) достаточно хорошо аппроксимирует различные распределения векторов признаков, встречающиеся на практике. Вместе с тем применение данной функции распределения сопряжено с оценкой большого числа параметров. Чтобы уменьшить число параметров, не теряя основных свойств распределения (9.18), полагают, что ковариационная матрица является диагональной. Это ограничение требует, чтобы компоненты вектора x были взаимно независимыми. В этом случае многомерная плотность вероятностей выражается через произведение одномерных плотностей по каждому измерению вектора x.

Другой способ сокращения числа параметров основан на использовании СММ с “полунепрерывными” параметрами. В этом случае много-

мерную плотность распределения bi(x) признаков аппроксимируют выражением

 

 

M

 

(9.19)

 

bi (x) P(x |cj )bi (cj ).

 

 

j 1

 

 

Здесь bi (x)

представляет собой комбинацию дискретного множества

коэффициентов

bi (cj ) bij , приписываемых каждому классу

cj , опреде-

ленному в ходе векторного квантования, и непрерывной плотности распределения векторов x, принадлежащих данному классу.

Параметры плотностей распределения (9.18) и (9.19) определяют в ходе обучения на основе процедуры Баума-Уэлча.

Обработка естественного языка

543

 

 

 

В заключение отметим, что для систем распознавания слитной речи с большим объемом словаря количество оцениваемых параметров может достигать нескольких миллионов. Поэтому для обучения таких систем требуется большие объёмы речевых данных [72].

Лучшие системы распознавания речи обеспечивают распознавание от 80 до 98 % слов. Если речь вводится через хороший микрофон и характеризуется небольшим объемом словаря, ограниченной моделью языка, позволяющей легко предсказать следующее вводимое слово, раздельным произнесением слов, то распознавание речи осуществляется с высокой точностью. Системы АРР пока плохо работают в условиях ввода речевых сигналов посредством телефонных линий при наличии высокого уровня окружающих акустических шумов, когда не ограничивается размер словаря, и речь является слитной.

9.5. Синтез речи по тексту

9.5.1. Основные понятия

Во многих случаях создание СИИ с элементами ЕЯ-общения требует вывода сообщений в речевой форме. На рисунке 9.30 изображена структурная схема интеллектуальной вопросно-ответной системы с речевым интерфейсом. Пользователь вводит запрос в устной форме, который преобразуется в последовательность слов с помощью подсистемы распознавания речи. Интерпретация запроса осуществляется подсистемой понимания высказываний, формирующей представление смысла запроса на внутреннем языке системы. Машина вывода, анализируя содержимое базы знаний и данных, обеспечивает получение ответа на запрос. Подсистема генерации высказываний осуществляет преобразование семантических структур, формируемых машиной вывода, в ЕЯ-текст, представленный в виде предложений. Текст с помощью подсистем синтеза речи преобразуется в речевой сигнал, который непосредственно воспринимается пользователем. К достоинствам речевого интерфейса следует отнести, доступ к информационным ресурсам СИИ с помощью простых средств, например, телефона. Кроме этого, существенно облегчается работа неподготовленных пользователей, так как для общения с системой используется естественная речь.

Рассмотрим особенности функционирования подсистемы синтеза речи по тексту. В этом случае речевое сообщение формируется из отдельных элементов речи естественного или искусственного происхождения. Ранее отмечалось, что минимальной смысловой единицей речи является фонема. Напомним, что одна и та же фонема в речи реализуется в виде

544

Глава 9

 

 

различных звуков. Последовательности различных звуков, соответствующие одной и той же фонеме, называются аллофонами.

Рисунок 9.30 – Структурная схема СИИ с речевым интерфейсом

Входе синтеза речевых сообщений используют и иные элементы, формирующую структуру речевого сигнала. Важнейшими из них являются интонация и ударение, которые определяют просодию речи. На уровне акустического сигнала интонация и ударение представляются просодическими характеристиками, к которым относятся [20]: мелодика – изменение частоты основного тона; ритмика – характеризуется длительностью звуков

ипауз; энергетика – характеризуется значением интенсивности звука.

Впроцессе синтеза речи орфографический текст сначала преобразуется в последовательность фонем с указанием значений, необходимых просодических характеристик. С этой целью текст предварительно разбивается по определенным правилам на интонационно-смысловые группы, важнейшей из которых является акцентная группа.

Акцентная группа представляет собой одно или несколько слов объединенных общим просодическим контуром (мелодикой, ритмикой, энергетикой), привязанным к единому групповому ударению. Положение ударения определяется в большей степени длительностью ударного гласного и в меньшей степени его интенсивностью. Для уверенного распознавания положения ударения необходимо, чтобы длительность ударного гласного превышала длительность безударного в 1,5 раза [20].

Обработка естественного языка

545

 

 

Рисунок 9.31 – Обобщенная схема преобразования текста в речь

На рисунке 9.31 изображена обобщенная схема системы, осуществляющей преобразование текста в речь. В системе предусматривается три этапа обработки. На первом этапе осуществляется морфологический и синтаксический анализ текста с целью получения последовательности фонем и разметки интонационно-смысловых групп предложений. В результате формируется внутреннее фонологическое представления текста. На втором этапе выполняется отбор звуковых элементов (или их параметров), соответствующих фонемному представлению текста, и расчет просодических характеристик: длительностей и интенсивностей звуков, частоты основного тона. Синтез речевого сигнала выполняется на третьем этапе. При этом звуки речи формируются либо из предварительно запомненных звуковых элементов естественного происхождения, либо восстанавливаются на основе параметрической модели речеобразования человека.

9.5.2.Методы синтеза речевых сигналов

Всистемах синтеза речи по тексту применяются три основных метода синтеза речевых сигналов: формантный синтез, синтез на основе коэффициентов линейного предсказания (ЛПК-синтез) и конкатенативный синтез.

Формантный синтез и ЛПК-синтез опираются на модель речеобразования человека. В этом случае образование звуков речи представляется как результат прохождения сигнала источника возбуждения через модель речевого тракта. При формировании гласных звуков источник возбужде-

546

Глава 9

 

 

ния формирует импульсы, частота следования которых (частота основного тона Fo) непрерывно изменяется в соответствии с мелодикой речи. Модель речевого тракта реализуется в виде цифрового фильтра с управляемыми параметрами. Возбуждение цифрового фильтра импульсным источником приводит к формированию гласных звуков. Спектр гласных звуков характеризуется рядом максимумов, соответствующих резонансным свойствам голосового тракта. Частоты максимумов называют формантными частотами. Глухие звуки формируются при прохождении через управляемый цифровой фильтр сигнала источника шума. Параметры фильтра могут определяться либо формантными частотами, либо ЛПК-коэффициентами (см. §9.4.2). В первом случае получают формантный синтезатор речи, а во втором – ЛПК-синтезатор речи.

На рисунке 9.32 изображена структурная схема формантного синтезатора [20]. Здесь цифровые фильтры ЦФ1 и ЦФ2 реализуются путем последовательного соединения звеньев второго порядка, моделирующих форманты. Так как ряд звуков образуется при смешанном характере возбуждения голосового тракта, когда действуют тон и шум, то в рассматриваемой модели цифровой фильтр может возбуждаться сигналами и источника импульсов, и источника шума. Управляющими параметрами модели является:

Арн – амплитуда возбуждения ротового и носового каналов голосового тракта; Аа – амплитуда аспиративного возбуждения ротового канала (зада-

ется при формировании небных согласных).

Аф – амплитуда возбуждения фрикативных формант; – частота основного тона;

Fi,Bi – частота и ширина полосы i-ой форманты, i=1,2,3,4.

Рисунок 9.32 – Структурная схема формантного синтезатора

Обработка естественного языка

547

 

 

При синтезе гласных носовых (‘н’,’м’ и др.) и аспиративных звуков (‘к’,’г’ и др.) задаются значения четырех ротовых или двух носовых формант (F1-F4, B1-B4). При синтезе фрикативных звуков (‘с’,’ш’ и пр.) фильтр ЦФ2 настраивается на частоты первой и второй фрикативных формант (F3-F4, B3-B4). Диапазоны значений указанных параметров приведены в [20]. Формантные синтезаторы при надлежащем управлении параметрами позволяют получать синтезированную речь высокого качества. Однако их применение требует проведения большой подготовительной работы, связанной с определением параметров формант и их взаимосвязи с фонемами.

В ЛПК-синтезаторах речевой тракт моделируется рекурсивным цифровым фильтром с передаточной функцией

H ( z )

 

 

1

 

,

(9.20)

 

N

 

 

1

a i

z i 1

 

 

 

i

1

 

 

 

где ai – коэффициенты, определяемые по методу линейного предсказания. ЛПК-анализ был изначально разработан с целью сжатия и восстановления речевых сигналов. Однако хорошее обоснование ЛПК-модели речеобразования позволили применить ее в задаче синтеза речи по тексту. При этом имеется возможность согласования звуков по энергии, по темпу, по частоте основного тона. В то же время звуки, формируемые с помощью носового канала голосового тракта, плохо синтезируются фильтром вида (9.20), имеющим только полосы. Кроме этого, расположение пиков в спектре синтезируемой речи оказывается весьма чувствительным к гармонической структуре возбуждающих импульсов. Это приводит к ухудшению

качества синтезируемой речи.

Лучшие результаты в отношении разборчивости и натуральности звучания речи удается получить с помощью конкатенативного метода синтеза (от англ. concatenate – сцеплять, сглаживать). Наибольшее распространение получили системы дифонного конкатенативного синтеза. Дифоном называют участок речи, расположенный между центрами двух соседних фонем. Дифон содержит переходные элементы речи от одной фонемы к другой, что обеспечивает при синтезе речи ее высокую натуральность. Кроме этого, благодаря тому, что границы дифонов соответствуют серединам фонем, где спектр наиболее стабилен, дифоны легко выделяются. Слова речи при этом синтезируются из предварительно запомненных дифонов. Например, речевой сигнал, соответствующий слову “ива”, образуется из дифонов [ /и], [ив], [ва], [а/], которые могли быть получены из естественной речи при произнесении слов “ил”([/и]), “пиво”([ив]), “квас”([ва]), “изба”([а/]). Здесь знак “/” обозначает паузу речи. При дифонном синтезе требуется запоминание большого числа дифонов (до нескольких тысяч).

548

Глава 9

 

 

В ходе конкатенативного синтеза возникают две основные проблемы. Во первых, формирование речевого сигнала из сегментов, соответствующих дифонам, требует, устранения разрывов, возникающих на границах сегментов. Во-вторых, необходимо осуществлять такое независимое управление длительностью дифонов и частотой основного тона, чтобы сохранялись спектральные портреты формант.

Если разрывы на границах сегментов устраняются путем обычного сглаживания, то управление длительностью дифонов и частотой основного тона требует специального рассмотрения.

Рассмотрим управление просодическими характеристиками синтезируемой речи во временной области на основе метода синхронизации частоты основного тона путем наложения и смещения речевых участков

(TD-PSOLA – time-domain pitch - synchronous overlap-add). В соответствии c этим методом сначала выполняется анализ речевого сигнала. При этом размечается каждый период основного тона и участки речи, соответствующие фрикативным звукам. На рисунке 9.33 изображен пример разметки речевого сигнала. Квазипериоды основного тона обозначены на рисунке буквой “p”, а участки речи, соответствующие фрикативным звукам буквой “u”. Затем формируется последовательность перекрывающихся кратковременных сигналов, образуемых из соседних участков речи, взвешенных с помощью окна Хемминга w. Длительность каждого кратковременного сигнала равна двум квазипериодом основного тона. Кратковременный сигнал рассматривается как звонкий, если его правая часть имеет метку “p”, и наоборот, если правая часть имеет метку “u”, то сигнал считается фрикативным.

Рисунок 9.33Формирование кратковременных речевых сигналов

Обработка естественного языка

549

 

 

Синтез речевого сигнала заключается в объединении кратковременных сигналов, полученных в ходе анализа. Если расположить все кратковременные сигналы в точном соответствии с их исходным положением, то можно восстановить речевой процесс.

Если требуется изменить частоту основного тона, то перед объединением кратковременных сигналов увеличивают или уменьшают расстояние между их центрами. Так как изменение частоты основного тона может привести к изменению длительности исходного речевого сигнала, то выполняется коррекция длительности.

Управление длительностью состоит в повторении или исключении отдельных сигналов. Повторение кратковременных звонких сигналов не вызывает никаких проблем. Однако простые повторения фрикативных кратковременных сигналов приводят к ухудшению звучания речи. Один из путей решения данной проблемы состоит в “инвертировании” времени каждого нечетного повторения фрикативного кратковременного сигнала. Рассмотренная процедура позволяет перестраивать частоту основного тона в 0,7-1,4 раза при изменении длительности в 0,5-2 раза без заметного ухудшения качества речи [92].

9.5.3. Определение управляющих параметров синтезаторов сигналов

Задача преобразования текста в речь предполагает решение двух подзадач (рисунок 9.31): преобразование орфографического текста в последовательность фонем с выделением интонационно-смысловых групп и разметкой ударений; определение параметров, непосредственно управляющих процессом синтеза речевых сигналов (параметры формант или индексы дифонов, длительности звуковых элементов и частота основного тона).

Преобразование орфографического текста. Орфографический текст, поступающий на вход системы синтеза речи, подвергается разметке. В нём выделяются следующие фонетические элементы: фраза, синтагма, акцентная группа, фонетическое слово, слог.

Фраза – это наиболее крупная фонетическая единица, представляющая законченное по смыслу высказывание, объединенное особой интонацией и отделенное от других таких же единиц паузой. Фраза не совпадает с предложением. В предложении может быть несколько фраз. Например: “Шумит лес, журчит ручей, / Сергей, прикрыв глаза, наслаждался природой / ”. Произнося это предложение, мы делаем паузы (знак ‘/‘), отделяя одну фразу от другой. Каждая фраза интонационно оформлена. Интонация проявляется в изменениях частоты основного тона, темпа речи, силы (интенсивности) звучания, внутрифразовых паузах. С помощью интонации

Соседние файлы в папке Не books