Точно Не проект 2 / Не books / Источник_1
.pdfОбработка естественного языка |
541 |
|
|
|
|
T 1 |
|
|
N (i, j) t (i, j) – количество |
переходов из состояния S(i) в со- |
|
t 1 |
|
|
стояние S(j), которое обеспечивает формирование выходного символа;
T
K(i) t (i) – количество переходов из состояния S(i).
t 1
Тогда при 0 < j, i < N элементы матриц A и B вычисляются по формулам:
a0 j 1(j);
aij N(i, j)/K(i); aiN T (i)/K(i);
|
|
|
|
|
T |
|
|
|
|
|
|
t (i)/K(i), |
1 j M. |
bij bi (cj ) |
||||||
|
|
|
|
|
t 1,xt cj |
|
Приведенные выражения позволяют по заданной модели (A,B)
построить новую модель (A,B). При этом P(X | ) P(X | ).
В алгоритме Баума-Уэлча на каждом шаге итерации модель замещается моделью . Это обеспечивает монотонное увеличение P(X | ). Процесс завершается, когда вероятность P(X | ) больше не увеличивает-
ся, т.е. P(X | ) P(X | ). К сожалению, алгоритм Баума-Уэлча не гарантирует нахождение глобальных экстремумов.
9.4.9. СММ с непрерывными параметрами
До сих пор рассматривался случай дискретных СММ, в которых наблюдаемый процесс соответствует символам фиксированного алфавита C {c1,c2,...,cM }. В этом случае распределение вероятностей выходных символов i-го состояния задается вероятностями появления отдельных символов bi(cj ), где i j M . Это требует квантования непрерывных зна-
чений векторов-признаков речевого сигнала. Данный процесс реализуется с помощью векторного квантователя. С одной стороны, это обеспечивает эффективное представление речевого сигнала, а с другой, приводит к неизбежным погрешностям квантования, которые могут ухудшать распознавание речи.
Для того чтобы исключить влияние векторного квантования, применяют СММ, в которых наблюдаемый процесс описывается непрерывными
Обработка естественного языка |
543 |
|
|
|
|
В заключение отметим, что для систем распознавания слитной речи с большим объемом словаря количество оцениваемых параметров может достигать нескольких миллионов. Поэтому для обучения таких систем требуется большие объёмы речевых данных [72].
Лучшие системы распознавания речи обеспечивают распознавание от 80 до 98 % слов. Если речь вводится через хороший микрофон и характеризуется небольшим объемом словаря, ограниченной моделью языка, позволяющей легко предсказать следующее вводимое слово, раздельным произнесением слов, то распознавание речи осуществляется с высокой точностью. Системы АРР пока плохо работают в условиях ввода речевых сигналов посредством телефонных линий при наличии высокого уровня окружающих акустических шумов, когда не ограничивается размер словаря, и речь является слитной.
9.5. Синтез речи по тексту
9.5.1. Основные понятия
Во многих случаях создание СИИ с элементами ЕЯ-общения требует вывода сообщений в речевой форме. На рисунке 9.30 изображена структурная схема интеллектуальной вопросно-ответной системы с речевым интерфейсом. Пользователь вводит запрос в устной форме, который преобразуется в последовательность слов с помощью подсистемы распознавания речи. Интерпретация запроса осуществляется подсистемой понимания высказываний, формирующей представление смысла запроса на внутреннем языке системы. Машина вывода, анализируя содержимое базы знаний и данных, обеспечивает получение ответа на запрос. Подсистема генерации высказываний осуществляет преобразование семантических структур, формируемых машиной вывода, в ЕЯ-текст, представленный в виде предложений. Текст с помощью подсистем синтеза речи преобразуется в речевой сигнал, который непосредственно воспринимается пользователем. К достоинствам речевого интерфейса следует отнести, доступ к информационным ресурсам СИИ с помощью простых средств, например, телефона. Кроме этого, существенно облегчается работа неподготовленных пользователей, так как для общения с системой используется естественная речь.
Рассмотрим особенности функционирования подсистемы синтеза речи по тексту. В этом случае речевое сообщение формируется из отдельных элементов речи естественного или искусственного происхождения. Ранее отмечалось, что минимальной смысловой единицей речи является фонема. Напомним, что одна и та же фонема в речи реализуется в виде
544 |
Глава 9 |
|
|
различных звуков. Последовательности различных звуков, соответствующие одной и той же фонеме, называются аллофонами.
Рисунок 9.30 – Структурная схема СИИ с речевым интерфейсом
Входе синтеза речевых сообщений используют и иные элементы, формирующую структуру речевого сигнала. Важнейшими из них являются интонация и ударение, которые определяют просодию речи. На уровне акустического сигнала интонация и ударение представляются просодическими характеристиками, к которым относятся [20]: мелодика – изменение частоты основного тона; ритмика – характеризуется длительностью звуков
ипауз; энергетика – характеризуется значением интенсивности звука.
Впроцессе синтеза речи орфографический текст сначала преобразуется в последовательность фонем с указанием значений, необходимых просодических характеристик. С этой целью текст предварительно разбивается по определенным правилам на интонационно-смысловые группы, важнейшей из которых является акцентная группа.
Акцентная группа представляет собой одно или несколько слов объединенных общим просодическим контуром (мелодикой, ритмикой, энергетикой), привязанным к единому групповому ударению. Положение ударения определяется в большей степени длительностью ударного гласного и в меньшей степени его интенсивностью. Для уверенного распознавания положения ударения необходимо, чтобы длительность ударного гласного превышала длительность безударного в 1,5 раза [20].
Обработка естественного языка |
545 |
|
|
Рисунок 9.31 – Обобщенная схема преобразования текста в речь
На рисунке 9.31 изображена обобщенная схема системы, осуществляющей преобразование текста в речь. В системе предусматривается три этапа обработки. На первом этапе осуществляется морфологический и синтаксический анализ текста с целью получения последовательности фонем и разметки интонационно-смысловых групп предложений. В результате формируется внутреннее фонологическое представления текста. На втором этапе выполняется отбор звуковых элементов (или их параметров), соответствующих фонемному представлению текста, и расчет просодических характеристик: длительностей и интенсивностей звуков, частоты основного тона. Синтез речевого сигнала выполняется на третьем этапе. При этом звуки речи формируются либо из предварительно запомненных звуковых элементов естественного происхождения, либо восстанавливаются на основе параметрической модели речеобразования человека.
9.5.2.Методы синтеза речевых сигналов
Всистемах синтеза речи по тексту применяются три основных метода синтеза речевых сигналов: формантный синтез, синтез на основе коэффициентов линейного предсказания (ЛПК-синтез) и конкатенативный синтез.
Формантный синтез и ЛПК-синтез опираются на модель речеобразования человека. В этом случае образование звуков речи представляется как результат прохождения сигнала источника возбуждения через модель речевого тракта. При формировании гласных звуков источник возбужде-
Обработка естественного языка |
547 |
|
|
При синтезе гласных носовых (‘н’,’м’ и др.) и аспиративных звуков (‘к’,’г’ и др.) задаются значения четырех ротовых или двух носовых формант (F1-F4, B1-B4). При синтезе фрикативных звуков (‘с’,’ш’ и пр.) фильтр ЦФ2 настраивается на частоты первой и второй фрикативных формант (F3-F4, B3-B4). Диапазоны значений указанных параметров приведены в [20]. Формантные синтезаторы при надлежащем управлении параметрами позволяют получать синтезированную речь высокого качества. Однако их применение требует проведения большой подготовительной работы, связанной с определением параметров формант и их взаимосвязи с фонемами.
В ЛПК-синтезаторах речевой тракт моделируется рекурсивным цифровым фильтром с передаточной функцией
H ( z ) |
|
|
1 |
|
, |
(9.20) |
|
N |
|
|
|||
1 |
a i |
z i 1 |
|
|||
|
|
i |
1 |
|
|
|
где ai – коэффициенты, определяемые по методу линейного предсказания. ЛПК-анализ был изначально разработан с целью сжатия и восстановления речевых сигналов. Однако хорошее обоснование ЛПК-модели речеобразования позволили применить ее в задаче синтеза речи по тексту. При этом имеется возможность согласования звуков по энергии, по темпу, по частоте основного тона. В то же время звуки, формируемые с помощью носового канала голосового тракта, плохо синтезируются фильтром вида (9.20), имеющим только полосы. Кроме этого, расположение пиков в спектре синтезируемой речи оказывается весьма чувствительным к гармонической структуре возбуждающих импульсов. Это приводит к ухудшению
качества синтезируемой речи.
Лучшие результаты в отношении разборчивости и натуральности звучания речи удается получить с помощью конкатенативного метода синтеза (от англ. concatenate – сцеплять, сглаживать). Наибольшее распространение получили системы дифонного конкатенативного синтеза. Дифоном называют участок речи, расположенный между центрами двух соседних фонем. Дифон содержит переходные элементы речи от одной фонемы к другой, что обеспечивает при синтезе речи ее высокую натуральность. Кроме этого, благодаря тому, что границы дифонов соответствуют серединам фонем, где спектр наиболее стабилен, дифоны легко выделяются. Слова речи при этом синтезируются из предварительно запомненных дифонов. Например, речевой сигнал, соответствующий слову “ива”, образуется из дифонов [ /и], [ив], [ва], [а/], которые могли быть получены из естественной речи при произнесении слов “ил”([/и]), “пиво”([ив]), “квас”([ва]), “изба”([а/]). Здесь знак “/” обозначает паузу речи. При дифонном синтезе требуется запоминание большого числа дифонов (до нескольких тысяч).
Обработка естественного языка |
549 |
|
|
Синтез речевого сигнала заключается в объединении кратковременных сигналов, полученных в ходе анализа. Если расположить все кратковременные сигналы в точном соответствии с их исходным положением, то можно восстановить речевой процесс.
Если требуется изменить частоту основного тона, то перед объединением кратковременных сигналов увеличивают или уменьшают расстояние между их центрами. Так как изменение частоты основного тона может привести к изменению длительности исходного речевого сигнала, то выполняется коррекция длительности.
Управление длительностью состоит в повторении или исключении отдельных сигналов. Повторение кратковременных звонких сигналов не вызывает никаких проблем. Однако простые повторения фрикативных кратковременных сигналов приводят к ухудшению звучания речи. Один из путей решения данной проблемы состоит в “инвертировании” времени каждого нечетного повторения фрикативного кратковременного сигнала. Рассмотренная процедура позволяет перестраивать частоту основного тона в 0,7-1,4 раза при изменении длительности в 0,5-2 раза без заметного ухудшения качества речи [92].
9.5.3. Определение управляющих параметров синтезаторов сигналов
Задача преобразования текста в речь предполагает решение двух подзадач (рисунок 9.31): преобразование орфографического текста в последовательность фонем с выделением интонационно-смысловых групп и разметкой ударений; определение параметров, непосредственно управляющих процессом синтеза речевых сигналов (параметры формант или индексы дифонов, длительности звуковых элементов и частота основного тона).
Преобразование орфографического текста. Орфографический текст, поступающий на вход системы синтеза речи, подвергается разметке. В нём выделяются следующие фонетические элементы: фраза, синтагма, акцентная группа, фонетическое слово, слог.
Фраза – это наиболее крупная фонетическая единица, представляющая законченное по смыслу высказывание, объединенное особой интонацией и отделенное от других таких же единиц паузой. Фраза не совпадает с предложением. В предложении может быть несколько фраз. Например: “Шумит лес, журчит ручей, / Сергей, прикрыв глаза, наслаждался природой / ”. Произнося это предложение, мы делаем паузы (знак ‘/‘), отделяя одну фразу от другой. Каждая фраза интонационно оформлена. Интонация проявляется в изменениях частоты основного тона, темпа речи, силы (интенсивности) звучания, внутрифразовых паузах. С помощью интонации