Добавил:
natribu.org Все что нашел в интернете скидываю сюда Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Точно Не проект 2 / Не books / Источник_1

.pdf
Скачиваний:
10
Добавлен:
01.02.2024
Размер:
20.67 Mб
Скачать

520

Глава 9

 

 

четвертых, различиями между дикторами, которые вызваны особенностями голосового тракта, диалектами языка.

Таблица 9.1 – Параметры некоторых систем АРР

Система

Размер

Стиль

Уровень

Качество

ОРС, %

 

словаря,

Речи

шумов

канала

 

 

слов

 

 

 

 

Информаци-

2000

Спонтан-

Низкий

Широко-

2.1

онная система

 

ный

 

полосный

 

воздушных

 

 

 

 

 

судов

 

 

 

 

 

Североамери-

60000

Детерми-

Низкий

Широко-

6.6

канская

 

нирован-

 

полосный

 

система

 

ный

 

 

 

деловых

 

 

 

 

 

новостей

 

 

 

 

 

Система

60000

Комбини-

Различный

Различ-

27.1

новостей ра-

 

рованный

 

ное

 

дио и

 

 

 

 

 

телевидения

 

 

 

 

 

Система рас-

23000

Спонтан-

Низкий

Телефон-

35.1

познавания

 

ный

 

ная линия

 

телефонных

 

 

 

 

 

сообщений

 

 

 

 

 

На рисунке 9.16 изображены основные компоненты системы распознавания речи. Оцифрованный речевой сигнал поступает на вход блока предварительной обработки, где осуществляется выделение признаков, необходимых для распознавания звуков. Распознавание звуков часто осуществляют с помощью моделей искусственных нейронных сетей (ИНС). Выделенные звуковые единицы используют в дальнейшем для поиска последовательности слов, в наибольшей степени соответствующей входному речевому сигналу. Поиск последовательности слов выполняется с помощью акустической, лексической и языковой моделей. Параметры моделей определяют по обучающим данным на основе соответствующих алгоритмов обучения.

Обработка естественного языка

521

 

 

 

Рисунок 9.22 – Компоненты системы АРР

Рассмотрим подробнее указанные компоненты системы распознавания речи.

9.4.2. Предварительная обработка и распознавание звуков

Голосовой аппарат человека представляет собой акустическую систему, состоящую из ротового и носового каналов, возбуждаемую квазипериодическими импульсными колебаниями голосовых связок или турбулентным шумом. Турбулентный шум образуется путем проталкивания воздуха через сужения в определенных областях голосового тракта. Голосовой аппарат, возбуждаемый указанными источниками, действует как линейный фильтр с изменяющимися во времени параметрами, на выходе которого формируется речевой сигнал. На коротких интервалах времени речевой сигнал можно аппроксимировать сверткой возбуждающего сигнала с импульсной характеристикой голосового тракта. В соответствии с рассмотренной моделью звонкие (вокализованные) звуки формируются с участием голосовых связок, а шумовые (фрикативные) – за счет прохождения воздуха через сужения голосового тракта. Частота колебания голосовых связок при произнесении звонких звуков называется частотой основного тона. Форма голосового тракта остается неизменной на интервале 10-30 мс. На этом интервале речь рассматривается как стационарный случайный процесс. Поэтому большинство алгоритмов предварительной обработки обеспечивают анализ речи на указанном интервале времени.

522

Глава 9

 

 

Простейшее цифровое представление речи заключается в непосредственной дискретизации непрерывного цифрового сигнала. Выбор частоты дискретизации определяется решаемой задачей. Фрикативные звуки речи занимают сравнительно широкую полосу частот (примерно до 10 КГц). Вокализованные звуки, значительно влияющие на разборчивость речи, занимают полосу частот примерно до 3 КГц. Таким образом, частота дискретизации обычно выбирается в пределах от 8 до 20 КГц. При этом разрядность преобразования составляет 8-12 бит. Если в ходе аналого-цифрового преобразования речи используются частота дискретизации 8 КГц и разрядность преобразования 8 бит, то речевой сигнал длительностью 15 с будет занимать в памяти примерно 1 Мбайт. Манипулировать таким объемом данных при решении задачи распознавания звуков не эффективно. Поэтому после аналого-цифрового преобразования осуществляется предварительная обработка речевого сигнала с целью выделения существенных признаков, обеспечивающих распознавание звуков.

a) б)

Рисунок 9.23 – Вокализованный (а) и фрикативный (б) речевые сигналы и их спектры

Во многих случаях признаковое описание речевого сигнала получают на основе анализа кратковременного спектра Фурье, представленного в логарифмическом масштабе. На рисунке 9.23 изображены реализации вокализованного и фрикативного участков речи и их кратковременные спектры Фурье [6]. Структура кратковременного спектра вокализованных участков

Обработка естественного языка

523

 

 

 

речи характеризуются наличием медленно меняющейся и быстро меняющейся составляющих. Быстро меняющаяся или пульсирующая составляющая обусловлена квазипериодическими колебаниями голосовых связок. Медленно меняющаяся составляющая (огибающая) связана с собственными резонансными частотами голосового тракта – формантами. В среднем на графике спектра насчитывается 3-5 формант. Первые три форманты оказывают существенное влияние на разборчивость речи.

Быстро меняющаяся составляющая определяет индивидуальные параметры диктора. Чтобы снизить зависимость качества распознавания от диктора, выполняют сглаживание кратковременного спектра, подавляя быстро меняющуюся составляющую. Такое сглаживание может выполняться различными способами. Один из способов заключатся в разбиении частотной оси на 12-20 полос различной ширины с учетом слухового восприятия человека [6]. В каждой полосе вычисляют среднее значение спектральных составляющих. В итоге получают 12-20 элементный вектор спектральных признаков речевого сигнала. Следует отметить, что указанный вектор можно также получить с помощью банка цифровых фильтров. В этом случае речевой сигнал пропускают через блок из 12-20 полосовых фильтров и определяют на интервале 10-30 мс энергию выходного сигнала каждого из фильтров (рисунок 8.20)

Другие подходы, используемые при формировании вектора признаков, основаны на выполнении кепстрального или линейного предиктивного анализа. Кепстральный анализ выполняется путем вычисления обратного преобразования Фурье от логарифма кратковременного спектра. В этом случае необходимая лингвистическая информация сосредоточена в кепстральных коэффициентах, относящихся к области малых времен [6]. Из этих коэффициентов и формируется вектор признаков. Линейный предиктивный анализ выполняется на основе предсказания текущего отсчета речевого сигнала по линейной комбинации предыдущих отсчетов, т.е.

~

P

 

 

 

 

 

s[n] a[k]s[n k],

 

 

 

k 1

 

 

~

 

s[n k]

отсчёты

где s[n] – предсказанное значение речевого сигнала;

речевого сигнала, a[k] коэффициенты линейного предсказания (ЛПК-

коэффициенты); P порядок модели предсказания [6,23]. ЛПКкоэффициенты отражают свойства голосового тракта и содержат существенную лингвистическую информацию. Однако они весьма чувствительны к шуму, присутствующему в речевом сигнале.

Во многих системах АРР при формировании вектора признаков учитывается изменение спектральных свойств речевого сигнала во време-

524

Глава 9

 

 

ни. В простейшем случае такая динамическая информация определяется на основе сравнения соседних кратковременных спектров. В настоящее время наиболее распространенной является предварительная обработка речи на перекрывающих интервалах длительностью 25 мс, в ходе которой формируется 39-элементный вектор, содержащий энергию сигнала, 12 спектральных коэффициентов, полученных с учетом свойств слухового восприятия человека, их первые и вторые производные [88].

На этапе распознавания звуков во многих АРР системах применяются алгоритмы, основанные на векторном квантовании. Если на сегменте (10-30 мс) речевого сигнала вычисляется n признаков, то вектор признаков можно представить точкой в n-мерном пространстве. Алгоритмы векторного квантования обеспечивают разбиение этого пространства на ограниченное количество областей, каждая из которых соответствует определенной группе звуков речи. Конкретный звук может быть задан указанием центра области или эталонным вектором. Такие области называют кластерами. В процессе распознавания вектор признаков речевого сигнала отображается в некоторый номер эталона. Иными словами, n-элементный вектор заменяется числом. Подобная схема распознавания выполняется, например, с помощью нейронной сети, изображенной на рисунке 8.20. Формирование эталонных векторов осуществляется в процессе обучения. Векторное квантование часто реализуют с помощью алгоритма K-средних (см. главу 8). Если вектор признаков является 20 элементным, и каждый из признаков представим целым числом, занимающим в памяти 2 байта, то при квантовании векторного пространства, например, на 256 областей (в этом случае номер эталона представляется одним байтом) происходит 40-кратное сжатие данных. Безусловно, часть информации входе векторного квантования теряется. Однако тщательное определение параметров эталонных векторов позволяет минимизировать эти потери. Таким образом, на выходе блока распознавания (рисунок 9.22) формируется последовательность номеров эталонных векторов, которая заменяет собой реальный речевой сигнал, поступающий на вход системы АРР.

Внекоторых системах этап векторного квантования не выполняется.

Вэтом случае при поиске последовательности слов, соответствующих фрагменту речевого сигнала, используют непосредственно векторы акустических признаков.

9.4.3. Статистический подход к распознаванию речи

Распознавание речи может рассматриваться как задача восстановления последовательности слов W по известному акустическому сигналу,

Обработка естественного языка

525

 

 

 

представленному номерами векторов эталонов X.1) Это классическая задача принятия решений в условиях неопределенности. Неопределенность здесь порождается акустическими шумами, изменением свойств входных каналов во времени, изменчивостью фонем и многими другими причинами.

Воспользуемся статистическим подходом к поиску решений в условиях неопределенности, основанном на правиле Байеса. Задача состоит в том, чтобы по совокупности номеров векторов эталонов Х найти наиболее вероятную последовательность слов W*, обеспечивающую максимум апостериорной вероятности P(W|X), т.е.

P(W * | X ) max P(W | X ) .

W

Модели, используемые в системах АРР, не позволяют непосредственно вычислять апостериорную вероятность P(W|X). Однако они обеспечивают вычисление вероятности P(X|W), которая представляет собой априорную вероятность формирования последовательности Х при произнесении последовательности слов W. Апостериорная вероятность P(W|X) может быть определена из правила Байеса

P(W | X)

P(W)P(X |W)

 

P(W)P(X |W)

 

 

 

P(X |Wj )P(Wj ) ,

(9.6)

 

P(X)

Wj

где P(W) априорная вероятность последовательности слов W; P(X) априорная вероятность последовательности Х (номера векторов эталонов). В процессе распознавания P(X) не меняет своих значений и может не приниматься во внимания при принятии решения в соответствии с (9.6). Следовательно, последовательность слов W*, максимизирующая P(W|X), также максимизирует произведение P(W)P(X|W). Безусловная вероятность последовательности слов P(W) вычисляется на основе модели языка, которая позволяет отбирать в ходе поиска наиболее вероятные последовательности слов W. В простейшем случае распознавания изолированных слов ограниченного словаря P(W)=1/V, где V – количество слов словаря. Условная вероятность P(X|W) вычисляется на основе акустической модели, обеспечивающей отбор более вероятных вариантов звуковой реализации последовательности слов W, представленной номерами векторов эталонов X. Таким образом, формально задача АРР может быть сформулирована в следующем виде:

W* argmaxP(X |W)P(W).

(9.7)

W

 

1) Случай, когда поиск выполняется непосредственно с помощью последовательности векторов признаков, рассмотрим позже.

526

Глава 9

 

 

Параметры языковой и акустической модели оцениваются по экспериментальным данным с определенной погрешностью. Так как эта погрешность может быть различной для указанных выше моделей, то вклад каждой из моделей в результат поиска последовательности W* регулируется с помощью весового коэффициента β (β≤1) [80]:

W* argmax{logP(X |W) logP(W)}.

(9.8)

W

 

Выражение (9.8) может рассматриваться в качестве критерия принятия решения в условиях двух экспертных оценок.

9.4.4. Модель языка

Модель языка (МЯ) обеспечивает формирование последовательностей слов, которые потенциально могут быть распознаны системой АРР. В частности, она позволяет оценить вероятность появления слова wi в окружении слов из последовательности W. МЯ интегрирует в себе лингвистические знания, знания о предметной области и другую информацию с целью сокращения пространства поиска.

Так как вероятность появления слова зависит от того ранее произнесенных слов, то вероятность последовательности слов w1w2w3...wM можно представить в виде

P(w1...wM ) P(w1)P(w2 |w1)P(w3 |w1w2) P(wM |w1 wM 1). (9.9)

Например, совместная вероятность появления последовательности слов книга лежит на столеопределится по формуле:

Р(книга лежит на столе)=Р(книга) Р(лежит|книга)P(на|книга лежит)

Р(столе|книга лежит на ).

Перепишем (9.9) в форме:

M

 

P(w1 wM ) P(W1M ) P(wi |w1,w2, wi 2,wi 1).

(9.10)

i 1

wi 1

Обработка естественного языка

527

 

 

 

Выражение (9.10) позволяет ввести понятие N-грамной модели, в соответствии с которой вероятность появления некоторого слова зависит только от появления N предшествующих слов:

P(wi |W1i 1) P(wi |Wii N1 1).

Определение условных вероятностей P(wi |Wii N1 1 ) при больших значениях N требует значительных вычислительных ресурсов. Поэтому на практике рассматривают вероятность появления слова wi при ограниченной длине предшествующего контекста. Наиболее часто используется би-

грамная модель (N=2). В этом случае условная вероятность P(wi |Wii N1 1 )

аппроксимируется вероятностью P(wi | wi 1). Иными словами, вероятность появления слова wi определяется только предыдущим словом в последовательности W. Тогда совместная вероятность появления последовательности слов W определится из формулы

n

P(w1 wn ) P(w1)P(w2 | w1)P(w3 | w2 ) P(wn | wn 1) P(wi | wi 1).

i 1

Например,

Р(книга лежит на столе)=Р(книга)Р(лежит|книга)Р(на|лежит)Р(столе|на).

Существенным преимуществом биграмной модели является простота оценивания ее параметров. Оценка P(wi |wi 1) получается путем под-

счета частоты появления слова wi , если предыдущим было слово wi 1 . Например, если в совокупности обучающих данных слово “на” встретилось 1000 раз, а в сочетании “лежит на” 29 раз, то

P (на|лежит)=29/1000=0,029.

Если обучающие данные не полные, то допустимым последовательностям слов могут быть назначены нулевые вероятности.

Кроме биграмной модели, часто применяется триграмная языковая модель, основанная на использовании условных вероятностей вида P(wi |wi 1,wi 2). Эта модель предоставляет больше возможностей. В частности, с ее помощью можно непосредственно установить, что последователь-

528

Глава 9

 

 

ность слов “он ест торт” более вероятна, чем “он ест порт”. Оценка условных вероятностей триграмных моделей выполняется с помощью формулы:

^

C(i 2,i 1,i)

 

P(wi |wi 1,wi 2) C(i 2,i 1) ,

(9.11)

где C(i 2,i 1,i) и C(i 2,i 1) – количество случаев, когда наблюдались последовательности слов {wi 2 ,wi 1,wi} и {wi 2 ,wi 1}, соответственно.

Применение триграмных моделей требует значительных объемов данных для корректного оценивания соответствующих вероятностей. Для словаря размером V существует V 3 возможных триграм. Например, при словаре 20000 слов потенциально возможно 8 млрд. триграм. Однако реальные обучающие данные могут содержать не все триграммы. С учетом формулы (9.11) триграмам, которые не встретились в обучающем наборе данных, будут назначены нулевые оценки вероятностей появления. Чтобы избежать этого, применяют интерполяционную оценку вероятности, комбинирующую триграмную, биграмную и униграмную оценки

 

 

 

1

 

P 3P(wi

|wi 1,w1 2 ) 2P(wi

|wi 1) 1P(wi ) o

,

V

 

 

 

 

где 3, 2, 1, 0 – коэффициенты интерполяции.

Биграммные и триграммные модели полностью игнорируют лингвистическую структуру предложений. В частности, они не позволяют учесть “дальние” синтаксические отношения, существующие между словами предложения. Другим недостатком N-грамных моделей является чувствительность к подмножеству языка, представленного обучающими наборами данных. Поэтому N-грамные модели, построенные для одной области приложений, плохо переносятся на другую область. Это приводит к необходимости индивидуального отбора обучающих данных для каждой новой прикладной области.

Вместе с тем, благодаря своей простоте, рассмотренные модели применяются во многих APP-системах.

9.4.5. Акустическая модель

Акустическая модель (AM) позволяет установить, какие звуки соответствуют заданной последовательности слов. AM можно представить в виде двух частей. Первая часть модели описывает слово в виде последовательности звуков транскрипции. Вторая часть модели показывает, как

Обработка естественного языка

529

 

 

 

каждый из звуков соотносится с последовательностью векторов эталонов, получаемых в результате векторного квантования.

Некоторые из слов характеризуются простой моделью произношения. Например, произношение слова “вал” совпадает с его написанием. Многие слова имеют различные варианты произношения, которые объясняются особенностями диалекта языка, стилем произношения (полный и неполный), коартикуляционными эффектами и другими причинами. Например, слово “молочная” можно произнести несколькими способами:[молочнаjа], [молошнаjа], [малошнаjа], [малочнаjа].

Различные варианты произношения слова можно представить в виде модели (цепи) Маркова. В общем случае цепь Маркова позволяет описывать процессы, последовательно проходящие через конечное множество состояний.

Марковская цепь представляется в виде графа, узлами которого являются состояния, а дуги соответствуют возможным переходам состояний. С каждым узлом цепи Маркова связывают определенный символ, а с каждой дугой – вероятность смены состояния. Вероятность смены одного состояния на другое зависит только от предыдущего состояния.

На рисунке 9.24 изображены различные варианты произношения слова “молочная” в виде цепи Маркова. Каждому состоянию цепи соответствует определенный звук. Направленные дуги показывают возможные переходы состояний. Числа, записанные рядом с дугами, представляют вероятности соответствующих переходов. Единичные значения вероятностей на рисунке не показаны.

Рисунок 9.24 – Модель произношения слова “молочная”

Вероятность перехода из начального состояния в конечное состояние вычисляется как произведение вероятностей переходов вдоль соответствующего пути. В рассматриваемом случае имеется четыре пути, ведущих из начального состояния в конечное. Следовательно, различным вариантам произношения слова “молочная” можно назначить следующие вероятности:

Соседние файлы в папке Не books