Добавил:
natribu.org Все что нашел в интернете скидываю сюда Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Точно Не проект 2 / Не books / Источник_1

.pdf
Скачиваний:
10
Добавлен:
01.02.2024
Размер:
20.67 Mб
Скачать

550

Глава 9

 

 

производится членение предложения на семантико-синтаксические единицы – синтагмы. Одно и то же предложение в зависимости от цели сообщения может члениться на синтагмы по-разному. Например: “Петр вылетел в Париж” – предложение состоит из одной синтагмы; “Петр вылетел / в Париж” – предложение состоит из двух синтагм, где вторая синтагма уточняет место. Каждой синтагме может присваиваться один из возможных интонационных типов: повествовательный, вопросительный, восклицательный. Повествовательный тип характеризуется повышением тона в начале синтагмы и понижением в конце синтагмы; вопросительный тип характеризуется резким повышением тона в конце синтагмы; интонация восклицательной синтагмы одинаково высокая. Существует также большое число оттенков указанных интонационных типов. Например, повествовательная синтагма внутри предложения характеризуется интонацией незаконченности. Паузы между синтагмами короче, чем между фразами.

В пределах каждой синтагмы выделяют акцентные группы, соответствующие одному или нескольким словам, связанным общим групповым ударением. Слова в акцентной группе получают разные по силе ударения. Ударение, характеризуемое большей силой, называется основным. Основное ударение часто получает первое слово акцентной группы. Остальные слова получают слабое ударение. При этом во многих системах синтеза речи выделяют разные уровни относительных ударений, обозначаемые цифрами. Например:

1

3

2

“ Петр

вылетел

в Париж ”.

Здесь слово с ударением основного уровня обозначено цифрой 1, слово с ударением второго уровня цифрой 2 и т.д.

Необходимо отметить, что назначение уровней ударения словам в значительной степени определяется семантическим контекстом предложения. Так, если необходимо подчеркнуть, что Петр не поехал поездом, а отправился в Париж самолетом, то уровни ударения будут назначены следующим образом:

3

1

2

“ Петр

вылетел

в Париж ”.

Следует различать понятия лексического и фонетического слова. Фраза имеет столько фонетических слов, сколько ударений. Так как некоторые лексические слова не несут ударений, то нередко фонетических слов оказывается меньше, чем лексических. К безударным словам относятся предлоги, союзы, частицы, которые в ходе разметки предложения “склеивают” с предыдущим или следующим словом. Безударные слова, объеди-

Обработка естественного языка

551

 

 

няемые со следующим словом, называют прокликтиками, а объединяемые с предыдущим словом – энкликтиками. Прокликтиками обычно представлены предлоги, союзы, частицы. Энкликтиками часто бывают частицы и знаменательные слова (пóд ноги, чáс óт часу).

Впростых системах разметка текста выполняется на основе анализа знаков пунктуации и несложных правил преобразования орфографического текста в фонетический.

Вболее совершенных системах выполняется автоматическая разметка текста с помощью методов синтаксического и морфологического анализа. В ходе указанных видов анализа для каждого предложения может строиться дерево грамматического разбора, отражающее как структуру предложения, так и структуру каждого слова. Выполнение синтаксического анализа позволяет:

-корректно определять интонационно смысловые группы, назначать уровни ударений, присваивать группам соответствующие интонационные типы;

-определять правильное произношение аббревиатур и чисел, например, “16 января состоится…” (шестнадцатого января состоится…) или “к 16 января” (к шестнадцатому января).

Входе синтаксического анализа устанавливается грамматическая функция каждого слова предложения. При этом обычно используется словарь (лексикон), в котором для каждого слова вместе с его орфографическим написанием хранятся следующие сведения: падеж, число, род, фонетическая транскрипция. Наличие производных слов языка требует выполнения морфологического анализа, в ходе которого корректно определяются необходимые грамматические атрибуты слов, не обнаруженных в словаре. В этом случае применяются словари морфем, из которых по определенным правилам образуется слово. Транскрипция слова, не найденного в словаре, также получается с помощью правил.

Таким образом, на выходе блока анализа (рисунок 9.31) формируется фонетическое представление предложений текста с выделенными интона- ционно-смысловыми группами, их интонационными типами и уровнями ударений. На основе данного представления осуществляется определение просодических характеристик и выполняется поиск звуковых элементов (или их параметров), из которых синтезируется речевой сигнал.

Определение просодических характеристик. Расчет просодиче-

ских параметров форматного синтезатора детально описан в [20]. Поэтому здесь проиллюстрируем только основные моменты определения параметров конкатенативного синтезатора на примере системы SVOX [92], осуществляющей преобразование текста в речь для немецкого языка.

Рассмотрим в качестве примера фонологическое представление предложения “ein grosses atlantisches Sturmtief verlagert sich heute nach Os-

552

Глава 9

 

 

ten” (большой атлантический циклон перемещается сегодня на восток), формируемое на выходе блока анализа системы SVOX:

Здесь использованы следующие условные обозначения:

#{n} – граница фразы, где n – число; если n=0, то обозначение соответствует паузе между предложениями; если n=1, то паузе внутри предложения; если n>1, то обозначает границу фразы без паузы;

(X) – обозначает интонационный тип; если X=P, то речевой такт (от одной границы до другой) характеризуется интонацией незаконченности; если X=T, то речевой такт характеризуется интонацией, свойственной окончанию повествовательного предложения;

[n] – обозначает уровень ударения, где n=0,1,2,3; 0 – обозначает безударный слог.

Уровни ударения в системе SVOX интерпретируются следующим образом:

[1][+f,+d];

[2]перед [1] [+f,+d];

[2]после [1] [-f,+d];

[3][-f,+d];

[0] [-f,-d].

Здесь f обозначает ударение, ассоциируемое с повышением частоты основного тона; d – ударение, реализуемое увеличением длительности слога; ‘+’ и ‘-’ обозначают наличие или отсутствие соответствующего признака.

Управление длительностью звуков в системе SVOX выполняется с помощью статистической линейной модели. Входными параметрами модели являются уровни ударений фонологического представления, длительности дифонов, окружение дифонов. Коэффициенты модели определяются в процессе обучения на парах “транскрипция – продолжительность звучания”. Модель предсказывает непосредственно длительность трифонов, которая затем пересчитывается в длительность дифонов или полудифонов. Требуемая длительность дифона получается путем его линейного растяжения по времени.

На этапе определения длительности звуковых элементов также формируются необходимые временные метки, обеспечивающие синхронизацию частоты основного тона. Эти метки проставляются в середине и конце каждого слога.

Обработка естественного языка

553

 

 

Ниже показан пример назначения длительностей дифонов и временных меток для следующего фрагмента ‘”es regnet in strömen” (плохо, когда идет дождь):

-фонологическое представление

-длительности (мс)

- временные метки слогов ( мс)

(0, 76, 194), (194, 338, 378), (378, 496, 609),

(609, 675, 774), (774, 1054, 1091), (1091, 1173, 1339).

При записи длительности звуков использованы следующие обозначения: ‘/’ – обозначает паузу; ‘>’ – обозначает переход к короткой паузе;

’↑’ – обозначает продолжение звука.

Некоторые из дифонов разделены на полудифоны (обозначены индексами a и b) для более тонкого управления длительностью.

Управление частотой основного тона в системе SVOX выполняется с помощью нелинейной модели, реализованной в виде рекуррентной нейронной сети Элмана, на вход которой подается фонологическое представление. Для рассмотренного выше примера фонологического представления формируется следующий контур F0, состоящий из пар “время-частота”:

(0.00, 117.5 ), (0.04, 117.5 ), (0.08, 116.1 ), (0.12, 113.7 ),(0.16, 110.8 ), (0.20, 110.4 ),

(0.24, 111.0 ), (0.28, 113.2 ), … , (1.28, 72.6 ), (1.32, 72.8 ).

Здесь время указано в секундах, а частота в герцах. Если необходимо вычислить значение F0 в промежутке между временными отсчетами, то осуществляется линейная интерполяция.

Структурная схема нейронной сети Элмана изображена на рисунке 9.34. Сеть обеспечивает предсказание частоты основного тона для контура слога по фрагменту фонологического представления, попавшего во входное окно. Полный контур F0 получается при сдвиге входного окна относительно фонологического представления. Веса связей рассматриваемой

554

Глава 9

 

 

ИНС инициализируются случайными значениями в диапазоне - 0,3 0,3. Передаточные функции нейронов описываются униполярной сигмовидной функцией.

Рисунок 9.34 – ИНС Элмана

Обучение сети выполняется на данных, получаемых в результате прочтения текстов различных стилей. При этом обучающие данные организованы в виде пар “фонологическое представление – контур F0”. Обучающий контур частоты основного тона восстанавливается по отсчетам F0, которые вычисляются каждые 15 мс. Для участков речи, соответствующих фрикативным звукам, назначаются виртуальные значения F0, получаемые с помощью линейной интерполяции. Для обучения сети используется разновидность алгоритма обратного распространения ошибки. В ходе обучения и распознавания каждый символ входного фонологического представления заменяется соответствующими бинарными значениями. На выходе сети формируются 8 значений F0, представляющих контур F0 для слога.

Применение ИНС для управления частотой основного тона позволило получить в системе SVOX высокую разборчивость и естественность звучания синтезированной речи.

Вопросы для самопроверки

1.Назовите и объясните назначение основных функций, реализуемых подсистемой ЕЯ-общения.

2.Объясните на простом примере основные этапы анализа и интерпретации предложений подсистемой понимания высказываний.

Обработка естественного языка

555

 

 

3.В чем состоит отличие между рациональным и эмпирическим подходами к задаче понимания высказываний?

4.Что понимают под расширенными сетями переходов?

5.Объясните общий принцип грамматического разбора с помощью расширенных сетей переходов.

6.Сформулируйте задачу распознавания частей речи на основе эмпирического подхода.

7.Объясните принцип ЕЯ-доступа к базам данных на основе метода сопоставления с образцом.

8.Какой принцип использован для реализации ЕЯ-доступа в БД LUNAR? Объясните его.

9.Нарисуйте структурную схему ЕЯ-интерфейса БД с промежуточным представлением запроса в логической форме. Объясните функции каждого из блоков.

10.Объясните идею построения ЕЯ-интерфейса БД с возможностью логического вывода.

11.Назовите основные характеристики систем автоматического распознавания речи.

12.Нарисуйте обобщенную структурную схему системы автоматического распознавания речи. Объясните назначение основных модулей.

13.Опишите свойства речевого сигнала.

14.Что называется формантой?

15.Какие операции выполняются в ходе кепстрального анализа?

16.В чем заключается суть ЛПК-анализа?

17.Что понимают под векторным квантованием?

18.Сформулируйте задачу распознавания речи в статистической постановке.

19.Что понимают под биграмной моделью языка?

20.Какие проблемы возникают при построении модели языка? Как их решают?

21.Что понимают под акустической моделью языка?

22.Что представляет собой CMM? Приведите формальное определение СММ.

23.Объясните постановку вычислительной подзадачи, возникающей при использовании СММ.

24.Объясните постановку подзадачи восстановления , возникающей при использовании СММ.

25.Объясните постановку подзадачи оценивания, возникающей при использовании СММ.

26.Объясните на примере решение вычислительной подзадачи СММ.

27.Каким образом выполняется композиция модели языка, лексической модели и модели фонемы?

28.Сформулируйте алгоритм Витерби.

29.Объясните на примере процесс вычислений в соответствии с алгоритмом Витерби.

30.Как осуществляется оценивание параметров СММ? Сформулируйте подход Баума-Уэлча.

31.Какие особенности возникают при использовании СММ с непрерывными параметрами?

32.Приведите структурную схему СИИ с речевым интерфейсом.

33.Что называют аллофоном?

34.Что понимается под просодией речи?

556

Глава 9

 

 

35.Объясните обобщенную схему системы, выполняющей преобразование текста в речь.

36.Объясните принцип формантного синтеза речи.

37.Объясните принцип синтеза речи с помощью ЛПКкоэффициентов.

38.Объясните принцип конкатенативного синтеза речи.

39.Как осуществляется управление просодическими характеристиками в мето-

де TD-PSOLA.

40.Приведите определения следующих понятий, используемых при синтезе речи по тексту: фраза, интонация, синтагма, акцентная группа, основное ударение, прокликтики, энкликтики

41.Объясните на примере системы SVOХ, преобразующей текст в речь, принцип определения просодических характеристик.

ГЛАВА 10

КОМПЬЮТЕРНОЕ ЗРЕНИЕ

В настоящей главе рассматриваются основные вопросы, связанные с построением подсистем компьютерного зрения.

После краткого введения в проблематику компьютерного зрения и установления его неразрывной связи с искусственным интеллектом, анализируются особенности системы зрения человека. Одна из мотиваций такого анализа – стремление обнаружить принципы, которые могли бы использоваться в системах компьютерного зрения.

Затем рассматриваются примеры существующих систем компьютерного зрения и выделяются базовые операции, используемые в процессе анализа изображений. Рассмотрение начинается с операции выделения границ. Описываются различные возможности по группировке пикселей, представляющих границы. Один из параграфов посвящён подходу, основанному на выделении областей, который является альтернативой подходу, связанному с выделением границ.

Конечная цель подсистемы компьютерного зрения – формирование символьного описания изображения, т.е. его понимание. С этой целью в главе анализируются ранние попытки интерпретации трехмерных объектов и сцен по контурным рисункам. В заключение осуществляется переход от общих методов компьютерного зрения к системам технического зрения роботов. После краткого обзора методов приводится ряд примеров, показывающих, каким образом общие принципы компьютерного зрения могут быть перенесены на реальные задачи.

10.1. Основные понятия

Исследования в области компьютерного зрения направлены на изучение методов понимания изображений. На основе одного или нескольких двумерных изображений системы компьютерного зрения формируют символьное описание реальности, представляемой изображением. Если

558

Глава 10

 

 

представляемая изображением реальность ─ часть трехмерного мира, то следует говорить о трехмерном компьютерном зрении или анализе сцен. Изображения, анализируемые системами компьютерного зрения, могут сильно различаться по своей природе. Двумерные черно-белые и цветные изображения, множественные изображения в случае стерео зрения, диапазонные изображения (получаются с помощью датчиков глубины), трехмерные изображения, формируемые с помощью магнитного резонанса (MР), ─ все это примеры входных изображений для систем компьютерного зрения. Кроме этого, при рассмотрении последовательности изображений учитывается время, которое рассматривается как третье или четвертое измерение.

Компьютерное зрение и искусственный интеллект были связаны друг с другом изначально. Многие из универсальных методов и технологий искусственного интеллекта специально разрабатывались для решения задач из области компьютерного зрения, например, персептрон и искусственные нейронные сети, поиск с распространением ограничений, теория фреймов и др. Поэтому компьютерное зрение называют ключевой областью искусственного интеллекта.

Понимание изображений – это то, что человек выполняет без усилий, часто не осознанно, в течение всего дня. Однако научить компьютер решать эту задачу – чрезвычайно сложное дело. Это дополнительно подтверждает то, что компьютерное зрение относится к области искусственного интеллекта в соответствии с определением ИИ.

Простой пример позволит уточнить, что понимается под термином “компьютерное зрение”. Если с помощью черно-белой камеры зафиксировать простую сцену с многогранным блоком, стоящим на столе, то полученное изображение будет представлять собой матрицу (массив) значений интенсивности, которая соответствует световой энергии, воспринимаемой в течение короткого интервала времени чувствительными элементами камеры (например, приборами с зарядовой связью – ПЗС). Данный массив значений сохраняется в памяти компьютера. Если рассматривать часть значений этого массива (рисунок 10.1), то уловить смысл сцены невозможно. Очевидно, рассмотрение оставшейся части массива значений также не решит проблемы. Компьютер в этой ситуации, конечно, находится тоже не в лучшем положении. Улучшить восприятие можно, если воспользоваться представлением сцены, в котором значение интенсивности интерпретируется как высота некоторого горного ландшафта (рисунок 10.2). Это представление лучше, но смысл изображения всё еще не понятен. И наконец, если представить каждое запомненное значение интенсивности, соответствующей яркостью пикселя на экране компьютера, то можно получить изображение, которое понятно (рисунок 10.3).

Компьютерное зрение

559

 

 

162 162 160 158 156 153 153 151 149 149 149 145 145 145 151 156 169 178

180 162 162 162 162 160 156 158 151 149 153 149 147 147 145 151 158 169

178 180 162 160 160 162 160 160 158 153 149 151 149 145 145 142 147 156

167 173 175 162 162 162 162 162 162 160 158 158 153 151 147 142 140 147

153 164 171 171 160 160 162 160 160 160 162 158 158 156 149 147 140 142

145 151 162 164 162 160 164 164 162 162 162 160 160 158 158 153 151 145

142 147 151 156 162 162 160 162 160 162 160 158 160 160 160 156 153 149

Рисунок 10.1– Матрица значений интенсивности

Рисунок 10.2 – Представление интенсивности в виде высоты

Рисунок 10.3 – Представление интенсивности яркостью пикселя

Соседние файлы в папке Не books