Добавил:
natribu.org Все что нашел в интернете скидываю сюда Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Точно Не проект 2 / Не books / Источник_1

.pdf
Скачиваний:
10
Добавлен:
01.02.2024
Размер:
20.67 Mб
Скачать

490

Глава 9

 

 

целей пользователя. При этом высказывания участников диалога образуют связный текст – дискурс. Процесс диалога может быть разбит на отдельные шаги. Шаг диалога представляет пару высказываний, состоящую из высказывания активного участника диалога и реакции пассивного. В ходе диалога возможен перехват инициативы, когда пассивный участник выдвигает новую подцель. Функция ведения диалога заключается в определении его структуры и управлении активностью участников диалога. Тематическая структура диалога обычно представляется в виде сценария. При этом сценарий может встраиваться в систему при её создании, либо генерироваться системой.

Функция понимания высказываний предполагает выяснение смысла ЕЯ-высказываний и представление его в формализованном виде на внутреннем языке системы. При реализации функции понимания высказываний предусматривают два этапа: анализ и интерпретацию [20]. На этапе анализа выделяют сущности (понятия) предметной области, отражаемые во входном высказывании, их свойства и отношения. Интерпретация состоит в сопоставлении формализованного высказывания и знаний, которыми обладает система. Знания системы классифицируются по следующим областям: предметная область, область языка, область диалога (дискурса), область пользователя, область знаний системы о самой себе. Различные области определяют возможные интерпретации входных высказываний. Конечная задача интерпретации состоит в установлении цели пользователя.

Обработка высказываний сводится к планированию и решению задачи в соответствии с намерениями пользователя на данном шаге диалога.

Генерация высказываний состоит в формировании смысла высказывания на внутреннем языке системы и преобразовании его в ЕЯвысказывание. На этапе формирования смысла выходных высказываний решаются следующие задачи [34]: выявление сущностей предметной области, которые интересуют пользователя; определение уровня общности синтезируемой информации; выделение тех аспектов сущностей, которые соответствуют целям, стоящим перед пользователем; разбиение сообщаемой информации на фрагменты, соответствующие будущим предложениям; определение лексем и построение семантического представления фраз. На этапе синтеза ЕЯ-высказывания осуществляется: построение синтаксической структуры предложений, приписывание морфологической информации вершинам синтаксической структуры, определение порядка следования слов, морфологический синтез словоформ.

Центральной функцией, выполняемой ЕЯ-системами, является функция понимания высказываний. При реализации этой функции обычно выделяют анализ слов, предложений и текста (дискурса). Анализ слов за-

Обработка естественного языка

491

 

 

ключается в поиске основ слов с отнесением их к определенным грамматическим категориям (морфологический анализ), обнаружении и исправлении орфографических ошибок. Анализ предложений сводится к синтаксическому и семантическому анализу, который выполняется с помощью отдельного функционального блока, называемого анализатором.

Цель синтаксического анализа заключается в установлении синтаксической правильности предложения и построении его лингвистической структуры на основе выделения определенных лингвистических отношений между словами. Конкретная структура предложения определяется выбранной системой лингвистических отношений и часто представляется в виде дерева грамматического разбора. В ходе синтаксического анализа используются знания морфологии и синтаксиса входного языка, а также некоторые сведения о семантике языковых конструкций.

Цель семантической интерпретации – формирование описаний проблемных ситуаций, заданных входными предложениями, на внутреннем языке системы, например, с помощью концептуальных графов, фреймов, логических представлений. Получение таких описаний подразумевает расширение сведений, которые неявно представлены во входном ЕЯ – предложении.

На рисунке 9.1 изображен пример анализа и интерпретации предложения “Тарзан поцеловал Джейн”[77]. Здесь на этапе синтаксического анализа используется контекстно-свободная грамматика, заданная с помощью правил продукций, рассмотренных в §2.1.2. На этапе семантической интерпретации анализатор, используя знания о глаголе “целовать”, добавил в концептуальный граф понятие “губы”, которое находится в отношении “инструмент” с указанным глаголом. На этапе семантической интерпретации также могут проверяться некоторые ограничения. Например, определение глагола “целовать” может содержать требование, чтобы “объект” был представлен некоторой персоной, если “агент” – персона. На третьем этапе (этап анализа дискурса), к структуре исходного ЕЯ предложения добавляются по определенным правилам структуры, полученные на предыдущих шагах, определяющие контекст рассматриваемого высказывания. В результате получается расширенное описание ситуации, заданной исходным ЕЯ-текстом. На рисунке 9.1 в концептуальный граф исходного ЕЯ-предложения вносятся факты: “Тарзану нравится Джейн” и “Джейн и Тарзан находятся в джунглях”. Сформированное описание представляет смысл ЕЯ-текста и поступает на вход СИИ для дальнейшей обработки. Например, в интеллектуальных вопросно-ответных системах полученное описание может быть использовано при ответе на вопросы.

492

Глава 9

 

 

Рисунок 9.1 – Анализ и интерпретация ЕЯ-предложений

Обработка естественного языка

493

 

 

Обобщая сказанное, представим этапы анализа в подсистеме понимания в виде структурной схемы, изображенной на рисунке 9.2.

Рисунок 9.2 – Этапы анализа ЕЯ-высказываний

Здесь, дополнительно к рассмотренным выше этапам преобразований входных высказываний, добавляется этап распознавания речи, если входное ЕЯ-высказывание представлено в речевой форме.

Указанные этапы анализа и интерпретации ЕЯ-высказываний характерны для многих систем естественно-языкового общения, однако, детали их реализации могут существенно различаться. Часто синтаксический и семантический анализ выполняется одним функциональным блоком ЕЯсистемы, который называют анализатором предложений. Рассмотрим основные подходы, используемые при реализации подсистемы понимания высказываний.

9.2. Понимание ЕЯ-высказываний

Понимание ЕЯ-высказываний сложная задача, в результате решения которой должно формироваться формализованное представление входного предложения на внутреннем языке системы. Если охарактеризовать причину сложности задачи обработки естественного языка, то следует указать на неопределенность, которая проявляется в виде множественности значений слов (полисемия), неоднозначности смысла фраз, неполноты высказываний и др. Неполнота высказываний часто допускается в диалогах между людьми. При этом возможны лексические и грамматические ошибки, пропуски одного или нескольких слов с целью сжатия высказывания (эллипсис), повторы. Важным является ответ на вопрос о том, насколько методы понимания высказываний приспособлены к обработке указанных видов неопределенностей. Сравним по этому показателю основные методы понимания ЕЯ-высказываний.

494

Глава 9

 

 

Выделяют два основных подхода к построению подсистем понимания высказываний [61]: рациональный (детерминистский) и эмпирический (стохастический).

В рамках первого подхода основное внимание уделяется разработке грамматических правил и баз знаний, отражающих специфические знания ограниченной предметной области.

Второй подход основан на привлечении к решению задачи методов статистики и машинного обучения. В этом случае подсистема понимания высказываний обучается на больших количествах реальных языковых данных. Различие между рациональным и эмпирическим подходом условно изображено на рисунке 9.3. Рассмотрим подробнее указанные подходы.

Рисунок 9.3 – Различие между рациональным а) и эмпирическим б) подходами

9.2.1.Рациональный подход

Крациональному подходу относят большую группу методов анализа и интерпретации ЕЯ-предложений [77]: метод сетей переходов, метод расширенных сетей переходов, метод сопоставления с образом, метод трансформационных грамматик, метод семантических грамматик, метод падежной грамматики и др.

Вкачестве примера рационального подхода рассмотрим методы сетей переходов, основанные на выполнении грамматического разбора с помощью продукционных грамматик. Алгоритмы грамматического разбора в таких грамматиках подразделяются на две группы: разбор сверху вниз и разбор снизу вверх. При разборе сверху вниз, который начинается с символа, представляющего предложение, предпринимается попытка построить дерево грамматического разбора, листья которого сопоставимы со словами анализируемого предложения. В ходе разбора снизу вверх выполняется

Обработка естественного языка

495

 

 

поиск последовательности правил-продукций, сводящих множество слов предложения к одному корневому символу дерева грамматического разбора, соответствующего анализируемому предложению. Основной проблемой, которая возникает на каждом шаге применения указанных алгоритмов разбора, является выбор правила. Если выбор будет ошибочным, то анализатор может не распознать правильное предложение. Чтобы исключить такие случаи применяется алгоритм возврата к альтернативным пра- вилам-продукциям. На практике это может приводить к экспоненциальному росту объема вычислений.

Существует большое число алгоритмов построения дерева грамматического разбора. Широкое распространение при анализе ЕЯпредложений получили алгоритмы, основанные на методе расширенных сетей переходов (ATN-Augmented transition network). Рассмотрим данный метод подробнее.

Анализаторы, осуществляющие разбор предложений с помощью сети переходов, представляют грамматику в виде множества направленных подграфов (сетей переходов) с конечным числом состояний. Каждая сеть соответствует нетерминальному символу грамматики. Метки дуг таких сетей могут быть представлены как терминальными, так и нетерминальными символами. Путь из начального состояния сети перехода в конечное состояние соответствует продукционному правилу, ассоциированному с сетью перехода. При этом метки дуг, которые встретились на пути из начального в конечное состояние, образуют правую часть правилапродукции.

Представим контекстно-свободную грамматику, рассмотренную в §2.1.2, в виде множества сетей переходов, где S0 и Sg – обозначают соответственно начальное и конечное состояния сети перехода (рисунок 9.4). Если нетерминальный символ представляется несколькими правилами, то

всоответствующей сети переходов будет несколько параллельных путей из начального состояния в конечное состояние. Например, правилапродукции SUB→PRON и SUB→NP порождают два альтернативных пути

всети переходов SUB, изображенной на рисунке 9.4

При разборе сверху вниз анализатор пытается найти путь в сети переходов S, представляющей предложение. Для этого анализируются метки дуг сети переходов. Если метка соответствует терминальному символу, то анализатор сопоставляет его с очередным словом анализируемого предложения. Если дуга отмечена меткой нетерминального символа, то анализатор рекурсивно ищет путь в сети переходов данного нетерминального символа. В случае неудачи выполняется возврат к другим возможным вариантам продолжения поиска пути в сети переходов S. Если же в сети переходов S найден путь, ведущий из начального состояния в конечное, то рассматриваемое входное предложение является синтаксически правильным

496

Глава 9

 

 

относительно заданной грамматики. На рисунке 9.5 изображен процесс успешного грамматического разбора предложения “He saw a dog”. Фиксируя имена вызываемых сетей переходов и имена успешно сопоставленных терминальных символов, можно легко построить дерево грамматического разбора.

Рисунок 9.4 – Представление грамматики в виде сети переходов

Сети переходов обеспечивают построение деревьев разбора для контекстно-свободных грамматик. Такие грамматики широко применяются при определении языков программирования, но они плохо подходят для представления синтаксических правил естественных языков, относящихся к группе контекстно-зависимых языков.

Для того чтобы адаптировать контекстно-свободные грамматики к анализу естественных языков, с правилами продукциями связывают присоединенные процедуры, выполняющие необходимый контекстный анализ. Соответствующие сети переходов, в которых с дугами связывают как метки, так и присоединенные процедуры, называют расширенными сетями переходов (РСП). Указанные присоединенные процедуры выполняются,

Обработка естественного языка

497

 

 

когда активизируется соответствующая дуга сети переходов.

В РСП-анализаторах терминальным и нетерминальным символам грамматики приписываются определенные признаки, например: часть речи, корень, число, время, лицо и т.п. Присоединенные процедуры обеспечивают присвоение значений признакам символов и проверку определенных условий. Если некоторое условие не выполняется, например, не согласуется число (единственное, множественное), то соответствующий переход в РСП-сети терпит неудачу. С помощью присоединенных процедур также обеспечивается построение дерева грамматического разбора, которое в дальнейшем используется при формировании внутреннего описания ЕЯвысказывания, отражающего его семантику.

Рисунок 9.5 – Разбор предложения “He saw a dog”

Расширим простейшую грамматику английского языка, изображенную на рисунке 9.4, и представим её в виде РСП-сетей, следуя подходу, изложенному в [77]. Терминальные и нетерминальные символы грамматики будем представлять фреймоподобными структурами. Структуры, соответствующие символам терминального словаря, изображены на рисунке 9.6. В слотах данных структур фиксируются следующие признаки слов:

часть речи (POS – part of speech), корень (ROOT), число (NUMBER).

Структуры для хранения нетерминальных символов изображены на рисунке 9.7. Структура предложения (S) содержит два слота: группу под-

лежащего (SUB - subject) и группу сказуемого (PRED - predicate).

498

Глава 9

 

 

Рисунок 9.6 – Словарь терминальных символов

Рисунок 9.7 – Структуры нетерминальных символов

Группа подлежащего представляется либо местоимением (PRON - pronoun), либо подструктурой NP, состоящей из артикля (DET) и существительного (N). В структуре SUB введены следующие слоты: PS – фиксирует чем представлена группа подлежащего (возможные значения PRON – местоимение и NP – артикль и существительное); NUMBER – значение числа; SUBJECT – само подлежащие. Структура группы сказуемого содержит три слота: V – глагол, NUMBER – число, NP – подструктура из артикля и существительного, соответствующая дополнению предложения.

Рассматриваемая РСП-грамматика, изображена на рисунках 9.8- 9.11. Дуги сетей переходов отмечены цифрами, соответствующими номерам присоединенных процедур. Описания присоединенных процедур приведены рядом с изображением соответствующего графа РСП. Доступ к значениям слотов соответствующих структур осуществляется с помощью

Обработка естественного языка

499

 

 

составных имен, образуемых из имени структуры и имени слота. Например, запись SUB.NUMBER обеспечивает доступ к слоту NUMBER структуры SUB. При каждом вызове РСП для нетерминального символа создается новая структура, слоты которой заполняются с помощью соответствующих присоединенных процедур. Если достигается конечное состояние, то РСП возвращает указатель на экземпляр структуры нетерминального символа с заполненными значениями слотов. Поэтому слоты структур верхних уровней содержат ссылки на экземпляры структур нижних уровней. Структура, соответствующая уровню предложения, будет соответствовать корневому узлу дерева грамматического разбора входного высказывания.

Procedure S.1;

SUB:= структура, возвращаемая сетью SUB;

S.SUB:= SUB;

End;

Procedure S.2;

PRED:= структура, возвращаемая сетью PRED; If SUB.NUMBER = PRED.NUMBER Then

Begin

S.PRED:=PRED;

Возврат (S)

End

Else Возврат (НЕУДАЧА) End;

Рисунок 9.8 – РСП предложения

Procedure SUB.1;

PRON:=определение текущего слова из словаря; If PRON.POS = местоимение Then

Begin

SUB.PS = ‘PRON’; SUB.NUMBER = PRON.NUMBER; SUB.SUBJECT = PRON;

Возврат (SUB); End;

Else Возврат (НЕУДАЧА) End;

Procedure SUB.2;

NP:= структура, возвращаемая сетью NP;

If (NP.DET.POS = артикль) and (NP.N.POS = существительное) Then Begin

SUB.PS = ‘NP’;

SUB.NUMBER = NP.N.NUMBER; SUB.SUBJECT = NP;

Возврат (SUB);

End;

Else Возврат (НЕУДАЧА) End;

Рисунок 9.9 – РСП группы подлежащего

Соседние файлы в папке Не books