Точно Не проект 2 / Не books / Источник_1
.pdfОбработка естественного языка |
491 |
|
|
ключается в поиске основ слов с отнесением их к определенным грамматическим категориям (морфологический анализ), обнаружении и исправлении орфографических ошибок. Анализ предложений сводится к синтаксическому и семантическому анализу, который выполняется с помощью отдельного функционального блока, называемого анализатором.
Цель синтаксического анализа заключается в установлении синтаксической правильности предложения и построении его лингвистической структуры на основе выделения определенных лингвистических отношений между словами. Конкретная структура предложения определяется выбранной системой лингвистических отношений и часто представляется в виде дерева грамматического разбора. В ходе синтаксического анализа используются знания морфологии и синтаксиса входного языка, а также некоторые сведения о семантике языковых конструкций.
Цель семантической интерпретации – формирование описаний проблемных ситуаций, заданных входными предложениями, на внутреннем языке системы, например, с помощью концептуальных графов, фреймов, логических представлений. Получение таких описаний подразумевает расширение сведений, которые неявно представлены во входном ЕЯ – предложении.
На рисунке 9.1 изображен пример анализа и интерпретации предложения “Тарзан поцеловал Джейн”[77]. Здесь на этапе синтаксического анализа используется контекстно-свободная грамматика, заданная с помощью правил продукций, рассмотренных в §2.1.2. На этапе семантической интерпретации анализатор, используя знания о глаголе “целовать”, добавил в концептуальный граф понятие “губы”, которое находится в отношении “инструмент” с указанным глаголом. На этапе семантической интерпретации также могут проверяться некоторые ограничения. Например, определение глагола “целовать” может содержать требование, чтобы “объект” был представлен некоторой персоной, если “агент” – персона. На третьем этапе (этап анализа дискурса), к структуре исходного ЕЯ предложения добавляются по определенным правилам структуры, полученные на предыдущих шагах, определяющие контекст рассматриваемого высказывания. В результате получается расширенное описание ситуации, заданной исходным ЕЯ-текстом. На рисунке 9.1 в концептуальный граф исходного ЕЯ-предложения вносятся факты: “Тарзану нравится Джейн” и “Джейн и Тарзан находятся в джунглях”. Сформированное описание представляет смысл ЕЯ-текста и поступает на вход СИИ для дальнейшей обработки. Например, в интеллектуальных вопросно-ответных системах полученное описание может быть использовано при ответе на вопросы.
492 |
Глава 9 |
|
|
Рисунок 9.1 – Анализ и интерпретация ЕЯ-предложений
Обработка естественного языка |
493 |
|
|
Обобщая сказанное, представим этапы анализа в подсистеме понимания в виде структурной схемы, изображенной на рисунке 9.2.
Рисунок 9.2 – Этапы анализа ЕЯ-высказываний
Здесь, дополнительно к рассмотренным выше этапам преобразований входных высказываний, добавляется этап распознавания речи, если входное ЕЯ-высказывание представлено в речевой форме.
Указанные этапы анализа и интерпретации ЕЯ-высказываний характерны для многих систем естественно-языкового общения, однако, детали их реализации могут существенно различаться. Часто синтаксический и семантический анализ выполняется одним функциональным блоком ЕЯсистемы, который называют анализатором предложений. Рассмотрим основные подходы, используемые при реализации подсистемы понимания высказываний.
9.2. Понимание ЕЯ-высказываний
Понимание ЕЯ-высказываний сложная задача, в результате решения которой должно формироваться формализованное представление входного предложения на внутреннем языке системы. Если охарактеризовать причину сложности задачи обработки естественного языка, то следует указать на неопределенность, которая проявляется в виде множественности значений слов (полисемия), неоднозначности смысла фраз, неполноты высказываний и др. Неполнота высказываний часто допускается в диалогах между людьми. При этом возможны лексические и грамматические ошибки, пропуски одного или нескольких слов с целью сжатия высказывания (эллипсис), повторы. Важным является ответ на вопрос о том, насколько методы понимания высказываний приспособлены к обработке указанных видов неопределенностей. Сравним по этому показателю основные методы понимания ЕЯ-высказываний.
Обработка естественного языка |
495 |
|
|
поиск последовательности правил-продукций, сводящих множество слов предложения к одному корневому символу дерева грамматического разбора, соответствующего анализируемому предложению. Основной проблемой, которая возникает на каждом шаге применения указанных алгоритмов разбора, является выбор правила. Если выбор будет ошибочным, то анализатор может не распознать правильное предложение. Чтобы исключить такие случаи применяется алгоритм возврата к альтернативным пра- вилам-продукциям. На практике это может приводить к экспоненциальному росту объема вычислений.
Существует большое число алгоритмов построения дерева грамматического разбора. Широкое распространение при анализе ЕЯпредложений получили алгоритмы, основанные на методе расширенных сетей переходов (ATN-Augmented transition network). Рассмотрим данный метод подробнее.
Анализаторы, осуществляющие разбор предложений с помощью сети переходов, представляют грамматику в виде множества направленных подграфов (сетей переходов) с конечным числом состояний. Каждая сеть соответствует нетерминальному символу грамматики. Метки дуг таких сетей могут быть представлены как терминальными, так и нетерминальными символами. Путь из начального состояния сети перехода в конечное состояние соответствует продукционному правилу, ассоциированному с сетью перехода. При этом метки дуг, которые встретились на пути из начального в конечное состояние, образуют правую часть правилапродукции.
Представим контекстно-свободную грамматику, рассмотренную в §2.1.2, в виде множества сетей переходов, где S0 и Sg – обозначают соответственно начальное и конечное состояния сети перехода (рисунок 9.4). Если нетерминальный символ представляется несколькими правилами, то
всоответствующей сети переходов будет несколько параллельных путей из начального состояния в конечное состояние. Например, правилапродукции SUB→PRON и SUB→NP порождают два альтернативных пути
всети переходов SUB, изображенной на рисунке 9.4
При разборе сверху вниз анализатор пытается найти путь в сети переходов S, представляющей предложение. Для этого анализируются метки дуг сети переходов. Если метка соответствует терминальному символу, то анализатор сопоставляет его с очередным словом анализируемого предложения. Если дуга отмечена меткой нетерминального символа, то анализатор рекурсивно ищет путь в сети переходов данного нетерминального символа. В случае неудачи выполняется возврат к другим возможным вариантам продолжения поиска пути в сети переходов S. Если же в сети переходов S найден путь, ведущий из начального состояния в конечное, то рассматриваемое входное предложение является синтаксически правильным
Обработка естественного языка |
497 |
|
|
когда активизируется соответствующая дуга сети переходов.
В РСП-анализаторах терминальным и нетерминальным символам грамматики приписываются определенные признаки, например: часть речи, корень, число, время, лицо и т.п. Присоединенные процедуры обеспечивают присвоение значений признакам символов и проверку определенных условий. Если некоторое условие не выполняется, например, не согласуется число (единственное, множественное), то соответствующий переход в РСП-сети терпит неудачу. С помощью присоединенных процедур также обеспечивается построение дерева грамматического разбора, которое в дальнейшем используется при формировании внутреннего описания ЕЯвысказывания, отражающего его семантику.
Рисунок 9.5 – Разбор предложения “He saw a dog”
Расширим простейшую грамматику английского языка, изображенную на рисунке 9.4, и представим её в виде РСП-сетей, следуя подходу, изложенному в [77]. Терминальные и нетерминальные символы грамматики будем представлять фреймоподобными структурами. Структуры, соответствующие символам терминального словаря, изображены на рисунке 9.6. В слотах данных структур фиксируются следующие признаки слов:
часть речи (POS – part of speech), корень (ROOT), число (NUMBER).
Структуры для хранения нетерминальных символов изображены на рисунке 9.7. Структура предложения (S) содержит два слота: группу под-
лежащего (SUB - subject) и группу сказуемого (PRED - predicate).
Обработка естественного языка |
499 |
|
|
составных имен, образуемых из имени структуры и имени слота. Например, запись SUB.NUMBER обеспечивает доступ к слоту NUMBER структуры SUB. При каждом вызове РСП для нетерминального символа создается новая структура, слоты которой заполняются с помощью соответствующих присоединенных процедур. Если достигается конечное состояние, то РСП возвращает указатель на экземпляр структуры нетерминального символа с заполненными значениями слотов. Поэтому слоты структур верхних уровней содержат ссылки на экземпляры структур нижних уровней. Структура, соответствующая уровню предложения, будет соответствовать корневому узлу дерева грамматического разбора входного высказывания.
Procedure S.1;
SUB:= структура, возвращаемая сетью SUB;
S.SUB:= SUB;
End;
Procedure S.2;
PRED:= структура, возвращаемая сетью PRED; If SUB.NUMBER = PRED.NUMBER Then
Begin
S.PRED:=PRED;
Возврат (S)
End
Else Возврат (НЕУДАЧА) End;
Рисунок 9.8 – РСП предложения
Procedure SUB.1;
PRON:=определение текущего слова из словаря; If PRON.POS = местоимение Then
Begin
SUB.PS = ‘PRON’; SUB.NUMBER = PRON.NUMBER; SUB.SUBJECT = PRON;
Возврат (SUB); End;
Else Возврат (НЕУДАЧА) End;
Procedure SUB.2;
NP:= структура, возвращаемая сетью NP;
If (NP.DET.POS = артикль) and (NP.N.POS = существительное) Then Begin
SUB.PS = ‘NP’;
SUB.NUMBER = NP.N.NUMBER; SUB.SUBJECT = NP;
Возврат (SUB);
End;
Else Возврат (НЕУДАЧА) End;
Рисунок 9.9 – РСП группы подлежащего