Формальное представление семантики документов
Естественный язык не может быть использован в качестве представления информации из-за следующих недостатков:
-
Многообразие передачи смысла, обеспеченное лексикой языка, контекстом, текстуальными отношения между словами, ссылками на раннее упомянутые слова.
-
Семантическая неоднозначность слов.
-
Синонимия, антонимия.
-
Многозначность (полисемия) совпадение написания похожих слов.
-
Эллипсность — пропуск подразумеваемых слов.
Невозможность использования естественных языков для поиска информации привело к созданию информационно-поисковых языков (ИПЯ). Эти языки применяются для смыслового описания текста, с целью последующего поиска. Они строятся на базе естественных языков, но отличаются четкими грамматическими правилами и отсутствием неоднозначностей. Все языки в ИПС делятся на два класса
-
классификационные
-
дескрипторные (словарные)
В классификационных языках кроме простых понятий включены сложные (сочетания слов). При этом, каждое слово во фразе обозначает класс. Например: «языки. программирования. процедурные. Паскаль.».
Частным случаем таких языков являются рубрикаторы, в которых слова — названия тематических рубрик по уровням иерархии. Такая структура называется классификатором. В нем сложные понятия между собой связаны жесткими связями. Группа связанных классификаторов — систематизаторы.
Классификационные языки содержится в Internet-ИПС (yahoo, au, rambler, …).
В дескрипторных языках лексические единицы заранее не связаны текстуальными отношениями. Сложные синтаксические структуры в этом случае создаются во время смыслового представления документа. Из набора дескрипторов можно строить различные фразы.
Дескрипторные языки бывают с грамматикой и без грамматики. В языках с грамматикой существуют жесткие правила построения. Например: «действие-субъект-объект». В языках без грамматики порядок слов значения не имеет.
В Internet-ИПС фразы обычно строятся с использованием знаков математической логики. К таким системам относятся Aport, Yandex, Rambler.
OR — ‘’
AND — ‘+’
ANDNOT — ‘–’
Кроме того, уточнение значений может выполняться с помощью слов, расположены рядом, а также при помощи неточного задания слов, например: стол* (попадает столовая и т.д.). Слова могут приводиться к нормальной форме.
Уточнением может служить тезаурус (словарь, который содержит одинаковые по смыслу слова) (AltaVista).
Дескрипторные языки могут быть с контролируемой и свободной лексикой. В первом случае — состав ограничен словарем, во втором — может пополняться.
Обработка входящей информации в дипс
Так как документы поступают в систему в текстовом виде, то они должны быть преобразованы в ИПЯ. В случае применения классификационных языков применяется рубрицирование, в случае дескрипторных языков — индексирование. При этом в случае применения дескриптивных языков без грамматики и без контроля по словарю говорят ополнотекстовом индексировании.
Подготовка текста проходит в два этапа:
-
анализ семантики системы, анализ объектов и связей;
-
выражение этих связей на ИПЯ, приписывание объектами соответствующих выражений.
Анализ семантики обычно сводится к лингвистическому анализу, который заключается в нормализации слов и словосочетаний. Нормализированное слово называется термином.
При морфологическом анализе, как правило, отсекается все, кроме основы. Достаточно для анализа трех последовательных букв окончания.
Автоматическое индексирование осуществляется для отдельных и составных терминов. При этом, для генерации фраз применяется эвристический алгоритм. Выделяются группы взаимосвязанных слов. Для выделения групп применяется кластерный анализ. После этого определяется частота вхождения групп в документ. Если она высокая, то термины считаются связанными. Автоматическое индексирование заканчивается присвоением терминам весовых коэффициентов на основе статистических характеристик.
Пусть имеется совокупность N документов. Частота вхождения термина Tj в документ Diобозначается tfij.Через dfj — число документов, в которых встретится Tj. Тогда величина, которая определяет, является ли термин Tj. дескриптором для документа Di, — это вес термина
.
Все термины, входящие в документ ранжируем по весу и определяем термины, которые идентифицируют документ Di.
В дескрипторных языках документ характеризуется словами. В классификационных — принадлежностью документа к некоторой группе. Для этого существует два подхода:
-
Рубрицирование на знаниях;
-
Рубрицирование по примерам.