Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Документальные системы.docx
Скачиваний:
10
Добавлен:
17.05.2015
Размер:
46.98 Кб
Скачать

Формальное представление семантики документов

Естественный язык не может быть использован в качестве представления информации из-за следующих недостатков:

  1. Многообразие передачи смысла, обеспеченное лексикой языка, контекстом, текстуальными отношения между словами, ссылками на раннее упомянутые слова.

  2. Семантическая неоднозначность слов.

  3. Синонимия, антонимия.

  4. Многозначность (полисемия) совпадение написания похожих слов.

  5. Эллипсность — пропуск подразумеваемых слов.

Невозможность использования естественных языков для поиска информации привело к созданию информационно-поисковых языков (ИПЯ). Эти языки применяются для смыслового описания текста, с целью последующего поиска. Они строятся на базе естественных языков, но отличаются четкими грамматическими правилами и отсутствием неоднозначностей. Все языки в ИПС делятся на два класса

  • классификационные

  • дескрипторные (словарные)

В классификационных языках кроме простых понятий включены сложные (сочетания слов). При этом, каждое слово во фразе обозначает класс. Например: «языки. программирования. процедурные. Паскаль.».

Частным случаем таких языков являются рубрикаторы, в которых слова — названия тематических рубрик по уровням иерархии. Такая структура называется классификатором. В нем сложные понятия между собой связаны жесткими связями. Группа связанных классификаторов — систематизаторы.

Классификационные языки содержится в Internet-ИПС (yahoo, au, rambler, …).

В дескрипторных языках лексические единицы заранее не связаны текстуальными отношениями. Сложные синтаксические структуры в этом случае создаются во время смыслового представления документа. Из набора дескрипторов можно строить различные фразы.

Дескрипторные языки бывают с грамматикой и без грамматики. В языках с грамматикой существуют жесткие правила построения. Например: «действие-субъект-объект». В языках без грамматики порядок слов значения не имеет.

В Internet-ИПС фразы обычно строятся с использованием знаков математической логики. К таким системам относятся Aport, Yandex, Rambler.

OR — ‘’

AND — ‘+’

ANDNOT — ‘–’

Кроме того, уточнение значений может выполняться с помощью слов, расположены рядом, а также при помощи неточного задания слов, например: стол* (попадает столовая и т.д.). Слова могут приводиться к нормальной форме.

Уточнением может служить тезаурус (словарь, который содержит одинаковые по смыслу слова) (AltaVista).

Дескрипторные языки могут быть с контролируемой и свободной лексикой. В первом случае — состав ограничен словарем, во втором — может пополняться.

Обработка входящей информации в дипс

Так как документы поступают в систему в текстовом виде, то они должны быть преобразованы в ИПЯ. В случае применения классификационных языков применяется рубрицирование, в случае дескрипторных языков — индексирование. При этом в случае применения дескриптивных языков без грамматики и без контроля по словарю говорят ополнотекстовом индексировании.

Подготовка текста проходит в два этапа:

  • анализ семантики системы, анализ объектов и связей;

  • выражение этих связей на ИПЯ, приписывание объектами соответствующих выражений.

Анализ семантики обычно сводится к лингвистическому анализу, который заключается в нормализации слов и словосочетаний. Нормализированное слово называется термином.

При морфологическом анализе, как правило, отсекается все, кроме основы. Достаточно для анализа трех последовательных букв окончания.

Автоматическое индексирование осуществляется для отдельных и составных терминов. При этом, для генерации фраз применяется эвристический алгоритм. Выделяются группы взаимосвязанных слов. Для выделения групп применяется кластерный анализ. После этого определяется частота вхождения групп в документ. Если она высокая, то термины считаются связанными. Автоматическое индексирование заканчивается присвоением терминам весовых коэффициентов на основе статистических характеристик.

Пусть имеется совокупность N документов. Частота вхождения термина Tj в документ Diобозначается tfij.Через dfj — число документов, в которых встретится Tj. Тогда величина, которая определяет, является ли термин Tj. дескриптором для документа Di, — это вес термина

.

Все термины, входящие в документ ранжируем по весу и определяем термины, которые идентифицируют документ Di.

В дескрипторных языках документ характеризуется словами. В классификационных — принадлежностью документа к некоторой группе. Для этого существует два подхода:

  1. Рубрицирование на знаниях;

  2. Рубрицирование по примерам.