Формальное представление семантики документов

Естественный язык не может быть использован в качестве представления информации из-за следующих недостатков:

Многообразие передачи смысла, обеспеченное лексикой языка, контекстом, текстуальными отношения между словами, ссылками на раннее упомянутые слова.
Семантическая неоднозначность слов.
Синонимия, антонимия.
Многозначность (полисемия) совпадение написания похожих слов.
Эллипсность — пропуск подразумеваемых слов.

Невозможность использования естественных языков для поиска информации привело к созданию информационно-поисковых языков (ИПЯ). Эти языки применяются для смыслового описания текста, с целью последующего поиска. Они строятся на базе естественных языков, но отличаются четкими грамматическими правилами и отсутствием неоднозначностей. Все языки в ИПС делятся на два класса

классификационные
дескрипторные (словарные)

В классификационных языках кроме простых понятий включены сложные (сочетания слов). При этом, каждое слово во фразе обозначает класс. Например: «языки. программирования. процедурные. Паскаль.».

Частным случаем таких языков являются рубрикаторы, в которых слова — названия тематических рубрик по уровням иерархии. Такая структура называется классификатором. В нем сложные понятия между собой связаны жесткими связями. Группа связанных классификаторов — систематизаторы.

Классификационные языки содержится в Internet-ИПС (yahoo, au, rambler, …).

В дескрипторных языках лексические единицы заранее не связаны текстуальными отношениями. Сложные синтаксические структуры в этом случае создаются во время смыслового представления документа. Из набора дескрипторов можно строить различные фразы.

Дескрипторные языки бывают с грамматикой и без грамматики. В языках с грамматикой существуют жесткие правила построения. Например: «действие-субъект-объект». В языках без грамматики порядок слов значения не имеет.

В Internet-ИПС фразы обычно строятся с использованием знаков математической логики. К таким системам относятся Aport, Yandex, Rambler.

OR — ‘’

AND — ‘+’

ANDNOT — ‘–’

Кроме того, уточнение значений может выполняться с помощью слов, расположены рядом, а также при помощи неточного задания слов, например: стол* (попадает столовая и т.д.). Слова могут приводиться к нормальной форме.

Уточнением может служить тезаурус (словарь, который содержит одинаковые по смыслу слова) (AltaVista).

Дескрипторные языки могут быть с контролируемой и свободной лексикой. В первом случае — состав ограничен словарем, во втором — может пополняться.

Обработка входящей информации в дипс

Так как документы поступают в систему в текстовом виде, то они должны быть преобразованы в ИПЯ. В случае применения классификационных языков применяется рубрицирование, в случае дескрипторных языков — индексирование. При этом в случае применения дескриптивных языков без грамматики и без контроля по словарю говорят ополнотекстовом индексировании.

Подготовка текста проходит в два этапа:

анализ семантики системы, анализ объектов и связей;
выражение этих связей на ИПЯ, приписывание объектами соответствующих выражений.

Анализ семантики обычно сводится к лингвистическому анализу, который заключается в нормализации слов и словосочетаний. Нормализированное слово называется термином.

При морфологическом анализе, как правило, отсекается все, кроме основы. Достаточно для анализа трех последовательных букв окончания.

Автоматическое индексирование осуществляется для отдельных и составных терминов. При этом, для генерации фраз применяется эвристический алгоритм. Выделяются группы взаимосвязанных слов. Для выделения групп применяется кластерный анализ. После этого определяется частота вхождения групп в документ. Если она высокая, то термины считаются связанными. Автоматическое индексирование заканчивается присвоением терминам весовых коэффициентов на основе статистических характеристик.

Пусть имеется совокупность N документов. Частота вхождения термина T_j в документ D_iобозначается tf_ij.Через df_j — число документов, в которых встретится T_j. Тогда величина, которая определяет, является ли термин T_j. дескриптором для документа D_i, — это вес термина

Все термины, входящие в документ ранжируем по весу и определяем термины, которые идентифицируют документ D_i.

В дескрипторных языках документ характеризуется словами. В классификационных — принадлежностью документа к некоторой группе. Для этого существует два подхода:

Рубрицирование на знаниях;
Рубрицирование по примерам.

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
18.03.20166.28 Кб32Документ.docx
#
18.03.201623.43 Кб13Документ.docx
#
17.05.201515.45 Кб16Документ.rtf
#
17.05.2015133.82 Кб11Документ.rtf
#
18.03.201690.12 Кб50Документ_Microsoft_Office_Word.docx
#
17.05.201546.98 Кб10Документальные системы.docx
#
18.03.201628.16 Кб243Документация ст. воспитателя окумент Microsoft Office Word (2) 1 (1).doc
#
17.05.201527.56 Кб17Документирование.docx
#
17.05.201512.54 Кб45ДОКУМЕНТЫ ПО ПРАКТИКЕ .docx
#
17.05.201581.71 Кб22Дом зад №17 для 9 класса.rtf
#
17.05.201557.64 Кб68Дом зад №5 для 9 класса.rtf