Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Документальные системы.docx
Скачиваний:
10
Добавлен:
17.05.2015
Размер:
46.98 Кб
Скачать

Рубрицирование на знаниях

Формируется база знаний для языковых выражений соответствующих рубрикам. Фактически это ЭС для диагностики и классификации. Для представления базы знаний обычно используются правила продукции или семантические сети. В последнем случае строится тезаурус, в котором отражается иерархия понятий в полуавтоматическом режиме. Термины выделяются автоматически, а связи — в ручном режиме.

Существует 5 типов отношений:

  1. более широкий термин — выше;

  2. более узкий термин — ниже;

  3. связанный термин — ассоциация;

  4. целое для термина — часть;

  5. часть для термина — целое.

Трудность создания таких тезаурусов — высокая, до нескольких лет. Кроме того, он, как правило, настроен на некоторую предметную область.

В продукционных системах эксперты вводят правила, а также формируются правила рубрицирования.

Процесс рубрицирования проходит в два этапа:

  1. выделение понятий для распознавания;

  2. принятие решений на основе правил рубрицирования.

Недостаток — высокая трудоемкость.

I часть — индексатор (индексирующий агент). Иногда называют пауком или роботом. II часть — поисковая машина, осуществляющая поиск по индексу. Индекс состоит из слов, которые встречаются в документах. При этом каждому слову соответствует список документов, которые его содержат. Несмотря на множество слов в естественных языках большинство из них употребляется не очень часто. С другой стороны, чаще всего употребляются слова, которые не несут информации (союзы, предлоги, артикли). Поэтому, поисковые словари имеют, как правило, не очень большие размеры.

Агент (индексатор) последовательно рассматривает все документы и выделяет индексную информацию или индексы. При этом документ делится на важную и не важную часть, с точки зрения идентификации документа. В индекс должна попадать, как правило, важная часть. При поиске каждая ИПС имеет свой информационно-поисковый язык. Стандарта на поисковые языки не существует. В Интернете существует SearchEngineerProject, в рамках которого пытаются создавать единый поисковый язык.

AltaVista содержит 11 миллиардов слов и 30 миллионов документов.

Достоинство словарных систем: как правило, автоматическое индексирование, недостаток: выдача большого количества документов при поиске.

Система метапоиска работает сразу с несколькими поисковыми серверами.

Search.com — наиболее известная система данного вида.

WebTown, Sledopit — аналогичные русскоязычные системы.

Методы статистической обработки текстов

Информация описывается двумя законами Джорджа Зипфа.

1-й закон. «Ранг-Частота». Если расположить частоты вхождения данного термина в документы и проранжировать по мере убывания частот, то получим ранги слов. Вероятность встретить произвольно выбранное слово равно отношению количества вхождения этого слова к общему числу слов в тексте.

Произведение вероятности обнаружения слова в тексте на ранг частоты — величина постоянная.

N — число слов в тексте, ri — ранг слова, Ni — количество вхождений слова.

С — разное в разных системах.

2-й закон. «Количество-Частота». Произведение частоты вхождения слова на количество разных слов с данной частотой есть величина постоянная для каждого естественного языка.

Слова, которые не несут информации, — stop-слова. Словарь stop-слов называется stop-list’ом.

Весовые коэффициенты определяются частотой вхождения терминов в документ.

Поиск текстовой информации

Модель поиска характеризуется следующими параметрами:

  1. Представление документов и запросов;

  2. Критерий смыслового соответствия;

  3. Методы ранжирования результатов запросов;

  4. Механизм обратной связи для оценки релевантности документов.

Для представления документов и запросов применяется сразу несколько моделей.

Модели представления документов и запросов

Булева модель

В этом случае документ представляется с помощью набора терминов, присутствующих в индексе. Каждый термин представлен как булева переменная:

Весовые коэффициенты не вводятся. Сочетание терминов характеризует документ. Запрос формируется как произвольное булевское выражение, которое связано логическими операциями (И, ИЛИ, НЕ). Мерой соответствия служит значение статуса выборки (истина или ложь). RetrievalStatusValue.

Такая модель проста в реализации и применяется во многих ДИПС. Эффективность поиска невысокая и невозможно ранжировать документы по релевантности.

Наиболее распространенной является вторая модель.

Пространственно-векторная модель

(предложена Солтоном в 1975 г.).

Документы в этом случае представляют собой набор векторов в n-мерном пространстве. Пространство содержит nбазисных нормализованных векторов. Значение первого компонента вектора определяет вес термина. Запрос также представляется n-мерным вектором. Показатель соответствия (релевантности) определяется скалярным произведением вектора запроса на вектор документа.

Документы ранжируются по убыванию скалярных произведений.

Векторные модели

Модель базируется на двух параметрах:

  • параметр релевантности Pr (rel)

  • параметр нерелевантности Pn (nonrel)

Pr + Pn = 1

Эти параметры вычисляются на основе вероятностных коэффициентов терминов и фактического присутствия терминов в документе.

Данная модель требует определения вероятности вхождения термина в документ, что, как правило, связано с дополнительными затратами.

Наиболее распространенной является векторная модель, которая для индексирования чаще всего использует от 20 до 49 терминов по частоте вхождения.

Обратная связь с пользователем ДИПС

В отличие от баз данных в ДИПС нет четкого представления документов и запросов пользователей, поэтому пользователь постепенно уточняет запросы методом итераций. Обратная связь позволяет оценивать релевантность документов, найденных по первоначальному запросу. В векторной модели множество документов считается релевантным, если оно образует положительную обратную связь, и нерелевантным — если отрицательную.

Есть два подхода к использованию обратных связей:

  • модификация запроса — влияет на текущий запрос, но не влияет на другие запросы;

  • модификация представления документа — влияет на эффективность поиска в последовательных запросах.