Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
264_265.doc
Скачиваний:
14
Добавлен:
30.07.2019
Размер:
272.38 Кб
Скачать
  1. Индексирование документов. Способы организации индексов документов.

Представления док-ов обычно конструируется на основе мн-ва каких либо св-в.В простых СТП эти св-ва(атрибуты) вообще не являются какими либо компонентами текста док-та.

В качестве атрибута в таких док-ах использ. какие либо внешние характер. Причем они не обязат. должны индефицировать его уникальным образом.

В системах контекстного полнотекстового поиска атрибуты представления док-ов - это термы извлеченные из его текста-слова или словосочетания либо значение специально подобранной функций вычисленные на основе этих извлеченных тэгов.Любые ассоциированные с док-ом атрибуты иденцифицируемые док-т или характеризующие его содержимое называются его индексирующими св-вами.

На основе индексирующих св-в док-та стп строится вспомогательная структура данных позволяющая по их значению или по значению некоторой функций использ. их в качестве аргументов,эффективным образом обнаружить в системной коллекций док-т или док-ты которым эти атрибуты соответствуют и по необходимости осуществляют быстрый доступ к ним.

Такая вспомог структура называется индексом,а процесс назначения док-та указанных атрибутов индексированием док-та.

В ранних СТП использовалось простейшие представления док-ов.в качестве такого представления служило совокупность слов,либо словосочетаний лексики предметной области системы,характеризуюшие содержания данного док-та. Эти слова называются дискрипторами.Индексирование док-ов в таких системах сводится к назначению док-ту совокупности дискрипторов.

Индексирование док-ов в СТП может осуществлятся на основе их названий ,анатаций или полного текста.Оно может производится авторами док-ов,экспертами в предметной области системы или автоматически,системными механизмами на основе анализа текста док-та.

В современных все трудоемко поэтому автоматически.

  1. Представление пользовательских запросов. Критерии релевантности.

Формирование структуры представлений пользовательских запросов является другой важной задачей СТП.точно также как в процессе поиска система апперирует структурой представлений док-ов,вместо самих док-ов,вместо заданного пользователем запроса в ней используется структура представлений конструирования в процессе обработки запроса.Представление запроса строится на основе тех же принципов ,что и представления док-ов.Иначе эти представлния невозможно сопоставить.

В дискрипторных СТП в качестве представления запроса также используется совокупность дискрипторов,характеризующих содержания запроса.

В таких системах представления запроса называется поисковым образом запроса.В процессе обработкт пользовательского запроса системе необходимо оценивать реливантность очередного рассматриваемого документа.

Для решения этой задачи его представление должно сопоставится по некоторому критерию реливантности с представлением запроса.

Вид критерия реливантности зависит от подхода используемого в системе для формирования предст.док-ов и запросов.

В дискрипторных системах обычно используется теоретико мн-венные критерий.Например док-т признается релив. Если мн-во дискрипторов поискового мн-ва запроса является подмножеством множества дискрипторных представлений док-та.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]