Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
[7 семестр] Расписанные вопросы к экзамену.pdf
Скачиваний:
9
Добавлен:
05.06.2015
Размер:
1.52 Mб
Скачать

34.Матрицы ассоциации документов, терминов и их свойства.

Используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор), содержащего множество лексических единиц всего потока документов (то есть все слова, числа и прочие обозначения, использованные во всех документах системы). Таким образом, li принадлежит D для всех i, где liсовокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L: L={l1 ,...,li,..., ln}, li L для всех i

Универсальный массив L0 (ИМЕТЬ В ВИДУ, НО ЛУЧШЕ НЕ ПИСАТЬ: прообразы — поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библиотеки), подмножеством которого являются все документы:

L0 = {l1 ,...,li,..., l n0}, li L0 для всех i, причем | L0| = n0, где n0, — мощность множества L0. Линейное представление теоретико-множественного образа документа:

lk=

b

 

 

1k

 

 

 

 

 

 

b

 

 

 

ik

 

 

 

 

 

 

 

bDk

, где bik=

1,0,

1-если i-й термин входит в k-й документ;0- если не входит.

Универсальный массив в линейном представлении есть матрица размерности

D х n0 :

Подобные матрицы известны под названием матрицы «термин—документ». Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем.Таким образом, столбец матрицы характеризует ПОД. Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина: Fi=∑bik.

 

L L

 

 

 

 

 

 

n0

 

 

T

 

 

b b

 

Составим матрицу

0

0

 

km

 

, где

ij

ik jk .Матрица

имеет

 

 

 

 

 

 

 

 

 

k 1

 

размерность D D . Внедиагональный элемент ij есть количество появлений i-го и j-го терминов в L0 , диагональный – i-го. Матрицы такого типа называют «матрица термин-термин» и характеризуют взаимосвязь терминов в данном массиве.

Составим матрицу L0T x L0 = (δkm), δkm=∑=1 . Размерность n0 x n0, внедиагональные элементы характеризуют степень попарных пересечений

сообщений из L0: = | ∩ |

Диагональные элементы задают длины сообщений: = | | В целом задает распределения пересечений документов и их длин.

35. Типология и показатели оценки эффективности информационного поиска. Определение первичных координат описания выхода ИПС.

2 вида критериев оценки:

-экономический: $$ и временные затраты (на разработку, тестирование, фикс. затраты на стандартные расходы вроде аренды);

-технический: способность обеспечения требуемого пользователю результата.

Экономическая эффективность.

Положения для анализа эффективности затрат:

1.Необходимость четкого определения целей системы.

2.Необходимость существ. альтернатив для достижения целей.

3.Необходимость определения стоимость реализации альтернатив.

4.Необходимость создания модели, связывающей стоимость реализации с целями.

5.Необходимость ранжирования альтернатив, т.е. для каждого случая надо оценить затраты и ожидаемую эффективность.

Техническая эффективность.

2 точки зрения: юзера и админа. Обоих интересует:

Удовлетворяет ли система требованиям пользователей;

В чем причины невыдачи релевантных док-ов;

В чем причины выдачи нерелевантных док-ов;

Расходы и доходы системы.

6 показателей эффективности ИС:

1.Полнота поиска – способность выдавать релев. док.

2.Точность – способность отфильтровывать нерелев. док.

3.Усилия на формулирование запросов и просмотр выданной информации.

4.Время между поступлением запроса и выдачей ответа.

5.Форма представления выдачи.

6.Полнота инф. массива в целом – степень охвата релевантных интересных пользователю док-ов.

Первичные координаты описания выхода ИПС – соотношение множеств выданных и невыданных док-ов.

Диаграмма <L> - соотношение множеств L0-всего инф. потока, и Lи истинно релев. док-ов и Lc документов, выданных системой в ответ на поисковый запрос.

Таблица сопряженности <a,b,c,d> отображает количественное соотношение выданных и невыданных системой множеств релев. и нерелев. док-ов.

Диаграмма <n,x> -сочетание числа выданных релев. х и всего выданных n док-ов.