- •Информация является динамическим объектом, образующимся в момент взаимодействия объективных данных и субъективных методов.
- •Информация (первоначальное) – это сведения, сообщения о каком-либо событии, деятельности и т.п.
- •Информация (по Шеннону): I = - ∑pi*log(pi), где pi – вероятность i-ого сигнала
- •Информация – это продукт научного познания, средство изучения реальной действительности в рамках, допустимым одним из информационных подходов.
- •Информация(по ГОСТу) – сведения, воспринимаемые человеком и(или) специальными устройствами как отражение фактов материального и духовного мира в процессе коммуникации.
- •Прагматические свойства – характеризуют степень полезности информации для пользователя.( т.е проявляются в процессе использования информации)
- •Эмерджентность – эмерджентные те свойства, что порождаются взаимодействием элементов,но не наблюдаются у элементов, если рассматривать их отдельно.
- •Старение- устаревает, когда не имеет ценности для потребителя, понять, что устарела, можно только в сравнении с новой.
- •2. Свойства концентрации и рассеяния. Характер закономерностей.
- •Формы концентрации в сфере инф-й деятельности
- •3. Понятия «информационный объект», «информационное взаимодействие».
- •4. Определение понятия информации с точки зрения информационного взаимодействия.
- •5.Свойства информации с точки зрения модели информационного взаимодействия.
- •11. Назначение и классификация информационных систем. Конкретная и абстрактная ИПС. Отличия документальных и фактографических ИПС.
- •12. Структурная схема процессов в абстрактной АИПС. Режимы ретроспективного поиска и ИРИ.
- •Предкоординированные — перед поиском устанавливаются координатные связи между лексическими единицами.
- •Кодирование информации
- •18 Типологии информационных потребностей.Реальная информационная потребность.
- •Уровневая модель взаимосвязи информационных объектов
- •20.Типология задач информационного поиска. Характер неопределенности объекта поиска и требования к поисковому процессу для разных типов поисковых задач.
- •21. Понятие стратегии и технологии поиска информации.
- •Третий - взаимодействие пользователя с предоставляемой системой информацией; является самым сложным и практически не формализуемым уровнем общения.
- •25. Типология простых (фактографических) запросов и организация поисковых массивов для различных типов запросов.
- •Физическая реализация ключа – индекс. Он обеспечивает доступ к записям, соответствующим отдельным значениям ключа.
- •26.Расширенное логическое выражение запроса (обобщенная форма). Основные виды операторов и операндов.
- •Контекстные операторы
- •НАДО: технологии (алгоритмы) поиска основываются на двух типах организации массива объектов поиска – прямой и инвертированной.
- •28. Типы обратной связи в технологии информационного поиска.
- •ИДЕЯ: Это делается с помощью изменения весовых коэффициентов терминов. Варианты их изменения предлагаются системой на основании данных о релевантности выданных ранее документов.
- •30. Линейная модель механизма поиска по логическому выражению.
- •31. Линейная модель механизма поиска документов-аналогов.
- •32. Линейная модель механизма эвристического поиска.
- •33.Линейная модель механизма поиска по технологии обратной связи по релевантности терминов.
- •34.Матрицы ассоциации документов, терминов и их свойства.
- •35. Типология и показатели оценки эффективности информационного поиска. Определение первичных координат описания выхода ИПС.
- •36. Основные частные и интегральные критерии оценки АИПС.
- •Показатель полезной работы η
- •37. Понятие рабочей характеристики АИПС.
- •38. Матрицы "термин-документ", "термин-термин" и их свойства.
- •39.Диаграмма Эйлера-Венна (диаграмма <L>). Критерии оценки АИПС в координатах <L>.
- •Критерии оценки АИПС в координатах <L>
- •40.Таблица сопряжённости. Критерии оценки АИПС в координатах <a,b,c,d>.
- •Таблица сопряженности <a,b,c,d>
- •Критерии оценки АИПС в координатах <a,b,c,d>
- •41. Диаграмма <n,x>. Критерии оценки АИПС в координатах < n,x>.
- •Критерии оценки АИПС в координатах <n,x>:
- •42.Коэффициент линейной корреляции множества выданных и истинно релевантных документов.
- •43.Назначение, состав и структура лингвистического обеспечения ИС.
- •44.Основные методы идентификации объектов.
- •45. Классификация. Определение и формально-логические правила построения.
- •47. Типы классификаций. Фасетные классификации. Примеры.
- •48. Сравнительная характеристика иерархических и фасетных классификаций.
- •49. Кодирование объектов. Системы кодирования. Примеры.
- •50. Назначение, структура и использование информационно-поисковых тезаурусов
- •51.Обобщенная технологическая схема и компоненты информационного поиска.
- •Навигация (процесс поиска по запросу в выбранной БД) – целенаправленная последовательность использования методов, средств и технологий конкретной АИПС, определяемая стратегией, для получения и оценки результата.
- •52. Типовые реализации интерфейсов подготовки поисковых выражений, их особенности.
34.Матрицы ассоциации документов, терминов и их свойства.
Используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор), содержащего множество лексических единиц всего потока документов (то есть все слова, числа и прочие обозначения, использованные во всех документах системы). Таким образом, li принадлежит D для всех i, где li— совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L: L={l1 ,...,li,..., ln}, li L для всех i
Универсальный массив L0 (ИМЕТЬ В ВИДУ, НО ЛУЧШЕ НЕ ПИСАТЬ: прообразы — поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библиотеки), подмножеством которого являются все документы:
L0 = {l1 ,...,li,..., l n0}, li L0 для всех i, причем | L0| = n0, где n0, — мощность множества L0. Линейное представление теоретико-множественного образа документа:
lk=
b |
|
||
|
1k |
|
|
|
|
||
|
|
||
|
b |
|
|
|
|
||
ik |
|||
|
|
||
|
|
||
|
|
|
|
bDk |
, где bik=
1,0,
1-если i-й термин входит в k-й документ;0- если не входит.
Универсальный массив в линейном представлении есть матрица размерности
D х n0 :
Подобные матрицы известны под названием матрицы «термин—документ». Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем.Таким образом, столбец матрицы характеризует ПОД. Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина: Fi=∑bik.
|
L L |
|
|
|
|
|
|
n0 |
|
|
|
T |
|
|
b b |
|
|||||
Составим матрицу |
0 |
0 |
|
km |
|
, где |
ij |
ik jk .Матрица |
имеет |
|
|
|
|
|
|
|
|
|
|
k 1 |
|
размерность D D . Внедиагональный элемент ij есть количество появлений i-го и j-го терминов в L0 , диагональный – i-го. Матрицы такого типа называют «матрица термин-термин» и характеризуют взаимосвязь терминов в данном массиве.
Составим матрицу L0T x L0 = (δkm), δkm=∑=1 . Размерность n0 x n0, внедиагональные элементы характеризуют степень попарных пересечений
сообщений из L0: = | ∩ |
Диагональные элементы задают длины сообщений: = | | В целом задает распределения пересечений документов и их длин.
35. Типология и показатели оценки эффективности информационного поиска. Определение первичных координат описания выхода ИПС.
2 вида критериев оценки:
-экономический: $$ и временные затраты (на разработку, тестирование, фикс. затраты на стандартные расходы вроде аренды);
-технический: способность обеспечения требуемого пользователю результата.
Экономическая эффективность.
Положения для анализа эффективности затрат:
1.Необходимость четкого определения целей системы.
2.Необходимость существ. альтернатив для достижения целей.
3.Необходимость определения стоимость реализации альтернатив.
4.Необходимость создания модели, связывающей стоимость реализации с целями.
5.Необходимость ранжирования альтернатив, т.е. для каждого случая надо оценить затраты и ожидаемую эффективность.
Техническая эффективность.
2 точки зрения: юзера и админа. Обоих интересует:
Удовлетворяет ли система требованиям пользователей;
В чем причины невыдачи релевантных док-ов;
В чем причины выдачи нерелевантных док-ов;
Расходы и доходы системы.
6 показателей эффективности ИС:
1.Полнота поиска – способность выдавать релев. док.
2.Точность – способность отфильтровывать нерелев. док.
3.Усилия на формулирование запросов и просмотр выданной информации.
4.Время между поступлением запроса и выдачей ответа.
5.Форма представления выдачи.
6.Полнота инф. массива в целом – степень охвата релевантных интересных пользователю док-ов.
Первичные координаты описания выхода ИПС – соотношение множеств выданных и невыданных док-ов.
Диаграмма <L> - соотношение множеств L0-всего инф. потока, и Lи истинно релев. док-ов и Lc документов, выданных системой в ответ на поисковый запрос.
Таблица сопряженности <a,b,c,d> отображает количественное соотношение выданных и невыданных системой множеств релев. и нерелев. док-ов.
Диаграмма <n,x> -сочетание числа выданных релев. х и всего выданных n док-ов.