- •Блюменау Д. И.
- •ВВЕДЕНИЕ
- •Глава 1. СВЕРТЫВАНИЕ ИНФОРМАЦИИ КАК ОДНО ИЗ УСЛОВИЙ ЧЕЛОВЕЧЕСКОГО ОБЩЕНИЯ
- •1.1.0 СУЩНОСТИ «СВЕРТЫВАНИЯ»
- •1.2. ИНФОРМАЦИОННОЕ СВЕРТЫВАНИЕ
- •1.3. СВЕРТЫВАНИЕ В СФЕРЕ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ
- •2.1. ИНДЕКСИРОВАНИЕ
- •2.1.1. Индексирование — его назначение
- •2.1.2. Индексирование на основе «традиционных» ИПЯ
- •2.1.2.1. УДК как представитель ИПЯ иерархического типа
- •2.1.2.2. ИПЯ алфавитно-предметных рубрик
- •2.1.2.3. ИПЯ библиографических описаний
- •2.1.3. Режимы индексирования
- •2.1.4. Координатное индексирование на основе дескрипторных языков
- •2.1.4.1. Избыточное индексирование
- •2.1.4.2. Критерии выдачи и стратегия поиска по запросу
- •2.1.6. Автоматизация процесса индексирования
- •2.1.6.1. Индексирование в АИПС «Пусто — Непусто»
- •2.1.6.2. Индексирование в ИПС «Артефакт»
- •2.1.6.3. Индексирование в поисковой машине «Яндекс»
- •2.2. БИБЛИОГРАФИЧЕСКОЕ ОПИСАНИЕ
- •2.3. АННОТИРОВАНИЕ И РЕФЕРИРОВАНИЕ
- •2.3.1. Функции аннотаций и рефератов
- •2.3.2. Способы раскрытия содержания текстов
- •Пример аннотативной фразы:
- •Пример реферативной фразы:
- •Пример типичной аннотации:
- •2.3.4. Виды аннотаций и рефератов
- •2.4. КОНСПЕКТИРОВАНИЕ КАК РАЗНОВИДНОСТЬ РЕФЕРИРОВАНИЯ
- •2.5.1. Генезис и сущность концептографического обслуживания
- •2.5.2. Виды концептографического обслуживания
- •2.5.3. Обзорно-аналитическая деятельность
- •2.5.3.1. Виды обзоров
- •2.5.3.2. Функции обзоров в системе научных коммуникаций
- •2.5.4. Основы методики написания обзоров
- •Глава 3. НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ТЕКСТА С ТОЧКИ ЗРЕНИЯ ЕГО СВЕРТЫВАНИЯ
- •3.1. ТЕКСТ И ЕГО ОБЩАЯ ХАРАКТЕРИСТИКА
- •3.2. СТРУКТУРЫ ТЕКСТА
- •3.2.1. Синтаксическая структура текста
- •3.2.1.1. О связности текста
- •3.2.1.2. Средства внутритекстовой связности
- •Разновидности коннекторов
- •3.2.2. Коммуникативная структура текста
- •Пример
- •Пример
- •Пример
- •3.2.3. Аспектная структура текста
- •3.2.4. Семантическая структура текста
- •3.2.5. Информативная структура текста
- •4.1. ВИДЫ И СРЕДСТВА ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •4.2. ФРАГМЕНТИРОВАНИЕ КАК ОДНО ИЗ НАПРАВЛЕНИЙ ИНФОРМАТИВНОГО СВЕРТЫВАНИЯ
- •4.2.1 • Подходы к реализации идеи фрагментирования
- •4.2.1.1. Семантический подход к проблеме фрагментирования
- •4.2.1.2. Синтаксический подход к проблеме фрагментирования
- •5.1. КВАЗИХРЕСТОМАТИЯ КАК ПОСОБИЕ ДЛЯ САМООБРАЗОВАНИЯ
- •5.1.1. О познавательной профессиональной потребности
- •5.1.2. Лексический аппарат формирования квазихрестоматии
- •5.2. ЭТАПЫ СОЗДАНИЯ КВАЗИХРЕСТОМАТИИ
- •5.2.1 • Формирование запроса и составление учебной программы (оглавления)
- •5.2.2. Составление поискового предписания и процедура поиска
- •5.2.3. Формирование и оформление хрестоматии
- •5.2.4. Пример подготовки квазихрестоматии
- •(AлБ)v[(BvИvKvЛ)л(ГvДvE)]v(BлЖ)v(BлЗ)
- •Глава 6. РАЗВИТИЕ ИНДИКАТОРНОГО МЕТОДА КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ ТЕКСТОВ
- •6.1. СРЕДСТВА И МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •6.2. ТЕХНОЛОГИЧЕСКАЯ ДОКУМЕНТАЦИЯ, ОБЕСПЕЧИВАЮЩАЯ ИЗБИРАТЕЛЬНОЕ СВЕРТЫВАНИЕ ТЕКСТОВ
- •6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ
- •6.3.1. Формирование аннотаций и рефератов
- •6.3.2. Формирование минимальных релевантных фрагментов
- •6.3.3. Формирование квазиконспекта
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Вопросы для самопроверки
- •ПОСЛЕСЛОВИЕ
- •ОГЛАВЛЕНИЕ
В режиме посткоординатного индексирования «вход» в ПОД осущест вляется по каждому из элементов ПОД. К языкам, используемым в ре жиме посткоордииатиого индексирования, относятся прежде всего дескрипторные ИПЯ, на рассмотрении которых следует остановиться подробнее.
2.1.4.Координатное индексирование на основе дескрипторных языков
Рассмотрение ИПЯ дескрипторного типа имеет большое методоло гическое значение, поскольку позволяет вскрыть природу и сущность информационно-поисковых языков вообще и анализировать достоин ства и недостатки практически каждого из них. Дескрипторные языки относятся к числу ИПЯ, традиционно называемых языками координат ного (посткоордииатиого) индексирования. Идею координатного ин дексирования сформулировал еще в начале 50-х годов XX в. известный американский ученый М. Тауб. Согласно его идее, «информационное содержание документа можно отразить в его поисковом образе при по мощи перечня несвязанных между собой, взятых из текста, наиболее значимых для этого текста слов, а поиск вести в И ПС по логическому сочетанию таких же значимых слов запроса». Тауб не только.сформулировал идею координатного индексирования, но и реализовал ее в систе ме «Унитерм». Он рекомендовал использовать для индексирования от дельные слова естественного языка — унитермы (сейчас они называют ся ключевыми словами) без какой-либо их формализации — так, как они встречались в текстах документов, однако вскоре выяснилось, что применение естественного языка без его формализации приводит при информационном поиске к большим потерям информации и информа ционному шуму. Поэтому последователи Тауба обратили серьезное внимание на решение лингвистических и логических проблем при соз дании ИПЯ.
Мы уже знаем причины непригодности естественного языка для ин формационного поиска. Они обусловлены неоднозначностью естест венного языка, выражающейся в его избыточности и недостаточности (с точки зрения информационного поиска). На устранение этих эле ментов неоднозначности и направлены были усилия ученых, создавав ших дескрипторные языки *
* Термин «дескриптор* в теорию ИПС ввел Кельвин Меурс в 50-е годы XX столетия. Дескрипторы рассматривались Мусрсом как «ближайшие родственники предметных рубрик*. Отмечалось, что предметную рубрику легко преобразовать в список дескрипто ров.
Создание дескрипторного ИПЯ включает в себя совокупность не скольких этапов, каждый из которых призван устранить тот или иной элемент неоднозначности.
I этан — н а к о п л е н и е с л о в н и к а ключевых слов. Он осущест вляется путем извлечения из заглавий, аннотаций или полных текстов первичных документов (ПД) тех слов естественного языка, которые могут выполнять эвристические функции, т. е. использоваться в поис ковых образах документов и в поисковых предписаниях (запросах). Могут ключевые слова привлекаться и из терминологических словарей и пособий, а также из запросов, поступающих в ИПС. После того как накоплен достаточно представительный массив ключевых слов (1500— 2000), переходят к следующему этапу.
II этап — ф о р м у л и р о в к а ключевых слов и их н о р м а л и з а
ци я . Формулировка — преимущественно отдельные слова или также
иустойчивые словосочетания (Электричество — Аппаратура или Электрическая аппаратура) —определяет характер будущего словаря дескрипторов. Режим координатного индексирования тяготеет к от дельным словам (уиитермам), однако механическое разделение устой чивых словосочетаний (Электронно-вычислительная машина па Элек троника, Машина, Вычисление) может привести затем к потерям ин формации при поиске. Обычно придерживаются следующего правила: целесообразно ориентироваться прежде всего на единичные ключевые слова, сохраняя устойчивые словосочетания в тех случаях, когда их рас членение ведет к потере значения термина; нельзя членить на отдель ные слова словосочетания типа «железная дорога», «сельское хозяйст во», «легкая музыка», «восточные языки» и нр. Это правило касается и таких устойчивых терминов, как «информационно-поисковая систе ма», «таблица Менделеева», «интегральная система», «рекомендатель ная библиография» и многих др.
Под н о р м а л и з а ц и е й ключевых слов понимают приведение ключевых слов к стандартной форме записи: для этого существуют спе циальные указания, какие слова записывать в единственном, какие во множественном числе. Прилагательные и причастие записываются в форме именительного падежа единственного числа мужеского рода («красный», «круглый»); существительные —обычно в именительном падеже множественного числа и т. д.
III этап — д е с к р и н т о р и з а ц и я ключевых слов. Задачей этого этапа является преобразование полученного на II этапе словника клю чевых слов в дескрипторный словарь. Дескринторизация сводится к группировке ключевых слов в классы условной эквивалентности — де скрипторы. Отсюда дескриптор — это представитель класса (множест
ва) условио-эквивалеитиых слов. Эквивалентными называют синони мичные и близкие по смыслу слова, которые, будучи заменены в какомлибо тексте друг на друга, не меняют существенно его смысла. Четкие правила выявления эквивалентности ключевых слов отсутствуют (нет
вязыке и абсолютных синонимов, кроме калек). Эквивалентность оп ределяется обычно из прагматических соображений. Поэтому практи кой выработано следующее эмпирическое правило: если ключевое сло во в любом тексте информационного массива (под текстами в данном случае понимают совокупности ПОД), обслуживаемого поисковой сис темой, может быть заменено другим ключевым словом и при этом на любой разумный запрос вопрос о выдаче решается так же, как и до заме ны, то такие ключевые слова являются эквивалентными в сфере дейст вия данной ИПС. Прагматический характер рекомендации заключается
втом, что она ориентируется на «сферу действия» данной ИПС.
Рассмотрим три текста:
1)миниатюризация радиоэлектронных устройств, предназначен ных для работы на самолетах;
2)миниатюризация бортовой аппаратуры;
3)миниатюризация приборов, применяемых в авиации.
Эти три фразы практически эквивалентны с точки зрения плана со держания, но мало имеют общего с точки зрения плана выражения. При чем если ключевые слова — «устройство», «аппаратура», «приборы» можно условно считать синонимами, то ключевые слова — «бортовой», «авиация», «самолеты» — синонимичными можно признать только в сфере действия ИПС, тематика которой посвящена аппаратуре, раз рабатываемой для авиации. И в сфере действия данной ИПС, в ее ИПЯ, эти ключевые слова должны быть объединены в классы условной эквива лентности с выделением в этих классах по одному из слов в качестве представителя этого класса, т. е. дескриптора.
IV этап — устранение о м о н и м и и и п о л и с е м и и ключевых слов. Эта операция предусматривает выявление в словнике ключевых слов (дескрипторов), которые одинаковы с точки зрения плана выраже ния, но различны с точки зрения плана содержания. Например: фильтр (оптический) — фильтр (электрический) — фильтр (гидравлический), информация (сведения) — информация (деятельность) и т. п. Каждый из подобных многозначных слов фигурирует в качестве самостоятель ного дескриптора с уточнением в скобках его значения.
В результате дескрипторизации ключевых слов и устранения омо нимии и полисемии образуется дескрипторный словарь, представляю щий собой алфавитный перечень ключевых слов и дескрипторов, в ко тором от ключевых слов даются отсылки к соответствующим дескрин
торам, а иод словами, обозначающими дескрипторы, перечисляются ключевые слова, входящие в класс условной эквивалентности данного дескриптора.
Теперь при индексировании текстов (ПОД) с помощью дескрипторного словаря мы эквивалентные по смыслу тексты, но разные с точки зрения плана выражения, будем однозначно переводить на дескринторный язык. Вспомним пример двух текстов, приведенный выше: «пропу щенные» через дескрипторный словарь, эти тексты примут идентичные друг другу ПОД, а именно: Библиография (указатели литературы) — Судостроение — Великобритания —Служба информации.
Однако этими этапами процедура создания ИПЯ дескрипторпого типа не заканчивается. Мы имеем дескрипторный словарь, но он не ком пенсирует логико-психологическую эллипсность естественного языка.
Этот компонент недостаточности устраняется путем установления п а р а д и г м а т и ч е с к и х отношений между дескрипторами ИПЯ де скрипторпого типа. Такая задача решается на V этапе, в результате вы полнения которой получается информационно-поисковый тезаурус.
Vэтап —установление п а р а д и г м а т и ч е с к и х отношений. Под парадигматическими отношениями понимаются объективно сущест вующие в языке (не в тексте) логические и ассоциативные отношения между его лексическими единицами. Парадигматическими являются отношения род — вид, часть — целое, предмет —функция, предмет — свойство и т. п. На основании прагматических соображений парадигма тические отношения разделяются условно на сильные (логические) и слабые (ассоциативные). Родо-видовые отношения (дерево — береза), как правило, фиксируются в виде сильных парадигматических отноше ний. Логические отношения типа пересечение (вычисление — расчет) и ассоциативные отношения сходства (картотека — каталог), контраста (iдвижение — покой), смежности (стул — стол) и другие являются осно ванием для установления слабых парадигматических отношений.
Образование в ИПЯ парадигм служит средством компенсации ло гико-психологической эллинсности в тексте (т. е. в поисковых образах) документов и способствует повышению полноты выдачи при поиске информации.
Сильные и слабые парадигматические отношения по-разному ис пользуются на практике. Первые для избыточного индексирования до кументов (или запросов), вторые —для составления стратегии поиска по запросу, т. е. для составления нескольких поисковых предписаний на основе исходного поискового образа запроса. В последнем случае при меняются также и сильные отношения.
В результате выполнения V этапа образуется информационно-поис ковый тезаурус —дескрипторный словарь, в котором в явной форме за