- •Блюменау Д. И.
- •ВВЕДЕНИЕ
- •Глава 1. СВЕРТЫВАНИЕ ИНФОРМАЦИИ КАК ОДНО ИЗ УСЛОВИЙ ЧЕЛОВЕЧЕСКОГО ОБЩЕНИЯ
- •1.1.0 СУЩНОСТИ «СВЕРТЫВАНИЯ»
- •1.2. ИНФОРМАЦИОННОЕ СВЕРТЫВАНИЕ
- •1.3. СВЕРТЫВАНИЕ В СФЕРЕ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ
- •2.1. ИНДЕКСИРОВАНИЕ
- •2.1.1. Индексирование — его назначение
- •2.1.2. Индексирование на основе «традиционных» ИПЯ
- •2.1.2.1. УДК как представитель ИПЯ иерархического типа
- •2.1.2.2. ИПЯ алфавитно-предметных рубрик
- •2.1.2.3. ИПЯ библиографических описаний
- •2.1.3. Режимы индексирования
- •2.1.4. Координатное индексирование на основе дескрипторных языков
- •2.1.4.1. Избыточное индексирование
- •2.1.4.2. Критерии выдачи и стратегия поиска по запросу
- •2.1.6. Автоматизация процесса индексирования
- •2.1.6.1. Индексирование в АИПС «Пусто — Непусто»
- •2.1.6.2. Индексирование в ИПС «Артефакт»
- •2.1.6.3. Индексирование в поисковой машине «Яндекс»
- •2.2. БИБЛИОГРАФИЧЕСКОЕ ОПИСАНИЕ
- •2.3. АННОТИРОВАНИЕ И РЕФЕРИРОВАНИЕ
- •2.3.1. Функции аннотаций и рефератов
- •2.3.2. Способы раскрытия содержания текстов
- •Пример аннотативной фразы:
- •Пример реферативной фразы:
- •Пример типичной аннотации:
- •2.3.4. Виды аннотаций и рефератов
- •2.4. КОНСПЕКТИРОВАНИЕ КАК РАЗНОВИДНОСТЬ РЕФЕРИРОВАНИЯ
- •2.5.1. Генезис и сущность концептографического обслуживания
- •2.5.2. Виды концептографического обслуживания
- •2.5.3. Обзорно-аналитическая деятельность
- •2.5.3.1. Виды обзоров
- •2.5.3.2. Функции обзоров в системе научных коммуникаций
- •2.5.4. Основы методики написания обзоров
- •Глава 3. НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ТЕКСТА С ТОЧКИ ЗРЕНИЯ ЕГО СВЕРТЫВАНИЯ
- •3.1. ТЕКСТ И ЕГО ОБЩАЯ ХАРАКТЕРИСТИКА
- •3.2. СТРУКТУРЫ ТЕКСТА
- •3.2.1. Синтаксическая структура текста
- •3.2.1.1. О связности текста
- •3.2.1.2. Средства внутритекстовой связности
- •Разновидности коннекторов
- •3.2.2. Коммуникативная структура текста
- •Пример
- •Пример
- •Пример
- •3.2.3. Аспектная структура текста
- •3.2.4. Семантическая структура текста
- •3.2.5. Информативная структура текста
- •4.1. ВИДЫ И СРЕДСТВА ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •4.2. ФРАГМЕНТИРОВАНИЕ КАК ОДНО ИЗ НАПРАВЛЕНИЙ ИНФОРМАТИВНОГО СВЕРТЫВАНИЯ
- •4.2.1 • Подходы к реализации идеи фрагментирования
- •4.2.1.1. Семантический подход к проблеме фрагментирования
- •4.2.1.2. Синтаксический подход к проблеме фрагментирования
- •5.1. КВАЗИХРЕСТОМАТИЯ КАК ПОСОБИЕ ДЛЯ САМООБРАЗОВАНИЯ
- •5.1.1. О познавательной профессиональной потребности
- •5.1.2. Лексический аппарат формирования квазихрестоматии
- •5.2. ЭТАПЫ СОЗДАНИЯ КВАЗИХРЕСТОМАТИИ
- •5.2.1 • Формирование запроса и составление учебной программы (оглавления)
- •5.2.2. Составление поискового предписания и процедура поиска
- •5.2.3. Формирование и оформление хрестоматии
- •5.2.4. Пример подготовки квазихрестоматии
- •(AлБ)v[(BvИvKvЛ)л(ГvДvE)]v(BлЖ)v(BлЗ)
- •Глава 6. РАЗВИТИЕ ИНДИКАТОРНОГО МЕТОДА КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ ТЕКСТОВ
- •6.1. СРЕДСТВА И МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •6.2. ТЕХНОЛОГИЧЕСКАЯ ДОКУМЕНТАЦИЯ, ОБЕСПЕЧИВАЮЩАЯ ИЗБИРАТЕЛЬНОЕ СВЕРТЫВАНИЕ ТЕКСТОВ
- •6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ
- •6.3.1. Формирование аннотаций и рефератов
- •6.3.2. Формирование минимальных релевантных фрагментов
- •6.3.3. Формирование квазиконспекта
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Вопросы для самопроверки
- •ПОСЛЕСЛОВИЕ
- •ОГЛАВЛЕНИЕ
4.2.1.2.Синтаксический подход к проблеме фрагментирования
Фрагментирование, ориентированное на т и п о в ы е з а п р о с ы , возможно, заслуживает внимания, но сами «типовые» запросы, как бы они тщательно ни формулировались, есть продукт взаимодействия (адаптации) потребителей информации с существующей информаци онной системой. А это значит, что в документальном потоке может быть определенный спектр фрагментов текстов, которые потенциально спо собны удовлетворять некоторые информационные потребности специ алистов, но в перечне запросов они не окажутся, поскольку на подобные запросы существующая информационная система никогда потребите лям не отвечала. Поэтому необходимо «идти» не только от типовых за просов, но и от содержательной структуры документов, допуская при этом, что в принципе любой содержательно замкнутый, понятный вне контекста, отрезок текста («квант») —от предложения до суперсинтакси ческого целого —способен удовлетворить некоторую информационную потребность (поскольку, как предположено в начале главы, грамотно составленный документ не должен содержать в себе «пустой породы»).
Естественно, что определенное количество таких текстовых «кван тов», выбранных на основе не столько содержательного, сколько фор мального подхода к анализу документа, может оказаться никогда не востребованными абонентами системы (быть балластом в системе), но мы знаем также, что не только «кванты», но нередко и сами документы (статьи, книги и тому подобное) оказываются никогда не запрашивае мыми даже в крупнейших книжных хранилищах.
Существует два способа фрагментирования в рамках синтаксичес кого подхода.
П е р в ы й из них —метод абзацного разбиения исходит из допуще ния, что самостоятельный фрагмент соответствует суперсинтаксичес кому целому (ССЦ), включающему один суперсегмент или один либо несколько сегментов. Границы такого ССЦ формально определяются абзацными отступами. Известно, что абзац и ССЦ —категории разные, но тем не менее в подавляющем числе случаев ССЦ начинается с абзац ного отступа, хотя далеко не каждый такой отступ служит началом ССЦ. Таким началом должно быть автосемантичное предложение, ко торое через систему повторно-коннекторных связей связывается с ря дом предложений.
Процедура фрагментирования в рассматриваемом режиме сводится к следующему: началом ССЦ считается начало первого абзаца доку мента. В режиме автоматического индексирования составляются поис ковые образы предложений, которые последовательно попарно анали
зируются (сопоставляются) с целью обнаружения в них «пересечения» лексических повторов (при этом пересекающимися могут быть не обя зательно синонимичные, но и парадигматически связанные повторы) и коннекторов. Пара предложений считается коннектирующейся, отно сящейся к одному ССЦ, если содержит в себе хотя бы одни повтор или
(и) коннектор (табл. 4.1), в том числе и местоименный.
Если при анализе очередной пары предложений во втором предло жении этой пары не обнаруживаются элементы суперсиитаксических связей, то есть появляется как бы синтаксически инородное предложе ние, то сопоставительному анализу подвергается еще одно (последую щее) предложение. Если и в этом предложении отсутствуют элементы связи с первым предложением анализируемой фразы, то это служит сигналом «обрыва» текста, то есть конца ССЦ.
Началом очередного ССЦ считается первый абзацный отступ, сле дующий за «обрывом». Таким образом, хотя формально ССЦ отождест влено с абзацем, в действительности оно включает обычно два и более абзацев (или части их —до «обрыва»).
Выведенные на печать ССЦ анализируются информационным ра ботником с точки зрения разбиения ССЦ на сегменты (то есть семанти чески). Так, например, в статье, приведенной в табл. 4.1, синтаксически выделено 5 ССЦ, среди которых семантически определено 8 сегментов, при этом сегменты а, б и в входят в состав суперсегмента III. Предложе ние 22, хотя по смыслу и связано с сегментом III, в, из-за недостатков в логике изложения материала формально в этот сегмент не включается. Для повышения самостоятельности фрагментов каждый сегмент в со ответствии с правилом фрагментирования сопровождается заглавием статьи, из которой он извлечен.
Таблица 4.1
Часть статьи, подвергшейся фрагментированию на основе синтаксического подхода: Белкина Т. М. и др. «Лак для термореактивной изоляции электрических машин»
№ |
Предложениетекста |
Повторно- |
Суперсег |
предлож |
коннекторная |
ментная |
|
сния |
|
цепочка |
структура |
1(аб |
Для создания термореактивной изоляции |
Абзацу |
I 1-6 |
зац) |
статорных обмоток высоковольтных элек |
|
|
|
трических машин напряжением до 6 кВ |
|
|
пользуют пропитанные гибкие стеклослюлииитовыс или стеклослюдопластовые ленты
№ |
|
Повторно- |
Суперсег |
прсдлож |
Предложение текста |
коннскторная |
ментная |
сния |
|
цепочка |
структура |
2Связующими составами в таких лентах чаще всего бывают термореактивные лаки на основе эпоксидных смол
3Свойства связующего определяет качество изоляции из пропитанных лент: монолит ность, механическая прочность и эластич ность
ллентах
лтаких
А Л С Н Т
свойствау
4 |
Составы на основе эпоксидных смол обеспе |
лсвойства |
|
|
чивают эти свойства и поэтому нашли (1,2) |
V 3 T H |
|
|
широкое применение в данной области |
эпоксид |
|
|
|
ных cмoлv |
|
5 (аб |
Одним из таких связующих является но |
А Э П О К С И Д - |
|
зац) |
вый эпоксидно-полиэфирный лак ПЭ-970, |
ной смолы |
|
|
изготовляемый на основе эпоксидной смо |
лтаких |
|
|
лы и трифункционалыюй эфирокислоты — |
лаку |
|
|
триадипииата триметил-олиропана (3) |
|
|
6 |
Ниже излагают ся результ ат ы работ ы по |
Алак |
|
|
созданию оптимальной рецептуры этого |
АЭТОГО |
|
|
лака |
|
|
7 (аб |
И звест но,что свойства композиции на осно |
Абзацу |
117-13 |
зац) |
ве эпоксидных смол во многом зависят от |
|
|
|
природы отвердитсля |
|
|
8Так, кислые полиэфиры на основе алифати ческих кислот и спиртов дают эластичные составы
алифатиче ских V K H - слот лтак
9 |
Замена алифатических кислот ароматиче |
алифатиче |
|
скими приводит к увеличению жесткости, а |
ских кислот |
|
повышение кислотности полиэфира сокра |
отверде- |
|
щает время отвердения |
П И С У |
10 (аб |
В лаке ПЭ-970 в качестве отвердитсля ис |
лотвердите- |
зац) |
пользован не полиэфир, а трифункциональ- |
ля |
|
ная эфирокислота —триадитинат тримети- |
|
|
лолпропана |
|
№ |
|
Повторно- |
Суперсег |
предлож |
Предложение текста |
коннекторная |
ментная |
ения |
|
цепочка |
структура |
ИТакой отвердитель содержит большее коли чество функциональных (карбоксильных) групп, и это предопределяет высокую термо реактивность связующей
12Последнее должно быть и эластичным, поскольку эфиркислота получена из алифа тической кислоты и спирта
дотвердитель дтакой
А Э Т О
функцио
нальных
группу
Апоследнес
13Свойства лака можно варьировать, изменяя соотношение функциональных групп эпок сидной смолы эфирокислоты
14(аб Нами изучено влияние соотношения карбок
зац) |
сильных и эпоксидных групп на механиче |
|
ские свойства, термическую стабильность и |
|
электрические характеристики связующего |
|
состава |
дфункциопальиых групп
Абзац |
III 14- |
|
16 |
15 |
С этой целью были получены полимеры, |
АС этой |
|
|
которые представляли собой продукт сокон- |
полимерыу |
|
|
дснсации эпоксидной смолы ЭД-16 и триа- |
|
|
|
дипииата триметилпропана при соотноше |
|
|
|
нии функциональных групп СООН и СН — |
|
|
|
СН —1:1 (полимер II) |
|
|
16 |
Реакция получения таких полимеров схе |
дполимеров |
|
|
матически представлена в работе (3) |
таких |
|
17 (аб |
Для оценки механических свойств полиме |
дполимеров III, а 17— |
|
зац) |
ров были изучены релаксация напряжения |
ударная |
22 |
|
(определяли по методике, описанной ранее |
эластич- |
|
|
(5), на приборе ППР-50) и ударная эластич |
Н О С Т Ь У |
|
|
ность (по отскоку шарика на приборе ЭПР |
|
|
|
(5) в зависимости от температуры |
|
|
18 |
Ударную эластичность замеряли на образ |
лударпую |
|
|
цах, изготовленных следующим образом |
эластич |
|
|
|
ность |
|
|
|
образцаху |
|
№ |
|
Повторно- |
Суперсег |
предлож |
Предложение текста |
коннекторная |
ментная |
сния |
|
цепочка |
структура |
19В пресс-формы с гнездами размером 120x15x10 мм заливали основу лака (про дукт сокондеисации) при 80—90 °С, прессформу вакуумировали при остаточном дав лении 10 мм рт. ст. и температуре 100 °С
20 |
Затем образец (в пресс-форме) подверга |
лзатсм |
|
ли термической обработке при 160 °С в тече |
образецу |
|
ние 12 час |
|
21Такой режим соответствует термообработ лтакой ке, применяемой при использовании связую щего для изоляции электрических машин
22 (аб |
Образцы для определения релаксации на |
Абзац |
|
зац) |
пряжения готовили аналогично, в пресс- |
«разрыв» |
|
|
формах, имеющих гнезда в виде лопаток раз |
|
|
|
мером 120x10x10 мм |
|
|
23 (аб |
На рис. 1 показана ударная эластичность по |
Абзац |
Ш, б 23- |
зац) |
лимеров (рис. 1 Ударная эластичность поли |
полимеров |
24 |
|
меров 111) |
|
|
24 |
Минимум на кривых в интервале темпера |
полимера |
ИТ. д. |
|
тур 35—50 °С соответствует переходу поли |
|
|
мера из стеклообразного состояния в высокоэластичсское
Описанный здесь «алгоритм» абзацного разбиения представлен в самом общем виде, причем применен к статье, достаточно легко подда ющейся фрагментированию. В потоке документов встречаются значи тельно более сложные случаи. Иногда все предложения бывают «сце ментированы» суперсинтаксической связью, и потому формальному разбиению на ССЦ такая статья не может подвергнуться. В других ста тьях вклинивающиеся «инородные» элементы состоят не из одного, а из двух и более предложений. Наконец, семантически связанные пред ложения и сегменты могут находиться не только в контактной (то есть следовать линейно друг за другом), но и в дистантной связи —в разных частях документа, при этом сегменты могут пересекаться, переплетать ся и вкладываться одни в другой. Все это предъявляет приводимому «алгоритму» весьма серьезные требования, и для решения возникаю
щих задач необходимы дальнейшие исследования в области синтаксиса текста и суперсинтаксических связей.
В т о р о й способ в рамках синтаксического подхода фрагментиро вания основан на «выращивании» минимальных релевантных фраг ментов. Под выращиванием МРФ понимается присоединение к най денной в процессе поиска релевантной фразе выше- и нижестоящих фраз —до образования некоторого сунерсинтаксического целого, спо собного выполнять функции самостоятельного фрагмента. В качестве минимального фрагмента выступают такие ядерные предложения текс тов статей, поисковые образы которых (предложений) релевантны по исковому предписанию с учетом выбранного критерия соответствия.
Кпримеру, сформулирован запрос: «Методы автоматического рефе рирования». На основе запроса составлено поисковое предписание: (метод v методика v способ) а ((реферирование л (автоматическое v машинное)); критерий соответствия «на включение».
При поиске в полнотекстовой базе данных машина выдала фразу:
«Так, В. Е. Берзон различает следующие методы автоматического рефе рирования...». С помощью повторно-коннекторных связей предложение подверглось процедуре «выращивания» до рамок самостоятельного фрагмента.
Кповторам чаще всего относят слова, однокоренные с ключевыми словами поискового предписания, а также слова, синонимичные клю чевому. Известно, что являющееся формальным критерием межфразо вой связи частичное совпадение слов в двух смежных предложениях, несмотря на свою простоту, не всегда обеспечивает хороший результат. Поэтому номинативная связь через повтор «подкрепляется» связью копнекторпой: левыми коннекторами типа данный, указанный, приве денный выше, а также местоимениями такой, это, они и др., отражаю щими анафорические отношения между предложениями, и правыми коннекторами типа итак, затем, далее, например, следовательно и др., указывающими на связь с последующим предложением.
Наличие в ядерном (релевантном запросу) предложении левых кон некторов свидетельствует о смысловой неполноте предложения (его сиисемаитичиости) и влечет за собой выполнение операции «шаг на зад», те присоединение вышестоящего предложения к ядерному. Если в этом предложении также обнаруживается анафорический коннектор, делается еще «шаг назад» —до «выхода» на автосемантичное предло жение, которое и считается верхней границей фрагмента. Наличие в ядерном предложении правых коннекторов, а также наличие в последу ющем предложении повтора или любого —правого либо левого —кои-
лектора служит основанием для выполнения операции «шаг вперед»,
т.е. присоединения к ядерпому цепочки последующих предложений.
Вкачестве примера приводится фрагмент, межфразовые связи в ко тором обеспечиваются как коннекторами, так и повторами (полужир ным обозначены коннекторы, курсивом —повторы); ядерным в данном случае является первое предложение.
За п р о с : Реферат как информационная модель первичного доку мента.
От в е т : Соловьев В. И. Поаспектный метод реферирования / / На- уч.-техн. информ. Сер. 2 — 1981.— № 2.— С. 14—17.
Поскольку к числу основных специфических особенностей, без уче та которых невозможно выбрать методологически правильный подход при обосновании требований к реферату, относится его содержатель ная и отчасти формальная зависимость от первичного документа (16), р е ф е р а т можно рассматривать в качестве и н ф о р м а ц и о н н о й м о д е л и реферируемого документа, который, в свою очередь, являет ся, по существу, отображением {моделью) соответствующей объектив ной действительности, познанной в процессе научного исследования. И н ф о р м а ц и о н н а я м о д е л ь может содержать данные различной степени общности, в зависимости от чего она будет либо детальной, ли бо интегральной. С этой точки зрения первичные документы следует отнести к числу детальных моделей, которые включают относительно подробные сведения о предметах, явлениях, методах и т. д. В них могут достаточно подробно излагаться теории, идеи, совокупности теорий и идей, технические решения, обоснования технических требований и другая информация применительно к основным аспектам содержания, перечисленным выше. Реферат должен считаться интегральной м о д е л ь ю , в которой информация представлена в обобщенном виде. По данным инженерно-психологических наблюдений, интегральная ин формация обладает тем преимуществом, что с ее помощью можно наи более эффективно осуществлять информационный поиск и прежде все го с применением машин [«инородное предложение» — включено во фрагмент, так как в следующем за ним предложении присутствует веду щий повтор]. Интегральная и н ф о р м а ц и о н н а я м о д е л ь объек тивной действительности удобна также для тех случаев, когда необхо димо получить общее представление о событии и принять принципи альное решение. Важным требованием к любой и н ф о р м а ц и о н н о й м о д е л и является ее адекватность оригиналу. Применительно к рефе рату это требование приобретает особое значение в связи с решением задач информационного поиска. В общем случае в нем стремятся адек ватно и возможно полнее передать информацию, заключенную в нер-
вичном документе, сохраняются также отдельные структурные элемен ты последнего — заглавие, текстовая часть, индекс УДК и т. д. В этом смысле реферат можно было бы считать изоморфным но отношению к первичному документу. Однако в практике реферирования полного изоморфизма почти не бывает, поскольку в каждом конкретном случае информационное и структурное соответствие между рефератом и пер вичным источником лишь приблизительное, гомоморфное.
Или еще пример:
На запрос «Способы определения ударной эластичности полиме ров» в качестве исходного релевантного (ядерного) предложения ма шина выделила фразу: Для оценки механических свойств полимеров были изучены релаксация напряжения (определяли по методике, опи санной ранее [5], на приборе ППР-50) и ударная эластичность (но от скоку шарика на приборе ЭПР [5]), в зависимости от температуры.
На основе аппарата иовторно-кониекторной связи исходное предло жение выращивается до рамок следующего фрагмента (элементы аппа рата выделены соответственно полужирным и разрядкой):
Ударную эластичность замеряли на образцах, изготовленных с л е д у ю щ и м о б р а з о м . В пресс-формы с гнездами размером 120x15x10 мм заливали основу лака (продукт соконденсации) при 80— 90 °С, пресс-форму вакуумировали при остаточном давлении 10 мм pm. cm. и температуре 100 °С. З а т е м образец подвергли термической обработке при 160 °Св течении 12часов. Т а к о й режим соответству ет термообработке, применяемой при использовании связующего для изоляции электрических машин.
Широкие возможности для «выращивания» минимальных реле вантных фрагментов и формирования на их основе специализирован ных и узкотематических баз знаний представляют сегодня поисковые машины, функционирующие в рамках сети Internet, типа Yandex, Апорт, AltaVista, Excite и ми. др. При поиске релевантных фрагментов поисковая машина в качестве первого шага выдает библиографические описания наиболее релевантных документов с указанием фраз, включа ющих поисковые признаки поискового предписания, на основе кото рых и было «принято решение» машиной о выдаче документов. Эти ре левантные фразы могут часто представлять собой объект «выращива ния» минимальных релевантных фрагментов в качестве второго шага использования возможностей поисковых машин.