Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3280.pdf
Скачиваний:
25
Добавлен:
15.11.2022
Размер:
17.07 Mб
Скачать

4.2.1.2.Синтаксический подход к проблеме фрагментирования

Фрагментирование, ориентированное на т и п о в ы е з а п р о с ы , возможно, заслуживает внимания, но сами «типовые» запросы, как бы они тщательно ни формулировались, есть продукт взаимодействия (адаптации) потребителей информации с существующей информаци­ онной системой. А это значит, что в документальном потоке может быть определенный спектр фрагментов текстов, которые потенциально спо­ собны удовлетворять некоторые информационные потребности специ­ алистов, но в перечне запросов они не окажутся, поскольку на подобные запросы существующая информационная система никогда потребите­ лям не отвечала. Поэтому необходимо «идти» не только от типовых за­ просов, но и от содержательной структуры документов, допуская при этом, что в принципе любой содержательно замкнутый, понятный вне контекста, отрезок текста («квант») —от предложения до суперсинтакси­ ческого целого —способен удовлетворить некоторую информационную потребность (поскольку, как предположено в начале главы, грамотно составленный документ не должен содержать в себе «пустой породы»).

Естественно, что определенное количество таких текстовых «кван­ тов», выбранных на основе не столько содержательного, сколько фор­ мального подхода к анализу документа, может оказаться никогда не востребованными абонентами системы (быть балластом в системе), но мы знаем также, что не только «кванты», но нередко и сами документы (статьи, книги и тому подобное) оказываются никогда не запрашивае­ мыми даже в крупнейших книжных хранилищах.

Существует два способа фрагментирования в рамках синтаксичес­ кого подхода.

П е р в ы й из них —метод абзацного разбиения исходит из допуще­ ния, что самостоятельный фрагмент соответствует суперсинтаксичес­ кому целому (ССЦ), включающему один суперсегмент или один либо несколько сегментов. Границы такого ССЦ формально определяются абзацными отступами. Известно, что абзац и ССЦ —категории разные, но тем не менее в подавляющем числе случаев ССЦ начинается с абзац­ ного отступа, хотя далеко не каждый такой отступ служит началом ССЦ. Таким началом должно быть автосемантичное предложение, ко­ торое через систему повторно-коннекторных связей связывается с ря­ дом предложений.

Процедура фрагментирования в рассматриваемом режиме сводится к следующему: началом ССЦ считается начало первого абзаца доку­ мента. В режиме автоматического индексирования составляются поис­ ковые образы предложений, которые последовательно попарно анали­

зируются (сопоставляются) с целью обнаружения в них «пересечения» лексических повторов (при этом пересекающимися могут быть не обя­ зательно синонимичные, но и парадигматически связанные повторы) и коннекторов. Пара предложений считается коннектирующейся, отно­ сящейся к одному ССЦ, если содержит в себе хотя бы одни повтор или

(и) коннектор (табл. 4.1), в том числе и местоименный.

Если при анализе очередной пары предложений во втором предло­ жении этой пары не обнаруживаются элементы суперсиитаксических связей, то есть появляется как бы синтаксически инородное предложе­ ние, то сопоставительному анализу подвергается еще одно (последую­ щее) предложение. Если и в этом предложении отсутствуют элементы связи с первым предложением анализируемой фразы, то это служит сигналом «обрыва» текста, то есть конца ССЦ.

Началом очередного ССЦ считается первый абзацный отступ, сле­ дующий за «обрывом». Таким образом, хотя формально ССЦ отождест­ влено с абзацем, в действительности оно включает обычно два и более абзацев (или части их —до «обрыва»).

Выведенные на печать ССЦ анализируются информационным ра­ ботником с точки зрения разбиения ССЦ на сегменты (то есть семанти­ чески). Так, например, в статье, приведенной в табл. 4.1, синтаксически выделено 5 ССЦ, среди которых семантически определено 8 сегментов, при этом сегменты а, б и в входят в состав суперсегмента III. Предложе­ ние 22, хотя по смыслу и связано с сегментом III, в, из-за недостатков в логике изложения материала формально в этот сегмент не включается. Для повышения самостоятельности фрагментов каждый сегмент в со­ ответствии с правилом фрагментирования сопровождается заглавием статьи, из которой он извлечен.

Таблица 4.1

Часть статьи, подвергшейся фрагментированию на основе синтаксического подхода: Белкина Т. М. и др. «Лак для термореактивной изоляции электрических машин»

Предложениетекста

Повторно-

Суперсег­

предлож

коннекторная

ментная

сния

 

цепочка

структура

1(аб­

Для создания термореактивной изоляции

Абзацу

I 1-6

зац)

статорных обмоток высоковольтных элек­

 

 

 

трических машин напряжением до 6 кВ

 

 

пользуют пропитанные гибкие стеклослюлииитовыс или стеклослюдопластовые ленты

 

Повторно-

Суперсег­

прсдлож

Предложение текста

коннскторная

ментная

сния

 

цепочка

структура

2Связующими составами в таких лентах чаще всего бывают термореактивные лаки на основе эпоксидных смол

3Свойства связующего определяет качество изоляции из пропитанных лент: монолит­ ность, механическая прочность и эластич­ ность

ллентах

лтаких

А Л С Н Т

свойствау

4

Составы на основе эпоксидных смол обеспе­

лсвойства

 

 

чивают эти свойства и поэтому нашли (1,2)

V 3 T H

 

 

широкое применение в данной области

эпоксид­

 

 

 

ных cмoлv

 

5 (аб­

Одним из таких связующих является но­

А Э П О К С И Д -

 

зац)

вый эпоксидно-полиэфирный лак ПЭ-970,

ной смолы

 

 

изготовляемый на основе эпоксидной смо­

лтаких

 

 

лы и трифункционалыюй эфирокислоты —

лаку

 

 

триадипииата триметил-олиропана (3)

 

 

6

Ниже излагают ся результ ат ы работ ы по

Алак

 

 

созданию оптимальной рецептуры этого

АЭТОГО

 

 

лака

 

 

7 (аб­

И звест но,что свойства композиции на осно­

Абзацу

117-13

зац)

ве эпоксидных смол во многом зависят от

 

 

 

природы отвердитсля

 

 

8Так, кислые полиэфиры на основе алифати­ ческих кислот и спиртов дают эластичные составы

алифатиче­ ских V K H - слот лтак

9

Замена алифатических кислот ароматиче­

алифатиче­

 

скими приводит к увеличению жесткости, а

ских кислот

 

повышение кислотности полиэфира сокра­

отверде-

 

щает время отвердения

П И С У

10 (аб­

В лаке ПЭ-970 в качестве отвердитсля ис­

лотвердите-

зац)

пользован не полиэфир, а трифункциональ-

ля

 

ная эфирокислота —триадитинат тримети-

 

 

лолпропана

 

 

Повторно-

Суперсег­

предлож

Предложение текста

коннекторная

ментная

ения

 

цепочка

структура

ИТакой отвердитель содержит большее коли­ чество функциональных (карбоксильных) групп, и это предопределяет высокую термо­ реактивность связующей

12Последнее должно быть и эластичным, поскольку эфиркислота получена из алифа­ тической кислоты и спирта

дотвердитель дтакой

А Э Т О

функцио­

нальных

группу

Апоследнес

13Свойства лака можно варьировать, изменяя соотношение функциональных групп эпок­ сидной смолы эфирокислоты

14(аб­ Нами изучено влияние соотношения карбок­

зац)

сильных и эпоксидных групп на механиче­

 

ские свойства, термическую стабильность и

 

электрические характеристики связующего

 

состава

дфункциопальиых групп

Абзац

III 14-

 

16

15

С этой целью были получены полимеры,

АС этой

 

 

которые представляли собой продукт сокон-

полимерыу

 

 

дснсации эпоксидной смолы ЭД-16 и триа-

 

 

 

дипииата триметилпропана при соотноше­

 

 

 

нии функциональных групп СООН и СН —

 

 

 

СН —1:1 (полимер II)

 

 

16

Реакция получения таких полимеров схе­

дполимеров

 

 

матически представлена в работе (3)

таких

 

17 (аб­

Для оценки механических свойств полиме­

дполимеров III, а 17—

зац)

ров были изучены релаксация напряжения

ударная

22

 

(определяли по методике, описанной ранее

эластич-

 

 

(5), на приборе ППР-50) и ударная эластич­

Н О С Т Ь У

 

 

ность (по отскоку шарика на приборе ЭПР

 

 

 

(5) в зависимости от температуры

 

 

18

Ударную эластичность замеряли на образ­

лударпую

 

 

цах, изготовленных следующим образом

эластич­

 

 

 

ность

 

 

 

образцаху

 

 

Повторно-

Суперсег­

предлож

Предложение текста

коннекторная

ментная

сния

 

цепочка

структура

19В пресс-формы с гнездами размером 120x15x10 мм заливали основу лака (про­ дукт сокондеисации) при 80—90 °С, прессформу вакуумировали при остаточном дав­ лении 10 мм рт. ст. и температуре 100 °С

20

Затем образец (в пресс-форме) подверга­

лзатсм

 

ли термической обработке при 160 °С в тече­

образецу

 

ние 12 час

 

21Такой режим соответствует термообработ­ лтакой ке, применяемой при использовании связую­ щего для изоляции электрических машин

22 (аб­

Образцы для определения релаксации на­

Абзац

 

зац)

пряжения готовили аналогично, в пресс-

«разрыв»

 

 

формах, имеющих гнезда в виде лопаток раз­

 

 

 

мером 120x10x10 мм

 

 

23 (аб­

На рис. 1 показана ударная эластичность по­

Абзац

Ш, б 23-

зац)

лимеров (рис. 1 Ударная эластичность поли­

полимеров

24

 

меров 111)

 

 

24

Минимум на кривых в интервале темпера­

полимера

ИТ. д.

 

тур 35—50 °С соответствует переходу поли­

 

 

мера из стеклообразного состояния в высокоэластичсское

Описанный здесь «алгоритм» абзацного разбиения представлен в самом общем виде, причем применен к статье, достаточно легко подда­ ющейся фрагментированию. В потоке документов встречаются значи­ тельно более сложные случаи. Иногда все предложения бывают «сце­ ментированы» суперсинтаксической связью, и потому формальному разбиению на ССЦ такая статья не может подвергнуться. В других ста­ тьях вклинивающиеся «инородные» элементы состоят не из одного, а из двух и более предложений. Наконец, семантически связанные пред­ ложения и сегменты могут находиться не только в контактной (то есть следовать линейно друг за другом), но и в дистантной связи —в разных частях документа, при этом сегменты могут пересекаться, переплетать­ ся и вкладываться одни в другой. Все это предъявляет приводимому «алгоритму» весьма серьезные требования, и для решения возникаю­

щих задач необходимы дальнейшие исследования в области синтаксиса текста и суперсинтаксических связей.

В т о р о й способ в рамках синтаксического подхода фрагментиро­ вания основан на «выращивании» минимальных релевантных фраг­ ментов. Под выращиванием МРФ понимается присоединение к най­ денной в процессе поиска релевантной фразе выше- и нижестоящих фраз —до образования некоторого сунерсинтаксического целого, спо­ собного выполнять функции самостоятельного фрагмента. В качестве минимального фрагмента выступают такие ядерные предложения текс­ тов статей, поисковые образы которых (предложений) релевантны по­ исковому предписанию с учетом выбранного критерия соответствия.

Кпримеру, сформулирован запрос: «Методы автоматического рефе­ рирования». На основе запроса составлено поисковое предписание: (метод v методика v способ) а ((реферирование л (автоматическое v машинное)); критерий соответствия «на включение».

При поиске в полнотекстовой базе данных машина выдала фразу:

«Так, В. Е. Берзон различает следующие методы автоматического рефе­ рирования...». С помощью повторно-коннекторных связей предложение подверглось процедуре «выращивания» до рамок самостоятельного фрагмента.

Кповторам чаще всего относят слова, однокоренные с ключевыми словами поискового предписания, а также слова, синонимичные клю­ чевому. Известно, что являющееся формальным критерием межфразо­ вой связи частичное совпадение слов в двух смежных предложениях, несмотря на свою простоту, не всегда обеспечивает хороший результат. Поэтому номинативная связь через повтор «подкрепляется» связью копнекторпой: левыми коннекторами типа данный, указанный, приве­ денный выше, а также местоимениями такой, это, они и др., отражаю­ щими анафорические отношения между предложениями, и правыми коннекторами типа итак, затем, далее, например, следовательно и др., указывающими на связь с последующим предложением.

Наличие в ядерном (релевантном запросу) предложении левых кон­ некторов свидетельствует о смысловой неполноте предложения (его сиисемаитичиости) и влечет за собой выполнение операции «шаг на­ зад», те присоединение вышестоящего предложения к ядерному. Если в этом предложении также обнаруживается анафорический коннектор, делается еще «шаг назад» —до «выхода» на автосемантичное предло­ жение, которое и считается верхней границей фрагмента. Наличие в ядерном предложении правых коннекторов, а также наличие в последу­ ющем предложении повтора или любого —правого либо левого —кои-

лектора служит основанием для выполнения операции «шаг вперед»,

т.е. присоединения к ядерпому цепочки последующих предложений.

Вкачестве примера приводится фрагмент, межфразовые связи в ко­ тором обеспечиваются как коннекторами, так и повторами (полужир­ ным обозначены коннекторы, курсивом —повторы); ядерным в данном случае является первое предложение.

За п р о с : Реферат как информационная модель первичного доку­ мента.

От в е т : Соловьев В. И. Поаспектный метод реферирования / / На- уч.-техн. информ. Сер. 2 — 1981.— № 2.— С. 14—17.

Поскольку к числу основных специфических особенностей, без уче­ та которых невозможно выбрать методологически правильный подход при обосновании требований к реферату, относится его содержатель­ ная и отчасти формальная зависимость от первичного документа (16), р е ф е р а т можно рассматривать в качестве и н ф о р м а ц и о н н о й м о д е л и реферируемого документа, который, в свою очередь, являет­ ся, по существу, отображением {моделью) соответствующей объектив­ ной действительности, познанной в процессе научного исследования. И н ф о р м а ц и о н н а я м о д е л ь может содержать данные различной степени общности, в зависимости от чего она будет либо детальной, ли­ бо интегральной. С этой точки зрения первичные документы следует отнести к числу детальных моделей, которые включают относительно подробные сведения о предметах, явлениях, методах и т. д. В них могут достаточно подробно излагаться теории, идеи, совокупности теорий и идей, технические решения, обоснования технических требований и другая информация применительно к основным аспектам содержания, перечисленным выше. Реферат должен считаться интегральной м о ­ д е л ь ю , в которой информация представлена в обобщенном виде. По данным инженерно-психологических наблюдений, интегральная ин­ формация обладает тем преимуществом, что с ее помощью можно наи­ более эффективно осуществлять информационный поиск и прежде все­ го с применением машин [«инородное предложение» — включено во фрагмент, так как в следующем за ним предложении присутствует веду­ щий повтор]. Интегральная и н ф о р м а ц и о н н а я м о д е л ь объек­ тивной действительности удобна также для тех случаев, когда необхо­ димо получить общее представление о событии и принять принципи­ альное решение. Важным требованием к любой и н ф о р м а ц и о н н о й м о д е л и является ее адекватность оригиналу. Применительно к рефе­ рату это требование приобретает особое значение в связи с решением задач информационного поиска. В общем случае в нем стремятся адек­ ватно и возможно полнее передать информацию, заключенную в нер-

вичном документе, сохраняются также отдельные структурные элемен­ ты последнего — заглавие, текстовая часть, индекс УДК и т. д. В этом смысле реферат можно было бы считать изоморфным но отношению к первичному документу. Однако в практике реферирования полного изоморфизма почти не бывает, поскольку в каждом конкретном случае информационное и структурное соответствие между рефератом и пер­ вичным источником лишь приблизительное, гомоморфное.

Или еще пример:

На запрос «Способы определения ударной эластичности полиме­ ров» в качестве исходного релевантного (ядерного) предложения ма­ шина выделила фразу: Для оценки механических свойств полимеров были изучены релаксация напряжения (определяли по методике, опи­ санной ранее [5], на приборе ППР-50) и ударная эластичность (но от­ скоку шарика на приборе ЭПР [5]), в зависимости от температуры.

На основе аппарата иовторно-кониекторной связи исходное предло­ жение выращивается до рамок следующего фрагмента (элементы аппа­ рата выделены соответственно полужирным и разрядкой):

Ударную эластичность замеряли на образцах, изготовленных с л е д у ю щ и м о б р а з о м . В пресс-формы с гнездами размером 120x15x10 мм заливали основу лака (продукт соконденсации) при 80— 90 °С, пресс-форму вакуумировали при остаточном давлении 10 мм pm. cm. и температуре 100 °С. З а т е м образец подвергли термической обработке при 160 °Св течении 12часов. Т а к о й режим соответству­ ет термообработке, применяемой при использовании связующего для изоляции электрических машин.

Широкие возможности для «выращивания» минимальных реле­ вантных фрагментов и формирования на их основе специализирован­ ных и узкотематических баз знаний представляют сегодня поисковые машины, функционирующие в рамках сети Internet, типа Yandex, Апорт, AltaVista, Excite и ми. др. При поиске релевантных фрагментов поисковая машина в качестве первого шага выдает библиографические описания наиболее релевантных документов с указанием фраз, включа­ ющих поисковые признаки поискового предписания, на основе кото­ рых и было «принято решение» машиной о выдаче документов. Эти ре­ левантные фразы могут часто представлять собой объект «выращива­ ния» минимальных релевантных фрагментов в качестве второго шага использования возможностей поисковых машин.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]