Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3280.pdf
Скачиваний:
25
Добавлен:
15.11.2022
Размер:
17.07 Mб
Скачать

В режиме посткоординатного индексирования «вход» в ПОД осущест­ вляется по каждому из элементов ПОД. К языкам, используемым в ре­ жиме посткоордииатиого индексирования, относятся прежде всего дескрипторные ИПЯ, на рассмотрении которых следует остановиться подробнее.

2.1.4.Координатное индексирование на основе дескрипторных языков

Рассмотрение ИПЯ дескрипторного типа имеет большое методоло­ гическое значение, поскольку позволяет вскрыть природу и сущность информационно-поисковых языков вообще и анализировать достоин­ ства и недостатки практически каждого из них. Дескрипторные языки относятся к числу ИПЯ, традиционно называемых языками координат­ ного (посткоордииатиого) индексирования. Идею координатного ин­ дексирования сформулировал еще в начале 50-х годов XX в. известный американский ученый М. Тауб. Согласно его идее, «информационное содержание документа можно отразить в его поисковом образе при по­ мощи перечня несвязанных между собой, взятых из текста, наиболее значимых для этого текста слов, а поиск вести в И ПС по логическому сочетанию таких же значимых слов запроса». Тауб не только.сформулировал идею координатного индексирования, но и реализовал ее в систе­ ме «Унитерм». Он рекомендовал использовать для индексирования от­ дельные слова естественного языка — унитермы (сейчас они называют­ ся ключевыми словами) без какой-либо их формализации — так, как они встречались в текстах документов, однако вскоре выяснилось, что применение естественного языка без его формализации приводит при информационном поиске к большим потерям информации и информа­ ционному шуму. Поэтому последователи Тауба обратили серьезное внимание на решение лингвистических и логических проблем при соз­ дании ИПЯ.

Мы уже знаем причины непригодности естественного языка для ин­ формационного поиска. Они обусловлены неоднозначностью естест­ венного языка, выражающейся в его избыточности и недостаточности (с точки зрения информационного поиска). На устранение этих эле­ ментов неоднозначности и направлены были усилия ученых, создавав­ ших дескрипторные языки *

* Термин «дескриптор* в теорию ИПС ввел Кельвин Меурс в 50-е годы XX столетия. Дескрипторы рассматривались Мусрсом как «ближайшие родственники предметных рубрик*. Отмечалось, что предметную рубрику легко преобразовать в список дескрипто­ ров.

Создание дескрипторного ИПЯ включает в себя совокупность не­ скольких этапов, каждый из которых призван устранить тот или иной элемент неоднозначности.

I этан — н а к о п л е н и е с л о в н и к а ключевых слов. Он осущест­ вляется путем извлечения из заглавий, аннотаций или полных текстов первичных документов (ПД) тех слов естественного языка, которые могут выполнять эвристические функции, т. е. использоваться в поис­ ковых образах документов и в поисковых предписаниях (запросах). Могут ключевые слова привлекаться и из терминологических словарей и пособий, а также из запросов, поступающих в ИПС. После того как накоплен достаточно представительный массив ключевых слов (1500— 2000), переходят к следующему этапу.

II этап — ф о р м у л и р о в к а ключевых слов и их н о р м а л и з а ­

ци я . Формулировка — преимущественно отдельные слова или также

иустойчивые словосочетания (Электричество Аппаратура или Электрическая аппаратура) —определяет характер будущего словаря дескрипторов. Режим координатного индексирования тяготеет к от­ дельным словам (уиитермам), однако механическое разделение устой­ чивых словосочетаний (Электронно-вычислительная машина па Элек­ троника, Машина, Вычисление) может привести затем к потерям ин­ формации при поиске. Обычно придерживаются следующего правила: целесообразно ориентироваться прежде всего на единичные ключевые слова, сохраняя устойчивые словосочетания в тех случаях, когда их рас­ членение ведет к потере значения термина; нельзя членить на отдель­ ные слова словосочетания типа «железная дорога», «сельское хозяйст­ во», «легкая музыка», «восточные языки» и нр. Это правило касается и таких устойчивых терминов, как «информационно-поисковая систе­ ма», «таблица Менделеева», «интегральная система», «рекомендатель­ ная библиография» и многих др.

Под н о р м а л и з а ц и е й ключевых слов понимают приведение ключевых слов к стандартной форме записи: для этого существуют спе­ циальные указания, какие слова записывать в единственном, какие во множественном числе. Прилагательные и причастие записываются в форме именительного падежа единственного числа мужеского рода («красный», «круглый»); существительные —обычно в именительном падеже множественного числа и т. д.

III этап — д е с к р и н т о р и з а ц и я ключевых слов. Задачей этого этапа является преобразование полученного на II этапе словника клю­ чевых слов в дескрипторный словарь. Дескринторизация сводится к группировке ключевых слов в классы условной эквивалентности — де­ скрипторы. Отсюда дескриптор — это представитель класса (множест­

ва) условио-эквивалеитиых слов. Эквивалентными называют синони­ мичные и близкие по смыслу слова, которые, будучи заменены в какомлибо тексте друг на друга, не меняют существенно его смысла. Четкие правила выявления эквивалентности ключевых слов отсутствуют (нет

вязыке и абсолютных синонимов, кроме калек). Эквивалентность оп­ ределяется обычно из прагматических соображений. Поэтому практи­ кой выработано следующее эмпирическое правило: если ключевое сло­ во в любом тексте информационного массива (под текстами в данном случае понимают совокупности ПОД), обслуживаемого поисковой сис­ темой, может быть заменено другим ключевым словом и при этом на любой разумный запрос вопрос о выдаче решается так же, как и до заме­ ны, то такие ключевые слова являются эквивалентными в сфере дейст­ вия данной ИПС. Прагматический характер рекомендации заключается

втом, что она ориентируется на «сферу действия» данной ИПС.

Рассмотрим три текста:

1)миниатюризация радиоэлектронных устройств, предназначен­ ных для работы на самолетах;

2)миниатюризация бортовой аппаратуры;

3)миниатюризация приборов, применяемых в авиации.

Эти три фразы практически эквивалентны с точки зрения плана со­ держания, но мало имеют общего с точки зрения плана выражения. При­ чем если ключевые слова — «устройство», «аппаратура», «приборы» можно условно считать синонимами, то ключевые слова — «бортовой», «авиация», «самолеты» синонимичными можно признать только в сфере действия ИПС, тематика которой посвящена аппаратуре, раз­ рабатываемой для авиации. И в сфере действия данной ИПС, в ее ИПЯ, эти ключевые слова должны быть объединены в классы условной эквива­ лентности с выделением в этих классах по одному из слов в качестве представителя этого класса, т. е. дескриптора.

IV этап — устранение о м о н и м и и и п о л и с е м и и ключевых слов. Эта операция предусматривает выявление в словнике ключевых слов (дескрипторов), которые одинаковы с точки зрения плана выраже­ ния, но различны с точки зрения плана содержания. Например: фильтр (оптический) — фильтр (электрический) — фильтр (гидравлический), информация (сведения) — информация (деятельность) и т. п. Каждый из подобных многозначных слов фигурирует в качестве самостоятель­ ного дескриптора с уточнением в скобках его значения.

В результате дескрипторизации ключевых слов и устранения омо­ нимии и полисемии образуется дескрипторный словарь, представляю­ щий собой алфавитный перечень ключевых слов и дескрипторов, в ко­ тором от ключевых слов даются отсылки к соответствующим дескрин­

торам, а иод словами, обозначающими дескрипторы, перечисляются ключевые слова, входящие в класс условной эквивалентности данного дескриптора.

Теперь при индексировании текстов (ПОД) с помощью дескрипторного словаря мы эквивалентные по смыслу тексты, но разные с точки зрения плана выражения, будем однозначно переводить на дескринторный язык. Вспомним пример двух текстов, приведенный выше: «пропу­ щенные» через дескрипторный словарь, эти тексты примут идентичные друг другу ПОД, а именно: Библиография (указатели литературы) Судостроение Великобритания Служба информации.

Однако этими этапами процедура создания ИПЯ дескрипторпого типа не заканчивается. Мы имеем дескрипторный словарь, но он не ком­ пенсирует логико-психологическую эллипсность естественного языка.

Этот компонент недостаточности устраняется путем установления п а р а д и г м а т и ч е с к и х отношений между дескрипторами ИПЯ де­ скрипторпого типа. Такая задача решается на V этапе, в результате вы­ полнения которой получается информационно-поисковый тезаурус.

Vэтап —установление п а р а д и г м а т и ч е с к и х отношений. Под парадигматическими отношениями понимаются объективно сущест­ вующие в языке (не в тексте) логические и ассоциативные отношения между его лексическими единицами. Парадигматическими являются отношения род — вид, часть — целое, предмет —функция, предмет — свойство и т. п. На основании прагматических соображений парадигма­ тические отношения разделяются условно на сильные (логические) и слабые (ассоциативные). Родо-видовые отношения (дерево — береза), как правило, фиксируются в виде сильных парадигматических отноше­ ний. Логические отношения типа пересечение (вычисление — расчет) и ассоциативные отношения сходства (картотека — каталог), контраста (iдвижение — покой), смежности (стул — стол) и другие являются осно­ ванием для установления слабых парадигматических отношений.

Образование в ИПЯ парадигм служит средством компенсации ло­ гико-психологической эллинсности в тексте (т. е. в поисковых образах) документов и способствует повышению полноты выдачи при поиске информации.

Сильные и слабые парадигматические отношения по-разному ис­ пользуются на практике. Первые для избыточного индексирования до­ кументов (или запросов), вторые —для составления стратегии поиска по запросу, т. е. для составления нескольких поисковых предписаний на основе исходного поискового образа запроса. В последнем случае при­ меняются также и сильные отношения.

В результате выполнения V этапа образуется информационно-поис­ ковый тезаурус —дескрипторный словарь, в котором в явной форме за­

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]