Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3280.pdf
Скачиваний:
25
Добавлен:
15.11.2022
Размер:
17.07 Mб
Скачать

Таковы основные теоретические положения, которые лежат в осно­ ве одного из специфичных видов свертывания — индексирования. В различных информационно-поисковых системах эти положения реали­ зуются по-разному с учетом возможности технических средств, про­ граммного обеспечения и целевого назначения ИПС (на какие катего­ рии потребителей данная система ориентирована). В некоторых ИПС вообще не существует индексирования документов, а все усилия на­ правлены на индексацию запросов. Есть и другие подходы к решению проблемы индексирования, о чем речь пойдет ниже.

2.1.6. Автоматизация процесса индексирования

Индексирование документов и запросов — не только одна из важ­ нейших операций поискового процесса, но также достаточно трудоем­ кая операция, требующая применения квалифицированного труда и значительных финансовых затрат. Поэтому неудивительно, что с появ­ лением первых же автоматизированных информационно-поисковых систем возникла проблема заменить на этом участке поискового про­ цесса человека машиной, т. е. автоматизировать процедуру индексиро­ вания.

2.1.6.1. Индексирование в АИПС «Пусто — Непусто»

Одной из первых таких поисковых систем, в которой данная про­ блема была в определенных рамках решена, явилась система АИПС «Пусто —Непусто», разработанная коллект ивом сотрудников ВНИИТЭИ «Информэлектро» совместно с ВИНИТИ в 60-х годах прошлого столе­ тия. Из каких, вкратце, этапов складывался процесс автоматизирован­ ного индексирования на основе пословного перевода: а) перенос вторич­ ных документов (как правило, рефератов из отечественных или зару­ бежных реферативных журналов) на специальные бланки и придание им порядкового номера (адреса); б) перфорирование текста документа и ввод его в ЭВМ с перфоленты; в) первичное индексирование, в про­ цессе которого все слова текста документа сравнивались со словарем (поисковым языком), хранящемся на магнитной лейте. Опознанным словам, подлежащим переводу на поисковый язык, приписывались ко­ ды ключевых слов. Коды упорядочивались по номерам, при этом повто­ рения исключались. В таком виде первичный поисковый образ доку­ мента записывался на магнитную ленту и одновременно выводился на печать алфавитно-цифрового печатающего устройства (АЦПУ); на эту печать выводились также неопознанные слова текста (которых в слова­

ре еще не было); г) результаты первичного индексирования подлежали «ручной» корректировке (исправлению и дополнению), после чего за­ писывались также на перфокарту и вновь вводились в ЭВМ —получал­ ся окончательный поисковый образ (в среднем 40—50 дескрипторов на документ).

На индексирование документа объемом 1000 печатных знаков за­ трачивалось до 1 минуты машинного времени (из них 35—40 секунд на первичное индексирование).

В чем проявлялся принцип пословного перевода: в опознании в тек­ сте слов русского языка (в последующих версиях — английского, не­ мецкого и французского) и замене его соответствующим цифровым ко­ дом. В памяти ЭВМ раздельно хранились словарь основ русского языка (постоянные части слов) и списки окончаний (переменные части слов). Алгоритм опознания слов текста сводился к следующему: слово текста сопоставлялось со словарем основ, если основа из словаря и начало сло­ ва текста отождествлялись, то часть слова, отличная от основы (ее на­ зывали «остаток»), сопоставлялась с общим списком окончаний: в слу­ чае нахождения в списке соответствующего окончания слово заменя­ лось номером ключевого слова, стоящим у его основы.

Устойчивые словосочетания естественного языка, например «высо­ кое напряжение», «постоянный ток», «закон Ома» и др., задавались специальным списком, который хранился отдельно от общего словаря основ. Такой словарь представлял собой список цепочек дескрипторов, соответствующих словам, входящим в словосочетания. Если оказыва­ лось, что в тексте встречаются подряд или в непосредственной близос­ ти основы слов, дескрипторы которых включены в одну цепочку слова­ ря словосочетаний, то эти слова переводились на дескрипторный язык в виде соответствующего единого цифрового кода.

Проблеме омонимии, отрицательно влияющей, как известно, на точ­ ность поиска, первоначально уделяли значительное внимание. Однако опыт эксплуатации АИПС показал, что неразличение омонимов при пословном автоматическом индексировании не приводит к заметному снижению качества поиска, и этот вопрос в дальнейшем не рассматри­ вался.

** *

Стех пор, как в нашей стране была создана первая система автома­ тического индексирования, работы в развитие этого метода свертыва­ ния проходили достаточно активно за счет совершенствования про­ граммного обеспечения этого процесса и применения более совершен­ ных компьютеров. Однако принципиально метод пословного перевода

текстов документов па формализованный ИПЯ остался прежним, из­ менившись в соответствии с усовершенствованием технических и про­ граммных средств.

Как в общих чертах работают современные поисковые системы (по­ исковые машины) с точки зрения индексирования вводимых в них до­ кументов и запросов. Информационная составляющая машины вклю­ чает в себя 3 группы файлов: 1) файл полнотекстовых документов (включающих всю библиографическую информацию об этих докумен­ тах); 2) словарь, представляющий собой алфавитный перечень всех встречающихся в базе данных слов; 3) инверсный файл, в котором ука­ зано местонахождение каждого слова в текстах документов. Поиск в больших базах данных без использования таких инверсных файлов не может быть эффективным.

Словарь и инверсные файлы создаются с начала ввода (индексиро­ вания) документов в базу данных, в процессе которого образуются их поисковые образы. Каждый последующий документ помещается в дей­ ствующий перечень с таким расчетом, чтобы система располагала все­ ми сведениями о местонахождении каждого слова с его положением внутри каждого документа.

Отличительной особенностью систем автоматизированного индек­ сирования, использующих языки, функционирующие в координатном режиме (языки ключевых слов, дескрипторные), по сравнению с систе­ мами, осуществлявшими ввод в «ручном режиме» (с помощью специ­ альных дескринториых словарей), является сосредоточение внимания первых прежде всего па обработке запросов. Как уже указывалось вы­ ше, дескрипторные языки, создаваемые первоначально специально для автоматизированных систем поиска информации, в силу сложной ма­ шинной реализации парадигматических отношений, а также плохой со­ вместимости (также в силу различия в парадигматических отношени­ ях) дескринториых языков различной отраслевой принадлежности, ус­ тупили свое место языкам ключевых слов, по сути, естественными языками. В результате центр тяжести процедуры индексирования пере­ местился с индексирования документов на индексирование запросов, которых в процессе функционирования ИПС на два порядка меньше, чем документов, что значительно удешевляло эксплуатацию систем. Поэтому бороться с избыточностью и недостаточностью естественного языка с точки зрения информационного поиска стали не столько на эта­ пе ввода документа, сколько за счет более тщательного формирования поискового предписания (запроса) и разработки детальной стратегии писка. О том, как осуществляется обработка (индексирование) запро­ сов в некоторых современных русскоязычных ииформационно-поиско-

вых системах, проиллюстрируем па примере двух поисковых систем — «Артефакт» и «Яндекс».

2.1.6.2.Индексирование в ИПС «Артефакт»

При вводе документов в базу данных каждый документ подвергает­ ся морфологическому анализу: слова документов автоматически нор­ мализуются — приводятся к именительному падежу, единственному числу и мужскому роду (для существительных и прилагательных), гла­ гольные формы и причастия представлены инфинитивом. Нормализа­ ция производится по морфологическим словарям, позволяющим рас­ познать более 3 миллионов словоформ русского языка. Поэтому, напри­ мер, слова «таможни», «таможню», «таможня», представляются в словаре одним словом «таможня», слова «представленный», «представ­ ляется», «представляем» —словом «представлять» и т. д. Слова, отсут­ ствующие в морфологическом словаре, вводятся в словарь базы данных во всех встреченных формах.

При морфологическом анализе производится автоматическое рас­ познавание приставок, имеющих самостоятельное смысловое значе­ ние —префиксов, например, авиа-, радио-, сельско-. Префиксоиды от­ деляются только в том случае, если слово, к которому присоединяется префиксоид, распознается по морфологическим словарям системы.

Аналогичные операции морфологического анализа осуществляют­ ся и со словами запроса перед выполнением поиска. Слова с приставка­ ми при этом автоматически преобразуются в фразы запроса так, чтобы получить оптимальный результат поиска.

Как же происходит индексирование запроса? С этой целью исполь­ зуется так называемый язык запросов, па котором выполняется поиско­ вое предписание. Допустим, нас интересуют документы, определяющие таможенные пошлины па ввоз автомобилей. Наше поисковое предписа­ ние будет выглядеть так: «таможенные пошлины автомобили». Слова запроса могут быть заданы в любой грамматической форме (род, число, падеж, лицо, время), и они будут в результате автоматического морфо­ логического анализа приведены в исходную (машинную) форму и гра­ мотно отождествляться со словами документа. Для ускорения процеду­ ры поиска слова запроса (поискового предписания) могут быть усече­ ны как справа, так и слева, или слева и справа одновременно. Для этого слова замыкаются знаком «*», например, слову предписания «тамож*» будут соответствовать в документе и «таможенный», и «таможня», и «таможенник».

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]