Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Сетевой информационный поиск

..pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
15.52 Mб
Скачать

82

Глава 3

верситетской поисковой системы на запрос о журнале, который отсут­ ствует в библиотеке данного университета. В том месте списка журна­ лов, где должен был бы в соответствии с алфавитом находиться иско­ мый журнал, приводится соответствующая запись. К сожалению, такая удобная форма отрицательного ответа на запрос используется не очень часто.

Оценка эффективности поиска ресурса

Пользователю, который обращается к поисковым системам для отыскания нужной ему информации, важно оценить, насколько эф ­ фективно выполняется этот поиск. При оценке эффективности рабо­ ты поисковых систем возможны два независимых подхода. Первый из них основан на оценках затрат времени, необходимого для выполне­ ния поиска, и на оценке тех характеристик электронной техники, кото­ рые в этот поиск вовлекаются. Если не задавать чересчур общих и не­ конкретных вопросов, когда система находит сотни тысяч ответов на запрос, то реальное время поиска не настолько велико, чтобы пользо­ ватель мог на самом деле почувствовать производительность поиско­ вой системы. Поэтому временные характеристики и чисто технические оценки работы поисковой системы интересны только для профессио­ налов. Реального пользователя интересует иной подход к оценке эффективности поисковой системы, а именно количество найденных системой материалов, которые отвечают его запросу, и количество ре­ сурсов, которые несмотря на то, что они этому запросу удовлетворяют, системой пропущены. При таких оценках всегда остается открытым вопрос, встречающийся в различных практических ситуациях, никак не связанных с информацией, и связанный с тем, что любая поисковая система не идеальна. Она пропускает часть нужных материалов и, на­ оборот, ошибочно выдает в качестве ответа ряд неверных данных. Со­ ответственно, любой создатель поисковой системы и любой ее пользо­ ватель всегда стоят перед дилеммой: что лучше найти все, или почти все правильные ответы, но при этом разместить в ответе на запрос множество не имеющих отношения к делу результатов, или же, прак­ тически полностью отсечь все неверные ответы, но при этом утерять определенную немалую часть ответов правильных? Однозначного от­ вета на этот вопрос нет и не может быть, и поэтому практика всегда ищет некоторые компромиссы.

Для описания качества работы поисковой системы необходимы ко­ личественные оценки. Чтобы можно было делать количественные оценки, необходимо пользоваться какими-то критериями смыслового

Организация поиска документов и ресурсов

83

соответствия запроса и ресурсов, приводимых в ответе. Это соответ­ ствие определяется понятием «релевантность», происходящим от ан­ глийских слов relevance, relevancy (уместность). Этот термин был введен в пользование еще в конце 1950-х гг. и первоначально исполь­ зовался только специалистами по информационному поиску. Ныне этот термин широко применяется для характеристики качества работы поисковых систем и в несколько расширительном толковании он изве­ стен большинству пользователей-практиков, которые в той или иной форме сталкивались с поиском сетевой информации. Говоря о реле­ вантности, следует понимать, что это понятие связано с двумя во­ просами — во-первых, надо установить критерий релевантности того или иного ресурса, и, во-вторых, на основе оценки релевантности ре­ сурсов необходимо оценить эффективность поиска, то есть отбора до­ кументов, который был произведен системой в ответ на поисковый запрос пользователя.

Релевантность, то есть смысловая близость содержания документа или ресурса и запроса, наиболее адекватно может быть определена только самим автором запроса, то есть пользователем. До известной степени эта релевантность (мы позволим себе назвать ее авторской релевантностью) зависит от личности и опыта автора запроса. Доволь­ но часто по найденным при поиске ресурсам выясняется, что запрос надо уточнить или трансформировать. Таким образом, поиск может выполняться в несколько этапов, а сама авторская релевантность на­ ходится на основании нескольких последовательных запросов. В ко­ нечном итоге релевантность характеризует все же соответствие запро­ сов и ответов. Иными словами, это понятие несколько отличается от степени соответствия содержания ресурса и информационной по­ требности пользователя, которое иногда называют пертинентностыо (от английского слова pertinent — относящийся к делу). Для практи­ ческих оценок, распространенных в обычной литературе, понятие пертинентности используется редко, и мы позволим себе, говоря о соответствии содержания ресурса и запроса, ограничиться только понятием релевантности.

В АПР запрос пользователя формализуется и переводится в тер­ мины информационно-поискового языка (ИПЯ). Поэтому поисковая система определяет соответствие содержания документа и формали­ зованного запроса, который используется в ИПЯ. Естественно, что определенная на этом этапе релевантность, назовем ее поисковой ре­ левантностью, отличается от авторскойрелевантности. Степень рас­ хождения авторской и поисковой релевантности оценить очень не просто, однако чисто эмпирически в хороших поисковых системах это

84

Глава 3

расхождение не слишком велико. Поисковая релевантность также мо­ жет находиться по-разному. Представим, что в электронном каталоге библиотеки отыскиваются книги по некоторой тематике. Содержание книг в поисковом запросе задается ключевыми словами. Ключевые слова автор запроса находит на основе системы библиотечной класси­ фикации, используемой в данной библиотеке. Ключевые слова, ф ор­ мирующие информационно-поисковый образ документа, определены экспертами-библиографами на основе той же классификационной си ­ стемы. В этом случае совпадение термина в запросе и термина, описы­ вающего документ, зависит от качества оценок, которые выполнены библиографами или (в более общем смысле) экспертами. Как мы уже говорили, в оценках экспертов могут встретиться ошибки, да и сами оценки, выполненные разными экспертами, не всегда совпадают. Р е­ левантность, определяемая на основе использования оценок экспертов, может быть названа экспертной релевантностью. Нами уже отмеча­ лось, что крупные поисковые системы часто не прибегают к эксперт­ ным оценкам содержания ресурсов и документов. Эти оценки выпол­ няются специальными программами, о которых пойдет речь ниже. Работа таких программ основывается на оценке соответствия содер­ жания запроса и некоторых чисто формальных характеристик ресур­ са. Релевантность, находимая таким образом, может быть названа фор­ мальнойрелевантностью.

Естественно, что формальная релевантность может отличаться от экспертной релевантности. В общем, экспертная релевантность на­ дежнее, а формальная намного более доступна. Она очень широко распространена в поисковых системах. Реальный пользователь вы­ нужден пользоваться тем типом релевантности, который применяет­ ся в конкретной поисковой системе. При этом далеко не всегда хоро­ шо известно, как на самом деле система оценивает релевантность. Авторы различных систем АП Р отнюдь не скрывают принципов их работы и те оценки релевантности, которые используются в соответ­ ствующих АПР. Тем не менее разобраться в этих вопросах не просто, да и методы оценки соответствующих методов оценки релевантности чаще всего рядового пользователя не волнуют. Ему интересны толь­ ко результаты. Обычно просто говорят о релевантости, а ее подраз­ деление на разные типы хотя и подразумевают, но в описаниях не используют. Подразделение релевантности на разные типы специаль­ но было введено нами для упрощения изложения. Оно ни в коей мере не является распространенным на практике, о чем мы и предупреж ­ даем читателя. Этим делением мы будем пользоваться весьма огра­ ниченно.

Организация поиска документов и ресурсов

85

Д аже при экспертной оценке релевантности в случае достаточно четко и жестко сформулированного запроса количество ресурсов, при­ водимых в ответе на запрос, может быть очень велико. При формаль­ ной же оценке релевантности и не очень строгом задании запроса ко­ личество ответов может превышать несколько тысяч. Естественно, что даже в идеальном случае степень соответствия ответа и запроса может быть различной. По этой причине (по крайней мере, при использова­ нии А П Р) возникает вопрос об оценке степени релевантности. Такие оценки, о чем мы уже говорили, используются для выбора последо­ вательности расположения материалов в ответе. При больших, более нескольких сотен количествах ответов на запрос, практически неве­ роятно, что расположенные в конце списка сведения о ресурсе будут на самом деле прочитаны. Любой пользователь при знакомстве со списком ответов довольно быстро обрывает контроль ответов, уда­ ленных от начала списка. В каждой поисковой системе используется своя система оценки степени релевантности, и поэтому для одного и того ж е ресурса в разных случаях даже при одном и том же запросе эта оценка может быть разной. Несмотря на эти различия в основе автоматизированных оценок релевантности лежат некие общие прин­ ципы.

Как и при экспертных оценках релевантности, базовые определения ее формальных оценок также основаны на сравнении одного или не­ скольких наборов ключевых слов (а иногда и целых фраз) с наличием соответствующих терминов в ресурсе. В самом простом случае поиск может производиться по одному ключевому слову, но это слово может встретиться в заглавии, в кратком резюме и, наконец, в разных местах текста. Считается, что ключевое слово в заголовке более значимо, чем то же слово, находящееся в тексте. Поэтому документ или ресурс, у ко­ торого это слово находится в заголовке, будет обладать большей степе­ нью релевантности по сравнению с ресурсом, где ключевое слово име­ ется только в тексте, но и здесь могут быть различия. Краткие резюме (аннотации) работы более «весомы», чем остальной текст. Принято считать (и для этого имеются серьезные основания), что начальная часть текста любого ресурса более информативна по сравнению с пос­ ледующими его частями, и поэтому расстояние ключевого слова от начала текста также является важной характеристикой степени реле­ вантности. Многие поисковые системы вообще анализируют только на­ чальные части больших текстов.

Ключевое слово может встретиться в тексте один или несколько раз. Чем чаще оно встречается, тем более надежно связано с содержанием ресурса и, значит, повторяемость ключевого слова является важной

86 Глава 3

характеристикой степени релевантности. Некоторые опытные авторы Интернета специально концентрируют в начальной части ресурса мак­ симальное количество характерных для его тематики слов. В результате они повышают формальные оценки степени релевантности и тем самым способствуют размещению сведений о своем ресурсе в наиболее важ­ ной части списка поисковых ответов.

Некоторые поисковые системы при оценках релевантности исхо­ дят из предположения о том, что чем чаще другие пользователи зна­ комятся с ресурсом, тем выше его информационная ценность. В об ­ щем, это предположение достаточно обосновано, хотя справедливо оно далеко не всегда. Счетчики числа посещений ресурса — вещь эле­ ментарная и используются практически повсеместно. Конечно, ник­ то не знает, насколько эффективны такие посещения. Включение в текст ресурса одной-двух популярных фамилий артистов, спортсме­ нов или политиков делает ресурс более посещаемым, хотя эти фами­ лии могут быть слабо связаны с основным содержанием материала. Такой прием иногда используют в качестве «приманки», повышающей посещаемость ресурса.

В качестве характеристики ценности ресурса широко используется число ссылок на него в других ресурсах (индекс цитирования). Во мно­ гих поисковых системах все эти критерии вводятся в оценки степени релевантности ресурсов и документов. Чтобы получить числовое зна­ чение степени релевантности, необходимо каждой из упомянутых ха­ рактеристик придать некие числовые значения, иными словами оценить их вес. Оценки веса могут быть сделаны по-разному и полностью опре­ деляются разработчиками поисковых и оценочных программ. Б езус­ ловно, в основе выбора весовых коэффициентов всегда лежат схожие принципы. Тем не менее реальные оценки степени релевантности в раз­ ных случаях будут иногда существенно различаться.

Большинство поисковых систем стремится в первую очередь озна­ комить пользователя с наиболее интересными и вновь поступившими материалами. Мы уже говорили, что интерес к ресурсу оценивается по числу посещений его разными пользователями сети и по числу ссылок на этот ресурс в других ресурсах. В результате на главных страницах многих поисковых систем имеются специальные кнопки Новое (New),

а также «Горячие» статьи (Hot papers) и «Крутые» статьи (Cool).

Здесь Cool используется в своем непрямом смысле шодный, современный». Мы делаем это замечание в связи с тем, что не раз слышали воп­ росы о том, почему привычные слова горячий (Hot) и холодный (Coot)

употребляются при оценке значимости ресурсов в фактически одном и том же смысле. Выделение наиболее часто посещаемых ресурсов не­

Организация поиска документов и ресурсов

87

редко связано с определенными тематиками, и поэтому в поисковых системах иногда одновременно приводятся списки «горячих* материа­ лов по разным тематикам. Выделяются также «горячие* ресурсы неде­ ли, месяца и т. д.

С аналогичными целями в журналах определяют индекс цитирова­ ния различных статей. Частота цитирования статей в журналах, опре­ деляемая машинными способами, служит и для определения ведущих журналов. Для большого количества научных журналов она оценивает­ ся Институтом научной информации (Institute onScientificlInformation)

в Филадельфии (СШ А), для чего вводится специальная характеристи­ ка «импакт-индексь. Это нечто вроде индекса влияния или индекса сте­ пени воздействия.

Релевантность характеризует каждый ресурс в отдельности, одна­ ко сами определения релевантности служат основой для нахождения характеристик, которые влияют на эффективность поиска в целом. Пусть у —некий массив ресурсов, то есть БД. Пусть общее число нахо­ дящихся в ней ресурсов будет N. При этом А — это число релевант­ ных для данного запроса ресурсов в БД, а В —соответственно число нерелевантных ресурсов. Для простоты считаем, что все релевантные документы имеют одинаковую степень релевантности. Иными сло­ вами, частичной релевантости в простейшем случае просто нет. Оче­ видно, что:

A + B -N .

(1)

Пусть в результате поиска система нашла а релевантных докумен­ тов и b нерелевантных документов, то есть всего выдала пользователю

п документов, где

а + Ь ** п.

(2)

При этом в БД останется а* необнаруженных релевантных доку­ ментов и bi не попавших в ответ нерелевантных документов. Различ­ ные комбинации а, аь Ь, Ь^А иВ позволяют охарактеризовать наибо­ лее важные характеристики эффективности работы АПР. Наиболее широко для этих целей используются понятия коэффициента полно­ ты {Recall):

а _ а

(3)

Аа+а/

и точности (Precision):

> = — .

(4)

а+Ь'

 

88

Глава 3

Остальные характеристики эффективности поисковой системы, на­ пример специфичность (Specifity), мы обсуждать не будем в силу их малой распространенности, а позволим себе привести только английс­ кие названия основных терминов. Это resolution, elimination, pertinency, noice, recallи omission (сюда включены и уже использованные нами тер­ мины). Установившегося однозначного перевода ряда этих терминов на русский язык нет, а общепринятые русские термины приведены выше.

Если величина коэффициента полноты (R) пользователем не ощу­ щается, так как ему не известно, сколько всего релевантных докумен­ тов находится в БД, то величину точности Р он прекрасно чувствует на практике, оценивая количество ненужных ресурсов, которые попада­ ют в ответ АПР. Эти ресурсы составляют так называемый информаци­ онный шум или то, что в сетевой терминологии определяется терми­ ном спам (spam). Таким образом, коэффициент полноты оценивается специалистами, а точность оценивается прежде всего пользователем и лежит в пределах от 0 до 1. Идеальная точность, равная 1, вообще не достижима, а точность же, намного меньшая 0,5, реально воспринима­ ется пользователем как показатель плохой работы поисковой системы или как результат плохо сформулированного запроса. С каким случа­ ем пользователь столкнулся на практике и как исправить положение, следует каждый раз решать индивидуально.

Термин спам для обозначения количества выданных системой не­ релевантных документов, то есть величины аь используется только специалистами в области электронных сетей. В библиотечном деле и в теории информатики он практически не встречается. В сетевом пла­ не этот термин имеет намного более широкий смысл, чем просто чис­ ло нерелевантных документов в ответе, и встречается во многих дру­ гих ситуациях, неся обычно негативную окраску. Для понимания смысла этого термина полезно сделать несколько пояснений. Англий­ ское слово spam не является каким-либо сокращением, однако в раз­ говорном языке оно встречается редко. В быту оно обозначает осо­ бый сорт консервированного мяса. Если произвести поиск в И нтер­ нете, опираясь на этот термин, то можно найти рекламу и адреса фирм, выпускающих соответствующие консервы. В сетевой терми­ нологии этим термином обозначается не запрошенная пользователем информация, которая рассылается адресатам так называемых L-spam списков.

Поясним это примером. Encyclopedia Britannica имеет традицион­ ную книжную форму (32 тома), выпускается на C D -дисках и доступна через Интернет. Пользование Интернетом не бесплатно. В то же время

Организация поиска документов и ресурсов

8 9

соответствующая фирма, распространяющая эти материалы, всерьез за­ интересована в привлечении новых пользователей. Поэтому в Интернете можно бесплатно читать все первые абзацы статей, помещенных в энцик­ лопедии. Более того, имеется возможность проводить подробное знаком­ ство с полнотекстовыми материалами в течение определенного ограни­ ченного промежутка времени. Такая практикашироко распространена во многих платных системах Интернета и называется Free Trial, что не­ сколько вольно можно перевести как бесплатная проба. Чтобы полу­ чить доступ к Free Trial, необходимо зарегистрироваться. При регист­ рации обязательно оставляют адрес электронной почты, по которому подтверждается факт регистрации и сообщается пароль временного до­ ступа. Одновременно пользователь попадает в L-spam список и перио­ дически начинает получать сведения о новых изданиях энциклопедии и ряде других близких по духу изданий, которые член списка имеет возможность купить со скидкой. Периодически предлагается также со скидкой купить рождественские подарки и кое-какие другие товары и услуги. Вот эта специально не запрашиваемая пользователем рассылка материалов и называется спамом. Надо сказать, что серьезные фирмы, в том числе и Encyclopedia Britannica, рассылкой спама не злоупотреб­ ляют. Более того, они часто присылают в нем неожиданно интересную и даже полезную информацию. Существуют специальные фирмы, ко­ торые учат составлять L-spam списки и даже занимаются этим специ­ ально.

К сожалению, огромное число фирм не знает чувства меры и рассы­ лает спам в огромных количествах. Это является типичной болезнью РУНЕТа. Рассылают спам и отдельные люди —«спамеры». Ряд фирм нелегально продает электронные адреса клиентов для составления списков рассылки спама. В этом смысле спам часто превращается в настоящее бедствие. Это особенно существенно, если учесть, что оп­ лата получения спама производится пользователем. По этой причине во многих системах электронной почты имеются специальные про­ граммные средства защиты. Таким образом, ныне этот термин стал употребляться для обозначения любой нежелательной и не запро­ шенной специально информации. Использование его при описании оценок релевантности требует, конечно, определенных оговорок, од­ нако во многих материалах, посвященных оценкам эффективности АПР, этот термин употребляется довольно часто. Нам только остается признать сам факт его применения в указанном смысле.

Описанные выше оценки эффективности работы касались отдель­ ной поисковой системы, точнее — поиска ресурсов в одной БД, но

90

Глава 3

многие системы проводят поиск по большому количеству БД одно­ временно. При этом во всех оценках берутся некие суммарные харак­ теристики числа документов в базах данных и естественно, что многие ресурсы при этом встречаются неоднократно. Автоматическое исклю­ чение повторяющихся материалов происходит без каких-либо про­ блем. В то же время можно определять и частоту повторенных встреч с одним и тем же ресурсом, и количество ссылок на один и тот ж е ресурс в разных БД. В какой-то степени многочисленные повторения позво­ ляют предполагать, что соответствующий ресурс имеет повышенную ценность. При желании этот критерий также можно ввести в оценку релевантности, но если такие вещи и делаются проектировщиками си­ стемы, обычно рядовому пользователю они не известны. В то ж е время ни одна поисковая система ие в состоянии учесть все имеющиеся в мире документы и ресурсы. Обычно это не очень страшно, так как авторы материалов сами стремятся располагать свои ресурсы там, где их чаще читают. Иными словами, ресурсы по той или иной тема­ тике образуют определенные, близко расположенные в сети группи­ ровки — кластеры. Опытный пользователь и производит свой поиск в соответствующих хранилищах, но часть материалов всегда бывает рассеяна в относительно случайных БД. Количество этих «рассеян­ ных» ресурсов может достигать десятков процентов от общего числа ресурсов по той или иной тематике. Отыскание их — задача доста­ точно сложная. Однако ее рассмотрение выходит за рамки нашей те­ матики.

Виды сетевой информации и некоторые способы ее получения

Д о сих пор мы говорили только об электронных ресурсах, кото­ рые размещены на обычных общедоступных серверах Интернета. В ко­ нечном итоге именно они составляют основную массу электронных ре­ сурсов, которые отыскиваются, в первую очередь, при бытовом поиске информации. Однако при бытовом, и тем более профессионально ори­ ентированном поиске используют и другие источники нахождения ре­ сурсов. Естественно, что в любом случае все необходимые URL-адреса хранятся на обычных серверах Интернета. Также вполне естественно, что доступ к соответствующим ресурсам осуществляется по обычным сетям. Тем не менее имеются и особые типы ресурсов, точнее — особые серверы для их хранения и особые способы получения этих ресурсов. Остановимся на этом подробнее.