Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Сетевой информационный поиск

..pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
15.52 Mб
Скачать

Поиск в онлайновых каталогах универсальных и специализированных библиотек 161

кетирование, разработаны специальные опросныелисты—для пользова­ телей, обращающихся к посреднику, и для пользователей, оценивающих работу посредника. При этом часто отмечается, что работа поисковика— это комбинация умений выполнять поиск и умений правильно провести собеседование с пользователем, включая анализ его запросов. Вне вся­ кого сомнения, при освоении поисковых приемов хотя бы предвари­ тельное представление о таких методиках или только обдумывание их содержания является полезной практикой.

И специалист-поисковик, и обычный пользователь (в США его име­ нуют end user) должны уметь правильно выбрать тактику и стратегию поиска (Search strategy). Прежде всего необходимо научиться перево­ дить свои вопросы в «понятную для вычислительной техники форму». Это означает, в частности, что вопросы типа «почему», «зачем» и т. д. должны быть умело переформулированы. Недаром существует извест­ ное выражение «доступ пользователя к информации ограничен его спо­ собностью задавать вопросы».

Н епосредственная постановка поисковой задачи влияет на харак­ тер всей стратегии поиска. Пользователю необходимо осознать это уже перед формулировкой запросов и влиять, естественно, на их поста­ новку. П риведем пример двух поисковых задач, предполагающих полностью противоположную тактику поиска. При написании обзора, диссертации, серьезного отчета, а иногда и дипломной работы встает задача о нахождении максимального числа источников (документов, ресурсов), имеющих отношение к данной проблеме. Чем больше ис­ точников мы найдем и изучим, тем более убедительными станут мно­ гие выводы. При этом для нас не очень существенно то, что при поиске может появиться много информационного шума, то есть много нереле­ вантных документов. В этом случае последующая обработка найден­ ных данных может занять много времени и, соответственно, требуется увеличение такой характеристики поиска, как коэфициент полноты Recall (см. главу III). Это может быть достигнуто за счет расширения типа поиска: использования более широких терминов, введения но­ вых ключевых слов и даже увеличения числа изучаемых БД. Проти­ воположная ситуация характеризуется тем, что пользователю нужны одна-две точные ссылки по проблеме, не более того. Пусть, например, некто пишет статью, посвященную истории производства цветных ме­ таллов. И звестно, что первые порции алюминия имели цену, превы­ шавшую цену золота, но автору необходимо подкрепить этот факт па- рой-другой ссылок. Тут полнота изучения вопроса не важна — важно лишь хорош ее соответствие найденных данных теме запроса. Это оз­ начает, что коэффициент полноты может быть и небольшим, но та ха­

162

Глава 6

рактеристика, которая назвается точность (precision), должна быть по возможности большей, и достигается это за счет сужения характера запроса. Вообще же отметим, что при поискемеры, приводящие кувеличению коэффициентаполноты, вызывают уменьшение точности. Вер­ но и противоположное утверждение.

Тактика поиска может меняться во время его выполнения. Пусть вы начинаете знакомиться с новой проблемой (ситуация достаточно час­ тая). На поставленный запрос поступает нужная информация, однако ее количество слишком велико. В этом случае следует переориентировать поиск и искать уже не все возможные документы, а ориентироваться, например, на нахождение различных обзоров и даже на преимуще­ ственный поиск книг (а не статей). Кстати, в этих материалах может

оказаться огромное количество ссылок на документы, которые бы вам дал первоначальный тип поиска, однако теперь эти материалы будут уже структурированы и детально обсуждены. Ситуаций подобного типа дос­ таточно много. Пользовательдолжен уметь проанализировать их до нача­ ла поиска или после получения первых результатов, а затем на этой осно­ ве скорректировать свои поисковые запросы.

Естественно, что все вышесказанное не связано непосредственно с сетевым поиском. Классические методы поиска ставят перед пользо­ вателем те же проблемы, однако при сетевом поиске эти проблемы ста­ новятся более «выпуклыми». Кроме того, именно сетевой поиск позво­ ляет быстро и эффективно перестроить всю тактику работы, применяя (при наличии устоявшихся навыков) достаточно простые меры.

Перейдем теперь от общих вопросов к вопросу о том, какие чисто тренировочные приемы следует использовать при ознакомлении с ме­ тодиками поиска. Естественно, что, как и в случае обычного бытового поиска, необходимо прежде всего проверять работу с любой описывае­ мой и с любой новой каталожной системой. Проверка идет по методу «нашел не нашел». Поскольку мы никогда с уверенностью не можем сказать, имеется ли нужный документ в данном каталоге или БД, в слу­ чае отрицательных результатов поиска мы никогда не сможем оконча­ тельно понять, связан ли такой результат с нашими неправильными действиями или с отсутствием документа в БД. Для этого требуются новые попытки и некоторые пробные документы, которые практиче­ ски наверняка имеются в соответствующем хранилище (о необходи­ мости иметь такие тестовые документы мы уже говорили). Упомянутые проверки говорят только о том, что пользователь освоил начальную тех­ нику работы, а хорошо ли проводится поиск, удовлетворяет ли его тре­ бованиям обследуемая БД — это уже более сложные вопросы. Тем не менее и в этой области возможно произвести определенные оценки,

Поиск в онлайновых каталогах универсальных и специализированных библиотек 163

которые позволяют оценить и качество поисковой тактики конкретного пользователя.

Само качество работы и пользователя, и поисковика-посредника в конечном итоге основывается на определении полученных ими в раз­ ных ситуациях значений коэффицентов полноты и точности. Обе эти величины основываются на оценке релевантности документов, кото­ рая входит во все выражения, описывающие качество поиска. Эти вы­ ражения понятны и однозначны, однако их реальная ценность опре­ деляется оценкой самой релевантности. Мы уже выше говорили о сложностях оценки релевантности документа, но эти сложности были связаны с характером факторов, учитываемых при оценке релевантно­ сти. На самом деле, если отвлечься от этих проблем, сложности в опре­ делении релевантности документа связаны с тем, что оно носит сугубо личностный характер. Даже один и тот же пользователь может изме­ нить оценку релевантности одного и того же документа в связи с ана­ лизом всех поступивших в его распоряжение материалов поиска, и эта оценка может меняться с течением времени. В том случае, если пользо­ ватель обращается к помощи посредника, следует обязательно выяс­ нить, совпадает ли у них оценка релевантности одних и тех же доку­ ментов. Это достаточно непростые вопросы, на которых обязательно нужно сосредоточить свое внимание. Это особенно важно в тех случа­ ях, когда обучение поисковым приемам происходит под руководством опытного преподавателя или эксперта. Тем не менее на начальной ста­ дии обучения поисковым приемам очень важно, отвлекшись от дета­ лей, состредоточиться на некоторых других обстоятельствах, связан­ ных с использованием понятия релевантности.

Пусть все индивидуальные факторы, определяющие релевантность документа, нами учтены. В этом случае, вычисляя величины коэффи­ циента полноты и точности, мы можем оценить качество поиска у кон­ кретного пользователя и исследовать его учебную динамику. При этом проблем в определении точности не возникает, так как оба числа в вы­ ражении — это величины,'определяемые по результатам поиска. Ины­ ми словами, они подсчитываются непосредственно, если в найденных при поиске документах мы можем выделить релевантные. Совсем иная картина возникает при определении коэффициента полноты. В знаме­ нателе этого выражения стоит число релевантных документов, кото­ рые имеются в БД, но это число не известно. Именно с определением полного числа релевантных документов и возникают все трудности при определении коэффициента полноты. В ряде случаев с учебными целями создаются относительно небольшие по своему объему учебные или тренировочные БД. Совсем не обязательно, чтобы эти тренировоч­

164

Глава 6

ные БД создавались для оценки эффективности сетевого поиска*. Для тренировки в электронном поиске по относительно широкому кругу проблем учебные БД должны быть гораздо больше. По имеющимся у нас сведениям, в США с этой целью создавались БД с общим числом описанных в каталоге ресурсов от 20 до 30 тыс. Если учесть, что коли­ чество записей в каталогах крупных библиотек достигает нескольких миллионов, то такой размер учебной БД представляется разумным. Естественно, что профессионалы-педагоги, готовящие такие учебные БД, знают число релевантых документов в такой БД по тем пробле­ мам, которые используются для учебы и тренировки.

Чтобы подобной БД могли пользоваться другие преподаватели, она должна быть дополнена соответствующим методическим описанием. Подготовка БД такого рода — достаточно сложный и длительный процесс. Мы знаем только одну российскую тренировочную БД для электронного поиска, которая будет описна нами при знакомстве с каталогами РГБ и РГБ — это БД для корпоративного каталога обеих библиотек. Имеются ли при этой БД необходимые для определения коэффициента полноты методические указания, мы, к сожалению, ска­ зать не можем. Создание других общедоступных тренировочных БД для российских пользователей пока что можно считать делом ближай­ шего будущего. Зарубежными тренировочными БД, даже при их дос­ тупности, следует пользоваться с осторожностью, так как языковые и некоторые другие проблемы могут заметно повлиять на результаты. Если вы желаете найти адреса таких БД, то следует знать, что их при­ нято называть ONTAP(On-line TrainingAndPractic тренировки и обу­ чение в режиме прямого доступа).

В России обучение приемам поиска производится до сих пор без ши­ рокого использования учебных БД. В этом случае необходимо исполь­ зовать сравнительные методики оценки качества учебного поиска. Если занятия проводятся опытным преподавателем или если обучающемуся доступны результаты поиска, проведенного квалифицированным экс­ пертом, то можно определить отношение коэффициента полноты, най­ денного обучающимся, к коэффициенту полноты, полученному квалифцированным экспертом. Это отношение называют сравнительным

* Авторы имеют небольшой положительный опыт обучения студентов в учебной БД, созданной для обычного поиска по карточному каталогу. Поскольку студенты обу­ чались поиску только по материалам, связанным с одной довольно узкой проблемой, число документов в такой БД было близко к 100 наименованиям, и естественно, что при подготовке учебной БД мы заранеезнали полное число релевантных документов в этой БД. При этом определение коэффициента полноты для каждого студента не вы­ зывало никаких затруднений, а сами величины этого коэффициента были точными и объективными.

Поиск в онлайновых каталогах универсальных и специализированных библиотек 165

(iотносительным) коэффициентом полноты (comparative recall). При большой разнице в коэффициентах полноты у учащегося и у преподава- теля-эксперта выделяют пропущенные учащимся документы и затем особо анализируют причины, по которым они не были найдены. При отсутствии эксперта можно сравнивать результаты поиска, выполнен­ ного разными учащимися. Исследуют также зависимость всех описан­ ных показателей от времени, то есть оценивают их динамику. Особенно важно выяснить, влияет ли на качество поиска то, в какой области зна­ ний он производится. Может оказаться, что тот или иной обучющийся лучше (или хуже) выполняет поиск только в некоторых областях зна­ ния. Даже при самостоятельной подготовке можно пытаться в той или иной форме использовать для самооценки приемы такого типа.

Результаты поиска зависят не только от подготовки пользователя, но и от качества учебной БД и качества поисковой программы. Приемы, схожие с описанными, можно использовать и для оценки этих величин, но ими имеет смысл заниматься только тогда, когдауже достигнут опре­ деленный уровень проведения поиска. По этой причине соответствущие проблемы мы здесь не затрагиваем. Следует учесть, что в каждой облас­ ти знаний имеются некоторые основополагающие работы. Если поиско­ вая программа не может их обнаружить или если выясняется, что в не­ которой БД они просто отсутствуют, лучше всего произвести смену программы или, соответственно, БД. При обучении работе с большими поисковыми машинами словарь терминов не очень важен — машины изучают весь текст каждого ресурса на наличие слов (терминов) запро­ са. При работе же с библиотечными системами пользователь в неявном виде опирается на словари терминов (тезаурусы) соответствующей БД. Слабое владение соответствующи словарем отрицательно влияет на ка­ чество поиска. Именно поэтому ознакомление с тезаурусами тех БД, которые будут в дальнейшем использоваться пользователем в его прак­ тической работе, является существенной частью обучения. Ответственость за это зачастую ложится на плечи самого обучающегося.

В заключение несколько слов о подготовке пользователя-руково- дителя. Решая вопрос об использовании посреднической фирмы или же индивидуального посредника, следует не жалеть времени и средств на поручение одного и того же задания разным исполнителям — толь­ ко сравнение результатов их поиска по времени, полноте результатов и цене позволит правильно сориентироваться в выборе постоянного помощника*.

* Тем не менее периодические контрольные проверки и опросы тех, кто непосред­ ственно контактирует с поисковиками, позволяют выбрать правильную тактику под­ бора исполнителей.

166

Глава б

Теперь, после всех вводных слов, мы можем перейти к изучению конкретного материала и начать, как мы и обещали, с изучения элект­ ронных каталогов Библиотеки конгресса США.

Работа с электронными каталогами

/Библиотеки конгресса США

ВБиблиотеке конгресса США (далее БК) имеется несколько ка­ талогов, но для нас наиболее интересным является каталог, в котором сосредоточены данные о печатных документах, и на него мы и обратим основное внимание. Остальные каталоги (например, каталог видео­ изображений и каталог звукозаписей) мы затронем в конце раздела только для общего знакомства. Сайты БК имеют несколько независи­ мых «входов», и переход от одного входа кдругому в пределах уже выб­ ранного сайта возможен без больших проблем. Наиболее известным URL-адресом БК является http//www.loc.gov*.

Воспользовавшись указанным выше адресом, мы попадаем на глав­ ную страницу БК (рис. 21)**. На фоне изображения самого известного читального зала этой библиотеки расположены надписи-кнопки. Мате­ риалы, на которые можно попасть, нажимая эти кнопки, обширны и интересны. Путем нажатия одной из них можно перейти к интересую­ щему нас Online Catalog, однако намного удобнее (а при постоянной

работе и проще) воспользоваться прямым входом в этот каталог — http://catalog.loc.gov. Несмотря на то что литературы (особенно на рус­ ском языке), посвященной сетевому библиотечному поиску, мало, иног­ да все же можно найти описание соответствующей главной страницы. Оно соответствует изображению, приведенному на рис. 22. В верхней части этого изображения имеется малозаметная надпись, на которую до­ вольно часто не обращают внимания. В ней говорится о том, что ката­ лог доступен в течение каждого дня недели круглосуточно, за исклю­ чением двух кратких рабочих перерывов в час и в 3 часа ночи по восточному времени США (оно отстает от московского времени на 8 часов). Об этом иногда забывают и удивляются трудностям соедине­ ния. Иногда, особенно после больших праздников и в вечернее время (начиная примерно с 17 часов по московскому времени), при выходе с главной страницы на рабочие соединения может появиться сообщение о загрузке всех линий с рекомендацией обратиться снова через не­ сколько минут. На самом деле такие перегрузочные перерывы могут

*Часто встречающееся сокращение и домены /ос являются аббревиатурой выра­ жения Library of Congress — Библиотека котресса).

**В последние месяцы дизайн страницы несколько изменился.