Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Сетевой информационный поиск

..pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
15.52 Mб
Скачать

Организация поиска документов и ресурсов

71

рованными. На начальном этапе любой серьезной работы, особенно связанной с полной или частичной переориентацией направления ис­ следований или же их объекта, приходится сталкиваться с необходи­ мостью узнать и освоить новые области знания. При этом поиск ин­ формации вынужденно проводится по очень широкому кругу тем и вопросов. Такой поиск естественно назвать широким информацион­ ным поиском. Д о известной степени широкий поиск относительно кратковременен. Рано или поздно пользователь знакомится с ситуа­ цией в интересующей его области, а его запросы конкретизируются и сужаются. В жизни любого профессионала необходимость широкого поиска может встретиться несколько раз. В повседневной работе мо­ жет возникнуть необходимость в быстром получении некоторых све­ дений и справочных данных, которые нужны для постоянной работы. Так, инженеру могут неожиданно понадобиться сведения о свойствах того или иного материала, режимах некоего технологического процес­ са или климатических данных, необходимых для вывоза оборудова­ ния в новые государства и страны. Таких задач может быть очень мно­ го, они постоянно возникают при активной работе и разрешаются относительно быстро. Подобный тип поиска можно назвать поиском справочной информации.

Наконец, третий тип поиска и контроля информации связан с по­ вседневной профессиональной работой. Любой индивидуум в повсед­ невной деятельности должен следить за новостями в своей области, за работой конкурирующих организаций и многими иными проблемами. Для поддержания своей квалификации любому специалисту также не­ обходимо следить за информационными новинками в широкой облас­ ти знаний, связанной с его непосредственной работой. Для этого необ­ ходимо уметь выбирать нужные источники информации, находя их с помощью поисковых систем. Это можно назвать поиском текущей про­ фессиональной информации. Естественно, провести резкую грань меж­ ду перечисленными нами основными типами поисковых задач невоз­ можно; более того, сами технические методы поиска остаются во всех случаях почти одинаковыми, а изменяются только базы данных и по­ исковые системы, к которым приходится обращаться конкретному пользователю. Иными словами, тип поиска определяет его практи­ ческую организацию. Также меняется и активность поиска, количе­ ство вовлекаемых в него одновременно БД и прочее. Постепенно у каждого пользователя формируются свои индивидуальные приемы и отыскиваются наиболее удобные лично для него источники инфор­ мации (естественно, что со временем они немного видоизменяются),

72

Глава 3

но при устоявшейся тематике и наличии определенного опыта работы изменения в этой обл4асти уже не столь часты, как на начальных стади­ ях работы.

Естественно, каждый пользователь должен время от времени обнов­ лять свой поисковый репертуар и источники информации, но эти воп­ росы носят индивидуальный характер и в общем пособии говорить о них не имеет смысла, хотя существует множество мелких полезных при­ емов поисковой работы, которыми может поделиться с начинающим любой опытный пользователь.

Поисковые задачи, о которых мы говорили, — это задачи нахожде­ ния нужных источников информации. Иными словами, речь шла о том, что в общем виде можно назвать информационным поиском. Есте­ ственно, такой поиск является важнейшей частью любой задачи по на­ хождению информации, однако на практике встречается и другой тип поисковых задач, когда сам необходимый источник информации изве­ стен (это может быть конкретная книга, название которой, ее автор и многие другие данные пользователю могут быть также известны, од­ нако он может не знать, где находится соответствующий материал, то есть то хранилище, куда ему нужно обратиться). Таким документом или ресурсом не обязательно должна быть книга. С равным успехом это может быть репродукция картины, музыкальная запись и т. д. Пользователю же необходимо найти места, где необходимый ресурс имеется, и получить возможность выбрать из них наиболее для него приемлемое с точки зрения расстояний, возможной цены использова­ ния, копирования, получения прав на использование части сведений. Такой поиск можно назвать поиском мест хранения, и зачастую он мо­ жет быть сложным и длительным. Задачи поиска мест хранения широ­ ко распространены во многих видах профессиональной деятельности, а его методы во многом пересекаются с методами чисто информацион­ ного поиска. Чаще всего эти оба вида поисковых задач взаимосвязаны и решаются одновременно.

Кроме того, следует помнить, что реальные поисковые задачи не отвечают идеальным схемам. На практике широко распространен поиск ресурса по неполным данным о нем. Скажем, пользователю может быть известен автор, но не известно название нужной пользо­ вателю одной из его многочисленных публикаций. Иногда чисто ин­ формационная поисковая задача может самым причудливым образом переплестись с задачей поиска мест хранения ресурса и с поисковой задачей восстановления полноты характеристик документа или ре­ сурса.

Организация поиска документов и ресурсов

73

Основные характеристики ресурса и документа, используемые при поисковых запросах

Любой электронный ресурс и документ имеют ценность из-за имеющейся в них информации, то есть ресурс ценен своим содержа­ нием. Естественно, что в идеале именно содержание должно лежать в основе информационного поиска. Прекрасной поисковой мечтой яв­ ляется представление о такой работе АПР, когда поисковая система полностью анализирует всю информацию во всех доступных ей ре­ сурсах, оценивает качество информации с точки зрения соответствия его содержания поисковому запросу и затем своевременно знакомит пользователя с адресами соответствующих ресурсов. Даже поверхно­ стный взгляд на проблему поиска информации говорит о том, что та­ кая мечта несбыточна.

Для этого существуют две главные причины. Во-первых, ни одна даже самая совершенная поисковая система не в состоянии творчески оценить полное содержание документа, установить необходимые свя­ зи и аналогии. Это по силам только самому автору запроса. Работа же АПР основывается на формализации делаемого запроса. Оценка со-, держания — это творческий процесс. Но даже если предположить, что оценку содержания исследуемых ресурсов АПР может совершить дос­ таточно надежно, сама возможность полного анализа всей информации, которая содержится в больших базах данных (а без этого результаты поиска бессмысленны), в принципе невозможна по чисто техническим причинам. Работа эта столь объемна, что ни одна система справиться с ней не сможет. Таким образом, для поиска нужных ресурсов прихо­ дится опираться на некоторые признаки, которые формируют инфор­ мационно-поисковый образ каждого ресурса. Это могут быть призна­ ки, исходящие из содержания ресурса, и признаки, которые являются некоторыми его формальными характеристиками. Все они использу­ ются в информационно-поисковом языке — ИПЯ. Часть слов, которые в ИПЯ специально отобраны для описания содержания документа, называют дескрипторами. Этот термин происходит от английского слова description — описание, изображение.

Описание поисковых данных ресурса мы начнем с формальных его характеристик. Одной из таких характеристик, которую с известной долей условности можно считать формальной, являются фамилии од­ ного или нескольких авторов, название учреждения, где выполнялась работа, конференции, где она докладывалась и т. д. И фамилия автора, и название учреждения могут иногда дать некоторое представление

74

Глава 3

о содержании ресурса, однако установить необходимую связь между этими характеристиками и содержанием ресурса очень трудно. Во вся­ ком случае, при поиске ресурса по этим признакам АП Р почти всегда никак не сопоставляет их с его содержанием. Аналогичными формаль­ ными характеристиками, которые могут использоваться при поиске, являются год издания, издательство, место издания и т. д. — все это хорошо известные выходные, а иногда и так называемые выпускные характеристики печатных изданий. Их можно использовать при поис­ ке мест хранения ресурса как при традиционных методах поиска, так и при сетевом поиске.

Во всех видах поиска в качестве поисковых характеристик (призна­ ков) зачастую используют ссылки на некий конкретный ресурс, кото­ рые делаются в других ресурсах. Иногда, наоборот, анализируются ссылки на ресурсы, которые имеются в некотором определенном мате­ риале. При сетевом поиске ресурса нередко учитывается то, как часто на данный ресурс ссылаются в других ресурсах. Эту характеристику называют пришедшим из библиографии термином -«индекс цитирова­ ния». Обычно предполагается, что чем выше индекс цитирования ре­ сурса, тем более полезна и интересна содержащаяся в нем информа­ ция. Это допущение ничем не обосновано и, надо полагать, не вполне правильно.

Для поиска места нахождения ресурса очень удобны введенные в

мировую практику в последние годы стандартные индексы изданий. В случае книг такой индекс называется «Международный стандарт­ ный книжный номер» (International Standard Book Number), обозначае­ мый как ISBN и состоящий из 10 цифр, разделенных дефисами на 4 группы. Первая цифра обозначает страну издания (для России это 5, для СШ А — 0). Остальные цифры указывают язык и ряд других дан­ ных, которые обычному пользователю не нужны. Любая вышедшая в мире книга имеет свой неповторяющийся номер ISBN, и поэтому ис­ пользовать этот номер для поиска места нахождения книги в разных хранилищах очень удобно. Естественно, что разные издания одной и той же книги, а также одновременные издания одной и той ж е книги в разных странах имеют и разные номера. Этот номер представляет со­ бой очень удобный поисковый признак, хотя предложен он для других целей.

Н е следует думать, что такой номер должен иметься у любого напе­ чатанного и переплетенного текста. Термин «книга» имеет строгое оп­ ределение. В соответствии с международной терминологией книгой считается печатное издание, объем которого не менее 49 страниц. Кро-

Организация поиска документов и ресурсов

75

ме того, книга обязательно должна иметь обложку. Таким образом, можно сказать, что общий объем книги не менее 50 страниц. Принято полагать, что тираж менее 100 экземпляров — это размножение мате­ риала, а не настоящая печать. Короче, малотиражные и малообъемные издания ISBN не имеют, что вполне объяснимо, так как централизо­ ванное получение ISBN в соответствующем официальном националь­ ном органе обычно платное. Для нас важно только то, что этот номер является хорошим подспорьем при поиске некоторых документов и ресурсов.

Периодические издания, прежде всего журналы, также имеют свой неповторяющийся номер, единый для всех выпусков журнала. Он назы­ вается «Международный стандартный сериальный номер» (International Standard Serial Number) или сокращенно ISSN. Этот номер можно уви­ деть на обложках всех серьезных научных и художественных журналов и состоит он из 8 цифр, обычно разделяемых одной черточкой. Регист­ рация номера бесплатная, и ее проще всего провести в международном информационном центре, который расположен в Париже. Для регист­ рации следует обратиться по адресу http://www.issn.org и заполнить все необходимые формы. Узнать номера ISSN любого журнала можно, по­ лучив месячную бесплатную регистрацию по этому же адресу.

Отметим также, что наличие стандартных номеров изданий суще­ ственно для охраны авторских прав. Аналогичный номер (ISM N ) применяется и для идентификации музыкальных произведений. Ве­ дутся работы по созданию и других номеров подобного типа — в час­ тности, для описания специфических электронных изданий. Вся эта работа проводится в рамках Международной организации стандар­ тизации — ISO, которая разрабатывает Международные стандарты библиографического описания (International Standard Bibliographical Description).

Все указанные и другие формальные характеристики ресурса обес­ печивают поиск только в ограниченном числе практических ситуаций. Основными же поисковыми признаками ресурса и документа являют­ ся те характеристики, которые отражают их содержание. Прежде все­ го, такой характеристикой является Заглавие (Заголовок) — Title. Сама идея заглавия подразумевает краткое отражение в нем содержания до­ кумента или ресурса. Если для книг стремление автора к краткости заглавия зачастую делает заголовок малоинформативным, то в науч­ но-технических публикациях заголовки обычно более пространные и лучше отражают содержание документа. При создании электронных ресурсов их авторы хорошо знают, что текст заголовка будет использо­

76

Глава 3

ван для информации о содержании материала при работе АПР, и поэто­ му созданию информативного заголовка в этих случаях обычно уделя­ ется особое внимание.

Рассмотрим для примера заглавие «Аналогия в практике научного исследования». Здесь каждое слово, кроме предлога «в» дает некото­ рое представление о содержании ресурса. Именно такие слова и при­ нято называть ключевыми словами {keywords). Набор ключевых слов создает информационно-поисковый образ документа. А вот пример другого заголовка — «Как стать еретиком». Можно предположить, что эта книга (пример реальный) посвящена истории религии, филосо­ фии или описанию чьей-нибудь биографии. На самом деле это полупопулярное издание, посвященное технике изобретательской рабо­ ты (Т Р И З), предложенной и разработанной известным советским изобретателем Г. С. Альтшуллером. Здесь, в отличие от предыдущего случая, слова заглавия никак не характеризуют содержание докумен­ та. К глубокому сожалению, в последние годы прием создания броских заголовков, плохо соотносящихся с содержанием, получил широкое распространение даже в серьезной научно-технической литературе. По этой причине намного лучше, если ключевые слова, характеризую­ щие ресурс или документ, выбираются специалистом, знакомым с под­ линным содержанием приводимого материала. Еще лучше, если такой набор ключевых слов будет выбран самими авторами ресурса. Не слу­ чайно во многих случаях в редакциях журналов, при написании отче­ тов и при создании электронных ресурсов авторов просят самих выб­ рать необходимые ключевые слова. В крупных библиотеках и в ряде других учреждений, а также кое-где в электронных БД ключевые сло­ ва проставляются специалистами-библиографами. В практике работы электронных систем специалисты, отбирающие материал и описываю­ щие его, называются обычно модераторами.

Модераторы и библиографы стремятся пользоваться наборами «ти­ повых» ключевых слов. Последний принято приводить в соответствие с разделами той библиотечно-библиографической классификации или того предметного каталога, которые используются в данном хранили­ ще документов или ресурсов. Это позволяет достаточно хорошо опи­ сывать содержание документа при сохранении нормального количе­ ства ключевых слов, которые используются в системе в целом. Таким образом характеризующие ресурс ключевые слова могут быть найде­ ны с помощью формальных процедур или же выявлены специалиста­ ми. Назовем первые формальными ключевыми словами, а вторые — экс­

пертными ключевыми словами.

Организация поиска документов и ресурсов

77

Формальные процедуры — это не только анализ заглавий. Элект­ ронно-вычислительная техника позволяет анализировать большие части текстов, а иногда и весь текст в целом. При этом в тексте могут быть выявлены термины и их сочетания, которые имеются в запросе

вкачестве ключевых слов. Естественно, что формальное выявление ключевых слов оперативно, не требует затрат на работу специалиста и практически никак не ограничивает количества ключевых слов. Тем не менее именно формальность соотнесения всех встречающих­ ся слов с содержанием документа приводит к многочисленным ошиб­ кам, когда в ответе на поисковый запрос появляется множество адре­ сов ресурсов, не имеющих к существу дела никакого отношения. Это так называемый информационный шум. На самом деле за часть ин­ формационного шума обычно ответственен автор неточно сформу­ лированного запроса.

Экспертные ключевые слова более надежны и лучше описывают со­ держание документа, однако и в этом случае встречаются ошибки. Со­ шлемся на конкретный пример. Книга «Коэффициенты распределения

всложных полупроводниковых системах» посвящена вопросам физи­ ческой химии и глубокой очистки полупроводниковых материалов. В каталоге Библиотеки конгресса США содержание этой книги тради­ ционно описывается 4 экспертными ключевыми словами. Три из них правильно описывают документ. Четвертое же слово относит эту книгу

кразделу «Математическая статистика». Это объясняется тем, что экс­ перт не знал хорошо известного физико-химического термина, состоя­ щего из сочетания двух слов «Коэффициент распределения». Слово же «распределение» действительно широко используется в математиче­ ской статистике. Такие ошибки достаточно широко распространены, и избавиться от них невозможно в принципе. По этой причине эксперты всегда характеризуют документ несколькими ключевыми словами, и чем больше этих слов, тем лучше. Поиск же нужного ресурса по этой же при­ чине разумно (если только это возможно) проводить по комбинациям ключевых слов (кстати, в ряде традиционных, но не очень широко рас­ пространенных типов печатных библиографических указателей доку­ менты описываются жесткими парами ключевых слов). При сетевом поиске такие жесткие увязки должен задать сам пользователь в момент составления поискового запроса. Сама же связь нескольких терминов воедино при поисковом запросе в случае сетевого поиска проста. Это является большим преимуществом электронных поисковых систем.

Взаключение отметим, что именно ключевые слова и их различные комбинации являются основными характеристиками, которые описы­

78

Глава 3

вают ресурс. Именно поэтому они повсеместно и широко применяются почти во всех видах сетевого поиска.

Ответ на поисковый запрос

Ответ на поисковый запрос мог бы существовать в произволь­ ной форме, однако это настолько неудобно, что основные виды ис­ пользуемых на практике возможных ответов достаточно строго стан­ дартизованы. Содержание ответа во многом определяет его форму. В основной массе поисковых систем Интернета ответ выводится на экран в виде списка URL-адресов, и обычно поисковая система рас­ полагает их в соответствии со «значимостью». Этот термин нуждает­ ся в пояснении, которое зависит от конкретной поисковой системы, так как возможно и другое расположение материала (в частности, приводимые адреса можно расположить в соответствии со сроками появления информации о них в поисковой системе). Расположение адресов по значимости используется «по умолчанию». Перестройка же характера расположения материала в ответе задается пользователем. Как это выглядит, а также какими еще возможностями расположения материала можно воспользоваться, легко разобраться при непосред­ ственной работе.

При выводе ответа на запрос адреса располагаются друг под дру­ гом, но на экране можно разместить только ограниченное число адре­ сов, и поэтому при большом их числе в ответе на запрос список адресов или других материалов выводится на экран группами по 10, 15, 25 и т. д. единиц. Иногда это число можно менять. Переход к следующей группе адресов осуществляется щелчком по соответствующей кнопке на экране, которая обычно располагается в конце списка, в его начале, а иногда и в обеих этих местах сразу. Общее число адресов-ответов ука­ зывается в верхней части экрана перед первой порцией материала. Все это достаточно наглядно представлено на рис. 7. Все адреса гипертек­ стовые, и соответствующим щелчком мыши по конкретному адресу можно перейти непосредственно к ресурсу. Поскольку адрес сам по себе ни о чем не говорит, в небольшой порции текста, который поиско­ вая система или модераторы посчитали значительным, приводятся не­ сколько фраз из текста ресурса. Эти фразы с известными усилиями можно использовать для оценки реального содержания ресурса.

Иногда ответ на запрос может выдаваться сразу в полнотекстовой форме, то есть в виде некоторой «статьи». Такой вывод ответа исполь­ зуется во многих справочниках, энциклопедиях и иных похожих со­ браниях ресурсов. Это, естественно, возможно только тогда, когда зап-