Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Сетевой информационный поиск

..pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
15.52 Mб
Скачать

Принципы хранения и особенности хранения документов в электронных сетях 51

читать материалы о положительных свойствах этой системы могут об­ ратиться к сайту РГБ.

Рассмотрим теперь, для чего необходимо знание библиотечных классификаций при сетевом поиске. На первый взгляд представляется, что особой нужды в этом знании нет. Действительно, поиск адреса элек­ тронного ресурса или адреса документа осуществляет некая программа, она же и выдает результат, так что нет никакой необходимости знать, в соответствии с какой классификацией расположены материалы в месте их хранения. Библиотеки, конечно, не утаивают принятую в них систе­ му классификации, но и не выносят ее на первый план.

Поисковые системы библиотек и архивов в своей работе основы­ ваются на запросах пользователя, которые могут быть разного типа. Во многих случаях одним из возможных типов запроса является ин­ декс той или иной классификационной системы — чаще всего это индексы ДКД и УДК. В России зачастую предлагают провести поиск и по индексам ББК. Во всех таких случаях пользователь указывает не­ обходимый индекс, а поисковая система выдает ему сведения (чаще всего URL-адреса) обо всех документах (или электронных ресурсах), которые зарегистрированы под этим индексом. Таким образом, чтобы правильно составить запрос, то есть определить индекс для поиска, необходимо уметь пользоваться определителями соответствующей си­ стемы библиотечной классификации.

Пользователи чаще всего стараются оформить запрос в терминах, которые определяют содержание документа. Это так называемы ключе­ вые слова, однако количество ключевых слов, описывающих документы

всистеме хранения, хотя и очень велико, но не безгранично. Все эти сло­ ва, то есть предметныерубрики, классификационные индексы и ряд дру­ гих характеристик собираются вместе в так называемых официальных справочных перечняхш и (более часто употребляемый термин) в авто­ ритетных файлах (Authority Files). Мы не будем углубляться здесь

всоответствующие вопросы терминологии и теории работы электрон­ ных каталогов. Отметим только, что при поиске в них поисковая сис­ тема часто опирается на систему библиотечной каталогизации. Само количество слов-признаков (их еще называют дескрипторами), при­

сваиваемых одному документу или электронному ресурсу при его опи­ сании в списках, ограничено. Опыт показывает, что чем больше коли­ чество хранимых материалов в системе, тем меньшим количеством ключевых слов они описываются (атрибутируются). Так, в крупней­ ших библиотеках мира РГБ и Библиотеке конгресса США (БК, ее на­ звание также сокращают в виде LOC) количество ключевых слов, при­ писываемых документу, составляет всего 4. В меньших по размерам

52

Глава 2

библиотеках это число бывает большим, иногда достигая 10. Чем мень­ ше атрибутов поиска, тем легче ошибиться при их задании. Сами же термины, по которым производится поиск, задаются авторами поиско­ вой системы данной библиотеки и чаще всего выбираются именно тер­ мины используемой классификационной системы. Поэтому знание библиотечных классификаций хотя бы в общих чертах, весьма жела­ тельно. Конечно, возможны и другие подходы к организации поиска нужных материалов. Каким из них пользоваться, личное дело каждо­ го. Соответствующий выбор определяется опытом, вкусами и т. п. Тем не менее необходимо знать (хотя бы в принципе) все методы поис­ ка, а уж затем выбирать для себя те, которые кажутся наиболее подхо­ дящими.

Конечно, непрерывно пользоваться в работе определителями клас­ сификационных систем не совсем удобно, однако сам поиск при посто­ янной работе и установившихся интересах производится по ограничен­ ному кругу тем. Поэтому нужные индексы со временем запоминаются (их можно и специально зафиксировать). Более того, найдя нужный д о ­ кумент, довольно часто смотрят на приводимые в его описании класси­ фикационные индексы и ключевые слова (они приводятся всегда) и за­ тем пользуются ими. Злоупотреблять этим приемом, не разобравшись в его сути, не следует, но тем не менее нужно признать, что его часто используют на практике.

Полезно упомянуть, что классификация документов в библиотеках и определение соответствующих классификационных индексов про­ изводится людьми. При этом в разных местах схожие по содержанию материалы иногда относят к разным рубрикам, и поэтому в разных биб­ лиотеках определения индексов и ключевых слов могут заметно раз­ личаться. При регулярной поисковой работе за этим надо вниматель­ но следить и фиксировать для себя все тонкости. М ожно, например, задать вопрос об автоматическом определении классификационных индексов документов (так поступают при описании ресурсов в боль­ ших поисковых системах). При этом авторы документа иногда стара­ ются «обмануть» поисковую систему и создать расширенный инфор­ мационно-поисковый образ ресурса. В крупных библиотеках пока еще редко применяют автоматизированные системы определения индек­ сов хранимых материалов, да и автоматические поисковые системы или системы так называемого автоматического поиска ресурса (АПР) также работают не идеально. Короче, следить за индексами тех най­ денных вами документов, которые полностью удовлетворяют вашим запросам, следует обязательно. Желательно также понимать, как реа­ гирует конкретная АПР на те или иные характеристики запроса.

Принципы хранения и особенности хранения документов в электронных сетях 53

Имеются и особые классификационные системы, разработанные спе­ циально для сетевых задач. С ними широким слоям пользователей пока приходится встречаться очень редко, а желающие получить о них сведе­ ния могут обратиться к сайту http://wwwMi-stuttgart.de/nohr/Klasse/ klasseMm. На этом сайте есть таблица применений разных библиотеч­ ных классификаций. Таблицу эту не трудно понять, хотя в ней исполь­ зуется текст на немецком языке. По этому же адресу есть и теоретиче­ ский материал (несколько десятков страниц), однако для его понимания нужно хорошее владение немецким языком. После упомянутой таблицы на этом сайте приводится и список интересной немецкоязычной сете­ вой и печатной литературы по вопросу использования различных биб­ лиотечных классификаций в практике сетевого поиска. Аналогичных русскоязычных материалов мы незнаем.

В повседневной работе иногда приходится сталкиваться и со спе­ циализированными классификационными системами, которые пред­ назначены только для определенных библиотек и архивов и только по ограниченному кругу вопросов. С такими классификациями пользо­ ватель может столкнуться лишь после овладения основными приема­ ми сетевой работы. Опыт, который может быть приобретен к тому вре­ мени, должен быть достаточным для того, чтобы без большого труда разобраться в соответствующих проблемах.

Для сетевого поиска в ряде случаев нужно знание и других, небиб­ лиотечных классификаций. Так, поиск патентов осуществляется с по­ мощью Международной классификации изобретений (МКИ). Стан­ дарты отыскиваются с помощью соответствующего классификатора стандартов каждой страны или же стандартов Международной органи­ зации по стандартизации (ISO). Для работе в РУ НЕТе может понадо­ биться и использование Государственногорубрикатора научно-техни­ ческой информации или же Строительных норм и правил СНИП.

Пользоваться всеми этими классификаторами не сложно, так как ис­ пользуется один и тот же принцип — нахождение в соответствующем алфавитно-предметном указателе нужного номера и проверке этого номера по основным таблицам. Естественно, для лучшего понимания системы всегда необходимо прочитать описание соответствующего

. классификатора, однако после освоения библиотечно-библиографи­ ческих классификаций это уже трудностей не составит. Сам же поиск, который обычно выполняют в специализированных базах данных (БД),

осуществляется просто по найденному номеру.

И в России, и в мире существует много систем, связанных с клас­ сификацией и стандартизацией. Сведения о них можно получить во

Всероссийском научно-исследовательском институте классификации,

54

Глава 2

терминологии и информации по стандартизации и качеству (ВНИИКИ), входящем в систему Госстандарта (UR L -адрес этого института — http://www.vniiki.ru/). Много полезной информации можно найти в описаниях БД по адресу: http://www.nw-innovations.ru/analitika/ orgformi/list4/text/tema3.html.

Наряду со специальными классификациями в разных областях зна­ ния, в некоторых специализированных библиотечных ресурсах также применяются и специализированные библиотечные классификации. Это делается в тех библиотеках, где концентрируются документы и ре­ сурсы только по особым специально отобранным темам. Это могут быть, например, женские библиотеки, библиотеки по географии, эко­ номике отдельных отраслей и регионов. Во всех этих случаях на сайте можно легко обнаружить и правила работы с соответствующей клас­ сификационной системой. С такими библиотеками в начальный пери­ од вашего выхода в сеть вам сталкиваться не придется. Когда ж е вы с ними встретитесь, у вас уже должно быть достаточно подготовки, что­ бы самостоятельно разобраться в соответствующей проблеме. Обычно это не сложно и особой квалификации не требует.

Развитие корпоративных библиотечных сетей и перспективы объе­ динения их в единую мировую сеть требуют унификации не только про­ токолов обмена и формы представляемых каждым хранилищем данных. Они требуют и унификации принципов каталогизации документов и электронных ресурсов. В настоящее время наибольшие перспективы для использования в качестве единой библиотечной классификацион­ ной сетевой системы имеет Десятичная классификация Дьюи (ДК Д ). Тем не менее перспектива перевода всех библиотек мира на Д К Д не вполне реальна, так как надо проделать слишком большой объем рабо­ ты. Рассматривается и другой вариант решения проблемы — создание универсальных компьютерных программ, автоматически трансформи­ рующих (конвертирующих) индексы одной системы в индексы другой. В настоящее время обсуждается создание программы перевода индек­ сов УДК в индексы ДКД. Каким путем пойдет дальнейшее развитие уни­ версализма в мировой библиотечной компьютерной сети, можно только предполагать с известной долей вероятности. Мы не имеем права и ос­ нований на более подробное обсуждение этой очень не простой темы.

Каталоги поисковых систем Интернета

Сетевую информации часто начинают искать с помощью больших

поисковыхсистем ш п машин (searchingengine). Ресурсы, концентрируе­ мые в этих системах (или же только находимые с их помощью), обяза­ тельно упорядочиваются по определенным правилам. Иными словами, в

Принципы хранения и особенности хранения документов в электронных сетях

59

Нетрудно заметить, что содержание, то есть наименования многих основных разделов и подразделов, приводимых на рисунках англо­ язычных классификаторов (каталогов), весьма схожи с подразделами русскоязычных каталогов. В то же время, даже при не очень внима­ тельном знакомстве с приведенными главными (домашними) страни­ цами видно, что признаки деления понятий (ресурсов) в каталогах каждой поисковой системы свои и заметно отличаются друг от друга. Внешнее сходство этих классификаций с библиотечными на самом деле весьма поверхностно. Все библиотечные классификации исходят из анализа структуры наших знаний о природе и обществе и обязатель­ но охватывают все разделы человеческого знания. В одних классифика­ циях это сделано лучше, в других — менее удачно, но в основе практи­ чески всех используемых в мире систем библиотечной классификации лежит принцип всеобщности охвата и наличие некоторой научной и даже философской базы. Соответственно определители этих систем ве­ лики по объему, а возможность неограниченного дробления понятий всегда рассматривалась и рассматривается как величайшее достоинство.

Если взглянуть с этих позиций на приводимые нами начальные деле­ ния классификаций поисковых систем Интернета, то можно сразу же увидеть их принципиальные отличия от библиотечных классификаций. Прежде всего количество возможных делений понятия здесь строго огра­ ничено. Обычно все заканчивается на четвертом шаге. Можно напомнить, что в Д К Д три уровня деления образуют систему из 1000 понятий. Она достаточно велика и объемна. Казалось бы, что четыре ступени дробле­ ния в каталогах электронных поисковых систем более чем достаточны, однако эти деления не основаны на децимальном принципе и количество окончательных терминов в классификациях поисковых машин далеко от 1000. Авторы ряда таких классификаций, например авторы класси­ фикатора поисковой системы Яндекс, считают ограниченность уровней деления большим преимуществом используемой ими классификации.

Еще более существенным отличием классификаций понятий (ресур­ сов) поисковых систем Интернета является отсутствие в них стремления полностью охватить весь круг возможных ресурсов, то есть обеспечить полноту охвата возможных материалов и сделать это на понятной всем научной основе. Возьмем для примера главную (домашнюю) страницу системы Апорт. В разделе Медицина есть подраздел Лекарства, но нет подраздела Болезни. Спрашивается: где же их искать? Подраздел Музыка имеется и в разделе Развлечения, и в разделе Культура иискусство. Прихо­ дится разбираться втом, одно это и то же, или же есть некие умалчиваемые различия. Подраздел Автомобили относится к разделуДом исемья, но зато нет подразделов для других видов транспорта. Не следует думать, что это особенности классификации, применяемой только в данной системе.

60

Глава 2

Взгляните на другие главные страницы, и вы увидите то же самое. Н е сле­ дует считать, что это некие недоработки классификаций — отнюдь нет.

Все классификации поисковых систем Интернета построены исходя из принципа максимального удовлетворения нужд пользователей. В них везде выделены те разделы и применяются те формулировки, которые больше всего волнуют основную часть посетителей (пользователей) по­ исковой системы. Не зря в этих системах имеются даже специальные классификаторы (каталоги) для несовершеннолетних (они являются од­ ними из наиболее частых посетителей соответствующих систем и у них есть свои интересы). Именно исходя из этих интересов и строится на самом деле соответствующий поисковый каталог. Иными словами, осно­ вой каталогов поисковых систем Интернета является не стремление со­ здать строгую научную базу и обеспечить полный охват тематики. Ос­ новная задача этих систем — наилучшее удовлетворение спроса. Если бы предлагаемые решения не удовлетворяли основную массу пользовате­ лей, то, несомненно, все было бы изменено. В жестоком мире конкурен­ ции и борьбы за число посетителей неудовлетворительные классифи­ кационное схемы просто бы погубили весь созданный поисковый портал.

Можно задаться вопросом о том, а что же делать другой, не основ­ ной, но более взыскательной массе пользователей? Оказывается, что ничего страшного нет. Просто не охваченные в каталоге темы надо ис­ кать, основываясь на других принципах (прежде всего, на поиске по клю­ чевым словам). Об этом способе поиска мы расскажем в соответствую­ щем месте. Пока же отметим, что классификаторы поисковых систем Интернета достаточно хорошо выполняют и поиск ресурсов по темам, не отраженным в их пользовательских каталогах. Сами эти каталоги принципиальным образом отличаются от библиотечных каталогов, ко­ торые также доступны через Интернет. Особого смысла детально опи­ сывать пользовательские каталоги поисковых систем Интернета нет, так как они существенно отличаются от системы к системе, хотя принципи­ альный подход к делению ресурсов у них один и тот же. Кроме того, если вы уже овладели основами работы с библиотечными каталогами, знакомство с каталогами поисковых систем Интернета труда не соста­ вит — тем более что все необходимые данные для их освоения «всегда на виду». В заключение отметим, что существует огромное количество специализированных поисковых систем, например, географических, систем, связанных с музыкой, туризмом и пр. В каждой из них исполь­ зуется, естественно, и свой способ классификации электронных ресур­ сов, выносимый на главную страницу поисковой машины. Yandex и Rambler считаются лучшими российскими поисковыми системами. Однако в СШ А Сергеем Брином (россиянином по происхождению) создана прекрасная поисковая система Google (http://www.google.com).