книги / Сетевой информационный поиск
..pdfПринципы хранения и особенности хранения документов в электронных сетях 51
читать материалы о положительных свойствах этой системы могут об ратиться к сайту РГБ.
Рассмотрим теперь, для чего необходимо знание библиотечных классификаций при сетевом поиске. На первый взгляд представляется, что особой нужды в этом знании нет. Действительно, поиск адреса элек тронного ресурса или адреса документа осуществляет некая программа, она же и выдает результат, так что нет никакой необходимости знать, в соответствии с какой классификацией расположены материалы в месте их хранения. Библиотеки, конечно, не утаивают принятую в них систе му классификации, но и не выносят ее на первый план.
Поисковые системы библиотек и архивов в своей работе основы ваются на запросах пользователя, которые могут быть разного типа. Во многих случаях одним из возможных типов запроса является ин декс той или иной классификационной системы — чаще всего это индексы ДКД и УДК. В России зачастую предлагают провести поиск и по индексам ББК. Во всех таких случаях пользователь указывает не обходимый индекс, а поисковая система выдает ему сведения (чаще всего URL-адреса) обо всех документах (или электронных ресурсах), которые зарегистрированы под этим индексом. Таким образом, чтобы правильно составить запрос, то есть определить индекс для поиска, необходимо уметь пользоваться определителями соответствующей си стемы библиотечной классификации.
Пользователи чаще всего стараются оформить запрос в терминах, которые определяют содержание документа. Это так называемы ключе вые слова, однако количество ключевых слов, описывающих документы
всистеме хранения, хотя и очень велико, но не безгранично. Все эти сло ва, то есть предметныерубрики, классификационные индексы и ряд дру гих характеристик собираются вместе в так называемых официальных справочных перечняхш и (более часто употребляемый термин) в авто ритетных файлах (Authority Files). Мы не будем углубляться здесь
всоответствующие вопросы терминологии и теории работы электрон ных каталогов. Отметим только, что при поиске в них поисковая сис тема часто опирается на систему библиотечной каталогизации. Само количество слов-признаков (их еще называют дескрипторами), при
сваиваемых одному документу или электронному ресурсу при его опи сании в списках, ограничено. Опыт показывает, что чем больше коли чество хранимых материалов в системе, тем меньшим количеством ключевых слов они описываются (атрибутируются). Так, в крупней ших библиотеках мира РГБ и Библиотеке конгресса США (БК, ее на звание также сокращают в виде LOC) количество ключевых слов, при писываемых документу, составляет всего 4. В меньших по размерам
52 |
Глава 2 |
библиотеках это число бывает большим, иногда достигая 10. Чем мень ше атрибутов поиска, тем легче ошибиться при их задании. Сами же термины, по которым производится поиск, задаются авторами поиско вой системы данной библиотеки и чаще всего выбираются именно тер мины используемой классификационной системы. Поэтому знание библиотечных классификаций хотя бы в общих чертах, весьма жела тельно. Конечно, возможны и другие подходы к организации поиска нужных материалов. Каким из них пользоваться, личное дело каждо го. Соответствующий выбор определяется опытом, вкусами и т. п. Тем не менее необходимо знать (хотя бы в принципе) все методы поис ка, а уж затем выбирать для себя те, которые кажутся наиболее подхо дящими.
Конечно, непрерывно пользоваться в работе определителями клас сификационных систем не совсем удобно, однако сам поиск при посто янной работе и установившихся интересах производится по ограничен ному кругу тем. Поэтому нужные индексы со временем запоминаются (их можно и специально зафиксировать). Более того, найдя нужный д о кумент, довольно часто смотрят на приводимые в его описании класси фикационные индексы и ключевые слова (они приводятся всегда) и за тем пользуются ими. Злоупотреблять этим приемом, не разобравшись в его сути, не следует, но тем не менее нужно признать, что его часто используют на практике.
Полезно упомянуть, что классификация документов в библиотеках и определение соответствующих классификационных индексов про изводится людьми. При этом в разных местах схожие по содержанию материалы иногда относят к разным рубрикам, и поэтому в разных биб лиотеках определения индексов и ключевых слов могут заметно раз личаться. При регулярной поисковой работе за этим надо вниматель но следить и фиксировать для себя все тонкости. М ожно, например, задать вопрос об автоматическом определении классификационных индексов документов (так поступают при описании ресурсов в боль ших поисковых системах). При этом авторы документа иногда стара ются «обмануть» поисковую систему и создать расширенный инфор мационно-поисковый образ ресурса. В крупных библиотеках пока еще редко применяют автоматизированные системы определения индек сов хранимых материалов, да и автоматические поисковые системы или системы так называемого автоматического поиска ресурса (АПР) также работают не идеально. Короче, следить за индексами тех най денных вами документов, которые полностью удовлетворяют вашим запросам, следует обязательно. Желательно также понимать, как реа гирует конкретная АПР на те или иные характеристики запроса.
Принципы хранения и особенности хранения документов в электронных сетях 53
Имеются и особые классификационные системы, разработанные спе циально для сетевых задач. С ними широким слоям пользователей пока приходится встречаться очень редко, а желающие получить о них сведе ния могут обратиться к сайту http://wwwMi-stuttgart.de/nohr/Klasse/ klasseMm. На этом сайте есть таблица применений разных библиотеч ных классификаций. Таблицу эту не трудно понять, хотя в ней исполь зуется текст на немецком языке. По этому же адресу есть и теоретиче ский материал (несколько десятков страниц), однако для его понимания нужно хорошее владение немецким языком. После упомянутой таблицы на этом сайте приводится и список интересной немецкоязычной сете вой и печатной литературы по вопросу использования различных биб лиотечных классификаций в практике сетевого поиска. Аналогичных русскоязычных материалов мы незнаем.
В повседневной работе иногда приходится сталкиваться и со спе циализированными классификационными системами, которые пред назначены только для определенных библиотек и архивов и только по ограниченному кругу вопросов. С такими классификациями пользо ватель может столкнуться лишь после овладения основными приема ми сетевой работы. Опыт, который может быть приобретен к тому вре мени, должен быть достаточным для того, чтобы без большого труда разобраться в соответствующих проблемах.
Для сетевого поиска в ряде случаев нужно знание и других, небиб лиотечных классификаций. Так, поиск патентов осуществляется с по мощью Международной классификации изобретений (МКИ). Стан дарты отыскиваются с помощью соответствующего классификатора стандартов каждой страны или же стандартов Международной органи зации по стандартизации (ISO). Для работе в РУ НЕТе может понадо биться и использование Государственногорубрикатора научно-техни ческой информации или же Строительных норм и правил — СНИП.
Пользоваться всеми этими классификаторами не сложно, так как ис пользуется один и тот же принцип — нахождение в соответствующем алфавитно-предметном указателе нужного номера и проверке этого номера по основным таблицам. Естественно, для лучшего понимания системы всегда необходимо прочитать описание соответствующего
. классификатора, однако после освоения библиотечно-библиографи ческих классификаций это уже трудностей не составит. Сам же поиск, который обычно выполняют в специализированных базах данных (БД),
осуществляется просто по найденному номеру.
И в России, и в мире существует много систем, связанных с клас сификацией и стандартизацией. Сведения о них можно получить во
Всероссийском научно-исследовательском институте классификации,
54 |
Глава 2 |
терминологии и информации по стандартизации и качеству (ВНИИКИ), входящем в систему Госстандарта (UR L -адрес этого института — http://www.vniiki.ru/). Много полезной информации можно найти в описаниях БД по адресу: http://www.nw-innovations.ru/analitika/ orgformi/list4/text/tema3.html.
Наряду со специальными классификациями в разных областях зна ния, в некоторых специализированных библиотечных ресурсах также применяются и специализированные библиотечные классификации. Это делается в тех библиотеках, где концентрируются документы и ре сурсы только по особым специально отобранным темам. Это могут быть, например, женские библиотеки, библиотеки по географии, эко номике отдельных отраслей и регионов. Во всех этих случаях на сайте можно легко обнаружить и правила работы с соответствующей клас сификационной системой. С такими библиотеками в начальный пери од вашего выхода в сеть вам сталкиваться не придется. Когда ж е вы с ними встретитесь, у вас уже должно быть достаточно подготовки, что бы самостоятельно разобраться в соответствующей проблеме. Обычно это не сложно и особой квалификации не требует.
Развитие корпоративных библиотечных сетей и перспективы объе динения их в единую мировую сеть требуют унификации не только про токолов обмена и формы представляемых каждым хранилищем данных. Они требуют и унификации принципов каталогизации документов и электронных ресурсов. В настоящее время наибольшие перспективы для использования в качестве единой библиотечной классификацион ной сетевой системы имеет Десятичная классификация Дьюи (ДК Д ). Тем не менее перспектива перевода всех библиотек мира на Д К Д не вполне реальна, так как надо проделать слишком большой объем рабо ты. Рассматривается и другой вариант решения проблемы — создание универсальных компьютерных программ, автоматически трансформи рующих (конвертирующих) индексы одной системы в индексы другой. В настоящее время обсуждается создание программы перевода индек сов УДК в индексы ДКД. Каким путем пойдет дальнейшее развитие уни версализма в мировой библиотечной компьютерной сети, можно только предполагать с известной долей вероятности. Мы не имеем права и ос нований на более подробное обсуждение этой очень не простой темы.
Каталоги поисковых систем Интернета
Сетевую информации часто начинают искать с помощью больших
поисковыхсистем ш п машин (searchingengine). Ресурсы, концентрируе мые в этих системах (или же только находимые с их помощью), обяза тельно упорядочиваются по определенным правилам. Иными словами, в
Принципы хранения и особенности хранения документов в электронных сетях |
59 |
Нетрудно заметить, что содержание, то есть наименования многих основных разделов и подразделов, приводимых на рисунках англо язычных классификаторов (каталогов), весьма схожи с подразделами русскоязычных каталогов. В то же время, даже при не очень внима тельном знакомстве с приведенными главными (домашними) страни цами видно, что признаки деления понятий (ресурсов) в каталогах каждой поисковой системы свои и заметно отличаются друг от друга. Внешнее сходство этих классификаций с библиотечными на самом деле весьма поверхностно. Все библиотечные классификации исходят из анализа структуры наших знаний о природе и обществе и обязатель но охватывают все разделы человеческого знания. В одних классифика циях это сделано лучше, в других — менее удачно, но в основе практи чески всех используемых в мире систем библиотечной классификации лежит принцип всеобщности охвата и наличие некоторой научной и даже философской базы. Соответственно определители этих систем ве лики по объему, а возможность неограниченного дробления понятий всегда рассматривалась и рассматривается как величайшее достоинство.
Если взглянуть с этих позиций на приводимые нами начальные деле ния классификаций поисковых систем Интернета, то можно сразу же увидеть их принципиальные отличия от библиотечных классификаций. Прежде всего количество возможных делений понятия здесь строго огра ничено. Обычно все заканчивается на четвертом шаге. Можно напомнить, что в Д К Д три уровня деления образуют систему из 1000 понятий. Она достаточно велика и объемна. Казалось бы, что четыре ступени дробле ния в каталогах электронных поисковых систем более чем достаточны, однако эти деления не основаны на децимальном принципе и количество окончательных терминов в классификациях поисковых машин далеко от 1000. Авторы ряда таких классификаций, например авторы класси фикатора поисковой системы Яндекс, считают ограниченность уровней деления большим преимуществом используемой ими классификации.
Еще более существенным отличием классификаций понятий (ресур сов) поисковых систем Интернета является отсутствие в них стремления полностью охватить весь круг возможных ресурсов, то есть обеспечить полноту охвата возможных материалов и сделать это на понятной всем научной основе. Возьмем для примера главную (домашнюю) страницу системы Апорт. В разделе Медицина есть подраздел Лекарства, но нет подраздела Болезни. Спрашивается: где же их искать? Подраздел Музыка имеется и в разделе Развлечения, и в разделе Культура иискусство. Прихо дится разбираться втом, одно это и то же, или же есть некие умалчиваемые различия. Подраздел Автомобили относится к разделуДом исемья, но зато нет подразделов для других видов транспорта. Не следует думать, что это особенности классификации, применяемой только в данной системе.
60 |
Глава 2 |
Взгляните на другие главные страницы, и вы увидите то же самое. Н е сле дует считать, что это некие недоработки классификаций — отнюдь нет.
Все классификации поисковых систем Интернета построены исходя из принципа максимального удовлетворения нужд пользователей. В них везде выделены те разделы и применяются те формулировки, которые больше всего волнуют основную часть посетителей (пользователей) по исковой системы. Не зря в этих системах имеются даже специальные классификаторы (каталоги) для несовершеннолетних (они являются од ними из наиболее частых посетителей соответствующих систем и у них есть свои интересы). Именно исходя из этих интересов и строится на самом деле соответствующий поисковый каталог. Иными словами, осно вой каталогов поисковых систем Интернета является не стремление со здать строгую научную базу и обеспечить полный охват тематики. Ос новная задача этих систем — наилучшее удовлетворение спроса. Если бы предлагаемые решения не удовлетворяли основную массу пользовате лей, то, несомненно, все было бы изменено. В жестоком мире конкурен ции и борьбы за число посетителей неудовлетворительные классифи кационное схемы просто бы погубили весь созданный поисковый портал.
Можно задаться вопросом о том, а что же делать другой, не основ ной, но более взыскательной массе пользователей? Оказывается, что ничего страшного нет. Просто не охваченные в каталоге темы надо ис кать, основываясь на других принципах (прежде всего, на поиске по клю чевым словам). Об этом способе поиска мы расскажем в соответствую щем месте. Пока же отметим, что классификаторы поисковых систем Интернета достаточно хорошо выполняют и поиск ресурсов по темам, не отраженным в их пользовательских каталогах. Сами эти каталоги принципиальным образом отличаются от библиотечных каталогов, ко торые также доступны через Интернет. Особого смысла детально опи сывать пользовательские каталоги поисковых систем Интернета нет, так как они существенно отличаются от системы к системе, хотя принципи альный подход к делению ресурсов у них один и тот же. Кроме того, если вы уже овладели основами работы с библиотечными каталогами, знакомство с каталогами поисковых систем Интернета труда не соста вит — тем более что все необходимые данные для их освоения «всегда на виду». В заключение отметим, что существует огромное количество специализированных поисковых систем, например, географических, систем, связанных с музыкой, туризмом и пр. В каждой из них исполь зуется, естественно, и свой способ классификации электронных ресур сов, выносимый на главную страницу поисковой машины. Yandex и Rambler считаются лучшими российскими поисковыми системами. Однако в СШ А Сергеем Брином (россиянином по происхождению) создана прекрасная поисковая система Google (http://www.google.com).