Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2934

.pdf
Скачиваний:
0
Добавлен:
15.11.2022
Размер:
2.64 Mб
Скачать

2.4.17. Проблемы составления запросов

Как уже отмечалось, важным фактором, влияющим на основные характеристики результатов поиска, является то, как пользователь составляет запрос. Составление запроса — это процесс выражения информационной потребности с помощью ключевых слов и комбинирования этих ключевых слов с помощью средств информационно-поискового языка системы. Поэтому на «качество» запроса оказывают воздействие два фактора: знание пользователем особенностей естественного языка и знание структуры и особенностей информационнопоискового языка. Однако, составляя запрос, необходимо помнить, что он должен не только максимально корректно отражать информационную потребность, но и соответствовать «языку документов Интернет». Следовательно, умение учитывать языковые особенности документов можно рассматривать как еще один фактор, влияющий на «качество» запроса.

2.4.18. Учет особенностей естественного языка

При составлении списка ключевых слов пользователь должен учитывать те особенности естественного языка, которые могут сказаться как позитивно, так и негативно на результатах поиска. Рассмотрим их.

Остановимся сначала на тех языковых явлениях, которые могут привести к снижению точности поиска. К ним относятся следующие.

Полисемия, т.е. наличие различных, но в какой-либо мере связанных, смыслов (или значений) у одного и того же слова, словосочетания или фразы. Определить многозначные слова можно, воспользовавшись толковым словарем языка. Как правило, для таких слов имеется одна словарная статья, в которой каждое значение слова описано отдельно.

Омонимия, т.е. наличие в языке омонимов — разных, но одинаково звучащих и пишущихся слов. Обычно в словарях омонимы представлены разными словарными статьями.

Наличие омографов — слов, которые произносятся поразному, но совпадают при написании. Примером таких слов

63

являются «замок» и «замок». Следует обратить особое внимание на это явление, поскольку при составлении запроса человек, как правило, воспринимает такие слова как разные, ориентируясь на произношение, однако, с точки зрения поисковой системы, которая не различает ударений, эти слова окажутся одинаковыми.

Наличие омоформ — слов, совпадающих в своем звучании и/или написании в определенных формах. Например, к таким словам относятся существительное «печь» и глагол «печь». Для выявления слов, имеющих омонимичные формы, можно использовать грамматические словари языка.

Повышению точности поиска может способствовать:

использование профессионализмов, т.е. слов, употребляемых специалистами той предметной области, в которой осуществляется поиск, а также редких терминов;

использования различных названий, фамилий и т.п. Однако следует помнить, что в погоне за точностью

можно существенно снизить полноту поиска, поскольку конкретизация запросов указанными способами сужает множество выданных документов. А для повышения полноты требуется наоборот расширять выдачу. Сделать это можно различными методами, основными из которых являются следующие:

использование синонимов, т.е. слов, различающихся по написанию и произношению, но тождественных по смыслу; использование гипонимов — слов, обозначающих родовое понятие (например, для слова «береза», гипонимом бу-

дет являться слово «дерево»).

Очевидно, что повышение полноты поиска с помощью перечисленных приемов, может негативно сказаться на точности поиска.

2.4.19. Особенности лексики документов Интернет

Приступая к работе с документами, размещенными в Интернет, следует четко представлять, чем такие документы отличаются от документов, опубликованных «классическим» способом, например, в виде журнальных статей или книг. Это

64

отличие, прежде всего, может проявиться в лексике документов, что вызвано достаточной простотой и бесконтрольностью процесса опубликования материалов в Интернет. Отсутствие процедуры языкового редактирования для большинства документов на фоне общего снижения языковой культуры пользо-

вателей Сети привело к возникновению ряда проблем лек-

сики документов, с которыми приходится считаться при формировании списка ключевых слов. Обозначим основные.

Произвольное использование заимствованных и интернациональных слов. Так, например, нечеткое представление о нормах русского языка по отношению к подобным терминам приводит к тому, что для построения запроса на тему поиска информации в Интернет приходится использовать различные словосочетания - «поиск в Интернет», «поиск в Интернете», «поиск в Internet» и т.д.

Некорректное использование лексических единиц языка. Сюда можно отнести такие ситуации, как употребление разговорной речи в документах, непреднамеренное смешение паронимов — слов, обладающих частичным звуковым сходством при семантическом различии (например, «болотный» и «болотистый»).

На первый взгляд может показаться, что учитывать подобные проблемы при проведении поиска информации в Интернет не стоит, считая документы, содержащие языковые ошибки, не представляющими никакого интереса. Однако, как показывает практика, достаточно часто имеет место ситуация, когда квалифицированный в своей области специалист не способен вполне корректно, с точки зрения норм языка, изложить свои знания в письменной форме.

2.4.20.Структура информационно-поисковых языков

Современные информационно-поисковые языки предос-

тавляют пользователю большое число операторов, т.е. служебных слов, которые используются для комбинирования ключевых слов запроса с целью повышения точности выражения информационной потребности. Каждая поисковая машина

65

имеет свой состав операторов, однако обычно эти операторы объединены в группы, общие для большинства систем. Рассмотрим подробнее эти группы.

2.4.21. Логические операторы

Операторы этой группы позволяют указать поисковой машине, как она должна отбирать документы, если в запросе перечислено несколько ключевых слов. Обычно у систем имеются три оператора: «логическое И», « логическое ИЛИ» и «логическое НЕ». Оператор «логическое И» указывается между ключевыми словами, если необходимо выдать документы, содержащие все искомые слова. «Логическое ИЛИ» используется при необходимости поиска документов, содержащих хотя бы одно из ключевых слов, связанных этим оператором. И, наконец, оператор «логическое НЕ» необходим для исключения из отклика документов, в которых присутствует данное слово. Для построения сложных комбинаций связки ключевых слов могут группироваться, и между группами также могут быть использованы логические операторы. В таблице 2 перечислены логические операторы известных российских поисковых машин.

Таблица 2.2. Логические операторы российских поисковых машин

Оператор

RAMBLER

YANDEX

APORT

 

 

 

 

Логическое И

And

&

AND

 

&

пробел

&

 

пробел

(в пределах п

+

 

 

редложения)

И

 

 

&&

пробел

 

 

(в пределах до-

 

 

 

кумента)

 

 

 

 

 

Логическое

Or

|

OR

ИЛИ

|

 

|

 

 

 

ИЛИ

 

 

 

 

66

Продолжение табл. 2.2.

Логическое

NOT

~

NOT

НЕ

!

(оператор «И

-

 

 

НЕ»

 

 

 

в пределах

 

 

 

предложения)

 

 

 

~~

 

 

 

(оператор «И

 

 

 

НЕ»

 

 

 

в пределах до-

 

 

 

кумента)

 

Группировка

( )

( )

( )

 

 

 

 

2.4.22. Операторы расстояния

Давайте вернемся к рассмотренному в начале примеру с поиском по слову «Москва» и с целью повышения точности отклика произведем поиск по двум ключевым словам: «город» и «Москва», объединенных оператором «логическое И». Как ни странно, но вполне вероятна ситуация, когда окажутся выданными документы, не содержащие сведений о городе Москве. Например, «Звенигород один из древних городов … на реке Москва».

Очевидно, что избавиться от подобного нерелевантного отклика практически невозможно, однако его доля может быть снижена.

Известно из практики, что если два слова относятся к одному понятию, то они должны в тексте встречаться рядом. Простейший способ учесть этот фактор — это осуществить поиск фразы «город Москва». Многие поисковые машины позволяют это сделать. Однако такой подход не обладает должной гибкостью. В частности, продолжая пример, отметим, что за пределами выдачи могут оказаться документы, в которых вместо фразы «город Москва», встречается фраза «город-герой Москва».

67

Чтобы подобные ситуации не были помехой при проведении поиска, большинство поисковых машин в настоящее время имеют в своем арсенале так называемые операторы расстояния, позволяющие задать ограничения на удаленность вхождений ключевых слов друг от друга в тексте документа. Как правило, выделяют три оператора этой группы: уже упомянутый оператор поиска фразы, позволяющий находить точные вхождения указанной последовательности слов, оператор, позволяющий задать расстояние в словах, и оператор, позволяющий задать расстояние в предложениях. В таблице 3 перечислены операторы расстояний рассматриваемых отечественных поисковых машин.

Таблица 2.3. Операторы расстояний отечественных поисковых машин

Операторы

RAMBLER

YANDEX

APORT

 

 

 

 

 

Поиск фразы

 

― ―

 

― ―

 

 

 

 

‗ ‗

 

 

Например,

Например,

 

 

«город

Моск-

«город Москва»

 

 

ва»

 

 

 

 

 

 

 

Расстояние

$near:

/(m,n)

 

слN(...)

в словах

 

 

 

cN(…)

 

Например,

Например,

wN(...)

 

$пеаг: город

город /2

Моск-

[N...]

 

Москва

ва

 

 

 

 

 

 

Например,

 

 

 

 

сл2(город

 

 

 

 

Москва)

Расстояние

 

&&/(m,n)

 

пpN(...)

в предложе-

 

 

 

nN(...)

ниях

 

Например,

sN(...)

 

 

город

&&/2

{N...}

 

 

Москва

 

Например,

 

 

 

 

{2 город

 

 

 

 

Москва}

 

 

 

 

 

68

2.4.23. Прочие операторы

Помимо двух указанных групп существуют также:

операторы учета особенностей естественного языка;

операторы выбора части документа, по которой осуществляется поиск;

операторы выбора подмножества документов.

Состав этих групп сильно зависит от поисковой машины. В табл. 2.4 перечислены адреса, по которым расположены подробные описания информационно-поисковых языков рассмотренных машин и, в частности, описания операторов последних трех групп. Читателю предлагается самостоятельно ознакомиться с этими материалами.

 

Таблица 2.4

Описания информационно-поисковых языков

Поисковая система

Источник

 

 

RAMBLER

http://www.rambler.ru/new/help.shtml

 

 

YANDEX

http://www.yandex.ru/info/syntax.html

 

 

APORT

http://www.aport.ru/help.htm

 

 

Важная проблема, связанная с отличиями в составе и обозначениях операторов языков различных поисковых машин

— это проблема использования сложных запросов при работе с метапоисковыми системами. Суть ее состоит в том, что пользователь метапоисковой системы вынужден вводить запросы, содержащие операторы, одинаково понятные всем поисковым машинам, на которые будет передаваться запрос метапоисковой системой. В силу этого, функциональность метапоисковых систем, с точки зрения выразительных возможностей инфор- мационно-поисковых языков, существенно ограничена по сравнению с поисковыми машинами.

2.4.24. Поиск на ресурсах, отличных от WWW

Помимо поисковых служб на пространстве WWW, существуют системы, позволяющие находить информацию и на

69

других ресурсах. В данном разделе мы ограничимся только ссылками на такие системы.

Для поиска информации в конференциях Usenet во всем мире считается самым лучшим сервисом DejaNews (http://www.dejanews.com). Среди отечественных обычно называют службу RusNews (http://news.corvis.ru), которая также предоставляет сервер новостей, содержащий несколько тысяч групп новостей.

Среди систем поиска людей на первое место ставят традиционно международную службу Four11 (http://www.four11.com). База данных этой службы содержит несколько миллионов адресов. Среди российских служб сле-

дует выделить систему Э-Рос (http://www.dubna.ru/eros). Эти системы позволяют по фамилии, имени и отчеству найти адрес электронной почты. Однако, используя эти службы, следует помнить о том, что реально можно найти адреса, которые опубликованы в открытых источниках, прежде всего в документах конференций. Если человек, чей адрес требуется найти, не участвует в конференциях и не публикует другие материалы с указанием своего адреса, то вероятность успеха в такой ситуации достаточно мала.

В заключение, следует отметить, что не существует оптимальной схемы поиска в Интернет. В зависимости от специфики требуемой информации, для ее поиска следует использовать соответствующие ресурсы и поисковые системы. Естественно, можно пользоваться какой-нибудь одной поисковой системой, однако такой подход не всегда может дать качественные результаты. Ведь качество результатов поиска определяется, многими факторами, в том числе, выбранным пространством поиска, особенностями поисковой системы и тем, как составлен запрос.

2.5. Язык гипертекстовой разметки документов HTML 2.5.1. История создания языка

HTML (Hyper Text Markup Language) - язык разметки гипертекста, позволяющий с помощью управляющих меток

70

(тэгов) определять структуру и внешний вид HTML-документа (web-страницы) при отображении в браузере, а также создавать ссылки на другие файлы.

Гипертекст (Hypertext) - электронный текст, содержащий в своей структуре ссылки на адреса других файлов.

Рассмотрим каждое из этих слов. Разметкой называется вставка в текст дополнительных служебных символов (например, пометок корректора). Каждый служебный символ в HTML представляет собой команду, которая указывает браузеру как следует отображать текст. Разметка может быть как очень простой, так и чрезвычайно сложной. В любом случае размеченный текст всегда присутствует на экране.

Язык - самое главное, что следует запомнить из названия. HTML является компьютерным языком и как всякий язык обладает собственным синтаксисом, терминологией и правилами, которые необходимо соблюдать, чтобы получить правильные результаты.

Языки разметки составляют особое семейство компьютерных языков, поскольку они служат исключительно для классификации различных частей документа в соответствии с их назначением. Другими словами разметка показывает, какая часть документа является заголовком, какая подзаголовком, что следует считать именем автора и т. д. Говорить о "программировании на HTML" не правильно, потому что он не является языком программирования и не предназначен для написания программ. Единственное что умеет HTML - классифицировать части документа и обеспечивать его правильное отображение в браузере. Хотя в процессе развития в языке HTML появилось много новых команд макетирования и форматирования, все эти возможности второстепенны по сравнению с главной функцией HTML - классификацией логических частей документа.

Например, если в тексте встречается заголовок, то код HTML просто указывает, что соответствующий фрагмент является заголовком. Получив такой код, программа просмотра (браузер) сама "решает", что ей делать с заголовком. Возмож-

71

но, она отобразит его более крупным шрифтом, а может быть выровняет по центру экрана.

Надо особо запомнить, что HTML спроектирован для работы на самых разных платформах. Сущность HTML заключается в том, что после разметки документа и выделение его различных частей можно быть уверенным: документ будет красиво и правильно отображаться в любом браузере и на любом компьютере.

Команды HTML называются тегами (tags).

Идею HTML и Web впервые выдвинул ученый Тим Бер- нерс-Ли сотрудник Европейского центра ядерных исследований из Женевы, Швейцария.

HTML входит в семейство языков разметки SGML (Standart Generalized Markup Language, или «стандартный обобщенный язык разметки»). Стандарт SGML был разработан в 1986 году Международной организацией стандартов для создания языка разметки, подходящего для различных целей.

Каждый язык семейства SGML соответствует определенным требованиям.

Главное из них - строго определение и описание всех используемых служебных символов с помощью определения ти-

па документа (DTD - Document Type Definition). DTD для

HTML определяет возможные теги и способы их использования.

2.5.2.Различные версии HTML

Смомента своего появления HTML заметно изменился. Приведенные ниже краткие описания всех предшествующих версий HTML помогут вам понять, как развивались события.

HTML – 1989 год.

Самая первая версия HTML называлась не HTML 1.0, а просто HTML. Она не так уж сильно отличалась от последней версии языка. Базовые теги практически не изменились, и любой документ, написанный на исходной версии HTML, можно использовать и сейчас. Разработчики HTML постарались обес-

72

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]