Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Сетевой информационный поиск

..pdf
Скачиваний:
1
Добавлен:
12.11.2023
Размер:
15.52 Mб
Скачать

Поисковые системы и выполнение бытового поиска

111

получите много сведений, в том числе и те, которые вы получите с помо­ щью AskJeeves.

Имеются также поисковые машины подобного типа, которые рабо­ тают на нескольких языках, в том числе и на русском. В качестве примера вы можете обратиться к уже упоминавшейся машине Ithaka (http://www.ithaka.net/index.htm). Если вы обратитесь по этому адресу из России, то будете приятно удивлены, попав сразу же на русскоязыч­ ную страницу. Создается впечатление, что это русская поисковая ма­ шина, но на самом деле это не так. Стоит только обратиться к кнопке помощи, чтобы попытаться узнать что-либо более детальное о работе машины или просто нажать кнопку FAQ (что это означает Frequently Asked Questions, часто задаваемые вопросы), и вы попадете на английс­ кий текст. Отметим, что при желании смена языков в этой машине осу­ ществляется указанием языка в малоприметной строчке в самой ниж­ ней части страницы.

Ситуация, когда система (поисковая машина, электронная почта и т. д.) «узнает» вас, достаточно типична. Удивляться тут нечему, так как каждый компьютер имеет свой особый номер. Такой же номер имеет и так называемый прокси-сервер, через который осуществляется связь. По этим номерам и отличают и страну, и даже владельца компьютера. Если вы будете обращаться с другого компьютера, результат может из­ мениться. Очень приятно, когда, например, наша русская поисковая система, относящаяся к каталогам, Пингвин (http://www.pingwin.ru) будет вас приветствовать и сообщать о том, что вы, например, впервые посетили эту систему. Кстати, буква w, а не v в домене pingwin — не ошибка. Просто доменpingvin занят некоей российской фирмой, в чем легко убедиться простой проверкой.

Заметим также, что ряд поисковых машин для работы с ними требуют регистрации. Так поступает хорошо известная поисковая система Excite (http://www.excite.com). Начинающие часто боятся регистрироваться, ожидая требований оплаты за регистрацию или других неожиданностей, но опасаться этого не стоит. Если с вас за что-либо требуется оплата, то вы никакого результата без ввода номера кредитной карточки или другой аналогичной операции просто не получите, так что можете регистриро­ ваться смело. Регистрация осуществляется обычным способом, то есть заполнением окошечек, перед которыми стоят вопросы. Если вычто-либо сделаете не так, то вас не зарегистрируют, а подскажут, как надо исправить ошибку (те, кто регистрировал адрес своей электронной почты в Интер­ нете, хорошо знают эту процедуру). Особенностью регистрации в Excite является то, что для жителей США и для жителей других стран она про­ водится несколько по-разному. Вначале вы попадете на регистрацию для

112

Глава 4

жителей США. Будьте внимательны: справа есть небольшая надпись, по которой надо щелкнуть, чтобы перейти на другой тип регистрации. Оба типа регистрации похожи, и если невнимательно следить за текстами, то разница не бросается в глаза.

Как мы уже отмечали, машин, позволяющих задавать вопросы на естественном языке, не очень много. Сведения о них и их адреса мож­ но получить в материалах университета в Albany. Среди машин, кото­ рые позволяют вести поиск на основе запросов на естественном языке, есть и такие поисковые системы, которые осуществляют метапоиск.

Напомним, что в этом случае поиск осуществляется по ресурсам ог­ ромной группы других машин. Ответ при этом получается не так быст­ ро, как в других случаях, но за вполне приемлемые сроки. При этом отыс­ киваются и русскоязычные ресурсы. Так машина Ixquick Metasearch (http://ixquick.com) при вопросе о Суворове выдала нам 49 ответов. Сре­ ди них были и русскоязычные: строки и абзацы из «Войны и мира» с упоминанием Суворова и указанием номеров томов. Соответствующие абзацы печатались на русском языке. Ответы иностранных машин на русском языке — не редкость, однако мы оставим в стороне техниче­ скую сторону. Иногда, отвечая, машина не может «разобраться» в ко­ дировках кириллического алфавита и вместо осмысленного русского текста выдает наборы знаков типа: ??????? или же □ □ □ □ □ □ а Бывает, что в таких случаях появляется английская надпись о том, что адек­ ватное изображение текста невозможно.

Работа машин, воспринимающих вопросы на естественном языке, напоминает работу электронных энциклопедий — недаром иногда Ency­ clopedia Britannica (http://www.britannica.com) рассматривается просто в качестве обычной поисковой машины. На наш взгляд, это не вполне вер­ но, так как работа с энциклопедиями имеет свои особенности. Пока же отметим то, что работа с естественными вопросами хороша, но возмож­ на далеко не всегда. Это связано и с тем, что вопросы на естественном языке просто формулируются далеко не во всех случаях, и с тем, что не на все возможные вопросы есть заранее подготовленные ответы.

 

Проблемы, возникающие при

ничем не ограниченном

поиске по ключевым словам

 

Запросы на естественном языке удобны, но, к сожалению, ре­ шить с их помощью все поисковые проблемы невозможно. Основным видом поиска ресурсов, которые не являются профессионально ориен­ тированными, является поиск с помощью «обычных» машин. Как уже отмечалось, есть два основных варианта поиска: по каталогу поиско­ вой машины и с помощью ключевых слов (keywords). О работе с катало­

Поисковые системы и выполнение бытового поиска

113

гом мы уже говорили, и если не вдаваться в тонкости поиска, то сказан­ ного ранее вполне достаточно для того, чтобы спокойно работать. По­ нять принцип поиска по ключевым словам не сложно (аналогичным об­ разом реализуется поиск и по фразам).

Выберем для примера какую-либо поисковую систему — пусть это будет российский Рамблер. Войдем на главную страницу и в окошко (темплет, шаблон) запроса введем какое-либо слово. Это может быть, например, быть слово баран. Баран — слово очень распространенное, и сайтов, где оно встречается, будет много. Мы нашли их 8855*.

Рассмотрим теперь ответы на ключевое слово баран. При этом уч­ тем, что в русском языке окончания слов меняются. Большинство рос­ сийских поисковых машин, если не делать специальных оговорок при запросе, фактически игнорирует окончания слов (в английском языке этого не требуется). Поэтому баран, барана, бараны и т. д. обязательно входят в ответ на запрос**.

Уже в первом десятке найденных ресурсов появляются данные о материалах, где слово баран используется в смысле, весьма далеком от того, что вкладывался в первоначальный запрос. Так, при нашей про­ верке в ресурсе под № 5 шла речь о полковнике Баранском. Чем даль­ ше вы уходите от начала списка ответов, тем больше далеких по своему смыслу (по отношению к смыслу запроса) ресурсов будет обнаружено. Примерно то же самое будет и при запросе по фамилиям. На поиск по ключевому слову Суворов нами было получено 5804 ответа. В них шла речь и о полководце, и о писателе, и о депутате Государственной думы. Это все отвечало смыслу, вкладывавшемуся в запрос. Вместе с тем встречались ресурсы с площадью Суворова, улицей и орденом Суво­ рова. При желании можно даже отыскать суворики — деньги неприз­ нанной Приднестровской республики. Аналогично, на ключевое слово заяц могут найтись и белорусские зайчики, и многое другое.

Достаточно очевидно, что следует каким-либо образом уточнять и ограничивать число ресурсов в ответе, причем делать это так, чтобы ответы лучше соответствовали содержанию вопроса. Скажем, можно

* Почти наверняка часть внимательных читателей пособия будет стремиться про­ верить или повторить многие приводимые примеры. Это очень хорошо. Однако про­ верка примеров типа тех, что приводится нами сейчас, не может дать точного совпа­ дения результатов. Интернет «живеть. Каждый день в него добавляются и из него изымаются ресурсы. Поэтому через некоторое время число ресурсов, характеризуе­ мых тем или иным ключевым словом, изменится. Это значит, что имеет смысл прове­ рять только приблизительный порядок величин и тенденции. Точного совпадения ре­ зультатов при повторении поиска через некоторый промежуток времени не будет.

*• Поисковые машины учитывают и другие особенности русского языка. Так, при запросе по фразе ребенок шел будет идти поиск и по фразе дети идут.

114 Глава 4

искать сочетание двух слов длинношерстный баран. У нас схожий тес­ товый запрос уже есть. Это кремниевые изделия (Silicon Devices). Сфор­ мулируем соответствующий запрос тому же Рамблеру. В результате получаем 146 ссылок на ресурсы, что не очень много. Однако уж е в середине первого десятка отобранных машиной ресурсов появляют­ ся просто тексты, в которых вне всяких сочетаний имеются оба слова по отдельности: кремний и изделия. К существу запроса такие ресур­ сы отношения уже не имеют. Сказанное означает, что в таком про­ стом подходе к формулировке запроса скрыт некий дефект, что на­ глядно проявляется при поиске сразу по имени, отчеству и фамилии. Будем искать александр Васильевич Суворов (мы не случайно пишем име­ на собственные со строчной буквы, так как компьютер обычно не разли­ чает строчных и прописных букв, однако использование строчных букв в примерах запросов этого раздела имеет определенный смысл, который будет ясен из дальнейшего изложения). В ответе на только что упомя­ нутый запрос будет приведено уже не несколько тысяч, а всего 916 URLадресов сайтов, которые при работе АПР были сочтены отвечающими сделанному запросу. Полководец Суворов — личность в России леген­ дарная, и не менее половины приводимых в ответе ресурсов прямо или косвенно связаны или непосредственно с ним, или же со слепоглухоне­ мым профессором, которого тоже звали Александр Васильевич Суво­ ров. В ответе, однако, мы обнаружим ресурсы с именем депутата Госду­ мы Александра Сергеевича Суворова, а также многое другое, достаточно далекое от точного соответствия запросу.

Давайте для наглядности сменим личность на более обыденную — можете выбрать сами и проэкспериментировать, а можете, чтобы не ду­ мать, взять фамилию одного из авторов книги. Пусть это будет В л а д и ­ м и р Н и к о л а е в и ч р о м а н е н к о (не сочтите этот пример за нескромность,

просто он достаточно нагляден). Итак, при подобном запросе с исполь­ зованием в нем только строчных букв мы получили ссылки на 93 сайта. Сайты, расположенные в начале списка, действительно связаны с запрашиваемой личностью. Далее, однако, начинаются сочетания пра­ вильной фамилии с другими именами и отчествами, или правильных фа­ милии и имени с неверным отчеством. То же самое будет и при запросе

Н и к и т и н а г а л и н а в а с и л ь е в н а . Из 84 сайтов, приводимых в ответе, только

несколько, входящих в первую пятерку списка, относятся к запрашива­ емой личности. Далее начинаются те же самые проблемы, что и выше, когда имена относятся к одним людям, а фамилии к другим. Если мы будем просто искать две фамилии р о м а н е н к о Н и к и т и н а , то обнаружим в

ответе всего 24 сайта. Процент не имеющих к делу URL-адресов в этом случае очень мал. Таким образом, мы видим, что надо уметь правильно

Поисковые системы и выполнение бытового поиска

115

формулировать поисковые запросы, чтобы уменьшить число бесполез­ ных ответов. При этом нельзя ограничиваться только простым набором ключевых слов — необходимы более умелые походы. О правильном по­ строении запросов и будет идти речь в следующем разделе.

 

Правильное составление поискового запроса на основе

ключевых слов

Как уже не раз отмечалось выше, поисковый запрос может со­ стоять из одного или из нескольких слов, которые должны по воз­ можности наилучшим образом отражать содержание тех сведений, которые желательно иметь в отыскиваемых ресурсах. Возможно ис­ пользование фраз и даже знаков препинания. Если не применять спе­ циальных мер, то некоторые заведомо не несущие информационной нагрузки слова при поиске игнорируются (иногда такие слова назы­ вают стоп слова). К ним прежде всего относятся предлоги и союзы. Чтобы не возвращаться к этой теме еще раз, отметим, что при авто­ матизированной библиографической обработке научно-техничес­ кой информации, в частности заголовков журнальных статей, игно­ рируется значительно больше слов — например, такие малозначимые слова, как рассмотрение, анализ, обсуждение, изучение и т. п. В общем, достаточно легко предсказать, какие слова будут проигнорированы, и желательно, по мере возможности, избегать их в поисковом запросе.

Термин ключевое слово пришел в Интернет из библиотечного дела. При поиске в каталогах библиотек, а также в ряде описаний к поиско­ вым машинам, слова запроса также называются ключевыми. Иногда (например, в российской поисковой системе Апорт) для них исполь­ зуется математический термин операнд. Авторы ресурсов обычно опи­ сывают их содержание как невидимые пользователю слова-дескрипто­ ры. Их тоже часто называют ключевыми словами. Таким образом, в этом и в следующем разделе нам придется мириться с некоторой, правда, не очень существенной неоднозначностью терминологии.

Мы уже упоминали о том, что русскоязычные поисковые машины не учитывают грамматическое изменение слов, и потому словоформы «ма­ шина», «машины», «машиной» будут учитываться одновременно. В ряде случаев, когда все же желательно учесть строгую форму слова, перед ним в запросе ставится знак «!», например, (молодой. При таком запросе «молодого» или <молодая» будут при поиске проигнорированы. Отме­ тим, что некоторые подобного рода знаки используются не во всех поис­ ковых машинах. Мы можем только ознакомить вас с общими принци­ пами использования знаков-операторов, которых, как и описываемых далее основных приемов, вполне достаточно для практической работы.

116 Глава 4

Возможности использования более тонких приемов следует проверять для каждой конкретной поисковой машины, для чего желательно обра­ щаться к кнопкам Помощь, Help и им подобным.

В поисковых запросах на любом языке игнорируется разница меж­ ду строчными и прописными буквами. Запросы терем, Терем, тЕРЕМ или же tumble, Tumble, TUMble будут восприниматься одинаково и по­ этому при поиске по фамилиям безразлично, как писать: ивапов или Иванов. Тем не менее здесь имеются некие тонкости. Во-первых, в не­ которых поисковых системах если слова запроса начаты с прописной буквы, то только они и будут отыскиваться в тексте. Поэтому на зап­ рос Лебедь будут отыскиваться упоминания только об известном гене­ рале. При запросе же лебедь будут отыскиваться адреса ресурсов и с генералом, и с птицей. В личных именах обычно несколько слов пи­ шутся с прописной буквы. Скажем Петр Васильевич Новожилов или John Milton Simons. В соответствии с этим поисковые программы стро­ ятся обычно так, что несколько (обычно 2 - 4 ) слов, начинающихся под­ ряд с прописных букв, воспринимаются поисковой программой как имя собственное, и машина отыскивает только те ресурсы, где эти сло­ ва расположены рядом, что, конечно, может повлиять на поиск. В пре­ дыдущем разделе мы писали, что поиск по запросу владимир Николае­ вичроманенко дал в ответе 93 ссылки на адреса сайтов. Буквально в тот ж е день и час на той же машине был сделан запрос Владимир Николае­ вич Романенко, в ответе на который были адреса всего 8 сайтов. Все эти сайты имели хорошее соответствие с личностью, значившейся в запро­ се. Объясним этот кажущийся парадокс.

Пусть мы ищем сайты по паре весьма далеких по смыслу ключевых слов, например, выстрел и борщ. Достаточно сложно встретить фразы или даже абзацы, где эти два слова стояли бы рядом, однако если во вре­ мя поиска увеличивать расстояние между словами, то в очень длинных текстах эти два слова могут встретиться одновременно (так, можно по­ лагать, что существует большая вероятность обнаружить два эти слова в тексте «Войны и мира»), но представить себе поиск по текстам объемом в тысячи слов очень сложно. На самом деле такой поиск никогда и не производится. В любой поисковой программе существует ограничение на число последовательно идущих слов, которые проверяются данной программой. Это хорошо известно, хотя реальные расстояния, на кото­ рых производится поиск, мало кого из пользователей волнуют. Поиск на расстояниях более чем в 40 слов обычно никогда не производится. Если несколько слов, начатых прописными буквами, воспринимаются в качестве имени собственного, сразу же по умолчанию происходит со­ кращение поискового расстояния между словами, которые упомянуты в

Поисковые системы и выполнение бытового поиска

117

запросе. Как правило, поисковые программы пишутся таким образом, чтобы в этом случае в группе слов, взятых из запроса, оказалось бы не больше одного «лишнего» слова. Это сокращение расстояния между словами во время поиска по именам собственным и приводит к выше­ описанным результатам. То расстояние в словах, по которому произ­ водится поиск, существенно влияет и на число появлений в анализи­ руемой части текста одного и того же ключевого слова. Число таких повторений заметно влияет на степень релевантности результата.

Само определение числа повторений производится при помощи так называемых СЛГ-программ (от ComputerAided Translation Компью­ терно-поддерживаемый перевод). Русский перевод термина достаточ­ но условен. САГ-программы используются для анализа и сортировки публикаций в научных журналах, и поэтому многие программы по по­ иску научных публикаций в журнальных базах данных используют со­ четание CAT в своих названиях.

Как следует из сказанного, управление расстоянием между слова­ ми в запросе оказывается иногда очень полезным. В разных поиско­ вых системах для этой цели рекомендуется использовать разные ко­ манды. Так, в Апорт количество слов, по которым производится поиск (в приводимом примере это 4 слова), рекомендуется записывать как: сл4(....)с4(...) W 4(...) [4,...]

Вместо многоточий в скобках ставятся соответствующие слова: на­ пример, «сл6(сани, телега, повозка)» означает, что при поиске ищутся комбинации, которые включают в себя слова сани, телега, повозка в пределах расстояния в б слов. В поисковой машине Яндекс поиск при расстоянии между словами, а не в их пределах, для 6 слов между тер­ минами «сани» и «телега» запишется, как «сани/6 телега». «/1» при этом означает просто соседние слова. Знаки кавычек « » или “ ’ ис­ пользуются и для поиска конкретных словосочетаний или выражений, очень близких к ним, и удобны при поиске по фразам. Эти знаки также влияют на расстояния между отыскиваемыми словами.

Во всех указанных примерах порядок слов в запросе с ограничением расстояния поиска был безразличен. Иными словами, с равным успе­ хом искались и «сани......телега», и «телега...сани». В ряде случаев, например в Яндексе, можно при помощи знаков + и — управлять и по­ рядком слов. Так, «большая/+1 ложка’!» отыскивает только словосоче­ тания «большаяложка», а не «ложка большая». +1 — это как раз рассто­ яние между двумя соседними словами, когда второе слово стоит справа от первого. Если же мы хотим, чтобы второе слово стояло слева, то надо написать, например,«месяц/-1молодой>», чтобы получить молодой ме­ сяц. Выражения (фразы) ограничиваются иногда кавычками, а иногда

11 8 Глава 4

круглыми скобками. В некоторых библиотечных системах W без цифр означает отсутствие промежутка между словами.

В ряде случаев бывает необходимо, чтобы при поиске учитывались различные концовки слов. Для этого после «значащей» части слова ста­ вится знак «*». Так, запрос «кров*» будет искать и кровь, и кровать, и кровавый. Употребление знака «*» хорошо известно всем, кто отыски­ вал в компьютере группы файлов. При поиске ресурсов на англоязыч­ ных машинах с этой целью употребляются и другие знаки, в частности знак «?». Если знак «*» означает любое количество пропущенных про­ извольных букв, то знак «?» означат только одну произвольную букву. Кроме того, этот знак может использоваться не только в конце, но и в середине слова. Сам это прием по-английски называется Ттпсайоп (усе­ чение), а соответствующие знаки именуются Truncation Symbols «знаки усечения» или же « Wild Cards». Последнее словосочетание хорошо изве­ стно всем любителям спорта. Прием усечения широко используется в англоязычных машинах, однако его применение не однозначно. В не­ которых машинах знаки «*» и «?» используются в противоположных смыслах. Иногда к этим знакам добавляют еще и знак «#», означающий либо отсутствие буквы, либо только одну произвольную букву, но обя­ зательно в конце слова. Знак «!» может означать одну пропущенную букву или в середине, или в конце слова. Скажем,«womln» означает од­ новременно и «woman», и «women». В некоторых системах с усечением знак «*» используется и в начале слова. Иногда знак «+» в конце слова означает, что одновременно должны рассматриваться слова и в един­ ственном, и во множественном числе, то есть речь идет только об окон­ чании английского множественного числа « -s» . В ряде поисковых сис­ тем «*» означает одну пропущенную букву, а «**» — несколько букв. Знак «$» также используется для обозначения усечения в конце слов. При этом обозначение «$п» указывает, сколько букв опущено. Такое разнообразие знаков усечения запомнить достаточно сложно и, кроме того, оно необходимо только тем, кто активно работает с англоязычны­ ми поисковыми машинами. В общих описаниях поисковых машин, ко­ торые можно отыскать в Интернете, обычно указывается, какие маши­ ны допускают произвольное усечение слов в запросах, а какие это делают автоматически. Тем, кто этим заинтересуется, мы рекомендуем задать соответствующий вопрос машине AskJeeves и получить в ответ несколько очень полезных в работе таблиц символов усечений и сведе­ ний о тех поисковых системах, где используются методы усечения с указанием применяемых именно в них знаков.

Сказанное выше представляет лишь самые общие требованиями к языку запроса. То, что они несколько разнятся от одной поисковой ма­

Поисковые системы и выполнение бытового поиска

119

шины к другой, больших проблем при частом поиске не представляет, и все нужное при этом запоминается очень быстро. Если же пользователь занимается поиском не очень часто, то знания многих описанных выше тонкостей ему вообще не требуется.

Перейдем теперь к более часто употребляемым приемам построе­ ния запроса и начнем с конкретного примера. Представим себе, что мы интересуемся транспортными проблемами. Пусть нам нужны URL-ад­ реса сайтов, в которых встречаются два ключевых слова трамвай и троллейбус. Казалось бы все достаточно ясно. Но на самом деле это не вполне так, поскольку нас могут интересовать разные типы ресурсов, в которых содержатся эти ключевые слова. Например, нам могут быть интересны ресурсы, где оба эти термина встречаются только поодиноч­ ке, а могут, наоборот, интересовать те ресурсы, в которых оба эти тер­ мина употребляются одновременно. Возможен и интерес к ресурсам, где содержится только одно ключевое слово, но заведомо не содержит­ ся другого. По этой причине реальные поисковые запросы, содержащие оба этих ключевых слова, должны каждый раз строиться по-разному, а сами ключевые слова должны быть связаны между собой определен­ ными логическими соотношениями.

Эти соотношения были введены в обиход в 1849 г. французским ма­ тематиком Георгом Булем {Georg Bool). Соотношения логических отно­ шений описываются в рамках специальной науки, которую называют

булевой алгеброй, а иногда и булевой логикой {Boolean Logic). При пост­ роении поисковых запросов общая, достаточно сложная теория булевой алгебры не затрагивается, а используются лишь несколько основных обозначений и простейших соотношений. Тем не менее слова о приме­ нении соотношений булевой алгебры повсеместно используются при описании техники запросов для поисковых машин. Сами соотношения или уравнения для логических операций в алгебре Буля используют спе­ циальные символы и слова. Попытка прямого перенесения этих обозна­ чений (операторов) в язык поисковых запросов связана с принципиаль­ ной трудностью, так как основные знаки логических операций булевой алгебры на клавиатуре компьютера отсутствуют (исключением являет­ ся лишь знак «&»). Поэтому классические символы булевой логики в запросы никто не вводит, а просто пользуется традиционными словес­ ными обозначениями и упрощенными символами. Знак же разре­ шается использовать наряду с упрощенными символами.

Итак, в технике построения запросов на основе булевой алгебры ис­ пользуются слова и упрощенные обозначения логических операций. По-английски эти упрощенные знаки называют Implied. В противопо­ ложность этому для словесных операторов часто употребляют термин

120

Глава 4

FullBoolean. Упрощенными выражениями операторов являются обыч­ ные знаки «+» и « -» , а также ряд других. В математике слова и другие обозначения, входящие в уравнения булевой алгебры, называют уже упоминавшимся нами термином «операнд» (в системе Апорт этот тер­ мин используется вместо термина ключевое слово). Не удивляйтесь этому, и не пугайтесь — никто не может гарантировать соблюдения единства языка и терминологии в новой области знаний.

Вернемся к примеру с нашими транспортными средствами. Ключе­ вые слова трамвай и троллейбус могут встретиться во множестве ре­ сурсов. Схематически эти множества можно изобразить в виде двух кругов. Площади этих кругов должны быть пропорциональны соответ­ ствующим количествам ресурсов, мы же для простоты будем полагать на наших схематических рисунках эти площади равными (на существе поясняющих примеров это никак не скажется)*.

Взглянем на рис. 16. На всех диаграммах этого рисунка есть два кру­ га: множество ресурсов, в которых используется ключевое слово трам­ вай (слева), и множество ресурсов, в которых используется ключевое слово троллейбус (справа). При этом есть ресурсы, в которых оба клю­ чевых слова встречаются одновременно. Это отражается пересечени­ ем кругов. Общая часть обеих кругов (на верхней диаграмме рис. 16 она выделена) отражает множество ресурсов, в которых одновременно встречаются оба ключевые слова: трамвай и троллейбус. Если мы од­ новременно интересуемся еще и ключевым словом метро, то встретим­ ся с ситуацией, схема которой изображена на рис. 17.

Проведем простейшее исследование. Войдем в поисковую систему Рамблер и зададим в поисковом запросе ключевое слово трамвай. На момент нашей проверки это слово встретилось в 10 504 ресурсах. Сло­ во троллейбус встретилось в 8558 ресурсах. Теперь возникает вопрос о том, в скольких ресурсах одновременно встречаются оба эти ключевые слова. Иными словами, нам надо искать и трамвай, и троллейбус. Это означает, что мы интересуемся общей частью кругов на рис. 16. Как задать этот вопрос? Для этой цели в булевой алгебре используется ан­ глийский союз and. Также делается и в русскоязычных системах, одна­ ко в некоторых из них, например в Апорт, используют и русское на­ писание этого союза, то есть и. Использовать ли русскоязычные слова при построении запросов — дело вкуса. Тем не менее поскольку это допустимо не всегда, а английское написание используется практичес­ ки повсеместно, к русскоязычному написанию, по нашему мнению, лучше не привыкать.

* Изображение соотношений множеств при помощи нарисованных кругов было предложено шотландским математиком Веном (Venn). Поэтому описываемые рисунки называют диаграммы Вена (Venn Diagramms).