Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
314.doc
Скачиваний:
22
Добавлен:
30.04.2022
Размер:
2.18 Mб
Скачать

5. Технология и практика взаимодействия пользователя с миор

Все виды деятельности обучаемых, являющихся пользователями Интернета, можно условно разделить на три группы:

1) поиск информации – работа с браузерами, базами данных, справочными системами и т. п.;

2) общение – электронная почта, чаты, списки рассылки, online форумы, видеоконференции, ICQ и т. д.;

3) публикация в сети – создание web-страниц, сайтов.

А теперь поговорим об этих видах деятельности подробнее.

5.1. Поиск информации

Процедуры поиска и анализа информации можно разделить на две составляющие:

  • поиск опубликованной в сети информации;

  • сбор информации, не представленной в сети, с целью ее публикации в сети.

К поиску информации можно отнести следующие виды учебных заданий:

  • написание и защита рефератов разных видов на основе материалов из сети: реферат обзор, реферат рецензия (реферат в электронном виде размещается на сайте курса, а защита проводится в виде чата или обсуждения в телеконференции);

  • анализ существующих в сети рефератов на данную тему, их оценивание, создание рейтинга студенческих работ;

  • составление коллекции аннотированных ссылок Интернета по теме;

  • рецензия на сайт по изучаемой теме и ее презентация;

  • обзоры профессиональных телеконференций, анализ обсуждения актуальных проблем;

  • «поиски сокровища». Преподаватель находит (или прячет) где-то в сети интересный документ, который учащиеся должны отыскать с помощью поисковых систем, используя ключевые слова, формулируя другими словами заданную проблему;

  • сбор мультимедиа-материалов к заданной теме (текст, иллюстрации, анимации, видео, аудио);

  • иллюстрация найденного текста своими мультимедиа-(материалами (графика, схемы, таблицы и т. д.).

К сбору информации можно отнести следующие виды учебных заданий:

  • консультация экспертов. Студенты могут обратиться за разъяснениями к человеку, считающемуся экспертом в данной области;

  • проведение опросов. Выбирается интересующая студентов тема, например отношение к выборам, и опрашивается возможно большее количество людей в сети или используются обычные методы опросов. Результаты анализируются и предоставляются всем желающим.

Современный специалист должен практически освоить возможности поиска информации в Интернете, для чего и предназначена дисциплина «Мировые информационные образовательные ресурсы», формирующая информационно-сетевую культуру специалиста.

Поиск информации в сети Интернет представляет собой алгоритм, в начале которого определение предмета поиска, а в конце (на выходе) ответ на поставленный вопрос. Основными преимуществами использования сети при поиске необходимой информации являются:

  • размер пространства поиска, многократно превышающий объем любых несетевых ресурсов;

  • оперативность получения и доступность информации;

  • простота дальнейшей технической обработки полученных данных.

Разработчики общедоступных Интернет-ресурсов, рассчитанных на обычного пользователя, стремятся к тому, чтобы правила работы с этими ресурсами были достаточно просты и интуитивно понятны. Однако практическая реализация поиска нужных данных осложнена многими обстоятельствами. Получение необходимых сведений из Интернета, как правило, заключается в поиске среди нескольких тысяч серверов и миллионов страниц. Этот поиск осложняется тем, что ресурсы Интернета представляют собой огромное хранилище разнообразных, в основном, неструктурированных данных. Связано это с тем, что каждый из разработчиков Интернет-ресурсов преследует вполне конкретные цели и использует свой подход, свои знания и собственный словарный запас. Поэтому в значительном большинстве случаев поиск в Интернете – это некоторый предварительный отбор информации. Существенная часть информации, полученной в ходе поиска, носит неявный характер и нуждается в последующей аналитической обработке, т.е. требуют сравнения, анализа, синтеза и уточнения.

Профессиональный поиск предполагает выполнение трех основных требований:

  • полнота охвата обозреваемых ресурсов с использованием фокусировки поиска;

  • достоверность информации, полученной из Интернета;

  • приемлемые временные затраты на проведение поиска.

Многие пользователи отождествляют Интернет и WWW. О существовании в среде Интернета ресурсов других типов известно только продвинутым пользователям. Поэтому на занятиях необходимо уделять больше внимания ресурсам Интернета такого рода. Профессиональный поиск должен предусматривать использование ресурсов всех типов.

Важной особенностью Интернета является большая вероятность недостоверности представленной информации, обусловленная разнообразными причинами. Следствием этого является необходимость постоянной оценки достоверности информации, полученной из Интернета. Эту работу студенты, да и не только они, часто игнорируют, стремясь как можно быстрее выполнить задание. Обычными способами проверки является анализ данных о статусе документа и рейтинге узла, на котором он находится; информация об авторе и его компетентности; использование альтернативных источников. Лучше всего найти подтверждение в бумажных изданиях или найти второй – независимый от первого – источник.

Поиск нужных сведений в Интернете достаточно специфическая и кропотливая работа, требующая знания основных информационных ресурсов и умения хорошо в них ориентироваться, внимательности и навыков аналитической работы. Приступая к поиску, нужно быть готовым к тому, что необходимо будет просмотреть и обработать большой объем документов. Основной проблемой в поиске, как правило, является отсутствие у пользователей навыков эффективной и целенаправленной работы в сети. Они, за редким исключением, вообще не применяют расширенный поиск.

Недостаточно квалифицированные пользователи (к ним вполне можно отнести и студентов, скачивающих рефераты из широко известных источников) могут утвердиться в нескольких ошибочных мнениях:

  • поиск осуществляется по всему пространству Интернета;

  • если на запрос не поступило ни одного документа, то искомой информации в сети нет;

  • возможно повторение успешного поиска.

В соответствии с этим преподавателю нужно предусматривать специальные задания, выполняя которые, студенты сами убеждаются в ошибочности этих мнений и четко осознают, что каждая поисковая машина реализует поиск в своей (локальной) базе данных. Причем эта база, содержащая индексы каждого известного данной машине документа, постоянно обновляется, используя свои оригинальные методы индексации. Из-за необъятного количества информации, размещенной в сети, ни одна из поисковых машин не в состоянии просмотреть все документы и индексирует только их незначительную часть.

В процессе занятий необходимо требовать от студентов обязательного положительного результата поиска. Для этого преподавателю нужно конструировать соответствующие задания. Выполнив их, студент должен убедиться, что если поиск не дает положительного результата, то либо некорректно сформулирован запрос, либо поиск реализуется не там, где находится нужная информация.

Для преодоления третьего заблуждения нужно требовать обязательного занесения адресов заинтересовавших информационных ресурсов в папку "Избранное", что, в свою очередь, требует регулярной и внимательной работы с её содержимым.

Опыт показывает, что, получив задание, студенты с оптимизмом (или из-за лени), особенно не задумываясь, формулируют запрос для известной им поисковой машины. Поэтому задание на поисковые работы должно быть детальным, т.е. содержать:

  • постановку задачи, включающую предмет поиска, цель для которой реализуется поиск, временной, географический интервалы поиска, срок выполнения работы, вид результата;

  • набор поисковых инструментов и область информационного пространства для поиска;

  • требование анализа результатов предварительного поиска (который лишь в редких случаях может быть и окончательным), по которому можно затем уточнить, что, где и как нужно искать;

  • требования к отчету о проделанной работе, который оформляется в соответствии с имеющимся заданием. Отчет, естественно, должен включать источники информации и надежные, актуальные данные, отвечающие целям поиска. Обычно студенты считают, что вполне достаточно просто скомпилировать отчет из найденных документов (их фрагментов).

Важным аспектом процесса поиска является формализация информационной потребности. Обычно эта формализация заключается в составлении списка ключевых понятий предметной области и определения семантических связей между ними, т.е. выявление набора понятий и терминов, характеризующих информационную потребность. Поиск должен начинаться всесторонним лексическим анализом искомой информации. Для этого из любого источника нужно получить прецедент подробного и грамотного описания исследуемого вопроса. Анализ этого описания включает следующие действия:

  1. Удаление из текста-прецедента стоп-слов и определение частоты вхождения каждого термина.

  2. Распределение терминов в порядке убывания частоты их вхождения в текст и выбор диапазона частот (посередине этого упорядоченного списка).

  3. Выбор из диапазона списка 10-20 терминов (ключевых слов для поиска), которые и будут использоваться в поиске.

  4. Составление запроса из ключевых слов в порядке их следования в списке терминов. Чтобы результат не исказился, следует изучить особенности синтаксиса запросов конкретной поисковой системы.

Студенты должны четко понять, чтобы увеличить процент полезной информации на выходе нужно использовать много ключевых слов. Практика так же показывает, что наиболее эффективной формой обучения поиску данных в Интернете является работа над заданиями, в которых нужна не информация сама по себе, а информация, рассматриваемая в контексте некоторой конкретной работы или жгучей потребности в данных определенного характера.

Методы информационного поиска

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы - результат того стоит.

Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

  • Непосредственный поиск с использованием гипертекстовых ссылок;

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.

Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

  • Использование поисковых машин;

Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.

Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

  • Поиск с применением специальных средств;

Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.

Одна из технологий этого метода основана на применении специализированных программ – спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.

Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен.

Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

  • Анализ новых ресурсов.

Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая вас тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.

Технология поиска с использованием поисковых машин

Поскольку проведение информационного поиска преследует практические цели – маркетинговые, производственные, сугубо утилитарные и тому подобные, – практическая ценность информационного ресурса может зависеть и от географического расположения соответствующего источника. Поэтому перед началом информационного поиска необходимо определить географический регион поиска

Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т.е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.

Использование законов Зипфа

Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется ранг частоты. Вероятность обнаружения слова в тексте = частота вхождения слова / число слов в тексте. Зипф нашел, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:

С = (частота вхождения слов X ранг частоты) / число слов

Это значит, что график зависимости ранга от частоты - равносторонняя гипербола.

Зипф также установил, что зависимость количества слов с данной частотой от частоты - также гипербола и постоянная для всех текстов в пределах одного языка.

Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой как правило являются предлогами, частицами, местоимениями, в английском языке - артиклями (так называемые "стоп-слова"), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Основываясь на этой закономерности, можно предложить следующую методику.

Составление списка ключевых слов

Правильный набор ключевых слов имеет определяющее значение для оптимального поиска информации. К примеру, задав поисковой машине в качестве ключевого слова "МАРП", мы получим список документов, в которых встречается эта аббревиатура (Московское Агентство по Развитию Предпринимательства). Но если нас интересуют документы по более широкой теме, например: развитие предпринимательства, и мы сформируем простой запрос из этих двух слов, то поисковая машина выдаст нам список из сотен тысяч наименований, ориентироваться в котором будет весьма непросто.

Поэтому для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т.е. "образец", и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ. Анализ текста производится таким образом:

  • Удаление из текста стоп-слов.

  • Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты.

  • Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста.

  • Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.

Отбор поисковых машин

Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник может находиться далеко от начала.

Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), - некоторые поисковые машины (AltaVista) позволяют это использовать. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно.

Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.

Всего известно около 180 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

Составление и выполнение запросов к поисковым машинам

Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой). На основе тезауруса формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска. Данные с ресурсов, признанных релевантными, собираются для последующего анализа.

Формирование запросов

Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена.

Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится пробная реализация запросов - как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.

Языки запроса различных машин поиска в основном являются сочетанием следующих функций:

  • Операторы булевой алгебры AND, OR, NOT:

AND (И) - осуществляется поиск документов, содержащих все термины, соединенные данным оператором;

OR (ИЛИ) - искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором;

NOT (НЕ) - поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором.

  • Операторы расстояния - ограничивают порядок следования и расстояния между словами, например:

NEAR - второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов;

FOLLOWED BY - термины следуют в заданном порядке;

ADJ - термины, соединенные оператором, являются смежными.

  • Возможность усечения терминов – использование символа " * " вместо окончания термина позволяет включить в искомый список все слова, производные от его начальной части (шаблона).

  • Учет морфологии языка – машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск.

  • Возможность поиска по словосочетанию, фразе.

  • Ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т.д.).

  • Ограничения по дате опубликования документа.

  • Ограничения на количество совпадений терминов.

  • Возможность поиска графических изображений.

  • Чувствительность к строчным и прописным буквам.

Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.

Проблемы, возникающие в процессе поиска

Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:

  • увеличение охвата с целью извлечения максимального количества значимой информации;

  • уменьшение охвата с целью минимизации шумовой информации.

Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.

Другая проблема – многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать еще и синонимы.

Часто в области российского Интернета возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удается не всегда.

Еще одна особенность русскоязычной части сети - ее нестабильность. Постоянно изменяются адреса и структура сайтов, они появляются и исчезают, и поисковые машины не успевают обновлять свои базы индексированных данных, поэтому значительная часть списка документов, выданного вам машиной, может оказаться недоступной. Появление в сентябре 1997 г. системы Яndex-Web, обновляющей свои данные раз в неделю, обозначило качественный скачок вперед в решении этой проблемы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]