Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
[7 семестр] Расписанные вопросы к экзамену.pdf
Скачиваний:
9
Добавлен:
05.06.2015
Размер:
1.52 Mб
Скачать

50. Назначение, структура и использование информационно-поисковых тезаурусов

Для уменьшения количества терминов в ПО вводят ИПТ (тезаурус - синоним), в котором отражаются устойчивые связи между понятиями данной предметной области.

Тезаурус – семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями: иерархическими (например целое-часть, имеет место нарушение правильной структуры дерева), ассоциативными, эквивалентности. Тезаурус является лексическим инструментом ИПС для осуществления поиска. Информационно-поисковые тезаурусы. (ИПТ) позволяют решить проблему соотнесения:

авторской терминологии (понятий и слов естественного языка, которые автор использует для обозначения этих понятий);

терминологии системы (понятий и терминов, которые используются для выражения этих понятий при вводе документов в ИПС);

терминологии потребителя (понятий и терминов, которые потребитель использует для представления этих понятии при формировании запросов). Тезаурус состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи, представляет собой перечень лексических единиц, упорядоченных по систематическому и алфавитному принципам. Лексические единицы обычно делятся на дескрипторы и аскрипторы.

Дескриптор — лексическая единица, предназначенная для использования в поисковых образах документов и/или запросов. Аскриптор— лексическая единица, которая в поисковых образах документов (запросов) при поиске или обработке информации подлежит замене на дескриптор. ИПТ подразделяют на два типа:

тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;

тезаурусы, все лексические единицы которых являются дескрипторами. Лексические единицы тезауруса поделены на дескрипторы (выделены прописными буквами) и ключевые слова — не дескрипторы (строчными буквами) и нормализованы следующим образом:

имена существительные, обозначающие исчисляемые объекты, представлены в форме именительного падежа множественного числа;

существительные, обозначающие неисчисляемые объекты, представлены в форме именительного падежа единственного числа;

для всех словосочетаний-

дескрипторов, включая словосочетания с именем собственным, используется естественный (прямой) порядок слов. Лексические единицы в тезаурусе организованы в виде словарных статей. Словарная статья дескриптора состоит из собственно дескриптора (заглавного дескриптора) и списка дескрипторов и ключевых слов, связанных с заглавным дескриптором по смыслу. Общеупотребительные аббревиатуры входят в тезаурус в качестве дескрипторов. Каждая из них снабжена

расшифровкой, которая приводится в косых скобках строчными буквами.

В дескрипторной статье лексические единицы располагаются в следующем порядке:

заглавный дескриптор;

ключевые слова, условно синонимичные заглавному дескриптору (с);

вышестоящие дескрипторы(в) (включают в себя заглавный);

нижестоящие дескрипторы(н) (наоборот) ;

дескрипторы, связанные с заглавным дескриптором одним из ассоциативных отношений(а).