Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Системно-комплексные исследования динамики языкового пространства3

..pdf
Скачиваний:
0
Добавлен:
15.11.2022
Размер:
1.4 Mб
Скачать

сической неоднозначности (многозначности)». Аналогичной точки зрения придерживаются также К.К. Боярский, Е.А. Каневский [Боярский, Каневский 2008: 83-84], А.С. Гребеньков [Гребеньков 2008: 154], В.И. Перебейнос, Т.А. Грязнухина [Морфологический анализ 1989: 3], П.В. Толпегин [Толпегин 2006: 6–7] и другие.

1. Слово как нечёткое пространство

Разработка модели естественного языка или какой-либо его части – необходимый этап разработки системы автоматического анализа, поскольку автоматический анализ требует формализованного описания объекта анализа. Для моделирования единиц естественного языка мы используем нечёткие множества. Понятие «нечёткое множество» было введено Л.А. Заде в его работе «Fuzzy Sets» в журнале Information and Control [Zadeh 1965: 338–353].

Л.А. Заде расширил канторовское понятие множества (множество Г. Кантор определил как «соединение в некое целое M определённых хорошо различимых предметов m нашего созерцания или нашего мышления (которые будут называться «элементами» множества M)» [Кантор 1985: 173]), допустив, что функция принадлежности элемента множеству может принимать не только значения 0 или1, ноилюбоезначениеизинтервала[0, 1].

Нечёткое множество определяется следующим способом. Пусть задано универсальное множество E, тогда нечётким подмножеством A множества Е называется множество пар {(μi, xi)}, где xi E – элемент множества, μi – степень принадлежности элемента xi к множеству A [Кофман 1982: 22]. Множество всех элементов нечёткого множества без указания степени принадлежности {x1... xn} называется базовым множеством.

Нечёткое множество можно записать разными способами, например:

A = {μ1/x1, …, μn/xn},

131

A = {(μ1, x1), …, (μn, xn)} и т.д.

Для моделирования естественного языка на уровне лексем мы используем нечёткие признаки. Под нечётким признаком

мы понимаем грамматическую или семантическую категорию, выраженную в виде нечёткого множества. Под грамматической категорией понимается, как правило (А.В. Бондарко, А.А. Зализняк, К. Пайк, В.А. Плунгян и др.), множество граммем, причём граммемы являются взаимоисключающими, то есть не могут быть выражены вместе. В отличие от такого понимания мы полагаем, что в слове могут быть одновременно выражены (в некоторых случаях) несколько граммем одной грамматической категории (пример приводитсяниже).

Понятие семантической категории восходит к Э. Гуссерлю, который ввел термин Bedeutungskategorien (категории значения) [Гуссерль 2011: 117], в дальнейшем получившее развитие Львов- ско-Варшавской философской школой (К. Айдукевич, А. Гжегорчик, Т. Котарбинский, Ст. Лесневсий, А. Тарский). В рамках данной теории слова разбиваются на непересекающиеся классы – семантические категории. Замена одного слова в осмысленном контексте (предложении) на другое, принадлежащее той же семантической категории, сохраняет осмысленность (но не точный смысл) предложения. Мы, в отличие от представителей львовско-варшавской философской школы, под семантической категорией понимаем модель, аналогичную грамматической категории, то есть семантическая категория – это нечёткое множество семантических примитивов (семантем). Семантемы мы определяем как «кванты» значения, комбинация которых может породить любое значение, выражаемое конкретным языком.

Рассмотрим моделирование грамматических нечётких признаков на примере морфологической системы русского языка как одну из наиболее формализованных подсистем естественного языка на материале существительного. В качестве нечётких признаков выступают морфологические признаки суще-

132

ствительного: род, число, падеж, одушевлённость. Соответствующие базовые множества:

Aр = {мужской, женский, средний},

Aч = {единственное, множественное},

Aп = {именительный, родительный, дательный, винительный, творительный, предложный},

Aо = {одушевлённое, неодушевлённое}.

Здесь мы для простоты примера придерживаемся «школьной» системы морфологических категорий, хотя существуют и другие взгляды на их количество и состав.

Тогда, например, словоформа стены будет записываться как ({женский/1}, {единственное/1, множественное/1}, {именительный/1, родительный/1}, {неодушевлённое/1}). Те элементы множеств, степень принадлежности которых равна нулю, не записываются. Приведённая выше запись отражает тот факт, что графическая форма стены соответствует двум словоформам в парадигме – родительного падежа, единственного числа и именительного падежа, множественного числа, что является отражением невозможности без контекста установить, какая именно из двух словоформ подразумевается. Однако в такой записи есть неоднозначность, поскольку неясно, сколько именно словоформ здесь представлено – две, три или четыре. В число возможных комбинаций входят следующие:

им. п., ед. ч.; род. п., мн. ч.

им. п., мн. ч.; род. п., ед. ч.

им. п., ед. ч.; род. п., ед. ч.; им. п., мн. ч.

род. п., ед. ч.; им. п., мн. ч.; род. п., мн. ч.

им. п., мн. ч.; род. п., мн. ч.; им. под., ед. ч.

род. п., мн. ч.; им. под., ед. ч.; род. п., ед. ч.

им. п., ед. ч.; род. п., ед. ч.; им. п., мн. ч.; им. п., мн. ч. Для точного описания грамматического пространства

морфологических нечётких признаков следует задать функцию принадлежности для каждой точки пространства. Мощность

133

пространства нечётких морфологических признаков существительного в русском языке определяется как:

3 (рода) × 2(числа) × 6 (падежей) × 2(одушевлённости) = 72.

Для того чтобы записать значение для каждой точки пространства, следует определить новое нечёткое множество, элементами которого являются все комбинации элементов мно-

жеств Aр, Aч, Aп, Aо:

Аморф = {(именительный, единственное, мужской, одушевлённое), (родительный, единственное, мужской, одушевлённое), …, (именительный, единственное, женский, одушевлённое), …, (предложный, множественное, средний, неодушевлённое)} (всего элементов – 72, как описано выше).

В связи с вышеизложенным пространство морфологических нечётких признаков для словоформы стены, можно записать как {(родительный, единственное, женский, неодушевлённое)/1, (именительный, множественное, женский, неодушевлённое)/1}. Остальные 70 позиций остались не заполнены, так как функция принадлежности в них равна нолю.

Таким образом, графическое слово (по определению В.Б. Касевича – слово на письме или в печати, определяемое как отрезок текста от пробела до пробела [Касевич 1977: 57]) мы представляем в виде многомерного пространства, в котором словоформы слова представлены как сгущения функции принадлежности. Тогда актуализация слова в тексте рассматривается как уменьшение функции принадлежности во всех точках пространства, которые не соотносятся с текстом и, возможно, увеличение в тех точках, которые релевантны контексту. Уменьшение не производится в тех точках пространства, где функция принадлежности уже равна нолю, поскольку она не может принимать отрицательные значения.

Описанное пространство является грамматическим, поскольку включает в себя только грамматические признаки слова. Очевидно, что можно построить и другие виды пространств слова, например, семантическое.

134

В области семантики отсутствует хорошо проработанная модель, аналогичная грамматическим категориям. Существуют разные подходы, например, семантический метаязык А. Вежбицкой, семантические множители Ю.Н. Караулова, и другие. Однако нельзя сказать, что существует общепризнанная теория, удовлетворительномоделирующаясемантику естественного языка.

Одним из возможных подходов к выделению семантем можно считать психолингвистический эксперимент, проведённый Р.Г. Пиотровским на материале обозначений десяти оттенков основных холодных цветов – фиолетового, синего, голубого и зелёного. Носителям языка было предложено отнести каждый из оттенков – сине-фиолетовый, индиго, ультрамарин, электрик, васильковый, небесный, бирюзовый, изумрудный, салатный и хаки (жёлто-зелёный) – к одному или более из указанных цветов

[Пиотровский 2008: 29–31].

Результаты опыта показаны в табл. 1, взятой из работы Р.Г. Пиотровского. Степень принадлежности (μ) конкретного оттенка к базовому цвету определяется здесь как результат деления числа испытуемых (m), относящих данный оттенок к базовому цвету, на общее число полученных ответов (N) относительно данногооттенка, тоесть(μ= m/N) [Пиотровский2008: 32].

 

 

 

 

Таблица 1

Размытые семантические множества

 

 

 

 

 

 

 

 

 

Отнесение оттенков к базовым цветам, μ

Оттенок

Фиолето-

Синий

Голубой

Зелёный

 

вый

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

μ (ai,A1)

μ (ai,A2)

μ (ai,A3)

μ (ai,A4)

 

1

2

3

4

5

 

 

 

 

 

 

 

Сине-фиолетовый

0,52

0,48

0

0

 

 

 

 

 

 

 

Индиго

0

0,69

0,26

0,05

 

 

 

 

 

 

 

Ультрамарин

0,01

0,56

0,36

0,07

 

 

 

 

 

 

 

 

 

135

 

 

 

Окончание табл. 1

1

2

3

4

5

 

 

 

 

 

Электрик

0

0,36

0,64

0

 

 

 

 

 

Васильковый

0,05

0,09

0,83

0,03

 

 

 

 

 

Небесный

0,04

0,01

0,95

0

 

 

 

 

 

Бирюзовый

0

0

0,54

0,46

 

 

 

 

 

Изумрудный

0

0

0,03

0,97

 

 

 

 

 

Салатный

0

0

0

1

 

 

 

 

 

Хаки

0

0

0

0,51

 

 

 

 

 

Р.Г. Пиотровский, оценивая результаты проведённого эксперимента, пишет: «Таким образом границы между обозначениями цвета определяются носителями русского языка поразному в зависимости от особенностей хроматического зрения, профессиональных привычек, художественного вкуса и т.д. Для одних верхняя граница множества «зелёный» проходит между элементами «небесный» и «бирюзовый», для других – между «бирюзовый» и «изумрудный», для третьих – между «изумрудный» и «салатный» (15 % испытуемых дали заведомо неправильный ответ на этот вопрос). Аналогичным образом колеблются границы множеств «синий» и «фиолетовый» [Пиотровский 2008: 27]. В наших терминах, «фиолетовый», «синий», «голубой» и «зелёный» – это семантемы категории «цвет» и, например, оттенок «сине-фиолетовый» по результатам эксперимента Р.Г. Пиотровского определяется как {«фиолетовый»/0,52, «синий»/0,48}.

Сведения о распределении функции принадлежности могут поступать из разных источников – словарей, программ, людей. Сведения, полученные от(из) источника, мы называем свидетельством. Свидетельства должны быть оформлены в том же виде, что и слово, как многомерное пространство функции при-

136

надлежности. Таким образом, при наличии нескольких источников мы получаем несколько пространств, которые следует свести в одно. Для этого мы применяем операцию объединения над нечёткими множествами.

В отличие от канторовского множества для нечёткого множества существует несколько вариантов реализации объединения и пересечения. Обобщённое название объединения и пересечения для нечёткого множества – треугольная норма и треугольная конорма (t-норма Т и t-конорма S) [Батыршин 2001: 3; Klement 2000: 3]. Некоторые определения t-нормы:

T1 A B min( A (x), B (x)),

(1)

T2 A B A (x) B (x),

(2)

T3 A B max(0, A (x) B (x) 1).

(3)

Соответствующие им определения t-конормы:

 

S1 A B max( A (x), B (x)),

(4)

S2 A B A (x) B (x) A (x) B (x),

(5)

S3 A B min(1, A (x) B (x)).

(6)

[Klement 2000: 4, 11].

Мы выбрали в качестве объединения и пересечения функ-

ции T2 (2) и S2 (5):

T A B A (x) B (x),

S A B A (x) B (x) A (x) B (x),

так как они совпадают с формулами из теории вероятности. T – вычисления вероятности того, что два независимых события произойдут одновременно, a S – формула вычисления вероятности того, что произойдёт хотя бы одно из двух независимых событий [Теория вероятностей... 2002: 30, 32].

137

2. Морфологический анализ неизвестных слов по корпусу текстов

Вкачестве примера практического применения нечётких признаков приведём алгоритм определения морфологических свойств неизвестных слов. Под неизвестными словами мы понимаем графические слова, отсутствующие в словаре системы автоматического анализа текста на естественном языке. Современные требования к автоматическому определению морфологических признаков слова достаточно высоки. Признаки известных слов должны определяться со 100%-ной точностью, а признаки неизвестных – с точностью 90–95 % [Марчук 2007: 67–68].

Врамках этой работы мы описываем определение только таких морфологических признаков, которые являются согласовательными классами. Согласовательный класс существительного по А.А. Зализняку [Зализняк 2002] – это множество существительных, требующих одинаковых словоформ любого атрибута при согласовательной синтаксической связи. Мы распространяем такое определение согласовательного класса на все части речи, способные вступать в согласовательную связь. При определении согласовательного класса главным инструментом исследователя выступает диагностический контекст – такая конструкция естественного языка с одним свободным местом, при подстановке на которое изучаемого слова она будет синтаксически правильной. Однако при автоматическом анализе мы встречаем принципиальные трудности при использовании диагностических контекстов. Так, например, в отличие от исследователя, работающего с носителем языка (часто сам исследователь выступает в этой роли), у программы, производящей автоматической анализ, нет возможности обратиться к авторитетному источнику за оценкой правильности конструкции, полученной в результате подстановки слова в контекст. (Строго говоря, программа может предусматривать обращение к эксперту за оценкой правильности выражения на естественном языке. Однако

138

обращение к эксперту не может быть основным методом оценки, поскольку тогда скорость анализа оказывается ограниченной скоростью отклика человека. Таким образом, запрос к эксперту для оценки синтаксической правильности полученной конструкции может быть лишь вспомогательным методом, к которому система автоматического анализа обращается только в случае неразрешимой проблемы). Ввиду вышеизложенного основным источником контекстов является корпус, в который входит анализируемое слово.

Два основных источника информации о неизвестном слове – это его графическая форма и контексты, в которых слово встретилось в корпусе. В корпусе, как правило, обнаруживается сразу несколько неизвестных слов, что осложняет задачу – нужно не только определить свойства каждого графического слова, но и то, сколько разных слов вводится в текстах, а также как распределены словоформы в парадигмах. Информацию о графической форме слова можно разделить на две части: первая относится к графической форме конкретного вхождения слова в текст, вторая учитывает разницу между словоформами слова. Поскольку большинство слов в русском языке изменяется регулярно внутри парадигмы, то при наличии в корпусе нескольких словоформ одного неизвестного слова появляется возможность связать их между собой и найти, какое место в парадигме слова занимает встретившаяся словоформа, а в результате – определить количество разных слов и повысить точность определения морфологических признаков.

Для определения морфологических свойств неизвестных слов мы разработали многофакторный алгоритм, использующий всю перечисленную выше информацию. Многофакторный алгоритм объединяет несколько алгоритмов, каждый из которых анализирует один из факторов (каждый из алгоритмов подробно описан ниже). Факторы, соответствующие каждому из алгоритмов: графическая форма, парадигма и контекст.

139

Анализ начинается с выполнения алгоритма анализа графической формы. Если графическое слово есть в словаре, то оно получает морфологические признаки из словаря и на этом анализ заканчивается. Если же графическое слово отсутствует в словаре, то алгоритм анализа графической формы выдаёт следующую информацию: предполагаемую каноническую форму (или несколько форм) и нечёткие морфологические признаки для каждой канонической формы. Сочетание варианта канонической формы со всеми нечёткими морфологическими признаками, относящимися к одной словоформе, мы назвали вероятной словоформой. Приведём пример анализа: анализируемое графическое слово – акупунктуру (ед. вин. от сущ. жен. неод. акупунктура), результат анализа методом аналогий:

акупунктура, сущ. жен. неод. ед. вин., 0,76; акупунктур, сущ. муж. неод. ед. дат., 0,24.

В каждой строке записаны характеристики вероятной словоформы: автоматически порождённая начальная форма, частеречная принадлежность, морфологические признаки и оценка вероятности. Таким образом, для анализируемого графического слова были порождены две вероятные словоформы. Совокупность вероятных словоформ является нечётким множеством.

Анализ парадигмы ведётся следующим образом: все вероятные словоформы группируются по порождённой начальной форме и номинативным признакам, то есть в одну группу попадают только те вероятные словоформы, у которых полностью совпадают и каноническая форма, и номинативные морфологические признаки. Для каждой группы учитывается количество вероятных словоформ: чем их больше, тем выше оценивается вероятность существования такой парадигмы.

Например, в корпусе текстов было найдено три формы:

акупунктуру, акупунктуре, акупунктур. После группировки мы получим следующий список групп:

акупунктура, сущ. жен. неод. – 5 словоформ; акупунктур, сущ. муж. неод. – 3 словоформы.

140

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]