Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

6.1СЛОГ КАК ЭЛЕМЕНТ ПОТОКА

Вероятность того, что именно слог должен соответ­ ствовать одному полному циклу работы фонетического интерпре­ татора, представляется весьма высокой из чисто априорных соображений. Два соседних слога в потоке могут иметь совпадаю­ щие акустические характеристики, и для фонетической интерпре­ тации этих слогов необходимо повторно применить одни и те же правила. Слог является полным элементом с точки зрения описа­ ния ритмического рисунка слова, каждому слогу могут быть приписаны такие характеристики, как наличие / отсутствие уда­ рения и длительность слога (см. главу 5).

Повторяемости элементов внутри слога практически нет. Так, если описание слога в табл. 6.1 включает подряд два одинаковых согласных, то это отнюдь не означает, что для получения этого описания нужно два раза применить правила, соответствующие обнаружению одного такого согласного. Напротив того, как результаты сравнительного исследования акустической картины сочетаний типа [ata]—[atta], [asa]—[assa] и т. д., так и резуль­ таты исследования восприятия таких сочетаний при их синтезе говорят о том, что двойной и единичный согласный должны рас­ сматриваться как два представителя одной и той же группы. Для различения обоих представителей группы [t] и [tt] от дру­ гих возможных групп [s] и [ss], [р] и [рр] и т. д. нужно приме­

нять

одни

и те же правила, для различения внутри группы,

т. е.

[t] от

[tt], нужно применить некоторое специальное правило,

например оценить длительность паузы [287[. Для идентификации первого и второго [t] в сочетании [atsta] необходимо использовать разные правила.

Данные о том, что решение о согласных фонемах основывается на акустической информации, распределенной на слоговом от­ резке, приводились в главе 3.

Эксперименты, направленные на проверку гипотезы о том, что слог соответствует одному полному циклу работы фонетического интерпретатора, исходили из следующих допущений. Если модель обрабатывает слоги последовательно один за другим, то должны существовать ограничения по частоте следования слогов. При ча­ стоте следования большей, чем предельная, распознавание сло­ гов должно ухудшиться или стать невозможным. Эти ограничения могут быть обусловлены как тем, что сам процесс интерпретации требует времени [37в], так и тем, что длительность может быть одним из формальных признаков элемента потока, используемых при его выделении (элементом не может быть отрезок короче некоторой величины).

Предположим, что процесс интерпретации действительно тре­ бует некоторого времени tc от начала поступления изображения слога на вход интерпретатора до выработки на выходе соответ­ ствующего названия. Тогда при поступлении второго слога с ин­

тервалом Т < tc от начала первого интерпретатор должен будет или прекратить обработку первого слога и перейти к следующему, или пропустить второй слог. В обоих случаях восприятие после­ довательности будет нарушено, т. е. описание стимула в табл. 6.1 будет искажено по сравнению со случаем, когда T>tc.

Существенно, что определяющим должен быть именно интер­ вал между слогами, ограничения по слоговому интервалу должны проявляться при разных распределениях длительностей гласного и согласного внутри слога.

6.1.1. РАСПОЗНАВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ГЛАСНЫХ. ОБРАТНАЯ МАСКИРОВКА ГЛАСНЫХ

В первой работе, посвященной исследованию вос­ приятия последовательностей гласных [157], применялись трех­ членные последовательности, образованные путем перестановок гласных [и], [а], [е]. Гласные стимулы представляли собой от­ резки, вырезанные из естественных, протяжно произнесенных гласных. Стимулы, составляющие последовательность, имели оди­ наковую длительность (от 100 до 500 мс) и непосредственно при­ мыкали друг к другу. Испытуемые, прослушав последователь­ ность, записывали ее буквами. Специального обучения не прово­ дилось.

Результаты показали, что наилучшее распознавание (90% принятой информации) соответствовало длительности гласного, равной 200 мс. Для длительности, равной 100 мс, принятая инфор­ мация снижалась до 60%. Анализ ошибок показал, что вероят­ ность правильного приема является наименьшей для среднего элемента последовательности.

Экспериментальный метод, при котором все элементы после­ довательности находятся в одинаковых условиях, был предложен Уорреном [518]. Метод заключается в том, что последовательность стимулов записывается на магнитную пленку, которая склеи­ вается в кольцо. Испытуемый слушает этот «бесконечный» стимул (он может делать это достаточно долго) и должен записать после­ довательность элементов. Ответ считается правильным, если после­ довательность записанных букв соответствует последовательности элементов в стимуле.

Данные по восприятию последовательности гласных [ieau] в «бесконечном» стимуле были получены Томасом и др. [504]. Сти­ мулами являлись отрезки заданной длины, вырезанные из про­ тяжно произнесенных естественных гласных; между стимулами не было пауз. Испытуемые (25 человек) были осведомлены отно­ сительно того, из каких именно гласных образована последова­ тельность; перед основным экспериментом им предлагалось прослушать последовательность, составленную из элементов дли­ тельностью по 500 мс. В основном эксперименте испытуемым по­ следовательно предъявлялись все более трудные стимулы — по­

следовательности с постепенно уменьшающейся длительностью элементов.

Полученные результаты приведены на рис. 6.1. Можно видеть, что резкое ухудшение распознавания последовательности проис­ ходит на интервале от 125 до 100 мс. Авторы отмечают, что и при наименьших длительностях (75 и 100 мс) испытуемые продолжают слышать гласные «раздельно».

Легко заметить, что результаты приведенных выше двух работ еще не позволяют решить, что яв­ ляется фактором, ограничиваю-

Рис. 6.1. Распознавание последовательности гласных в «бесконечном» сти­ муле. По [604].

По оси абсцисс — длительность гласного; по оси ординат — процент испытуемых, пра­ вильно определивших порядок следования гласных.

Рис. 6.2. Схематические динамические спектрограммы синтетических сти­ мулов, применявшихся в работе [23в].

По оси абсцисс — время; по оси ординат — формантные частоты. Остальные обозначения см. в тексте.

щим распознавание быстрых последовательностей. Им может быть как период следования гласных (интервал от начала одного глас­ ного до начала следующего), так и длительность гласного.

Для получения ответа на этот вопрос Томас и др. [603] повто­ рили описанные выше эксперименты с той разницей, что длитель­ ность посылок гласных [i], [в], [а], [и] была теперь фиксированной (50 мс), а величина периода следования гласных менялась от 75 до 300 мс за счет изменения длительности паузы. Оказалось, что в этих условиях распознавание последовательностей не только не ухудшилось, но, наоборот, несколько улучшилось. При длитель­ ности периода, равной или большей 100 мс, распознавание было практически совершенным, при сокращении длительности пе­ риода до 87 мс правильные ответы уменьшались до 65%, а при

сокращении периода до 75 мс ответы уже становились случайными (16.7% правильных ответов).

Убедительным доказательством того, что определяющим яв­ ляется именно период следования гласных, является результат эксперимента, выполненного в Хаскинских лабораториях ]236]. Авторы использовали в качестве стимулов длительные (20 с) отрезки «бесконечных» последовательностей из элементов, следую­ щих друг за другом с периодом в 130 мс (рис. 6.2). Элементами были или синтетические стационарные гласные [i], [се], [о], [и] длительностью 120 мс (1\ на рис. 6.2), или 30-миллисекундные отрезки тех же гласных (Г2 на рис. 6.2), или синтетические сиг­ налы, воспринимаемые при изолированном предъявлении как сочетания согласный—гласный—согласный [bib], [baeb], [bob], [bub] (СГС на рис. 6.2). В этих сочетаниях длительность стацио­ нарного участка стимула составляла 30 мс, остальное время (90 мс) приходилось на формантные переходы. Для каждого из этих ти­ пов стимулов были образованы шесть разных последовательностей, различающихся порядком следования элементов. Результаты рас­ познавания приведены в табл. 6.2.

Таблица 6.2

Зависимость правильного распознавания

последовательностей от типа стимулов и от порядка следования гласных (в %)

 

Последователь­

г.

г2

СГС

 

 

 

ность

 

[i

,

[ae],

[э],

[u]

88

50

88

li

,

[ae],

[u],

[o]

44

38

78

li

,

fo

,

[eel,

[a]

50

13

50

li

,

lo

,

[u],

[ae]

39

50

67

li

,

|u

,

[ae],

[э]

63

75

88

li

,

tu

,

[о],

[ев]

50

63

50

Среднее

....

52

47

71

Можно видеть, что последовательности распознаются суще­ ственно лучше в случае сигналов СГС. Практически одинаковое распознавание последовательностей для сигналов Гг и Г2 говорит о том, что роль длительности отрезка гласного весьма невелика.

Худшее распознавание последовательностей из отрезков ста­ ционарных гласных по сравнению с сигналами СГС связано с тем, что когда два соседних гласных имеют существенно отличающиеся значения Ft, они перестают восприниматься как принадлежащие одному и тому же сообщению. Правильность этого объяснения была проверена дополнительным экспериментом, в котором глас­ ные были соединены формантными переходами. Распознавание последовательностей для таких сигналов оказалось значительно лучшим, чем для Гг, и совпало с таковыми для СГС.

Вторым методом определения минимального интервала между гласными, необходимого для обработки первого гласного, яв­ ляется метод так называемой обратной маскировки.

Испытуемым предъявляются двучленные последовательности; при этом они должны идентифицировать первый гласный, игнори­ руя второй гласный, служащий маскером. Результаты, получаемые этим методом, сильно различаются в разных работах [237, 377, 423], значительно зависят от индивидуальных характеристик испытуе­ мого и от числа выборов — возможных фонем [237]. G точки зрения чистоты эксперимента этот метод значительно уступает методу распознавания «бесконечных» последовательностей.

Рис. 6.3. Распознавание гласного в условиях обратной маскировки.

По [377].

По оси, абсцисс — длитель­ ность интервала от начала гласного до начала маскера; по оси ординат'—обиаружи- мость d'. 1 — конец гласного совпадает с началом маске­ ра, 2 — длительность глас­

ного равна 26 мс.

В описываемом ниже эксперименте Массаро [377] гласные сти­ мулы были получены на основе естественных, произнесенных женщиной гласных [i], [i], [а], [и]. Из гласного, записанного в память вычислительной машины, выбирался стандартный ста­ ционарный отрезок, длительностью 26 мс (пять периодов основ­ ного тона 192 Гц). Использовались два варианта тестирования: с паузой и без паузы. В варианте с паузой длительность первого гласного равнялась 26 мс, после паузы переменной длительности включался маскер. Интервал от начала гласного до начала мас­

кера обозначим Т.

В варианте без паузы гласный выключался

в момент начала

маскера. Маскером служил «бессмысленный»

гласный, длительностью 208 мс. Он был составлен из стандартных отрезков четырех тестирующих гласных; каждый стандартный отрезок повторялся в маскере два раза.

Использовалась методика форсированного выбора (четыре воз­ можных ответа); первый опытный день был посвящен тренировке в распознавании тестирующих гласных разной длительности. При обработке данных в качестве меры разборчивости была ис­ пользована «обнаружимость» — d', принятая в теории обна­ ружения.

На рис. 6.3 приведены в качестве примера данные для глас­ ного [J. Можно видеть, что при тестировании с паузой (точки) обнаружимость растет при увеличении интервала Т до 104 мс. Близкий вид зависимости наблюдается и при тестировании без паузы (кружки). Так как значения d’ выше при тестировании безЮ Ф

паузы, очевидно, что длительность гласного, равная 26 мс, яв­ ляется еще слишком малой для надежного распознавания. Из­ вестно, что человек может научиться распознавать очень короткие изолированные гласные [493], однако для этого необходима спе­ циальная тренировка, в некоторых случаях очень длительная [10]. Итак, на основании экспериментов по распознаванию последова­ тельностей гласных и данных по обратной маскировке гласных можно считать, что период следования гласных в звуковом потоке не должен быть меньше примерно 100—150 мс. В противном слу­ чае фонемное распознавание гласных оказывается нарушенным.

6.1.2. МИНИМАЛЬНАЯ ДЛИТЕЛЬНОСТЬ СЛОГА,

НЕОБХОДИМАЯ ДЛЯ ЕГО ОБНАРУЖЕНИЯ

На основании приведенных выше данных можно сде­ лать вывод, что для нормальной работы фонетического интерпре­ татора частота следования слогов в речевом потоке не должна превышать 10 в 1 с. Это примерно соответствует максимальной частоте повторения движений при артикуляции [рарара. . .], [tatata. . .] [311' 34Б4б7].

Однако известно, что человек способен воспринимать ускорен­ ную (компрессированную по времени) речь при частоте следова­ ния фонем, достигающей 30 в 1 с [172 329, 41Б].

Исходя из того, что понимание смысла сообщения отнюдь не требует полного и правильного описания всех фонем в оператив­ ной памяти на входе анализатора смысла, заманчиво предполо­ жить, что нарушения работы фонетического интерпретатора при частоте следования слогов 10 в 1 с, будут выражаться не в том, что слоги будут пропущены, а в том, что о слогах будет записана лишь неполная информация. Иначе говоря, можно ожидать, что при этой частоте будут еще работать правила, обеспечивающие последовательное заполнение табл. 6.1, переход от одной группы столбцов к следующей. Нарушения будут касаться лишь содер­ жания записанной информации.

Описываемые ниже эксперименты были направлены на опре­ деление минимальной длительности слогов, при которой слог еще

существует.

в экспериментах

Ориентировочные данные были получены

с амплитудно-модулированным [а]-образным

гласным [бз]. При

прямоугольной модуляции с достаточной глубиной такой стимул воспринимается как последовательность слогов, если частота модуляции низка. Испытуемым предлагалось, изменяя частоту модуляции, найти значения частот, соответствующие отчетливой смене характера восприятия.

На рис. 6.4 приведены распределения значений для трех гра­ ниц: граница между нормальной и быстрой последовательностью

слогов (7),

граница между быстрой последовательностью слогов

и звуком

[г] (2), верхняя граница восприятия [г] (5).

Можно видеть, что граница нормальной последовательности слогов устанавливается, как правило, на частоте модуляции, не превышающей 10 Гц. Однако и при больших частотах модуляции

Рис. 6.4. Распределение частот модуляции, соответствующих изменению качества звучания стимула. По [вз].

По оси абсцисс — частота модуляции; по оси ординат — доля установок данной границы на интервале в 2 Гц. 1 — граница между нормальной и быстрой последовательностью слогов, 2 — граница между быстрой последовательностью слогов и [г], з — граница между [г] и хриплым звуком.

Рис. 6.5. Схематическое изображение стимулов, применявшихся в работе [52].

Обозначения см. в тексте.

стимул продолжает восприниматься как слоговая последователь­ ность. Среднее значение частоты, при которой слоги исчезают и сигнал превращается в непрерывный [г]-образный звук (среднее для 2), составляет 16.2 Гц, что соответствует периоду модуляции, равному 65 мс.

Описываемые ниже эксперименты [52] ставили своей целью более детальный анализ условий, необходимых для обнаружения слога.

Применявшиеся стимулы представляли собой последователь­ ности из двух или трех отрезков синтетического гласного (рис. 6.5). Параметрами стимула, управляемыми экспериментатором, слу­ жили длительности пауз (?л1, £н2}. Задачей испытуемого являлось нахождение минимальной длительности отрезка гласного (if,.),

Рнс. 6.6. Условия обнаружения слога в двухсложной последовательности. Зависимость между длительностью паузы (гп) и длительностью отрезка гласного (гг).

Обозначения см. в тексте.

Рис. 6.7. Условия обнаружения второго слога в трехсложной последова­ тельности.

Область отсутствия восприятия второго гласного (слога) — I и область обнаружения вто­ рого гласного (слога) — II в пространстве двух параметров: £Г-Нш (интервал от конца первого до конца второго отрезка гласного) и <Г-Кп2 (интервал от начала второго до на­ чала третьего отрезка гласного), см. рис. 6.5, В. Точки — экспериментальные данные, кривые 1 и 2 — результаты расчета.

при которой стимулы А и Б воспринимались как двусложные «слова», а стимул В — как трехсложное «слово».

На рис. 6.6 приведены данные для стимулов А (точки) и В

(крестики). Из рисунка следует, что при больших значениях паузы минимальная длительность отрезка гласного постоянна. При малых значениях паузы примерно постоянным является сум­ марный интервал из отрезка гласного и паузы.

На основании рис. 6.6 можно сделать вывод, что для вос­ приятия гласного (слога) необходимо совместное выполнение трех условий: длительность отрезка гласного должна быть не меньше некоторого порога (ifr Су), длительность интервала от начала этого гласного до начала следующего гласного должна быть не меньше некоторого порога (£,,+£,|2 С2), длительность интервала от конца предыдущего гласного до конца данного гласного должна быть не меньше некоторого порога (t^A-t,,! С3).

148

Приведенное выше условие обнаружения слога можно сокра­ щенно записать как (tr (\) Д (гг+г„2 > С2) Д (ir+7Hl > С3).

Для выяснения совместимости этого вывода с данными, полу­ ченными в экспериментах со стимулами Б (рис. 6.5), была при­ нята следующая элементарная модель.

Критерии СД С2, С3 считались нормально распределенными случайными величинами со следующими средними значениями, определенными из данных экспериментов со стимулами А и Б: (71 = 32, 'Д—Д—62 мс. Принималось, что испытуемый устанавли­ вает такую длительность отрезка гласного (£г), при которой вероятность обнаружить слог равна 0.5.

Рис. 6.8. Схематическое изображение стимулов, применявшихся в работе [92].

Обозначения см. в тексте. -

Кривые на рис. 6.7 показывают вычисленные комбинации зна­ чений (£г+£п1) и (^г+^г)> соответствующие вероятности обнару­ жения слога, равной 0.5. Они определены для случая, когда усло­ вие С\) всегда автоматически выполняется, если выпол­ няется одно из двух остальных условий. При вычислениях было принято, что флюктуации С2 и С3 являются независимыми, ас,= = °с, и составляет 10 мс (кривая 7) или 20 мс (кривая 2). Точками на рис. 6.7 показаны экспериментальные данные, полученные для стимулов В при следующих значениях пауз: £л1 = 15 мс; £||2=10, 15, 20, 30, 50, 75, 100 мс; £п3=15 мс, £и1 = 10, 20, 30, 50, 75, 100 мс.

Кривую на рис. 6.7 можно рассматривать как границу области обнаружения гласного в пространстве таких параметров, как

интервал между концами соседних отрезков

и интервал

между началами соседних отрезков (?г+?„2).

Область II соответ­

ствует обнаружению, область I — отсутствию обнаружения. Для понимания существа выявленных временных ограничений

очень важно учитывать, что пропуск (отсутствие обнаружения) гласного отнюдь не означает пропуска отрезка стимула. Человек слышит в этих условиях кластер — сочетание согласных. Напри­ мер, стимул Б воспринимается как [atra] (если tul О 50 мс, a £;i2=S7

30 мс) или как farta] (если tnl 30 мс, a t,:2 )> 50 мс). Таким образом, полученные данные описывают условия, при

которых отрезок стимула интерпретируется или как самостоя­

149

тельный элемент — гласный (слог), или как составная часть дру­ гого элемента.

Заметим, что с точки зрения записи информации в табл. 6.1 обнаружение слога (гласного) означает переход к некоторой сле­ дующей группе столбцов таблицы, пропуск слога означает про­ должение записи в ту же группу столбцов таблицы, с которой до этого работала модель.

Рис. 6.9. Временные ограничения восприятия сигнала как последователь­ ности элементов. По [93].

По оси абсцисс — длительность интервала «посылка плюс пауза» или период модуляции; по оси ординат — процент правильных ответов или случаев, когда установленное гранич­ ное значение периода модуляции меньше значения, указанного по оси абсцисс. 1 — про­ цент правильного воспроизведения ритмического рисунка последовательности как функ­ ция интервала «посылка плюс пауза»; 2 — накопленная гистограмма значений установок периода амплитудной модуляции, соответствующего границе между [г] и последователь­

ностью слогов.

Рис, 6.10. Условия, соответствующие порогу восприятия «двух звуков». По [«].

По оси абсцисс — длительность посылки; по оси ординат — длительность интервала «по­ сылка плюс пауза». Вверху — схематическое изображение стимула. Остальные обозначе­ ния см. в тексте.

Согласно представлениям, изложенным в предыдущих главах книги, информация о длительностях, определяющая ритмическую структуру последовательности, приписана гласным. Это означает, что пропуск гласного (слога) должен приводить к искажению ритмической структуры воспринимаемой последовательности.

В работе [92] исследовалось воспроизведение ритмической структуры последовательностей тональных посылок (с частотой 1 кГц) при разной частоте следования посылок. Применявшиеся последовательности схематически показаны на рис. 6.8. Длитель­ ность короткой посылки (Г) равнялась длительности паузы. Длительность длинной посылки равнялась ИЛИ2Г, или ЗТ (разные варианты эксперимента). Последовательности, записанные на маг­ нитофонную ленту, следовали друг за другом с интервалом в 4 с.

Соседние файлы в папке Нормальная физиология