Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие 2109

.pdf
Скачиваний:
8
Добавлен:
30.04.2022
Размер:
6.07 Mб
Скачать

Рис. 147. Принцип действия измерительного АЦП Клиппирование аналоговых сигналов заключается в фиксации моментов

времени, когда акустический сигнал, увеличиваясь, достигает верхней критической (заранее определенной) амплитуды (BKA) и, уменьшаясь, - нижней критической амплитуды (НКА).

Значения верхней и нижней критических амплитуд подбираются экспериментально. Весь остальной процесс клиппирования выполняется по строгому алгоритму:

при достижении увеличивающимся аналоговым сигналом уровня верхней критической амплитуды фиксируется время, и цифровой выход включается в

1;

при достижении уменьшающимся аналоговым сигналом НКА фиксируется время, а цифровой выход переключается в 0. Графически этот процесс можно представить на рис.148. По накопленным значениям t. и соответствующим им значениям цифрового выхода определяются временные параметры аналогового сигнала: длительность импульсов и длительность пауз, которые и являются цифровыми значениями аналогового сигнала.

360

Рис. 148. Клиппирование аналогового сигнала Аналого-цифровое преобразование на основе спектрального анализа

заключается в том, что звуковые колебания сложной формы раскладываются на ряд гармоник. Частоты и амплитуды, характеризующие гармонические составляющие аудиосигнала, и являются оцифрованным звуком.

Для преобразования звукового сигнала в цифровой код используются специальные устройства ввода (рис.149).

Рис. 149. Преобразователь акустического сигнала в цифровой код Для улучшения качества звука применяется дополнительное устройство ПЭВМ - звуковая плата (аудиоплата).

Обычно звуковая плата состоит из трех модулей:

модуля оцифрованного звука,

многоголосого частотного синтезатора (Freguency Modulation

Synthesizer),

модуля интерфейсов внешних устройств.

361

Модуль оцифрованного звука предназначен для цифровой записи, воспроизведения и обработки оцифрованного звука.

В его состав входят аналого-цифровой и цифро-аналоговый преобразователи и усилитель. Модуль позволяет преобразовывать вводимый аналоговый сигнал в цифровую форму, записывать его в оперативную память ЭВМ, проводить обратное преобразование оцифрованного звука из памяти ЭВМ в аналоговую форму, усиливать его по мощности для последующего вывода на внешний динамик или головные телефоны. В состав модуля часто входит микшер для смешивания сигналов с линейного входа и с микрофона.

Многоголосый частотный синтезатор предназначен для генерации звуковых сигналов сложной формы. Существуют два принципиально различных способа синтеза звуковых сигналов:

частотныйсинтез (FM - Fregueney Modulation);

волновой синтез (WS - Ware Synthesys).

Частотные синтезаторы генерируют звуковые колебания синусоидальной формы заданной частоты и амплитуды, благодаря чему значительно улучшается качество звука (по сравнению с попытками генерировать звук с помощью прямоугольных колебаний). Наличие нескольких генераторов позволяет использовать эти устройства для синтеза сложных звуковых сигналов, в том числе речи.

Волновой синтезатор имеет запоминающее устройство, в которое записаны образцы звучания различных музыкальных инструментов в виде волновых таблиц или алгоритмов. Генерация звука заключается в воспроизведении оцифрованной записи звука, полученной при игре на соответствующем инструменте. Волновые таблицы позволяют учесть особенности звучания различных инструментов, но набор их не является исчерпывающе полным. При работе под Windows результат волнового синтеза оформляется в файлы с расширением ―Wav‖.

Сопряжение ЭВМ с электромузыкальными инструментами осуществляется с помощью интерфейса электромузыкальных инструментов (MIDI -Musical Instruments Digital mterface). . ,

Всостав стандарта MIDI входят: стандарт электрический, стандарт на протоколы обмена данными, драйверы устройств и звуковые файлы.

Всоответствии со стандартом МШ1 ЭВМ передает в звуковую плату номер музыкального инструмента, номер ноты, характеристику игры музыканта (длительность, сила и способ нажатия клавиши). Эти же данные хранятся и в MTOI-файлах. MTDI-файлы не содержат звуков, в связи с чем по размеру они значительно меньше звуковых файлов. Звуки находятся в звуковых библиотеках. При использовании MIDI-музыки необходимо иметь таблицу музыкальных инструментов (состав таблицы не стандартизован), в которой указываются номера инструментов (используемые затем в MTDI-файлах) и их название.

362

Модуль интерфейсов внешних устройств может включать в себя интерфейс для подключения CD ROM, игровой порт и др.

Основные характеристики звуковой карты - разрядность, частота дискретизации, количество каналов (моно, стерео), функциональные возможности синтезатора, совместимость.

Под разрядностью звуковой карты понимается количество бит,

используемых для кодирования цифрового звука. 8-битовые карты обеспечивают качество звука, близкое к телефонному, 16-битовые - обеспечивают звучание, близкое к студийному.

Частота дискретизации определяет, сколько раз в секунду производится измерение амплитуды аналогового сигнала. Чем больше частота дискретизации, тем точнее оцифрованный звук будет соответствовать исходному. Но при каждом измерении формируется 8- или 16-битовый код измеренного значения (1 или 2 байта), в связи с чем этот параметр оказывает сильное влияние на требуемый для хранения оцифрованного звука объем памяти. Для записи/воспроизведения речи достаточно иметь частоту дискретизации 6-8 КГц, для музыки среднего качества - 20-25 КГц, для высококачественного звука - не менее 44 КГц.

Звуковые карты, обеспечивающие работу со стереофоническим звуком, имеют два одинаковых канала, тогда как для работы с монозвуком требуется более простая карта. Стереозвук, кроме того, требует вдвое большего объема памяти.

Функциональные возможности карты характеризуют наличие на ней специальных комплектов микросхем: РМ-синтезатора, обеспечивающего частотный синтез звука; WT-синтезатора, обеспечивающего волновой синтез звука (при котором образцы звучания инструментов могут быть записаны в файле вместе с волновыми таблицами (например, формат WAV) или могут находиться в ПЗУ звуковой карты (например, формат MID)). Кроме того, большое значение имеют возможности синтезаторов по обработке звуков (количество голосов, модуляция, фильтрование и др.), наличие аппаратных ускорителей (спецпроцессоров) и аппаратурных средств сжатия - восстановления, возможность загрузки новых образцов звучания инструментов и др.

Совместимость обычно оценивается по отношению к моделям Sound Biaster

фирмы Creativ Labs: SB Pro и SB 16. SB Pro - это 8-битовая карта,

обеспечивающая запись/воспроизведение одного канала с частотой дискретизации 44.1 КГц либо двух каналов с частотой дискретизации 22.05 КГц, имеет FM- и WT-синтезаторы. SB 16 - 16-битовая карта допускает запись/воспроизведение стереозвука с частотой дискретизации от 8 до 44/1 КГц; имеет автоматическую регулировку уровня записи с микрофона и программную регулировку тембра; в ее состав входят FM- и WTсинтезаторы.

363

Для сравнения приведем характеристики двух звуковых карт. Карта AMD InterWave имеет 32 голоса, частоту дискретизации до 48 Кгц, встроенное ПЗУ емкостью 1 Мбайт с инструментами стандарта General MIDI (GM) и шестью наборами ударных стандарта Roland General Standart (GS). Имеет возможность расширения за счет установки модулей ОЗУ емкостью до 8 Мбайт и эффект - процессора. При наличии ОЗУ обеспечивается аппаратурная совместимость со звуковыми картами GUS (Gravis Ultrasound

Standart).

Звуковая карта AWE32 производства Creative Labs предназначена для записи и воспроизведения высококачественного стереозвука, обеспечивает 8- и 16битовое кодирование оцифрованного звука, частоту дискретизации от 5 до 44 КГц, имеет программируемый сигнальный процессор, позволяющий работать со звуком в реальном масштабе времени, осуществляющий в этом режиме сжатие и восстановление звуковых файлов, 20-голосый FMстереосинтезатор, WT-синтезатор, работающий в соответствии со стандартами GM, GS и МТ-32 (Sound Canvas Multi-Timbral-32) ПЗУ,

емкостью 1 Мбайт, в котором содержится 128 GM-совместимых инструментов и 10 GS-совместимых наборов ударных инструментов. Карта обеспечивает одновременное воспроизведение 32 голосов, имеет цифровой десятиканальный стереомикшер, оперативное ЗУ емкостью 512 Кбайт для дополнительных пользовательских библиотек звуков (память может быть расширена до 28 Мбайт). Предусмотрена возможность расширения дополнительным табличным синтезатором Wave Biaster II для получения 64голосовой полифонии и еще 10 наборов ударных. Имеются интерфейс для подключения CDROM, встроенный усилитель мощности (4 Вт на канал), разъем для подключения голосового модема, обеспечивается работа в стандарте PlugSPlay.

10.6.2. Ввод в ЭВМ и машинный синтез речи Особое место в системах мультимедиа занимает использование

аудиоаппаратуры для речевого общения. Структура-задач речевого общения приведена на рис.150.

364

Рис.150. Структура задач речевого общения Для распознавания и понимания речи дикторов необходимо ввести речевые

сигналы в ЭВМ с помощью акустических устройств ввода и проанализировать вводимую речь.

Системы речевого ввода делятся на два типа по характеру распознаваемой речи:

системы, ориентированные на восприятие отдельных команд;

системы, воспринимающие связную речь.

Разница между ними весьма существенна, так как при слитном произношении слов изменяется их звучание.

При анализе отдельных команд осуществляются их оцифровка, идентификация и инициируется выполнение программы, отрабатывающей принятую команду. Этот же режим используется и для речевого ввода цифровой информации; в этом случае после идентификации введенное слово преобразуется в соответствующий код ASCH (за счет чего достигается существенное сжатие речи). Фирма Курцвейл выпускает на этом принципе

365

устройство Voice Writer, которое распознает около 10 000 отдельно произнесенных английских слов и печатает их на принтере.

В настоящее время практически отсутствуют устройства для ввода динамически развивающихся звуковых сцен. Устройства ввода и программы-анализаторы не позволяют выделить эмоциональную составляющую речи, которая значительно корректирует смысл (и может даже изменить его до противоположного). Чаще всего эмоциональная составляющая рассматривается как помеха (за исключением систем контроля эмоционального состояния). Как дополнительный источник информации эмоциональная окраска голоса (и введенного сообщения) в настоящее время не используется.

Системы речевого вывода называются синтезаторами речи.

Существуют три основных технологически различных подхода к проблеме синтеза речи:

метод кодирования-восстановления формы сигналов;

аналоговый метод синтеза формантных частот;

цифровое моделирование голосового тракта.

Первый методсамый простой: ЭВМ в этом случае служит как цифровой магнитофон. Фразы и слова записываются раздельно и выбираются для воспроизведения в нужный момент по командам, поступающим от соответствующей программы. В такой системе невозможно воспроизвести слово, которое не было заранее записано.

Для хранения оцифрованной речи необходима память большого объема, хранить необходимо каждое слово из лексикона ЭВМ с учетом различных падежных окончаний, рода (пошел-пошла-пошло), числа... Но зато качество воспроизведения речи очень высокое.

Разновидностью синтезаторов этого типа являются автоответчики, построенные из ЭВМ и Voice-модема; речевая телепочта (передача речевого сообщения по вычислительным сетям).

Считается, что этот метод эффективен, когда словарный запас невелик -не превышает 10-15 слов (например, говорящий приборный щиток автомобиля, говорящие часы, калькулятор, календарь).

Второй метод использует принципы акустического моделирования голосового тракта человека. Речь составляется из формантных частотных полос, которые создаются полосовыми фильтрами. Суммарный выходной сигнал формантных фильтров достаточно близко соответствует частотному спектру человеческой речи. Но такая речь звучит, как голос робота, разборчивость ее оставляет желать лучшего.

Этот метод универсален: с его помощью можно синтезировать любые слова, иметь неограниченный словарь, так как речь создается из отдельно генерируемых звуков. Синтезатор может быть реализован программным путем.

366

Наиболее распространенный способ возбуждения синтезатора формантных частот состоит в использовании отдельных, поддающихся идентификации звуков речи, называемых фонемами.

Фонемный синтезатор образует последовательность фонем, которая при воспроизведении на акустическом устройстве вывода звучит как речь. Фонемный синтез речи практически не требует дополнительной аппаратуры; он может быть реализован на ЭВМ стандартной конфигурации программным путем.

Речь разделяется на отдельные элементарные части - фонемы. Например, в английском языке выделяются такие фонемы для гласных звуков, как ее, i, eh и др. (табл.21).

Таблица 21

Фонемы гласных звуков английского языка

Фонема

Произношение

F1

F2

F3

ее

feet

250

2300

3000

i

hid

375

2150

2800

eh

head

550

1950

2600

ае

had

700

1800

2550

ah

tot

775

1100

2500

aw

talk

575

900

2450

u

Took

425

1000

2400

00

Tool

275

850

2400

F1, F2, F3 - три основные формантные частоты, наблюдаемые в спектрограмме, При произношении Средним Мужским голосом.

Но кроме гласных в речи человека существуют фрикативные, взрывные и носовые согласные. Кроме того, каждая фонема имеет вариации - аллофоны. В русском языке согласные фонемы бывают мягкие и твердые, глухие и звонкие (шумные, сонорные, губные, зубные, альвеолярные, велярные).

Третий метод использует словарь, который создается голосом человека, но в память записывается не оцифрованный акустический сигнал, а его частотные параметры, при этом уменьшается объем памяти, занимаемый словарем. Синтез же речи производится интегральными микросхемами, генерирующими заданный набор частот с заданными амплитудами и смешивающими их.

10.6.3. Программное обеспечение для работы со звуковой информацией Для работы со звуковой информацией необходимо соответствующее

программное обеспечение: музыкальные редакторы, ―говорящие машины‖, речевые и аудиоредакторы.

Музыкальные редакторы служат для:

1.Ввода звукового эффекта в ОП ЭВМ

с нотного листа (кодирование нотной записи с помощью клавиатуры);

подбором мелодии по слуху;

367

загрузкой мелодии с внешнего носителя (магнитофона, радиоприемника, телевизора).

2.Воспроизведения мелодии при нажатии клавиш ЭВМ (режим клавесина).

3.Автоматической нотной записи вводимой мелодии.

4.Оформления мелодии в виде программы для включения ее в состав презентации или использования для индикации хода вычислительного процесса.

5.Воспроизведения мелодии на акустическом устройстве вывода или на профессиональной аппаратуре, подключенной к ПЭВМ.

6.Для профессиональной обработки введенной мелодии (оркестровка, оранжировка,..), вывода нотной записи.

7.Для машинного синтеза музыки.

8.Для оформления мелодии видеоэффектами на экране ЭВМ (цветомузыка, многоканальная индикация громкости,...).

Простые музыкальные редакторы обеспечивают одноголосое воспроизведение и имеют простое управление, ориентированное на неподготовленного пользователя (MUSMAKER - МГУ, редактор мелодий

PIANOMAN,...).

Более сложные редакторы (Scream Tracker, Whacker Tracker,...)

ориентированы на пользователей, имеющих представление о принципах создания музыкальных произведений (в том числе многоголосой музыки). Задача всякого редактора ―Для начинающих‖ обычно состоит в том, чтобы помочь преодолеть страх новичка перед ―чистым листом‖ и быстро перейти к самостоятельному творчеству. Назначение музыкального редактора для домашнего компьютера - помочь человеку ―услышать свою внутреннюю музыку‖ (т.е. свое представление о том, что он хочет получить). Музыкальные редакторы предоставляют для начала работы блоки, более крупные, чем отдельные ноты.

Музыкальный редактор Scream Tracker (ST) поддерживает собственный формат цифровой музыки и формат *.Mod, предназначенный для программной имитации частотного синтеза с использованием волновых таблиц и алгоритмов.

ST является freeware - продуктом фирмы PSI. Выпущена третья версия (ST3) этого редактора, но дальнейшую работу по совершенствованию и развитию этой программы фирма не ведет. ST реализован под DOC.

В конце 1995 г. московская фирма ―Элекай‖ (разработчик) совместно с фирмой ―Русс‖ (разработчик и издатель) произвели ―развлекающий и обучающий‖ программный продукт, предназначенный для сочинения музыки:

Маэстро+. Он может использоваться как любителями, так и профессионалами на достаточно мощном IBM-совместимом мультимедиа компьютере.

368

Музыкальный редактор позволяет работать с ним человеку, который не имеет понятия о нотах, а свою ―внутреннюю‖ музыку если и слышит, то довольно смутно.

ВМаэстро+ реализованы алгоритмы ―искусственного интеллекта‖, позволяющие создавать гармоничную, порой неожиданную музыку. Интеллектуальность компьютера помогает ―навести‖ человека на новую музыкальную тему, оформить ее.

Маэстро+ состоит из трех основных модулей, соответствующих уровню музыкальной подготовки пользователя:

Music Adviser - для начинающих;

Music Mirror - имеет расширенный набор возможностей и предназначен для ―продвинутого‖ пользователя;

Mirror Station - для квалифицированных пользователей и профессионалов-музыкантов.

Вкачестве ―строительного материала‖ музыкальный редактор имеет заготовки около 800 различных инструментов, около 50 готовых мелодий и спецэффектов, не менее 10 сложных авторских композиций.

Объем системы довольно велик, поэтому реализован Маэстро+ на компактдиске.

Маэстро+ работает в защищенном режиме DOS, обеспечиваемом расширителем памяти фирмы ―Элекай‖. Требует PC не хуже 486DXL2 66. Все три модуля музыкального редактора объединяются программой-меню, выполненной в виде компьютерной игры. Документация содержит руководство пользователя, набор уроков для освоения всех трех модулей. Предполагается, что следующая версия будет работать под Windows, использовать формат ―.WAV‖ (волновой Windows-формат) и укомплектована конвертером MEDI.

Музыкальный редактор ―Band-in-a-Box‖ оперирует понятием ―стиль‖, под которым понимается некоторый набор готовых музыкальных фрагментов. Создавая свою композицию, пользователь расставляет на каждом канале и для каждого отрезка времени свои параметры: какой фрагмент использовать, каким инструментом, в какой гамме и с какой скоростью его играть. В память машины можно ввести мелодию, наигранную на клавиатуре. Можно играть и во время исполнения компьютером композиции, используя возможности ЭВМ как ―электронный аккомпанемент‖; при этом программа ―подыгрывает‖ человеку (который является ведущим), пока он активен и импровизирует в паузах.

Говорящие машины и речевые редакторы используются для воспроизведения речи по введенному тексту и настройки ПЭВМ (громкость, тембр, скорость звучания, мужской-женский голос,...).

Обычно говорящие машины загружаются в оперативную память и остаются резидентами. Обращение к ним осуществляется нажатием ―горячих клавиш‖. При использовании говорящей машины в целях обучения (например,

369