- •Интеллектуальные
- •Предисловие
- •1. Раздел. Экспертные системы
- •1.1. Назначение и принципы построения экспертных систем
- •1.2. Классификация экспертных систем
- •1.3. Методология разработки экспертных систем
- •1.4. Этапы разработки экспертных систем
- •1.5. Приобретение знаний для экспертных систем
- •1.6. Представление знаний и выводы в экспертных системах
- •1.7. Особенности различных представлений знаний
- •2. Раздел. Системы общения на естественном языке
- •2.1. Назначение и область применения естественно-языковых систем
- •2.2. Обобщенная схема естественно-языковой системы
- •Основные параметры ея-системы
- •2.3. Настройка естественно-языковых систем
- •2.4. Классификация естественно-языковых систем
- •Задачи, решаемые основными компонентами системы
- •Основные сведения о ея-системах
- •3. Раздел. Системы переработки визуальной информации
- •3.1. Назначение, классификация и области применения
- •3.2. Автоматизированные системы обработки изображений
- •3.3. Системы анализа изображений
- •3.4. Системы машинной графики
- •Характеристики автоматизированных систем обработки изображений
- •4. Раздел. Системы речевого общения
- •4.1. Основные положения
- •4.2.Классификация речевых процессоров
- •4.2.1. Анализаторы
- •4.2.2. Синтезаторы речи
- •4.3. Обзор промышленных систем речевого общения
- •Устройства синтеза речи
- •Устройства распознавания речи
- •4.4. Перспективные зарубежные системы речевого общения
- •4.5. Тенденции применения средств речевого общения
- •5 Раздел. Системы машинного перевода
- •5.1. Классификация смп
- •5.2. Лингвистическое обеспечение смп
- •5.2.1. Словари
- •5.2.2. Грамматики и алгоритмы
- •5.3. Математическое и программное обеспечение смп
- •5.4. Оценка смп
- •Основные системы мп и их характеристики
- •Список использованной и рекомендуемой литературы
- •Содержание
4.4. Перспективные зарубежные системы речевого общения
Из всего разнообразия зарубежных промышленных СРО рассмотрим системы, которые, на наш взгляд, являются наиболее перспективными в плане реализации в них как новых теоретических моделей, так и достигнутых показателей качества синтеза и распознавания речи.
Примером высококачественного синтезатора, с помощью которого можно воспроизвести близкую к естественной речь различного темпа и оттенков непосредственно по тексту неограниченного словаря, является устройствоDES-talk. УстройствоDES-talk(см. табл. 1.1) представляет собой блок размером 10 45 30 см, на задней панели которого расположены разъемы для подключения ЭВМ, видеотерминала и печатающего устройства, различных устройств вывода информации, в том числе телефона, индикатора на светодиодах, регулятора громкости. Высокое качество синтезатора DES-talk обусловлено большой библиотекой используемых правил, возможностью выбора словаря по желанию пользователя, качеством аппаратных средств для преобразования речи. Пользователь может выбрать семь различных голосов, в том числе стандартные женский, мужской, детский, а также низкий мужской и голос пожилого человека.
В устройстве DES-talkпроцесс преобразования текстовой информации в речевую разделяется на три уровня. На первом слова преобразуются в цифровую форму в соответствии с кодомASCIIи разбиваются на фонемы. При этом используются наборправил преобразования букв в звуки и два словаря. Один содержит 6000 слов, другой — около 150 специфических терминов, иностранных слов и аббревиатур, вводимых самим пользователем. Преобразования первого уровня начинаются с поиска эталонных слов, соответствующих вводимому орфографическому тексту, в большом словаре. Если эталоны найдены, то текст, преобразованный в фонемную форму, сразу передается на второй уровень обработки. Если эталоны не найдены ни в одном из словарей, то вводимый текст обрабатывается в соответствии с правилами преобразования букв в звуки и затем передается на второй уровень. На втором уровне производится считывание фонем, синтаксический анализ, определяются интонация, продолжительность и ударение в словах, выполняются акустические расчеты. На третьем уровне осуществляются окончательные преобразования входной текстовой информации и синтез речи. Синтезирванные цифровые сигналы передаются со скоростью не менее 120 Кбит/с в стандартный цифроаналоговый преобразователь (ЦАП). В синтезатореDES-talkиспользуются эвристические правила для оценки влияния окружающих слов на произношение, интонацию, продолжительность и ударение в данном слове.
Программное обеспечение для синтезатора DES-talkпрактически аналогично программному обеспечению для существующих алфавитно-цифровых терминалов, работающих в стандарте ASCII, за исключением модулей, определяющих формат данных.Поэтому создание программного обеспечения не вызывает трудностей, что открывает синтезатору DES-talk широкие области применения.
Создание перспективных моделей распознавания речи связано со стремлением достичь высокой надежности при работе с большими словарями (свыше 1000 слов) в режиме слитного произнесения. Наиболее близко к такому идеалу подходит системаKVS-3000, словарь которой содержит 10 000 слов, а точность распознавания 95 %. Для подготовки устройства к работе весь набор эталонных слов должен быть произнесен трижды, поэтому память устройства KVS-30 000 рассчитана на хранение 30 000 слов.Среднее время распознавания — около 500 мс.
Фирма «Verbex» (США) разработала мощную систему распознавания непрерывной речи — модельVerbex-30 000, позволяющую распознавать предложения любой длины, состоящие из отдельных или слитно произносимых слов. Эта система ориентирована на голос одного диктора, при смене диктора необходима перезапись в ОЗУ для хранения эталонов слов. МодельVerbex-30 000, построенная по архитектуре «звезды», включает 2—4 таких речевых процессора и может оперировать 120—360 словами. Каждый процессор содержит ЗУ емкостью 0,25 Мбайт для хранения данных, а также ЗУ для хранения 4000 микрокодовых инструкций, каждая длиной 64 бит. Кроме того, гибкость конструкции системы, обеспеченная развитой структурой элементов сопряжения, позволяет использовать память центральной ЭВМ. Быстродействие речевого процессора — 5 млн опер./с.
Микропроцессорная архитектура системы позволяет производить операции с высоким быстродействием, что является необходимым условием для выполнения алгоритма распознавания непрерывной речи. Процесс распознавания, который заключается в подборе последовательности эталонных слов, максимально соответствующей произнесенной пользователем, осуществляется ДП-методом. Входные речевые сигналы усиливаются, фильтруются и кодируются аудипроцессором, а затем передаются в управляющий процессор с интервалом 10 мкс. Управляющий процессор распределяет сигнал между речевыми процессорами, которые выделяют его фонетические характеристики. Разработчики системы определили, что для обеспечения точности распознавания 99 % достаточно 16 таких характеристик. Процесс распознавания в управляющем процессоре и поиск эталона производятся одновременно, т. е. когда процессор «улавливает» окончание речи.
Во избежание влияния на окончательный результат распознавания ошибок, возможных на первом этапе, система постоянно проверяет множество параллельных гипотез, сравнивая ввод данных с грамматически обозначенным набором всех нормальных произношений. Ответ задерживается до момента проверки всех гипотез и совпадения произнесенного с эталоном.