Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
main (Автосохраненный).docx
Скачиваний:
4
Добавлен:
22.08.2019
Размер:
1.74 Mб
Скачать
  1. Пояснительная записка к выпускной квалификационной работе;

  2. Руководство программиста;

  3. Руководство оператора;

Раздел «Руководство программиста» должен быть оформлен в соответствии с ГОСТом 19.504-79, а «Руководство оператора» - по ГОСТ 19.505-79.

  1. Теоретическая часть

    1. Введение в речевые технологии

Речевые технологии – технологии XXI века. Благодаря им появилась возможность управлять компьютером с помощью голоса, диктовать текст, прослушивать книги, а в перспективе – управлять компьютером дистанционно на интеллектуальном уровне. Основными направлениями в этой области являются: распознавание речи, синтез голоса, средства речевого управления, идентификация по образцу.

Построение речевого интерфейса сводится к реализации трех задач:

  1. Обеспечение восприятия компьютером отдельных команд;

  2. Распознавание компьютером слитной речи человека в целях полной замены использования клавиатуры;

  3. Способность компьютера преобразовывать информацию в речевое сообщение.

На сегодняшний момент решение существует только для последней задачи. Синтез речи – это математическая задача, которая уже решена. Решению первой задачи препятствует тот факт, что еще не выяснено, каким образом можно расчленить речь так, чтобы извлечь из неё смысл. В человеческом речевом потоке нельзя выделить отдельно буквы и слоги – это цельный объект. Однако, если отдельно рассматривать каждое слово, то можно выделить и буквы, и слоги. Вторая задача решена на половину, так как нет однозначного решения вопроса распознавания потока речи, в то время как задача перевода текста в речь уже решена.

Речевые технологии в программном обеспечении каждый раз находят новые сферы применения. Начав с простого преобразования текста в синтезированную речь, они заняли прочное место в компьютерном мире. Из существующих новейших направлений развития программного обеспечения в области речевых технологий можно выделить несколько основных групп:

  • Управление программой голосовыми командами;

  • Диктовка текста;

  • Идентификация по образцу речи;

  • Синтез речи;

  • Офисный голосовой интерфейс;

  • Мультимедийные обучающие системы.

Прикладной интерфейс программирования Microsoft Speech API (SAPI) включает в себя следующие возможности:

  1. Командное управление - Command Control;

  2. Диктант- Dictation;

  3. Текст в речь - Text to Speech;

  4. Телефония - Telephony;

Рассмотрим назначение технологий:

  1. Технология Command & Control – предусматривает распознавание речи в виде отдельных слов или фраз из списка ожидаемых компьютеру. Подобная функция может использоваться для управления , голосом. Команды для управления могут как статическими, так и вариантными, что дает богатые возможности для реализации поставленной задачи;

  2. Технология Dictation – реализует ввод распознавания речи произвольного содержания, т.е. предназначена для диктовки текста;

  3. Технология Text To Speech –позволяет синтезировать связную речь из передаваемого текста;

  4. Технология Telephony – представляет собой смесь распознавания и синтеза речи. Типовые функции VoiseTelephony – расширенный автоответчик, голосовая почта, голосовая справочная служба.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]