Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебник 374.docx
Скачиваний:
14
Добавлен:
30.04.2022
Размер:
2.1 Mб
Скачать

1.4. Энтропия дискретного стационарного источника на сообщение

Обозначим через стационарный источник, выбираю­щий сообщения из множества А. Для любой n-последовательности распределение вероятностей может быть записано следующим образом:

Тогда количество собственной информации в последовательности

и для энтропии последовательности сообщений на выходе стационар­ного источника в результате статистического усреднения получим

(1.9)

(подстрочный индекс означает номер символа в n-последовательности).

На основании (II.9) может быть введено понятие энтропии стацио­нарного источника на сообщение. Оно получается в результате ана­лиза последовательности

(1.10)

и определяется как предел (11.10) при . Доказано, что этот предел, имеющий смысл среднего количества информации, порождае­мого источником в единицу времени, существует.

1.5. Избыточность источника дискретных сообщений

Исследуя свойства энтропии ансамбля дискретных сообщений с фиксированным числом К возможных состояний (мощность алфави­та ансамбля — К), мы пришли к выводу, что максимальную энтропию имеет ансамбль, все сообщения которого являются равновероятными и статистически независимыми. Отсюда следует, что от источника, по­следовательно выбирающего сообщения из такого ансамбля, за опре­деленный промежуток времени может быть получено максимальное ко­личество информации.

Рассмотрим, в какой мере реальные физические источники удо­влетворяют указанным свойствам. Хорошим примером может служить источник, на выходе которого появляется последовательность букв из алфавита мощностью К = 32 (русский язык). При равновероятной и независимой передаче букв энтропия этого источника составляет бит/символ. В действительности в осмысленном тексте бу­квы передаются не хаотически и оказываются существенно связанными. Они, как известно, имеют различную вероятность, и вместе с тем по­явление последующих букв зависит от предыдущего текста. Результаты статистического анализа совокупности текстов русской художественной прозы позволяют сделать вывод, что энтропия такого источника прини­мает значения, не превосходящие 1,5 бит/символ. Еще более связан­ным (а потому и более легко запоминающимся) является стихотворный текст, где энтропия принимает еще меньшие значения.

Ниже представлены результаты кропотливого статистического ана­лиза энтропии письменной речи, проделанного в двух странах.

1. В предположении, что русский алфавит содержит 32 буквы, максимальное значение энтропии определяется величиной бит. Учет неравновероятности букв приводит к значению энтро­пии бит.

2. Подсчет числа повторений различных двухбуквенных и трех­буквенных комбинаций в отрывке из романа Л.Н. Толстого, содержа­щего 30000 букв дал следующие значения энтропии художественного текста, учитывающие его избыточность, связанную с наличием стати­стической зависимости:

3. Шенноном даны соответствующие значения энтропии для ан­глийского языка, учитывающие более, чем двух и трехбуквенные ком­бинации:

Для более полной характеристики источника дискретных сообще­ний вводят понятие избыточности источника с мощностью алфавита К, под которой понимают величину

(1.11)

При источник называют источником без избыточности.

Приведенные выше результаты анализа показывают, что в англий­ском языке избыточность явно превосходит 60 %. Как показали опыты в МГУ, избыточность литературного языка русской классической про­зы близка к 80 %.

Будем рассматривать последовательности символов, выбираемых из одного и того же ансамбля дискретных сообщений А, имеющие про­извольную длительность , для которых ранее было введено обозначе­ние Ап. Для реальных источников, представляющих практический инте­рес, связи или зависимости между элементами последовательностей, разнесенными на дискретный интервал , при неограниченном возра­стании полностью исчезают. Выше было упомянуто, что существует предел при , представляющий собой среднее количество инфор­мации Н, порождаемое источником в единицу времени, и называемое энтропией стационарного источника на сообщение. С этой величиной H связана постановка задачи эффективного кодирования источника.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]