Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛЕКЦИИ_ПО_ИНФОРМАТИКЕ_ПРЕПОД_3457_220301.doc
Скачиваний:
18
Добавлен:
06.11.2018
Размер:
1.25 Mб
Скачать

2.4. Энтропия в информатике и физике.

Как в физическом, так и в информационном смысле величина энтропии характеризует степень разнообразия состояний системы.

Формула Шеннона совпадает с формулой Больцмана для энтропии физической системы. По Второму закону термодинамики энтропия замкнутой системы молекул:

- общее число молекул,

- количество молекул в интервале со скоростями - +d,

- вероятность такого состояния.

Максимальное значение энтропии при равновероятных состояниях растет с ростом этих состояний.

Энтропия объединения нескольких независимых источников равна сумме энтропий исходных источников.

2.5. Вероятностный и объемный подходы к измерению количества информации.

Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а в работах по созданию ЭВМ был развит объемный подход.

ПРИМЕР ВЕРОЯТНОСТНОГО ПОДХОДА.

Определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли : H=log2 34≈ 5 (бит). Однако, в словах русского языка, равно как и в словах других языков, различные буквы встречаются неодинаково часто. Поэтому для подсчета энтропии H надо использовать формулу Шеннона. При этом: Н≈ 4.72 (бит). Полученное значение энтропии H, меньше вычисленного по формуле Хартли, т. к. при не равновероятных состояниях свобода выбора источника ограничена, что должно привести к уменьшению неопределенности (и количества информации). Так, если источник имеет два состояния с вероятностями 0,99 и 0,01, то неопределенность здесь значительно меньше, чем при равновероятных состояниях с вероятностями 0,5 и 0,5. Мера неопределенности зависит от функции распределения случайной величины.

Величина энтропии H, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак при равновероятном появлении знаков.

Частотность букв русского языка (вероятности появления в тексте pi, полученные на основе анализа очень больших по объему текстов) представлена в следующей таблице.

n

Симв.

pi

n

Симв.

pi

n

Симв.

pi

1

Пробл

0,175

13

К

0,028

24

Г

0,012

2

О

0,090

14

М

0,026

25

Ч

0,012

3

Е

0,072

15

Д

0,025

26

Й

0,010

4

Ё

0,072

16

П

0,023

27

X

0.009

5

А

0,062

17

У

0,021

28

Ж

0.007

6

И

0,062

18

Я

0,018

29

Ю

0,006

7

Т

0,053

19

Ы

0,016

30

Ш

0.006

8

Н

0,053

20

3

0,016

31

Ц

0.004

9

С

0,045

21

Ь

0,014

32

Щ

0.003

10

Р

0,040

22

Ъ

0,014

33

Э

0,003

11

В

0,038

23

Б

0,014

34

Ф

0.002

12

Л

0,035

Аналогичные подсчеты H можно провести и для других языков, использующих латинский алфавит, - английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле Шеннона для этих языков получим:

H= Iog2 27 = 4,76 бит.

Как и в случае русского языка, частота появления тех или иных знаков не одинакова. В порядке убывания вероятностей получим:

Английский язык: «пробел», Е,Т, А, О, N, R, …

Немецкий язык: «пробел», Е, N, I, S,T, R, …

Французский язык: «пробел», Е, S, A, N, I, T, …

ПРИМЕР ОБЪЕМНОГО ПОДХОДА.

Разработчики компьютеров отдают предпочтение двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния. Примеры: физический элемент, имеющий два различных состояния; намагниченность в двух противоположных направлениях; прибор, пропускающий или не пропускающий электрический ток; конденсатор, заряженный или незаряженный. Наименьшей возможной единицей информации в компьютере является бит (binary digit -двоичная цифра). Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных цифр (битов). При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода). Для удобства введены и более крупные, чем бит, единицы количества информации.

1 байт = 8 бит;

1 килобайт (Кбайт) = 210 бит = 1024 байт;

1 мегабайт (Мбайт) = 1024 килобайт;

1 гигабайт (Гбайт) = 1024 мегабайт:

Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в вероятностном смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измерение количества информации в обоих смыслах, то они не обязательно совпадают, при этом вероятностное количество информации не может быть больше объемного.