2.4. Энтропия в информатике и физике.

Как в физическом, так и в информационном смысле величина энтропии характеризует степень разнообразия состояний системы.

Формула Шеннона совпадает с формулой Больцмана для энтропии физической системы. По Второму закону термодинамики энтропия замкнутой системы молекул:

- общее число молекул,

- количество молекул в интервале со скоростями - +d,

- вероятность такого состояния.

Максимальное значение энтропии при равновероятных состояниях растет с ростом этих состояний.

Энтропия объединения нескольких независимых источников равна сумме энтропий исходных источников.

2.5. Вероятностный и объемный подходы к измерению количества информации.

Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а в работах по созданию ЭВМ был развит объемный подход.

ПРИМЕР ВЕРОЯТНОСТНОГО ПОДХОДА.

Определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли : H=log₂34≈ 5 (бит). Однако, в словах русского языка, равно как и в словах других языков, различные буквы встречаются неодинаково часто. Поэтому для подсчета энтропии H надо использовать формулу Шеннона. При этом: Н≈ 4.72 (бит). Полученное значение энтропии H, меньше вычисленного по формуле Хартли, т. к. при не равновероятных состояниях свобода выбора источника ограничена, что должно привести к уменьшению неопределенности (и количества информации). Так, если источник имеет два состояния с вероятностями 0,99 и 0,01, то неопределенность здесь значительно меньше, чем при равновероятных состояниях с вероятностями 0,5 и 0,5. Мера неопределенности зависит от функции распределения случайной величины.

Величина энтропии H, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак при равновероятном появлении знаков.

Частотность букв русского языка (вероятности появления в тексте p_i, полученные на основе анализа очень больших по объему текстов) представлена в следующей таблице.

n	Симв.	p_i	n	Симв.	p_i	n	Симв.	p_i
1	Пробл	0,175	13	К	0,028	24	Г	0,012
2	О	0,090	14	М	0,026	25	Ч	0,012
3	Е	0,072	15	Д	0,025	26	Й	0,010
4	Ё	0,072	16	П	0,023	27	X	0.009
5	А	0,062	17	У	0,021	28	Ж	0.007
6	И	0,062	18	Я	0,018	29	Ю	0,006
7	Т	0,053	19	Ы	0,016	30	Ш	0.006
8	Н	0,053	20	3	0,016	31	Ц	0.004
9	С	0,045	21	Ь	0,014	32	Щ	0.003
10	Р	0,040	22	Ъ	0,014	33	Э	0,003
11	В	0,038	23	Б	0,014	34	Ф	0.002
12	Л	0,035

Аналогичные подсчеты H можно провести и для других языков, использующих латинский алфавит, - английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле Шеннона для этих языков получим:

H= Iog₂ 27 = 4,76 бит.

Как и в случае русского языка, частота появления тех или иных знаков не одинакова. В порядке убывания вероятностей получим:

Английский язык: «пробел», Е,Т, А, О, N, R, …

Немецкий язык: «пробел», Е, N, I, S,T, R, …

Французский язык: «пробел», Е, S, A, N, I, T, …

ПРИМЕР ОБЪЕМНОГО ПОДХОДА.

Разработчики компьютеров отдают предпочтение двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния. Примеры: физический элемент, имеющий два различных состояния; намагниченность в двух противоположных направлениях; прибор, пропускающий или не пропускающий электрический ток; конденсатор, заряженный или незаряженный. Наименьшей возможной единицей информации в компьютере является бит (binary digit -двоичная цифра). Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных цифр (битов). При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода). Для удобства введены и более крупные, чем бит, единицы количества информации.

1 байт = 8 бит;

1 килобайт (Кбайт) = 2¹⁰ бит = 1024 байт;

1 мегабайт (Мбайт) = 1024 килобайт;

1 гигабайт (Гбайт) = 1024 мегабайт:

Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в вероятностном смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измерение количества информации в обоих смыслах, то они не обязательно совпадают, при этом вероятностное количество информации не может быть больше объемного.

<<< < Предыдущая 1 23 / 323 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
04.11.2018310.27 Кб4Лекции финансы часть 2.doc
#
05.11.2018329.22 Кб10Лекции финансы часть 2.doc
#
18.08.2019904.19 Кб27лекции эдо.doc
#
18.11.2019658.94 Кб4Лекции. Аналоговые устройства на ОУ Раздел 1.ОУ...doc
#
14.07.201941.39 Кб2Лекции.docx
#
06.11.20181.25 Mб18ЛЕКЦИИ_ПО_ИНФОРМАТИКЕ_ПРЕПОД_3457_220301.doc
#
06.11.2018845.31 Кб27ЛЕКЦИИ_ПО_ПРОГРАММИРОВАНИЮ_ПРЕПОД_3403_220301.doc
#
14.08.2019262.24 Кб5Лекционный материал по дисциплине.docx
#
18.11.2019388.72 Кб5лекция 11.docx
#
09.04.2015108.03 Кб10Лекция . СПС, как вид документальных ИПС.doc
#
24.08.201980.38 Кб3Лекция 1.doc