- •Предисловие.
- •1. Введение.
- •2. Количество информации.
- •2.1. Формула хартли.
- •2.2. Формула шеннона.
- •2.3. Свойства энтропии.
- •2.4. Энтропия в информатике и физике.
- •2.5. Вероятностный и объемный подходы к измерению количества информации.
- •2.6. Различные аспекты анализа информации.
- •3. Принципы кодирования и декодирования информации.
- •3.1. Буква (знак, символ). Алфавит.
- •3.2. Кодировщик и декодировщик.
- •3.3. Международные системы байтового кодирования.
- •3.4. Помехоустойчивое кодирование информации.
- •4. Передача информации.
- •4.1. Из истории развития передачи информации.
- •4.2 . Общая схема передачи информации.
- •4.3. Теорема котельникова.
- •4.4.Информационная емкость дискретного сигнала (сообщения). Формула шеннона.
- •4.5. Предельная скорость передачи информации по шеннону. Формула хартли - шеннона.
- •4.6. Теорема шеннона для дискретного канала с помехами.
- •5. Дискретные двоичные (бинарные) сигналы.
- •5.1. Регенерация двоичных сигналов.
- •5.2. Помехозащищенность двоичных сигналов.
- •5.3. Кодирование двоичных сигналов.
- •6. Аналоговые и дискретные процессы.
- •6.1. Аналоговые и дискретные сигналы.
- •6.2. Измерение отношения сигнал – шум.
- •6.3. Дискретизация и кодирование аналогового сигнала.
- •7. Цифровая телефонная связь.
- •8. Цифровая телеграфная связь.
- •9. Цифровое телевидение.
- •10. Системы передачи информации
- •10.1. Параметры радиосигналов.
- •10.2. Многоканальные линии связи. Уплотнение информации.
- •11. Оптоволоконная связь.
- •11.1. Из истории кабельной связи.
- •11.2. Принцип оптоволоконной связи.
- •12. Локальные сети.
- •12.1. Аппаратные средства.
- •12.2. Конфигурация локальных сетей.
- •12.3. Организация обмена информацией.
- •13. Спутниковая связь.
- •13.1. Общая характеристика спутниковой связи.
- •13.2. Принципы спутниковой связи.
- •14. Системы счисления.
- •14.1. Непозиционные системы счисления.
- •14.2. Позиционные системы счисления.
- •14.3. Перевод чисел из десятичной системы в другую систему.
- •14.4. Перевод чисел в десятичную систему из других систем.
- •14.5. Взаимные преобразования двоичных, восьмеричных и шестнадцатеричных чисел.
- •14.6. Двоично-десятичная система.
- •15. Языки программирования.
- •15.1. Языки программирования. Общая характеристика.
- •15.2. Язык программирования си. История создания. Общая характеристика.
- •15.3. Язык программирования си. Процесс создания исполняемого файла.
- •15.4. Язык программирования си. Распределение памяти программы.
- •15.5. Язык программирования си. Основные понятия.
- •15.6. Язык программирования си. Данные.
- •15.7. Язык программирования си. Структура простой программы.
- •Приложение 1. Система семибитного кодирования.
- •Приложение 2. Модифицированная альтернативная кодировка.
- •Приложение 3: клод элвуд шеннон.
- •Литература.
- •Оглавление.
2.4. Энтропия в информатике и физике.
Как в физическом, так и в информационном смысле величина энтропии характеризует степень разнообразия состояний системы.
Формула Шеннона совпадает с формулой Больцмана для энтропии физической системы. По Второму закону термодинамики энтропия замкнутой системы молекул:
- общее число молекул,
- количество молекул в интервале со скоростями - +d,
- вероятность такого состояния.
Максимальное значение энтропии при равновероятных состояниях растет с ростом этих состояний.
Энтропия объединения нескольких независимых источников равна сумме энтропий исходных источников.
2.5. Вероятностный и объемный подходы к измерению количества информации.
Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а в работах по созданию ЭВМ был развит объемный подход.
ПРИМЕР ВЕРОЯТНОСТНОГО ПОДХОДА.
Определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли : H=log2 34≈ 5 (бит). Однако, в словах русского языка, равно как и в словах других языков, различные буквы встречаются неодинаково часто. Поэтому для подсчета энтропии H надо использовать формулу Шеннона. При этом: Н≈ 4.72 (бит). Полученное значение энтропии H, меньше вычисленного по формуле Хартли, т. к. при не равновероятных состояниях свобода выбора источника ограничена, что должно привести к уменьшению неопределенности (и количества информации). Так, если источник имеет два состояния с вероятностями 0,99 и 0,01, то неопределенность здесь значительно меньше, чем при равновероятных состояниях с вероятностями 0,5 и 0,5. Мера неопределенности зависит от функции распределения случайной величины.
Величина энтропии H, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак при равновероятном появлении знаков.
Частотность букв русского языка (вероятности появления в тексте pi, полученные на основе анализа очень больших по объему текстов) представлена в следующей таблице.
n |
Симв. |
pi |
n |
Симв. |
pi |
n |
Симв. |
pi |
1 |
Пробл |
0,175 |
13 |
К |
0,028 |
24 |
Г |
0,012 |
2 |
О |
0,090 |
14 |
М |
0,026 |
25 |
Ч |
0,012 |
3 |
Е |
0,072 |
15 |
Д |
0,025 |
26 |
Й |
0,010 |
4 |
Ё |
0,072 |
16 |
П |
0,023 |
27 |
X |
0.009 |
5 |
А |
0,062 |
17 |
У |
0,021 |
28 |
Ж |
0.007 |
6 |
И |
0,062 |
18 |
Я |
0,018 |
29 |
Ю |
0,006 |
7 |
Т |
0,053 |
19 |
Ы |
0,016 |
30 |
Ш |
0.006 |
8 |
Н |
0,053 |
20 |
3 |
0,016 |
31 |
Ц |
0.004 |
9 |
С |
0,045 |
21 |
Ь |
0,014 |
32 |
Щ |
0.003 |
10 |
Р |
0,040 |
22 |
Ъ |
0,014 |
33 |
Э |
0,003 |
11 |
В |
0,038 |
23 |
Б |
0,014 |
34 |
Ф |
0.002 |
12 |
Л |
0,035 |
|
|
|
|
|
|
Аналогичные подсчеты H можно провести и для других языков, использующих латинский алфавит, - английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле Шеннона для этих языков получим:
H= Iog2 27 = 4,76 бит.
Как и в случае русского языка, частота появления тех или иных знаков не одинакова. В порядке убывания вероятностей получим:
Английский язык: «пробел», Е,Т, А, О, N, R, …
Немецкий язык: «пробел», Е, N, I, S,T, R, …
Французский язык: «пробел», Е, S, A, N, I, T, …
ПРИМЕР ОБЪЕМНОГО ПОДХОДА.
Разработчики компьютеров отдают предпочтение двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния. Примеры: физический элемент, имеющий два различных состояния; намагниченность в двух противоположных направлениях; прибор, пропускающий или не пропускающий электрический ток; конденсатор, заряженный или незаряженный. Наименьшей возможной единицей информации в компьютере является бит (binary digit -двоичная цифра). Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных цифр (битов). При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода). Для удобства введены и более крупные, чем бит, единицы количества информации.
1 байт = 8 бит;
1 килобайт (Кбайт) = 210 бит = 1024 байт;
1 мегабайт (Мбайт) = 1024 килобайт;
1 гигабайт (Гбайт) = 1024 мегабайт:
Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в вероятностном смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измерение количества информации в обоих смыслах, то они не обязательно совпадают, при этом вероятностное количество информации не может быть больше объемного.