Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИНФОРМАТИКА конспект лекций.doc
Скачиваний:
30
Добавлен:
26.11.2019
Размер:
347.65 Кб
Скачать

2.3.Кодирование алфавитно-цифровой информации.

Современные ЭВМ обрабатывают не только числовую, но и ал­фавитно-цифровую информацию, содержащую цифры, буквы, знаки пре­пинания, математические и другие символы. Именно такой характер имеет экономическая, планово-производственная, учетная, бухгалтерская и другая информация, содержащая наименование предметов, фамилии людей и т.д. Возможность ввода, обработки и вывода алфавитно-цифровой информации важна и для решения чисто математических задач, так как это позволяет оформлять результаты вычислений в удобной форме с применением таблиц, графиков, комментариев и рисунков.

Алфавитно-цифровые символы позволяют оформлять алгоритмы решения задач в наиболее удобной для человека форме (для этого разработаны специальные алгоритмические языки) и вводить в ЭВМ, поручая ЭВМ по специальным программам перевод вводимых алгорит­мов с алгоритмического языка на внутренний машинный язык машины, т.е. в программу, записанную в системе команд ЭВМ. Программы, осуществляющие такой перевод, называются трансляторами, компиля­торами и интерпретаторами.

Совокупность всех символов, используемых в ЭВМ, представля­ет собой ее алфавит. Каждый вводимый в ЭВМ символ с помощью устройства ввода пре­образуется в соответствующий двоичный код фиксированной длины. В настоящее время чаще всего для кодирования символов используется 8-разрядный двоичный код, т.е. байт. Посредством байта можно ко­дировать до 256 различных символов. (Это вытекает из формулы Хартли – N=2n. 256=28 )В настоящее время используется несколько различных кодировок: Windows 1251, Кодовая страница 766 MS-DOS, KOI-8R, ISO 8859-5.

Особенности кодировки букв русского алфавита. Итак, для кодирования символа используется один байт. Естественно, одного байта недостаточно для кодировки символов всех известных языков. Поэтому поступили так. Первые 128 значений байта (числа 0 – 7F) были выделены для кодирования символов латинского алфавита (строчных и прописных), арабских цифр 0 – 9 и некоторых других стандартных символов.

Для кодирования символов других национальных алфавитов отводятся числа с 80 по ff (или с128 по 255 в десятичной системе счисления).

К сожалению, имеет место несколько различных кодировок именно букв русского алфавита. Так, например, в кодировке Win 1251 русской прописной букве А соответствует число CO (192), а строчной букве я – число FF (255). А в кодировке KOI-8 числом CO (192) кодируется не прописная буква А, а строчная буква ю. В скобках указаны десятичные эквиваленты шестнадцатеричных чисел.

Теперь представим себе, что будет, если для отображения текста в кодировке KOI-8 используется шрифт, настроенный на кодировку Win 1251. Пусть, например, в кодировке KOI-8 записана фраза «Кирилл и Мефодий». В компьютере ее будет представлять такая последовательность чисел:

EB (235), C9 (201), D2 (210), C9 (201), CC (204), CC (204), 20 (32), C9 (201), 20 (32), ED (237), C5 (197), C6 (198), CF (207), C4 (196), C9 (201), CA (202)

Числу EB (235) в кодировке KOI-8 соответствует буква К, числу C9 (201) – буква и и т.д. Но в шрифте, настроенном на кодировку Win 1251, числом EB (235) кодируется буква л, числом C9 (201) – буква Й. В результате получится такая фраза: ЛЙТЙММ Й нЕЖПДЙК

Такие превращения довольно характерны для русского Интернета. Часто, загрузив страницу текста из Интернета в браузер (специальную программу для просмотра публикаций в Интернете), можно увидеть мешанину из русских букв вместо понятного текста. Если такое случилось, попробуйте нужно просто изменить кодировку вручную. В разных браузерах это делается по-разному. В Internet Explorer 5.0 нужно в меню «Вид» раскрыть подменю «Вид кодировки» и выбрать команду «Кириллица (KOI8-Р)». После этого на экране появится нормальный русский текст. В подменю «Вид кодировки» представлены и другие кодировки.