Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Obrobka_dokumentiv.doc
Скачиваний:
1
Добавлен:
04.09.2019
Размер:
276.48 Кб
Скачать

Редактори неформатованих текстів

NotePad – вбудований в операційну систему Windows, зрозумілий і простий і використанні;

McEdit – має схожість з редактором Edit з MS DOS, компонента файлового менеджера mc (Midnight Commander) ОС Linux;

KEdit – простий текстовий редактор, входить до складу KDE Linux;

KWrite – текстовий редактор, що має ряд додаткових налаштувань у порівнянні з іншими простими текстовими редакторами;

Emacs – поєднує в собі функції файлового менеджера і текстового редактора; однією з відмінних рис є можливість створення макрокоманд (макросів); є у всіх клонах Unix, у тому числі і у Linux; Emacs можна використовувати і в MS Windows.

Редактори, що створюють текст з елементами розмітки

Word – служить для створення всіляких друкарських документів, є компонентом офісних застосувань в MS Windows;

StarWriter – входить до складу програми StarOffice, зовнішнім виглядом і функціональністю він схожий на Word, однаково добре працює як у MS Windows, так і в ОС Linux;

LYX (KLyX в KDE) – сучасний текстовий редактор, призначений для людей, які хочуть отримати документ, що виглядає професійно, але на його створення витрачається мінімум часу; редактор вставляє в текст команди розмітки TEX і LaTeX;

Netscape Composer – вставляє в текст команди розмітки мови HTML, існують версії як для ОС Linux, так і для MS Windows.

Кодування українського тексту

Історично склалося так, що для представлення друкарських символів (кодування тексту) в перших ЕОМ відвели 7 біт. 27=128. Цієї кількості сповна вистачало для кодування всіх рядкових і прописних букв латинського алфавіту, десяти цифр і різних знаків і дужок. Саме такою, 7-бітовою, є таблиця символів ASCII (американський стандартний код для обміну інформацією), детальну інформацію про яку ви можете отримати за допомогою команди man ascii операційної системи Linux.

Коли виникла необхідність кодувати національні алфавіти, то 128 символів стало недостатньо. Було вирішено перейти на кодування за допомогою 8 біт (тобто одного байта). В результаті кількість символів, які можна закодувати таким чином дорівнювало 28=256. При цьому символи національних алфавітів розташовувалися в другій половині кодової таблиці, тобто містили одиницю в старшому розряді байта, відведеного для кодування символу. Так з'явився стандарт ISO 8859, що містить безліч кодувань для найбільш поширених мов.

Серед них була і одна з перших таблиць для кодування російських букв – ISO 8859-5 (скористайтеся командою man iso_8859_1 для отримання коду російських букв в цій таблиці).

Завдання передачі текстової інформації по мережі змусили розробити ще одне кодування для українських букв, названу Koi8‑U (код відображення інформації 8-бітовий, українізований). Розглянемо ситуацію, коли лист, що містить український текст, відправлений електронною поштою. Траплялося, що в процесі подорожі по мережах лист оброблявся програмою, яка працювала з 7-бітовим кодуванням і обнуляла восьмий біт. У результаті такого перетворення код символу зменшувався на 128, перетворюючись на код символу латинського алфавіту. Виникла необхідність підвищити стійкість передаваної текстової інформації до обнуління 8 біта.

На щастя, значне число букв кирилиці має фонетичні аналоги в латинському алфавіті. Наприклад, Ф і F, Р і R. Є декілька букв, співпадаючих навіть по зображенню. Розташувавши російські букви в кодовій таблиці так, щоб їх код перевищував код аналогічних латинських на число 128. Добилися того, що втрата 8‑го біта перетворювала текст хоча і в той, що складається з однієї латиниці, але що все одно розуміється україномовним користувачем.

Оскільки зі всіх операційних систем, поширених у той час, найзручнішими засобами роботи з мережею були різні клони операційної системи Unix, то це кодування стало фактичним стандартом в цих системах. Такою вона є і зараз в ОС Linux. І саме це кодування найчастіше застосовується для обміну поштою і новинами в Інтернет.

Далі настала ера персональних комп'ютерів і операційної системи MS DOS. Як з'ясувалося, кодування Koi8-U, Koi8-R для неї не личило (так само, як і ISO 8859-5), в її таблиці деякі кириличні букви знаходилися на тих місцях, які багато програм передбачали заповненими псевдографікою (горизонтальні і вертикальні риски, куточки і т. д.). Тому було придумано ще одне кодування кирилиці, в таблиці якої українські букви "обтікали" з усіх боків графічні символи. Назвали це кодування альтернативним (alt), оскільки вона була альтернативою офіційному стандарту – кодуванню ISO-8859-5. Безперечною перевагою цього кодування є те, що українські/російські букви в ній розташовані в алфавітному порядку.

Після появи ОС Windows від фірми Microsoft з'ясувалося, що альтернативне кодування по деяких причинах для неї не підходить. Знову пересунувши українські букви в таблиці (з'явилася можливість – адже псевдографіка в Windows не потрібна), отримали кодування Windows 1251 (Win-1251).

Але комп'ютерні технології постійно удосконалюються і в даний час все більша кількість програм починає підтримувати стандарт Unicode, який дозволяє кодувати практично всі мови і діалекти жителів Землі.

Отже, в різних ОС перевага віддається різним кодуванням. Для того, щоб стало можливим читання і редагування тексту, набраного в іншому кодуванні, використовуються програми перекодування українського тексту. Деякі текстові редактори містять вбудовані перекодувальники, що дозволяють читати текст в різних кодуваннях (Word і ін.). Ми для перекодування файлів використовуватимемо ряд утиліт в ОС Linux, призначення яких ясно з назви: alt2koi, win2koi, koi2win, alt2win, win2alt, koi2alt (звідки, куди, цифра 2 (two) схожа по звучанню з приводом to, вказуючим напрям). Ці команди мають однаковий синтаксис: команда <Вхідний_файл > вихідний_файл.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]