Хелпикс

Главная

Контакты

Случайная статья





Кодирование букв.



Кодирование букв.

 

Проще всего дело обстоит с символьной информацией. Она уже представлена записью в некотором алфавите. Поэтому достаточно каждый символ этого алфавита закодировать некоторым словом в двухсимвольном алфавите. Слов, состоящих из одного символа та­кого алфавита, только 2. Двухсимвольных слов уже 4 — это 00, 01, 10 и 11. Если рассматривать последовательность из четырех символов, то этого достаточно для записи 16 слов. В латинском алфавите 26 букв, а пятисимвольных слов из 0 и 1 — 32, т. е. дос­таточно, чтобы каждой букве латинского алфавита присвоить свой пятизначный код.

Но ведь буквы бывают не только строчные, но и прописные. Чтобы их различать, требуется дополнительный символ в коде. Л ведь есть еще цифры, знаки препинания и арифметических действий, специальные знаки (например, %, №) и, конечно, особо популярный во всех текстах символ «пробел*.

Слов из семи символов хватает для того, чтобы закодировать со­общения не только на английском, но и на хорошем русском язы­ке. Именно таков отечественный код КОИ-7. Сокращение КОИ ро­дилось из первых букв словосочетания «код обмена информацией*.

Чтобы не употреблять длинный оборот «последовательность из стольких-то знаков, каждый из которых нуль или единица*, люди договорились появление одного такого знака в последовательности называть битом (от английского Binary digiT — двоичная цифра). Теперь можно сказать, что КОИ-7 — это семибитное кодирование русскоязычных сообщений.

В большинстве первых компьютеров использовался семибит­ный код. Однако с развитием техники это стало неудобно. Новый код был уже восьмибитным и основывался на американском стандартном коде информационного обмена (ASCII — American Standard Code for Information Interchange).

Последовательность восьми битов договорились называть сло­вом байт. Но и один байт окажется мал, если требуется оценить, сколько места в памяти компьютера занимает, скажем, десяток страниц текста. Поэтому были введены более крупные единицы — килобайт (обозначение Кбайт), мегабайт (Мбайт), гигабайт (Гбайт), терабайт (Тбайт) и т. д. Соотношения между ними таковы:

 

1 Кбайт = 1024 байт;

1 Мбайт = 1024 Кбайт;

1 Гбайт = 1024 Мбайт;

1 Тбайт = 1024 Гбайт.

 

Конечно, в современном мире, опутанном компьютерными сетями, даже восьмибитного кодирования недостаточно: есть же арабский алфавит, два японских, хинди, математическая символи­ка и т. д. Поэтому был введен новый стандарт символьного коди­рования — UNICODE, где каждый символ кодируется уже двумя байтами.

Из рассказанного ясно, что компьютер оказался хорошо при­способленным для обработки символьной информации, при этом неважно, текстовая она или числовая.

 



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.