Кодирование букв.

Кодирование букв.

Проще всего дело обстоит с символьной информацией. Она уже представлена записью в некотором алфавите. Поэтому достаточно каждый символ этого алфавита закодировать некоторым словом в двухсимвольном алфавите. Слов, состоящих из одного символа такого алфавита, только 2. Двухсимвольных слов уже 4 — это 00, 01, 10 и 11. Если рассматривать последовательность из четырех символов, то этого достаточно для записи 16 слов. В латинском алфавите 26 букв, а пятисимвольных слов из 0 и 1 — 32, т. е. достаточно, чтобы каждой букве латинского алфавита присвоить свой пятизначный код.

Но ведь буквы бывают не только строчные, но и прописные. Чтобы их различать, требуется дополнительный символ в коде. Л ведь есть еще цифры, знаки препинания и арифметических действий, специальные знаки (например, %, №) и, конечно, особо популярный во всех текстах символ «пробел*.

Слов из семи символов хватает для того, чтобы закодировать сообщения не только на английском, но и на хорошем русском языке. Именно таков отечественный код КОИ-7. Сокращение КОИ родилось из первых букв словосочетания «код обмена информацией*.

Чтобы не употреблять длинный оборот «последовательность из стольких-то знаков, каждый из которых нуль или единица*, люди договорились появление одного такого знака в последовательности называть битом (от английского Binary digiT — двоичная цифра). Теперь можно сказать, что КОИ-7 — это семибитное кодирование русскоязычных сообщений.

В большинстве первых компьютеров использовался семибитный код. Однако с развитием техники это стало неудобно. Новый код был уже восьмибитным и основывался на американском стандартном коде информационного обмена (ASCII — American Standard Code for Information Interchange).

Последовательность восьми битов договорились называть словом байт. Но и один байт окажется мал, если требуется оценить, сколько места в памяти компьютера занимает, скажем, десяток страниц текста. Поэтому были введены более крупные единицы — килобайт (обозначение Кбайт), мегабайт (Мбайт), гигабайт (Гбайт), терабайт (Тбайт) и т. д. Соотношения между ними таковы:

1 Кбайт = 1024 байт;

1 Мбайт = 1024 Кбайт;

1 Гбайт = 1024 Мбайт;

1 Тбайт = 1024 Гбайт.

Конечно, в современном мире, опутанном компьютерными сетями, даже восьмибитного кодирования недостаточно: есть же арабский алфавит, два японских, хинди, математическая символика и т. д. Поэтому был введен новый стандарт символьного кодирования — UNICODE, где каждый символ кодируется уже двумя байтами.

Из рассказанного ясно, что компьютер оказался хорошо приспособленным для обработки символьной информации, при этом неважно, текстовая она или числовая.

⇐ Предыдущая 123 4 Следующая ⇒