Оцифровка текстов

В отличие от более сложных преобразований аналоговой информации, оцифровка текста состоит из операции шифровки каждой буквы в цифровую характеристику. Задача шифровки текста сравнительно проста, т.к. окончательно определено количество знаков (буквы, цифры, запятые, точки и т.д.), которые необходимо преобразовать. В целом, все эти элементы составят число меньшее, чем 256, и, следовательно, комбинации из 8 бит будет вполне достаточно для управления, передачи и записи текстовой информации. Поэтому байт является основным в большинстве компьютерных программ, предназначенных для обработки текстов и таблиц.

Для текстовых файлов наиболее часто используются две технологии шифровки. Первая развивалась фирмой IBM и называется EBCDIC (Extended Binary Coded Decimal Interchange Code). Эта норма используется в больших ЭВМ и закрытых сетях. Сегодня употребляется все меньше и меньше. Использует 8 бит для представления алфавитной характеристики, к которой добавляется еще один бит, отвечающий за точность проведенной шифровки.

Вторая норма наиболее употребима и используется практически всеми персональными компьютерами. Носит название ASCII (American Standart Code for Information Interchange). Использует, как правило, 7 бит для передачи алфавитных характеристик и один бит для определения точности операции. Существуют версии ASCII , которые как EBСDIC используют полный байт для шифровки букв алфавита.

Размер файлов

В зависимости от вариантов необходимых характеристик количество текста, записанного в 100 мегабайтах, может серьезно отличаться.

Количество текста

Число страниц

Текст в ASCII

70 000

Текст с различными шрифтами и дополнительными характеристиками

20 000