Автор работы: Пользователь скрыл имя, 20 Января 2011 в 12:22, лекция
Традиционно для кодирования одного символа используется 1 байт (8 двоичных разрядов). Это позволяет закодировать N = 28 = 256 различных символов, которых обычно бывает достаточно для представления текстовой информации (прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т.д.).
Двоичное кодирование текстовой информации.
p align="justify">Традиционно
для кодирования одного
Начиная с 60 годов, компьютеры все больше стали использоваться для обработки текстовой информации.
Традиционно для кодирования одного символа используется 1 байт (8 двоичных разрядов). Это позволяет закодировать N = 28 = 256 различных символов, которых обычно бывает достаточно для представления текстовой информации (прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т.д.).
При двоичном кодировании текстовой информации каждому символу ставится в соответствие своя уникальная последовательность из восьми нулей и единиц, свой уникальный двоичный код от 00000000 до 11111111 (десятичный код от 0 до 255).
Присвоение символу конкретного двоичного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и т.д.). Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Коды с 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы. К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв, поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
Хронологически одним из первых стандартов кодирования русских букв на компьютерах был код КОИ-8 («Код обмена информацией 8-битный»). Эта кодировка применяется на компьютерах с операционной системой UNIX.
Наиболее распространенная кодировка- это стандартная кириллическая кодировка Microsoft Windows, обозначаемая сокращением СР1251 («СР» означает «Code Page», «кодовая страница»). Все Windows-приложения, работающие с русским языком, поддерживают эту кодировку.
Таблица 3.2. Кодировки символов
|
Для работы в среде операционной системы MS-DOS используется «альтернативная» кодировка, в терминологии фирмы Microsoft - кодировка СР866.
Фирма Apple разработала для компьютеров Macintosh свою собственную кодировку русских букв (Мае).
Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.
Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы. Каждая кодировка задается своей собственной кодовой таблицей.
Например, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово ЭВМ, тогда как в других кодировках это будет бессмысленный набор символов.
К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов. При работе в приложениях Windows предусмотрена возможность автоматической перекодировки документов, созданных в приложениях MS-DOS. При работе в Интернет с использованием броузеров Internet Explorer и Netscape Communicator происходит автоматическая перекодировка Web-страниц.
В последнее время появился новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а N = 216 = 65536 различных символов. Эту кодировку поддерживает платформа Microsoft WindowsOffice 97.
Двоичное кодирование графической информации
С 80-х годов интенсивно развивается технология обработки на компьютере графической информации. Компьютерная графика позволяет создавать и редактировать рисунки, схемы, чертежи, преобразовывать изображения (фотографии, слайды и т.д.), представлять статистические данные в форме деловой графики, создавать анимационные модели (научные, игровые и т.д.), обрабатывать «живое видео».
Графическая информация на экране монитора представляется в виде изображения, которое формируется из точек (пикселей). В простейшем случае (черно-белое изображение без градаций серого цвета) каждая точка экрана может иметь лишь два состояния — «черная» или «белая», т.е. для хранения ее состояния необходим 1 бит.
Цветные изображения могут иметь различную глубину цвета (бит на точку 4, 8, 16, 24). Каждый цвет можно рассматривать как возможное состояние точки, и тогда по формуле N = 21 может быть вычислено количество цветов, отображаемых на экране монитора.
Таблица 3.3. Количество отображаемых цветов
Изображение может иметь различный размер, который определяется количеством точек по горизонтали и по вертикали В современных персональных компьютерах обычно используются четыре основных размера изображения или разрешающих способностей экрана: 640*480, 800*600, 1024*768 и 1280*1024 точки.
Для того чтобы на экране монитора формировалось изображение, информация о каждой его точке (цвет точки) должна храниться в видеопамяти компьютера. Рассчитаем необходимый объем видеопамяти для наиболее распространенного в настоящее время графического режима (800*600 точек, 16 бит на точку).
Всего точек на экране: 800 * 600 = 480000
Необходимый объем видеопамяти: 16 бит * 480000 = 7680000 бит = 960000 байт = 937,5 Кбайт.
Аналогично рассчитывается необходимый объем видеопамяти для других графических режимов.
Таблица 3.4. Объем видеопамяти для различных графических режимов
|
Современные компьютеры обладают такими техническими характеристиками, которые позволяют обрабатывать и выводить на экран, так называемое «живое видео», т.е. видеоизображение естественных объектов. Видеоизображение формируется из отдельных кадров, которые сменяют друг друга с высокой частотой (не воспринимаемой глазом). Обычно частота кадров составляет 25 Гц, т.е. за 1 секунду сменяется 25 кадров.
Двоичное кодирование звуковой информации
С начала 90-х годов персональные компьютеры получили возможность работать со звуковой информацией Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию С помощью специальных программных средств (редакторов аудиофайлов) открываются широкие возможности по созданию, редактированию и прослушиванию звуковых файлов Создаются программы распознавания речи и появляется возможность управления компьютером при помощи голоса
Звуковой сигнал
- это непрерывная волна с
При двоичном кодировании непрерывного звукового сигнала он заменяется серией его отдельных выборок- отсчетов
Каждая выборка фиксирует реальную амплитуду сигнала и присваивается ей определенное, наиболее близкое, дискретное значение Чем большее количество дискретных значений может обеспечить звуковая карта и чем большее количество выборок производится за 1 секунду, тем точнее процедура двоичного кодирования
Современные звуковые карты могут обеспечить кодирование 65536 различных уровней сигнала или состояний Для определения количества бит, необходимых для кодирования, решим показательное уравнение
65536 = 21, т к 65536 = 216 , то I = 16 бит
Таким образом,
современные звуковые карты обеспечивают
16-битное кодирование звука При
каждой выборке значению амплитуды
звукового сигнала
Количество выборок в секунду может быть в диапазоне от 8000 до 48000, т е частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 Кгц При частоте 8 Кгц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 Кгц - качеству звучания аудио-CD Следует также учитывать, что возможны как моно-, так и стерео-режимы
Можно оценить информационный объем моноаудиофайла длительностью звучания 1 секунду при среднем качестве звука (16 бит, 24 Кгц) Для этого количество бит на одну выборку необходимо умножить на количество выборок в 1 секунду
16 бит * 24000 = 384000 бит = 48000 байт » 47 Кбайт
Информация о работе Двоичное кодирование текстовой информации