Автор работы: Пользователь скрыл имя, 08 Января 2013 в 17:54, курсовая работа
Целью настоящей работы является рассмотрение видов информации, областей применения и подходов к ее количественной оценке. Для этого нужно рассмотреть следующие задачи и вопросы. Первой задачей является изучение общих понятий по данной теме. Рассмотрение конкретных способов оценки количества информации – вторая задача.
Пример сообщений: текст телеграммы, данные на выходе ЭВМ, речь, музыка и т.д.
Для того
чтобы сообщение можно было
передать получателю, необходимо
воспользоваться некоторым
Изменяющийся во времени физический процесс, отражающий передаваемое сообщение, называется сигналом.
Сообщения
могут быть функциями времени
(когда информация
Совокупность технических средств используемых для передачи сообщений от источника к потребителю информации называется системой связи. Общая схема системы связи представлена на рисунке 1.1.
Рисунок 1.1 – Система связи
2 Подходы к оценке количества информации
2.1 Неизмеряемость информации в быту (информация как новизна)
Получено какое - то сообщение, например, прочитана статья в любимом журнале. В этом сообщении содержится какое-то количество информации. Как оценить, сколько информации было получено? Другими словами, как измерить информацию? Можно ли сказать, что чем больше статья, тем больше информации она содержит?
Разные люди, получившие одно и то же сообщение, по-разному оценивают его информационную ёмкость, то есть количество информации, содержащееся в нем. Это происходит оттого, что знания людей о событиях, явлениях, о которых идет речь в сообщении, до получения сообщения были различными. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, могут сказать, что информации не получили вовсе. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя.
В таком случае, количество информации в одном и том же сообщении должно определяться отдельно для каждого получателя, то есть иметь субъективный характер. Но субъективные вещи не поддаются сравнению и анализу, для их измерения трудно выбрать одну общую для всех единицу измерения.
Таким образом, с точки зрения информации как новизны, нельзя однозначно и объективно оценить количество информации, содержащейся даже в простом сообщении.
Поэтому, когда информация рассматривается как новизна сообщения для получателя, не ставится вопрос об измерении количества информации.
2.2 Количественный (объемный) подход
Количественный (объемный) подход к измерению информации позволяет определить количество информации, заключенной в тексте. Объемный подход является объективным, т.е. он не зависит от субъекта (человека), воспринимающего текст. Он основан на подсчете числа символов в сообщении, то есть связан только с длиной сообщения и не учитывает его содержания. Длина сообщения зависит от числа знаков, употребляемых для записи сообщения. Например, число 21 можно записать следующим образом:
«двадцать один» - количество символов максимально и равно 12;
21 – количество символов минимально и равно 2;
10101 – количество символов равно 5;
ХХI – количеств символов равно 3.
В вычислительной технике вся хранимая и обрабатываемая информация представлена в двоичной форме (алфавит состоит из символов 0 и 1). Такая стандартизация позволила ввести две стандартные единицы измерения информации: бит (англ. binary digit - двоичная цифра) и байт (byte). Каждый символ в настоящее время в вычислительной технике кодируется 8-битным или 16-битным кодом. Для удобства была введена более “крупная” единица информации в технике - байт. 1 байт = 8 бит. Количество информации в техническом сообщении совпадает с количеством символов в нем. Поскольку компьютер предназначен для обработки больших объемов информации, то используют производные единицы - килобайт (Кб), мегабайт (Мб), гигабайт (Гб).
В вычислительной технике все «привязывается» к принятой двоичной системе кодирования. В силу этого один килобайт равен не тысяче байтов, а 210 = 1024 байтов. Аналогично, 1 Мб = 210 Кб = 1024 Кб = 220 байт = 1 048 576 байт. 1 Гб = 210 Мб = 220 Кб = 230 байт = 1 073 741 824 байт [Таблица 2.1].
Таблица 2.1
Единицы измерения информации
1 бит |
||
1 байт |
= 8 бит |
|
1 Кбайт (килобайт) |
= 210 байт = 1024 байт |
~ 1 тысяча байт |
1 Мбайт (мегабайт) |
= 210 Кбайт = 220 байт |
~ 1 миллион байт |
1 Гбайт (гигабайт) |
= 210 Мбайт = 230 байт |
~ 1 миллиард байт |
Таким образом, информационный объем сообщения (информационная емкость сообщения) – количество информации в сообщении, измеренное в битах, байтах или производных единицах (Кбайтах, Мбайтах и т. д.).
2.3 Вероятностный (энтропийный) подход
Вероятностный подход оценивает количество информации как меру уменьшения неопределенности знаний (энтропию). Количество информации, заключенное в сообщении, определяется объемом знаний, который несет это сообщение получающему его человеку.
Сообщение содержит информацию для человека, если заключенные в нем сведения являются для этого человека новыми и понятными и, следовательно, пополняют его знания.
При вероятностном подходе возможна качественная оценка информации: полезная, безразличная, важная, вредная ... Одну и ту же информацию разные люди могут оценить по-разному.
Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий (равновероятность обозначает, что ни одно событие не имеет преимуществ перед другими). Тогда количество информации, заключенное в этом сообщении, — i бит и число N связаны формулой: 2i =N или I = log 2 N. (2.1)
Пример. Пусть имеется колода карт, содержащая 32 различные карты. Вероятность выбора какой-либо карты равна 1/32. Для каждой из карт колоды эта вероятность одинакова. Сумма равновероятных выборов равна 32.
Количество информации, получаемое в результате выбора карты из колоды, равно i = log 2 32= 5
Это количество характеризует число двоичных вопросов (ответы на которые имеют значения «да», «нет»). Для выбора дамы «пик» такими вопросами будут:
Вопрос |
Ответ |
1.Карта красной масти? |
Нет (0) |
2. Трефы? |
Нет(0) |
3. Одна из 4-х старших? |
Да(1) |
4. Одна из 2-х старших? |
Нет(0) |
5. Дама пик? |
Да(1) |
Рисунок 2.1 – Выбор карты из колоды
Этот выбор можно описать последовательностью из пяти двоичных символов. После пяти вопросов неопределенность устранена. Потребовалось количество информации, равное 5.
Научный подход к оценке сообщений был предложен в 1928 году Р.Хартли. Расчетная формула имеет вид:
I = log2 N или 2I = N,
где N - количество равновероятных событий (число возможных выборов),
I - количество информации.
Если N = 2 (выбор из двух возможностей), то I = 1 бит.
Бит выбран в
качестве единицы количества информации
потому, что принято считать, что
двумя двоичными словами
Иногда формула Хартли записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность p = 1 / N, то N = 1 / p и формула имеет вид
I = log2 (1/p) = - log2
p
Познакомимся с более общим случаем вычисления количества информации в сообщении об одном из N, но уже неравновероятных событий. Этот подход был предложен К.Шенноном в 1948 году.
Пример. Пусть имеется строка текста, содержащая тысячу букв. Буква “о” в тексте встречается примерно 90 раз, буква ”р” ~ 40 раз, буква “ф” ~ 2 раза, буква “а” ~ 200 раз. Поделив 200 на 1000, мы получим величину 0.2, которая представляет собой среднюю частоту, с которой в рассматриваемом тексте встречается буква “а”. Вероятность появления буквы “а” в тексте (pa)можем считать приблизительно равной 0.2. Аналогично, pр = 0.04, pф = 0.002, ро = 0.09.
Далее поступаем согласно К.Шеннону. Берем двоичный логарифм от величины 0.2 и называем то, что получилось количеством информации, которую переносит одна-единственная буква “а” в рассматриваемом тексте. Точно такую же операцию проделаем для каждой буквы. Тогда количество собственной информации, переносимой одной буквой равно
hi = log2 1/pi = - log2 pi,
где pi - вероятность появления в сообщении i-го символа алфавита.
Удобнее в качестве меры количества информации пользоваться не значением hi , а средним значением количества информации, приходящейся на один символ алфавита
H = S pi hi
= - S pi log2 pi
Значение Н
достигает максимума при
pi = 1 / N.
В этом случае формула Шеннона превращается в формулу Хартли.
Таким образом, с точки зрения на информацию как на снятую неопределенность количество информации зависит от вероятности получения данного сообщения. Причем, чем больше вероятность события, тем меньше количество информации в сообщении о таком событии. Иными словами, количество информации в сообщении о каком-то событии зависит от вероятности свершения данного события.
2.4 Алгоритмический подход
В данном подходе количественная характеристика сообщения (информации) определяется сложностью программы, воспроизводящей это сообщение.
Пример. Компьютерная программа, воспроизводящая сообщение из одних нулей крайне проста: печатать один и тот же символ; для получения сообщения 0101…01 нужна чуть более сложная программа, печатающая символ, противоположный только что напечатанному.
Отличный от взглядов Р.Хартли, К.Шеннона подход к определению понятия "количество информации", был предложен в 1965 году академиком А.Н. Колмогоровым, который он назвал алгоритмическим.
Исходя из того, что "по существу наиболее содержательным является представление о количестве информации "в чем-либо" (Х) и "о чем-либо" (Y)" [5], А.Н. Колмогоров для оценки информации в одном конечном объекте относительно другого конечного объекта предложил использовать теорию алгоритмов. За количество информации при этом принимается значение некоторой функции от сложности каждого из объектов и длины программы (алгоритма) преобразования одного объекта в другой.
Решение задачи определения количества информации в алгоритмическом подходе имеет общий вид и схематично выглядит следующим образом.
"Относительной сложностью" объекта Y при заданном Х будем считать минимальную длину "программы" Р получения Y из Х. Сформулированное так определение зависит от "метода программирования". Метод программирования есть не что иное, как функция , ставящая в соответствие программе Р и объекту Х объект Y" [5].
Так как каждый из объектов может быть бесконечно сложным, то доказывается теорема, согласно которой относительной сложности объекта Y, при заданном методе программирования, может быть поставлена в соответствие иная относительная сложность, полученная при другом методе программирования , такая, что выполняется неравенство:
,
(2.4)
где - некоторая постоянная программирования, не зависящая от X и Y.
Учитывая, что при любых Х и Y относительная сложность является конечной величиной, а можно считать просто сложностью объекта Y, А.Н. Колмогоров для оценки алгоритмического количества информации в объекте X относительно объекта Y предложил использовать формулу:
, ..............................
причем и, соответственно, .
Алгоритмическая информация по формуле А.Н. Колмогорова может принимать как положительные, так и отрицательные значения. В связи с этим А.Н. Колмогоров делает два замечания. Во-первых, " не меньше некоторой отрицательной константы C, зависящей лишь от условностей избранного метода программирования" [5]. Во-вторых, "вся теория рассчитана на применение к большим количествам информации, по сравнению с которыми будет пренебрежимо мал" [5].