Подходы к оценке количества информации

Автор работы: Пользователь скрыл имя, 08 Января 2013 в 17:54, курсовая работа

Краткое описание

Целью настоящей работы является рассмотрение видов информации, областей применения и подходов к ее количественной оценке. Для этого нужно рассмотреть следующие задачи и вопросы. Первой задачей является изучение общих понятий по данной теме. Рассмотрение конкретных способов оценки количества информации – вторая задача.

Содержимое работы - 1 файл

Подходы к оценке количества информации.doc

— 301.50 Кб (Скачать файл)

    Пример сообщений:  текст телеграммы, данные на выходе ЭВМ, речь, музыка и т.д.

    Для того  чтобы сообщение можно было  передать получателю, необходимо  воспользоваться некоторым физическим  процессом, способным с той  или иной скоростью распространяться  от источника к получателю  сообщения.

    Изменяющийся во времени физический процесс, отражающий передаваемое сообщение, называется сигналом.

    Сообщения  могут быть функциями времени  (когда информация представлена  в виде первичных сигналов: речь, музыка) и не являются ими (когда  информация представлена в виде совокупности знаков).

    Совокупность технических средств используемых для передачи сообщений от источника к потребителю информации называется системой связи. Общая схема системы связи представлена на рисунке 1.1.

Рисунок 1.1 – Система связи

 

 

    2 Подходы к оценке количества информации

    2.1 Неизмеряемость информации в быту (информация как новизна)

 

  Получено какое - то сообщение, например, прочитана статья в любимом журнале. В этом сообщении содержится какое-то количество информации. Как оценить, сколько информации было получено? Другими словами, как измерить информацию? Можно ли сказать, что чем больше статья, тем больше информации она содержит?

   Разные люди, получившие одно и то же сообщение, по-разному оценивают его информационную ёмкость, то есть количество информации, содержащееся в нем. Это происходит оттого, что знания людей о событиях, явлениях, о которых идет речь в сообщении, до получения сообщения были различными. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, могут сказать, что информации не получили вовсе. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя.

   В таком случае, количество информации в одном и том же сообщении должно определяться отдельно для каждого получателя, то есть иметь субъективный характер. Но субъективные вещи не поддаются сравнению и анализу, для их измерения трудно выбрать одну общую для всех единицу измерения.

    Таким образом, с точки зрения информации как новизны, нельзя однозначно и объективно оценить количество информации, содержащейся даже в простом сообщении.

    Поэтому, когда информация рассматривается как новизна сообщения для получателя, не ставится вопрос об измерении количества информации.

 

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

    2.2 Количественный (объемный) подход

 

    Количественный (объемный) подход к измерению информации позволяет определить количество информации, заключенной в тексте. Объемный подход является объективным, т.е. он не зависит от субъекта (человека), воспринимающего текст. Он основан на подсчете числа символов в сообщении, то есть связан только с длиной сообщения и не учитывает его содержания. Длина сообщения зависит от числа знаков, употребляемых для записи сообщения. Например, число 21 можно записать следующим образом:

«двадцать один» - количество символов максимально и равно 12;

21 – количество символов  минимально и равно 2;

10101 – количество символов  равно 5;

ХХI – количеств символов равно 3.

    В вычислительной технике вся хранимая и обрабатываемая информация представлена в двоичной форме (алфавит состоит из символов 0 и 1). Такая стандартизация позволила ввести две стандартные единицы измерения информации: бит (англ. binary digit - двоичная цифра) и байт (byte). Каждый символ в настоящее время в вычислительной технике кодируется 8-битным или 16-битным кодом. Для удобства была введена более “крупная” единица информации в технике  - байт. 1 байт = 8 бит. Количество информации в техническом сообщении совпадает с количеством символов в нем. Поскольку компьютер предназначен для обработки больших объемов информации, то используют производные единицы - килобайт (Кб), мегабайт (Мб), гигабайт (Гб).

  В вычислительной технике все «привязывается» к принятой двоичной системе кодирования. В силу этого один килобайт равен не тысяче байтов, а 210 = 1024 байтов. Аналогично, 1 Мб = 210 Кб = 1024 Кб = 220 байт = 1 048 576 байт. 1 Гб = 210 Мб = 220 Кб = 230 байт = 1 073 741 824 байт [Таблица 2.1].

 

Таблица 2.1

Единицы измерения информации

 

1 бит

   

1 байт

= 8 бит 

 

1 Кбайт (килобайт)

= 210 байт = 1024 байт

~ 1 тысяча байт

1 Мбайт (мегабайт)

= 210 Кбайт = 220 байт

~ 1 миллион байт

1 Гбайт (гигабайт)

= 210 Мбайт = 230 байт

~ 1 миллиард  байт


  

   Таким образом, информационный объем сообщения (информационная емкость сообщения) – количество информации в сообщении, измеренное в битах, байтах или производных единицах (Кбайтах, Мбайтах и т. д.).

 

 

    2.3 Вероятностный (энтропийный) подход

    Вероятностный подход оценивает количество информации как меру уменьшения неопределенности знаний (энтропию). Количество информации, заключенное в сообщении, определяется объемом знаний, который несет это сообщение получающему его человеку.

  Сообщение содержит информацию для человека, если заключенные в нем сведения являются для этого человека новыми и понятными и, следовательно, пополняют его знания.

   При вероятностном подходе возможна качественная оценка информации: полезная, безразличная, важная, вредная ...  Одну и ту же информацию разные люди могут оценить по-разному.

   Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий (равновероятность обозначает, что ни одно событие не имеет преимуществ перед другими). Тогда количество информации, заключенное в этом сообщении, — i бит и число N связаны формулой: 2i =N или I = log 2 N.                               (2.1)

   Пример. Пусть имеется колода карт, содержащая 32 различные карты. Вероятность выбора какой-либо карты равна 1/32. Для каждой из карт колоды эта вероятность одинакова. Сумма равновероятных выборов равна 32.

   Количество информации, получаемое в результате выбора карты из колоды, равно i = log 2 32= 5

   Это количество характеризует число двоичных вопросов (ответы на которые имеют значения «да», «нет»). Для выбора дамы «пик» такими вопросами будут:

 

Вопрос

Ответ

1.Карта красной  масти?

Нет (0)

2. Трефы?

Нет(0)

3. Одна из 4-х  старших?

Да(1)

4. Одна из 2-х  старших?

Нет(0)

5. Дама пик?

Да(1)


 

                                       Рисунок 2.1 – Выбор карты из колоды   

   Этот выбор можно описать последовательностью из пяти двоичных символов. После пяти вопросов неопределенность устранена. Потребовалось количество информации, равное 5.

   Научный подход к оценке сообщений был предложен в 1928 году Р.Хартли. Расчетная формула имеет вид:

I = log2 N или 2I = N,

где N - количество равновероятных событий (число возможных выборов),

I - количество  информации.

Если N = 2 (выбор  из двух возможностей), то I = 1 бит.

Бит выбран в  качестве единицы количества информации потому, что принято считать, что  двумя двоичными словами исходной длины k или словом длины 2k можно  передать в 2 раза больше информации, чем  одним исходным словом. Число возможных  равновероятных выборов при этом увеличивается в 2k раз, тогда как I удваивается.

   Иногда формула Хартли записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность p = 1 / N, то N = 1 / p и формула имеет вид

I = log2 (1/p) = - log2 p                                                  (2.2)

    Познакомимся с более общим случаем вычисления количества информации в сообщении об одном из N, но уже неравновероятных событий. Этот подход был предложен К.Шенноном в 1948 году.

    Пример. Пусть имеется строка текста, содержащая тысячу букв. Буква “о” в тексте встречается примерно 90 раз, буква ”р” ~ 40 раз, буква “ф” ~ 2 раза, буква “а” ~ 200 раз. Поделив 200 на 1000, мы получим величину 0.2, которая представляет собой среднюю частоту, с которой в рассматриваемом тексте встречается буква “а”. Вероятность появления буквы “а” в тексте (pa)можем считать приблизительно равной 0.2. Аналогично, pр = 0.04, pф = 0.002, ро = 0.09.

  Далее поступаем согласно К.Шеннону. Берем двоичный логарифм от величины 0.2 и называем то, что получилось количеством информации, которую переносит одна-единственная буква “а” в рассматриваемом тексте. Точно такую же операцию проделаем для каждой буквы. Тогда количество собственной информации, переносимой одной буквой равно

hi = log2 1/pi = - log2 pi,

где pi - вероятность появления в сообщении i-го символа алфавита.

   Удобнее в качестве меры количества информации пользоваться не значением hi , а средним значением количества информации, приходящейся на один символ алфавита

H = S pi hi = - S pi log2 pi                                                                        (2.3)

Значение Н  достигает максимума при равновероятных событиях, то есть при равенстве всех pi

pi = 1 / N.

В этом случае формула  Шеннона превращается в формулу Хартли.

  Таким образом, с точки зрения на информацию как на снятую неопределенность количество информации зависит от вероятности получения данного сообщения. Причем, чем больше вероятность события, тем меньше количество информации в сообщении о таком событии. Иными словами, количество информации в сообщении о каком-то событии зависит от вероятности свершения данного события.

 

 

 

 

   2.4 Алгоритмический подход

 

   В данном подходе количественная характеристика сообщения (информации) определяется сложностью программы, воспроизводящей это сообщение.

   Пример. Компьютерная программа, воспроизводящая сообщение из одних нулей крайне проста: печатать один и тот же символ; для получения сообщения 0101…01 нужна чуть более сложная программа, печатающая символ, противоположный только что напечатанному.

   Отличный от взглядов Р.Хартли, К.Шеннона подход к определению понятия "количество информации", был предложен в 1965 году академиком А.Н. Колмогоровым, который он назвал алгоритмическим.

   Исходя из того, что "по существу наиболее содержательным является представление о количестве информации "в чем-либо" (Х) и "о чем-либо" (Y)" [5], А.Н. Колмогоров для оценки информации в одном конечном объекте относительно другого конечного объекта предложил использовать теорию алгоритмов. За количество информации при этом принимается значение некоторой функции от сложности каждого из объектов и длины программы (алгоритма) преобразования одного объекта в другой.

   Решение задачи определения количества информации в алгоритмическом подходе имеет общий вид и схематично выглядит следующим образом.

    "Относительной сложностью" объекта Y при заданном Х будем считать минимальную длину "программы" Р получения Y из Х. Сформулированное так определение зависит от "метода программирования". Метод программирования есть не что иное, как функция , ставящая в соответствие программе Р и объекту Х объект Y" [5].

    Так как каждый из объектов может быть бесконечно сложным, то доказывается теорема, согласно которой относительной сложности объекта Y, при заданном методе программирования, может быть поставлена в соответствие иная относительная сложность, полученная при другом методе программирования , такая, что выполняется неравенство:

,                         (2.4)                                             

где - некоторая постоянная программирования, не зависящая от X и Y.

   Учитывая, что при любых Х и Y относительная сложность является конечной величиной, а можно считать просто сложностью объекта Y, А.Н. Колмогоров для оценки алгоритмического количества информации в объекте X относительно объекта Y предложил использовать формулу:

   , ................................ (2.5)................

причем  и, соответственно, .

   Алгоритмическая информация по формуле А.Н. Колмогорова может принимать как положительные, так и отрицательные значения. В связи с этим А.Н. Колмогоров делает два замечания. Во-первых, " не меньше некоторой отрицательной константы C, зависящей лишь от условностей избранного метода программирования" [5]. Во-вторых, "вся теория рассчитана на применение к большим количествам информации, по сравнению с которыми будет пренебрежимо мал" [5].

Информация о работе Подходы к оценке количества информации