Мера информации. Подходы к определению меры количества информации

Автор работы: Пользователь скрыл имя, 02 Декабря 2011 в 21:23, реферат

Краткое описание

В повседневной практике такие понятия, как информация и данные, часто рассматриваются как синонимы. На самом деле между ними имеются различия. Данными называется информация, представленная в удобном для обработки виде. Данные могут быть представлены в виде текста, графики, аудио-визуального ряда. Представление данных называется языком информатики, представляющим собой совокупность символов, соглашений и правил, используемых для общения, отображения, передачи информации в электронном виде

Содержание работы

Введение. 2


1.Мера информации 4

2. Подходы к определению меры количества

информации. 9

2.1 Структурный подход к измерению

информации 14


2.2 Статистический подход к измерению

информации 16


2.3 Семантический подход к измерению

информации 19

Заключение 23

Список литературы 25

Содержимое работы - 1 файл

реферат информатика мера информации.docx

— 233.27 Кб (Скачать файл)

     А теперь перейдем непосредственно  к  подходам к измерению информации:

 

     2.1 Структурный подход к измерению информации [6.2]

     В рамках структурного подхода выделяют три меры информации:

     геометрическая. Определяет максимально возможное количество информации в заданных объемах. Мера может быть использована для определения информационной емкости памяти компьютера;

     комбинаторная. Оценивает возможность представления информации при помощи различных комбинаций информационных элементов в заданном объеме. Комбинаторная мера может использоваться для оценки информационных возможностей некоторого системы кодирования;

     аддитивная, или мера Хартли.

     -Геометрическая мера

     Определяет максимально возможное количество информации в заданных объемах. Единица измерения – информационный элемент. Мера может быть использована для определения информационной емкости памяти компьютера. В этом случае в качестве информационного элемента выступает минимальная единица хранения – бит. Список самых распространенных более крупных единиц и соотношение между ними приведено ниже:

     8 бит = 1 байт (сокращенно б или Б),

     1024 Б = 1 килобайт (сокращенно Кб или К),

     1024 К = 1 мегабайт (сокращенно Мб или М),

     1024 М = 1 гигабайт (сокращенно Гб или Г).

     Тогда, например, объем винчестера – 3 гигабайта; объем основной памяти компьютера – 32 мегабайта и т.д.

     -Комбинаторная мера

     Оценивает возможность представления информации при помощи различных комбинаций информационных элементов в заданном объеме. Использует типы комбинаций элементов и соответствующие математические соотношения, которые приводятся в одном из разделов дискретной математики – комбинаторике.

     Комбинаторная мера может использоваться для оценки информационных возможностей некоторого автомата, который способен генерировать дискретные сигналы (сообщения) в соответствии с определенным правилом комбинаторики. Пусть, например, есть автомат, формирующий двузначные десятичные целые положительные числа (исходное множество информационных элементов {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}). В соответствии с положениями комбинаторики, данный автомат генерирует размещения (различаются числа, например, 34 и 43) из 10 элементов (используются 10 цифр) по 2 (по условию задачи, формируются двузначные числа) с повторениями (очевидно, возможны числа, состоящие из одинаковых цифр, например, 33). Тогда можно оценить, сколько различных сообщений (двузначных чисел) может сформировать автомат, иначе говоря, можно оценить информационную емкость данного устройства: Рп(102) = 102 = 100.

     Комбинаторная мера используется для определения возможностей кодирующих систем, которые широко используются в информационной технике.

 

     2.2 Статистический подход к измерению информации. [6.3]

     Учитывает целесообразность и полезность информации. Применяется при оценке эффективности  получаемой информации и ее соответствия реальности.

     В 30-х годах ХХ века  американский ученый Клод Шеннон предложил связать количество информации, которое несет в себе некоторое сообщение, с вероятностью получения этого сообщения.

     Вероятность p – количественная априорная (т.е. известная до проведения опыта) характеристика одного из исходов (событий) некоторого опыта. Измеряется в пределах от 0 до 1. Если заранее известны все исходы опыта, сумма их вероятностей равна 1, а сами исходы составляют полную группу событий. Если все исходы могут свершиться с одинаковой долей вероятности, они называются равновероятными.

     Например, пусть опыт состоит в сдаче студентом экзамена по информатике. Очевидно, у этого опыта всего 4 исхода (по количеству возможных оценок, которые студент может получить на экзамене). Тогда эти исходы составляют полную группу событий, т.е. сумма их вероятностей равна 1. Если студент учился хорошо в течение семестра, значения вероятностей всех исходов могут быть такими:

     p(5) = 0.5; p(4) = 0.3; p(3) = 0.1; p(2) = 0.1, где запись p(j) означает вероятность исхода, когда получена оценка j (j = {2, 3, 4, 5}).

     Если студент учился плохо, можно заранее оценить возможные исходы сдачи экзамена, т.е. задать вероятности исходов, например, следующим образом:

     p(5) = 0.1; p(4) = 0.2; p(3) = 0.4; p(2) = 0.3.

     В обоих случаях выполняется условие:

     

     где n – число исходов опыта,

     i – номер одного из исходов.

     Пусть можно получить n сообщений по результатам некоторого опыта (т.е. у опыта есть n исходов), причем известны вероятности получения каждого сообщения (исхода) - pi. Тогда в соответствии с идеей Шеннона, количество информации I в сообщении i определяется по формуле:

     I = -log2 pi,

     где pi – вероятность i-го сообщения (исхода). 

     Пример . Определить количество информации, содержащейся в сообщении о результате сдачи экзамена для студента-хорошиста.

     Пусть I(j) – количество информации в сообщении о получении оценки j. В соответствии с формулой Шеннона имеем:

     I(5) = -log2 0,5 = 1,

     I(4) = -log2 0,3 = 1,74,

     I(3) = -log2 0,1 = 3,32,

     I(2) = -log2 0,1 = 3,32.

     Таким образом, количество получаемой с сообщением информации тем больше, чем неожиданнее данное сообщение. Этот тезис использован при эффективном кодировании кодами переменной длины (т.е. имеющими разную геометрическую меру): исходные символы, имеющие большую частоту (или вероятность), имеют код меньшей длины, т.е. несут меньше информации в геометрической мере, и наоборот.

     Формула Шеннона позволяет определять также размер двоичного эффективного кода, требуемого для представления того или иного сообщения, имеющего определенную вероятность появления.

     Пример Определить размеры кодовых комбинаций для эффективного кодирования сообщений из предыдущего примера.

     Для вещественных значений объемов информации (что произошло в примере 1) в целях определения требуемого числа двоичных разрядов полученные значения округляются до целых по традиционным правилам арифметики. Тогда имеем требуемое число двоичных разрядов:

     для сообщения об оценке 5 – 1,

     для сообщения об оценке 4 – 2,

     для сообщения об оценке 3 – 3,

     для сообщения об оценке 2 – 3.

     Проверим результат, построив эффективный код для сообщений об исходах экзамена методом Шеннона-Фано. Исходные данные – из примера 1. Имеем:

Исходные  символы Вероятности Коды
Сообщение об оценке 5
     0,5
     1
Сообщение об оценке 4
     0,25
     01
Сообщение об оценке 3
     0,125
     001
Сообщение об оценке 2
     0,125
     000

     Таким образом, задача решена верно. 

     Помимо информационной оценки одного сообщения, Шеннон предложил количественную информационную оценку всех сообщений, которые можно получить по результатам проведения некоторого опыта. Так, среднее количество информации Iср, получаемой со всеми n сообщениями, определяется по формуле:

     

     где pi вероятность i-го сообщения.

     Пример Определить среднее количество информации, получаемое студентом-хорошистом, по всем результатам сдачи экзамена.

     В соответствии с приведенной формулой имеем:

     Iср = - (0,5*log20,5 + 0,3*log20,3 + 0,1*log20,1 + 0,1*log20,1) = 1,67.

     Единица измерения информации при статистическом подходе – бит.

     На практике часто вместо вероятностей используются частоты исходов. Это возможно, если опыты проводились ранее и существует определенная статистика их исходов. Так, строго говоря, в построении эффективных кодов участвуют не частоты символов, а их вероятности.

 

     2.3 Семантический подход к измерению информации. [6.4] 

       В рамках этого подхода рассмотрим такие меры, как целесообразность, полезность (учитывают прагматику информации) и истинность информации (учитывает семантику информации).

  • прагматика – свойство, определяющее влияние информации на поведение потребителя. Так прагматика информации, получаемой читателем этого реферата, заключается, по меньшей мере, в успешной защите реферата по информатике.
  • семантика – свойство, определяющее смысл информации как соответствие сигнала реальному миру. Так, семантика сигнала “информатика” заключается в данном ранее определении. Семантика может рассматриваться как некоторое соглашение, известное потребителю информации, о том, что означает каждый сигнал (так называемое правило интерпретации). Например, именно семантику сигналов изучает начинающий автомобилист, штудирующий правила дорожного движения, познавая дорожные знаки (в этом случае сигналами выступают сами знаки). Семантику слов (сигналов) познаёт обучаемый какому-либо иностранному языку. Можно сказать, что смысл  обучения информатике заключается в изучении семантики различных сигналов – суть ключевых понятий этой дисциплины;

     -Целесообразность информации

     Количество I получаемой вместе с сообщением информации с позиций ее целесообразности определяется по формуле:

     

     где p1, p2 – вероятности достижения цели после и до получения сообщения, соответственно.

     Пример 1. Пусть вероятность p2 сдачи экзамена по информатике до получения сообщения (подсказки от соседа) оценивается студентом со значением 0,2. После того, как ему удалось получить подсказку, вероятность сдачи увеличилась: p1 = 0,8. Определить количество информации, содержащейся в подсказке, с точки зрения ее целесообразности.

     В соответствии с приведенной формулой  имеем: I = log2(0,8/0,2) = log24 = 2.

     Пример 2. Пусть положение студента до получения подсказки оценивается аналогично предыдущему примеру. После получения подсказки, вопреки ожиданиям, вероятность сдачи еще уменьшилась, поскольку  подсказка содержала неверную информацию: p1 = 0,1. Определить количество информации, содержащейся в подсказке, с точки зрения ее целесообразности.

     В соответствии с приведенной формулой имеем: I = log2(0,1/0,2) = log20,5 = -1.

     Таким образом, полученная информация является дезинформацией, поскольку имеет отрицательный знак при измерении.

     -Полезность  информации

     Количество усваиваемой потребителем информации Iусв тесно связано с теми знаниями, которые имеет потребитель к моменту получения информации – с тезаурусом (ТЗ) потребителя. Этим определяется полезность информации. В самом деле, для усвоения тех знаний, которые получаются в  ВУЗе, требуется среднее образование - иначе студент ничего не поймет. С другой стороны, любая учебная дисциплина ориентируется на знания, которые учащийся должен приобрести в предыдущих курсах. Этим объясняется последовательность учебных дисциплин по годам обучения.

     Зависимость усваиваемой потребителем информации от его тезауруса выражается графически следующей кривой:

     

     Как видно из графика, при тезаурусе, равном нулю и максимальному значению в точке max, информация не усваивается: в первом случае, потребителю непонятна принимаемая информация, во втором – она ему уже известна. Максимально усваивается информация (т.е. она наиболее полезна) в точке opt, когда потребитель обладает достаточным (но не максимально возможным) тезаурусом для понимания получаемой информации. При значении тезауруса i-го потребителя ТЗi количество усваиваемой им информации определяется как Iусв = f(ТЗi). Сам тезаурус ТЗi может быть практически определен как результат  интеллектуального тестирования, которое проводится, например, в некоторых западных странах. При таком тестировании человеку выставляется некоторый балл, который и может расцениваться как его ТЗi. 

Информация о работе Мера информации. Подходы к определению меры количества информации