Автор работы: Пользователь скрыл имя, 17 Октября 2011 в 15:50, реферат
Информация - это настолько общее и глубокое понятие, что его нельзя объяснить одной фразой. В это слово вкладывается различный смысл в технике, науке и в житейских ситуациях. В обиходе информацией называют любые данные или сведения, которые кого-либо интересуют, например сообщение о каких-либо событиях, о чьей-либо деятельности и т. п. «Информировать» в этом смысле означает «сообщить нечто, неизвестное раньше».
Непрерывное сообщение может быть представлено непрерывной функцией, заданной на некотором интервале. Непрерывное сообщение можно преобразовать в дискретное (такая процедура называется дискретизацией). Из бесконечного множества значений параметра сигнала выбирается их определенное число, которое приближенно может характеризовать остальные значения. Для этого область определения функции разбивается на отрезки равной длины и на каждом из этих отрезков значение функции принимается постоянным и равным, например, среднему значению на этом отрезке. В итоге получим конечное множество чисел. Таким образом, любое непрерывное сообщение может быть представлено как дискретное, иначе говоря, последовательностью знаков некоторого алфавита.
Возможность
дискретизации непрерывного сигнала
с любой желаемой точностью (для возрастания
точности достаточно уменьшить шаг) принципиально
важна с точки зрения информатики. Компьютер
— цифровая машина, т.е. внутреннее представление
информации в нем дискретно. Дискретизация
входной информации (если она непрерывна)
позволяет сделать ее пригодной для компьютерной
обработки.
Единицы
количества информации:
вероятностный и
объемный подходы
Определить
понятие «количество
Вероятностный подход
Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, имеющей N граней. Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1, 2, . . . N.
Введем
в рассмотрение численную величину,
измеряющую неопределенность — энтропию
(обозначим ее H). Согласно развитой
теории, в случае равновероятного выпадания
каждой из граней величины N и H
связаны между собой формулой
Хартли
H
= log2 N.
Важным при введении какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, H будет равно единице при N = 2. Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется «бит».
В
случае, когда вероятности Pi
результатов опыта (в примере, приведенном
выше — бросания игральной кости) неодинаковы,
имеет место формула
Шеннона
.
В случае равновероятности событий , и формула Шеннона переходит в формулу Хартли.
В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли H = log2 34 ~ 5.09 бит.
Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 3 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.
Воспользуемся
для подсчета H формулой Шеннона:
H ~ 4.72 бит. Полученное значение H,
как и можно было предположить, меньше
вычисленного ранее. Величина H, вычисляемая
по формуле Хартли, является максимальным
количеством информации, которое могло
бы приходиться на один знак. Аналогичные
подсчеты H можно провести и для других
языков, например, использующих латинский
алфавит — английского, немецкого, французского
и др. (26 различных букв и «пробел»). По
формуле Хартли получим H = log2
27 ~ 4.76 бит.
Таблица 1. Частотность букв русского языка
i | Символ | P(i) | I | Символ | P(i) | I | Символ | P(i) |
1 | _ | 0.175 | 12 | Л | 0.035 | 23 | Б | 0.014 |
2 | О | 0.090 | 13 | К | 0.028 | 24 | Г | 0.012 |
3 | Е | 0.072 | 14 | М | 0.026 | 25 | Ч | 0.012 |
4 | Ё | 0.072 | 15 | Д | 0.025 | 26 | Й | 0.010 |
5 | А | 0.062 | 16 | П | 0.023 | 27 | Х | 0.009 |
6 | И | 0.062 | 17 | У | 0.021 | 28 | Ж | 0.007 |
7 | T | 0.053 | 18 | Я | 0.018 | 29 | Ю | 0.006 |
8 | H | 0.053 | 19 | Ы | 0.016 | 30 | Ш | 0.006 |
9 | C | 0.045 | 20 | З | 0.016 | 31 | Ц | 0.004 |
10 | P | 0.040 | 21 | Ь | 0.014 | 32 | Щ | 0.003 |
11 | B | 0.038 | 22 | Ъ | 0.014 | 33 | Э | 0.003 |
34 | Ф | 0.002 |
Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (P(0)=P(1)= 0.5), то количество информации на один знак при двоичном кодировании будет равно
H = log2 2 = 1 бит.
Таким
образом, количество информации (в битах),
заключенное в двоичном слове, равно
числу двоичных знаков в нем.
Объемный
подход
В двоичной системе счисления знаки 0 и 1 называют битами (от английского выражения Binary digiTs — двоичные цифры). В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).
Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один байт информации. 1024 байта образуют килобайт (Кбайт), 1024 килобайта — мегабайт (Мбайт), а 1024 мегабайта — гигабайт (Гбайт).
Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в вероятностном (кибернетическом) смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускают измеримость количества информации в обоих смыслах, то это количество не обязательно совпадает, при этом кибернетическое количество информации не может быть больше объемного. В прикладной информатике практически всегда количество информации понимается в объемном смысле. Как ни важно измерение информации, нельзя сводить к нему все связанные с этим понятием проблемы. При анализе информации социального (в широким смысле) происхождения на первый план могут выступить такие ее свойства как истинность, своевременность, ценность, полнота и т.д. Их невозможно оценить в терминах «уменьшение неопределенности» (вероятностный подход) или числа символов (объемный подход). Обращение к качественной стороне информации породило иные подходы к ее оценке. При аксиологическом подходе стремятся исходить из ценности, практической значимости информации, т.е. качественных характеристик, значимых в социальной системе. При семантическом подходе информация рассматривается как с точки зрения формы, так и содержания. При этом информацию связывают с тезаурусом, т.е. полнотой систематизированного набора данных о предмете информации. Отметим, что эти подходы не исключают количественного анализа, но он становится существенно сложнее и должен базироваться на современных методах математической статистики.
Понятие информации нельзя считать лишь техническим, междисциплинарным и даже наддисциплинарным термином. Информация — это фундаментальная философская категория. Дискуссии ученых о философских аспектах информации надежно показали несводимость информации ни к одной из этих категорий. Концепции и толкования, возникающие на пути догматических подходов, оказываются слишком частными, односторонними, не охватывающими всего объема этого понятия.
Попытки рассмотреть категорию информации с позиций основного вопроса философии привели к возникновению двух противостоящих концепций — так называемых, функциональной и атрибутивной. «Атрибутисты» квалифицируют информацию как свойство всех материальных объектов, т.е. как атрибут материи. «Функционалисты» связывают информацию лишь с функционированием сложных, самоорганизующихся систем. Можно попытаться дать философское определение информации с помощью указания на связь определяемого понятия с категориями отражения и активности. Информация есть содержание образа, формируемого в процессе отражения. Активность входит в это определение в виде представления о формировании некоего образа в процессе отражения некоторого субъект-объектного отношения. При этом не требуется указания на связь информации с материей, поскольку как субъект, так и объект процесса отражения могут принадлежать как к материальной, так и к духовной сфере социальной жизни. Однако существенно подчеркнуть, что материалистическое решение основного вопроса философии требует признания необходимости существования материальной среды — носителя информации в процессе такого отражения. Итак, информацию следует трактовать как имманентный (неотъемлемо присущий) атрибут материи, необходимый момент ее самодвижения и саморазвития. Эта категория приобретает особое значение применительно к высшим формам движения материи — биологической и социальной. Известно большое количество работ, посвященных физической трактовке информации. Эти работы в значительной мере построены на основе аналогии формулы Больцмана, описывающей энтропию статистической системы материальных частиц, и формулы Хартли. Соответствующие материалы можно найти в литературе, отраженной в приведенном ниже перечне. Информацию следует считать особым видом ресурса, при этом имеется в виду толкование «ресурса» как запаса неких знаний материальных предметов или энергетических, структурных или каких-либо других характеристик предмета. В отличие от ресурсов, связанных с материальными предметами, информационные ресурсы являются неистощимыми и предполагают существенно иные методы воспроизведения и обновления, чем материальные ресурсы. В связи с таким взглядом центральными становятся следующие свойства информации: запоминаемость, передаваемость, преобразуемость, воспроизводимость, стираемость. Подводя итог сказанному, отметим, что предпринимаются (но отнюдь не завершены) усилия ученых, представляющих самые разные области знания, построить единую теорию, которая призвана формализовать понятие информации и информационного процесса, описать превращения информации в процессах самой разной природы. Движение информации есть сущность процессов управления, которые суть проявление имманентной активности материи, ее способности к самодвижению. С момента возникновения кибернетики управление рассматривается применительно ко всем формам движения материи, а не только к высшим (биологической и социальной). Многие проявления движения в неживых — искусственных (технических) и естественных (природных) — системах также обладают общими признаками управления, хотя их исследуют в химии, физике, механике в энергетической, а не в информационной системе представлений. Информационные аспекты в таких системах составляют предмет новой междисциплинарной науки — синергетики. Высшей формой информации, проявляющейся в управлении в социальных системах, являются знания. Это наддисциплинарное понятие, широко используемое в педагогике и исследованиях по искусственному интеллекту, также претендует на роль важнейшей философской категории. В философском плане познание следует рассматривать как один из функциональных аспектов управления. Такой подход открывает путь к системному пониманию генезиса процессов познания, его основ и перспектив.