Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Марксистская теория происхождения государства: По мнению Маркса и Энгельса, в основе развития общества, происходящих в нем изменений лежит...

История развития методов оптимизации: теорема Куна-Таккера, метод Лагранжа, роль выпуклости в оптимизации...

Эволюция кровеносной системы позвоночных животных: Биологическая эволюция – необратимый процесс исторического развития живой природы...

Интересное:

Как мы говорим и как мы слушаем: общение можно сравнить с огромным зонтиком, под которым скрыто все...

Уполаживание и террасирование склонов: Если глубина оврага более 5 м необходимо устройство берм. Варианты использования оврагов для градостроительных целей...

Наиболее распространенные виды рака: Раковая опухоль — это самостоятельное новообразование, которое может возникнуть и от повышенного давления...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспунденкция

Меры информации: синтаксическая (вероятностный и объемный подходы), семантическая, прагматическая.

2017-09-27

193

0.00 из 5.00 0 оценок

Заказать работу

1.4.1.Синтаксическая мера количества информации оперирует обезличенной информацией, не выражающей смыслового отношения к объекту. Объем данных в сообщении измеряется количеством символов (разрядов) в этом сообщении. Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.

Вероятностный подход

Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, которая имеет N граней (наиболее распространенным является случай шестигранной кости: N = 6). Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1,2,... N.

Введем в рассмотрение численную величину, измеряющую неопределенность - энтропию (обозначим ее Н). Величины N и Н связаны между собой некоторой функциональной зависимостью:

, (1)

где сама функция f является возрастающей, неотрицательной и определенной (в рассматриваемом нами примере) для = 1, 2,... 6.

Рассмотрим процедуру бросания кости более подробно:

1) готовимся бросить кость; исход опыта неизвестен, т.е. имеется некоторая неопределенность; обозначим ее ;

2) кость брошена; информация об исходе данного опыта получена; обозначим количество этой информации через ;

3) обозначим неопределенность данного опыта после его осуществления через . За количество информации, которое получено в ходе осуществления опыта, примем разность неопределенностей «до» и «после» опыта:

(2)

Очевидно, что в случае, когда получен конкретный результат, имевшаяся неопределенность снята ( ), и, таким образом, количество полученной информации совпадает с первоначальной энтропией. Иначе говоря, неопределенность, заключенная в опыте, совпадает с информацией об исходе этого опыта. Заметим, что значение могло быть и не равным нулю, например, в случае, когда в ходе опыта следующей выпала грань со значением, большим «З».

Следующим важным моментом является определение вида функции f в формуле (1). Если варьировать число граней и число бросаний кости (обозначим эту величину через ), общее число исходов (векторов длины М, состоящих из знаков 1,2,.... ) будет равно в степени :

X= (3)

Так, в случае двух бросаний кости с шестью гранями имеем: = 6² = 36. Фактически каждый исход есть некоторая пара ( , ), где и - соответственно исходы первого и второго бросаний (общее число таких пар - .

Ситуацию с бросанием раз кости можно рассматривать как некую сложную систему, состоящуюиз независимых друг от друга подсистем - «однократных бросаний кости». Энтропия такой системы в раз больше, чем энтропия одной системы (так называемый «принцип аддитивности энтропии»):

Данную формулу можно распространить и на случай любого :

(4)

Прологарифмируем левую и правую части формулы (3): , . Подставляем полученное для значение в формулу (4):

Обозначив через положительную константу, получим: , или, с учетом (1), . Обычно принимают . Таким образом

- формула Хартли. (5)

При введение какой-либо величины является важным вопрос о том, что принимать за единицу ее измерения. Очевидно, будет равно единице при . Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется «бит».

Все исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на «долю» каждого исхода приходится одна -я часть общей неопределенности опыта: . При этом вероятность i -го исхода равняется, очевидно, . Таким образом,

- формула Шеннона. (6)

Та же формула (6) принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. могут быть различны). Формула (6) называется формулой Шеннона.

В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле (5):

Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 1 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.

Воспользуемся для подсчета формулой (6); ≈ 4,72 бит. Полученное значение , как и можно было предположить, меньше вычисленного ранее. Величина , вычисляемая по формуле (5), является максимальным количеством информации, которое могло бы приходиться на один знак.

Таблица 1. Частотность букв русского языка

i	Символ	Р(i)	i	Символ	P(i)	i	Символ	Р(i)
	Пробел	0,175			0,028		Г	0.012
		0,090		М	0,026		Ч	0,012
	Е	0,072		Д	0,025		И	0,010
	Ё	0,072		П	0,023		X	0,009
	А	0,062		У	0,021		Ж	0,007
	И	0,062		Я	0,018		Ю	0,006
	Т	0,053		Ы	0,016		Ш	0.006
	Н	0,053		З	0.016		Ц	0,004
	С	0,045		Ь	0,014		Щ	0,003
	Р	0,040		Ъ	0,014		Э	0,003
	В	0,038		Б	0,014		Ф	0,002
	Л	0,035

Аналогичные подсчеты можно провести и для других языков, например, использующих латинский алфавит - английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле (5) получим

Как и в случае русского языка, частота появления тех или иных знаков не одинакова. Если расположить все буквы данных языков в порядке убывания вероятностей, то получим следующие последовательности:

Английский язык: «пробел», E, T, A, O, N, R, …

Немецкий язык: «пробел», Е, N, I, S, Т, R, …

Французский язык: «пробел», Е, S, А, N, I, Т, …

Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (Р(0) = Р(1) = 0,5), то количество информации на один знак при двоичном кодировании будет равно

Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.

Объемный подход

В двоичной системе счисления знаки 0 и 1 будем называть битами (bit), от английского выражения bi nary digi t s - двоичные цифры.

В техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п. Поэтому создатели компьютеров отдают предпочтение именно двоичной системе счисления. В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).

Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один, байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта - мегабайт (Мбайт), а 1024 мегабайта - гигабайт (Гбайт).

Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в кибернетическом смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измеримость количества информации в обоих смыслах, то они не обязательно совпадают, при этом кибернетическое количество информации не может быть больше объемного.

Поделиться с друзьями:

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...