Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...
Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...
Топ:
Марксистская теория происхождения государства: По мнению Маркса и Энгельса, в основе развития общества, происходящих в нем изменений лежит...
История развития методов оптимизации: теорема Куна-Таккера, метод Лагранжа, роль выпуклости в оптимизации...
Эволюция кровеносной системы позвоночных животных: Биологическая эволюция – необратимый процесс исторического развития живой природы...
Интересное:
Как мы говорим и как мы слушаем: общение можно сравнить с огромным зонтиком, под которым скрыто все...
Уполаживание и террасирование склонов: Если глубина оврага более 5 м необходимо устройство берм. Варианты использования оврагов для градостроительных целей...
Наиболее распространенные виды рака: Раковая опухоль — это самостоятельное новообразование, которое может возникнуть и от повышенного давления...
Дисциплины:
|
из
5.00
|
Заказать работу |
|
|
|
|
1.4.1.Синтаксическая мера количества информации оперирует обезличенной информацией, не выражающей смыслового отношения к объекту. Объем данных в сообщении измеряется количеством символов (разрядов) в этом сообщении. Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.
Вероятностный подход
Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, которая имеет N граней (наиболее распространенным является случай шестигранной кости: N = 6). Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1,2,... N.
Введем в рассмотрение численную величину, измеряющую неопределенность - энтропию (обозначим ее Н). Величины N и Н связаны между собой некоторой функциональной зависимостью:
, (1)
где сама функция f является возрастающей, неотрицательной и определенной (в рассматриваемом нами примере) для
= 1, 2,... 6.
Рассмотрим процедуру бросания кости более подробно:
1) готовимся бросить кость; исход опыта неизвестен, т.е. имеется некоторая неопределенность; обозначим ее
;
2) кость брошена; информация об исходе данного опыта получена; обозначим количество этой информации через
;
3) обозначим неопределенность данного опыта после его осуществления через
. За количество информации, которое получено в ходе осуществления опыта, примем разность неопределенностей «до» и «после» опыта:
(2)
Очевидно, что в случае, когда получен конкретный результат, имевшаяся неопределенность снята (
), и, таким образом, количество полученной информации совпадает с первоначальной энтропией. Иначе говоря, неопределенность, заключенная в опыте, совпадает с информацией об исходе этого опыта. Заметим, что значение
могло быть и не равным нулю, например, в случае, когда в ходе опыта следующей выпала грань со значением, большим «З».
Следующим важным моментом является определение вида функции f в формуле (1). Если варьировать число граней
и число бросаний кости (обозначим эту величину через
), общее число исходов (векторов длины М, состоящих из знаков 1,2,....
) будет равно
в степени
:
X=
(3)
Так, в случае двух бросаний кости с шестью гранями имеем:
= 62 = 36. Фактически каждый исход
есть некоторая пара (
,
), где
и
- соответственно исходы первого и второго бросаний (общее число таких пар -
.
Ситуацию с бросанием
раз кости можно рассматривать как некую сложную систему, состоящуюиз независимых друг от друга подсистем - «однократных бросаний кости». Энтропия такой системы в
раз больше, чем энтропия одной системы (так называемый «принцип аддитивности энтропии»): 
Данную формулу можно распространить и на случай любого
:
(4)
Прологарифмируем левую и правую части формулы (3):
,
. Подставляем полученное для
значение в формулу (4):
.
Обозначив через
положительную константу, получим:
, или, с учетом (1),
. Обычно принимают
. Таким образом
- формула Хартли. (5)
При введение какой-либо величины является важным вопрос о том, что принимать за единицу ее измерения. Очевидно,
будет равно единице при
. Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется «бит».
Все
исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на «долю» каждого исхода приходится одна
-я часть общей неопределенности опыта:
. При этом вероятность i -го исхода
равняется, очевидно,
. Таким образом,
- формула Шеннона. (6)
Та же формула (6) принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е.
могут быть различны). Формула (6) называется формулой Шеннона.
В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле (5):

Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 1 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.
Воспользуемся для подсчета
формулой (6);
≈ 4,72 бит. Полученное значение
, как и можно было предположить, меньше вычисленного ранее. Величина
, вычисляемая по формуле (5), является максимальным количеством информации, которое могло бы приходиться на один знак.
Таблица 1. Частотность букв русского языка
| i | Символ | Р(i) | i | Символ | P(i) | i | Символ | Р(i) |
| Пробел | 0,175 | 0,028 | Г | 0.012 | ||||
| 0,090 | М | 0,026 | Ч | 0,012 | ||||
| Е | 0,072 | Д | 0,025 | И | 0,010 | |||
| Ё | 0,072 | П | 0,023 | X | 0,009 | |||
| А | 0,062 | У | 0,021 | Ж | 0,007 | |||
| И | 0,062 | Я | 0,018 | Ю | 0,006 | |||
| Т | 0,053 | Ы | 0,016 | Ш | 0.006 | |||
| Н | 0,053 | З | 0.016 | Ц | 0,004 | |||
| С | 0,045 | Ь | 0,014 | Щ | 0,003 | |||
| Р | 0,040 | Ъ | 0,014 | Э | 0,003 | |||
| В | 0,038 | Б | 0,014 | Ф | 0,002 | |||
| Л | 0,035 |
Аналогичные подсчеты
можно провести и для других языков, например, использующих латинский алфавит - английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле (5) получим

Как и в случае русского языка, частота появления тех или иных знаков не одинакова. Если расположить все буквы данных языков в порядке убывания вероятностей, то получим следующие последовательности:
Английский язык: «пробел», E, T, A, O, N, R, …
Немецкий язык: «пробел», Е, N, I, S, Т, R, …
Французский язык: «пробел», Е, S, А, N, I, Т, …
Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (Р(0) = Р(1) = 0,5), то количество информации на один знак при двоичном кодировании будет равно 
Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.
Объемный подход
В двоичной системе счисления знаки 0 и 1 будем называть битами (bit), от английского выражения bi nary digi t s - двоичные цифры.
В техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п. Поэтому создатели компьютеров отдают предпочтение именно двоичной системе счисления. В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).
Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один, байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта - мегабайт (Мбайт), а 1024 мегабайта - гигабайт (Гбайт).
Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в кибернетическом смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измеримость количества информации в обоих смыслах, то они не обязательно совпадают, при этом кибернетическое количество информации не может быть больше объемного.
|
|
|
Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...
Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...
История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...
Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...
© cyberpediasu.com 2017-2026 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!