При введении количественной меры информации (Норберт Винер и Клод Шеннон) было принято смысловое содержание сообщений (семантику) не учитывать, а ограничиться только формальными признаками, важными с точки зрения передачи сообщений по каналам связи. В итоге учитываются только число N сообщений, подлежащих передаче, и вероятности р(хi) поступления их на вход канала. Всю совокупность сообщений представляют в виде некоторой системы Х с состояниями xi.

X=( x 1 x 2 ... p( x 1 ) p( x 2 )... x N p( x N ) ),        i=1 N p( x i ) =1,

(3.1)
где xi – отдельные сообщения (или их типы, классы),  p(xi) – априорные вероятности появления сообщений xi.

В результате передачи сообщения xi по каналу связи будет получено сообщение yj.Оно может с некоторой вероятностью быть похоже на любое из (x1, x2,…xN) сообщений. В том числе оно может быть похоже на переданное сообщение xi . Апостериорная  вероятность присутствия xi в yj равна p(xi/yj).

В основу меры количества информации положены изменения вероятностей появления сообщений от априорного значения p(xi) на входе канала к апостериорному значению p(xi/yj) на выходе канала, связанные с искажениями информации в канале.

Сравнивая вероятности р(xi) и p (xi/yj) можно установить меру количества информации, переданной через данный канал. Удобной мерой оказался логарифм отношения апостериорной вероятности к априорной.

Количество информации, содержащееся в событии yj относительно события xi, определяется по формуле

I( x i ; y j )=log p( x i / y j ) p( x i )

(3.2) 

Основанием логарифма могут быть: 2, е или 10. В зависимости от основания меняются единицы измерения количества информации (бит – двоичная, нат – натуральная, Хартли – десятичная единица).

Свойства количества информации I(xi;yj ).

1.Свойство симметрии. 

Информация,  содержащаяся в yj относительно xi, равна информации, содержащейся в xi относительно yj. Это становится очевидным, если числитель и знаменатель в (3.2) умножить на p(yj) и произвести преобразования:

I( x i ; y j )=log p( x i / y j )p( y j ) p( x i )p( y j ) =log p( x i , y j ) p( x i )p( y j ) =I( y j ; x i ),

(3.3)

поскольку p(xi, yj) = p(yj) p(xi/yj) = p(xi) p(yj/xi) - вероятность совместного появления yj и xi.

В результате указанного свойства величину I(xi;yj) называют количеством взаимной информации между xi и yj.

2. Свойство аддитивности.

Информация, содержащаяся в паре символов yj, zk относительно xi, равна сумме информации, содержащейся в yj относительно xi и информации, содержащейся в zk относительно xi при условии, что значение yj известно

I( x i ; y j , z k )=I( x i ; y j )+I( x i ; z k / y j ).

(3.4)

Количество собственной информации в xi определяется из (3.2) при  p(xi/yj) = 1,

I( x i ; y j )=logp( x i ).

(3.5)

Эта величина определяет количество информации, необходимое для однозначного определения xi на выходе канала.

С учетом введенного понятия (3.5) можно преобразовать выражение (3.2) к виду

I( x i ; y j )=I( x i )I( x i / y j ), 

(3.6)

где I(xi/yj) = – log p(xi/yj ) –условная собственная информация. Среднее количество взаимной информации получается путем усреднения (3.2) по всем i и j :

I(X;Y)= i=1 N j=1 M p( x i , y j )  log p( x i / y j ) p( x i

(3.7)