Approche probabiliste pour déterminer la quantité d'informations "Formule de Shannon. Application d'ET Excel pour résoudre les problèmes de recherche de la quantité d'informations." – quantité d’informations

Quantité d'informations

La quantité d'informations comme mesure de réduction de l'incertitude des connaissances.
(Approche substantielle pour déterminer la quantité d'informations)

Le processus de cognition du monde environnant conduit à l'accumulation d'informations sous forme de connaissances (faits, théories scientifiques, etc.). L'obtention de nouvelles informations conduit à un élargissement des connaissances ou, comme on le dit parfois, à une réduction de l'incertitude des connaissances. Si un message conduit à une diminution de l'incertitude de nos connaissances, alors on peut dire qu'un tel message contient des informations.

Par exemple, après avoir passé ou terminé un test, vous êtes tourmenté par l'incertitude, vous ne savez pas quelle note vous avez obtenue. Enfin, l'enseignant annonce les résultats, et vous recevez l'un des deux messages d'information : « réussite » ou « échec », et après le test, l'un des quatre messages d'information : « 2 », « 3 », « 4 » ou « 5 ». ".

Un message d'information sur une note pour un test entraîne une réduction de moitié de l'incertitude de vos connaissances, puisque l'un des deux messages d'information possibles est reçu. Un message d'information sur une note pour un test entraîne une multiplication par quatre de l'incertitude de vos connaissances, puisque l'un des quatre messages d'information possibles est reçu.

Il est clair que plus la situation initiale est incertaine (plus les messages d'information sont possibles), plus nous recevrons de nouvelles informations lors de la réception d'un message d'information (plus l'incertitude de la connaissance diminuera).

Quantité d'informations peut être considérée comme une mesure permettant de réduire l’incertitude des connaissances lors de la réception de messages d’information.

L'approche de l'information discutée ci-dessus en tant que mesure de réduction de l'incertitude des connaissances nous permet de mesurer quantitativement l'information. Il existe une formule qui relie le nombre de messages d'information possibles N et la quantité d'informations I portées par le message reçu :

N=2i (1.1)

Peu. Pour quantifier une quantité, vous devez d’abord déterminer l’unité de mesure. Ainsi, pour mesurer la longueur, le mètre est sélectionné comme unité, pour mesurer la masse, le kilogramme, etc. De même, pour déterminer la quantité d'informations, vous devez saisir une unité de mesure.

Derrière unité de quantité d'information la quantité d'informations contenues dans le message d'information est acceptée, réduisant de moitié l'incertitude de la connaissance. Cette unité est appelée peu.

Si nous revenons à la réception d'un message d'information sur les résultats des tests évoqués ci-dessus, alors ici l'incertitude est réduite de moitié et, par conséquent, la quantité d'informations transportée par le message est égale à 1 bit.

Unités dérivées pour mesurer la quantité d'informations. La plus petite unité de mesure de la quantité d'informations est un bit, et la prochaine plus grande unité est un octet, et :

1 octet = 8 bits = 2 3 bits.

En informatique, le système de formation de plusieurs unités de mesure est quelque peu différent de celui accepté dans la plupart des sciences. Les systèmes d'unités métriques traditionnels, par exemple le Système international d'unités SI, utilisent un facteur de 10 n comme multiples d'unités, où n = 3, 6, 9, etc., ce qui correspond aux préfixes décimaux « Kilo » (10 3 ), « Méga » (10 6), « Giga » (10 9), etc.

Dans un ordinateur, les informations sont codées à l'aide d'un système de signes binaires et, par conséquent, dans plusieurs unités de mesure de la quantité d'informations, un facteur de 2 n est utilisé

Ainsi, les unités de mesure de la quantité d'informations multiples d'un octet sont saisies comme suit :

1 kilo-octet (Ko) = 2 10 octets = 1 024 octets ;

1 mégaoctet (Mo) = 2 10 Ko = 1 024 Ko ;

1 gigaoctet (Go) = 2 10 Mo = 1 024 Mo.

Questions de contrôle

    1. Donnez des exemples de messages d’information qui conduisent à une réduction de l’incertitude des connaissances.
    2. Donnez des exemples de messages d'information contenant 1 bit d'information.

Déterminer la quantité d'informations

Détermination du nombre de messages d'information.À l'aide de la formule (1.1), vous pouvez facilement déterminer le nombre de messages d'information possibles si la quantité d'informations est connue. Par exemple, lors d'un examen, vous prenez une carte d'examen et l'enseignant vous dit que le message d'information visuel sur son numéro contient 5 bits d'information. Si vous souhaitez déterminer le nombre de tickets d'examen, il suffit alors de déterminer le nombre de messages d'information possibles sur leurs numéros à l'aide de la formule (1.1) :

Ainsi, le nombre de tickets d’examen est de 32.

Déterminer la quantité d'informations. Au contraire, si le nombre possible de messages d'information N est connu, alors pour déterminer la quantité d'informations véhiculées par le message, il faut résoudre l'équation pour I.

Imaginez que vous contrôlez le mouvement d'un robot et que vous puissiez définir la direction de son mouvement à l'aide de messages d'information : "nord", "nord-est", "est", "sud-est", "sud", "sud-ouest", " ouest" et " nord-ouest » (Fig. 1.11). Quelle quantité d’informations le robot recevra-t-il après chaque message ?

Il existe 8 messages d'information possibles, la formule (1.1) prend donc la forme d'une équation pour I :

Factorisons le nombre 8 sur le côté gauche de l'équation et présentons-le sous forme puissance :

8 = 2 × 2 × 2 = 2 3 .

Notre équation :

L'égalité des côtés gauche et droit de l'équation est vraie si les exposants du nombre 2. Ainsi, I = 3 bits, c'est-à-dire que la quantité d'informations que chaque message d'information transmet au robot est égale à 3 bits.

Approche alphabétique pour déterminer la quantité d'informations

Avec l'approche alphabétique pour déterminer la quantité d'informations, on fait abstraction du contenu de l'information et on considère le message d'information comme une séquence de signes d'un certain système de signes.

Capacité informationnelle d'un signe. Imaginons qu'il soit nécessaire de transmettre un message d'information via un canal de transmission d'informations de l'expéditeur au destinataire. Laissez le message être codé à l'aide d'un système de signes dont l'alphabet est composé de N caractères (1, ..., N). Dans le cas le plus simple, lorsque la longueur du code du message est d'un caractère, l'expéditeur peut envoyer l'un des N messages possibles « 1 », « 2 », ..., « N », qui contiendra la quantité d'informations I ( Fig.1.5).

Riz. 1.5. Transfert d'informations

La formule (1.1) relie le nombre de messages d'information possibles N et la quantité d'informations I portées par le message reçu. Ensuite, dans la situation considérée, N est le nombre de signes dans l'alphabet du système de signes, et I est la quantité d'informations que véhicule chaque signe :

À l'aide de cette formule, vous pouvez, par exemple, déterminer la quantité d'informations qu'un signe véhicule dans le système de signes binaire :

N = 2 => 2 = 2 I => 2 1 = 2 I => I=1 bit.

Ainsi, dans un système binaire signé, un signe véhicule 1 bit d’information. Il est intéressant de noter que l'unité même de mesure de la quantité d'informations « bit » (bit) tire son nom de l'expression anglaise « Binary digiT » - « chiffre binaire ».

La capacité informationnelle du signe du système de signes binaires est 1 peu.

Plus le nombre de signes que contient l’alphabet d’un système de signes est grand, plus la quantité d’informations véhiculée par un signe est grande. A titre d'exemple, nous déterminerons la quantité d'informations véhiculées par une lettre de l'alphabet russe. L'alphabet russe comprend 33 lettres, mais dans la pratique, seules 32 lettres sont souvent utilisées pour transmettre des messages (la lettre « ё » est exclue).

À l'aide de la formule (1.1), nous déterminons la quantité d'informations véhiculées par une lettre de l'alphabet russe :

N = 32 => 32 = 2 I => 2 5 = 2 I => I=5 bits.

Ainsi, une lettre de l'alphabet russe véhicule 5 bits d'information (avec une approche alphabétique pour mesurer la quantité d'informations).

La quantité d'informations qu'un panneau contient dépend de la probabilité de sa réception. Si le destinataire sait à l'avance quel signe viendra, alors la quantité d'informations reçues sera égale à 0. Au contraire, moins il a de chances de recevoir un signe, plus sa capacité d'information est grande.

Dans le discours écrit russe, la fréquence d'utilisation des lettres dans le texte est différente, donc en moyenne, pour 1000 caractères d'un texte significatif, il y a 200 lettres « a » et cent fois moins de lettres « f » (seulement 2) . Ainsi, du point de vue de la théorie de l'information, la capacité informationnelle des caractères de l'alphabet russe est différente (la lettre « a » a la plus petite et la lettre « f » a la plus grande).

La quantité d'informations contenues dans le message. Un message est constitué d'une séquence de caractères dont chacun contient une certaine quantité d'informations.

Si les signes portent la même quantité d'informations, alors la quantité d'informations I c dans le message peut être calculée en multipliant la quantité d'informations I z portée par un signe par la longueur du code (nombre de caractères dans le message) K :

Je c = Je × K

Ainsi, chaque chiffre d'un code informatique binaire porte une information de 1 bit. Par conséquent, deux chiffres transportent des informations sur 2 bits, trois chiffres - sur 3 bits, etc. La quantité d'informations en bits est égale au nombre de chiffres du code informatique binaire (tableau 1.1).

Tableau 1.1. La quantité d'informations véhiculées par un code informatique binaire

Nous sommes tous habitués au fait que tout ce qui nous entoure peut être mesuré. Nous pouvons déterminer la masse du colis, la longueur de la table et la vitesse de la voiture. Mais comment déterminer la quantité d’informations contenues dans un message ? La réponse à la question est dans l'article.

Alors sélectionnons d'abord un message. Qu'il en soit ainsi " Une imprimante est un périphérique de sortie d'informations.". Notre tâche est de déterminer la quantité d'informations contenues dans un message donné. En d’autres termes, quelle quantité de mémoire est nécessaire pour le stocker.

Déterminer la quantité d'informations dans un message

Pour résoudre le problème, nous devons déterminer la quantité d’informations contenue dans un caractère de message, puis multiplier cette valeur par le nombre de caractères. Et si nous pouvons compter le nombre de caractères, alors le poids du caractère doit être calculé. Pour ce faire, calculons le nombre divers caractères dans le message. Permettez-moi de vous rappeler que les signes de ponctuation et les espaces sont aussi des symboles. De plus, si un message contient la même lettre minuscule et majuscule, nous les comptons comme deux caractères différents. Commençons.

En un mot Imprimante 6 symboles différents ( R. apparaît deux fois et est compté une fois), puis le 7ème caractère espace et le neuvième - tiret. Puisqu’il y avait déjà un espace, on ne le compte pas après le tiret. En un mot appareil 10 caractères, mais 7 différents, puisque les lettres Avec, T Et Ô sont répétés. De plus, des lettres T Et R.était déjà dans le mot Imprimante. Il s'avère donc que dans le mot appareil 5 divers symboles. En comptant plus loin de cette manière, nous obtenons qu'il y a 20 caractères différents dans le message.

2 je =N

En le remplaçant à la place N le nombre de symboles différents, nous découvrons la quantité d'informations qu'un symbole contient en bits. Dans notre cas, la formule ressemblera à ceci :

2 je =20

Rappelons et comprenons que i est compris entre 4 et 5 (puisque 2 4 =16 et 2 5 =32). Et comme le bit est minimal et ne peut pas être fractionnaire, nous arrondissons i à 5. Sinon, si nous supposons que i = 4, nous ne pourrions coder que 2 4 = 16 caractères, et nous en avons 20. Nous trouvons donc que i =5, c'est-à-dire que chaque caractère de notre message transporte 5 bits d'information.

Il ne reste plus qu'à compter le nombre de caractères dans notre message. Mais maintenant nous allons compter tous les personnages, peu importe qu’ils soient répétés ou non. On comprend que le message est composé de 39 caractères. Et comme chaque caractère représente 5 bits d'information, en multipliant 5 par 39 on obtient :

5 bits x 39 caractères = 195 bits

C'est la réponse à la question du problème : le message contient 195 bits d'information. Et, pour résumer, on peut écrire algorithme pour trouver la quantité d'informations dans un message:

  • compter le nombre de symboles différents.
  • En remplaçant cette valeur dans la formule 2i=N, trouvez le poids d'un symbole (arrondi au supérieur)
  • comptez le nombre total de caractères et multipliez ce nombre par le poids d'un caractère.

Les principes fondamentaux de l'informatique sont passés en revue et le matériel informatique moderne est décrit. Des approches pour définir les concepts de base dans le domaine de l'informatique sont formulées et leur contenu est révélé. Une classification du matériel informatique personnel moderne est donnée ainsi que leurs principales caractéristiques. Toutes les dispositions principales sont illustrées par des exemples dans lesquels des outils logiciels appropriés sont utilisés pour résoudre des problèmes spécifiques.

Livre:

Sections sur cette page :

Comme nous l'avons déjà noté, le concept d'information peut être envisagé sous diverses restrictions imposées à ses propriétés, c'est-à-dire à différents niveaux de considération. Il existe principalement trois niveaux : syntaxique, sémantique et pragmatique. En conséquence, pour chacun d'eux, différentes estimations sont utilisées pour déterminer la quantité d'informations.

Sur niveau syntaxique Pour estimer la quantité d'informations, des méthodes probabilistes sont utilisées, qui ne prennent en compte que les propriétés probabilistes de l'information et ne prennent pas en compte les autres (contenu sémantique, utilité, pertinence, etc.). Développé au milieu du 20e siècle. les méthodes mathématiques et, en particulier, probabilistes ont permis de formuler une approche d'évaluation de la quantité d'informations comme mesure de réduction de l'incertitude des connaissances. Cette approche, également appelée probabiliste, postule le principe : si un message conduit à une diminution de l'incertitude de notre connaissance, alors on peut dire qu'un tel message contient de l'information. Dans ce cas, les messages contiennent des informations sur tous les événements pouvant se produire avec différentes probabilités. Une formule permettant de déterminer la quantité d'informations pour des événements avec des probabilités différentes et reçues d'une source d'information discrète a été proposée par le scientifique américain K. Shannon en 1948. Selon cette formule, la quantité d'informations peut être déterminée comme suit :


JE - quantité d'informations; N – nombre d'événements possibles (messages) ; p je – probabilité d'événements individuels (messages); ? – signe mathématique pour la somme des nombres.

La quantité d'informations déterminée à l'aide de la formule (1.1) ne prend qu'une valeur positive. Puisque la probabilité d'événements individuels est inférieure à un, alors, par conséquent, l'expression log^,– est une valeur négative et pour obtenir une valeur positive pour la quantité d'informations dans la formule (1.1), il y a un signe moins avant la somme signe.

Si la probabilité d'apparition d'événements individuels est la même et qu'ils forment un groupe complet d'événements, c'est-à-dire


alors la formule (1.1) est transformée en formule de R. Hartley :


Dans les formules (1.1) et (1.2), la relation entre la quantité d'informations et, par conséquent, la probabilité, ou le nombre, d'événements individuels est exprimée à l'aide d'un logarithme. L'utilisation de logarithmes dans les formules (1.1) et (1.2) peut être expliquée comme suit. Pour simplifier le raisonnement, nous utiliserons la relation (1.2). Nous attribuerons séquentiellement à l'argument N valeurs sélectionnées, par exemple, parmi une série de nombres : 1, 2, 4, 8, 16, 32, 64, etc. Pour déterminer quel événement de N des événements également probables se sont produits, pour chaque numéro de la série, il est nécessaire d'effectuer séquentiellement des opérations de sélection parmi deux événements possibles. Oui quand N= 1 le nombre d'opérations sera égal à 0 (la probabilité de l'événement est égale à 1), avec N= 2, le nombre d'opérations sera égal à 1, lorsque N= 4 le nombre d'opérations sera égal à 2, lorsque N= 8, le nombre d'opérations sera égal à 3, etc. Ainsi, on obtient la série de nombres suivante : 0, 1, 2, 3, 4, 5, 6, etc., qui peuvent être considérées comme correspondant aux valeurs ​de la fonction je par rapport (1.2). La séquence de valeurs numériques que prend l'argument N, est une série connue en mathématiques comme une série de nombres formant une progression géométrique, et la séquence de valeurs numériques que prend la fonction je, sera une série formant une progression arithmétique. Ainsi, le logarithme dans les formules (1.1) et (1.2) établit une relation entre les séries représentant les progressions géométriques et arithmétiques, ce qui est bien connu en mathématiques.

Pour quantifier (évaluer) toute grandeur physique, il est nécessaire de déterminer une unité de mesure, qui dans la théorie de la mesure est appelée une mesure. Comme nous l'avons déjà indiqué, les informations doivent être codées avant leur traitement, leur transmission et leur stockage. Le codage s'effectue à l'aide d'alphabets spéciaux (systèmes de signes). En informatique, qui étudie les processus de réception, de traitement, de transmission et de stockage d'informations à l'aide de systèmes informatiques (informatiques), on utilise principalement le codage binaire, qui utilise un système de signes composé de deux symboles 0 et 1. Pour cette raison, dans les formules ( 1.1) et (1.2) le nombre 2 est utilisé comme base du logarithme.

Sur la base de l'approche probabiliste pour déterminer la quantité d'informations, ces deux symboles du système de signes binaires peuvent être considérés comme deux événements possibles différents. Par conséquent, une unité de quantité d'informations est considérée comme la quantité d'informations contenant un message qui réduit l'incertitude de la connaissance de moitié (avant de recevoir les événements, leur probabilité est de 0,5, après réception – 1, l'incertitude diminue en conséquence : 1/0,5 = 2, soit 2 fois). Cette unité de mesure de l'information s'appelle un bit (du mot anglais chiffre binaire – chiffre binaire). Ainsi, un bit est pris comme mesure pour estimer la quantité d'informations au niveau syntaxique, en supposant un codage binaire.

La deuxième plus grande unité de mesure de la quantité d'informations est l'octet, qui est une séquence composée de huit bits, c'est-à-dire

1 octet = 2 3 bits = 8 bits.

En informatique, les unités de mesure de la quantité d'informations multiples d'un octet sont également largement utilisées, mais contrairement au système de mesures métrique, où le coefficient 10n est utilisé comme multiplicateur d'unités multiples, où n = 3, 6, 9, etc., dans plusieurs unités de mesure de la quantité d'informations, le coefficient 2n est utilisé . Ce choix s'explique par le fait que l'ordinateur fonctionne principalement avec des nombres non pas dans le système de nombres décimaux, mais dans le système de nombres binaires.

Les unités de mesure de la quantité d'informations qui sont des multiples d'un octet sont saisies comme suit :

1 kilo-octet (Ko) = 2 10 octets = 1024 octets,

1 mégaoctet (Mo) = 2 10 Ko = 1 024 Ko,

1 Gigaoctet (Go) = 2 10 Mo = 1 024 Mo,

1 téraoctet (To) = 2 10 Go = 1 024 Go,

1 pétaoctet (PB) = 2 10 To = 1 024 To,

1 Exaoctet (Eoctet) = 2 10 Po = 1024 Po.

Les unités de mesure de la quantité d'informations, dont les noms contiennent les préfixes « kilo », « méga », etc., ne sont pas correctes du point de vue de la théorie de la mesure, puisque ces préfixes sont utilisés dans le système métrique de mesures. , dans lequel un coefficient est utilisé comme multiplicateur de plusieurs unités 10n, où n = 3, 6, 9, etc. Pour éliminer cette inexactitude, l'organisation internationale Commission internationale en électrotechnique, engagé dans la création de normes pour l'industrie de la technologie électronique, a approuvé un certain nombre de nouveaux préfixes pour les unités de mesure de la quantité d'informations : kibi (kibi), meubles (mébi), gibi (gibi), toi (tébi), petit (petit), exbi (exbi). Cependant, les anciennes désignations des unités de mesure de la quantité d'informations sont toujours utilisées et il faudra du temps pour que les nouveaux noms soient largement utilisés.

L'approche probabiliste est également utilisée pour déterminer la quantité d'informations présentées à l'aide de systèmes de signes. Si l'on considère les caractères de l'alphabet comme un ensemble de messages possibles N, la quantité d'informations portée par un signe de l'alphabet peut être déterminée par la formule (1.1). Si chaque caractère de l'alphabet apparaît de manière égale dans le texte du message, la formule (1.2) peut être utilisée pour déterminer la quantité d'informations.

Plus la quantité d'informations contenue dans un caractère de l'alphabet est grande, plus le nombre de caractères inclus dans cet alphabet est grand. Le nombre de caractères inclus dans l’alphabet est appelé la puissance de l’alphabet. La quantité d'informations (volume d'informations) contenues dans un message codé selon un système de signes et contenant un certain nombre de caractères (symboles) est déterminée à l'aide de la formule :


V- volume d'informations du message ; / = log 2 N, volume d'informations d'un symbole (signe) ; À - nombre de caractères (signes) dans le message ; N – puissance de l'alphabet (nombre de caractères dans l'alphabet).

Expliquons ce qui précède dans le paragraphe 1.2 avec des exemples.

Exemple 1.1

Déterminons combien d'informations peuvent être obtenues après la mise en œuvre de l'un des six événements. La probabilité du premier événement est de 0,15 ; seconde – 0,25 ; troisième – 0,2 ; quatrième – 0,12 ; cinquième – 0,12 ; sixième – 0,1, c'est-à-dire P1 = 0,15; P2 = 0,25; R3 = 0,2; P4 = 0,18; P5 = 0,12; P6 = 0,1.

Solution.

Pour déterminer la quantité d'informations, nous appliquons la formule (1.1)


Pour calculer cette expression contenant des logarithmes, nous utiliserons d'abord une calculatrice informatique puis un tableur. Microsoft (MS) Excel, inclus dans le progiciel intégré MS Office XP.

Pour calculer à l'aide d'une calculatrice informatique, procédez comme suit :

Utilisation de la commande : [Bouton Commencer– Programmes – Standard – Calculatrice], lancez le programme Calculatrice. Après avoir démarré le programme, exécutez la commande : [View – Engineering] (Fig. 1.3).


Riz. 1.3. Calculatrice d'ingénierie

Bouton enregistrer La calculatrice calcule le logarithme décimal (base 10) du nombre affiché. Puisque dans notre cas il faut calculer des logarithmes en base 2, et que cette calculatrice ne le permet pas, il faut utiliser la formule bien connue :

logbN = M log un N,


Dans notre cas, la relation prendra la forme : journal 2 N = M journal 10 N,


c'est-à-dire log 2 N = 3,322 · log 10 N, et l'expression pour calculer la quantité d'informations prendra la forme :


Lorsque vous calculez sur une calculatrice, utilisez les boutons suivants : +/- (changer le signe du numéro affiché), ()(parenthèses ouvrantes et fermantes), enregistrer(logarithme d'un nombre en base 10), etc. Le résultat du calcul est présenté sur la Fig. 1.3. Ainsi, la quantité d'informations I = 2,52 bits.

Utilisons maintenant un processeur de table MS Excel. Pour exécuter le programme Exceller exécutez la commande : [Bouton Commencer- Programmes - MS Office XP – Microsoft Excel]. Dans les cellules A1, B1, C1, D1, E1, F1 de la fenêtre qui s'ouvre ExcellerÉcrivons les désignations de lettres des probabilités P1, P2, P3, P4, P5, P6 et dans la cellule G1 - la quantité d'informations je, qu'il convient de déterminer. Pour écrire des indices de probabilités R1 ? P6 dans les cellules A1, B1, C1, D1, E1, F1, exécutez la commande suivante : [Format – Cellules – Police – Modification (cochez la case à côté de l'indice)]. Dans les cellules A2, B2, C2, D2, E2, F2, nous écrivons les valeurs de probabilité correspondantes.

Après avoir écrit des valeurs dans des cellules, vous devez y définir le format des nombres. Pour ce faire, vous devez exécuter la commande suivante : [Format – Cellules – Nombre – Numérique (définir le nombre de décimales sur deux)]. Définissez la cellule G2 sur le même format numérique. Dans la cellule G2, nous écrivons l'expression = – (A2*LOG(A2;2) + B2*LOG(B2;2) + C2*LOG(C2;2) + D2*LOG(D2;2) + E2*LOG( E2 ; 2) + F2*LOG(F2;2)). Après avoir appuyé sur la touche du clavier de l'ordinateur , dans la cellule G2, nous obtenons le résultat souhaité – Je = 2,52 bits (Fig. 1.4).


Riz. 1.4. Le résultat du calcul de la quantité d'informations

Exemple 1.2

Déterminons combien d'octets et de bits d'informations sont contenus dans un message si son volume est de 0,25 Ko.

Solution.

A l'aide d'une calculatrice, on détermine le nombre d'octets et de bits d'information contenus dans ce message :

Je = 0,25 Ko · 1 024 octets/1 Ko = 256 octets ;

Je = 256 octets · 8 bits/1 octet = 2048 bits.

Exemple 1.3

Déterminons la puissance de l'alphabet avec lequel un message contenant 4096 caractères est transmis, si le volume d'informations du message est de 2 Ko.

Solution.

À l'aide d'une calculatrice, nous convertirons le volume d'informations d'un message de kilo-octets en bits :

V=2 Ko 1024 octets/1 Ko = 2048 octets 8 bits/1 octet = 16384 bits.

Déterminons le nombre de bits par caractère (volume d'informations d'un caractère) dans l'alphabet :

je= 16 384 bits/4096 = 4 bits.

À l'aide de la formule (1.3), nous déterminons la puissance de l'alphabet (le nombre de caractères dans l'alphabet) :

N = 2 Je = 2 4 = 16.

Comme déjà indiqué, si l'on prend en compte uniquement la propriété de l'information associée à son contenu sémantique, alors lors de la définition du concept d'information, nous pouvons nous limiter au niveau sémantique, ou sémantique, de considération de ce concept.

Sur niveau sémantique l'information est considérée en fonction de son contenu, reflétant l'état d'un objet individuel ou du système dans son ensemble. Cela ne prend pas en compte son utilité pour le destinataire de l'information. A ce niveau, les relations entre les signes, leurs significations objectives et sémantiques sont étudiées (voir Fig. 1.1), ce qui permet de sélectionner des unités sémantiques de mesure de l'information. Puisque le contenu sémantique de l'information est transmis à l'aide d'un message, c'est-à-dire sous la forme d'un ensemble de signes (symboles) transmis à l'aide de signaux de la source d'information au récepteur, une approche basée sur l'utilisation d'une mesure de thésaurus est devenue répandu pour mesurer le contenu sémantique de l’information. Dans ce cas, un thésaurus s'entend comme un ensemble d'informations (informations) a priori disponibles pour le destinataire de l'information.

Cette approche suppose que pour comprendre (comprendre) et utiliser l'information reçue, le récepteur (récepteur) doit disposer d'informations a priori (thésaurus), c'est-à-dire un certain stock de signes remplis de sens, de mots, de concepts, de noms de phénomènes et objets entre lesquels des connexions s’établissent au niveau sémantique. Ainsi, si nous prenons la connaissance d'un objet ou d'un phénomène donné comme thésaurus, alors la quantité d'informations contenues dans un nouveau message sur un sujet donné peut être évaluée par le changement du thésaurus individuel sous l'influence de ce message. En fonction de la relation entre le contenu sémantique du message et le thésaurus de l'utilisateur, la quantité d'informations sémantiques change, tandis que la nature d'une telle dépendance ne se prête pas à une description mathématique stricte et se résume à la considération de trois conditions principales dans lesquelles le thésaurus de l'utilisateur :

Tend vers zéro, c'est-à-dire que l'utilisateur ne perçoit pas le message entrant ;

Tend vers l'infini, c'est-à-dire que l'utilisateur connaît parfaitement tout sur un objet ou un phénomène et n'est pas intéressé par le message reçu ;

Il est cohérent avec le contenu sémantique du message, c'est-à-dire que le message reçu est compréhensible pour l'utilisateur et véhicule de nouvelles informations.

Les deux premiers cas limites correspondent à un état dans lequel la quantité d'informations sémantiques reçues par l'utilisateur est minimale. Le troisième cas est associé à l'obtention du maximum d'informations sémantiques. Ainsi, la quantité d'informations sémantiques reçues par l'utilisateur est une valeur relative, puisqu'un même message peut avoir un contenu sémantique pour un utilisateur compétent et n'avoir aucun sens pour un utilisateur incompétent.

Par conséquent, il devient difficile d'obtenir une évaluation objective de la quantité d'informations au niveau sémantique de sa prise en compte, et pour obtenir une telle évaluation, différentes unités de mesure de la quantité d'informations sont utilisées : absolue ou relative. Les symboles, les détails, les enregistrements, etc. peuvent être utilisés comme unités de mesure absolues, et le coefficient de contenu, qui est défini comme le rapport de l'information sémantique à son volume, peut être utilisé comme unité relative. Par exemple, pour déterminer au niveau sémantique la quantité d'informations reçues par les élèves en classe, le score initial (symbole) peut être pris comme unité de mesure, caractérisant le degré de leur assimilation du nouveau matériel pédagogique, sur la base duquel la quantité d'informations reçues par chaque étudiant peut être déterminée indirectement. Cette quantité d'informations sera exprimée en termes de score d'évaluation correspondant dans la plage d'évaluations acceptée.

Avec une approche sémantique pour évaluer la quantité d'informations et choisir une unité de mesure, le type d'information (message) reçu est essentiel. Ainsi, cette approche d'évaluation de la quantité d'informations économiques nous permet d'identifier une unité composite d'informations économiques, constituée d'un ensemble d'autres unités d'informations liées les unes aux autres par leur sens. Un composant élémentaire d'une unité d'information économique est une condition requise, c'est-à-dire un ensemble d'informations qui ne peut pas être divisé en unités d'information au niveau sémantique. Diviser les détails en symboles entraîne la perte de leur contenu sémantique. Chaque attribut est caractérisé par un nom, une valeur et un type. Dans ce cas, le nom d'une propriété s'entend comme sa désignation conventionnelle, la valeur est une quantité caractérisant les propriétés d'un objet ou d'un phénomène dans certaines circonstances, le type est un ensemble de valeurs d'une propriété, unies par certaines caractéristiques et un ensemble de transformations autorisées.

Les détails sont généralement divisés en détails de base et détails d'attribut.

Les détails de base caractérisent l'aspect quantitatif d'un objet, d'un processus ou d'un phénomène économique qui peut être obtenu à la suite d'opérations individuelles - calculs, mesures, comptage d'unités naturelles, etc. Dans les documents économiques, ceux-ci incluent, par exemple, le prix d'un produit , sa quantité , son montant, etc. Les détails de base sont le plus souvent exprimés en nombres sur lesquels des opérations mathématiques peuvent être effectuées.

Les attributs d'attribut reflètent les propriétés qualitatives d'un objet, d'un processus ou d'un phénomène économique. À l'aide d'attributs, les messages acquièrent un caractère individuel. Dans les documents économiques, il s'agit par exemple du numéro du document, du nom de l'expéditeur, de la date d'établissement du document, du type de transaction, etc. Les détails des attributs permettent un traitement logique des unités d'information au niveau sémantique : recherche, sélection, regroupement, tri, etc. d.

Une base d'attributs distincte, avec les attributs d'attribut qui lui sont associés, forme la prochaine unité hiérarchiquement composite d'informations économiques - un indicateur. L'indicateur a un nom, qui comprend des termes désignant l'objet mesuré : coût, dépenses, capacité, profit, etc. De plus, l'indicateur contient une caractéristique formelle et des caractéristiques supplémentaires. La caractéristique formelle comprend le mode d'obtention (volume, montant, augmentation, pourcentage, valeur moyenne, etc.), et les caractéristiques supplémentaires incluent les caractéristiques spatio-temporelles (où se trouve l'objet mesuré, l'heure à laquelle se rapporte cet indicateur) et métrologiques (unités des mesures).

Ainsi, à l'aide d'un ensemble de détails et d'indicateurs correspondants, il est possible d'estimer la quantité d'informations économiques reçues de l'objet étudié (source d'information).

En plus de l'approche basée sur l'utilisation d'une mesure de thésaurus, d'autres approches sont également utilisées pour déterminer la quantité d'informations au niveau sémantique. Par exemple, l'une des approches liées à l'évaluation sémantique de la quantité d'informations est que le nombre de liens vers celles-ci dans d'autres messages est considéré comme le critère principal de la valeur sémantique des informations contenues dans un message. La quantité d'informations reçues est déterminée sur la base du traitement statistique des liens dans divers échantillons.

Pour résumer ce qui a été dit, on peut affirmer qu'il y avait et il y a toujours un problème de formation d'une approche systématique unifiée pour définir l'information au niveau sémantique. Ceci est également confirmé par le fait qu'à un moment donné, afin de créer une théorie scientifique stricte de l'information, K. Shannon a été contraint d'écarter une propriété importante de l'information associée à son contenu sémantique.

Outre les niveaux de considération répertoriés, la notion d'information est assez largement utilisée niveau pragmatique.À ce niveau, l'information est considérée du point de vue de son utilité (valeur) pour le consommateur d'information (personne) afin d'atteindre l'objectif pratique fixé. Cette approche pour déterminer l'utilité de l'information est basée sur le calcul de l'augmentation de la probabilité d'atteindre un objectif avant et après la réception de l'information. La quantité d'informations qui détermine sa valeur (utilité) se trouve par la formule :


P0, P1 – la probabilité d'atteindre l'objectif avant et après avoir reçu l'information, respectivement.

En tant qu'unité de mesure (mesure) de la quantité d'informations qui détermine sa valeur, 1 bit peut être pris (avec une base de logarithme égale à 2), c'est-à-dire qu'il s'agit de la quantité d'informations reçues à laquelle le rapport des probabilités de atteindre l'objectif est égal à 2.

Considérons trois cas où la quantité d'informations qui détermine sa valeur est nulle et où elle prend une valeur positive et négative.

La quantité d'informations est nulle à P 0 = R1, ceux. les informations reçues n'augmentent ni ne diminuent la probabilité d'atteindre l'objectif.

La valeur informationnelle est positive lorsque P1 > P0, c'est-à-dire que les informations obtenues réduisent l'incertitude initiale et augmentent la probabilité d'atteindre l'objectif.

La valeur informationnelle est négative lorsque P1< P 0 , c'est-à-dire que les informations reçues augmentent l'incertitude initiale et réduisent la probabilité d'atteindre l'objectif. Ce type d’information est appelé désinformation.

Le développement ultérieur de cette approche s'appuie sur la théorie de l'information statistique et la théorie de la décision. Dans ce cas, en plus des caractéristiques probabilistes d'atteinte de l'objectif, après réception des informations, des fonctions de perte sont introduites et l'utilité des informations est évaluée en minimisant la fonction de perte. La valeur maximale est la quantité d'informations qui réduit les pertes à zéro lors de la réalisation de l'objectif.

La quantité d'informations comme mesure de réduction de l'incertitude des connaissances. Les informations qu'une personne reçoit peuvent être considérées comme une mesure permettant de réduire l'incertitude des connaissances. Si un message conduit à une diminution de l'incertitude de nos connaissances, alors on peut dire qu'un tel message contient des informations.

Les messages contiennent généralement des informations sur certains événements. La quantité d'informations pour des événements avec des probabilités différentes est déterminée par la formule :

ou à partir de l'équation exponentielle :

Exemple 2.1. Après l'examen d'informatique que vos amis ont passé, les notes (« 2 », « 3 », « 4 » ou « 5 ») sont annoncées. Quelle quantité d'informations seront véhiculées par le message sur la note de l'étudiant A, qui n'a appris que la moitié des tickets, et le message sur la note de l'étudiant B, qui a appris tous les tickets.

L'expérience montre que pour l'étudiant A, les quatre évaluations (événements) sont également probables et que la quantité d'informations véhiculées par le message d'évaluation peut alors être calculée à l'aide de la formule 2.2 :

I = journal 2 4 = 2 bits

Sur la base de l'expérience, nous pouvons également supposer que pour l'élève B, la note la plus probable est « 5 » (p 1 = 1/2), la probabilité d'une note « 4 » est deux fois moins probable (p 2 = 1/4), et la probabilité d'obtenir des notes est de « 2 » et « 3 » est toujours deux fois moins élevée (p 3 = p 4 = 1/8). Puisque les événements ne sont pas également probables, nous utiliserons la formule 2.1 pour calculer la quantité d'informations contenues dans un message :

I = -(1/2Elog 2 1/2 + 1/4Elog 2 1/4 + 1/8Elog 2 1/8 + 1/8Elog 2 1/8) bits = 1,75 bits

Les calculs ont montré qu'avec des événements également probables, nous recevons plus d'informations qu'avec des événements inégalement probables.

Exemple 2.2. Un sachet opaque contient 10 boules blanches, 20 rouges, 30 bleues et 40 vertes. Quelle quantité d'informations sera contenue dans le message visuel sur la couleur de la balle retirée ?

Le nombre de boules de couleurs différentes n'étant pas le même, les messages visuels sur la couleur d'une boule sortie du sac diffèrent également et sont égaux au nombre de boules d'une couleur donnée divisé par le nombre total de boules :

pb = 0,1 ; pk = 0,2 ; ps = 0,3 ; pc = 0,4

Les événements ne sont pas également probables, donc pour déterminer la quantité d'informations contenues dans le message sur la couleur de la balle, nous utilisons la formule 2.1 :

I = -(0,1 log 2 0,1+ 0,2 log 2 0,2 ​​+ 0,3 log 2 0,3 + 0,4 log 2 0,4) bits

Exemple 2.3. Combien de questions devez-vous poser à votre interlocuteur pour déterminer avec certitude le mois de sa naissance ?

Considérons 12 mois comme 12 événements possibles. Si vous posez des questions sur un mois de naissance spécifique, vous devrez peut-être poser 11 questions (si une réponse négative a été reçue aux 11 premières questions, il n'est pas nécessaire de poser la 12ème, car elle sera correcte).

Il est correct de poser des questions « binaires », c'est-à-dire Des questions auxquelles on ne peut répondre que par « Oui » ou « Non ». Par exemple, « Êtes-vous né dans la seconde moitié de l'année ? » Chacune de ces questions divise l'ensemble des options en deux sous-ensembles : l'un correspondant à la réponse « Oui » et l'autre à la réponse « Non ».

La bonne stratégie consiste à poser les questions de manière à ce que le nombre d’options possibles soit réduit de moitié à chaque fois. Alors le nombre d’événements possibles dans chacun des sous-ensembles résultants sera le même et leur estimation est également probable. Dans ce cas, à chaque étape la réponse (« Oui » ou « Non ») portera le maximum d'informations (1 bit).

En utilisant la formule 2.2 et en utilisant une calculatrice on obtient :

I = journal 2 12 » 3,6 bits

Le nombre de bits d'information reçus correspond au nombre de questions posées, mais le nombre de questions ne peut pas être un nombre non entier. Nous arrondissons à un nombre entier plus grand et obtenons la réponse : avec la bonne stratégie, vous ne devez pas poser plus de 4 questions.

Unités de mesure de la quantité d'informations

Unités de mesure de la quantité d'informations. Un bit est considéré comme une unité de quantité d'informations - la quantité d'informations contenues dans un message, ce qui réduit de moitié l'incertitude de la connaissance.

Le système d'unités suivant pour mesurer la quantité d'informations a été adopté :

1 octet = 8 bits

1 Ko = 2 10 octets

1 Mo = 2 10 Ko = 2 20 octets

1 Go = 2 10 Mo = 2 20 Ko = 2 30 octets

Déterminer la quantité d'informations représentées à l'aide de systèmes de signes

Si nous considérons les caractères de l'alphabet comme un ensemble de messages (événements) possibles N, alors la quantité d'informations qu'un caractère transporte peut être déterminée à partir de la formule 2.1. Si nous considérons l'apparition de chaque caractère alphabétique dans le texte comme des événements également probables, alors pour déterminer la quantité d'informations, nous pouvons utiliser la formule 2.2 ou l'équation 2.3.

La quantité d'informations portée par un caractère de l'alphabet est d'autant plus grande que plus de caractères sont inclus dans cet alphabet, c'est-à-dire plus le pouvoir de l’alphabet est grand.

La quantité d'informations contenues dans un message codé à l'aide d'un système de signes est égale à la quantité d'informations portées par un caractère multipliée par le nombre de caractères du message.

Exemple 2.5. Quelle est la puissance de l'alphabet avec lequel est écrit un message contenant 2048 caractères, si sa taille est de 1,25 Ko.

Convertissez le volume d'informations du message en bits :

I = 10 240 bits

Déterminez le nombre de bits par caractère :

10 240 bits : 2 048 = 5 bits

À l'aide de la formule 2.3, déterminez le nombre de caractères de l'alphabet.