Le codage ASCII (code standard américain pour l'échange d'informations) est le codage de texte de base pour l'alphabet latin. Encodage des informations textuelles

Comme vous le savez, un ordinateur stocke les informations sous forme binaire, les représentant comme une séquence de uns et de zéros. Pour traduire les informations sous une forme adaptée à la perception humaine, chaque séquence unique de nombres est remplacée par son symbole correspondant lorsqu'elle est affichée.

L'un des systèmes de corrélation des codes binaires avec les caractères imprimés et de contrôle est

Au niveau actuel de développement de la technologie informatique, l'utilisateur n'est pas obligé de connaître le code de chaque caractère spécifique. Cependant, une compréhension générale de la manière dont le codage est effectué est extrêmement utile, voire nécessaire pour certaines catégories de spécialistes.

Création d'ASCII

Le codage a été initialement développé en 1963, puis mis à jour deux fois en 25 ans.

Dans la version originale, la table de caractères ASCII comprenait 128 caractères ; plus tard, une version étendue est apparue, dans laquelle les 128 premiers caractères ont été enregistrés et les caractères précédemment manquants ont été attribués à des codes avec le huitième bit impliqué.

Pendant de nombreuses années, ce codage a été le plus populaire au monde. En 2006, Latin 1252 a pris la position de leader, et de fin 2007 à aujourd'hui, Unicode a fermement occupé la position de leader.

Représentation informatique de l'ASCII

Chaque caractère ASCII possède son propre code, composé de 8 caractères représentant un zéro ou un un. Le nombre minimum dans cette représentation est zéro (huit zéros dans le système binaire), qui est le code du premier élément du tableau.

Deux codes du tableau étaient réservés pour la commutation entre la norme US-ASCII et sa variante nationale.

Après que l'ASCII ait commencé à inclure non pas 128, mais 256 caractères, une variante de codage s'est généralisée, dans laquelle la version originale du tableau était stockée dans les 128 premiers codes avec le 8ème bit zéro. Les caractères écrits nationaux étaient stockés dans la moitié supérieure du tableau (positions 128 à 255).

L'utilisateur n'a pas besoin de connaître directement les codes de caractères ASCII. Un développeur de logiciels n'a généralement besoin que de connaître le numéro de l'élément dans le tableau pour calculer son code en utilisant le système binaire si nécessaire.

langue russe

Après le développement des codages pour les langues scandinaves, le chinois, le coréen, le grec, etc. au début des années 70, l'Union soviétique a commencé à créer sa propre version. Bientôt, une version d'un codage 8 bits appelée KOI8 a été développée, préservant les 128 premiers codes de caractères ASCII et attribuant le même nombre de positions aux lettres de l'alphabet national et aux caractères supplémentaires.

Avant l'introduction d'Unicode, KOI8 dominait le segment russe de l'Internet. Il existait des options de codage pour les alphabets russe et ukrainien.

Problèmes ASCII

Étant donné que le nombre d'éléments, même dans la table étendue, ne dépassait pas 256, il n'était pas possible de placer plusieurs scripts différents dans un seul codage. Dans les années 90, le problème du « crocozyabr » est apparu sur Runet, lorsque les textes saisis en caractères ASCII russes n'étaient pas affichés correctement.

Le problème était que les différents codes ASCII ne correspondaient pas. Rappelons que divers caractères pouvaient être localisés aux positions 128-255, et lors du changement d'un encodage cyrillique par un autre, toutes les lettres du texte étaient remplacées par d'autres ayant un numéro identique dans une version différente de l'encodage.

État actuel

Avec l’avènement d’Unicode, la popularité de l’ASCII a commencé à décliner fortement.

La raison en est que le nouveau codage a permis d'accueillir des caractères de presque toutes les langues écrites. Dans ce cas, les 128 premiers caractères ASCII correspondent aux mêmes caractères en Unicode.

En 2000, l'ASCII était l'encodage le plus populaire sur Internet et était utilisé sur 60 % des pages Web indexées par Google. En 2012, la part de ces pages était tombée à 17 % et Unicode (UTF-8) est devenu l'encodage le plus populaire.

Ainsi, l'ASCII constitue une partie importante de l'histoire des technologies de l'information, mais son utilisation à l'avenir semble peu prometteuse.

[Codages 8 bits : ASCII, KOI-8R et CP1251] Les premières tables de codage créées aux États-Unis n'utilisaient pas le huitième bit d'un octet. Le texte était représenté comme une séquence d'octets, mais le huitième bit n'était pas pris en compte (il était utilisé à des fins officielles).

La table est devenue une norme généralement acceptée ASCII(Code américain normalisé pour l'échange d'information). Les 32 premiers caractères de la table ASCII (00 à 1F) ont été utilisés pour les caractères non imprimables. Ils ont été conçus pour contrôler un périphérique d'impression, etc. Le reste - de 20 à 7F - sont des caractères normaux (imprimables).

Tableau 1 - Codage ASCII

DécHexOctobreCarboniserDescription
0 0 000 nul
1 1 001 début du titre
2 2 002 début du texte
3 3 003 fin du texte
4 4 004 fin de transmission
5 5 005 enquête
6 6 006 reconnaître
7 7 007 cloche
8 8 010 retour arrière
9 9 011 onglet horizontal
10 UN 012 nouvelle ligne
11 B 013 onglet vertical
12 C 014 nouvelle page
13 D 015 retour chariot
14 E 016 se déplacer
15 F 017 changement dans
16 10 020 échappement de liaison de données
17 11 021 contrôle de l'appareil 1
18 12 022 contrôle de l'appareil 2
19 13 023 contrôle de l'appareil 3
20 14 024 contrôle de l'appareil 4
21 15 025 accusé de réception négatif
22 16 026 ralenti synchrone
23 17 027 fin du trans. bloc
24 18 030 Annuler
25 19 031 fin du médium
26 1A 032 remplaçant
27 1B 033 s'échapper
28 1C 034 séparateur de fichiers
29 1D 035 séparateur de groupe
30 1E 036 séparateur d'enregistrement
31 1F 037 séparateur d'unité
32 20 040 espace
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
DécHexOctobreCarboniser
64 40 100 @
65 41 101 UN
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 g
72 48 110 H
73 49 111 je
74 4A 112 J.
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 Ô
80 50 120 P.
81 51 121 Q
82 52 122 R.
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Oui
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 un
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 F
103 67 147 g
104 68 150 h
105 69 151 je
106 6A 152 j
107 6B 153 k
108 6C 154 je
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 p
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 toi
118 76 166 v
119 77 167 w
120 78 170 X
121 79 171 oui
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Comme vous pouvez facilement le constater, cet encodage ne contient que des lettres latines et celles utilisées dans la langue anglaise. Il existe également des symboles arithmétiques et autres symboles de service. Mais il n'existe ni lettres russes, ni même latines spéciales pour l'allemand ou le français. C'est facile à expliquer : le codage a été développé spécifiquement en tant que norme américaine. À mesure que les ordinateurs ont commencé à être utilisés dans le monde entier, d’autres caractères ont dû être codés.

Pour ce faire, il a été décidé d'utiliser le huitième bit dans chaque octet. Cela a rendu disponible 128 valeurs supplémentaires (de 80 à FF) qui pouvaient être utilisées pour coder des caractères. La première des tables de huit bits est « ASCII étendu » ( ASCII étendu) - comprenait diverses variantes de caractères latins utilisés dans certaines langues d'Europe occidentale. Il contenait également d’autres symboles supplémentaires, notamment des pseudographies.

Les caractères pseudographiques vous permettent de fournir un semblant de graphique en affichant uniquement des caractères de texte à l'écran. Par exemple, le programme de gestion de fichiers FAR Manager fonctionne en utilisant des pseudographies.

Il n'y avait aucune lettre russe dans le tableau ASCII étendu. La Russie (anciennement URSS) et d'autres pays ont créé leurs propres codages permettant de représenter des caractères « nationaux » spécifiques dans des fichiers texte 8 bits - lettres latines des langues polonaise et tchèque, cyrillique (y compris les lettres russes) et d'autres alphabets.

Dans tous les codages largement répandus, les 127 premiers caractères (c'est-à-dire la valeur de l'octet avec le huitième bit égal à 0) sont identiques à ceux de l'ASCII. Ainsi, un fichier ASCII fonctionne dans l'un ou l'autre de ces encodages ; Les lettres de la langue anglaise sont représentées de la même manière.

Organisation OIN(Organisation internationale de normalisation) a adopté un groupe de normes OIN 8859. Il définit des codages 8 bits pour différents groupes de langues. Ainsi, ISO 8859-1 est une table ASCII étendue pour les États-Unis et l'Europe occidentale. Et ISO 8859-5 est un tableau pour l'alphabet cyrillique (y compris le russe).

Cependant, pour des raisons historiques, le codage ISO 8859-5 n'a pas pris racine. En réalité, les encodages suivants sont utilisés pour la langue russe :

Page de codes 866 ( CP866), alias « DOS », alias « encodage GOST alternatif ». Largement utilisé jusqu'au milieu des années 90 ; maintenant utilisé dans une mesure limitée. Pratiquement pas utilisé pour diffuser des textes sur Internet.
-KOI-8. Développé dans les années 70-80. Il s'agit d'une norme généralement acceptée pour la transmission de messages électroniques sur l'Internet russe. Il est également largement utilisé dans les systèmes d'exploitation de la famille Unix, notamment Linux. La version KOI-8, conçue pour le russe, s'appelle KOI-8R; Il existe des versions pour d'autres langues cyrilliques (par exemple, KOI8-U est une version pour la langue ukrainienne).
-Page de codes 1251, CP1251,Windows-1251. Développé par Microsoft pour prendre en charge la langue russe sous Windows.

Le principal avantage du CP866 était la préservation des caractères pseudo-graphiques aux mêmes endroits qu'en Extended ASCII ; par conséquent, les programmes de texte étrangers, par exemple le célèbre Norton Commander, pourraient fonctionner sans modifications. Le CP866 est désormais utilisé pour les programmes Windows exécutés dans des fenêtres de texte ou en mode texte plein écran, y compris FAR Manager.

Les textes en CP866 ont été assez rares ces dernières années (mais il est utilisé pour coder les noms de fichiers russes dans Windows). Par conséquent, nous nous attarderons plus en détail sur deux autres codages - KOI-8R et CP1251.



Comme vous pouvez le constater, dans la table d'encodage CP1251, les lettres russes sont classées par ordre alphabétique (à l'exception toutefois de la lettre E). Cette disposition permet aux programmes informatiques de trier très facilement par ordre alphabétique.

Mais dans KOI-8R, l’ordre des lettres russes semble aléatoire. Mais en réalité, ce n’est pas le cas.

Dans de nombreux programmes plus anciens, le 8ème bit était perdu lors du traitement ou de la transmission de texte. (Aujourd'hui, de tels programmes sont pratiquement « éteints », mais à la fin des années 80 et au début des années 90, ils étaient répandus). Pour obtenir une valeur de 7 bits à partir d’une valeur de 8 bits, soustrayez simplement 8 du chiffre le plus significatif ; par exemple, E1 devient 61.

Comparez maintenant KOI-8R avec le tableau ASCII (Tableau 1). Vous constaterez que les lettres russes sont clairement placées en correspondance avec les lettres latines. Si le huitième bit disparaît, les lettres russes minuscules se transforment en lettres latines majuscules et les lettres russes majuscules se transforment en lettres latines minuscules. Ainsi, E1 dans KOI-8 est le « A » russe, tandis que 61 en ASCII est le « a » latin.

Ainsi, KOI-8 vous permet de maintenir la lisibilité du texte russe lorsque le 8ème bit est perdu. « Bonjour à tous » devient « pRIWET WSEM ».

Récemment, l'ordre alphabétique des caractères dans la table de codage et la lisibilité avec la perte du 8ème bit ont perdu leur importance décisive. Le huitième bit des ordinateurs modernes n'est pas perdu lors de la transmission ou du traitement. Et le tri alphabétique se fait en tenant compte de l'encodage, et non par simple comparaison des codes. (D'ailleurs, les codes CP1251 ne sont pas complètement classés par ordre alphabétique - la lettre E n'est pas à sa place).

En raison du fait qu'il existe deux codages courants, lorsque vous travaillez avec Internet (courrier, navigation sur des sites Web), vous pouvez parfois voir un ensemble de lettres dénuées de sens au lieu du texte russe. Par exemple, « JE SUIS SBYUFEMHEL ». Ce ne sont que les mots « avec respect » ; mais ils ont été codés en codage CP1251 et l'ordinateur a décodé le texte à l'aide de la table KOI-8. Si les mêmes mots, au contraire, étaient codés en KOI-8, et que l'ordinateur décodait le texte selon la table CP1251, le résultat serait « U HCHBTSEOYEN ».

Il arrive parfois qu'un ordinateur déchiffre les lettres en russe à l'aide d'un tableau non destiné à la langue russe. Ensuite, à la place des lettres russes, un ensemble de symboles dénués de sens apparaît (par exemple, les lettres latines des langues d'Europe de l'Est) ; ils sont souvent appelés « crocozybras ».

Dans la plupart des cas, les programmes modernes parviennent à déterminer indépendamment les encodages des documents Internet (e-mails et pages Web). Mais parfois, ils « ratés », et alors vous pouvez voir d'étranges séquences de lettres russes ou « krokozyabry ». En règle générale, dans une telle situation, pour afficher du texte réel à l'écran, il suffit de sélectionner manuellement l'encodage dans le menu du programme.

Les informations de la page http://open-office.edusite.ru/TextProcessor/p5aa1.html ont été utilisées pour cet article.

Matériel extrait du site :

Un ordinateur comprend le processus de conversion sous une forme permettant une transmission, un stockage ou un traitement automatique plus pratique de ces données. Divers tableaux sont utilisés à cet effet. ASCII a été le premier système développé aux États-Unis pour travailler avec du texte anglais, qui s'est ensuite répandu dans le monde entier. L'article ci-dessous est consacré à sa description, ses caractéristiques, ses propriétés et son utilisation ultérieure.

Affichage et stockage d'informations dans un ordinateur

Les symboles sur un écran d'ordinateur ou sur l'un ou l'autre gadget numérique mobile sont formés à partir d'ensembles de formes vectorielles de divers caractères et d'un code qui vous permet de trouver parmi eux le symbole qui doit être inséré au bon endroit. Il représente une séquence de bits. Ainsi, chaque caractère doit correspondre de manière unique à un ensemble de zéros et de uns, qui apparaissent dans un certain ordre unique.

Comment tout a commencé

Historiquement, les premiers ordinateurs étaient de langue anglaise. Pour y coder des informations symboliques, il suffisait d'utiliser seulement 7 bits de mémoire, tandis qu'à cet effet 1 octet composé de 8 bits était alloué. Le nombre de caractères compris par l'ordinateur dans ce cas était de 128. Ces caractères comprenaient l'alphabet anglais avec ses signes de ponctuation, ses chiffres et quelques caractères spéciaux. Le codage à sept bits en langue anglaise avec la table correspondante (page de codes), développé en 1963, s'appelait l'American Standard Code for Information Interchange. Habituellement, l'abréviation « codage ASCII » était et est toujours utilisée pour le désigner.

Transition vers le multilinguisme

Au fil du temps, les ordinateurs sont devenus largement utilisés dans les pays non anglophones. À cet égard, il était nécessaire de disposer d'encodages permettant l'utilisation des langues nationales. Il a été décidé de ne pas réinventer la roue et de prendre comme base l'ASCII. La table de codage de la nouvelle édition a été considérablement élargie. L'utilisation du 8ème bit a permis de traduire 256 caractères dans un langage informatique.

Description

L'encodage ASCII comporte un tableau divisé en 2 parties. Seule sa première moitié est considérée comme une norme internationale généralement acceptée. Il comprend:

  • Caractères avec des numéros de série de 0 à 31, codés dans des séquences de 00000000 à 00011111. Ils sont réservés aux caractères de contrôle qui contrôlent le processus d'affichage de texte sur l'écran ou l'imprimante, l'émission d'un signal sonore, etc.
  • Les caractères avec NN dans le tableau de 32 à 127, codés par des séquences de 00100000 à 01111111 forment la partie standard du tableau. Il s'agit notamment d'un espace (N 32), de lettres de l'alphabet latin (minuscules et majuscules), de nombres à dix chiffres de 0 à 9, de signes de ponctuation, de parenthèses de styles différents et d'autres symboles.
  • Caractères avec des numéros de série de 128 à 255, codés par des séquences de 1 000 000 à 1 111 1111. Il s'agit notamment de lettres d'alphabets nationaux autres que le latin. C'est cette partie alternative de la table ASCII qui est utilisée pour convertir les caractères russes sous forme informatique.

Quelques propriétés

Les caractéristiques du codage ASCII incluent la différence entre les lettres « A » - « Z » en minuscules et en majuscules d'un seul bit. Cette circonstance simplifie grandement la conversion des registres, ainsi que la vérification de leur appartenance à une plage de valeurs donnée. De plus, toutes les lettres du système de codage ASCII sont représentées par leurs propres numéros de séquence dans l'alphabet, qui sont écrits avec 5 chiffres dans le système de numérotation binaire, précédés de 011 2 pour les lettres minuscules et de 010 2 pour les lettres majuscules.

L'une des caractéristiques du codage ASCII est la représentation de 10 chiffres - « 0 » - « 9 ». Dans le deuxième système numérique, ils commencent par 00112 et se terminent par 2 valeurs numériques. Ainsi, 0101 2 est équivalent au nombre décimal cinq, donc le caractère « 5 » s'écrit 0011 01012. Sur la base de ce qui précède, vous pouvez facilement convertir les nombres BCD en chaîne ASCII en ajoutant la séquence de bits 00112 à chaque quartet du gauche.

"Unicode"

Comme vous le savez, des milliers de caractères sont nécessaires pour afficher des textes dans les langues du groupe d'Asie du Sud-Est. Un tel nombre d'entre eux ne peut en aucun cas être décrit dans un seul octet d'information, de sorte que même les versions étendues de l'ASCII ne pouvaient plus satisfaire les besoins croissants des utilisateurs de différents pays.

Ainsi, le besoin s'est fait sentir de créer un codage de texte universel, dont le développement, en collaboration avec de nombreux leaders de l'industrie informatique mondiale, a été entrepris par le consortium Unicode. Ses spécialistes ont créé le système UTF 32. Dans celui-ci, 32 bits ont été alloués pour coder 1 caractère, constituant 4 octets d'informations. Le principal inconvénient était une forte augmentation de la quantité de mémoire requise jusqu'à 4 fois, ce qui entraînait de nombreux problèmes.

Dans le même temps, pour la plupart des pays dont les langues officielles appartiennent au groupe indo-européen, le nombre de caractères égal à 2 32 est plus qu'excessif.

À la suite de travaux ultérieurs menés par des spécialistes du consortium Unicode, le codage UTF-16 est apparu. C'est devenu une option de conversion d'informations symboliques qui convenait à tout le monde, tant en termes de quantité de mémoire requise que de nombre de caractères codés. C'est pourquoi UTF-16 a été adopté par défaut et nécessite que 2 octets soient réservés pour un caractère.

Même cette version assez avancée et réussie d'Unicode présentait certains inconvénients, et après le passage de la version étendue d'ASCII à UTF-16, le poids du document a doublé.

À cet égard, il a été décidé d'utiliser le codage à longueur variable UTF-8. Dans ce cas, chaque caractère du texte source est codé sous la forme d'une séquence d'une longueur de 1 à 6 octets.

Contacter le code standard américain pour l'échange d'informations

Tous les caractères latins de longueur variable UTF-8 sont codés sur 1 octet, comme dans le système de codage ASCII.

Une particularité de YTF-8 est que dans le cas d'un texte en latin sans utiliser d'autres caractères, même les programmes qui ne comprennent pas Unicode pourront toujours le lire. En d’autres termes, le codage de texte ASCII de base devient simplement une partie du nouvel UTF de longueur variable. Les caractères cyrilliques dans YTF-8 occupent 2 octets et, par exemple, les caractères géorgiens - 3 octets. En créant UTF-16 et 8, le principal problème de la création d'un espace de code unique dans les polices a été résolu. Depuis lors, les fabricants de polices ne peuvent remplir le tableau qu’avec des formes vectorielles de caractères de texte en fonction de leurs besoins.

Différents systèmes d'exploitation préfèrent différents encodages. Pour pouvoir lire et éditer des textes saisis avec un encodage différent, des programmes de conversion de texte russe sont utilisés. Certains éditeurs de texte contiennent des transcodeurs intégrés et vous permettent de lire du texte quel que soit l'encodage.

Vous savez maintenant combien de caractères contiennent le codage ASCII et comment et pourquoi il a été développé. Bien entendu, c’est aujourd’hui la norme Unicode qui est la plus répandue dans le monde. Cependant, il ne faut pas oublier qu'il est basé sur ASCII, la contribution de ses développeurs dans le domaine informatique doit donc être appréciée.

Déc Hex Symbole Déc Hex Symbole
000 00 spécialiste. NON 128 80 Ђ
001 01 spécialiste. SOH 129 81 Ѓ
002 02 spécialiste. STX 130 82
003 03 spécialiste. ETX 131 83 ѓ
004 04 spécialiste. EOT 132 84
005 05 spécialiste. ENQ 133 85
006 06 spécialiste. ACCK 134 86
007 07 spécialiste. BEL 135 87
008 08 spécialiste. BS. 136 88
009 09 spécialiste. LANGUETTE 137 89
010 0Aspécialiste. LF 138 8AЉ
011 0Bspécialiste. Vermont 139 8B‹ ‹
012 0Cspécialiste. FR 140 8CЊ
013 0Dspécialiste. CR 141 8DЌ
014 0Espécialiste. DONC 142 8EЋ
015 0Fspécialiste. SI. 143 8FЏ
016 10 spécialiste. DLE 144 90 ђ
017 11 spécialiste. DC1 145 91
018 12 spécialiste. DC2 146 92
019 13 spécialiste. DC3 147 93
020 14 spécialiste. DC4 148 94
021 15 spécialiste. N.A.K. 149 95
022 16 spécialiste. SYN 150 96
023 17 spécialiste. ETB 151 97
024 18 spécialiste. PEUT 152 98
025 19 spécialiste. E.M. 153 99
026 1Aspécialiste. SOUS 154 9Aљ
027 1Bspécialiste. ÉCHAP 155 9B
028 1Cspécialiste. FS 156 9Cњ
029 1Dspécialiste. G.S. 157 9Dќ
030 1Espécialiste. R.S. 158 9Eћ
031 1Fspécialiste. NOUS 159 9Fџ
032 20 embrayage SP (Espace) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Yo
041 29 ) 169 A9©
042 2A* 170 Les AAЄ
043 2B+ 171 UN B«
044 2C, 172 A.C.¬
045 2D- 173 ANNONCE­
046 2E. 174 A.E.®
047 2F/ 175 UN F.Ї
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 B.A.є
059 3B; 187 BB»
060 3C< 188 AVANT JC.ј
061 3D= 189 BDЅ
062 3E> 190 ÊTREѕ
063 3F? 191 B.F.ї
064 40 @ 192 C0 UN
065 41 UN 193 C1 B
066 42 B 194 C2 DANS
067 43 C 195 C3 g
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 ET
071 47 g 199 C7 Z
072 48 H 200 C8 ET
073 49 je 201 C9 Oui
074 4AJ. 202 CALIFORNIE. À
075 4BK 203 C.B. L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 C.E. À PROPOS
079 4FÔ 207 FC P.
080 50 P. 208 D0 R.
081 51 Q 209 D1 AVEC
082 52 R. 210 D2 T
083 53 S 211 D3 U
084 54 T 212 D4 F
085 55 U 213 J5 X
086 56 V 214 D6 C
087 57 W 215 J7 H
088 58 X 216 D8 Ch
089 59 Oui 217 D9 SCH
090 5AZ 218 D.A. Kommersant
091 5B[ 219 D.B. Oui
092 5C\ 220 CC b
093 5D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 DF je
096 60 ` 224 E0 UN
097 61 un 225 E1 b
098 62 b 226 E2 V
099 63 c 227 E3 g
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 F 230 E6 et
103 67 g 231 E7 h
104 68 h 232 E8 Et
105 69 je 233 E9 ème
106 6Aj 234 E.A. À
107 6Bk 235 E.B. je
108 6Cje 236 C.E. m
109 6Dm 237 ED n
110 6En 238 E.E. Ô
111 6Fo 239 E.F. P.
112 70 p 240 F0 R.
113 71 q 241 F1 Avec
114 72 r 242 F2 T
115 73 s 243 F3 à
116 74 t 244 F4 F
117 75 toi 245 F5 X
118 76 v 246 F6 ts
119 77 w 247 F7 h
120 78 X 248 F8 w
121 79 oui 249 F9 sch
122 7Az 250 FA. ъ
123 7B{ 251 Facebook s
124 7C| 252 F.C. b
125 7D} 253 FD euh
126 7E~ 254 F.E. Yu
127 7FSpécialiste. DEL 255 FR je

Table de codes de caractères ASCII Windows.
Description des caractères spéciaux (de contrôle)

Il convient de noter que les caractères de contrôle des tables ASCII étaient à l'origine utilisés pour assurer l'échange de données via un téléimprimeur, la saisie de données à partir d'une bande perforée et pour un contrôle simple de périphériques externes.
Actuellement, la plupart des caractères de contrôle de table ASCII ne supportent plus cette charge et peuvent être utilisés à d'autres fins.
Code Description
NUL, 00Nulle, vide
SOH, 01Début du titre
STX, 02Début de TeXt, le début du texte.
ETX, 03Fin de TeXt, fin du texte
EOT, 04Fin de transmission, fin de transmission
ENQ, 05Renseigner. Veuillez confirmer
ACCK, 06Reconnaissance. je confirme
BEL, 07Cloche, appelle
BS, 08Retour arrière, recule d'un caractère
ONGLET, 09Onglet, onglet horizontal
BF, 0ASaut de ligne, saut de ligne.
De nos jours, dans la plupart des langages de programmation, il est noté \n
VT, 0BOnglet vertical, tabulation verticale.
FR, 0CFil de formulaire, fil de page, nouvelle page
CR, 0DRetour chariot, retour chariot.
De nos jours, dans la plupart des langages de programmation, il est noté \r
SO,0EShift Out, change la couleur du ruban encreur dans le périphérique d'impression
SI, 0FShift In, renvoie la couleur du ruban encreur dans le périphérique d'impression
DLE, 10Data Link Escape, passage du canal à la transmission de données
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Contrôle des appareils, symboles de contrôle des appareils
NAK, 15 ansAccusé de réception négatif, je ne confirme pas.
SYN, 16Synchronisation. Symbole de synchronisation
ETB, 17Fin du bloc de texte, fin du bloc de texte
CAN, 18Annuler, annulation d'un message précédemment transmis
EM, 19Fin du Médium
SUB, 1ARemplacer, remplacer. Placé à la place d'un symbole dont la signification a été perdue ou corrompue lors de la transmission
ESC, 1BSéquence de contrôle d'évacuation
FS, 1CSéparateur de fichiers, séparateur de fichiers
GS, 1DSéparateur de groupe
RS, 1ESéparateur d'enregistrements, séparateur d'enregistrements
États-Unis, 1FSéparateur d'unités
DEL, 7FSupprimer, effacer le dernier caractère.

Chaque ordinateur possède son propre jeu de caractères qu'il implémente. Cet ensemble contient 26 lettres majuscules et minuscules, des chiffres et des caractères spéciaux (point, espace, etc.). Lorsqu'ils sont convertis en nombres entiers, les symboles sont appelés codes. Des normes ont été élaborées pour que les ordinateurs aient les mêmes ensembles de codes.

Norme ASCII

ASCII (American Standard Code for Information Interchange) est un code standard américain pour l'échange d'informations. Chaque caractère ASCII comporte 7 bits, le nombre maximum de caractères est donc de 128 (Tableau 1). Les codes 0 à 1F sont des caractères de contrôle qui ne sont pas imprimés. De nombreux caractères ASCII non imprimables sont nécessaires pour transmettre des données. Par exemple, un message peut être constitué du caractère de début d'en-tête SOH, de l'en-tête lui-même et du caractère de début de texte STX, du texte lui-même et du caractère de fin de texte ETX, ainsi que du caractère de fin de transmission. caractère EOT. Cependant, les données sur le réseau sont transmises sous forme de paquets, qui sont eux-mêmes responsables du début et de la fin de la transmission. Les caractères non imprimables ne sont donc presque jamais utilisés.

Tableau 1 - Table de codes ASCII

Nombre Équipe Signification Nombre Équipe Signification
0 NUL Pointeur nul 10 DLE Sortie du système de transmission
1 SOH début du titre 11 DC1 Gestion d'appareils
2 STX Début du texte 12 DC2 Gestion d'appareils
3 ETX Fin du texte 13 DC3 Gestion d'appareils
4 EOT Fin de transmission 14 DC4 Gestion d'appareils
5 ACCK Demande 15 N.A.K. Non confirmation de réception
6 BEL Confirmation d'acceptation 16 SYN Simple
7 BS. Symbole de la cloche 17 ETB Fin du bloc de transmission
8 HT Reculer 18 PEUT Marque
9 LF Tabulation horizontale 19 E.M. Fin des médias
UN Vermont Traduction de ligne 1A SOUS Indice
B FR Onglet vertical 1B ÉCHAP Sortie
C CR Traduction de pages 1C FS Séparateur de fichiers
D DONC Retour en calèche 1D G.S. Séparateur de groupe
E SI. Passer au registre supplémentaire 1E R.S. Séparateur d'enregistrements
SI. Passer au boîtier standard 1F NOUS Séparateur de modules
Nombre Symbole Nombre Symbole Nombre Symbole Nombre Symbole Nombre Symbole Nombre Symbole
20 espace 30 0 40 @ 50 P. 60 . 70 p
21 ! 31 1 41 UN 51 Q 61 un 71 q
22 32 2 42 B 52 R. 62 b 72 r
23 # 33 3 43 C 53 S 63 c 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 ET 65 e 75 Et
26 & 36 6 46 F 56 V 66 F 76 v
27 37 7 47 g 57 W 67 g 77 w
28 ( 38 8 48 H 58 X 68 h 78 X
29 ) 39 9 49 je 59 Oui 69 je 70 oui
2A 3A ; 4A J. 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C je 7C |
2D 3D = 4D M 5D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F g 4F Ô 5F _ 6F o 7F DEL

Norme Unicode

L’encodage précédent convient à l’anglais, mais il n’est pas pratique pour les autres langues. Par exemple, l’allemand a des trémas et le français des exposants. Certaines langues ont des alphabets complètement différents. La première tentative d'extension de l'ASCII a été IS646, qui a étendu le codage précédent de 128 caractères supplémentaires. Des lettres latines avec des traits et des signes diacritiques ont été ajoutées et ont reçu le nom - Latin 1. La tentative suivante était IS 8859 - qui contenait une page de codes. Il y a eu également des tentatives d'extension, mais celles-ci n'ont pas été universelles. Le codage UNICODE a été créé (10646). L'idée derrière le codage est d'attribuer à chaque caractère une seule valeur constante de 16 bits, appelée - pointeur de code. Au total, il y a 65 536 pointeurs. Pour économiser de l'espace, nous avons utilisé Latin-1 pour les codes 0 à 255, changeant facilement ASII en UNICODE. Cette norme a résolu de nombreux problèmes, mais pas tous. En raison de l'arrivée de nouveaux mots, par exemple pour la langue japonaise, il est nécessaire d'augmenter le nombre de termes d'environ 20 000. Il est également nécessaire d'inclure le braille.