Comme vous le savez, un ordinateur stocke les informations sous forme binaire, les représentant comme une séquence de uns et de zéros. Pour traduire les informations sous une forme adaptée à la perception humaine, chaque séquence unique de nombres est remplacée par son symbole correspondant lorsqu'elle est affichée.
L'un des systèmes de corrélation des codes binaires avec les caractères imprimés et de contrôle est
Au niveau actuel de développement de la technologie informatique, l'utilisateur n'est pas obligé de connaître le code de chaque caractère spécifique. Cependant, une compréhension générale de la manière dont le codage est effectué est extrêmement utile, voire nécessaire pour certaines catégories de spécialistes.
Création d'ASCII
Le codage a été initialement développé en 1963, puis mis à jour deux fois en 25 ans.
Dans la version originale, la table de caractères ASCII comprenait 128 caractères ; plus tard, une version étendue est apparue, dans laquelle les 128 premiers caractères ont été enregistrés et les caractères précédemment manquants ont été attribués à des codes avec le huitième bit impliqué.
Pendant de nombreuses années, ce codage a été le plus populaire au monde. En 2006, Latin 1252 a pris la position de leader, et de fin 2007 à aujourd'hui, Unicode a fermement occupé la position de leader.
Représentation informatique de l'ASCII
Chaque caractère ASCII possède son propre code, composé de 8 caractères représentant un zéro ou un un. Le nombre minimum dans cette représentation est zéro (huit zéros dans le système binaire), qui est le code du premier élément du tableau.
Deux codes du tableau étaient réservés pour la commutation entre la norme US-ASCII et sa variante nationale.
Après que l'ASCII ait commencé à inclure non pas 128, mais 256 caractères, une variante de codage s'est généralisée, dans laquelle la version originale du tableau était stockée dans les 128 premiers codes avec le 8ème bit zéro. Les caractères écrits nationaux étaient stockés dans la moitié supérieure du tableau (positions 128 à 255).
L'utilisateur n'a pas besoin de connaître directement les codes de caractères ASCII. Un développeur de logiciels n'a généralement besoin que de connaître le numéro de l'élément dans le tableau pour calculer son code en utilisant le système binaire si nécessaire.
langue russe
Après le développement des codages pour les langues scandinaves, le chinois, le coréen, le grec, etc. au début des années 70, l'Union soviétique a commencé à créer sa propre version. Bientôt, une version d'un codage 8 bits appelée KOI8 a été développée, préservant les 128 premiers codes de caractères ASCII et attribuant le même nombre de positions aux lettres de l'alphabet national et aux caractères supplémentaires.
Avant l'introduction d'Unicode, KOI8 dominait le segment russe de l'Internet. Il existait des options de codage pour les alphabets russe et ukrainien.
Problèmes ASCII
Étant donné que le nombre d'éléments, même dans la table étendue, ne dépassait pas 256, il n'était pas possible de placer plusieurs scripts différents dans un seul codage. Dans les années 90, le problème du « crocozyabr » est apparu sur Runet, lorsque les textes saisis en caractères ASCII russes n'étaient pas affichés correctement.
Le problème était que les différents codes ASCII ne correspondaient pas. Rappelons que divers caractères pouvaient être localisés aux positions 128-255, et lors du changement d'un encodage cyrillique par un autre, toutes les lettres du texte étaient remplacées par d'autres ayant un numéro identique dans une version différente de l'encodage.
État actuel
Avec l’avènement d’Unicode, la popularité de l’ASCII a commencé à décliner fortement.
La raison en est que le nouveau codage a permis d'accueillir des caractères de presque toutes les langues écrites. Dans ce cas, les 128 premiers caractères ASCII correspondent aux mêmes caractères en Unicode.
En 2000, l'ASCII était l'encodage le plus populaire sur Internet et était utilisé sur 60 % des pages Web indexées par Google. En 2012, la part de ces pages était tombée à 17 % et Unicode (UTF-8) est devenu l'encodage le plus populaire.
Ainsi, l'ASCII constitue une partie importante de l'histoire des technologies de l'information, mais son utilisation à l'avenir semble peu prometteuse.
[Codages 8 bits : ASCII, KOI-8R et CP1251] Les premières tables de codage créées aux États-Unis n'utilisaient pas le huitième bit d'un octet. Le texte était représenté comme une séquence d'octets, mais le huitième bit n'était pas pris en compte (il était utilisé à des fins officielles).
La table est devenue une norme généralement acceptée ASCII(Code américain normalisé pour l'échange d'information). Les 32 premiers caractères de la table ASCII (00 à 1F) ont été utilisés pour les caractères non imprimables. Ils ont été conçus pour contrôler un périphérique d'impression, etc. Le reste - de 20 à 7F - sont des caractères normaux (imprimables).
Tableau 1 - Codage ASCII
|
|
Comme vous pouvez facilement le constater, cet encodage ne contient que des lettres latines et celles utilisées dans la langue anglaise. Il existe également des symboles arithmétiques et autres symboles de service. Mais il n'existe ni lettres russes, ni même latines spéciales pour l'allemand ou le français. C'est facile à expliquer : le codage a été développé spécifiquement en tant que norme américaine. À mesure que les ordinateurs ont commencé à être utilisés dans le monde entier, d’autres caractères ont dû être codés.
Pour ce faire, il a été décidé d'utiliser le huitième bit dans chaque octet. Cela a rendu disponible 128 valeurs supplémentaires (de 80 à FF) qui pouvaient être utilisées pour coder des caractères. La première des tables de huit bits est « ASCII étendu » ( ASCII étendu) - comprenait diverses variantes de caractères latins utilisés dans certaines langues d'Europe occidentale. Il contenait également d’autres symboles supplémentaires, notamment des pseudographies.
Les caractères pseudographiques vous permettent de fournir un semblant de graphique en affichant uniquement des caractères de texte à l'écran. Par exemple, le programme de gestion de fichiers FAR Manager fonctionne en utilisant des pseudographies.
Il n'y avait aucune lettre russe dans le tableau ASCII étendu. La Russie (anciennement URSS) et d'autres pays ont créé leurs propres codages permettant de représenter des caractères « nationaux » spécifiques dans des fichiers texte 8 bits - lettres latines des langues polonaise et tchèque, cyrillique (y compris les lettres russes) et d'autres alphabets.
Dans tous les codages largement répandus, les 127 premiers caractères (c'est-à-dire la valeur de l'octet avec le huitième bit égal à 0) sont identiques à ceux de l'ASCII. Ainsi, un fichier ASCII fonctionne dans l'un ou l'autre de ces encodages ; Les lettres de la langue anglaise sont représentées de la même manière.
Organisation OIN(Organisation internationale de normalisation) a adopté un groupe de normes OIN 8859. Il définit des codages 8 bits pour différents groupes de langues. Ainsi, ISO 8859-1 est une table ASCII étendue pour les États-Unis et l'Europe occidentale. Et ISO 8859-5 est un tableau pour l'alphabet cyrillique (y compris le russe).
Cependant, pour des raisons historiques, le codage ISO 8859-5 n'a pas pris racine. En réalité, les encodages suivants sont utilisés pour la langue russe :
Page de codes 866 ( CP866), alias « DOS », alias « encodage GOST alternatif ». Largement utilisé jusqu'au milieu des années 90 ; maintenant utilisé dans une mesure limitée. Pratiquement pas utilisé pour diffuser des textes sur Internet.
-KOI-8. Développé dans les années 70-80. Il s'agit d'une norme généralement acceptée pour la transmission de messages électroniques sur l'Internet russe. Il est également largement utilisé dans les systèmes d'exploitation de la famille Unix, notamment Linux. La version KOI-8, conçue pour le russe, s'appelle KOI-8R; Il existe des versions pour d'autres langues cyrilliques (par exemple, KOI8-U est une version pour la langue ukrainienne).
-Page de codes 1251, CP1251,Windows-1251. Développé par Microsoft pour prendre en charge la langue russe sous Windows.
Le principal avantage du CP866 était la préservation des caractères pseudo-graphiques aux mêmes endroits qu'en Extended ASCII ; par conséquent, les programmes de texte étrangers, par exemple le célèbre Norton Commander, pourraient fonctionner sans modifications. Le CP866 est désormais utilisé pour les programmes Windows exécutés dans des fenêtres de texte ou en mode texte plein écran, y compris FAR Manager.
Les textes en CP866 ont été assez rares ces dernières années (mais il est utilisé pour coder les noms de fichiers russes dans Windows). Par conséquent, nous nous attarderons plus en détail sur deux autres codages - KOI-8R et CP1251.
Comme vous pouvez le constater, dans la table d'encodage CP1251, les lettres russes sont classées par ordre alphabétique (à l'exception toutefois de la lettre E). Cette disposition permet aux programmes informatiques de trier très facilement par ordre alphabétique.
Mais dans KOI-8R, l’ordre des lettres russes semble aléatoire. Mais en réalité, ce n’est pas le cas.
Dans de nombreux programmes plus anciens, le 8ème bit était perdu lors du traitement ou de la transmission de texte. (Aujourd'hui, de tels programmes sont pratiquement « éteints », mais à la fin des années 80 et au début des années 90, ils étaient répandus). Pour obtenir une valeur de 7 bits à partir d’une valeur de 8 bits, soustrayez simplement 8 du chiffre le plus significatif ; par exemple, E1 devient 61.
Comparez maintenant KOI-8R avec le tableau ASCII (Tableau 1). Vous constaterez que les lettres russes sont clairement placées en correspondance avec les lettres latines. Si le huitième bit disparaît, les lettres russes minuscules se transforment en lettres latines majuscules et les lettres russes majuscules se transforment en lettres latines minuscules. Ainsi, E1 dans KOI-8 est le « A » russe, tandis que 61 en ASCII est le « a » latin.
Ainsi, KOI-8 vous permet de maintenir la lisibilité du texte russe lorsque le 8ème bit est perdu. « Bonjour à tous » devient « pRIWET WSEM ».
Récemment, l'ordre alphabétique des caractères dans la table de codage et la lisibilité avec la perte du 8ème bit ont perdu leur importance décisive. Le huitième bit des ordinateurs modernes n'est pas perdu lors de la transmission ou du traitement. Et le tri alphabétique se fait en tenant compte de l'encodage, et non par simple comparaison des codes. (D'ailleurs, les codes CP1251 ne sont pas complètement classés par ordre alphabétique - la lettre E n'est pas à sa place).
En raison du fait qu'il existe deux codages courants, lorsque vous travaillez avec Internet (courrier, navigation sur des sites Web), vous pouvez parfois voir un ensemble de lettres dénuées de sens au lieu du texte russe. Par exemple, « JE SUIS SBYUFEMHEL ». Ce ne sont que les mots « avec respect » ; mais ils ont été codés en codage CP1251 et l'ordinateur a décodé le texte à l'aide de la table KOI-8. Si les mêmes mots, au contraire, étaient codés en KOI-8, et que l'ordinateur décodait le texte selon la table CP1251, le résultat serait « U HCHBTSEOYEN ».
Il arrive parfois qu'un ordinateur déchiffre les lettres en russe à l'aide d'un tableau non destiné à la langue russe. Ensuite, à la place des lettres russes, un ensemble de symboles dénués de sens apparaît (par exemple, les lettres latines des langues d'Europe de l'Est) ; ils sont souvent appelés « crocozybras ».
Dans la plupart des cas, les programmes modernes parviennent à déterminer indépendamment les encodages des documents Internet (e-mails et pages Web). Mais parfois, ils « ratés », et alors vous pouvez voir d'étranges séquences de lettres russes ou « krokozyabry ». En règle générale, dans une telle situation, pour afficher du texte réel à l'écran, il suffit de sélectionner manuellement l'encodage dans le menu du programme.
Les informations de la page http://open-office.edusite.ru/TextProcessor/p5aa1.html ont été utilisées pour cet article.
Matériel extrait du site :
Un ordinateur comprend le processus de conversion sous une forme permettant une transmission, un stockage ou un traitement automatique plus pratique de ces données. Divers tableaux sont utilisés à cet effet. ASCII a été le premier système développé aux États-Unis pour travailler avec du texte anglais, qui s'est ensuite répandu dans le monde entier. L'article ci-dessous est consacré à sa description, ses caractéristiques, ses propriétés et son utilisation ultérieure.
Affichage et stockage d'informations dans un ordinateur
Les symboles sur un écran d'ordinateur ou sur l'un ou l'autre gadget numérique mobile sont formés à partir d'ensembles de formes vectorielles de divers caractères et d'un code qui vous permet de trouver parmi eux le symbole qui doit être inséré au bon endroit. Il représente une séquence de bits. Ainsi, chaque caractère doit correspondre de manière unique à un ensemble de zéros et de uns, qui apparaissent dans un certain ordre unique.
Comment tout a commencé
Historiquement, les premiers ordinateurs étaient de langue anglaise. Pour y coder des informations symboliques, il suffisait d'utiliser seulement 7 bits de mémoire, tandis qu'à cet effet 1 octet composé de 8 bits était alloué. Le nombre de caractères compris par l'ordinateur dans ce cas était de 128. Ces caractères comprenaient l'alphabet anglais avec ses signes de ponctuation, ses chiffres et quelques caractères spéciaux. Le codage à sept bits en langue anglaise avec la table correspondante (page de codes), développé en 1963, s'appelait l'American Standard Code for Information Interchange. Habituellement, l'abréviation « codage ASCII » était et est toujours utilisée pour le désigner.
Transition vers le multilinguisme
Au fil du temps, les ordinateurs sont devenus largement utilisés dans les pays non anglophones. À cet égard, il était nécessaire de disposer d'encodages permettant l'utilisation des langues nationales. Il a été décidé de ne pas réinventer la roue et de prendre comme base l'ASCII. La table de codage de la nouvelle édition a été considérablement élargie. L'utilisation du 8ème bit a permis de traduire 256 caractères dans un langage informatique.
Description
L'encodage ASCII comporte un tableau divisé en 2 parties. Seule sa première moitié est considérée comme une norme internationale généralement acceptée. Il comprend:
- Caractères avec des numéros de série de 0 à 31, codés dans des séquences de 00000000 à 00011111. Ils sont réservés aux caractères de contrôle qui contrôlent le processus d'affichage de texte sur l'écran ou l'imprimante, l'émission d'un signal sonore, etc.
- Les caractères avec NN dans le tableau de 32 à 127, codés par des séquences de 00100000 à 01111111 forment la partie standard du tableau. Il s'agit notamment d'un espace (N 32), de lettres de l'alphabet latin (minuscules et majuscules), de nombres à dix chiffres de 0 à 9, de signes de ponctuation, de parenthèses de styles différents et d'autres symboles.
- Caractères avec des numéros de série de 128 à 255, codés par des séquences de 1 000 000 à 1 111 1111. Il s'agit notamment de lettres d'alphabets nationaux autres que le latin. C'est cette partie alternative de la table ASCII qui est utilisée pour convertir les caractères russes sous forme informatique.
Quelques propriétés
Les caractéristiques du codage ASCII incluent la différence entre les lettres « A » - « Z » en minuscules et en majuscules d'un seul bit. Cette circonstance simplifie grandement la conversion des registres, ainsi que la vérification de leur appartenance à une plage de valeurs donnée. De plus, toutes les lettres du système de codage ASCII sont représentées par leurs propres numéros de séquence dans l'alphabet, qui sont écrits avec 5 chiffres dans le système de numérotation binaire, précédés de 011 2 pour les lettres minuscules et de 010 2 pour les lettres majuscules.
L'une des caractéristiques du codage ASCII est la représentation de 10 chiffres - « 0 » - « 9 ». Dans le deuxième système numérique, ils commencent par 00112 et se terminent par 2 valeurs numériques. Ainsi, 0101 2 est équivalent au nombre décimal cinq, donc le caractère « 5 » s'écrit 0011 01012. Sur la base de ce qui précède, vous pouvez facilement convertir les nombres BCD en chaîne ASCII en ajoutant la séquence de bits 00112 à chaque quartet du gauche.
"Unicode"
Comme vous le savez, des milliers de caractères sont nécessaires pour afficher des textes dans les langues du groupe d'Asie du Sud-Est. Un tel nombre d'entre eux ne peut en aucun cas être décrit dans un seul octet d'information, de sorte que même les versions étendues de l'ASCII ne pouvaient plus satisfaire les besoins croissants des utilisateurs de différents pays.
Ainsi, le besoin s'est fait sentir de créer un codage de texte universel, dont le développement, en collaboration avec de nombreux leaders de l'industrie informatique mondiale, a été entrepris par le consortium Unicode. Ses spécialistes ont créé le système UTF 32. Dans celui-ci, 32 bits ont été alloués pour coder 1 caractère, constituant 4 octets d'informations. Le principal inconvénient était une forte augmentation de la quantité de mémoire requise jusqu'à 4 fois, ce qui entraînait de nombreux problèmes.
Dans le même temps, pour la plupart des pays dont les langues officielles appartiennent au groupe indo-européen, le nombre de caractères égal à 2 32 est plus qu'excessif.
À la suite de travaux ultérieurs menés par des spécialistes du consortium Unicode, le codage UTF-16 est apparu. C'est devenu une option de conversion d'informations symboliques qui convenait à tout le monde, tant en termes de quantité de mémoire requise que de nombre de caractères codés. C'est pourquoi UTF-16 a été adopté par défaut et nécessite que 2 octets soient réservés pour un caractère.
Même cette version assez avancée et réussie d'Unicode présentait certains inconvénients, et après le passage de la version étendue d'ASCII à UTF-16, le poids du document a doublé.
À cet égard, il a été décidé d'utiliser le codage à longueur variable UTF-8. Dans ce cas, chaque caractère du texte source est codé sous la forme d'une séquence d'une longueur de 1 à 6 octets.
Contacter le code standard américain pour l'échange d'informations
Tous les caractères latins de longueur variable UTF-8 sont codés sur 1 octet, comme dans le système de codage ASCII.
Une particularité de YTF-8 est que dans le cas d'un texte en latin sans utiliser d'autres caractères, même les programmes qui ne comprennent pas Unicode pourront toujours le lire. En d’autres termes, le codage de texte ASCII de base devient simplement une partie du nouvel UTF de longueur variable. Les caractères cyrilliques dans YTF-8 occupent 2 octets et, par exemple, les caractères géorgiens - 3 octets. En créant UTF-16 et 8, le principal problème de la création d'un espace de code unique dans les polices a été résolu. Depuis lors, les fabricants de polices ne peuvent remplir le tableau qu’avec des formes vectorielles de caractères de texte en fonction de leurs besoins.
Différents systèmes d'exploitation préfèrent différents encodages. Pour pouvoir lire et éditer des textes saisis avec un encodage différent, des programmes de conversion de texte russe sont utilisés. Certains éditeurs de texte contiennent des transcodeurs intégrés et vous permettent de lire du texte quel que soit l'encodage.
Vous savez maintenant combien de caractères contiennent le codage ASCII et comment et pourquoi il a été développé. Bien entendu, c’est aujourd’hui la norme Unicode qui est la plus répandue dans le monde. Cependant, il ne faut pas oublier qu'il est basé sur ASCII, la contribution de ses développeurs dans le domaine informatique doit donc être appréciée.
Déc | Hex | Symbole | Déc | Hex | Symbole | |
000 | 00 | spécialiste. NON | 128 | 80 | Ђ | |
001 | 01 | spécialiste. SOH | 129 | 81 | Ѓ | |
002 | 02 | spécialiste. STX | 130 | 82 | ‚ | |
003 | 03 | spécialiste. ETX | 131 | 83 | ѓ | |
004 | 04 | spécialiste. EOT | 132 | 84 | „ | |
005 | 05 | spécialiste. ENQ | 133 | 85 | … | |
006 | 06 | spécialiste. ACCK | 134 | 86 | † | |
007 | 07 | spécialiste. BEL | 135 | 87 | ‡ | |
008 | 08 | spécialiste. BS. | 136 | 88 | € | |
009 | 09 | spécialiste. LANGUETTE | 137 | 89 | ‰ | |
010 | 0A | spécialiste. LF | 138 | 8A | Љ | |
011 | 0B | spécialiste. Vermont | 139 | 8B | ‹ ‹ | |
012 | 0C | spécialiste. FR | 140 | 8C | Њ | |
013 | 0D | spécialiste. CR | 141 | 8D | Ќ | |
014 | 0E | spécialiste. DONC | 142 | 8E | Ћ | |
015 | 0F | spécialiste. SI. | 143 | 8F | Џ | |
016 | 10 | spécialiste. DLE | 144 | 90 | ђ | |
017 | 11 | spécialiste. DC1 | 145 | 91 | ‘ | |
018 | 12 | spécialiste. DC2 | 146 | 92 | ’ | |
019 | 13 | spécialiste. DC3 | 147 | 93 | “ | |
020 | 14 | spécialiste. DC4 | 148 | 94 | ” | |
021 | 15 | spécialiste. N.A.K. | 149 | 95 | ||
022 | 16 | spécialiste. SYN | 150 | 96 | – | |
023 | 17 | spécialiste. ETB | 151 | 97 | — | |
024 | 18 | spécialiste. PEUT | 152 | 98 | ||
025 | 19 | spécialiste. E.M. | 153 | 99 | ™ | |
026 | 1A | spécialiste. SOUS | 154 | 9A | љ | |
027 | 1B | spécialiste. ÉCHAP | 155 | 9B | › | |
028 | 1C | spécialiste. FS | 156 | 9C | њ | |
029 | 1D | spécialiste. G.S. | 157 | 9D | ќ | |
030 | 1E | spécialiste. R.S. | 158 | 9E | ћ | |
031 | 1F | spécialiste. NOUS | 159 | 9F | џ | |
032 | 20 | embrayage SP (Espace) | 160 | A0 | ||
033 | 21 | ! | 161 | A1 | Ў | |
034 | 22 | " | 162 | A2 | ў | |
035 | 23 | # | 163 | A3 | Ћ | |
036 | 24 | $ | 164 | A4 | ¤ | |
037 | 25 | % | 165 | A5 | Ґ | |
038 | 26 | & | 166 | A6 | ¦ | |
039 | 27 | " | 167 | A7 | § | |
040 | 28 | ( | 168 | A8 | Yo | |
041 | 29 | ) | 169 | A9 | © | |
042 | 2A | * | 170 | Les AA | Є | |
043 | 2B | + | 171 | UN B | « | |
044 | 2C | , | 172 | A.C. | ¬ | |
045 | 2D | - | 173 | ANNONCE | | |
046 | 2E | . | 174 | A.E. | ® | |
047 | 2F | / | 175 | UN F. | Ї | |
048 | 30 | 0 | 176 | B0 | ° | |
049 | 31 | 1 | 177 | B1 | ± | |
050 | 32 | 2 | 178 | B2 | І | |
051 | 33 | 3 | 179 | B3 | і | |
052 | 34 | 4 | 180 | B4 | ґ | |
053 | 35 | 5 | 181 | B5 | µ | |
054 | 36 | 6 | 182 | B6 | ¶ | |
055 | 37 | 7 | 183 | B7 | · | |
056 | 38 | 8 | 184 | B8 | e | |
057 | 39 | 9 | 185 | B9 | № | |
058 | 3A | : | 186 | B.A. | є | |
059 | 3B | ; | 187 | BB | » | |
060 | 3C | < | 188 | AVANT JC. | ј | |
061 | 3D | = | 189 | BD | Ѕ | |
062 | 3E | > | 190 | ÊTRE | ѕ | |
063 | 3F | ? | 191 | B.F. | ї | |
064 | 40 | @ | 192 | C0 | UN | |
065 | 41 | UN | 193 | C1 | B | |
066 | 42 | B | 194 | C2 | DANS | |
067 | 43 | C | 195 | C3 | g | |
068 | 44 | D | 196 | C4 | D | |
069 | 45 | E | 197 | C5 | E | |
070 | 46 | F | 198 | C6 | ET | |
071 | 47 | g | 199 | C7 | Z | |
072 | 48 | H | 200 | C8 | ET | |
073 | 49 | je | 201 | C9 | Oui | |
074 | 4A | J. | 202 | CALIFORNIE. | À | |
075 | 4B | K | 203 | C.B. | L | |
076 | 4C | L | 204 | CC | M | |
077 | 4D | M | 205 | CD | N | |
078 | 4E | N | 206 | C.E. | À PROPOS | |
079 | 4F | Ô | 207 | FC | P. | |
080 | 50 | P. | 208 | D0 | R. | |
081 | 51 | Q | 209 | D1 | AVEC | |
082 | 52 | R. | 210 | D2 | T | |
083 | 53 | S | 211 | D3 | U | |
084 | 54 | T | 212 | D4 | F | |
085 | 55 | U | 213 | J5 | X | |
086 | 56 | V | 214 | D6 | C | |
087 | 57 | W | 215 | J7 | H | |
088 | 58 | X | 216 | D8 | Ch | |
089 | 59 | Oui | 217 | D9 | SCH | |
090 | 5A | Z | 218 | D.A. | Kommersant | |
091 | 5B | [ | 219 | D.B. | Oui | |
092 | 5C | \ | 220 | CC | b | |
093 | 5D | ] | 221 | DD | E | |
094 | 5E | ^ | 222 | DE | YU | |
095 | 5F | _ | 223 | DF | je | |
096 | 60 | ` | 224 | E0 | UN | |
097 | 61 | un | 225 | E1 | b | |
098 | 62 | b | 226 | E2 | V | |
099 | 63 | c | 227 | E3 | g | |
100 | 64 | d | 228 | E4 | d | |
101 | 65 | e | 229 | E5 | e | |
102 | 66 | F | 230 | E6 | et | |
103 | 67 | g | 231 | E7 | h | |
104 | 68 | h | 232 | E8 | Et | |
105 | 69 | je | 233 | E9 | ème | |
106 | 6A | j | 234 | E.A. | À | |
107 | 6B | k | 235 | E.B. | je | |
108 | 6C | je | 236 | C.E. | m | |
109 | 6D | m | 237 | ED | n | |
110 | 6E | n | 238 | E.E. | Ô | |
111 | 6F | o | 239 | E.F. | P. | |
112 | 70 | p | 240 | F0 | R. | |
113 | 71 | q | 241 | F1 | Avec | |
114 | 72 | r | 242 | F2 | T | |
115 | 73 | s | 243 | F3 | à | |
116 | 74 | t | 244 | F4 | F | |
117 | 75 | toi | 245 | F5 | X | |
118 | 76 | v | 246 | F6 | ts | |
119 | 77 | w | 247 | F7 | h | |
120 | 78 | X | 248 | F8 | w | |
121 | 79 | oui | 249 | F9 | sch | |
122 | 7A | z | 250 | FA. | ъ | |
123 | 7B | { | 251 | s | ||
124 | 7C | | | 252 | F.C. | b | |
125 | 7D | } | 253 | FD | euh | |
126 | 7E | ~ | 254 | F.E. | Yu | |
127 | 7F | Spécialiste. DEL | 255 | FR | je |
Table de codes de caractères ASCII Windows.
Description des caractères spéciaux (de contrôle)
Il convient de noter que les caractères de contrôle des tables ASCII étaient à l'origine utilisés pour assurer l'échange de données via un téléimprimeur, la saisie de données à partir d'une bande perforée et pour un contrôle simple de périphériques externes. Actuellement, la plupart des caractères de contrôle de table ASCII ne supportent plus cette charge et peuvent être utilisés à d'autres fins.
Code | Description |
---|---|
NUL, 00 | Nulle, vide |
SOH, 01 | Début du titre |
STX, 02 | Début de TeXt, le début du texte. |
ETX, 03 | Fin de TeXt, fin du texte |
EOT, 04 | Fin de transmission, fin de transmission |
ENQ, 05 | Renseigner. Veuillez confirmer |
ACCK, 06 | Reconnaissance. je confirme |
BEL, 07 | Cloche, appelle |
BS, 08 | Retour arrière, recule d'un caractère |
ONGLET, 09 | Onglet, onglet horizontal |
BF, 0A | Saut de ligne, saut de ligne. De nos jours, dans la plupart des langages de programmation, il est noté \n |
VT, 0B | Onglet vertical, tabulation verticale. |
FR, 0C | Fil de formulaire, fil de page, nouvelle page |
CR, 0D | Retour chariot, retour chariot. De nos jours, dans la plupart des langages de programmation, il est noté \r |
SO,0E | Shift Out, change la couleur du ruban encreur dans le périphérique d'impression |
SI, 0F | Shift In, renvoie la couleur du ruban encreur dans le périphérique d'impression |
DLE, 10 | Data Link Escape, passage du canal à la transmission de données |
DC1, 11 DC2, 12 DC3, 13 DC4, 14 | Contrôle des appareils, symboles de contrôle des appareils |
NAK, 15 ans | Accusé de réception négatif, je ne confirme pas. |
SYN, 16 | Synchronisation. Symbole de synchronisation |
ETB, 17 | Fin du bloc de texte, fin du bloc de texte |
CAN, 18 | Annuler, annulation d'un message précédemment transmis |
EM, 19 | Fin du Médium |
SUB, 1A | Remplacer, remplacer. Placé à la place d'un symbole dont la signification a été perdue ou corrompue lors de la transmission |
ESC, 1B | Séquence de contrôle d'évacuation |
FS, 1C | Séparateur de fichiers, séparateur de fichiers |
GS, 1D | Séparateur de groupe |
RS, 1E | Séparateur d'enregistrements, séparateur d'enregistrements |
États-Unis, 1F | Séparateur d'unités |
DEL, 7F | Supprimer, effacer le dernier caractère. |
Chaque ordinateur possède son propre jeu de caractères qu'il implémente. Cet ensemble contient 26 lettres majuscules et minuscules, des chiffres et des caractères spéciaux (point, espace, etc.). Lorsqu'ils sont convertis en nombres entiers, les symboles sont appelés codes. Des normes ont été élaborées pour que les ordinateurs aient les mêmes ensembles de codes.
Norme ASCII
ASCII (American Standard Code for Information Interchange) est un code standard américain pour l'échange d'informations. Chaque caractère ASCII comporte 7 bits, le nombre maximum de caractères est donc de 128 (Tableau 1). Les codes 0 à 1F sont des caractères de contrôle qui ne sont pas imprimés. De nombreux caractères ASCII non imprimables sont nécessaires pour transmettre des données. Par exemple, un message peut être constitué du caractère de début d'en-tête SOH, de l'en-tête lui-même et du caractère de début de texte STX, du texte lui-même et du caractère de fin de texte ETX, ainsi que du caractère de fin de transmission. caractère EOT. Cependant, les données sur le réseau sont transmises sous forme de paquets, qui sont eux-mêmes responsables du début et de la fin de la transmission. Les caractères non imprimables ne sont donc presque jamais utilisés.
Tableau 1 - Table de codes ASCII
Nombre | Équipe | Signification | Nombre | Équipe | Signification |
---|---|---|---|---|---|
0 | NUL | Pointeur nul | 10 | DLE | Sortie du système de transmission |
1 | SOH | début du titre | 11 | DC1 | Gestion d'appareils |
2 | STX | Début du texte | 12 | DC2 | Gestion d'appareils |
3 | ETX | Fin du texte | 13 | DC3 | Gestion d'appareils |
4 | EOT | Fin de transmission | 14 | DC4 | Gestion d'appareils |
5 | ACCK | Demande | 15 | N.A.K. | Non confirmation de réception |
6 | BEL | Confirmation d'acceptation | 16 | SYN | Simple |
7 | BS. | Symbole de la cloche | 17 | ETB | Fin du bloc de transmission |
8 | HT | Reculer | 18 | PEUT | Marque |
9 | LF | Tabulation horizontale | 19 | E.M. | Fin des médias |
UN | Vermont | Traduction de ligne | 1A | SOUS | Indice |
B | FR | Onglet vertical | 1B | ÉCHAP | Sortie |
C | CR | Traduction de pages | 1C | FS | Séparateur de fichiers |
D | DONC | Retour en calèche | 1D | G.S. | Séparateur de groupe |
E | SI. | Passer au registre supplémentaire | 1E | R.S. | Séparateur d'enregistrements |
SI. | Passer au boîtier standard | 1F | NOUS | Séparateur de modules |
Nombre | Symbole | Nombre | Symbole | Nombre | Symbole | Nombre | Symbole | Nombre | Symbole | Nombre | Symbole |
---|---|---|---|---|---|---|---|---|---|---|---|
20 | espace | 30 | 0 | 40 | @ | 50 | P. | 60 | . | 70 | p |
21 | ! | 31 | 1 | 41 | UN | 51 | Q | 61 | un | 71 | q |
22 | ‘ | 32 | 2 | 42 | B | 52 | R. | 62 | b | 72 | r |
23 | # | 33 | 3 | 43 | C | 53 | S | 63 | c | 73 | s |
24 | φ | 34 | 4 | 44 | D | 54 | T | 64 | d | 74 | t |
25 | % | 35 | 5 | 45 | E | 55 | ET | 65 | e | 75 | Et |
26 | & | 36 | 6 | 46 | F | 56 | V | 66 | F | 76 | v |
27 | ‘ | 37 | 7 | 47 | g | 57 | W | 67 | g | 77 | w |
28 | ( | 38 | 8 | 48 | H | 58 | X | 68 | h | 78 | X |
29 | ) | 39 | 9 | 49 | je | 59 | Oui | 69 | je | 70 | oui |
2A | ‘ | 3A | ; | 4A | J. | 5A | Z | 6A | j | 7A | z |
2B | + | 3B | ; | 4B | K | 5B | [ | 6B | k | 7B | { |
2C | ‘ | 3C | < | 4C | L | 5C | \ | 6C | je | 7C | | |
2D | — | 3D | = | 4D | M | 5D | ] | 6D | m | 7D | } |
2E | 3E | > | 4E | N | 5E | — | 6E | n | 7E | ~ | |
2F | / | 3F | g | 4F | Ô | 5F | _ | 6F | o | 7F | DEL |
Norme Unicode
L’encodage précédent convient à l’anglais, mais il n’est pas pratique pour les autres langues. Par exemple, l’allemand a des trémas et le français des exposants. Certaines langues ont des alphabets complètement différents. La première tentative d'extension de l'ASCII a été IS646, qui a étendu le codage précédent de 128 caractères supplémentaires. Des lettres latines avec des traits et des signes diacritiques ont été ajoutées et ont reçu le nom - Latin 1. La tentative suivante était IS 8859 - qui contenait une page de codes. Il y a eu également des tentatives d'extension, mais celles-ci n'ont pas été universelles. Le codage UNICODE a été créé (10646). L'idée derrière le codage est d'attribuer à chaque caractère une seule valeur constante de 16 bits, appelée - pointeur de code. Au total, il y a 65 536 pointeurs. Pour économiser de l'espace, nous avons utilisé Latin-1 pour les codes 0 à 255, changeant facilement ASII en UNICODE. Cette norme a résolu de nombreux problèmes, mais pas tous. En raison de l'arrivée de nouveaux mots, par exemple pour la langue japonaise, il est nécessaire d'augmenter le nombre de termes d'environ 20 000. Il est également nécessaire d'inclure le braille.