Le codage ASCII (code standard américain pour l'échange d'informations) est le codage de texte de base pour l'alphabet latin. Encodage des informations textuelles

Comme vous le savez, un ordinateur stocke les informations sous forme binaire, les représentant comme une séquence de uns et de zéros. Pour traduire les informations sous une forme adaptée à la perception humaine, chaque séquence unique de nombres est remplacée par son symbole correspondant lorsqu'elle est affichée.

L'un des systèmes de corrélation des codes binaires avec les caractères imprimés et de contrôle est

Au niveau actuel de développement de la technologie informatique, l'utilisateur n'est pas obligé de connaître le code de chaque caractère spécifique. Cependant, une compréhension générale de la manière dont le codage est effectué est extrêmement utile, voire nécessaire pour certaines catégories de spécialistes.

Création d'ASCII

Le codage a été initialement développé en 1963, puis mis à jour deux fois en 25 ans.

Dans la version originale, la table de caractères ASCII comprenait 128 caractères ; plus tard, une version étendue est apparue, dans laquelle les 128 premiers caractères ont été enregistrés et les caractères précédemment manquants ont été attribués à des codes avec le huitième bit impliqué.

Pendant de nombreuses années, ce codage a été le plus populaire au monde. En 2006, Latin 1252 a pris la position de leader, et de fin 2007 à aujourd'hui, Unicode a fermement occupé la position de leader.

Représentation informatique de l'ASCII

Chaque caractère ASCII possède son propre code, composé de 8 caractères représentant un zéro ou un un. Le nombre minimum dans cette représentation est zéro (huit zéros dans le système binaire), qui est le code du premier élément du tableau.

Deux codes du tableau étaient réservés pour la commutation entre la norme US-ASCII et sa variante nationale.

Après que l'ASCII ait commencé à inclure non pas 128, mais 256 caractères, une variante de codage s'est généralisée, dans laquelle la version originale du tableau était stockée dans les 128 premiers codes avec le 8ème bit zéro. Les caractères écrits nationaux étaient stockés dans la moitié supérieure du tableau (positions 128 à 255).

L'utilisateur n'a pas besoin de connaître directement les codes de caractères ASCII. Un développeur de logiciels n'a généralement besoin que de connaître le numéro de l'élément dans le tableau pour calculer son code en utilisant le système binaire si nécessaire.

langue russe

Après le développement des codages pour les langues scandinaves, le chinois, le coréen, le grec, etc. au début des années 70, l'Union soviétique a commencé à créer sa propre version. Bientôt, une version d'un codage 8 bits appelée KOI8 a été développée, préservant les 128 premiers codes de caractères ASCII et attribuant le même nombre de positions aux lettres de l'alphabet national et aux caractères supplémentaires.

Avant l'introduction d'Unicode, KOI8 dominait le segment russe de l'Internet. Il existait des options de codage pour les alphabets russe et ukrainien.

Problèmes ASCII

Étant donné que le nombre d'éléments, même dans la table étendue, ne dépassait pas 256, il n'était pas possible de placer plusieurs scripts différents dans un seul codage. Dans les années 90, le problème du « crocozyabr » est apparu sur Runet, lorsque les textes saisis en caractères ASCII russes n'étaient pas affichés correctement.

Le problème était que les différents codes ASCII ne correspondaient pas. Rappelons que divers caractères pouvaient être localisés aux positions 128-255, et lors du changement d'un encodage cyrillique par un autre, toutes les lettres du texte étaient remplacées par d'autres ayant un numéro identique dans une version différente de l'encodage.

État actuel

Avec l’avènement d’Unicode, la popularité de l’ASCII a commencé à décliner fortement.

La raison en est que le nouveau codage a permis d'accueillir des caractères de presque toutes les langues écrites. Dans ce cas, les 128 premiers caractères ASCII correspondent aux mêmes caractères en Unicode.

En 2000, l'ASCII était l'encodage le plus populaire sur Internet et était utilisé sur 60 % des pages Web indexées par Google. En 2012, la part de ces pages était tombée à 17 % et Unicode (UTF-8) est devenu l'encodage le plus populaire.

Ainsi, l'ASCII constitue une partie importante de l'histoire des technologies de l'information, mais son utilisation à l'avenir semble peu prometteuse.

[Codages 8 bits : ASCII, KOI-8R et CP1251] Les premières tables de codage créées aux États-Unis n'utilisaient pas le huitième bit d'un octet. Le texte était représenté comme une séquence d'octets, mais le huitième bit n'était pas pris en compte (il était utilisé à des fins officielles).

La table est devenue une norme généralement acceptée ASCII(Code américain normalisé pour l'échange d'information). Les 32 premiers caractères de la table ASCII (00 à 1F) ont été utilisés pour les caractères non imprimables. Ils ont été conçus pour contrôler un périphérique d'impression, etc. Le reste - de 20 à 7F - sont des caractères normaux (imprimables).

Tableau 1 - Codage ASCII

Déc	Hex	Octobre	Carboniser	Description
0	0	000		nul
1	1	001		début du titre
2	2	002		début du texte
3	3	003		fin du texte
4	4	004		fin de transmission
5	5	005		enquête
6	6	006		reconnaître
7	7	007		cloche
8	8	010		retour arrière
9	9	011		onglet horizontal
10	UN	012		nouvelle ligne
11	B	013		onglet vertical
12	C	014		nouvelle page
13	D	015		retour chariot
14	E	016		se déplacer
15	F	017		changement dans
16	10	020		échappement de liaison de données
17	11	021		contrôle de l'appareil 1
18	12	022		contrôle de l'appareil 2
19	13	023		contrôle de l'appareil 3
20	14	024		contrôle de l'appareil 4
21	15	025		accusé de réception négatif
22	16	026		ralenti synchrone
23	17	027		fin du trans. bloc
24	18	030		Annuler
25	19	031		fin du médium
26	1A	032		remplaçant
27	1B	033		s'échapper
28	1C	034		séparateur de fichiers
29	1D	035		séparateur de groupe
30	1E	036		séparateur d'enregistrement
31	1F	037		séparateur d'unité
32	20	040		espace
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

Déc	Hex	Octobre	Carboniser
64	40	100	@
65	41	101	UN
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	g
72	48	110	H
73	49	111	je
74	4A	112	J.
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	Ô
80	50	120	P.
81	51	121	Q
82	52	122	R.
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	Oui
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	un
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	F
103	67	147	g
104	68	150	h
105	69	151	je
106	6A	152	j
107	6B	153	k
108	6C	154	je
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	p
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	toi
118	76	166	v
119	77	167	w
120	78	170	X
121	79	171	oui
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Comme vous pouvez facilement le constater, cet encodage ne contient que des lettres latines et celles utilisées dans la langue anglaise. Il existe également des symboles arithmétiques et autres symboles de service. Mais il n'existe ni lettres russes, ni même latines spéciales pour l'allemand ou le français. C'est facile à expliquer : le codage a été développé spécifiquement en tant que norme américaine. À mesure que les ordinateurs ont commencé à être utilisés dans le monde entier, d’autres caractères ont dû être codés.

Pour ce faire, il a été décidé d'utiliser le huitième bit dans chaque octet. Cela a rendu disponible 128 valeurs supplémentaires (de 80 à FF) qui pouvaient être utilisées pour coder des caractères. La première des tables de huit bits est « ASCII étendu » ( ASCII étendu) - comprenait diverses variantes de caractères latins utilisés dans certaines langues d'Europe occidentale. Il contenait également d’autres symboles supplémentaires, notamment des pseudographies.

Les caractères pseudographiques vous permettent de fournir un semblant de graphique en affichant uniquement des caractères de texte à l'écran. Par exemple, le programme de gestion de fichiers FAR Manager fonctionne en utilisant des pseudographies.

Il n'y avait aucune lettre russe dans le tableau ASCII étendu. La Russie (anciennement URSS) et d'autres pays ont créé leurs propres codages permettant de représenter des caractères « nationaux » spécifiques dans des fichiers texte 8 bits - lettres latines des langues polonaise et tchèque, cyrillique (y compris les lettres russes) et d'autres alphabets.

Dans tous les codages largement répandus, les 127 premiers caractères (c'est-à-dire la valeur de l'octet avec le huitième bit égal à 0) sont identiques à ceux de l'ASCII. Ainsi, un fichier ASCII fonctionne dans l'un ou l'autre de ces encodages ; Les lettres de la langue anglaise sont représentées de la même manière.

Organisation OIN(Organisation internationale de normalisation) a adopté un groupe de normes OIN 8859. Il définit des codages 8 bits pour différents groupes de langues. Ainsi, ISO 8859-1 est une table ASCII étendue pour les États-Unis et l'Europe occidentale. Et ISO 8859-5 est un tableau pour l'alphabet cyrillique (y compris le russe).

Cependant, pour des raisons historiques, le codage ISO 8859-5 n'a pas pris racine. En réalité, les encodages suivants sont utilisés pour la langue russe :

Page de codes 866 ( CP866), alias « DOS », alias « encodage GOST alternatif ». Largement utilisé jusqu'au milieu des années 90 ; maintenant utilisé dans une mesure limitée. Pratiquement pas utilisé pour diffuser des textes sur Internet.
-KOI-8. Développé dans les années 70-80. Il s'agit d'une norme généralement acceptée pour la transmission de messages électroniques sur l'Internet russe. Il est également largement utilisé dans les systèmes d'exploitation de la famille Unix, notamment Linux. La version KOI-8, conçue pour le russe, s'appelle KOI-8R; Il existe des versions pour d'autres langues cyrilliques (par exemple, KOI8-U est une version pour la langue ukrainienne).
-Page de codes 1251, CP1251,Windows-1251. Développé par Microsoft pour prendre en charge la langue russe sous Windows.

Le principal avantage du CP866 était la préservation des caractères pseudo-graphiques aux mêmes endroits qu'en Extended ASCII ; par conséquent, les programmes de texte étrangers, par exemple le célèbre Norton Commander, pourraient fonctionner sans modifications. Le CP866 est désormais utilisé pour les programmes Windows exécutés dans des fenêtres de texte ou en mode texte plein écran, y compris FAR Manager.

Les textes en CP866 ont été assez rares ces dernières années (mais il est utilisé pour coder les noms de fichiers russes dans Windows). Par conséquent, nous nous attarderons plus en détail sur deux autres codages - KOI-8R et CP1251.

Comme vous pouvez le constater, dans la table d'encodage CP1251, les lettres russes sont classées par ordre alphabétique (à l'exception toutefois de la lettre E). Cette disposition permet aux programmes informatiques de trier très facilement par ordre alphabétique.

Mais dans KOI-8R, l’ordre des lettres russes semble aléatoire. Mais en réalité, ce n’est pas le cas.

Dans de nombreux programmes plus anciens, le 8ème bit était perdu lors du traitement ou de la transmission de texte. (Aujourd'hui, de tels programmes sont pratiquement « éteints », mais à la fin des années 80 et au début des années 90, ils étaient répandus). Pour obtenir une valeur de 7 bits à partir d’une valeur de 8 bits, soustrayez simplement 8 du chiffre le plus significatif ; par exemple, E1 devient 61.

Comparez maintenant KOI-8R avec le tableau ASCII (Tableau 1). Vous constaterez que les lettres russes sont clairement placées en correspondance avec les lettres latines. Si le huitième bit disparaît, les lettres russes minuscules se transforment en lettres latines majuscules et les lettres russes majuscules se transforment en lettres latines minuscules. Ainsi, E1 dans KOI-8 est le « A » russe, tandis que 61 en ASCII est le « a » latin.

Ainsi, KOI-8 vous permet de maintenir la lisibilité du texte russe lorsque le 8ème bit est perdu. « Bonjour à tous » devient « pRIWET WSEM ».

Récemment, l'ordre alphabétique des caractères dans la table de codage et la lisibilité avec la perte du 8ème bit ont perdu leur importance décisive. Le huitième bit des ordinateurs modernes n'est pas perdu lors de la transmission ou du traitement. Et le tri alphabétique se fait en tenant compte de l'encodage, et non par simple comparaison des codes. (D'ailleurs, les codes CP1251 ne sont pas complètement classés par ordre alphabétique - la lettre E n'est pas à sa place).

En raison du fait qu'il existe deux codages courants, lorsque vous travaillez avec Internet (courrier, navigation sur des sites Web), vous pouvez parfois voir un ensemble de lettres dénuées de sens au lieu du texte russe. Par exemple, « JE SUIS SBYUFEMHEL ». Ce ne sont que les mots « avec respect » ; mais ils ont été codés en codage CP1251 et l'ordinateur a décodé le texte à l'aide de la table KOI-8. Si les mêmes mots, au contraire, étaient codés en KOI-8, et que l'ordinateur décodait le texte selon la table CP1251, le résultat serait « U HCHBTSEOYEN ».

Il arrive parfois qu'un ordinateur déchiffre les lettres en russe à l'aide d'un tableau non destiné à la langue russe. Ensuite, à la place des lettres russes, un ensemble de symboles dénués de sens apparaît (par exemple, les lettres latines des langues d'Europe de l'Est) ; ils sont souvent appelés « crocozybras ».

Dans la plupart des cas, les programmes modernes parviennent à déterminer indépendamment les encodages des documents Internet (e-mails et pages Web). Mais parfois, ils « ratés », et alors vous pouvez voir d'étranges séquences de lettres russes ou « krokozyabry ». En règle générale, dans une telle situation, pour afficher du texte réel à l'écran, il suffit de sélectionner manuellement l'encodage dans le menu du programme.

Les informations de la page http://open-office.edusite.ru/TextProcessor/p5aa1.html ont été utilisées pour cet article.

Matériel extrait du site :

Un ordinateur comprend le processus de conversion sous une forme permettant une transmission, un stockage ou un traitement automatique plus pratique de ces données. Divers tableaux sont utilisés à cet effet. ASCII a été le premier système développé aux États-Unis pour travailler avec du texte anglais, qui s'est ensuite répandu dans le monde entier. L'article ci-dessous est consacré à sa description, ses caractéristiques, ses propriétés et son utilisation ultérieure.

Affichage et stockage d'informations dans un ordinateur

Les symboles sur un écran d'ordinateur ou sur l'un ou l'autre gadget numérique mobile sont formés à partir d'ensembles de formes vectorielles de divers caractères et d'un code qui vous permet de trouver parmi eux le symbole qui doit être inséré au bon endroit. Il représente une séquence de bits. Ainsi, chaque caractère doit correspondre de manière unique à un ensemble de zéros et de uns, qui apparaissent dans un certain ordre unique.

Comment tout a commencé

Historiquement, les premiers ordinateurs étaient de langue anglaise. Pour y coder des informations symboliques, il suffisait d'utiliser seulement 7 bits de mémoire, tandis qu'à cet effet 1 octet composé de 8 bits était alloué. Le nombre de caractères compris par l'ordinateur dans ce cas était de 128. Ces caractères comprenaient l'alphabet anglais avec ses signes de ponctuation, ses chiffres et quelques caractères spéciaux. Le codage à sept bits en langue anglaise avec la table correspondante (page de codes), développé en 1963, s'appelait l'American Standard Code for Information Interchange. Habituellement, l'abréviation « codage ASCII » était et est toujours utilisée pour le désigner.

Transition vers le multilinguisme

Au fil du temps, les ordinateurs sont devenus largement utilisés dans les pays non anglophones. À cet égard, il était nécessaire de disposer d'encodages permettant l'utilisation des langues nationales. Il a été décidé de ne pas réinventer la roue et de prendre comme base l'ASCII. La table de codage de la nouvelle édition a été considérablement élargie. L'utilisation du 8ème bit a permis de traduire 256 caractères dans un langage informatique.

Description

L'encodage ASCII comporte un tableau divisé en 2 parties. Seule sa première moitié est considérée comme une norme internationale généralement acceptée. Il comprend:

Caractères avec des numéros de série de 0 à 31, codés dans des séquences de 00000000 à 00011111. Ils sont réservés aux caractères de contrôle qui contrôlent le processus d'affichage de texte sur l'écran ou l'imprimante, l'émission d'un signal sonore, etc.
Les caractères avec NN dans le tableau de 32 à 127, codés par des séquences de 00100000 à 01111111 forment la partie standard du tableau. Il s'agit notamment d'un espace (N 32), de lettres de l'alphabet latin (minuscules et majuscules), de nombres à dix chiffres de 0 à 9, de signes de ponctuation, de parenthèses de styles différents et d'autres symboles.
Caractères avec des numéros de série de 128 à 255, codés par des séquences de 1 000 000 à 1 111 1111. Il s'agit notamment de lettres d'alphabets nationaux autres que le latin. C'est cette partie alternative de la table ASCII qui est utilisée pour convertir les caractères russes sous forme informatique.

Quelques propriétés

Les caractéristiques du codage ASCII incluent la différence entre les lettres « A » - « Z » en minuscules et en majuscules d'un seul bit. Cette circonstance simplifie grandement la conversion des registres, ainsi que la vérification de leur appartenance à une plage de valeurs donnée. De plus, toutes les lettres du système de codage ASCII sont représentées par leurs propres numéros de séquence dans l'alphabet, qui sont écrits avec 5 chiffres dans le système de numérotation binaire, précédés de 011 2 pour les lettres minuscules et de 010 2 pour les lettres majuscules.

L'une des caractéristiques du codage ASCII est la représentation de 10 chiffres - « 0 » - « 9 ». Dans le deuxième système numérique, ils commencent par 00112 et se terminent par 2 valeurs numériques. Ainsi, 0101 2 est équivalent au nombre décimal cinq, donc le caractère « 5 » s'écrit 0011 01012. Sur la base de ce qui précède, vous pouvez facilement convertir les nombres BCD en chaîne ASCII en ajoutant la séquence de bits 00112 à chaque quartet du gauche.

"Unicode"

Comme vous le savez, des milliers de caractères sont nécessaires pour afficher des textes dans les langues du groupe d'Asie du Sud-Est. Un tel nombre d'entre eux ne peut en aucun cas être décrit dans un seul octet d'information, de sorte que même les versions étendues de l'ASCII ne pouvaient plus satisfaire les besoins croissants des utilisateurs de différents pays.

Ainsi, le besoin s'est fait sentir de créer un codage de texte universel, dont le développement, en collaboration avec de nombreux leaders de l'industrie informatique mondiale, a été entrepris par le consortium Unicode. Ses spécialistes ont créé le système UTF 32. Dans celui-ci, 32 bits ont été alloués pour coder 1 caractère, constituant 4 octets d'informations. Le principal inconvénient était une forte augmentation de la quantité de mémoire requise jusqu'à 4 fois, ce qui entraînait de nombreux problèmes.

Dans le même temps, pour la plupart des pays dont les langues officielles appartiennent au groupe indo-européen, le nombre de caractères égal à 2 32 est plus qu'excessif.

À la suite de travaux ultérieurs menés par des spécialistes du consortium Unicode, le codage UTF-16 est apparu. C'est devenu une option de conversion d'informations symboliques qui convenait à tout le monde, tant en termes de quantité de mémoire requise que de nombre de caractères codés. C'est pourquoi UTF-16 a été adopté par défaut et nécessite que 2 octets soient réservés pour un caractère.

Même cette version assez avancée et réussie d'Unicode présentait certains inconvénients, et après le passage de la version étendue d'ASCII à UTF-16, le poids du document a doublé.

À cet égard, il a été décidé d'utiliser le codage à longueur variable UTF-8. Dans ce cas, chaque caractère du texte source est codé sous la forme d'une séquence d'une longueur de 1 à 6 octets.

Contacter le code standard américain pour l'échange d'informations

Tous les caractères latins de longueur variable UTF-8 sont codés sur 1 octet, comme dans le système de codage ASCII.

Une particularité de YTF-8 est que dans le cas d'un texte en latin sans utiliser d'autres caractères, même les programmes qui ne comprennent pas Unicode pourront toujours le lire. En d’autres termes, le codage de texte ASCII de base devient simplement une partie du nouvel UTF de longueur variable. Les caractères cyrilliques dans YTF-8 occupent 2 octets et, par exemple, les caractères géorgiens - 3 octets. En créant UTF-16 et 8, le principal problème de la création d'un espace de code unique dans les polices a été résolu. Depuis lors, les fabricants de polices ne peuvent remplir le tableau qu’avec des formes vectorielles de caractères de texte en fonction de leurs besoins.

Différents systèmes d'exploitation préfèrent différents encodages. Pour pouvoir lire et éditer des textes saisis avec un encodage différent, des programmes de conversion de texte russe sont utilisés. Certains éditeurs de texte contiennent des transcodeurs intégrés et vous permettent de lire du texte quel que soit l'encodage.

Vous savez maintenant combien de caractères contiennent le codage ASCII et comment et pourquoi il a été développé. Bien entendu, c’est aujourd’hui la norme Unicode qui est la plus répandue dans le monde. Cependant, il ne faut pas oublier qu'il est basé sur ASCII, la contribution de ses développeurs dans le domaine informatique doit donc être appréciée.

Déc	Hex	Symbole	Déc	Hex	Symbole
000	00	spécialiste. NON	128	80	Ђ
001	01	spécialiste. SOH	129	81	Ѓ
002	02	spécialiste. STX	130	82	‚
003	03	spécialiste. ETX	131	83	ѓ
004	04	spécialiste. EOT	132	84	„
005	05	spécialiste. ENQ	133	85	…
006	06	spécialiste. ACCK	134	86	†
007	07	spécialiste. BEL	135	87	‡
008	08	spécialiste. BS.	136	88	€
009	09	spécialiste. LANGUETTE	137	89	‰
010	0A	spécialiste. LF	138	8A	Љ
011	0B	spécialiste. Vermont	139	8B	‹ ‹
012	0C	spécialiste. FR	140	8C	Њ
013	0D	spécialiste. CR	141	8D	Ќ
014	0E	spécialiste. DONC	142	8E	Ћ
015	0F	spécialiste. SI.	143	8F	Џ
016	10	spécialiste. DLE	144	90	ђ
017	11	spécialiste. DC1	145	91	‘
018	12	spécialiste. DC2	146	92	’
019	13	spécialiste. DC3	147	93	“
020	14	spécialiste. DC4	148	94	”
021	15	spécialiste. N.A.K.	149	95
022	16	spécialiste. SYN	150	96	–
023	17	spécialiste. ETB	151	97	—
024	18	spécialiste. PEUT	152	98
025	19	spécialiste. E.M.	153	99	™
026	1A	spécialiste. SOUS	154	9A	љ
027	1B	spécialiste. ÉCHAP	155	9B	›
028	1C	spécialiste. FS	156	9C	њ
029	1D	spécialiste. G.S.	157	9D	ќ
030	1E	spécialiste. R.S.	158	9E	ћ
031	1F	spécialiste. NOUS	159	9F	џ
032	20	embrayage SP (Espace)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Yo
041	29	)	169	A9	©
042	2A	*	170	Les AA	Є
043	2B	+	171	UN B	«
044	2C	,	172	A.C.	¬
045	2D	-	173	ANNONCE
046	2E	.	174	A.E.	®
047	2F	/	175	UN F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	B.A.	є
059	3B	;	187	BB	»
060	3C	<	188	AVANT JC.	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	ÊTRE	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	UN
065	41	UN	193	C1	B
066	42	B	194	C2	DANS
067	43	C	195	C3	g
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	ET
071	47	g	199	C7	Z
072	48	H	200	C8	ET
073	49	je	201	C9	Oui
074	4A	J.	202	CALIFORNIE.	À
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	C.E.	À PROPOS
079	4F	Ô	207	FC	P.
080	50	P.	208	D0	R.
081	51	Q	209	D1	AVEC
082	52	R.	210	D2	T
083	53	S	211	D3	U
084	54	T	212	D4	F
085	55	U	213	J5	X
086	56	V	214	D6	C
087	57	W	215	J7	H
088	58	X	216	D8	Ch
089	59	Oui	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Oui
092	5C	\	220	CC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	je
096	60	`	224	E0	UN
097	61	un	225	E1	b
098	62	b	226	E2	V
099	63	c	227	E3	g
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	F	230	E6	et
103	67	g	231	E7	h
104	68	h	232	E8	Et
105	69	je	233	E9	ème
106	6A	j	234	E.A.	À
107	6B	k	235	E.B.	je
108	6C	je	236	C.E.	m
109	6D	m	237	ED	n
110	6E	n	238	E.E.	Ô
111	6F	o	239	E.F.	P.
112	70	p	240	F0	R.
113	71	q	241	F1	Avec
114	72	r	242	F2	T
115	73	s	243	F3	à
116	74	t	244	F4	F
117	75	toi	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	h
120	78	X	248	F8	w
121	79	oui	249	F9	sch
122	7A	z	250	FA.	ъ
123	7B	{	251	Facebook	s
124	7C	\|	252	F.C.	b
125	7D	}	253	FD	euh
126	7E	~	254	F.E.	Yu
127	7F	Spécialiste. DEL	255	FR	je

Table de codes de caractères ASCII Windows.
Description des caractères spéciaux (de contrôle)

Il convient de noter que les caractères de contrôle des tables ASCII étaient à l'origine utilisés pour assurer l'échange de données via un téléimprimeur, la saisie de données à partir d'une bande perforée et pour un contrôle simple de périphériques externes.
Actuellement, la plupart des caractères de contrôle de table ASCII ne supportent plus cette charge et peuvent être utilisés à d'autres fins.

Code	Description
NUL, 00	Nulle, vide
SOH, 01	Début du titre
STX, 02	Début de TeXt, le début du texte.
ETX, 03	Fin de TeXt, fin du texte
EOT, 04	Fin de transmission, fin de transmission
ENQ, 05	Renseigner. Veuillez confirmer
ACCK, 06	Reconnaissance. je confirme
BEL, 07	Cloche, appelle
BS, 08	Retour arrière, recule d'un caractère
ONGLET, 09	Onglet, onglet horizontal
BF, 0A	Saut de ligne, saut de ligne. De nos jours, dans la plupart des langages de programmation, il est noté \n
VT, 0B	Onglet vertical, tabulation verticale.
FR, 0C	Fil de formulaire, fil de page, nouvelle page
CR, 0D	Retour chariot, retour chariot. De nos jours, dans la plupart des langages de programmation, il est noté \r
SO,0E	Shift Out, change la couleur du ruban encreur dans le périphérique d'impression
SI, 0F	Shift In, renvoie la couleur du ruban encreur dans le périphérique d'impression
DLE, 10	Data Link Escape, passage du canal à la transmission de données
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Contrôle des appareils, symboles de contrôle des appareils
NAK, 15 ans	Accusé de réception négatif, je ne confirme pas.
SYN, 16	Synchronisation. Symbole de synchronisation
ETB, 17	Fin du bloc de texte, fin du bloc de texte
CAN, 18	Annuler, annulation d'un message précédemment transmis
EM, 19	Fin du Médium
SUB, 1A	Remplacer, remplacer. Placé à la place d'un symbole dont la signification a été perdue ou corrompue lors de la transmission
ESC, 1B	Séquence de contrôle d'évacuation
FS, 1C	Séparateur de fichiers, séparateur de fichiers
GS, 1D	Séparateur de groupe
RS, 1E	Séparateur d'enregistrements, séparateur d'enregistrements
États-Unis, 1F	Séparateur d'unités
DEL, 7F	Supprimer, effacer le dernier caractère.

Chaque ordinateur possède son propre jeu de caractères qu'il implémente. Cet ensemble contient 26 lettres majuscules et minuscules, des chiffres et des caractères spéciaux (point, espace, etc.). Lorsqu'ils sont convertis en nombres entiers, les symboles sont appelés codes. Des normes ont été élaborées pour que les ordinateurs aient les mêmes ensembles de codes.

Norme ASCII

ASCII (American Standard Code for Information Interchange) est un code standard américain pour l'échange d'informations. Chaque caractère ASCII comporte 7 bits, le nombre maximum de caractères est donc de 128 (Tableau 1). Les codes 0 à 1F sont des caractères de contrôle qui ne sont pas imprimés. De nombreux caractères ASCII non imprimables sont nécessaires pour transmettre des données. Par exemple, un message peut être constitué du caractère de début d'en-tête SOH, de l'en-tête lui-même et du caractère de début de texte STX, du texte lui-même et du caractère de fin de texte ETX, ainsi que du caractère de fin de transmission. caractère EOT. Cependant, les données sur le réseau sont transmises sous forme de paquets, qui sont eux-mêmes responsables du début et de la fin de la transmission. Les caractères non imprimables ne sont donc presque jamais utilisés.

Tableau 1 - Table de codes ASCII

Nombre	Équipe	Signification	Nombre	Équipe	Signification
0	NUL	Pointeur nul	10	DLE	Sortie du système de transmission
1	SOH	début du titre	11	DC1	Gestion d'appareils
2	STX	Début du texte	12	DC2	Gestion d'appareils
3	ETX	Fin du texte	13	DC3	Gestion d'appareils
4	EOT	Fin de transmission	14	DC4	Gestion d'appareils
5	ACCK	Demande	15	N.A.K.	Non confirmation de réception
6	BEL	Confirmation d'acceptation	16	SYN	Simple
7	BS.	Symbole de la cloche	17	ETB	Fin du bloc de transmission
8	HT	Reculer	18	PEUT	Marque
9	LF	Tabulation horizontale	19	E.M.	Fin des médias
UN	Vermont	Traduction de ligne	1A	SOUS	Indice
B	FR	Onglet vertical	1B	ÉCHAP	Sortie
C	CR	Traduction de pages	1C	FS	Séparateur de fichiers
D	DONC	Retour en calèche	1D	G.S.	Séparateur de groupe
E	SI.	Passer au registre supplémentaire	1E	R.S.	Séparateur d'enregistrements
	SI.	Passer au boîtier standard	1F	NOUS	Séparateur de modules

Nombre	Symbole	Nombre	Symbole	Nombre	Symbole	Nombre	Symbole	Nombre	Symbole	Nombre	Symbole
20	espace	30	0	40	@	50	P.	60	.	70	p
21	!	31	1	41	UN	51	Q	61	un	71	q
22	‘	32	2	42	B	52	R.	62	b	72	r
23	#	33	3	43	C	53	S	63	c	73	s
24	φ	34	4	44	D	54	T	64	d	74	t
25	%	35	5	45	E	55	ET	65	e	75	Et
26	&	36	6	46	F	56	V	66	F	76	v
27	‘	37	7	47	g	57	W	67	g	77	w
28	(	38	8	48	H	58	X	68	h	78	X
29	)	39	9	49	je	59	Oui	69	je	70	oui
2A	‘	3A	;	4A	J.	5A	Z	6A	j	7A	z
2B	+	3B	;	4B	K	5B	[	6B	k	7B	{
2C	‘	3C	<	4C	L	5C	\	6C	je	7C	\|
2D	—	3D	=	4D	M	5D	]	6D	m	7D	}
2E		3E	>	4E	N	5E	—	6E	n	7E	~
2F	/	3F	g	4F	Ô	5F	_	6F	o	7F	DEL

Norme Unicode

L’encodage précédent convient à l’anglais, mais il n’est pas pratique pour les autres langues. Par exemple, l’allemand a des trémas et le français des exposants. Certaines langues ont des alphabets complètement différents. La première tentative d'extension de l'ASCII a été IS646, qui a étendu le codage précédent de 128 caractères supplémentaires. Des lettres latines avec des traits et des signes diacritiques ont été ajoutées et ont reçu le nom - Latin 1. La tentative suivante était IS 8859 - qui contenait une page de codes. Il y a eu également des tentatives d'extension, mais celles-ci n'ont pas été universelles. Le codage UNICODE a été créé (10646). L'idée derrière le codage est d'attribuer à chaque caractère une seule valeur constante de 16 bits, appelée - pointeur de code. Au total, il y a 65 536 pointeurs. Pour économiser de l'espace, nous avons utilisé Latin-1 pour les codes 0 à 255, changeant facilement ASII en UNICODE. Cette norme a résolu de nombreux problèmes, mais pas tous. En raison de l'arrivée de nouveaux mots, par exemple pour la langue japonaise, il est nécessaire d'augmenter le nombre de termes d'environ 20 000. Il est également nécessaire d'inclure le braille.

Site sur l'informatique