Symboles d'Annecy. Codage ASCII (code standard américain pour l'échange d'informations) - codage de texte de base pour l'alphabet latin

Chaque ordinateur possède son propre jeu de caractères qu'il implémente. Cet ensemble contient 26 lettres majuscules et minuscules, chiffres et Symboles spéciaux(point, espace, etc.). Lorsqu'ils sont convertis en nombres entiers, les symboles sont appelés codes. Des normes ont été élaborées pour que les ordinateurs aient les mêmes ensembles de codes.

Norme ASCII

ASCII (American Standard Code for Inmormation Interchange) - Américain code standard pour l'échange d'informations. Chaque caractère ASCII comporte 7 bits, le nombre maximum de caractères est donc de 128 (Tableau 1). Les codes 0 à 1F sont des caractères de contrôle qui ne sont pas imprimés. De nombreux caractères ASCII non imprimables sont nécessaires pour transmettre des données. Par exemple, un message peut être constitué du caractère de début d'en-tête SOH, de l'en-tête lui-même et du caractère de début de texte STX, du texte lui-même et du caractère de fin de texte ETX, ainsi que du caractère de fin de transmission. caractère EOT. Cependant, les données sur le réseau sont transmises sous forme de paquets, qui sont eux-mêmes responsables du début et de la fin de la transmission. Les caractères non imprimables ne sont donc presque jamais utilisés.

Tableau 1 - Table de codes ASCII

Nombre	Équipe	Signification	Nombre	Équipe	Signification
0	NUL	Pointeur nul	10	DLE	Sortie du système de transmission
1	SOH	début du titre	11	DC1	Gestion d'appareils
2	STX	Début du texte	12	DC2	Gestion d'appareils
3	ETX	Fin du texte	13	DC3	Gestion d'appareils
4	EOT	Fin de transmission	14	DC4	Gestion d'appareils
5	ACCK	Demande	15	N.A.K.	Non confirmation de réception
6	BEL	Confirmation d'acceptation	16	SYN	Simple
7	BS.	Symbole de la cloche	17	ETB	Fin du bloc de transmission
8	HT	Reculer	18	PEUT	Marque
9	LF	Tabulation horizontale	19	E.M.	Fin des médias
UN	Vermont	Traduction de ligne	1A	SOUS	Indice
B	FR	Onglet vertical	1B	ÉCHAP	Sortie
C	CR	Traduction de pages	1C	FS	Séparateur de fichiers
D	DONC	Retour en calèche	1D	G.S.	Séparateur de groupe
E	SI.	Passer au registre supplémentaire	1E	R.S.	Séparateur d'enregistrements
	SI.	Passer au boîtier standard	1F	NOUS	Séparateur de modules

Nombre	Symbole	Nombre	Symbole	Nombre	Symbole	Nombre	Symbole	Nombre	Symbole	Nombre	Symbole
20	espace	30	0	40	@	50	P.	60	.	70	p
21	!	31	1	41	UN	51	Q	61	un	71	q
22	‘	32	2	42	B	52	R.	62	b	72	r
23	#	33	3	43	C	53	S	63	c	73	s
24	φ	34	4	44	D	54	T	64	d	74	t
25	%	35	5	45	E	55	ET	65	e	75	Et
26	&	36	6	46	F	56	V	66	F	76	v
27	‘	37	7	47	g	57	W	67	g	77	w
28	(	38	8	48	H	58	X	68	h	78	X
29	)	39	9	49	je	59	Oui	69	je	70	oui
2A	‘	3A	;	4A	J.	5A	Z	6A	j	7A	z
2B	+	3B	;	4B	K	5B	[	6B	k	7B	{
2C	‘	3C	<	4C	L	5C	\	6C	je	7C	\|
2D	—	3D	=	4D	M	5D	]	6D	m	7D	}
2E		3E	>	4E	N	5E	—	6E	n	7E	~
2F	/	3F	g	4F	Ô	5F	_	6F	o	7F	DEL

Norme Unicode

L’encodage précédent convient à l’anglais, mais il n’est pas pratique pour les autres langues. Par exemple, l’allemand a des trémas et le français des exposants. Certaines langues ont des alphabets complètement différents. La première tentative d'extension de l'ASCII a été IS646, qui a étendu le codage précédent de 128 caractères supplémentaires. Des lettres latines avec des traits et des signes diacritiques ont été ajoutées et ont reçu le nom - Latin 1. La tentative suivante était IS 8859 - qui contenait une page de codes. Il y a eu également des tentatives d'extension, mais celles-ci n'ont pas été universelles. Le codage UNICODE a été créé (10646). L'idée derrière le codage est d'attribuer à chaque caractère une seule valeur constante de 16 bits, appelée - pointeur de code. Au total, il y a 65 536 pointeurs. Pour économiser de l'espace, nous avons utilisé Latin-1 pour les codes 0 à 255, changeant facilement ASII en UNICODE. Cette norme a résolu de nombreux problèmes, mais pas tous. En raison de l'arrivée de nouveaux mots, par exemple pour la langue japonaise, il est nécessaire d'augmenter le nombre de termes d'environ 20 000. Il est également nécessaire d'inclure le braille.

Unicode (Unicode en anglais) est une norme de codage de caractères. En termes simples, il s'agit d'un tableau de correspondance entre les caractères du texte ( , lettres, éléments de ponctuation) codes binaires. L'ordinateur ne comprend que la séquence des zéros et des uns. Pour qu'il sache exactement ce qu'il doit afficher à l'écran, il est nécessaire d'attribuer à chaque personnage son propre numéro unique. Dans les années 80, les caractères étaient codés sur un octet, soit huit bits (chaque bit étant un 0 ou un 1). Ainsi, il s'est avéré qu'une table (c'est-à-dire encodage ou ensemble) ne peut contenir que 256 caractères. Cela peut ne pas suffire, même pour une seule langue. Par conséquent, de nombreux encodages différents sont apparus, dont la confusion a souvent conduit à l'apparition d'étranges charabia à l'écran au lieu d'un texte lisible. Un standard unique était nécessaire, et c'est ce qu'est devenu Unicode. L'encodage le plus utilisé est l'UTF-8 (Unicode Transformation Format), qui utilise 1 à 4 octets pour représenter un caractère.

Symboles

Les caractères des tableaux Unicode sont numérotés avec des nombres hexadécimaux. Par exemple, le cyrillique lettre capitale M est désigné U+041C. Cela signifie qu'il se trouve à l'intersection de la ligne 041 et de la colonne C. Vous pouvez simplement le copier puis le coller quelque part. Afin de ne pas fouiller dans une liste de plusieurs kilomètres, vous devez utiliser la recherche. Lorsque vous accédez à la page des symboles, vous verrez son numéro Unicode et comment il est écrit dans différentes polices. Vous pouvez saisir le signe lui-même dans la barre de recherche, même si un carré est dessiné à la place, au moins pour savoir de quoi il s'agit. De plus, sur ce site, il existe des ensembles spéciaux (et aléatoires) du même type d'icônes, collectés dans différentes sections, pour en faciliter l'utilisation.

La norme Unicode est internationale. Il comprend des personnages de presque toutes les écritures du monde. Y compris ceux qui ne sont plus utilisés. Hiéroglyphes égyptiens, runes germaniques, écriture maya, cunéiforme et alphabets des États anciens. Les désignations des poids et mesures, la notation musicale et les concepts mathématiques sont également présentés.

Le Consortium Unicode lui-même n'invente pas de nouveaux caractères. Les icônes qui trouvent leur utilité dans la société sont ajoutées aux tables. Par exemple, le signe rouble a été activement utilisé pendant six ans avant d'être ajouté à Unicode. Les pictogrammes Emoji (émoticônes) ont également été largement utilisés au Japon avant d'être inclus dans l'encodage. Mais les marques et logos d’entreprises ne sont en principe pas ajoutés. Même les plus courants comme la pomme Apple ou le drapeau Windows. À ce jour, environ 120 000 caractères sont codés dans la version 8.0.

Selon l’Union internationale des télécommunications, en 2016, trois milliards et demi de personnes utilisaient Internet avec une certaine régularité. La plupart d'entre eux ne pensent même pas au fait que les messages qu'ils envoient via PC ou gadgets mobiles, ainsi que les textes affichés sur toutes sortes de moniteurs, sont en réalité des combinaisons de 0 et 1. Cette représentation des informations est appelée encodage. Il assure et facilite grandement son stockage, son traitement et sa transmission. En 1963, le codage américain ASCII a été développé, ce qui fait l'objet de cet article.

Présenter des informations sur un ordinateur

Du point de vue de tout ordinateur électronique, le texte est un ensemble de caractères individuels. Ceux-ci incluent non seulement les lettres, y compris les majuscules, mais également les signes de ponctuation et les chiffres. De plus, les caractères spéciaux « = », « & », « ( » et des espaces sont utilisés.

L'ensemble des caractères qui composent le texte s'appelle l'alphabet et leur nombre est appelé cardinalité (noté N). Pour le déterminer, l'expression N = 2^b est utilisée, où b est le nombre de bits ou le poids informationnel d'un symbole particulier.

Il a été prouvé qu'un alphabet d'une capacité de 256 caractères peut représenter tous les caractères nécessaires.

Puisque 256 représente la 8ème puissance de deux, le poids de chaque caractère est de 8 bits.

Une unité de mesure de 8 bits est appelée 1 octet, il est donc d'usage de dire que tout caractère d'un texte stocké sur un ordinateur occupe un octet de mémoire.

Comment se fait le codage ?

Tous les textes sont entrés en mémoire ordinateur personnel grâce aux touches du clavier sur lesquelles sont écrits des chiffres, des lettres, des signes de ponctuation et d'autres symboles. DANS RAM ils sont transmis en code binaire, c'est-à-dire que chaque caractère est associé à un code décimal familier à l'homme, de 0 à 255, qui correspond à un code binaire - de 00000000 à 11111111.

Le codage de caractères octet-octet permet au processeur effectuant le traitement de texte d'accéder à chaque caractère individuellement. Dans le même temps, 256 caractères suffisent amplement pour représenter n'importe quelle information symbolique.

Codage de caractères ASCII

Cette abréviation en anglais signifie code pour informationéchange.

Même à l’aube de l’informatisation, il est devenu évident qu’il était possible de proposer une grande variété de méthodes pour coder l’information. Cependant, pour transférer des informations d’un ordinateur à un autre, il était nécessaire de développer une norme unifiée. Ainsi, en 1963, la table de codage ASCII apparaît aux USA. Dans celui-ci, tout symbole de l'alphabet informatique est associé à son numéro de série en représentation binaire. ASCII était à l'origine utilisé uniquement aux États-Unis et est ensuite devenu une norme internationale pour les PC.

Les codes ASCII sont divisés en 2 parties. Seule la première moitié de ce tableau est considérée comme la norme internationale. Il comprend des caractères avec des numéros de série allant de 0 (codé 00000000) à 127 (codé 01111111).

Numéro de série	Encodage de texte ASCII	Symbole
	0000 0000 - 0001 1111	Les caractères avec N compris entre 0 et 31 sont appelés caractères de contrôle. Leur fonction est de « gérer » le processus d'affichage du texte sur un moniteur ou un périphérique d'impression, en alimentant signal sonore et ainsi de suite.
	0010 0000 - 0111 1111	Caractères avec N de 32 à 127 (partie standard du tableau) - majuscules et minuscule Alphabet latin, dixièmes chiffres, signes de ponctuation, ainsi que diverses parenthèses, symboles commerciaux et autres. Le caractère 32 représente un espace.
	1000 0000 - 1111 1111	Les caractères avec N compris entre 128 et 255 (partie alternative du tableau ou page de codes) peuvent avoir diverses options, dont chacun a son propre numéro. La page de codes est utilisée pour spécifier des alphabets nationaux différents du latin. C'est notamment avec son aide que s'effectue le codage ASCII des caractères russes.

Dans le tableau, les encodages sont en majuscules et se suivent dans ordre alphabétique, et les nombres sont par ordre croissant. Ce principe reste le même pour l’alphabet russe.

Caractères de contrôle

La table de codage ASCII a été créée à l'origine pour recevoir et transmettre des informations via un appareil qui n'a pas été utilisé depuis longtemps, comme un télétype. À cet égard, des caractères non imprimables ont été inclus dans le jeu de caractères, utilisés comme commandes pour contrôler cet appareil. Des commandes similaires ont été utilisées dans des méthodes de messagerie pré-informatiques telles que le code Morse, etc.

Le caractère de télétype le plus courant est NUL (00). Il est encore utilisé aujourd’hui dans la plupart des langages de programmation pour indiquer la fin d’une ligne.

Où le codage ASCII est-il utilisé ?

L'American Standard Code est nécessaire pour bien plus que la simple saisie informations textuelles depuis le clavier. Il est également utilisé dans le graphisme. En particulier, dans le programme ASCII Art Créateur d'images Les différentes extensions représentent un spectre de caractères ASCII.

Il existe deux types de produits similaires : ceux qui remplissent une fonction éditeurs graphiques en convertissant les images en texte et en convertissant les « dessins » en graphiques ASCII. Par exemple, une émoticône célèbre est un exemple brillant caractère de codage.

ASCII peut également être utilisé lors de la création d'un document HTML. Dans ce cas, vous pouvez saisir un certain jeu de caractères et lors de la visualisation de la page, un symbole correspondant à ce code apparaîtra à l'écran.

L'ASCII est également nécessaire pour créer des sites Web multilingues, puisque les caractères qui ne figurent pas dans un tableau national spécifique sont remplacés par des codes ASCII.

Certaines fonctionnalités

ASCII était à l'origine utilisé pour coder des informations textuelles en utilisant 7 bits (un était laissé vide), mais aujourd'hui, il fonctionne comme 8 bits.

Les lettres situées dans les colonnes situées au-dessus et en dessous ne diffèrent les unes des autres que par un seul bit. Cela réduit considérablement la complexité de l’audit.

Utilisation de l'ASCII dans Microsoft Office

Si nécessaire, ce type de codage d'informations textuelles peut être utilisé dans les éditeurs de texte Microsoft tels que le Bloc-notes et Mot de bureau. Cependant, dans ce cas, vous ne pourrez peut-être pas utiliser certaines fonctions lors de la saisie. Par exemple, vous ne pourrez pas sélectionner en gras, puisque le codage ASCII préserve uniquement le sens de l'information, ignorant son apparence et sa forme générales.

Standardisation

L'organisation ISO a adopté les normes ISO 8859. Ce groupe définit des codages sur huit bits pour différents groupes de langues. Plus précisément, ISO 8859-1 est une table ASCII étendue destinée aux États-Unis et aux pays d'Europe occidentale. Et ISO 8859-5 est un tableau utilisé pour l'alphabet cyrillique, y compris la langue russe.

Pour diverses raisons historiques, la norme ISO 8859-5 a été utilisée pendant très peu de temps.

Pour la langue russe ce moment Les encodages réels utilisés sont :

CP866 (page de codes 866) ou DOS, qui est souvent appelé codage GOST alternatif. Il a été activement utilisé jusqu'au milieu des années 90 du siècle dernier. Pour le moment, il n’est pratiquement pas utilisé.
KOI-8. Le codage a été développé dans les années 1970 et 1980 et constitue désormais la norme généralement acceptée pour messages électroniques dans Runet. Il est largement utilisé dans les systèmes d'exploitation Famille Unix, y compris Linux. La version « russe » du KOI-8 s'appelle KOI-8R. Il existe également des versions pour d’autres langues cyrilliques, comme l’ukrainien.
Page de codes 1251 (CP 1251, Windows - 1251). Développé par Microsoft pour assurer la prise en charge de la langue russe dans l'environnement Windows.

Le principal avantage du premier standard CP866 était la préservation des caractères pseudographiques dans les mêmes positions qu'en Extended ASCII. Cela lui a permis de fonctionner sans modifications programmes de texte, des productions étrangères, comme le célèbre Norton Commander. Actuellement, le CP866 est utilisé pour les programmes développés pour Windows qui s'exécutent en plein écran. mode texte ou dans les fenêtres de texte, y compris FAR Manager.

Textes informatiques écrits en codage CP866, en Dernièrement Ils sont assez rares, mais c'est celui qui est utilisé pour les noms de fichiers russes sous Windows.

"Unicode"

À l’heure actuelle, ce codage est le plus utilisé. Les codes Unicode sont divisés en zones. Le premier (U+0000 à U+007F) comprend des caractères ASCII avec des codes. Viennent ensuite les zones de caractères de diverses écritures nationales, ainsi que les signes de ponctuation et les symboles techniques. De plus, certains codes Unicode sont réservés au cas où il serait nécessaire d'inclure de nouveaux caractères à l'avenir.

Vous savez maintenant qu'en ASCII, chaque caractère est représenté par une combinaison de 8 zéros et uns. Pour les non-spécialistes, ces informations peuvent paraître inutiles et sans intérêt, mais ne voulez-vous pas savoir ce qui se passe « dans le cerveau » de votre PC ?!

[Codages 8 bits : ASCII, KOI-8R et CP1251] Les premières tables de codage créées aux États-Unis n'utilisaient pas le huitième bit d'un octet. Le texte était représenté comme une séquence d'octets, mais le huitième bit n'était pas pris en compte (il était utilisé à des fins officielles).

La table est devenue une norme généralement acceptée ASCII(Code américain normalisé pour l'échange d'information). Les 32 premiers caractères de la table ASCII (00 à 1F) ont été utilisés pour les caractères non imprimables. Ils ont été conçus pour contrôler un périphérique d'impression, etc. Le reste - de 20 à 7F - sont des caractères normaux (imprimables).

Tableau 1 - Codage ASCII

Déc	Hex	Octobre	Carboniser	Description
0	0	000		nul
1	1	001		début du titre
2	2	002		début du texte
3	3	003		fin du texte
4	4	004		fin de transmission
5	5	005		enquête
6	6	006		reconnaître
7	7	007		cloche
8	8	010		retour arrière
9	9	011		onglet horizontal
10	UN	012		nouvelle ligne
11	B	013		onglet vertical
12	C	014		nouvelle page
13	D	015		retour chariot
14	E	016		se déplacer
15	F	017		changement dans
16	10	020		liaison de données s'échapper
17	11	021		contrôle de l'appareil 1
18	12	022		contrôle de l'appareil 2
19	13	023		contrôle de l'appareil 3
20	14	024		contrôle de l'appareil 4
21	15	025		accusé de réception négatif
22	16	026		ralenti synchrone
23	17	027		fin du trans. bloc
24	18	030		Annuler
25	19	031		fin du médium
26	1A	032		remplaçant
27	1B	033		s'échapper
28	1C	034		séparateur de fichiers
29	1D	035		séparateur de groupe
30	1E	036		séparateur d'enregistrement
31	1F	037		séparateur d'unité
32	20	040		espace
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

Déc	Hex	Octobre	Carboniser
64	40	100	@
65	41	101	UN
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	g
72	48	110	H
73	49	111	je
74	4A	112	J.
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	Ô
80	50	120	P.
81	51	121	Q
82	52	122	R.
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	Oui
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	un
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	F
103	67	147	g
104	68	150	h
105	69	151	je
106	6A	152	j
107	6B	153	k
108	6C	154	je
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	p
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	toi
118	76	166	v
119	77	167	w
120	78	170	X
121	79	171	oui
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Comme il est facile de le constater, cet encodage ne contient que des lettres latines, et celles qui sont utilisées dans langue anglaise. Il existe également des symboles arithmétiques et autres symboles de service. Mais il n'existe ni lettres russes, ni même latines spéciales pour l'allemand ou l'allemand. Français. C'est facile à expliquer : le codage a été développé exactement comme Norme américaine. À mesure que les ordinateurs ont commencé à être utilisés dans le monde entier, d’autres caractères ont dû être codés.

Pour ce faire, il a été décidé d'utiliser le huitième bit dans chaque octet. Cela a rendu disponible 128 valeurs supplémentaires (de 80 à FF) qui pouvaient être utilisées pour coder des caractères. La première des tables de huit bits est « ASCII étendu » ( ASCII étendu) - comprenait diverses variantes de caractères latins utilisés dans certaines langues d'Europe occidentale. Il y en avait aussi d'autres dedans caractères supplémentaires, y compris les pseudographies.

Les caractères pseudographiques permettent, en affichant uniquement caractères de texte, fournissent un semblant de graphisme. Par exemple, le programme de gestion de fichiers FAR Manager fonctionne en utilisant des pseudographies.

Il n'y avait aucune lettre russe dans le tableau ASCII étendu. La Russie (anciennement URSS) et d'autres pays ont créé leurs propres codages permettant de représenter des caractères « nationaux » spécifiques dans des fichiers texte 8 bits - lettres latines des langues polonaise et tchèque, cyrillique (y compris les lettres russes) et d'autres alphabets.

Dans tous les codages largement répandus, les 127 premiers caractères (c'est-à-dire la valeur de l'octet avec le huitième bit égal à 0) sont identiques à ceux de l'ASCII. Ainsi, un fichier ASCII fonctionne dans l'un ou l'autre de ces encodages ; Les lettres de la langue anglaise sont représentées de la même manière.

Organisation OIN(Organisation internationale de normalisation) a adopté un groupe de normes OIN 8859. Il définit des codages 8 bits pour différents groupes de langues. Ainsi, ISO 8859-1 est une table ASCII étendue pour les États-Unis et l'Europe occidentale. Et ISO 8859-5 est un tableau pour l'alphabet cyrillique (y compris le russe).

Cependant, pour des raisons historiques, le codage ISO 8859-5 n'a pas pris racine. En réalité, les encodages suivants sont utilisés pour la langue russe :

Page de codes 866 ( CP866), alias « DOS », alias « encodage GOST alternatif ». Largement utilisé jusqu'au milieu des années 90 ; maintenant utilisé dans une mesure limitée. Pratiquement pas utilisé pour diffuser des textes sur Internet.
-KOI-8. Développé dans les années 70-80. Est une norme généralement acceptée pour la transmission de messages électroniques dans Internet russe. Il est également largement utilisé dans les systèmes d'exploitation de la famille Unix, notamment Linux. La version KOI-8, conçue pour le russe, s'appelle KOI-8R; Il existe des versions pour d'autres langues cyrilliques (par exemple, KOI8-U est une version pour la langue ukrainienne).
-Page de codes 1251, CP1251,Windows-1251. Développé par Microsoft pour prendre en charge la langue russe sous Windows.

Le principal avantage du CP866 était la préservation des caractères pseudo-graphiques aux mêmes endroits qu'en Extended ASCII ; par conséquent, les programmes de texte étrangers, par exemple le célèbre Norton Commander, pourraient fonctionner sans modifications. Le CP866 est désormais utilisé pour les programmes Windows exécutés dans des fenêtres de texte ou en mode texte plein écran, y compris FAR Manager.

Les textes en CP866 ont été assez rares ces dernières années (mais il est utilisé pour coder les noms de fichiers russes dans Windows). Par conséquent, nous nous attarderons plus en détail sur deux autres codages - KOI-8R et CP1251.

Comme vous pouvez le constater, dans la table d'encodage CP1251, les lettres russes sont classées par ordre alphabétique (à l'exception toutefois de la lettre E). Merci à cet emplacement logiciels d'ordinateur Il est très simple de trier par ordre alphabétique.

Mais dans KOI-8R, l’ordre des lettres russes semble aléatoire. Mais en réalité, ce n’est pas le cas.

Dans de nombreux programmes plus anciens, le 8ème bit était perdu lors du traitement ou de la transmission de texte. (Aujourd'hui, de tels programmes sont pratiquement « éteints », mais à la fin des années 80 et au début des années 90, ils étaient répandus). Pour obtenir une valeur de 7 bits à partir d’une valeur de 8 bits, soustrayez simplement 8 du chiffre le plus significatif ; par exemple, E1 devient 61.

Comparez maintenant KOI-8R avec le tableau ASCII (Tableau 1). Vous constaterez que les lettres russes sont clairement placées en correspondance avec les lettres latines. Si le huitième bit disparaît, les lettres russes minuscules se transforment en lettres latines majuscules et les lettres russes majuscules se transforment en lettres latines minuscules. Ainsi, E1 dans KOI-8 est le « A » russe, tandis que 61 en ASCII est le « a » latin.

Ainsi, KOI-8 vous permet de maintenir la lisibilité du texte russe lorsque le 8ème bit est perdu. « Bonjour à tous » devient « pRIWET WSEM ».

Récemment, l'ordre alphabétique des caractères dans la table de codage et la lisibilité avec la perte du 8ème bit ont été perdus. crucial. Huitième bit ordinateurs modernes n'est pas perdu lors de la transmission ou du traitement. Et le tri alphabétique se fait en tenant compte de l'encodage, et non par simple comparaison des codes. (D'ailleurs, les codes CP1251 ne sont pas complètement classés par ordre alphabétique - la lettre E n'est pas à sa place).

En raison du fait qu'il existe deux codages courants, lorsque vous travaillez avec Internet (courrier, navigation sur des sites Web), vous pouvez parfois voir un ensemble de lettres dénuées de sens au lieu du texte russe. Par exemple, « JE SUIS SBYUFEMHEL ». Ce ne sont que les mots « avec respect » ; mais ils ont été codés en codage CP1251 et l'ordinateur a décodé le texte à l'aide de la table KOI-8. Si les mêmes mots, au contraire, étaient codés en KOI-8, et que l'ordinateur décodait le texte selon la table CP1251, le résultat serait « U HCHBTSEOYEN ».

Il arrive parfois qu'un ordinateur déchiffre les lettres en russe à l'aide d'un tableau non destiné à la langue russe. Ensuite, à la place des lettres russes, un ensemble de symboles dénués de sens apparaît (par exemple, les lettres latines des langues d'Europe de l'Est) ; ils sont souvent appelés « crocozybras ».

Dans la plupart des cas programmes modernes faire face à la détermination des encodages des documents Internet ( e-mails et pages Web) de manière indépendante. Mais parfois, ils « ratés », et alors vous pouvez voir d'étranges séquences de lettres russes ou « krokozyabry ». En règle générale, dans une telle situation, pour afficher du texte réel à l'écran, il suffit de sélectionner manuellement l'encodage dans le menu du programme.

Les informations de la page http://open-office.edusite.ru/TextProcessor/p5aa1.html ont été utilisées pour cet article.

Matériel extrait du site :

Bonjour, chers lecteurs du site blog. Aujourd'hui, nous allons vous expliquer d'où viennent les krakozyabrs sur un site Web et dans les programmes, quels encodages de texte existent et lesquels doivent être utilisés. Examinons de plus près l'historique de leur développement, en commençant par l'ASCII de base, ainsi que ses versions étendues CP866, KOI8-R, Windows 1251 et en terminant par les encodages modernes du consortium Unicode UTF 16 et 8.

Pour certains, cette information peut sembler inutile, mais sauriez-vous combien de questions je reçois spécifiquement concernant les krakozyabrs rampants (ensemble de caractères illisibles). J'aurai maintenant l'occasion de renvoyer tout le monde au texte de cet article et de trouver mes propres erreurs. Eh bien, préparez-vous à absorber les informations et essayez de suivre le déroulement de l’histoire.

ASCII - codage de texte de base pour l'alphabet latin

Le développement des codages de texte s'est produit simultanément avec la formation de l'industrie informatique et, pendant cette période, ils ont subi de nombreux changements. Historiquement, tout a commencé avec EBCDIC, plutôt dissonant dans la prononciation russe, qui permettait d'encoder des lettres de l'alphabet latin, des chiffres arabes et des signes de ponctuation avec des caractères de contrôle.

Néanmoins, le point de départ du développement des codages de texte modernes doit être considéré comme le fameux ASCII(American Standard Code for Information Interchange, qui en russe se prononce généralement « aski »). Il décrit les 128 premiers caractères les plus couramment utilisés par les utilisateurs anglophones : lettres latines, chiffres arabes et signes de ponctuation.

Ces 128 caractères décrits en ASCII comprenaient également certains caractères de service comme les crochets, les dièses, les astérisques, etc. En fait, vous pouvez les voir vous-même :

Ce sont ces 128 caractères de la version originale de l'ASCII qui sont devenus la norme, et dans tout autre encodage vous les retrouverez certainement et ils apparaîtront dans cet ordre.

Mais le fait est qu'avec un octet d'information, vous pouvez encoder non pas 128, mais jusqu'à 256 valeurs différentes (deux puissance huit égale 256), donc suivant version de base Toute une série d'Asukas est apparue encodages ASCII étendus, dans lequel, en plus de 128 caractères de base, il était également possible de coder des symboles du codage national (par exemple, le russe).

Ici, il vaut probablement la peine d’en dire un peu plus sur les systèmes numériques utilisés dans la description. Premièrement, comme vous le savez tous, un ordinateur ne fonctionne qu'avec les nombres du système binaire, c'est-à-dire avec les zéros et les uns (« algèbre booléenne », si quelqu'un l'a suivi dans un institut ou une école). , dont chacun est un deux à la puissance, en commençant par zéro et jusqu'à deux puissance sept :

Il n'est pas difficile de comprendre que toutes les combinaisons possibles de zéros et de uns dans une telle construction ne peuvent être que 256. Convertir un nombre de système binaire en décimal est assez simple. Il vous suffit d’additionner toutes les puissances de deux avec celles au-dessus.

Dans notre exemple, cela s'avère être 1 (2 à la puissance zéro) plus 8 (deux à la puissance 3), plus 32 (deux à la puissance cinq), plus 64 (à la puissance six), plus 128. (à la septième puissance). Le total est de 233 en notation décimale. Comme vous pouvez le constater, tout est très simple.

Mais si vous regardez de plus près le tableau avec Caractères ASCII, vous verrez qu'ils sont présentés en codage hexadécimal. Par exemple, "astérisque" correspond à Aski nombre hexadécimal 2A. Vous le savez probablement dans système hexadécimal Les chiffres sont utilisés en plus des chiffres arabes et des lettres latines de A (signifie dix) à F (signifie quinze).

Eh bien, pour traduction nombre binaire en hexadécimal recourir à la méthode simple et évidente suivante. Chaque octet d'information est divisé en deux parties de quatre bits, comme le montre la capture d'écran ci-dessus. Que. dans chaque demi-octet code binaire seules seize valeurs peuvent être codées (deux à la puissance quatre), qui peuvent facilement être représentées sous forme de nombre hexadécimal.

De plus, dans la moitié gauche de l'octet, les degrés devront être comptés à nouveau à partir de zéro, et non comme indiqué sur la capture d'écran. En conséquence, grâce à des calculs simples, nous obtenons que le nombre E9 est codé dans la capture d'écran. J'espère que le déroulement de mon raisonnement et la solution à cette énigme vous ont été clairs. Eh bien, continuons maintenant en parlant des encodages de texte.

Versions étendues d'Asuka - Encodages CP866 et KOI8-R avec pseudographies

Nous avons donc commencé à parler d'ASCII, qui était en quelque sorte le point de départ du développement de tous les encodages modernes (Windows 1251, Unicode, UTF 8).

Initialement, il ne contenait que 128 caractères de l'alphabet latin, des chiffres arabes et autre chose, mais dans la version étendue, il est devenu possible d'utiliser les 256 valeurs pouvant être codées dans un octet d'information. Ceux. Il est devenu possible d'ajouter des symboles de lettres de votre langue à Aski.

Ici, nous devrons faire une nouvelle digression pour expliquer - pourquoi avons-nous besoin d'encodages ? textes et pourquoi c’est si important. Les caractères sur l'écran de votre ordinateur sont formés sur la base de deux éléments : des ensembles de formes vectorielles (représentations) de différents caractères (ils se trouvent dans des fichiers avec ) et un code qui vous permet d'extraire de cet ensemble de formes vectorielles (fichier de police ) exactement le caractère qui devra être inséré au bon endroit.

Il est clair que les polices elles-mêmes sont responsables des formes vectorielles, mais le système d'exploitation et les programmes qui y sont utilisés sont responsables de l'encodage. Ceux. tout texte sur votre ordinateur sera un ensemble d'octets, dont chacun code un seul caractère de ce même texte.

Le programme qui affiche ce texte à l'écran (éditeur de texte, navigateur, etc.), lors de l'analyse du code, lit l'encodage du caractère suivant et recherche la forme vectorielle correspondante dans le fichier requis police qui est connectée pour afficher ce document texte. Tout est simple et banal.

Cela signifie que pour coder n'importe quel caractère dont nous avons besoin (par exemple, de l'alphabet national), deux conditions doivent être remplies : la forme vectorielle de ce caractère doit être dans la police utilisée et ce caractère peut être codé dans des codages ASCII étendus dans un octet. Par conséquent, il existe de nombreuses options de ce type. Juste pour coder les caractères de la langue russe, il existe plusieurs variétés d'Aska étendu.

Par exemple, paru à l'origine CP866, qui avait la capacité d'utiliser des caractères de l'alphabet russe et était une version étendue de l'ASCII.

Ceux. son la partie supérieure coïncidait complètement avec la version de base d'Asuka (128 caractères latins, chiffres et autres conneries), qui est présentée dans la capture d'écran juste au-dessus, mais maintenant Partie inférieure les tableaux avec encodage CP866 avaient le formulaire montré dans la capture d'écran juste en dessous et vous permettaient d'encoder 128 caractères supplémentaires (lettres russes et toutes sortes de pseudo-graphiques) :

Vous voyez, dans la colonne de droite, les chiffres commencent par 8, parce que... les nombres de 0 à 7 font référence à la partie de base de l'ASCII (voir première capture d'écran). Que. La lettre russe "M" dans CP866 aura le code 9C (elle est située à l'intersection de la ligne correspondante avec 9 et de la colonne avec le chiffre C dans le système numérique hexadécimal), qui peut être écrite dans un octet d'information, et s'il existe une police appropriée avec des caractères russes, cette lettre apparaîtra sans problème dans le texte.

D'où vient cette somme ? pseudographies dans CP866? Le fait est que cet encodage du texte russe a été développé à l'époque où les systèmes d'exploitation graphiques n'étaient pas aussi répandus qu'aujourd'hui. Et dans Dosa et les systèmes d'exploitation de texte similaires, les pseudographies ont permis au moins d'une manière ou d'une autre de diversifier la conception des textes, et donc CP866 et tous ses autres pairs de la catégorie des versions étendues d'Asuka en abondent.

CP866 a été distribué par IBM, mais en plus de cela, un certain nombre d'encodages ont été développés pour les caractères de la langue russe, par exemple, le même type (ASCII étendu) peut être attribué KOI8-R:

Le principe de son fonctionnement reste le même que celui du CP866 décrit un peu plus haut : chaque caractère de texte est codé par un seul octet. La capture d'écran montre la seconde moitié du tableau KOI8-R, car la première moitié est tout à fait cohérente avec l'Asuka de base, qui est présentée dans la première capture d'écran de cet article.

Parmi les caractéristiques du codage KOI8-R, on peut noter que les lettres russes dans son tableau ne sont pas classées par ordre alphabétique, comme elles l'ont fait par exemple dans CP866.

Si vous regardez la toute première capture d'écran (de la partie de base, qui est incluse dans tous les encodages étendus), vous remarquerez que dans KOI8-R les lettres russes sont situées dans les mêmes cellules du tableau que les lettres correspondantes de l'alphabet latin. de la première partie du tableau. Cela a été fait pour faciliter le passage des caractères russes aux caractères latins en supprimant un seul bit (deux à la puissance septième ou 128).

Windows 1251 - la version moderne d'ASCII et pourquoi les fissures apparaissent

Le développement ultérieur des codages de texte était dû au fait que les systèmes d'exploitation graphiques gagnaient en popularité et que la nécessité d'y utiliser des pseudographies disparaissait au fil du temps. En conséquence, tout un groupe est apparu qui, en substance, étaient encore des versions étendues d'Asuka (un caractère de texte est codé avec un seul octet d'information), mais sans l'utilisation de symboles pseudographiques.

Ils appartenaient aux codages dits ANSI, développés par l'American Standards Institute. Dans le langage courant, le nom cyrillique était également utilisé pour la version prenant en charge la langue russe. Un exemple de ceci serait.

Il différait favorablement des CP866 et KOI8-R précédemment utilisés en ce sens que la place des symboles pseudographiques était prise par les symboles manquants de la typographie russe (à l'exception de la marque d'accent), ainsi que par les symboles utilisés dans les langues slaves proches de Russe (ukrainien, biélorusse, etc.). ):

En raison d'une telle abondance d'encodages en langue russe, les fabricants de polices et les fabricants logiciel des maux de tête surgissaient constamment, et vous et moi, chers lecteurs, avons souvent eu les mêmes fameux Krakozyabry lorsqu'il y a eu confusion avec la version utilisée dans le texte.

Très souvent, ils apparaissaient lors de l'envoi et de la réception de messages via e-mail, ce qui impliquait la création de tables de conversion très complexes, qui, en fait, étaient fondamentalement incapables de résoudre ce problème, et que les utilisateurs utilisaient souvent pour la correspondance pour éviter les fameuses astuces lors de l'utilisation d'encodages russes comme CP866, KOI8-R ou Windows 1251.

En fait, les krakozyabrs apparaissant à la place du texte russe étaient le résultat d'une mauvaise utilisation de l'encodage. de cette langue, qui ne correspondait pas à celui dans lequel il était encodé message texte initialement.

Par exemple, si vous essayez d'afficher des caractères codés à l'aide du CP866 à l'aide du code Tableau des fenêtres 1251, alors ce même charabia (un ensemble de caractères dénué de sens) sortira, remplaçant complètement le texte du message.

Une situation similaire se produit très souvent sur les forums ou les blogs, lorsque du texte avec des caractères russes est enregistré par erreur dans le mauvais encodage utilisé par défaut sur le site, ou dans le mauvais encodage. éditeur de texte, qui ajoute des gags au code qui ne sont pas visibles à l'œil nu.

En fin de compte, beaucoup de gens en ont eu assez de cette situation avec beaucoup d'encodages et des conneries constamment rampantes, et les conditions préalables sont apparues pour la création d'une nouvelle variante universelle qui remplacerait toutes celles existantes et résoudrait enfin le problème de l'apparence. de textes illisibles. De plus, il y avait le problème de langues comme le chinois, où il y avait beaucoup plus de caractères que 256.

Unicode - encodages universels UTF 8, 16 et 32

Ces milliers de caractères du groupe linguistique d'Asie du Sud-Est ne pouvaient pas être décrits dans un seul octet d'informations alloué au codage des caractères dans les versions étendues de l'ASCII. En conséquence, un consortium a été créé appelé Unicode(Unicode - Unicode Consortium) avec la collaboration de nombreux leaders de l'industrie informatique (ceux qui produisent des logiciels, qui encodent du matériel, qui créent des polices), intéressés par l'émergence d'un encodage de texte universel.

La première variante publiée sous les auspices du Consortium Unicode était UTF32. Le nombre dans le nom de codage signifie le nombre de bits utilisés pour coder un caractère. 32 bits équivalent à 4 octets d'informations qui seront nécessaires pour coder un seul caractère dans le nouveau codage UTF universel.

En conséquence, le même fichier avec du texte codé en version étendue ASCII et en UTF-32, dans ce dernier cas, aura une taille (poids) quatre fois plus grande. C'est mauvais, mais nous avons maintenant la possibilité d'encoder en utilisant YTF un nombre de caractères égal à deux puissance trente secondes ( des milliards de caractères, qui couvrira toute valeur vraiment nécessaire avec une marge colossale).

Mais de nombreux pays avec des langues du groupe européen n'avaient pas du tout besoin d'utiliser un si grand nombre de caractères dans le codage. Cependant, lors de l'utilisation de UTF-32, ils ont reçu sans raison un poids multiplié par quatre. documents texte, et par conséquent, une augmentation du volume du trafic Internet et de la quantité de données stockées. C’est beaucoup et personne ne peut se permettre un tel gaspillage.

Suite au développement d'Unicode, UTF-16, qui s'est avéré un tel succès qu'il a été adopté par défaut comme espace de base pour tous les personnages que nous utilisons. Il utilise deux octets pour coder un caractère. Voyons à quoi ressemble cette chose.

Dans le système d'exploitation Windows, vous pouvez suivre le chemin « Démarrer » - « Programmes » - « Accessoires » - « Outils système » - « Table des caractères ». En conséquence, un tableau s'ouvrira avec les formes vectorielles de toutes les polices installées sur votre système. Si vous sélectionnez dans " Options additionelles» ensemble de caractères Unicode, vous pouvez voir pour chaque police séparément toute la gamme de caractères qu'elle contient.

D'ailleurs, en cliquant sur l'un d'entre eux, vous pouvez voir ses deux octets code au format UTF-16, composé de quatre chiffres hexadécimaux :

Combien de caractères peuvent être codés en UTF-16 en utilisant 16 bits ? 65 536 (deux puissance seize), et c'est le nombre qui a été adopté comme espace de base dans Unicode. De plus, il existe des moyens de coder environ deux millions de caractères en l'utilisant, mais ils étaient limités à un espace étendu d'un million de caractères de texte.

Mais même cette version réussie du codage Unicode n'a pas apporté beaucoup de satisfaction à ceux qui écrivaient, disons, des programmes uniquement en anglais, car pour eux, après le passage de la version étendue de l'ASCII à l'UTF-16, le poids des documents a doublé ( un octet par caractère en Aski et deux octets pour le même caractère en YUTF-16).

C'est précisément pour satisfaire tout le monde et tout au sein du consortium Unicode qu'il a été décidé de proposer codage à longueur variable. Il s'appelait UTF-8. Malgré le huit dans le nom, il a en réalité une longueur variable, c'est-à-dire Chaque caractère de texte peut être codé dans une séquence de un à six octets.

En pratique, UTF-8 n'utilise que la plage de un à quatre octets, car au-delà de quatre octets de code, il n'est même plus théoriquement possible d'imaginer quoi que ce soit. Tous les caractères latins qu'il contient sont codés sur un octet, tout comme dans le bon vieux ASCII.

Ce qui est remarquable, c'est que dans le cas de l'encodage uniquement de l'alphabet latin, même les programmes qui ne comprennent pas Unicode liront quand même ce qui est encodé en YTF-8. Ceux. la partie centrale d'Asuka a simplement été transférée vers cette création du consortium Unicode.

Les caractères cyrilliques en UTF-8 sont codés sur deux octets et, par exemple, les caractères géorgiens sont codés sur trois octets. Le Consortium Unicode, après avoir créé UTF 16 et 8, a résolu le problème principal - nous avons maintenant les polices ont un seul espace de code. Et maintenant, leurs fabricants ne peuvent le remplir qu'avec des formes vectorielles de caractères de texte en fonction de leurs points forts et de leurs capacités. Maintenant, ils viennent même en sets.

Dans le « Tableau des caractères » ci-dessus, vous pouvez voir que différentes polices prennent en charge différents nombres de caractères. Certaines polices riches en Unicode peuvent être assez lourdes. Mais maintenant, ils ne diffèrent pas par le fait qu'ils ont été créés pour des encodages différents, mais par le fait que le fabricant de polices a rempli ou pas complètement l'espace de code unique avec certaines formes vectorielles.

Des mots fous au lieu de lettres russes - comment y remédier

Voyons maintenant comment les krakozyabrs apparaissent à la place du texte ou, en d'autres termes, comment le codage correct du texte russe est sélectionné. En fait, il est défini dans le programme dans lequel vous créez ou modifiez ce même texte, ou codez à l'aide de fragments de texte.

Pour l'édition et la création fichiers texte Personnellement, j'en utilise un très bon, à mon avis, . Cependant, il peut mettre en évidence la syntaxe de centaines d’autres langages de programmation et de balisage, et a également la possibilité d’être étendu à l’aide de plugins. Lire examen détaillé ce merveilleux programme sur le lien fourni.

DANS menu principal Notepad++ a un élément « Encodages », où vous aurez la possibilité de convertir une option existante en celle utilisée par défaut sur votre site :

Dans le cas d'un site sur Joomla 1.5 et supérieur, ainsi que dans le cas d'un blog sur WordPress, vous devez sélectionner l'option pour éviter l'apparition de fissures UTF 8 sans nomenclature. Quel est le préfixe de la nomenclature ?

Le fait est que lorsqu'ils développaient le codage YUTF-16, pour une raison quelconque, ils ont décidé d'y attacher une chose telle que la possibilité d'écrire le code de caractère à la fois en séquence directe (par exemple, 0A15) et en sens inverse (150A). . Et pour que les programmes comprennent exactement dans quel ordre lire les codes, il a été inventé Nomenclature(Byte Order Mark ou, en d'autres termes, signature), qui se traduisait par l'ajout de trois octets supplémentaires au tout début des documents.

Dans l'encodage UTF-8, aucune nomenclature n'était prévue dans le consortium Unicode, et donc l'ajout d'une signature (ces fameux trois octets supplémentaires au début du document) empêche simplement certains programmes de lire le code. Par conséquent, lors de l’enregistrement de fichiers au format UTF, nous devons toujours sélectionner l’option sans nomenclature (sans signature). Donc tu es en avance protégez-vous des krakozyabrs rampants.

Ce qui est remarquable, c'est que certains programmes sous Windows ne peuvent pas faire cela (ils ne peuvent pas enregistrer de texte au format UTF-8 sans nomenclature), par exemple le même bloc-notes Windows notoire. Il enregistre le document au format UTF-8, mais ajoute toujours la signature (trois octets supplémentaires) au début de celui-ci. De plus, ces octets seront toujours les mêmes - lisez le code en séquence directe. Mais sur les serveurs, à cause de cette petite chose, un problème peut survenir : des escrocs vont apparaître.

Par conséquent, en aucun cas ne pas utiliser régulièrement Bloc-notes Windows pour éditer des documents sur votre site si vous ne souhaitez pas que des fissures apparaissent. Le meilleur et le plus option simple Je pense déjà mentionné Éditeur de bloc-notes++, qui n'a pratiquement aucun inconvénient et ne comporte que des avantages.

Dans Notepad++, lorsque vous sélectionnez un encodage, vous aurez la possibilité de convertir le texte en encodage UCS-2, qui est de nature très proche de la norme Unicode. Également dans le Bloc-notes, il sera possible d'encoder du texte en ANSI, c'est-à-dire par rapport à la langue russe, il s'agira de Windows 1251, que nous avons déjà décrit juste au-dessus. D'où viennent ces informations ?

Il est inscrit dans votre registre système opérateur Windows - quel encodage choisir dans le cas d'ANSI, lequel choisir dans le cas d'OEM (pour la langue russe, ce sera CP866). Si vous installez une autre langue par défaut sur votre ordinateur, ces encodages seront remplacés par des encodages similaires de la catégorie ANSI ou OEM pour cette même langue.

Après avoir enregistré le document dans Notepad++ dans l'encodage dont vous avez besoin ou ouvert le document depuis le site pour le modifier, vous pouvez voir son nom dans le coin inférieur droit de l'éditeur :

Pour éviter les rednecks, en plus des actions décrites ci-dessus, il sera utile d'écrire dans son en-tête code source toutes les pages du site des informations sur ce même encodage, afin que sur le serveur ou hôte local il n'y a eu aucune confusion.

En général, dans toutes les langues balisage hypertexte En plus du HTML, une déclaration XML spéciale est utilisée, qui indique l'encodage du texte.

Avant d'analyser le code, le navigateur sait quelle version est utilisée et comment exactement il doit interpréter les codes de caractères de cette langue. Mais ce qui est remarquable, c'est que si vous enregistrez le document dans l'Unicode par défaut, alors cette déclaration XML peut être omise (l'encodage sera considéré comme UTF-8 s'il n'y a pas de nomenclature ou UTF-16 s'il y a une nomenclature).

Dans le cas d'un document Langage HTML utilisé pour indiquer le codage Élément méta, qui est écrit entre les balises Head d'ouverture et de fermeture :

... ...

Cette entrée est assez différente de celle adoptée dans, mais est entièrement conforme au nouveau standard HTML 5 qui est lentement introduit, et elle sera parfaitement comprise correctement par tous les navigateurs actuellement utilisés.

En théorie, un élément Meta indiquant l'encodage Document HTML il vaudrait mieux mettre le plus haut possible dans l'en-tête du document de sorte qu'au moment de rencontrer le premier caractère du texte ne provenant pas de l'ANSI de base (qui sont toujours lus correctement et dans n'importe quelle variante), le navigateur devrait déjà avoir des informations sur la façon d'interpréter les codes de ces caractères.

Bonne chance à toi! A bientôt sur les pages du site blog

Vous pouvez regarder plus de vidéos en allant sur

");">

Vous pourriez être intéressé

Que sont les adresses URL, quelle est la différence entre absolue et liens relatifs pour le chantier
OpenServer - moderne serveur local et un exemple de son utilisation pour Installations WordPress sur l'ordinateur
Qu'est-ce que Chmod, quelles autorisations attribuer aux fichiers et dossiers (777, 755, 666) et comment le faire via PHP
Recherche Yandex par site et boutique en ligne

Site sur l'informatique