Développement d'une technologie de reconnaissance automatique de formes. Systèmes de reconnaissance de formes (identification). Classement par distance au voisin le plus proche

Au cours de la dernière décennie, la recherche et la construction de systèmes de reconnaissance automatique de formes et d’apprentissage automatique ont suscité un intérêt considérable. Nous avons été témoins de progrès rapides dans ce domaine. Les exemples de systèmes de reconnaissance automatique de formes abondent. Des tentatives réussies ont été faites pour créer des dispositifs et des programmes permettant de lire des caractères dactylographiés et dactylographiés, de traiter des électrocardiogrammes et des électroencéphalogrammes, de reconnaître des mots prononcés, d'identifier des empreintes digitales et d'interpréter des photographies. D'autres applications incluent la reconnaissance de caractères et de mots manuscrits, l'établissement de diagnostics médicaux, la classification des ondes sismiques, la détection de cibles ennemies, les prévisions météorologiques, l'identification des pannes et des dysfonctionnements de mécanismes individuels et de processus de production entiers. Dans cette section, nous examinerons plusieurs exemples illustratifs liés aux domaines dans lesquels les principes de reconnaissance de formes ont trouvé une application réussie.

Reconnaissance de caractères

Un exemple d'utilisation pratique de la classification automatique de modèles est constitué par les dispositifs de reconnaissance optique de caractères, en particulier les machines permettant de lire les caractères de code des chèques bancaires ordinaires.

Riz. 1.7. (voir scan) Ensemble de polices E-13B de l'American Bankers Association et de formes d'onde correspondant aux caractères individuels de l'ensemble.

La plupart des chèques actuellement en circulation aux États-Unis utilisent la police standard E-13B de l'American Bankers Association sous forme de caractères stylisés. Comme il ressort de la Fig. 1.7, cet ensemble comprend 14 symboles spécialement adaptés aux zones contenant la rétine afin de simplifier le processus de lecture. Ces caractères sont généralement imprimés avec une encre d'imprimerie spéciale qui contient très

matériau magnétique finement broyé. Si les caractères sont lus à l'aide d'un dispositif magnétique, l'encre est pré-magnétisée afin de mettre en valeur les caractères du fond et ainsi faciliter la lecture.

En règle générale, les caractères sont numérisés horizontalement à l'aide d'une tête de lecture équipée d'une seule fente plus étroite et plus haute qu'un caractère. Lorsqu'un symbole est barré, la tête génère un signal électrique dont l'ampleur est proportionnelle au taux d'augmentation de l'espace occupé par le symbole sous la tête de balayage. Considérons à titre d'exemple le signal correspondant au nombre « 0 » (Fig. 1.7). À mesure que la tête de lecture se déplace de gauche à droite, la zone du symbole que la tête voit commence à augmenter, ce qui entraîne une dérivée positive. Lorsque la tête commence à quitter le "post" gauche de zéro, la surface du chiffre dans la zone de visibilité de la tête commence à diminuer, ce qui donne une dérivée négative. Lorsque la tête se trouve dans la zone médiane du symbole, l'aire reste constante et la dérivée est par conséquent égale à zéro. Ce schéma se répète lorsque la tête atteint le montant droit, comme le montre la figure. On voit que la forme des symboles est choisie de telle sorte que les signaux correspondant aux différents symboles soient nettement différents les uns des autres. Il convient de noter que les points extrêmes et les zéros de chaque signal apparaissent presque exactement sur les lignes de grille verticales utilisées comme arrière-plan pour l'affichage du signal. La forme des symboles de la police E-13B a ​​été sélectionnée de telle manière qu'il suffisait d'échantillonner les valeurs des signaux uniquement à ces points pour leur classification correcte. Pour chacun des 14 caractères de police, des valeurs correspondant uniquement à ces points sont inscrites dans la mémoire de l'appareil de lecture. Lorsqu'un symbole arrive pour classification, le système compare le signal qui lui correspond avec des signaux standards préalablement entrés en mémoire, et l'affecte à la classe du standard qui lui ressemble le plus. Avec un tel système de classification, il faut utiliser soit le principe de dénombrement des membres d'une classe, soit le principe de généralité des propriétés. La plupart des appareils modernes conçus pour lire les polices stylisées fonctionnent de la même manière.

Il existe également des versions commerciales d'appareils permettant de lire des polices de différents types. Par exemple, le système Input 80 (Fig. 1.8), développé par Recognition Equipment Incorporated, peut lire des informations dactylographiées, dactylographiées et manuscrites directement à partir de documents originaux à des vitesses allant jusqu'à

3600 caractères par seconde. Le dictionnaire système est construit sur un principe modulaire et peut être reconstruit en fonction des exigences d'une tâche d'application spécifique. Un système à police unique est capable de lire les caractères de l'un des nombreux jeux de polices connus, et un système à polices multiples vous permet de travailler « simultanément » avec un certain nombre de types de polices sélectionnés par l'utilisateur parmi une variété de types valides. Un appareil peut reconnaître jusqu'à 360 caractères différents. Le système pourrait également être configuré pour lire des chiffres dactylographiés, sélectionner des lettres et des symboles dactylographiés et lire des données saisies.

Riz. 1.8. (voir scan) REI Input 80 Model Un système de reconnaissance de caractères de Recognition Equipment Incorporated, Dallas, Texas. La figure montre les composants du système suivants (dans le sens des aiguilles d'une montre) : unité de reconnaissance, contrôleur contrôlé par programme, imprimante d'entrée/sortie de données, imprimante ligne, unité de reconnaissance, unité de bande magnétique et processeur de page. Photo gracieuseté de Recognition Equipment Incorporated.

Les principales caractéristiques du système REI « Input 80 » sont les suivantes. Les pages, à l'aide d'un système de sections raréfiées et d'éjecteurs d'air, tombent sur un tapis roulant qui les alimente dans le lecteur. Ici, un miroir oscillant à haute fréquence concentre un faisceau de lumière de haute intensité sur les caractères à lire ; le faisceau traverse une ligne de caractères imprimés à une vitesse d'environ 7,62 m/s. Le deuxième miroir de synchronisation perçoit des images lumineuses représentant

différentes parties du symbole, et les projette sur la « rétine intégrée » - un dispositif de lecture réalisé sur un circuit intégré ; il se compose de 96 photodiodes logées dans une seule plaquette de silicium d'environ 38,1 mm de long. Cet appareil est « l’œil » du système. Integral Retina encode chaque caractère dans une matrice de cellules 16X12, standardise les caractères, s'adapte aux variations de taille et fonctionne à des vitesses allant jusqu'à 3 600 caractères par seconde. La rétine intégrale, en outre, classe chaque cellule dans la représentation de chaque personnage selon son appartenance à l'un des 16 niveaux de noirceur.

Les données provenant de la sortie du dispositif de lecture sont transmises à l'unité de reconnaissance, dans laquelle les niveaux de noirceur de toutes les cellules de l'image du symbole sont comparés aux niveaux de noirceur de 24 cellules voisines ; A cet effet, un circuit d'amplification du signal vidéo approprié est utilisé. Les données obtenues à la suite de cette opération sont quantifiées, ce qui donne une image noir et blanc d'un bit. Ce procédé permet de lisser l'image du personnage, de saturer les traits subtils, d'éliminer les taches et d'augmenter le contraste dans les arrière-plans bruyants. Le système reconnaît les caractères tapés typographiquement en recherchant le plus petit écart entre le caractère lu et les caractères inclus dans le dictionnaire de l'unité de reconnaissance. Le système s'assure également que la discordance minimale trouvée diffère d'une quantité suffisante de la discordance la plus proche avec un autre symbole du dictionnaire. La méthode appropriée pour effectuer la classification sera discutée au Chap. 3.

La reconnaissance des caractères dactylographiés s'effectue à l'aide d'un autre type de procédure logique. Les caractères dactylographiés ne sont pas comparés aux images précédemment stockées en mémoire, mais sont analysés pour détecter la présence de certaines caractéristiques communes, telles que des lignes courbes, horizontales et verticales, des angles et des intersections. Dans ce cas, la classification d'un symbole est effectuée sur la base de la détection de certaines caractéristiques qu'il contient, ainsi que de leurs relations. Les blocs du système de reconnaissance de caractères sont représentés sur la Fig. 1.8, leurs noms sont indiqués en légende sous la figure.

Classification automatique des données obtenues à distance

L'intérêt relativement récent pour la qualité de l'environnement et les ressources naturelles aux États-Unis a conduit à de nombreuses applications de ces méthodes.

la reconnaissance de formes. Parmi elles, la classification automatique des données obtenues à distance a retenu le plus l’attention. Le volume de données reçues des scanners spectraux multibandes installés sur les avions, les satellites et les stations spatiales étant extrêmement important, il est nécessaire de se tourner vers des moyens automatiques de traitement et d'analyse de ces informations. La collecte de données à distance est utilisée pour résoudre divers problèmes. Les domaines d'intérêt actuels comprennent la gestion des terres, l'évaluation des cultures, la détection des maladies des cultures, la foresterie, la surveillance de la qualité de l'air et de l'eau, les études géologiques et géographiques, les prévisions météorologiques et une foule d'autres tâches liées à l'environnement.

Comme exemple de classification automatique des résultats d’études spectrales, considérons la Fig. 1.9, a, qui montre une photographie couleur de la surface de la Terre prise depuis un avion. L'image représente une petite partie de la trajectoire de vol (plusieurs kilomètres) située dans le centre de l'Indiana. L'objectif est de collecter suffisamment de données pour entraîner la machine à reconnaître automatiquement différents types (classes) de couverture végétale, tels que la couche de sol claire ou foncée, l'eau d'une rivière ou d'un étang et le stade de maturation de la végétation verte.

Un scanner multibande réagit à la lumière de bandes de longueurs d'onde spécifiques. Le dispositif de balayage utilisé lors du vol mentionné fonctionne dans des bandes de longueurs d'onde du micron. Ces bandes font respectivement référence aux régions violette, verte, rouge et infrarouge. L'utilisation de cette méthode permet d'obtenir quatre images pour une zone de la surface terrestre - une pour chaque zone de couleur. Par conséquent, chaque point de la région est caractérisé par quatre composantes représentant la couleur. Les informations pour chaque point peuvent être représentées par un vecteur d'image à quatre dimensions, où est la nuance de violet, est la nuance de vert, etc. L'ensemble des images appartenant à une certaine classe de la couche de sol constitue l'ensemble d'apprentissage pour cette classe. . Ces images de formation peuvent ensuite être utilisées pour construire un dispositif de classification.

A partir des données spectrales obtenues lors du vol considéré, un classificateur bayésien a été construit pour les images obéissant à une distribution normale (voir § 4.3). En figue. 1.9b montre la sortie machine des résultats

application d'un tel classificateur pour la classification automatique des données spectrales myo-bande correspondant à une petite zone de la surface terrestre illustrée à la Fig. 1.9, une. Les flèches indiquent certaines caractéristiques particulièrement intéressantes. La flèche 1 est placée dans le coin d'un champ de végétation verte, la flèche 2 indique une rivière. La flèche 3 marque une petite haie séparant deux zones de sol nu ; ces objets sont clairement identifiés sur l'imprimé. L'affluent, également correctement identifié, est marqué par la flèche 4. La flèche 5 pointe vers un très petit étang, presque impossible à distinguer sur la photographie couleur. Lorsqu'on compare l'image originale avec les résultats de la classification automatique, il devient évident que ces dernières correspondent très précisément aux conclusions auxquelles parviendrait une personne en interprétant visuellement la photographie originale.

Applications biomédicales

Comme indiqué au § 1.1, la médecine est aujourd'hui confrontée à de sérieux problèmes liés au traitement de l'information. Les techniques de reconnaissance de formes ont été utilisées avec plus ou moins de succès pour traiter automatiquement les données obtenues à l'aide de divers moyens techniques utilisés dans le diagnostic médical, tels que les radiographies, les électrocardiogrammes, les électroencéphalogrammes, ainsi que l'analyse et l'interprétation des questionnaires remplis par les patients. L’une des tâches qui a retenu beaucoup d’attention est l’automatisation de l’analyse et de la classification des chromosomes.

L'intérêt pour l'automatisation de l'analyse chromosomique est dû au fait que l'automatisation de l'analyse cytogénétique élargira les possibilités d'utilisation des études chromosomiques dans le diagnostic clinique. De plus, cela permettra de mener des études de prévention à grande échelle en population pour évaluer l'impact pathologique d'un certain nombre de petites variations du profil chromosomique, dont l'impact est actuellement inconnu. En outre, la capacité d'examiner de larges groupes de la population permettra de réaliser un certain nombre d'autres études médicales précieuses, par exemple un examen cytogénétique complet du fœtus avant la naissance et des nouveau-nés en vue de déterminer la nécessité d'une mesure préventive ou intervention thérapeutique, dépistage de certains groupes de personnes identifiés par des facteurs d'affiliation professionnelle ou de résidence dans une certaine zone et caractérisés par une aberration chromosomique accrue causée par toute influence néfaste, ou vérification de nouveaux

Riz. 1.10. (voir scan) Cellules sanguines humaines colorées au Giemsa - une préparation démontrant la structure des chromosomes. Illustration gracieuseté du Dr Niel Wald, École supérieure de santé publique, Université de Pittsburgh.

produits chimiques et médicaments du point de vue de leur danger potentiel pour les chromosomes.

En figue. La figure 1.10 montre une préparation typique préparée à partir de cellules sanguines humaines en métaphase de mitose et colorée au Giemsa. La partie la plus fastidieuse et la plus longue de l'analyse d'une telle image est le processus de codage - par un médecin ou un technicien de laboratoire qualifié.

doit classer chaque chromosome séparément. La figure montre des objets appartenant à certains groupes de classification typiques,

De nombreuses méthodes ont été proposées pour la classification automatique des chromosomes. L'une des approches qui s'est avérée efficace pour classer les types de chromosomes illustrés à la Fig. 1.10, est basé sur le principe de reconnaissance de formes syntaxiques discuté au Chap. 8. L’essence de cette approche est la suivante. Les éléments non dérivés de l'image, tels que les arcs longs, les arcs courts et les segments semi-droits, indiquant les limites du chromosome, sont identifiés. La combinaison de tels éléments non dérivés conduit à des chaînes ou des phrases composées de certains symboles ; cette dernière peut être mise en correspondance avec ce qu'on appelle la grammaire des images. Chaque type (classe) de chromosomes a sa propre grammaire. Afin d'identifier un chromosome spécifique, un ordinateur trace ses limites et génère une chaîne composée d'éléments non producteurs. La base d'un algorithme de suivi est généralement une procédure heuristique visant à résoudre les difficultés associées à la contiguïté et au chevauchement des chromosomes. La chaîne résultante est entrée dans un système de reconnaissance, qui détermine si elle représente une phrase correcte composée de symboles selon les règles d'une certaine grammaire. Si ce processus aboutit à spécifier une grammaire particulière, le chromosome est affecté à la classe correspondant à cette grammaire. Si un tel processus ne permet pas une interprétation sans ambiguïté ou aboutit même à un échec, le travail du système avec ce chromosome est arrêté et une analyse plus approfondie est effectuée par l’opérateur.

Bien qu’aucune solution générale au problème de la reconnaissance automatique des chromosomes n’ait été trouvée, les systèmes de reconnaissance modernes utilisant une approche syntaxique représentent un pas important dans la bonne direction. Au § 8.5, nous reviendrons sur ce schéma de reconnaissance et examinerons en détail la grammaire chromosomique correspondante.

Reconnaissance d'empreintes digitales

Comme nous l'avons noté au § 1.1, les agences gouvernementales conservent des archives contenant plus de 200 millions d'empreintes digitales. La division Identification du Federal Bureau of Investigation possède notamment les plus grandes archives d'empreintes digitales au monde - plus de 160 millions. Le département reçoit jusqu'à 30 000 demandes chaque jour. Pour faire face à un tel volume de travail,

Quelque 1.400 techniciens et officiels doivent soigneusement classer les nouveaux tirages puis rechercher minutieusement les correspondances.

Depuis plusieurs années, le FBI s’intéresse au développement d’un système d’identification automatique des empreintes digitales. Un exemple des efforts déployés dans cette direction est le système prototype FINDER développé par Calspan Corporation pour le compte du FBI. Ce système détecte et localise automatiquement les caractéristiques spécifiques aux empreintes digitales. Les caractéristiques détectées par le système ne sont pas de grands éléments structurels tels que des arcs, des contours ou des boucles utilisés dans le processus de classification primaire des impressions, mais plutôt de petits détails - les extrémités et les branches des rainures, similaires à celles illustrées sur la Fig. 1.11.

Riz. 1.11. Fragments - extrémités de rainures (carrés) et branches (cercles) - utilisés par le système FINDER pour identifier les empreintes digitales. Photo gracieuseté de M. C. W. Swanger de Calspan Corporation, Buffalo, New York.

En figue. La figure 1.12 montre un schéma fonctionnel du système. En bref, le fonctionnement du système FINDER peut être décrit comme suit. L'opérateur saisit une empreinte digitale vierge standard dans un dispositif de saisie automatique, qui transmet l'empreinte digitale à « l'œil » du système - le dispositif de dépliage - et place avec précision l'empreinte digitale en dessous. Chaque impression est quantifiée et représentée par une matrice contenant 750 x 750 points, chaque point étant codé par l'un des 16 niveaux d'obscurité possibles. Le processus de numérisation est effectué sous le contrôle d'un ordinateur universel. En figue. La figure 1.13 montre un exemple montrant la forme que prend une impression après son passage dans un périphérique de numérisation.

Les données reçues à la sortie du dispositif de balayage sont entrées dans le filtre rainure-rainure, qui est implémenté à l'aide d'un algorithme à grande vitesse pour le traitement parallèle d'objets bidimensionnels ; cet algorithme examine séquentiellement tous les points de la matrice 750X750. La sortie du filtre reproduit une image binaire amplifiée du type montré sur la Fig. 1.14. Le même algorithme enregistre la direction des rainures en chaque point de l'impression ; ces informations sont utilisées dans le cadre d'un traitement ultérieur.

(cliquez pour voir l'analyse)

Lors du traitement de la plupart des impressions, dans certaines zones, il n'est pas possible d'identifier une structure suffisamment claire des rainures, ce qui permet d'identifier de manière fiable les fragments. Le dispositif de pré-édition exclut ces domaines d’une analyse plus approfondie en tant que sources d’informations fiables. Pour garantir une détection fiable des fragments, des tests de blancheur, de noirceur, d'absence de structure de sillon ou de contraste sont utilisés.

Riz. 1.13. Une impression de la zone obtenue à la sortie du dispositif de numérisation. Dans cette image numérique, les éléments noirs sont représentés par le chiffre « 0 » et les éléments blancs sont représentés par « 15 ». Illustration gracieuseté de M.

C. W. Swanger de Calspan Corporation, Buffalo, New York.

La prochaine étape du traitement des empreintes digitales est consacrée à la sélection pratique des fragments. Ce processus est mis en œuvre à l'aide d'un algorithme synchronisé avec la sortie du filtre groove. Il identifie les fragments censés être des éléments caractéristiques et enregistre leur position et l'amplitude des angles correspondants.

Les résultats du bloc de sélection de fragments sont saisis dans le bloc d'édition final. Tout d'abord, la surface et le périmètre du fragment sélectionné sont comparés à des valeurs seuils correspondant à de véritables caractéristiques, ce qui permet d'exclure des données manifestement incorrectes. Ensuite, les caractéristiques en double sont exclues. Si un fragment privé est détecté plusieurs fois, seul celui détecté est enregistré.

plus grande longueur. L'utilisation d'une procédure en chaîne, dans laquelle l'objet de recherche n'est constitué que de fragments adjacents à ceux sélectionnés, réduit considérablement le temps de traitement. Ensuite, des fragments et des fragments mutuellement exclusifs sont éliminés, dont l'apparition est associée à des ruptures dans la structure des rainures. Après cela, la liste des caractéristiques est exempte de fragments dont la forme et la qualité sont inférieures à un certain seuil.

Riz. 1.14. Les résultats des données manquantes présentés dans la Fig. 1.13, à travers un filtre rainure-rainure. Dans ce cas, les points noirs sont représentés par les symboles « g ». Illustration aimablement fournie par M. C. W. Swanger de Calspan Corporation, Buffalo, New York.

La dernière étape du processus d'édition final consiste à déterminer si une entité appartient à un groupe d'entités ou si l'angle correspondant diffère considérablement de l'orientation locale de la structure de rainure. Le test groupé exclut de la considération des groupes de caractéristiques de ce type, telles que celles résultant d'une cicatrice sur un doigt. Si, à côté de la caractéristique analysée, on trouve des caractéristiques dont le nombre dépasse une certaine valeur, cette caractéristique est exclue de l'analyse ultérieure comme étant fausse. Si la fonctionnalité réussit le dernier test, alors la partie logique du système procède à la mise en œuvre du test d'angle anormal, en utilisant l'ensemble de données (matrice) sur la direction des rainures collectées.

pendant le prétraitement. En fonction de l'ampleur de l'écart par rapport à l'angle moyen de la rainure, la caractéristique est conservée, rejetée ou, si l'écart est faible, l'angle est ajusté en fonction de la valeur moyenne des angles des rainures adjacentes.

Enfin, environ 2 500 bits de données représentant les caractéristiques qui ont réussi tous les tests fournis par l'unité d'édition finale sont écrits sur bande magnétique afin de pouvoir commencer à être comparés aux caractéristiques des tirages des archives.

Application des méthodes de reconnaissance de formes à la surveillance technique de l'état des composants des réacteurs nucléaires

Ce dernier exemple concerne un domaine d'application relativement nouveau des principes de reconnaissance de formes. De nombreux capteurs sont intégrés dans les circuits des installations nucléaires pour surveiller l'intégrité de l'installation. L'enregistreur de neutrons s'est notamment répandu dans le domaine de la technologie de contrôle et de mesure. Cet appareil, conçu pour mesurer la densité neutronique, génère un signal qui dépend également des vibrations mécaniques qui se produisent dans le réacteur. L'un des principaux objectifs de l'utilisation de cet enregistreur dans un réacteur nucléaire est de détecter le plus tôt possible tout mode d'oscillation interne qui n'est pas typique des conditions normales de fonctionnement du réacteur.

Actuellement, dans le domaine de l'analyse du bruit (neutronique, acoustique, thermique, etc.), le plus grand intérêt réside dans la création de systèmes de contrôle technique qui assurent le suivi du mode de fonctionnement de l'installation dans son ensemble, sont au moins partiellement automatisés et avoir la capacité de s'adapter aux changements de mode , non associés à un écart par rapport à la norme. Les systèmes de contrôle reproduisent des informations en énormes volumes qui, pour être utilisées, doivent être traitées selon des procédures systématiques. Bien que cela ne pose pas de véritables défis à l'heure actuelle, puisqu'au moment de la rédaction de cet article, il n'y avait pas plus de 50 centrales nucléaires en activité aux États-Unis, la Commission de l'énergie atomique estime que d'ici l'an 2000, le nombre de centrales nucléaires de ce type dans le pays Les États-Unis à eux seuls dépasseront le millier. Bien entendu, il faudra créer des méthodes de traitement automatique des informations reproduites par les nombreux systèmes de contrôle qui feront partie de ces centrales nucléaires.

installations. Même si la reconnaissance dans ce domaine commence à peine à faire ses premiers pas, ses capacités potentielles sont déjà pleinement définies. Nous décrivons ci-dessous brièvement les principaux résultats obtenus dans cette direction.

Riz. 1.15 Principaux composants d'un système d'analyse automatique du bruit.

En figue. 1.15 montre les principaux composants du système de contrôle automatique. Les signaux représentant le bruit provenant de capteurs installés dans une centrale nucléaire sont normalisés, prétraités et entrés dans un système de reconnaissance de formes. La sortie de ce système reproduit une solution caractérisant l'état actuel de l'installation. Dans notre cas, il s'agit d'un réacteur nucléaire à haute densité de flux neutronique, conçu pour la production d'isotopes : le réacteur est installé au Oak Ridge National Laboratory. Les résultats des mesures de bruit neutronique, effectuées en moyenne trois fois par jour, servent de données d'entrée au suivi du fonctionnement de ce réacteur. Le cycle du combustible (délai entre les recharges des piles à combustible) est généralement de 22 jours en fonctionnement à pleine puissance. Sur la base de ces données, l'unité de prétraitement détermine la densité spectrale de puissance dans la plage de fréquences de 0 à 31 Hz avec un intervalle de 1 Hz. Par conséquent, les résultats de chaque mesure peuvent être représentés par un vecteur d'image à 32 dimensions, où est l'amplitude de la densité spectrale de puissance de rayonnement à une fréquence de 0 Hz, est l'amplitude à une fréquence de 1 Hz, etc. La tâche dans ce cas, il s’agit de construire un système de reconnaissance de formes capable d’analyser automatiquement des images similaires.

Les données de deux cycles de combustible d'un réacteur isotopique avec une densité de flux neutronique élevée sont présentées dans un système de coordonnées tridimensionnelles sur la Fig. 1.16, a et b. L'axe caractérise la durée du cycle du combustible, l'axe des y représente 32 composantes

chaque image, et l'axe z est l'amplitude normalisée de la densité spectrale de puissance. Les données fournies correspondent au fonctionnement normal. Notez que les deux groupes de données sont généralement très similaires.

Riz. 1.16. Densités spectrales de puissance typiques du rayonnement neutronique correspondant au fonctionnement normal d'un réacteur nucléaire à haute densité de flux neutronique destiné à la production d'isotopes. Les plus grands pics de chaque graphique se voient attribuer une valeur de 1. Les véritables valeurs de densité spectrale peuvent être obtenues en multipliant les valeurs obtenues à partir du graphique par les facteurs d'échelle appropriés. Ils sont égaux : . Graphiques tirés de Gonzalez, Fry et Kreiter, IEEE Trans. Nucl. Sci., 21, n° 1, février 1974 (R. C. Gonzales, D. N. Fry, R. C. Kryter, Results in the Application of Pattern Recognition Methods to Nuclear Reactor Core Component Surveillance).

Le système de reconnaissance, conçu pour surveiller le fonctionnement d'un réacteur isotopique à haute densité de flux neutronique, identifie les signes caractéristiques d'un fonctionnement normal à partir d'enregistrements de bruit neutronique soumis à un traitement approprié. Cette procédure se résume essentiellement à trouver des clusters de vecteurs d'images en utilisant l'application séquentielle d'un algorithme de clustering (les méthodes correspondantes sont discutées au chapitre 3). Les données caractérisant l'emplacement des centres de cluster, ainsi que les statistiques de diffusion descriptives correspondantes pour les clusters individuels, peuvent ensuite être utilisées comme références pour une comparaison à tout moment avec les résultats de mesure afin d'identifier l'état actuel de l'installation. Écarts importants par rapport aux caractéristiques spécifiées

les conditions normales de fonctionnement servent d'indicateurs de l'apparition d'un processus anormal. En figue. 1.17, a et b, par exemple, montrent une image du comportement du réacteur, qui peut être facilement classé comme très différent du mode de fonctionnement normal. Les données présentées correspondent au cas de rupture du palier de guidage d'un des composants mécaniques situés à proximité du cœur du réacteur. Bien que les écarts identifiés ne créent pas une situation présentant un danger immédiat, ces résultats démontrent l'importance potentielle de l'utilisation des méthodes de reconnaissance de formes en tant que partie intégrante du système de mesures assurant la surveillance technique de l'état d'une centrale nucléaire. Des détails supplémentaires sur cette question peuvent être tirés de l’article de Gonzalez, Frye et Kreiter.

Riz. 1.17. Densités spectrales correspondant au comportement anormal d'un réacteur nucléaire à forte densité de flux neutronique destiné à la production d'isotopes. Les facteurs d'échelle dans ce cas sont égaux à : . Graphiques tirés de Gonzalez, Fry et Kreiter, IEEE Trans. Nucl. Sci., 21, n° 1, février 1974 (R. C. Gonzalez, D. N. Fry, R. C. Kryter, Results in the Application of Pattern Recognition Methods to Nuclear Reactor Core Component Surveillance).


Méthode par force brute. Dans cette méthode, une comparaison est effectuée avec une certaine base de données, où pour chaque objet différentes options de modification de l'affichage sont présentées. Par exemple, pour la reconnaissance optique de formes, vous pouvez utiliser la méthode d'énumération sous différents angles ou échelles, déplacements, déformations, etc. Pour les lettres, vous pouvez énumérer la police ou ses propriétés. Dans le cas de la reconnaissance de formes sonores, une comparaison est faite avec certains modèles connus (un mot prononcé par de nombreuses personnes). Ensuite, une analyse plus approfondie des caractéristiques de l’image est réalisée. Dans le cas de la reconnaissance optique, il peut s'agir de la détermination de caractéristiques géométriques. Dans ce cas, l’échantillon sonore est soumis à une analyse de fréquence et d’amplitude.

Méthode suivante - utilisation de réseaux de neurones artificiels(INS). Cela nécessite soit un grand nombre d'exemples de tâche de reconnaissance, soit une structure de réseau neuronal spéciale qui prend en compte les spécificités d'une tâche donnée. Néanmoins, cette méthode est très efficace et productive.

Méthodes basées sur des estimations des densités de distribution des valeurs des caractéristiques. Emprunté à la théorie classique des décisions statistiques, dans laquelle les objets d'étude sont considérés comme des réalisations d'une variable aléatoire multidimensionnelle distribuée dans l'espace des caractéristiques selon une certaine loi. Ils sont basés sur un schéma décisionnel bayésien qui fait appel aux probabilités initiales des objets appartenant à une classe particulière et aux densités de distribution conditionnelle des caractéristiques.

Un groupe de méthodes basées sur l'estimation des densités de distribution des valeurs des caractéristiques est directement liée aux méthodes d'analyse discriminante. L'approche bayésienne de la prise de décision est l'une des méthodes paramétriques les plus développées de la statistique moderne, pour laquelle l'expression analytique de la loi de distribution (loi normale) est supposée connue et seul un petit nombre de paramètres (vecteurs de moyennes et matrices de covariance ) doivent être estimés. Les principales difficultés liées à l'utilisation de cette méthode sont considérées comme la nécessité de mémoriser l'intégralité de l'échantillon de formation pour calculer les estimations de densité et la grande sensibilité de l'échantillon de formation.

Méthodes basées sur des hypothèses sur la classe des fonctions de décision. Dans ce groupe, le type de fonction de décision est considéré comme connu et la fonctionnelle de sa qualité est précisée. Sur la base de cette fonctionnelle, l'approximation optimale de la fonction de décision est trouvée à l'aide de la séquence d'entraînement. La qualité fonctionnelle de la règle de décision est généralement associée à l’erreur. Le principal avantage de la méthode est la clarté de la formulation mathématique du problème de reconnaissance. La possibilité d'extraire de nouvelles connaissances sur la nature d'un objet, en particulier des connaissances sur les mécanismes d'interaction des attributs, est ici fondamentalement limitée par la structure d'interaction donnée, fixée dans la forme choisie des fonctions de décision.

Méthode de comparaison avec le prototype. Il s’agit de la méthode de reconnaissance extensionnelle la plus simple en pratique. Il est utilisé lorsque les classes reconnues sont affichées sous forme de classes géométriques compactes. Ensuite, le centre du groupement géométrique (ou l'objet le plus proche du centre) est sélectionné comme point prototype.

Pour classer un objet non défini, le prototype le plus proche est trouvé et l'objet appartient à la même classe que lui. Évidemment, aucune image généralisée n’est formée avec cette méthode. Différents types de distances peuvent être utilisés comme mesure.

La méthode des k-voisins les plus proches. La méthode consiste dans le fait que lors de la classification d'un objet inconnu, un nombre donné (k) d'entités géométriquement les plus proches dans l'espace des autres voisins les plus proches avec une appartenance déjà connue à n'importe quelle classe est trouvé. La décision de classer un objet inconnu est prise en analysant les informations sur ses voisins les plus proches. La nécessité de réduire le nombre d’objets dans l’échantillon d’apprentissage (précédents de diagnostic) est un inconvénient de cette méthode, car elle réduit la représentativité de l’échantillon d’apprentissage.

Partant du fait que différents algorithmes de reconnaissance se comportent différemment sur un même échantillon, se pose la question d’une règle de décision synthétique qui utiliserait les atouts de tous les algorithmes. Il existe pour cela une méthode synthétique ou des groupes de règles de décision qui combinent les aspects les plus positifs de chaque méthode.

Pour conclure l'examen des méthodes de reconnaissance, nous présenterons l'essentiel de ce qui précède dans un tableau récapitulatif, en y ajoutant également quelques autres méthodes utilisées dans la pratique.

Tableau 1. Tableau de classification des méthodes de reconnaissance, comparaison de leurs domaines d'application et limites

Classification des méthodes de reconnaissance

Champ d'application

Limites (inconvénients)

Méthodes de reconnaissance intensives

Méthodes basées sur des estimations de densité

Problèmes avec une distribution connue (normale), nécessité de collecter des statistiques volumineuses

La nécessité d'énumérer l'intégralité de l'échantillon d'apprentissage lors de la reconnaissance, une sensibilité élevée à la non-représentativité de l'échantillon d'apprentissage et des artefacts

Méthodes basées sur des hypothèses

Les classes doivent être bien séparables

Le type de fonction de décision doit être connu à l’avance. Incapacité à prendre en compte les nouvelles connaissances sur les corrélations entre les traits

Méthodes booléennes

Petits problèmes

Lors de la sélection de règles de décision logiques, une recherche exhaustive est nécessaire. Forte intensité de travail

Méthodes linguistiques

La tâche consistant à déterminer la grammaire à partir d'un certain ensemble d'énoncés (descriptions d'objets) est difficile à formaliser. Problèmes théoriques non résolus

Méthodes de reconnaissance extensionnelle

Méthode de comparaison avec un prototype

Problèmes de petite dimension de l'espace des fonctionnalités

Forte dépendance des résultats de classification aux métriques. Métrique optimale inconnue

méthode des k voisins les plus proches

Forte dépendance des résultats de classification aux métriques. La nécessité d'une énumération complète de l'échantillon de formation lors de la reconnaissance. Effort de calcul

Algorithmes de calcul d'estimations (ABO)

Problèmes de petite dimension en termes de nombre de classes et de fonctionnalités

Dépendance des résultats de classification aux métriques. La nécessité d'une énumération complète de l'échantillon de formation lors de la reconnaissance. Haute complexité technique de la méthode

Les Collectifs de Règles de Décision (DRC) sont une méthode synthétique.

Problèmes de petite dimension en termes de nombre de classes et de fonctionnalités

Très grande complexité technique de la méthode, nombre de problèmes théoriques non résolus, tant dans la détermination des domaines de compétence des méthodes privées que dans les méthodes privées elles-mêmes

Chapitre 3 : Systèmes de reconnaissance de formes (identification)

  • La notion d'image. Le problème de l’enseignement de la reconnaissance de formes. Approches géométriques et structurelles. Hypothèse de compacité. Formation et auto-apprentissage. Adaptation et formation.
  • Méthodes d'enseignement de la reconnaissance de formes - perceptrons, réseaux de neurones, méthode des fonctions potentielles, méthode de comptabilité de groupe des arguments, méthode des simplifications extrêmes, groupes de règles de décision.
  • Méthodes et algorithmes d'analyse de la structure des données multidimensionnelles - analyse cluster, regroupement hiérarchique.

Notion d'image

Image, classe - un regroupement de classification dans un système de classification qui unit (met en évidence) un certain groupe d'objets selon un certain critère.

La perception imaginative du monde est l'une des propriétés mystérieuses du cerveau vivant, qui permet de comprendre le flux incessant d'informations perçues et de maintenir son orientation dans l'océan de données disparates sur le monde extérieur. Lors de la perception du monde extérieur, nous classons toujours les sensations perçues, c'est-à-dire que nous les divisons en groupes de phénomènes similaires mais non identiques. Par exemple, malgré la différence significative, un groupe comprend toutes les lettres A écrites avec des écritures différentes, ou tous les sons correspondant à la même note jouée dans n'importe quelle octave et sur n'importe quel instrument, et l'opérateur contrôlant un objet technique comprend tout un ensemble d'états. l'objet réagit avec la même réaction. Il est caractéristique que pour formuler un concept sur un groupe de perceptions d'une certaine classe, il suffit de se familiariser avec un petit nombre de ses représentants. On peut montrer une seule fois une lettre à un enfant afin qu'il puisse retrouver cette lettre dans un texte écrit dans des polices différentes, ou la reconnaître, même si elle est écrite sous une forme volontairement déformée. Cette propriété du cerveau nous permet de formuler un concept tel qu'une image.

Les images ont une propriété caractéristique, qui se manifeste dans le fait que la familiarisation avec un nombre fini de phénomènes d'un même ensemble permet de reconnaître un nombre arbitrairement grand de ses représentants. Des exemples d'images peuvent être : une rivière, une mer, un liquide, la musique de Tchaïkovski, la poésie de Maïakovski, etc. Un certain ensemble d'états d'un objet de contrôle peut également être considéré comme une image, et l'ensemble de cet ensemble d'états est caractérisé par le fait que pour atteindre un objectif donné, le même impact sur un objet. Les images ont des propriétés objectives caractéristiques dans le sens où différentes personnes, formées sur différents matériaux d'observation, classent pour la plupart les mêmes objets de la même manière et indépendamment les unes des autres. C’est cette objectivité des images qui permet aux gens du monde entier de se comprendre.

La capacité de percevoir le monde extérieur sous forme d'images permet de reconnaître avec une certaine fiabilité un nombre infini d'objets à partir de la familiarisation avec un nombre fini d'entre eux, et le caractère objectif de la propriété principale des images permet de modéliser le processus de leur reconnaissance. Étant le reflet de la réalité objective, le concept d'image est aussi objectif que la réalité elle-même, et ce concept peut donc lui-même faire l'objet d'une étude particulière.

Dans la littérature consacrée au problème de la reconnaissance de formes d'apprentissage (RP), le concept de classe est souvent introduit à la place du concept d'image.

Le problème de la reconnaissance des formes d’apprentissage (PRT)

L’une des propriétés les plus intéressantes du cerveau humain est sa capacité à réagir à un nombre infini de conditions environnementales par un nombre fini de réactions. C'est peut-être précisément cette propriété qui a permis à l'homme d'atteindre la forme d'existence la plus élevée de la matière vivante, exprimée dans la capacité de penser, c'est-à-dire de refléter activement le monde objectif sous forme d'images, de concepts, de jugements, etc. L'ORR est née de l'étude des propriétés physiologiques du cerveau.

Considérons un exemple de problèmes du domaine de l'ODO.


Riz. 1

Voici 12 tâches dans lesquelles vous devez sélectionner des fonctionnalités pouvant être utilisées pour distinguer la triade d'images gauche de la droite. La résolution de ces problèmes nécessite de modéliser pleinement la pensée logique.

En général, le problème de la reconnaissance de formes se compose de deux parties : la formation et la reconnaissance. La formation s'effectue en montrant des objets individuels indiquant leur appartenance à l'une ou l'autre image. Grâce à la formation, le système de reconnaissance doit acquérir la capacité de répondre avec les mêmes réactions à tous les objets de la même image et avec des réactions différentes à tous les objets d'images différentes. Il est très important que le processus d’apprentissage soit complété uniquement en affichant un nombre fini d’objets sans aucune autre invite. Les objets d'apprentissage peuvent être soit des images ou d'autres images visuelles (lettres), soit divers phénomènes du monde extérieur, par exemple des sons, l'état du corps lors d'un diagnostic médical, l'état d'un objet technique dans des systèmes de contrôle, etc. Il est important que pendant le processus d'apprentissage seuls les objets et leur appartenance à l'image. La formation est suivie du processus de reconnaissance de nouveaux objets, qui caractérise les actions d'un système déjà formé. L'automatisation de ces procédures est le problème de l'enseignement de la reconnaissance de formes. Dans le cas où une personne le résout ou l'invente elle-même, puis impose une règle de classification à la machine, le problème de reconnaissance est partiellement résolu, puisque la personne assume l'essentiel du problème (formation).

Le problème de l’enseignement de la reconnaissance de formes est intéressant à la fois d’un point de vue appliqué et fondamental. D'un point de vue appliqué, résoudre ce problème est important principalement parce qu'il ouvre la possibilité d'automatiser de nombreux processus jusqu'à présent associés uniquement à l'activité du cerveau vivant. L'importance fondamentale du problème est étroitement liée à la question qui se pose de plus en plus à propos du développement des idées en cybernétique : que peut et qu'est-ce qu'une machine ne peut fondamentalement pas faire ? Dans quelle mesure les capacités d’une machine peuvent-elles être proches de celles d’un cerveau vivant ? En particulier, une machine peut-elle développer la capacité d’adopter une capacité humaine à effectuer certaines actions en fonction de situations qui se présentent dans l’environnement ? Jusqu'à présent, il est seulement devenu clair que si une personne peut d'abord réaliser elle-même sa compétence, puis la décrire, c'est-à-dire indiquer pourquoi elle effectue des actions en réponse à chaque état de l'environnement extérieur ou comment (selon quelle règle) elle combine des objets individuels en images, une telle compétence peut alors être transférée à une machine sans difficultés fondamentales. Si une personne possède une compétence mais ne peut pas l'expliquer, il n'y a qu'un seul moyen de transférer la compétence à une machine : l'enseignement par des exemples.

L'éventail des problèmes pouvant être résolus à l'aide des systèmes de reconnaissance est extrêmement large. Cela inclut non seulement les tâches de reconnaissance des images visuelles et auditives, mais également les tâches de reconnaissance de processus et de phénomènes complexes qui surviennent, par exemple, lors du choix des actions appropriées par le chef d'entreprise ou du choix de la gestion optimale des technologies, de l'économie et des transports. ou des opérations militaires. Dans chacune de ces tâches, certains phénomènes, processus et états du monde extérieur sont analysés, appelés ci-dessous objets d'observation. Avant de commencer à analyser un objet, vous devez obtenir certaines informations ordonnées à son sujet d'une manière ou d'une autre. Ces informations représentent les caractéristiques des objets, leur affichage sur divers organes perceptifs du système de reconnaissance.

Mais chaque objet d’observation peut influencer différemment, selon les conditions de perception. Par exemple, toute lettre, même écrite de la même manière, peut, en principe, être déplacée de quelque manière que ce soit par rapport aux organes percevants. De plus, les objets d’une même image peuvent être très différents les uns des autres et avoir naturellement des effets différents sur les organes de perception.

Chaque cartographie d'un objet sur les organes perceptifs du système de reconnaissance, quelle que soit sa position par rapport à ces organes, est généralement appelée une image de l'objet, et des ensembles de telles images, unies par certaines propriétés communes, sont des images.

Lors de la résolution de problèmes de contrôle à l'aide de méthodes de reconnaissance de formes, le terme « état » est utilisé à la place du terme « image ». Un état est une certaine forme d'affichage des caractéristiques actuelles (ou instantanées) mesurées de l'objet observé. L'ensemble des états détermine la situation. La notion de « situation » est analogue à la notion d’« image ». Mais cette analogie n’est pas complète, car toutes les images ne peuvent pas être appelées une situation, bien que chaque situation puisse être appelée une image.

Une situation est généralement appelée un certain ensemble d'états d'un objet complexe, dont chacun est caractérisé par des caractéristiques identiques ou similaires de l'objet. Par exemple, si un certain objet de contrôle est considéré comme un objet d'observation, alors la situation combine les états de cet objet dans lesquels les mêmes actions de contrôle doivent être appliquées. Si l'objet d'observation est un jeu de guerre, alors la situation combine tous les états du jeu qui nécessitent, par exemple, une puissante frappe de char avec un appui aérien.

Le choix de la description initiale des objets est l'une des tâches centrales du problème ODO. Si la description initiale (espace des fonctionnalités) est choisie avec succès, la tâche de reconnaissance peut s'avérer triviale et, à l'inverse, une description initiale mal choisie peut conduire soit à un traitement ultérieur très complexe de l'information, soit à aucune solution du tout. Par exemple, si le problème de la reconnaissance d'objets de couleur différente est en cours de résolution et que les signaux reçus des capteurs de poids sont choisis comme description initiale, alors le problème de reconnaissance ne peut, en principe, pas être résolu.

Approches géométriques et structurelles.

Chaque fois que nous sommes confrontés à des problèmes inconnus, nous ressentons un désir naturel de les représenter sous la forme d’un modèle facilement compréhensible qui nous permettrait de conceptualiser le problème dans des termes facilement reproductibles par notre imagination. Et puisque nous existons dans l'espace et le temps, le plus compréhensible pour nous est l'interprétation spatio-temporelle des problèmes.

Toute image résultant de l'observation d'un objet lors d'une formation ou d'un examen peut être représentée comme un vecteur, et donc comme un point dans un espace de fonctionnalités. S'il est indiqué que lors de la visualisation d'images, il est possible de les attribuer sans ambiguïté à l'une des deux (ou plusieurs) images, alors il est alors indiqué que dans un certain espace, il existe deux (ou plus) régions qui n'ont pas de points communs, et que les images sont des points de ces régions. Chacune de ces zones peut se voir attribuer un nom, c'est-à-dire qu'un nom correspondant à l'image peut être donné.

Interprétons maintenant le processus d'apprentissage de la reconnaissance de formes en termes d'image géométrique, en nous limitant pour l'instant au cas de la reconnaissance de seulement deux images. On considère que l'on sait à l'avance seulement qu'il est nécessaire de séparer deux régions dans un certain espace et que seuls les points de ces régions sont affichés. Ces zones elles-mêmes ne sont pas prédéterminées, c'est-à-dire qu'il n'existe aucune information sur l'emplacement de leurs limites ni de règles permettant de déterminer si un point appartient à une zone particulière.

Pendant la formation, des points sélectionnés au hasard dans ces zones sont présentés et des informations sont fournies sur la zone à laquelle appartiennent les points présentés. Aucune information supplémentaire sur ces zones, c'est-à-dire l'emplacement de leurs limites, n'est fournie lors de la formation. Le but de l'entraînement est soit de construire une surface qui séparerait non seulement les points montrés lors du processus d'entraînement, mais également tous les autres points appartenant à ces zones, soit de construire des surfaces qui délimitent ces zones de manière à ce que chacune d'elles ne contienne que des points d'intérêt. une image. En d’autres termes, le but de l’entraînement est de construire des fonctions à partir de vecteurs d’images qui seraient, par exemple, positives en tout point d’une image et négatives en tout point d’une autre image. Du fait que les espaces n'ont pas de points communs, il existe toujours tout un ensemble de telles fonctions séparatrices, et suite à la formation, il faut en construire une.

Si les images présentées appartiennent non pas à deux, mais à un plus grand nombre d'images, alors la tâche est de construire, à l'aide des points montrés lors de l'entraînement, une surface séparant entre elles toutes les zones correspondant à ces images. Ce problème peut être résolu, par exemple, en construisant une fonction qui prend la même valeur sur les points de chacune des régions, et sur les points de différentes régions, la valeur de cette fonction devrait être différente.



Riz. 2 - Deux images.

À première vue, il semble que connaître quelques points d’une zone ne suffit pas à isoler l’ensemble de la zone. En effet, il est possible d'indiquer un nombre incalculable de zones différentes qui contiennent ces points, et quelle que soit la façon dont la surface mettant en évidence la zone est construite à partir d'eux, il est toujours possible d'indiquer une autre zone qui coupe la surface et contient en même temps les points indiqués. Cependant, on sait que le problème de l'approximation d'une fonction à partir d'informations la concernant dans un ensemble limité de points, nettement plus restreint que l'ensemble complet sur lequel la fonction est donnée, est un problème mathématique courant d'approximation de fonctions. Bien entendu, résoudre de tels problèmes nécessite d'introduire certaines restrictions sur la classe de fonctions considérée, et le choix de ces restrictions dépend de la nature des informations que l'enseignant peut ajouter au cours du processus d'enseignement. L’un de ces indices est l’hypothèse de compacité des images. Il est intuitivement clair que l’approximation de la fonction de séparation sera d’autant plus facile que les régions à séparer seront compactes et espacées. Ainsi, par exemple, dans le cas représenté sur la Fig. 2a, la séparation est évidemment plus simple que dans le cas représenté sur la Fig. 2b. En effet, dans le cas représenté sur la Fig. 2a, les régions peuvent être séparées par un plan, et même avec de grandes erreurs dans la détermination de la fonction de séparation, cela continuera à séparer les régions. Dans le cas de la Fig. 2b, la séparation est réalisée par une surface complexe et même des écarts mineurs dans sa forme conduisent à des erreurs de séparation. C'est cette idée intuitive de régions relativement facilement séparables qui a conduit à l'hypothèse de compacité.

Parallèlement à l'interprétation géométrique du problème de l'enseignement de la reconnaissance de formes, il existe une autre approche, appelée structurelle ou linguistique. Expliquons l'approche linguistique en utilisant l'exemple de la reconnaissance visuelle d'images. Tout d'abord, un ensemble de concepts initiaux est identifié - fragments typiques trouvés dans les images, et caractéristiques de la position relative des fragments - « gauche », « bas », « intérieur », etc. Ces concepts initiaux forment un vocabulaire qui permet de construire diverses déclarations logiques, parfois appelées hypothèses. La tâche consiste à sélectionner parmi un grand nombre d'énoncés qui pourraient être construits à l'aide de ces concepts, les plus significatifs pour un cas spécifique donné.

Ensuite, en visualisant un nombre fini et éventuellement petit d'objets de chaque image, vous devez construire une description de ces images. Les descriptions construites doivent être suffisamment complètes pour résoudre la question de savoir à quelle image appartient un objet donné. Lors de la mise en œuvre de l'approche linguistique, deux tâches se posent : la tâche de construire un dictionnaire initial, c'est-à-dire un ensemble de fragments typiques, et la tâche de construire des règles de description à partir des éléments d'un dictionnaire donné.

Dans le cadre de l'interprétation linguistique, une analogie est établie entre la structure des images et la syntaxe du langage. Le désir de cette analogie est né de la possibilité d'utiliser l'appareil de la linguistique mathématique, c'est-à-dire que les méthodes sont de nature syntaxique. L'utilisation des appareils de linguistique mathématique pour décrire la structure des images ne peut être utilisée qu'après que les images ont été segmentées en leurs composants, c'est-à-dire que des mots ont été développés pour décrire des fragments typiques et des méthodes pour les rechercher. Après un travail préliminaire assurant la sélection des mots, apparaissent les tâches linguistiques proprement dites, consistant en des tâches d'analyse grammaticale automatique des descriptions pour la reconnaissance d'images. Dans le même temps, un domaine de recherche indépendant émerge, qui nécessite non seulement la connaissance des bases de la linguistique mathématique, mais également la maîtrise de techniques développées spécifiquement pour le traitement linguistique des images.

Hypothèse de compacité

Si nous supposons qu'au cours du processus d'apprentissage, l'espace des caractéristiques est formé sur la base de la classification prévue, alors nous pouvons espérer que la spécification de l'espace des caractéristiques elle-même spécifie une propriété sous l'influence de laquelle les images de cet espace sont facilement séparées. Ce sont ces espoirs, au fur et à mesure du développement des travaux dans le domaine de la reconnaissance de formes, qui ont stimulé l'émergence de l'hypothèse de compacité, selon laquelle les images correspondent à des ensembles compacts dans l'espace des caractéristiques. Pour l’instant, par ensemble compact nous entendrons certains « amas » de points dans l’espace image, en supposant qu’entre ces amas il existe des raréfactions qui les séparent.

Cependant, cette hypothèse n'a pas toujours pu être confirmée expérimentalement, mais, plus important encore, les tâches dans lesquelles l'hypothèse de compacité était bien remplie (Fig. 2a) ont toutes, sans exception, trouvé une solution simple. Et vice versa, les tâches pour lesquelles l'hypothèse n'a pas été confirmée (Fig. 2b) n'ont pas été résolues du tout ou ont été résolues avec beaucoup de difficulté à l'aide d'astuces supplémentaires. Ce fait jette au moins un doute sur la validité de l'hypothèse de compacité, puisque pour réfuter toute hypothèse, un seul exemple qui la nie suffit. Dans le même temps, la mise en œuvre de l'hypothèse partout où il était possible de bien résoudre le problème de l'enseignement de la reconnaissance de formes a retenu l'intérêt pour cette hypothèse. L'hypothèse de compacité elle-même est devenue un signe de la possibilité de résoudre de manière satisfaisante les problèmes de reconnaissance.

La formulation de l’hypothèse de compacité nous rapproche du concept d’image abstraite. Si les coordonnées de l'espace sont choisies au hasard, alors les images qu'il contient seront distribuées de manière aléatoire. Ils seront plus densément localisés dans certaines parties de l’espace que dans d’autres. Appelons un espace sélectionné au hasard une image abstraite. Dans cet espace abstrait, il existera presque certainement des ensembles compacts de points. Par conséquent, conformément à l’hypothèse de compacité, les ensembles d’objets qui correspondent à des ensembles compacts de points dans l’espace abstrait peuvent être raisonnablement appelés images abstraites d’un espace donné.

Formation et auto-apprentissage. Adaptation et formation

Toutes les images présentées dans la Fig. 1, caractériser la tâche d’apprentissage. Dans chacun de ces problèmes, plusieurs exemples (séquence d'entraînement) de problèmes correctement résolus sont donnés. S'il était possible de remarquer une propriété universelle qui ne dépend ni de la nature des images ni de leurs images, mais détermine uniquement leur capacité à être séparées, alors, parallèlement à la tâche habituelle d'apprentissage de la reconnaissance, en utilisant des informations sur l'appartenance de chacun objet de la séquence d'entraînement à l'une ou l'autre image. Il serait possible de poser un problème de classification différent - ce qu'on appelle le problème d'apprentissage non supervisé. Une tâche de ce type au niveau descriptif peut être formulée ainsi : le système est présenté simultanément ou séquentiellement des objets sans aucune indication de leur appartenance à des images. Le dispositif d'entrée du système mappe un ensemble d'objets sur un ensemble d'images et, en utilisant à l'avance une propriété de séparabilité d'image qui lui est inhérente, produit une classification indépendante de ces objets. Après un tel processus d'auto-apprentissage, le système devrait acquérir la capacité de reconnaître non seulement des objets déjà familiers (objets de la séquence de formation), mais également ceux qui n'ont pas été présentés auparavant. Le processus d'auto-apprentissage d'un certain système est un processus à la suite duquel ce système, sans l'incitation d'un enseignant, acquiert la capacité de développer des réactions identiques aux images d'objets de la même image et des réactions différentes aux images d'images différentes. . Le rôle de l'enseignant dans ce cas est uniquement de suggérer au système une propriété objective qui est la même pour toutes les images et détermine la capacité de diviser de nombreux objets en images.

Il s'avère qu'une telle propriété objective est la propriété de compacité des images. La position relative des points dans l'espace sélectionné contient déjà des informations sur la façon dont l'ensemble des points doit être divisé. Ces informations déterminent la propriété de séparabilité de l'image, qui est suffisante pour que le système apprenne automatiquement la reconnaissance d'image.

La plupart des algorithmes d'auto-apprentissage connus sont capables d'identifier uniquement des images abstraites, c'est-à-dire des ensembles compacts dans des espaces donnés. La différence entre eux réside apparemment dans la formalisation de la notion de compacité. Cependant, cela ne réduit pas, et parfois même augmente, la valeur des algorithmes d'auto-apprentissage, car souvent les images elles-mêmes ne sont définies à l'avance par personne, et la tâche consiste à déterminer quels sous-ensembles d'images dans un espace donné représentent des images. Un bon exemple d’un tel énoncé de problème est la recherche sociologique, où des groupes de personnes sont identifiés sur la base d’un ensemble de questions. Dans cette compréhension du problème, les algorithmes d’auto-apprentissage génèrent des informations jusqu’alors inconnues sur l’existence d’images dans un espace donné dont personne n’avait la moindre idée auparavant.

De plus, le résultat de l'auto-apprentissage caractérise l'adéquation de l'espace sélectionné à une tâche d'apprentissage de reconnaissance spécifique. Si les images abstraites identifiées lors du processus d’auto-apprentissage coïncident avec des images réelles, alors l’espace a été bien choisi. Plus les images abstraites diffèrent des images réelles, plus l'espace choisi est « inconfortable » pour une tâche spécifique.

L'apprentissage est généralement appelé le processus de développement dans un certain système de l'une ou l'autre réaction à des groupes de signaux externes identiques par une influence répétée sur le système d'ajustements externes. De tels ajustements externes dans la formation sont généralement appelés « récompenses » et « punitions ». Le mécanisme permettant de générer cet ajustement détermine presque entièrement l’algorithme d’apprentissage. L'auto-apprentissage diffère de la formation en ce sens qu'aucune information supplémentaire sur l'exactitude de la réaction au système n'est fournie ici.

L'adaptation est le processus de modification des paramètres et de la structure du système, et éventuellement des actions de contrôle, sur la base des informations actuelles afin d'atteindre un certain état du système dans des conditions d'incertitude initiale et de conditions de fonctionnement changeantes.

L'apprentissage est un processus à la suite duquel le système acquiert progressivement la capacité de répondre par les réactions nécessaires à certains ensembles d'influences externes, et l'adaptation est l'ajustement des paramètres et de la structure du système afin d'atteindre la qualité de contrôle requise. face aux changements continus des conditions extérieures.

Par image, on entend une description structurée de l'objet ou du phénomène étudié, représentée par un vecteur de traits dont chaque élément représente la valeur numérique d'un des traits caractérisant l'objet correspondant.

La structure générale du système de reconnaissance est la suivante :

Le but de la tâche de reconnaissance est d'établir si les objets étudiés possèdent un ensemble fini fixe de caractéristiques qui leur permettent d'être classés dans une certaine classe. Les tâches de reconnaissance présentent les caractéristiques suivantes :

1. Il s'agit de tâches d'information composées de deux étapes :

un. Réduire les données source à une forme pratique pour la reconnaissance.

b. La reconnaissance elle-même est une indication qu'un objet appartient à une certaine classe.

2. Dans ces tâches, vous pouvez introduire le concept d'analogie ou de similitude d'objets et formuler le concept de proximité d'objets comme base pour classer les objets dans la même classe ou dans des classes différentes.

3. Dans ces tâches, vous pouvez opérer avec un ensemble de précédents - des exemples dont la classification est connue et qui, sous forme de descriptions formalisées, peuvent être présentés à l'algorithme de reconnaissance pour s'adapter à la tâche au cours du processus d'apprentissage.

4. Pour ces problèmes, il est difficile d'élaborer des théories formelles et d'appliquer des méthodes mathématiques classiques : souvent, les informations nécessaires à un modèle mathématique précis ou le gain résultant de l'utilisation du modèle et des méthodes mathématiques ne sont pas proportionnels aux coûts.

5. Dans ces tâches, des « mauvaises informations » sont possibles - des informations avec omissions, hétérogènes, indirectes, floues, ambiguës, probabilistes.

Il convient de distinguer les types de tâches de reconnaissance suivants :

1. Tâche de reconnaissance, c'est-à-dire attribuer un objet présenté selon sa description à l'une des classes données (apprentissage supervisé).

2. La tâche de classification automatique est la division d'un ensemble d'objets (situations) selon leurs descriptions en un système de classes non superposées (taxonomie, analyse cluster, apprentissage non supervisé).

3. La tâche de sélectionner un ensemble informatif de fonctionnalités lors de la reconnaissance.

4. La tâche de réduire les données source à une forme pratique pour la reconnaissance.

5. Reconnaissance dynamique et classification dynamique - tâches 1 et 2 pour les objets dynamiques.

6. Problème de prévision - problèmes 5 dans lesquels la décision doit se rapporter à un moment donné dans le futur.

La notion d'image.

Une image, une classe est un regroupement de classification dans un système qui réunit (sélectionne) un certain groupe d'objets selon un certain critère. Les images ont un certain nombre de propriétés caractéristiques, qui se manifestent par le fait que la familiarisation avec un nombre fini de phénomènes d'un même ensemble permet de reconnaître un nombre arbitrairement grand de ses représentants.


Un certain ensemble d'états d'un objet de contrôle peut également être considéré comme une image, et l'ensemble de cet ensemble d'états est caractérisé par le fait que pour atteindre un objectif donné, le même impact sur l'objet est requis. Les images ont des propriétés objectives caractéristiques dans le sens où différentes personnes, formées sur différents matériaux d'observation, classent pour la plupart les mêmes objets de la même manière et indépendamment les unes des autres.

En général, le problème de la reconnaissance de formes se compose de deux parties : la formation et la reconnaissance.

La formation s'effectue en montrant des objets individuels indiquant leur appartenance à l'une ou l'autre image. Grâce à la formation, le système de reconnaissance doit acquérir la capacité de répondre avec les mêmes réactions à tous les objets de la même image et avec des réactions différentes à tous les objets d'images différentes.

Il est très important que le processus d’apprentissage soit complété uniquement en affichant un nombre fini d’objets sans aucune autre invite. Les objets d'apprentissage peuvent être soit des images visuelles, soit divers phénomènes du monde extérieur, etc.

La formation est suivie du processus de reconnaissance de nouveaux objets, qui caractérise l'action d'un système déjà formé. L'automatisation de ces procédures est le problème de l'enseignement de la reconnaissance de formes. Dans le cas où une personne elle-même résout ou invente, puis impose des règles de classification sur un ordinateur, le problème de reconnaissance est partiellement résolu, puisque la personne assume l'essentiel du problème (formation).

Le problème de l’enseignement de la reconnaissance de formes est intéressant à la fois d’un point de vue appliqué et fondamental. D'un point de vue appliqué, résoudre ce problème est important principalement parce qu'il ouvre la possibilité d'automatiser de nombreux processus jusqu'à présent associés uniquement à l'activité du cerveau vivant. L’importance fondamentale du problème est liée à la question de savoir ce qu’un ordinateur peut et ne peut pas faire en principe.

Lors de la résolution de problèmes de contrôle à l'aide de méthodes de reconnaissance de formes, le terme « état » est utilisé à la place du terme « image ». État – certaines formes d'affichage des caractéristiques actuelles (instantanées) mesurées de l'objet observé ; un ensemble d'états détermine la situation.

Une situation est généralement appelée un certain ensemble d'états d'un objet complexe, dont chacun est caractérisé par des caractéristiques identiques ou similaires de l'objet. Par exemple, si un certain objet de contrôle est considéré comme un objet d'observation, alors la situation combine les états de cet objet dans lesquels les mêmes actions de contrôle doivent être appliquées. Si l'objet d'observation est un jeu, alors la situation réunit tous les états du jeu.

Le choix de la description initiale des objets est l'une des tâches centrales du problème de l'apprentissage de la reconnaissance de formes. Si la description initiale (espace des fonctionnalités) est choisie avec succès, la tâche de reconnaissance peut s'avérer triviale. À l’inverse, une description initiale mal choisie peut conduire soit à un traitement ultérieur très difficile de l’information, soit à l’absence de solution du tout.

Approches géométriques et structurelles.

Toute image résultant de l'observation d'un objet lors d'une formation ou d'un examen peut être représentée comme un vecteur, et donc comme un point dans un espace de fonctionnalités.

S'il est dit que lorsque des images sont affichées, il est possible de les attribuer sans ambiguïté à l'une de deux (ou plusieurs) images, alors il est dit que dans un certain espace, il y a deux ou plusieurs régions qui n'ont pas de points communs, et que l'image d'un point provient de ces régions. Chaque point d'une telle zone peut se voir attribuer un nom, c'est-à-dire qu'un nom correspondant à l'image peut être donné.

Interprétons le processus d'apprentissage de la reconnaissance de formes en termes d'image géométrique, en nous limitant pour l'instant au cas de la reconnaissance de seulement deux images. On suppose que l'on sait à l'avance seulement qu'il est nécessaire de séparer deux régions dans un certain espace et que seuls les points de ces régions sont affichés. Ces zones elles-mêmes ne sont pas prédéterminées, c'est-à-dire qu'il n'existe aucune information sur l'emplacement de leurs limites ni de règles permettant de déterminer si un point appartient à une zone particulière.

Pendant la formation, des points sélectionnés au hasard dans ces zones sont présentés et des informations sont fournies sur la zone à laquelle appartiennent les points présentés. Aucune information supplémentaire sur ces zones, c'est-à-dire l'emplacement de leurs limites, n'est fournie lors de la formation.

Le but de l'entraînement est soit de construire une surface qui séparerait non seulement les points montrés lors du processus d'entraînement, mais également tous les autres points appartenant à ces zones, soit de construire des surfaces qui délimitent ces zones de manière à ce que chacune d'elles ne contienne que des points d'intérêt. une image. En d’autres termes, le but de l’entraînement est de construire des fonctions à partir de vecteurs d’images qui seraient, par exemple, positives en tout point d’une image et négatives en tout point d’une autre image.

Du fait que les espaces n'ont pas de points communs, il existe toujours tout un ensemble de telles fonctions séparatrices, et suite à la formation, il faut en construire une. Si les images présentées appartiennent non pas à deux, mais à un plus grand nombre d'images, alors la tâche est de construire, à l'aide des points montrés lors de l'entraînement, une surface séparant entre elles toutes les zones correspondant à ces images.

Ce problème peut être résolu, par exemple, en construisant une fonction qui prend la même valeur sur les points de chacune des régions, et sur les points de différentes régions, la valeur de cette fonction doit être différente.

Il peut sembler que connaître seulement quelques points d’une zone ne suffit pas pour isoler la zone entière. En effet, il est possible d'indiquer un nombre infini de zones différentes qui contiennent ces points, et peu importe la façon dont la surface est construite à partir d'eux, en mettant en évidence la zone, il est toujours possible d'indiquer une autre zone qui coupe la surface et en même temps contient les points affichés.

Cependant, on sait que le problème de l'approximation d'une fonction à partir d'informations la concernant dans un ensemble limité de points est nettement plus restreint que l'ensemble complet sur lequel la fonction est donnée, et constitue un problème mathématique courant d'approximation de fonctions. Bien entendu, résoudre de tels problèmes nécessite d'introduire certaines restrictions sur la classe de fonctions considérée, et le choix de ces restrictions dépend de la nature des informations que l'enseignant peut ajouter au processus d'enseignement.

L’un de ces indices est l’hypothèse de compacité des images.

Parallèlement à l'interprétation géométrique du problème de l'enseignement de la reconnaissance de formes, il existe une autre approche, appelée structurelle ou linguistique. Considérons l'approche linguistique en utilisant l'exemple de la reconnaissance visuelle d'images.

Tout d'abord, un ensemble de concepts initiaux est identifié : fragments typiques trouvés dans l'image, et caractéristiques de la position relative des fragments (à gauche, en bas, à l'intérieur, etc.). Ces concepts initiaux forment un vocabulaire qui permet de construire divers énoncés logiques, parfois appelés phrases.

La tâche consiste à sélectionner parmi un grand nombre d'énoncés qui pourraient être construits à l'aide de ces concepts, les plus significatifs pour un cas spécifique donné. Ensuite, en visualisant un nombre fini et éventuellement petit d'objets de chaque image, vous devez construire une description de ces images.

Les descriptions construites doivent être suffisamment complètes pour résoudre la question de savoir à quelle image appartient un objet donné. Lors de la mise en œuvre d'une approche linguistique, deux tâches se posent : la tâche de construire un dictionnaire initial, c'est-à-dire un ensemble de fragments typiques, et la tâche de construire des règles de description à partir des éléments d'un dictionnaire donné.

Dans le cadre de l'interprétation linguistique, une analogie est établie entre la structure des images et la syntaxe du langage. Le désir de cette analogie est né de la possibilité d'utiliser l'appareil de la linguistique mathématique, c'est-à-dire que les méthodes sont de nature syntaxique. L'utilisation des appareils de linguistique mathématique pour décrire la structure des images ne peut être utilisée qu'après que les images ont été segmentées en leurs composants, c'est-à-dire que des mots ont été développés pour décrire des fragments typiques et des méthodes pour les rechercher.

Après un travail préliminaire assurant la sélection des mots, apparaissent les tâches linguistiques proprement dites, consistant en des tâches d'analyse grammaticale automatique des descriptions pour la reconnaissance d'images.

Hypothèse de compacité.

Si nous supposons qu'au cours du processus d'apprentissage, l'espace des caractéristiques est formé sur la base de la classification prévue, alors nous pouvons espérer que la spécification de l'espace des caractéristiques elle-même spécifie une propriété sous l'influence de laquelle les images de cet espace sont facilement séparées. Ce sont ces espoirs, au fur et à mesure du développement des travaux dans le domaine de la reconnaissance de formes, qui ont stimulé l'émergence de l'hypothèse de compacité, selon laquelle les images correspondent à des ensembles compacts dans l'espace des caractéristiques.

Par ensemble compact, nous entendons certains groupes de points dans l'espace image, en supposant qu'entre ces groupes il existe des raréfactions qui les séparent. Cependant, cette hypothèse n’a pas toujours pu être confirmée expérimentalement. Mais les tâches pour lesquelles l'hypothèse de compacité était bien remplie trouvaient toujours une solution simple, et vice versa, les tâches pour lesquelles l'hypothèse n'était pas confirmée n'étaient soit pas résolues du tout, soit étaient résolues avec beaucoup de difficulté et avec l'implication d'informations supplémentaires.

L'hypothèse de compacité elle-même est devenue un signe de la possibilité de résoudre de manière satisfaisante les problèmes de reconnaissance.

La formulation de l’hypothèse de compacité nous rapproche du concept d’image abstraite. Si les coordonnées de l'espace sont choisies au hasard, alors les images qu'il contient seront distribuées de manière aléatoire. Ils seront plus densément localisés dans certaines parties de l’espace que dans d’autres.

Appelons un espace sélectionné au hasard une image abstraite. Dans cet espace abstrait, il existera presque certainement des ensembles compacts de points. Par conséquent, conformément à l'hypothèse de compacité, l'ensemble d'objets auxquels correspondent des ensembles compacts de points dans un espace abstrait sont généralement appelés images abstraites d'un espace donné.

Formation et auto-apprentissage, adaptation et formation.

S'il était possible de remarquer une certaine propriété universelle qui ne dépend ni de la nature des images ni de leurs images, mais détermine uniquement la capacité à être séparée, alors, parallèlement à la tâche habituelle d'apprentissage de la reconnaissance à l'aide d'informations sur l'appartenance de chacun objet de la séquence d'entraînement à l'une ou l'autre image, il est possible de poser un problème de classification différent - ce qu'on appelle le problème d'apprentissage non supervisé.

Une tâche de ce type au niveau descriptif peut être formulée ainsi : le système est présenté simultanément ou séquentiellement des objets sans aucune indication de leur appartenance à des images. Le dispositif d'entrée du système mappe un ensemble d'objets sur un ensemble d'images et, en utilisant à l'avance une propriété de séparabilité d'image qui lui est inhérente, produit une classification indépendante de ces objets.

Après un tel processus d'auto-apprentissage, le système devrait acquérir la capacité de reconnaître non seulement des objets déjà familiers (objets de la séquence de formation), mais également ceux qui n'ont pas été présentés auparavant. Le processus d'auto-apprentissage d'un certain système est un processus à la suite duquel ce système, sans l'incitation d'un enseignant, acquiert la capacité de développer des réactions identiques aux images d'objets de la même image et des réactions différentes aux images d'images différentes. .

Le rôle de l'enseignant dans ce cas est uniquement de suggérer au système une propriété objective qui est la même pour toutes les images et détermine la capacité de diviser de nombreux objets en images.

Il s'avère qu'une telle propriété objective est la propriété de compacité des images. La position relative des points dans l'espace sélectionné contient déjà des informations sur la façon dont l'ensemble des points doit être divisé. Ces informations déterminent la propriété de séparabilité de l'image, qui est suffisante pour que le système apprenne automatiquement la reconnaissance d'image.

La plupart des algorithmes d'auto-apprentissage connus sont capables d'identifier uniquement des images abstraites, c'est-à-dire des ensembles compacts dans des espaces donnés. La différence entre eux réside dans la formalisation de la notion de compacité. Cependant, cela ne réduit pas, et parfois même augmente, la valeur des algorithmes d'auto-apprentissage, car souvent les images elles-mêmes ne sont définies à l'avance par personne, et la tâche consiste à déterminer quels sous-ensembles d'images dans un espace donné représentent des images.

Un exemple d'un tel énoncé de problème est la recherche sociologique, lorsque des groupes de personnes sont identifiés sur la base d'un ensemble de questions. Dans cette compréhension du problème, les algorithmes d’auto-apprentissage génèrent des informations jusqu’alors inconnues sur l’existence d’images dans un espace donné dont personne n’avait la moindre idée auparavant.

De plus, le résultat de l'auto-apprentissage caractérise l'adéquation de l'espace sélectionné à une tâche d'apprentissage de reconnaissance spécifique. Si les images abstraites identifiées dans l’espace d’auto-apprentissage coïncident avec des images réelles, alors l’espace a été bien choisi. Plus les images abstraites diffèrent des images réelles, plus l'espace choisi est peu pratique pour une tâche spécifique.

L'apprentissage est généralement appelé le processus de développement dans un certain système de l'une ou l'autre réaction à des groupes de signaux externes identiques par une influence répétée sur le système d'ajustements externes. Le mécanisme permettant de générer cet ajustement détermine presque entièrement l’algorithme d’apprentissage.

L'auto-apprentissage diffère de la formation en ce sens qu'aucune information supplémentaire sur l'exactitude de la réaction au système n'est fournie ici.

L'adaptation est le processus de modification des paramètres et de la structure du système, et éventuellement des actions de contrôle, sur la base des informations actuelles afin d'atteindre un certain état du système dans des conditions d'incertitude initiale et de conditions de fonctionnement changeantes.

L'apprentissage est un processus à la suite duquel le système acquiert progressivement la capacité de répondre par les réactions nécessaires à certains ensembles d'influences externes, et l'adaptation est l'ajustement des paramètres et de la structure du système afin d'atteindre la qualité de contrôle requise. face aux changements continus des conditions extérieures.


Systèmes de reconnaissance vocale.

La parole constitue le principal moyen de communication entre les personnes et la communication verbale est donc considérée comme l'un des composants les plus importants d'un système d'intelligence artificielle. La reconnaissance vocale est le processus de conversion d'un signal acoustique généré à la sortie d'un microphone ou d'un téléphone en une séquence de mots.

Une tâche plus difficile est la tâche de compréhension de la parole, qui consiste à identifier la signification d'un signal acoustique. Dans ce cas, la sortie du sous-système de reconnaissance vocale sert d'entrée au sous-système de compréhension d'énoncé. La reconnaissance automatique de la parole (systèmes ARR) est l'un des domaines des technologies de traitement du langage naturel.

La reconnaissance vocale automatique est utilisée pour automatiser la saisie de texte dans un ordinateur, lors de la génération de requêtes orales vers des bases de données ou des systèmes de recherche d'informations, lors de la génération de commandes verbales vers divers appareils intelligents.

Concepts de base des systèmes de reconnaissance vocale.

Les systèmes de reconnaissance vocale sont caractérisés par de nombreux paramètres.

L'un des principaux paramètres est l'erreur de reconnaissance de mots (WRO). Ce paramètre est le rapport entre le nombre de mots non reconnus et le nombre total de mots prononcés.

D'autres paramètres caractérisant les systèmes de reconnaissance vocale automatique sont :

1) taille du dictionnaire,

2) mode parole,

3) style de discours,

4) domaine,

5) dépendance au locuteur,

6) niveau de bruit acoustique,

7) qualité du canal d'entrée.

Selon la taille du dictionnaire, les systèmes APP sont divisés en trois groupes :

Avec une petite taille de dictionnaire (jusqu'à 100 mots),

Avec une taille de vocabulaire moyenne (de 100 mots à plusieurs milliers de mots),

Avec une grande taille de dictionnaire (plus de 10 000 mots).

Le mode parole caractérise la façon dont les mots et les phrases sont prononcés. Il existe des systèmes de reconnaissance de la parole continue et des systèmes permettant de reconnaître uniquement des mots isolés. Le mode de reconnaissance de mots isolés nécessite que le locuteur fasse une brève pause entre les mots.

Selon le style de parole, les systèmes APP sont divisés en deux groupes : les systèmes vocaux déterministes et les systèmes vocaux spontanés.

Dans les systèmes de reconnaissance vocale déterministes, le locuteur reproduit la parole en suivant les règles grammaticales de la langue. Le discours spontané se caractérise par des violations des règles grammaticales et est plus difficile à reconnaître.

Selon le domaine, on distingue les systèmes APP axés sur une application dans des domaines hautement spécialisés (par exemple, l'accès aux bases de données) et les systèmes APP avec un champ d'application illimité. Ces derniers nécessitent un vocabulaire étendu et doivent permettre la reconnaissance de la parole spontanée.

De nombreux systèmes de reconnaissance vocale automatique dépendent du locuteur. Cela implique de prérégler le système sur les caractéristiques de prononciation d'un locuteur particulier.

La complexité de résoudre le problème de la reconnaissance vocale s'explique par la grande variabilité des signaux acoustiques. Cette variabilité est due à plusieurs raisons :

Premièrement, par la mise en œuvre différente des phonèmes – les unités de base de la structure sonore d’une langue. La variabilité dans la mise en œuvre des phonèmes est causée par l'influence des sons voisins dans le flux vocal. Les nuances de réalisation des phonèmes déterminées par l'environnement sonore sont appelées allophones.

Deuxièmement, la position et les caractéristiques des récepteurs acoustiques.

Troisièmement, les changements dans les paramètres de parole d'un même locuteur, qui sont causés par un état émotionnel différent du locuteur et le rythme de son discours.

La figure montre les principaux composants du système de reconnaissance vocale :

Le signal vocal numérisé est envoyé à une unité de prétraitement, où sont extraites les caractéristiques nécessaires à la reconnaissance sonore. La reconnaissance sonore se fait souvent à l'aide de modèles de réseaux neuronaux artificiels. Les unités sonores sélectionnées sont ensuite utilisées pour rechercher une séquence de mots qui correspond le mieux au signal vocal d'entrée.

La recherche d'une séquence de mots s'effectue à l'aide de modèles acoustiques, lexicaux et linguistiques. Les paramètres du modèle sont déterminés à partir de données d'entraînement sur la base d'algorithmes d'apprentissage appropriés.

Synthèse vocale à partir d'un texte. Concepts de base

Dans de nombreux cas, la création de systèmes d’intelligence artificielle dotés d’éléments d’auto-communication nécessite la sortie de messages sous forme vocale. La figure montre un schéma fonctionnel d'un système de questions-réponses intelligent avec une interface vocale :

Image 1.

Suivez un morceau de conférences d'Oleg

Considérons les caractéristiques de l'approche empirique en utilisant l'exemple de la reconnaissance d'une partie du discours. La tâche consiste à attribuer des étiquettes aux mots de la phrase : nom, verbe, préposition, adjectif, etc. De plus, il est nécessaire de déterminer certaines caractéristiques supplémentaires des noms et des verbes. Par exemple, pour un nom – un nombre et pour un verbe – une forme. Formalisons le problème.

Imaginons une phrase comme une séquence de mots : W=w1 w2…wn, où wn sont des variables aléatoires dont chacune reçoit l'une des valeurs possibles appartenant au dictionnaire de langue. La séquence d'étiquettes attribuées aux mots d'une phrase peut être représentée par la séquence X=x1 x2 ... xn, où xn sont des variables aléatoires dont les valeurs sont déterminées sur l'ensemble des étiquettes possibles.

Ensuite, la tâche de la reconnaissance d'une partie du discours est de trouver la séquence la plus probable d'étiquettes x1, x2, ..., xn à partir d'une séquence donnée de mots w1, w2, ..., wn. En d’autres termes, il est nécessaire de trouver une séquence d’étiquettes X*=x1 x2 … xn qui fournit la probabilité conditionnelle maximale P(x1, x2, …, xn| w1 w2.. wn).

Réécrivons la probabilité conditionnelle P(X| W) sous la forme suivante P(X| W)=P(X,W) / P(W). Puisqu'il faut trouver le maximum de la probabilité conditionnelle P(X,W) pour la variable X, on obtient X*=arg x max P(X,W). La probabilité conjointe P(X,W) peut s'écrire comme un produit de probabilités conditionnelles : P(X,W)=produit de u-1 à n à partir de P(x i |x1,…,x i -1 , w1,…, wi -1 ) P(w je |x1,…,x je -1 , w1,…,w je -1). Rechercher directement le maximum d'une expression donnée est une tâche difficile, car pour de grandes valeurs de n, l'espace de recherche devient très grand. Par conséquent, les probabilités écrites dans ce produit sont approchées par des probabilités conditionnelles plus simples : P(x i |x i -1) P(w i |w i -1). Dans ce cas, on suppose que la valeur de l'étiquette x i est associée uniquement à l'étiquette précédente x i -1 et ne dépend pas des étiquettes antérieures, et également que la probabilité du mot w i est déterminée uniquement par l'étiquette actuelle x i . Ces hypothèses sont appelées hypothèses de Markov et pour résoudre le problème, la théorie des modèles de Markov est utilisée. En tenant compte des hypothèses de Markov, on peut écrire :

X*= arg x1, …, xn max P je =1 n P(x je |x je -1) P(wi|wi-1)

Où les probabilités conditionnelles sont estimées sur un ensemble de données d'entraînement

La recherche d'une séquence d'étiquettes X* est réalisée à l'aide de l'algorithme de programmation dynamique de Viterbi. L'algorithme de Viterbi peut être considéré comme une variante de l'algorithme de recherche sur un graphe d'état, où les sommets correspondent à des étiquettes de mots.

Il est caractéristique que pour tout sommet courant, l’ensemble des étiquettes enfants soit toujours le même. De plus, pour chaque sommet enfant, les ensembles de sommets parents coïncident également. Ceci s'explique par le fait que les transitions sont effectuées sur le graphe d'état en tenant compte de toutes les combinaisons possibles d'étiquettes. Les hypothèses de Markov simplifient considérablement le problème de la reconnaissance de parties du discours tout en maintenant une grande précision dans l'attribution d'étiquettes aux mots.

Ainsi, avec 200 étiquettes, la précision de l'affectation est d'environ 97 %. Pendant longtemps, l’analyse impériale a été réalisée à l’aide de grammaires stochastiques hors contexte. Cependant, ils présentent un inconvénient majeur. Cela réside dans le fait que différentes analyses grammaticales peuvent se voir attribuer les mêmes probabilités. Cela se produit parce que la probabilité d'analyse est représentée comme le produit des probabilités des règles impliquées dans l'analyse. Si, au cours de l'analyse, des règles différentes sont utilisées, caractérisées par les mêmes probabilités, cela donne lieu au problème indiqué. Les meilleurs résultats sont obtenus par une grammaire qui prend en compte le vocabulaire de la langue.

Dans ce cas, les règles incluent les informations lexicales nécessaires qui fournissent différentes valeurs de probabilité pour la même règle dans différents environnements lexicaux. L'analyse impériale ressemble plus à la reconnaissance de formes qu'à l'analyse traditionnelle dans son sens classique.

Des études comparatives ont montré que la précision de l'analyse impériale dans les applications en langage naturel est supérieure à celle de l'analyse traditionnelle.

Les systèmes vivants, y compris les humains, sont constamment confrontés au problème de la reconnaissance des formes depuis leur apparition. En particulier, les informations provenant des sens sont traitées par le cerveau, qui à son tour trie les informations, assure la prise de décision, puis, à l'aide d'impulsions électrochimiques, transmet le signal nécessaire, par exemple aux organes de mouvement qui mettent en œuvre le actions nécessaires. Ensuite, l’environnement change et les phénomènes ci-dessus se reproduisent. Et si l’on y regarde bien, chaque étape s’accompagne d’une reconnaissance.

Avec le développement de la technologie informatique, il est devenu possible de résoudre un certain nombre de problèmes qui surviennent au cours de la vie, de faciliter, d'accélérer et d'améliorer la qualité du résultat. Par exemple, le fonctionnement de divers systèmes de survie, l'interaction homme-machine, l'émergence de systèmes robotiques, etc. Cependant, on constate qu'il n'est actuellement pas possible de fournir un résultat satisfaisant dans certaines tâches (reconnaissance d'objets similaires se déplaçant rapidement , texte manuscrit).

Objectif du travail : étudier l'histoire des systèmes de reconnaissance d'images.

Indiquer les changements qualitatifs survenus dans le domaine de la reconnaissance de formes, tant théoriques que techniques, en indiquant les raisons ;

Discuter des méthodes et des principes utilisés en informatique ;

Donnez des exemples de perspectives attendues dans un avenir proche.

1. Qu’est-ce que la reconnaissance de formes ?

Les premières études en informatique suivaient principalement le schéma classique de la modélisation mathématique – modèle mathématique, algorithme et calcul. Il s'agissait de tâches de modélisation des processus se produisant lors d'explosions de bombes atomiques, de calcul de trajectoires balistiques, d'applications économiques et autres. Cependant, en plus des idées classiques de cette série, des méthodes basées sur une nature complètement différente sont apparues et, comme l'a montré la pratique de résolution de certains problèmes, elles ont souvent donné de meilleurs résultats que les solutions basées sur des modèles mathématiques trop compliqués. Leur idée était d'abandonner le désir de créer un modèle mathématique exhaustif de l'objet étudié (d'ailleurs, il était souvent presque impossible de construire des modèles adéquats), et de se contenter de la réponse uniquement à des questions spécifiques qui nous intéressent, et de chercher ces réponses à partir de considérations communes à une large classe de problèmes. Les recherches de ce type comprenaient la reconnaissance d'images visuelles, la prévision des rendements des cultures, des niveaux des rivières, la tâche de distinguer les pétrolifères et les aquifères sur la base de données géophysiques indirectes, etc. Une réponse spécifique à ces tâches était requise sous une forme assez simple, telle que , par exemple, si un objet appartient à l'une des classes préfixées. Et les données initiales de ces tâches, en règle générale, étaient fournies sous la forme d'informations fragmentaires sur les objets étudiés, par exemple sous la forme d'un ensemble d'objets pré-classés. D'un point de vue mathématique, cela signifie que la reconnaissance de formes (et c'est ainsi que cette classe de problèmes était appelée dans notre pays) est une généralisation poussée de l'idée d'extrapolation de fonctions.

L'importance d'une telle affirmation pour les sciences techniques ne fait aucun doute, et cela justifie à lui seul de nombreuses études dans ce domaine. Cependant, le problème de la reconnaissance des formes a également un aspect plus large pour les sciences naturelles (il serait cependant étrange que quelque chose d'aussi important pour les systèmes cybernétiques artificiels n'ait pas d'importance pour les systèmes naturels). Le contexte de cette science comprenait également de manière organique des questions posées par les philosophes anciens sur la nature de nos connaissances, notre capacité à reconnaître des images, des modèles et des situations dans le monde qui nous entoure. En fait, il ne fait aucun doute que les mécanismes permettant de reconnaître les images les plus simples, telles que les images d'un prédateur dangereux ou d'un aliment dangereux, ont été formés bien avant l'émergence du langage élémentaire et de l'appareil logique formel. Et il ne fait aucun doute que de tels mécanismes sont assez développés chez les animaux supérieurs, qui, également dans leurs activités vitales, ont un besoin urgent de la capacité de distinguer un système assez complexe de signes de la nature. Ainsi, dans la nature, nous voyons que le phénomène de la pensée et de la conscience repose clairement sur la capacité de reconnaître des images, et que les progrès ultérieurs de la science de l'intelligence sont directement liés à la profondeur de la compréhension des lois fondamentales de la reconnaissance. Comprenant que les problèmes ci-dessus vont bien au-delà de la définition standard de la reconnaissance de formes (dans la littérature anglophone, le terme d'apprentissage supervisé est plus courant), il est également nécessaire de comprendre qu'ils ont des liens profonds avec ce domaine relativement étroit (mais toujours loin d'être épuisé).

La reconnaissance de formes fait déjà désormais partie intégrante de la vie quotidienne et constitue l'une des connaissances les plus vitales d'un ingénieur moderne. En médecine, la reconnaissance de formes aide les médecins à établir des diagnostics plus précis ; dans les usines, elle est utilisée pour prédire les défauts dans des lots de marchandises. Les systèmes biométriques d'identification personnelle, comme leur noyau algorithmique, s'appuient également sur les résultats de cette discipline. La poursuite du développement de l'intelligence artificielle, en particulier la conception d'ordinateurs de cinquième génération capables de communiquer plus directement avec les humains dans des langages naturels et par la parole, est impensable sans reconnaissance. Nous sommes à deux pas de la robotique et des systèmes de contrôle artificiels qui contiennent des systèmes de reconnaissance comme sous-systèmes vitaux.

C'est pourquoi le développement de la reconnaissance de formes a dès le début attiré beaucoup d'attention de la part de spécialistes de profils variés - cybernéticiens, neurophysiologistes, psychologues, mathématiciens, économistes, etc. C’est en grande partie pour cette raison que la reconnaissance de formes moderne elle-même est alimentée par les idées de ces disciplines. Sans prétendre à l’exhaustivité (et il est impossible de le prétendre dans un court essai), nous décrirons l’histoire de la reconnaissance de formes et ses idées clés.

Définitions

Avant de passer aux principales méthodes de reconnaissance de formes, nous présentons plusieurs définitions nécessaires.

La reconnaissance de formes (objets, signaux, situations, phénomènes ou processus) consiste à identifier un objet ou à déterminer l'une de ses propriétés à partir de son image (reconnaissance optique) ou de son enregistrement audio (reconnaissance acoustique) et d'autres caractéristiques.

L’un des concepts fondamentaux est le concept d’ensemble, qui n’a pas de formulation spécifique. Dans un ordinateur, un ensemble est représenté comme un ensemble d’éléments non répétitifs du même type. Le mot « non répétitif » signifie qu'un élément de l'ensemble est présent ou absent. Un ensemble universel comprend tous les éléments possibles pour le problème à résoudre ; un ensemble vide n’en contient aucun.

Une image est un regroupement de classification dans un système de classification qui unit (met en évidence) un certain groupe d'objets selon un certain critère. Les images ont une propriété caractéristique, qui se manifeste dans le fait que la familiarisation avec un nombre fini de phénomènes d'un même ensemble permet de reconnaître un nombre arbitrairement grand de ses représentants. Les images ont des propriétés objectives caractéristiques dans le sens où différentes personnes, formées sur différents matériaux d'observation, classent pour la plupart les mêmes objets de la même manière et indépendamment les unes des autres. Dans la formulation classique du problème de reconnaissance, l’ensemble universel est divisé en parties d’image. Chaque cartographie d'un objet sur les organes perceptifs du système de reconnaissance, quelle que soit sa position par rapport à ces organes, est généralement appelée une image de l'objet, et des ensembles de telles images, unies par certaines propriétés communes, sont des images.

La méthode d'attribution d'un élément à n'importe quelle image est appelée règle décisive. Un autre concept important est celui de la métrique, un moyen de déterminer la distance entre les éléments d'un ensemble universel. Plus cette distance est petite, plus les objets (symboles, sons, etc.) sont similaires – ce que nous reconnaissons. En règle générale, les éléments sont spécifiés sous la forme d'un ensemble de nombres et la métrique est spécifiée sous la forme d'une fonction. L'efficacité du programme dépend du choix de la représentation de l'image et de la mise en œuvre des métriques ; un algorithme de reconnaissance avec différentes métriques fera des erreurs avec des fréquences différentes.

L'apprentissage est généralement appelé le processus de développement dans un certain système de l'une ou l'autre réaction à des groupes de signaux externes identiques par une influence répétée sur le système d'ajustements externes. De tels ajustements externes dans la formation sont généralement appelés « récompenses » et « punitions ». Le mécanisme permettant de générer cet ajustement détermine presque entièrement l’algorithme d’apprentissage. L'auto-apprentissage diffère de la formation en ce sens qu'aucune information supplémentaire sur l'exactitude de la réaction au système n'est fournie ici.

L'adaptation est le processus de modification des paramètres et de la structure du système, et éventuellement des actions de contrôle, sur la base des informations actuelles afin d'atteindre un certain état du système dans des conditions d'incertitude initiale et de conditions de fonctionnement changeantes.

L'apprentissage est un processus à la suite duquel le système acquiert progressivement la capacité de répondre par les réactions nécessaires à certains ensembles d'influences externes, et l'adaptation est l'ajustement des paramètres et de la structure du système afin d'atteindre la qualité de contrôle requise. face aux changements continus des conditions extérieures.

Exemples de tâches de reconnaissance de formes : - Reconnaissance de lettres ;