Indexage. Processus des moteurs de recherche

Le moteur de recherche Yandex répond aux questions des utilisateurs en trouvant documents nécessaires sur Internet. Et les tailles Internet moderne sont calculés en exaoctets, c'est-à-dire en milliards de milliards d'octets. Bien entendu, Yandex n'explore pas l'intégralité d'Internet à chaque fois qu'on lui pose une question. Le moteur de recherche fait pour ainsi dire ses devoirs.

La recherche sur Internet se compose de deux parties. La première est que le moteur de recherche explore Internet et en crée une copie sur ses serveurs. La seconde est que l'utilisateur définit une demande et reçoit une réponse des serveurs des moteurs de recherche.

Yandex recherche par index de recherche - une base de données où pour tous les mots qui se trouvent sur les sites connus par la recherche, leur emplacement est indiqué - l'adresse de la page et son emplacement. Un index peut être comparé à un index matière dans un livre ou un répertoire d'adresses. Contrairement à un index thématique classique, l'index contient non seulement des termes, mais tous les mots en général. Et contrairement à un répertoire d'adresses, chaque mot destinataire possède non pas un, mais plusieurs « lieux d'inscription ».

Préparation des réponses

Préparer les données à rechercher moteur de recherche, est appelé indexation. Spécial Système d'ordinateur- robot de recherche - explore régulièrement Internet, télécharge des documents et les traite. Une sorte d’instantané d’Internet est créé, qui est stocké sur les serveurs du moteur de recherche et mis à jour à chaque nouvelle exploration.

Yandex dispose de deux robots de recherche - le principal et le rapide (il s'appelle Orange). Le robot principal indexe Internet dans son ensemble et Orange se charge de veiller à ce que la recherche puisse retrouver les derniers documents apparus il y a quelques minutes, voire quelques secondes. Chaque robot dispose d'une liste d'adresses de documents qui doivent être indexées.

Lorsque, en explorant, le robot voit de nouveaux liens vers des sites déjà connus, il les ajoute à sa liste, augmentant ainsi le nombre de pages indexées. Cependant, le propriétaire du site lui-même peut aider le robot principal Yandex à trouver sa ressource et suggérer, par exemple, à quelle fréquence ses pages sont mises à jour - via le service Yandex.Webmaster.

Tout d'abord, le programme de planification construit un itinéraire - l'ordre dans lequel les documents sont parcourus. Parallèlement, le planificateur prend en compte les caractéristiques des sites importantes pour le moteur de recherche, comme par exemple les citations ou la fréquence de mise à jour des documents. Après avoir créé un itinéraire, le planificateur le donne à une autre partie robot de recherche- "araignée". L'araignée parcourt régulièrement les documents itinéraire donné. Si le site est en place, c'est-à-dire fonctionnel et accessible, l'araignée télécharge les documents prévus tout au long du parcours. Il détermine le type de document téléchargé (html, pdf, swf, etc.), l'encodage et la langue, puis envoie les données au stockage.

Là, le programme analyse le document brique par brique : le débarrasse du balisage HTML, laissant le texte propre, sélectionne les données sur l'emplacement de chaque mot et les ajoute à l'index. Le document lui-même dans sa forme originale reste également dans le stockage jusqu'à la prochaine analyse. Grâce à cela, les utilisateurs peuvent rechercher et visualiser des documents dans Yandex, même si le site est temporairement indisponible. Si le site est fermé ou si le document a été supprimé ou mis à jour, Yandex supprimera la copie de ses serveurs ou la remplacera par une nouvelle.

L'index de recherche, les données sur le type de document, l'encodage, la langue et les copies stockées des documents constituent ensemble la base de données de recherche. Elle est constamment mise à jour, mais pour que cette mise à jour soit disponible pour les utilisateurs, elle doit être transférée vers la « recherche de base ». Recherche de base - serveurs qui répondent aux requêtes des utilisateurs. Ce n'est pas toute la base de données de recherche qui y est transférée, mais seulement sa partie utile - sans spam, sites en double (miroirs) et autres documents inutiles.

Les mises à jour de la base de données de recherche à partir du stockage du robot principal sont incluses dans la recherche par « paquets » - une fois tous les quelques jours. Ce processus crée une charge supplémentaire sur les serveurs, il est donc effectué la nuit, lorsque beaucoup moins d'utilisateurs accèdent à Yandex. Tout d’abord, les nouvelles parties de la base sont placées à côté des mêmes parties de l’exploration précédente. Ils sont ensuite vérifiés par rapport à divers facteurs pour garantir que la mise à jour ne dégrade pas la qualité de la recherche. Si la vérification réussit, la nouvelle partie de la base de données remplace l'ancienne.

Le robot Orange est conçu pour la recherche en temps réel. Son planificateur et son araignée sont configurés pour trouver de nouveaux documents et sélectionner parmi un grand nombre tout ce qui est au moins quelque peu intéressant. Orange traite immédiatement chacun de ces documents et le télécharge dans la recherche de base. Il n'y a pas beaucoup de documents urgents par rapport au volume total d'Internet, la mise à jour de la base de données en temps réel peut donc se faire même lors des charges quotidiennes sur les serveurs.

Le système d'indexation (SI) est un ensemble de méthodes et d'outils permettant de traduire des textes du langage naturel vers FL conformément à un ensemble donné de dictionnaires d'unités lexicales et aux règles d'utilisation de FL.

Considérons la classification des systèmes d'indexation.

1. En fonction du degré d'automatisation du processus d'indexation, on distingue les systèmes suivants :

Indexation manuelle ;

Indexation automatique

Indexation automatisée.

2. En fonction du degré de contrôlabilité, on distingue les systèmes :

Sans dictionnaire ;

Avec un vocabulaire difficile ;

Avec un dictionnaire gratuit.

3. En fonction de la nature de l'algorithme de sélection des mots du texte, on distingue les systèmes suivants :

Avec visualisation séquentielle du texte (tous les mots pleins de sens sont sélectionnés) ;

Avec des procédures heuristiques de sélection de mots dans un texte (les mots sont sélectionnés intuitivement ou selon une procédure donnée) ;

Avec des procédures statistiques de sélection de mots (seuls les mots informatifs sont sélectionnés en fonction de la répartition des fréquences de leur utilisation).

Le processus d’indexation gratuite est le suivant. L'indexeur écrit des mots ou des phrases qui, à son avis, reflètent le contenu du texte. Il peut prendre des mots absents du texte, mais qui sont importants, de son point de vue, pour exprimer le sens du texte. La liste de mots sélectionnée est une image de recherche du document. Il s’agit d’un SI indexé manuellement.

Le processus d'indexation semi-libre est similaire à celui décrit ci-dessus, mais les mots pour AML sont extraits uniquement du dictionnaire.

Avec l'indexation dure, les mots sont extraits uniquement du texte.

Au début, l'indexation était réalisée par des spécialistes spécialement formés à Domaine, qui pourrait effectuer une analyse approfondie du contenu sémantique du document et l'attribuer (index) à certaines classes, rubriques et termes clés. Dans ce cas, les frais généraux étaient élevés, car il fallait des indexeurs hautement qualifiés parmi le personnel. De plus, le processus d'indexation était quelque peu subjectif. Par conséquent, la tâche d’automatiser l’indexation des documents s’est posée.

Il existe deux approches pour l'indexation automatique. La première est basée sur l'utilisation d'un dictionnaire mots clés et est utilisé dans les systèmes basés sur l'IPT. L'indexation dans de tels systèmes est effectuée par séquence recherche automatique Termes clés dans le texte du document. Un index représentant l'espace de recherche de documents est construit.

La deuxième approche de l'indexation automatique est utilisée dans systèmes de texte intégral. Au cours du processus d'indexation, des informations sur tous les mots du texte du document sont saisies dans l'index (d'où le nom « texte intégral »).

Qu’est-ce que l’indexation ? Il s'agit du processus par lequel un robot reçoit le contenu des pages de votre site et inclut ce contenu dans les résultats de recherche. Si l’on regarde les chiffres, la base de données du robot d’indexation contient des milliards d’adresses de pages de sites Web. Chaque jour, le robot demande des milliards de ces adresses.

Mais tout ce vaste processus d'indexation d'Internet peut être divisé en petites étapes :

Tout d’abord, le robot indexeur doit savoir qu’une page de votre site est apparue. Par exemple, en indexant d'autres pages sur Internet, en recherchant des liens ou en téléchargeant l'ensemble nemp. Nous avons pris connaissance de la page, après quoi nous prévoyons d'explorer cette page, d'envoyer des données à votre serveur pour demander cette page du site, de recevoir le contenu et de l'inclure dans les résultats de recherche.

L’ensemble de ce processus est le processus d’échange du robot d’indexation avec votre site Web. Si les requêtes envoyées par le robot d'indexation ne changent pratiquement pas et que seule l'adresse de la page change, alors la réponse de votre serveur à la requête de page du robot dépend de nombreux facteurs :

depuis les paramètres de votre CMS ;
à partir des paramètres de l'hébergeur ;
du travail du prestataire intermédiaire.

Cette réponse est en train de changer. Tout d'abord, lors de la demande d'une page, le robot de votre site reçoit la réponse de service suivante :

Ce sont des en-têtes HTTP. Ils contiennent diverses informations de service qui permettent au robot de comprendre quel contenu sera désormais transmis.

Je voudrais me concentrer sur le premier en-tête - il s'agit du code de réponse HTTP qui indique au robot d'indexation l'état de la page demandée par le robot.

Il existe plusieurs dizaines de ces statuts de code HTTP :

Je vais vous parler des plus populaires. Le code de réponse le plus courant est HTTP-200. La page est disponible, elle peut être indexée, incluse dans les résultats de recherche, tout va bien.

L'opposé de ce statut est HTTP-404. La page n'est pas sur le site, il n'y a rien à indexer et il n'y a rien à inclure dans la recherche. Lors de la modification de la structure des sites et du changement d'adresse pages internes Nous vous recommandons de configurer un serveur 301 pour les redirections. Il fera simplement remarquer au robot que ancienne page déménagé à nouvelle adresse et doit être inclus dans Résultats de recherche exactement la nouvelle adresse.

Si le contenu de la page n'a pas changé depuis derniere visite pages par robot, il est préférable de renvoyer le code HTTP-304. Le robot comprendra qu’il n’est pas nécessaire de mettre à jour les pages dans les résultats de recherche et que le contenu ne sera pas non plus transféré.

Si votre site n'est disponible que pendant une courte période, par exemple lors d'un travail sur le serveur, il est préférable de configurer HTTP-503. Il indiquera au robot que le site et le serveur sont actuellement indisponibles, il faudra y revenir un peu plus tard. En cas d'indisponibilité de courte durée, cela évitera que des pages soient exclues des résultats de recherche.

En plus de ces codes HTTP et statuts de page, vous devez également obtenir directement le contenu de la page elle-même. Si pour un visiteur régulier la page ressemble à ceci :

ce sont des images, du texte, de la navigation, tout est très beau, alors pour le robot indexeur n'importe quelle page n'est qu'un ensemble de code source, du code HTML :

Diverses balises méta, contenu textuel, liens, scripts, de nombreuses informations de toutes sortes. Le robot le collecte et l'inclut dans les résultats de recherche. Il semble que tout soit simple : ils ont demandé une page, reçu le statut, reçu le contenu et l'ont inclus dans la recherche.

Mais ce n’est pas pour rien que le service de recherche Yandex reçoit plus de 500 lettres de webmasters et de propriétaires de sites indiquant que certains problèmes sont survenus avec la réponse du serveur.

Tous ces problèmes peuvent être divisés en deux parties :

Il s'agit de problèmes avec le code de réponse HTTP et de problèmes avec le code HTML, avec le contenu direct des pages. Ces problèmes peuvent avoir de très nombreuses raisons. Le plus courant est que le robot d’indexation soit bloqué par l’hébergeur.

Par exemple, vous avez lancé un site Web, ajouté nouvelle rubrique. Le robot commence à visiter votre site plus souvent, augmentant ainsi la charge sur le serveur. L'hébergeur le voit sur sa surveillance, bloque le robot d'indexation et le robot ne peut donc pas accéder à votre site. Vous accédez à votre ressource - tout va bien, tout fonctionne, les pages sont belles, tout s'ouvre, tout va bien, mais le robot ne peut pas indexer le site. Si le site est temporairement indisponible, par exemple si vous avez oublié de payer Nom de domaine, le site est indisponible depuis plusieurs jours. Le robot arrive sur le site, il est inaccessible, dans de telles conditions il peut disparaître littéralement des résultats de recherche au bout d'un certain temps.

Des paramètres CMS incorrects, par exemple lors de la mise à jour ou du passage à un autre CMS, lors de la mise à jour du design, peuvent également entraîner la disparition de pages de votre site des résultats de recherche si les paramètres sont incorrects. Par exemple, la présence d'une balise méta d'interdiction dans code source pages du site, réglage incorrect attribut canonique. Assurez-vous qu'après toutes les modifications que vous apportez au site, les pages sont accessibles au robot.

L'outil Yandex vous y aidera. Au webmaster pour vérifier la réponse du serveur :

Vous pouvez voir quels en-têtes HTTP votre serveur renvoie au robot et le contenu des pages elles-mêmes.

La section « indexation » contient des statistiques où vous pouvez voir quelles pages sont exclues, la dynamique d'évolution de ces indicateurs, et effectuer divers tris et filtrages.

D’ailleurs, j’ai déjà parlé de cette section aujourd’hui, la section « diagnostics du site ». Si votre site devient indisponible pour un robot, vous recevrez une notification et des recommandations correspondantes. Comment cela peut-il être résolu ? Si aucun problème de ce type ne survient, que le site est accessible, répond aux codes 200 et contient un contenu correct, alors le robot commence mode automatique visiter toutes les pages qu'il reconnaît. Cela n’entraîne pas toujours les conséquences souhaitées, c’est pourquoi les activités du robot peuvent être limitées d’une certaine manière. Il existe un fichier robots.txt pour cela. Nous en parlerons dans la section suivante.

Robots.txt

Le fichier robots.txt lui-même est petit Document texte, il se trouve dans le dossier racine du site et contient des règles strictes pour le robot d'indexation qui doivent être respectées lors de l'exploration du site. Les avantages du fichier robots.txt sont que vous n’avez besoin d’aucune connaissance particulière ou spécialisée pour l’utiliser.

Tout ce que vous avez à faire est d'ouvrir le Bloc-notes, de saisir certaines règles de format, puis de simplement enregistrer le fichier sur le serveur. En une journée, le robot commence à utiliser ces règles.

Si nous prenons un exemple de simple fichier robots.txt, le voici, juste sur la diapositive suivante :

La directive « User-Agent : » montre à quels robots la règle est destinée, en autorisant/refusant les directives et les directives auxiliaires Sitemap et Host. Un peu de théorie, j'aimerais passer à la pratique.

Il y a quelques mois, je voulais acheter un podomètre, alors je me suis tourné vers Yandex. Marché d'aide au choix. Déplacé de la page principale de Yandex vers Yandex. Marché et arrivé à page d'accueil service.

Ci-dessous vous pouvez voir l'adresse de la page à laquelle je suis allé. L'adresse du service lui-même a également ajouté mon identifiant en tant qu'utilisateur sur le site.

Puis je suis allé dans la rubrique « catalogue »

J'ai sélectionné la sous-section souhaitée et configuré les paramètres de tri, le prix, le filtre, la manière de trier et le fabricant.

J'ai reçu une liste de produits et l'adresse de la page a déjà augmenté.

Je suis allé sur le produit souhaité, j'ai cliqué sur le bouton « Ajouter au panier » et j'ai continué le paiement.

Au cours de mon court voyage, les adresses des pages ont changé d'une certaine manière.

Des paramètres de service y ont été ajoutés, qui m'identifiaient en tant qu'utilisateur, établissaient un tri et indiquaient au propriétaire du site d'où je venais sur telle ou telle page du site.

Je pense que de telles pages, pages de service, ne seront pas très intéressantes pour les utilisateurs des moteurs de recherche. Mais s’ils sont disponibles pour le robot indexeur, ils peuvent être inclus dans la recherche, puisque le robot se comporte essentiellement comme un utilisateur.

Il accède à une page, voit un lien sur lequel il peut cliquer, y accède, charge les données dans la base de données de son robot et continue cette exploration de l'ensemble du site. Cette catégorie de telles adresses comprend également les données personnelles des utilisateurs, telles que les informations de livraison ou les coordonnées des utilisateurs.

Naturellement, il vaut mieux les interdire. C’est exactement pour cela que le fichier robots.txt vous aidera. Vous pouvez aller sur votre site ce soir à la fin du Webmaster, cliquer, et voir quelles pages sont réellement disponibles.

Afin de vérifier le fichier robots.txt, il existe un outil spécial dans Webmaster :

Vous pouvez télécharger, saisir les adresses des pages, voir si elles sont accessibles au robot ou non.

Apportez quelques modifications, voyez comment le robot réagit à ces changements.

Erreurs lors de l'utilisation de robots.txt

En plus d'un tel effet positif - la fermeture des pages de service, robots.txt peut jouer une blague cruelle s'il est mal géré.

Premièrement, le problème le plus courant lors de l'utilisation de robots.txt est la fermeture des pages du site vraiment nécessaires, celles qui doivent être dans la recherche et affichées pour les requêtes. Avant d'apporter des modifications au fichier robots.txt, assurez-vous de vérifier si la page que vous souhaitez fermer apparaît pour les requêtes de recherche. Peut-être qu'une page avec certains paramètres se trouve dans les résultats de recherche et que les visiteurs y accèdent via la recherche. Par conséquent, assurez-vous de vérifier avant d’utiliser et d’apporter des modifications au fichier robots.txt.

Deuxièmement, si votre site utilise des adresses cyrilliques, vous ne pourrez pas les indiquer directement dans robots.txt ; elles doivent être encodées. Étant donné que robots.txt est une norme internationale que suivent tous les robots d'indexation, ils devront certainement être codés. Il n'est pas possible de spécifier explicitement l'alphabet cyrillique.

Le troisième problème le plus courant concerne les règles différentes pour différents robots de différentes moteurs de recherche. Pour un robot d'indexation, toutes les pages d'indexation étaient fermées, pour le second, rien n'était fermé du tout. En conséquence, tout va bien dans un seul moteur de recherche, dans la recherche page souhaitée, et dans un autre moteur de recherche, il peut y avoir des déchets, diverses pages inutiles et autre chose. Assurez-vous que si vous définissez une interdiction, cela doit être fait pour tous les robots d'indexation.

Le quatrième problème le plus courant est l’utilisation de la directive Crawl-delay lorsqu’elle n’est pas nécessaire. Cette directive permet d'influencer la pureté des requêtes du robot d'indexation. Ceci est un exemple pratique, un petit site web, placé sur un petit hébergement, tout va bien. Nous avons ajouté un grand catalogue, le robot est venu, a vu un tas de nouvelles pages, a commencé à accéder au site plus souvent, a augmenté la charge, l'a téléchargé et le site est devenu inaccessible. On définit la directive Crawl-delay, le robot le voit, réduit la charge, tout va bien, le site fonctionne, tout est parfaitement indexé, c'est dans les résultats de recherche. Après un certain temps, le site s'agrandit encore et est transféré vers un nouvel hébergement prêt à répondre à ces demandes, avec gros montant demandes, et ils oublient de supprimer la directive Crawl-delay. De ce fait, le robot comprend que de nombreuses pages sont apparues sur votre site, mais ne peut pas les indexer simplement à cause de la directive établie. Si vous avez déjà utilisé la directive Crawl-delay, assurez-vous qu'elle n'est pas là maintenant et que votre service est prêt à gérer la charge du robot d'indexation.

En plus de la fonctionnalité décrite, le fichier robots.txt vous permet de résoudre deux tâches très importantes : éliminer les doublons sur le site et indiquer l'adresse du miroir principal. C’est exactement ce dont nous parlerons dans la section suivante.

Double

Par doublons, nous entendons plusieurs pages d’un même site qui contiennent un contenu absolument identique. L'exemple le plus courant est celui des pages avec et sans barre oblique à la fin de l'adresse. En outre, un doublon peut être compris comme le même produit dans différentes catégories.

Par exemple, les patins à roulettes peuvent être destinés aux filles, pour les garçons, le même modèle peut être en deux sections à la fois. Et troisièmement, ce sont des pages avec un paramètre insignifiant. Comme dans l'exemple avec Yandex. Le marché définit cette page comme un « identifiant de session » ; ce paramètre ne modifie en principe pas le contenu de la page.

Pour détecter les doublons et voir à quelles pages le robot accède, vous pouvez utiliser Yandex. Webmestre.

En plus des statistiques, il existe également des adresses de pages téléchargées par le robot. Vous voyez le code et le dernier appel.

Problèmes causés par les duplications

Qu'y a-t-il de si mauvais dans les doubles ?

Premièrement, le robot commence à accéder à des pages absolument identiques du site, ce qui crée une charge supplémentaire non seulement sur votre serveur, mais affecte également l'exploration du site dans son ensemble. Le robot commence à prêter attention aux pages en double, et non aux pages qui doivent être indexées et incluses dans les résultats de recherche.

Le deuxième problème est que les pages en double, si elles sont accessibles au robot, peuvent se retrouver dans les résultats de recherche et entrer en concurrence avec les pages principales pour les requêtes, ce qui, naturellement, peut affecter négativement le site trouvé pour certaines requêtes.

Comment gérer les doublons ?

Tout d’abord, je recommande d’utiliser la balise « canonique » afin de pointer le robot vers le robot principal, page canonique, qui doit être indexé et recherché pour les requêtes.

Dans le second cas, vous pouvez utiliser une redirection de serveur 301, par exemple, pour les situations avec une barre oblique à la fin de l'adresse et sans barre oblique. Nous mettons en place une redirection - il n'y a pas de doublons.

Et troisièmement, comme je l'ai déjà dit, il s'agit du fichier robots.txt. Vous pouvez utiliser à la fois les directives de refus et la directive Clean-param pour supprimer les paramètres insignifiants.

Miroirs de sites

La deuxième tâche que robots.txt vous permet de résoudre est de pointer le robot vers l'adresse du miroir principal.

Les miroirs sont un groupe de sites absolument identiques, comme les doublons, seuls les deux sites sont différents. Les webmasters rencontrent généralement des miroirs dans deux cas : lorsqu'ils souhaitent passer à un nouveau domaine ou lorsqu'un utilisateur doit mettre à disposition plusieurs adresses de sites Web.

Par exemple, vous savez que lorsque les utilisateurs saisissent votre adresse ou l'adresse de votre site Web dans la barre d'adresse, ils font souvent la même erreur : ils orthographent mal, mettent le mauvais caractère ou autre chose. Vous pouvez acheter un domaine supplémentaire afin de montrer aux utilisateurs non pas un talon du fournisseur d'hébergement, mais le site auquel ils voulaient vraiment accéder.

Concentrons-nous sur le premier point, car c'est avec cela que les problèmes surviennent le plus souvent lorsque l'on travaille avec des miroirs.

Je vous conseille d'effectuer l'ensemble du processus de déménagement selon les instructions suivantes. Une petite consigne qui vous permettra d'éviter divers problèmes lors d'un changement de nom de domaine :

Tout d'abord, vous devez rendre les sites accessibles au robot d'indexation et y placer un contenu absolument identique. Assurez-vous également que le robot connaît l'existence des sites. Le moyen le plus simple est de les ajouter à Yandex. Webmaster et confirmer les droits sur eux.

Deuxièmement, avec l'aide Directives de l'hôte pointez le robot vers l'adresse du miroir principal - celui qui doit être indexé et apparaître dans les résultats de recherche.

Nous attendons le collage et le transfert de tous les indicateurs de l'ancien site vers le nouveau.

Après quoi, vous pouvez configurer la redirection de l’ancienne adresse vers la nouvelle. Une instruction simple, si vous déménagez, veillez à l'utiliser. J'espère qu'il n'y aura pas de problèmes avec
en mouvement.

Mais naturellement, des erreurs surviennent lorsque l’on travaille avec des miroirs.

Tout d'abord, le plus le problème principal– c’est l’absence d’instructions explicites pour le robot indexeur vers l’adresse du miroir principal, l’adresse qui devrait être dans la recherche. Vérifiez sur vos sites qu'ils ont une directive hôte dans leur robots.txt, et qu'elle pointe exactement vers l'adresse que vous souhaitez voir dans la recherche.

Le deuxième problème le plus courant consiste à utiliser la redirection pour modifier le miroir principal dans un groupe de miroirs existant. Ce qui se passe? L'ancienne adresse, puisqu'elle redirige, n'est pas indexée par le robot et est exclue des résultats de recherche. Dans ce cas, le nouveau site n’apparaît pas dans la recherche, puisqu’il ne s’agit pas du miroir principal. Vous perdez du trafic, vous perdez des visiteurs, je pense que personne n’en a besoin.

Et le troisième problème est l'inaccessibilité de l'un des rétroviseurs lors du déplacement. L’exemple le plus courant dans cette situation est celui où ils ont copié le contenu du site vers une nouvelle adresse, mais que l’ancienne adresse a simplement été désactivée, ils n’ont pas payé pour le nom de domaine et celui-ci est devenu indisponible. Bien entendu, ces sites ne seront pas fusionnés, ils doivent être accessibles au robot d'indexation.

Liens utiles dans le travail :

Plus informations utiles vous trouverez dans le service Yandex.Help.
Tous les outils dont j'ai parlé et bien plus encore - il existe une version bêta de Yandex.Webmaster.

Réponses aux questions

"Merci pour le rapport. Est-il nécessaire de désactiver l'indexation des fichiers CSS du robot dans robots.txt ou non ?

Nous ne recommandons pas de les fermer pour le moment. Oui, il est préférable de laisser CSS et JavaScript, car nous travaillons maintenant pour garantir que le robot d'indexation commence à reconnaître à la fois les scripts et les styles de votre site, et à voir comment le visiteur se comporte à partir d'un navigateur classique.

« Dites-moi, si les URL des sites sont les mêmes pour l'ancien et le nouveau, est-ce normal ? »

C'est bon. Fondamentalement, vous mettez simplement à jour le design, ajoutez du contenu.

« Le site a une catégorie et il est composé de plusieurs pages : slash, page1, page2, jusqu'à 10 par exemple. Toutes les pages ont le même texte de catégorie, et il s'avère qu'il s'agit d'un double. Ce texte sera-t-il un doublon ou doit-il être fermé d'une manière ou d'une autre, avec un nouvel index sur la deuxième page et les suivantes ?

Tout d’abord, la pagination de la première page et le contenu de la deuxième page étant généralement différents, il ne s’agira pas de doublons. Mais vous devez vous attendre à ce que les deuxième, troisième et suivantes pages de pagination puissent entrer dans la recherche et s'afficher pour une raison quelconque. demande pertinente. Mieux dans les pages de pagination, je recommanderais d'utiliser l'attribut canonique, au plus près le meilleur cas de scenario– sur la page sur laquelle tous les produits sont collectés afin que le robot n’inclue pas les pages de pagination dans la recherche. Les gens utilisent très souvent canonique sur la première page de la pagination. Le robot arrive à la deuxième page, voit le produit, voit le texte, n'inclut pas la page dans la recherche et comprend grâce à l'attribut que c'est la première page de pagination qui doit être incluse dans les résultats de recherche. Utilisez canonique et fermez le texte lui-même, je pense que ce n'est pas nécessaire.

Source (vidéo) : Comment configurer l'indexation du site- Alexandre Smirnov

Magomed Tcherbizhev

Types de systèmes d'indexation. Analyse morphologique et normalisation des concepts.

L'indexation est le processus de traduction de textes d'une langue naturelle vers une langue étrangère. L'indexation est basée sur un ensemble d'instructions qui décrivent en détail le processus d'indexation et représentent un ensemble de règles, y compris les règles d'utilisation du FP.

Le système d'indexation (SI) est un ensemble de méthodes et d'outils permettant de traduire des textes d'une langue naturelle vers une langue étrangère conformément à un ensemble donné de dictionnaires d'unités lexicales et aux règles d'utilisation de la NL. En plus des règles d'utilisation de l'IPL, le système d'indexation peut comprendre une grande variété d'instructions, de réglementations, de méthodes, etc., réglementant certaines étapes du processus d'indexation.

Systèmes existants les systèmes d’indexation sont très différents les uns des autres et il est impossible de décrire leur composition et leur structure générales. Cependant, la présence de traits communs permet de donner une idée systématique des classes de systèmes d'indexation.

Considérons la typologie des systèmes d'indexation selon les cinq raisons les plus importantes (Fig. 5.1).

1. Mais le degré d'automatisation du processus d'indexation se distingue

Indexation manuelle ;

Indexation automatique ;

Indexation automatisée.

2. En fonction du degré de contrôlabilité, on distingue les systèmes :

Sans dictionnaire ;

Avec un vocabulaire difficile ;

Avec un dictionnaire gratuit.

3. En fonction de la nature de l'algorithme de sélection des mots du texte, on distingue les systèmes suivants :

Avec visualisation séquentielle du texte (tous les mots pleins de sens sont sélectionnés) ;

Procédures heuristiques de sélection de mots dans un texte (les mots sont sélectionnés intuitivement ou selon une procédure donnée) :

Avec des procédures statistiques de sélection de mots (seuls les mots informatifs sont sélectionnés en fonction de la répartition des fréquences de leur utilisation).

4. En fonction de la nature du contrôle lexicographique, on distingue les systèmes :

Pas de contrôle lexicographique ;

AVEC controle total;

Avec contrôle intermédiaire.

Le contrôle lexicographique prévoit :

Élimination de la synonymie, de la polysémie et de l'homonymie sur la base de dictionnaires normatifs d'unités lexicales avec des relations paradigmatiques entre elles ;

Normalisation des mots basée sur des dictionnaires normatifs morphologiques.

Les systèmes de contrôle complet mettent en œuvre les deux fonctions de contrôle lexographique. Dans les systèmes d'indexation à commande intermédiaire, ces fonctions sont partiellement mises en œuvre.

Riz. 5.1. Types de systèmes d'indexation

5. En fonction de la nature de l'analyse morphologique des mots, on distingue les systèmes :

Utiliser des dictionnaires morphologiques ;

Utiliser des dictionnaires lexicaux de base ;

Utilisation de l'analyse morphologique avec troncature de mots.

Des systèmes d'indexation sans analyse morphologique sont possibles.

Exemples de systèmes d'indexation :

1) Processus d’indexation gratuit est comme suit. L'indexeur écrit des mots ou des phrases qui, à son avis, reflètent le contenu du texte. Il peut prendre des mots absents du texte, mais qui sont importants, de son point de vue, pour exprimer le sens du texte. La liste de mots sélectionnée est une image de recherche du document. Il s'agit de systèmes d'indexation avec indexation manuelle, sans dictionnaire, avec procédures heuristiques de sélection de mots, sans contrôle lexigraphique ni analyse morphologique.

2) Processus indexation semi-libre similaire à celui décrit ci-dessus, mais les mots de la liste générée sont corrélés avec le dictionnaire, les mots qui ne correspondent pas sont rejetés dans le POD et ne sont pas inclus.

3) À indexation dure les mots sont tirés uniquement du texte. Le POD inclut uniquement les mots présents dans le dictionnaire. Avant d'inclure un terme dans le dictionnaire, sa normalisation morphologique est réalisée sur la base des principaux dictionnaires lexicaux.

4) À autocodage statique les mots sont sélectionnés dans le texte à l'aide de procédures statistiques spécifiées, après quoi ils sont codés statistiquement par troncature de mots à l'aide d'algorithmes de statistiques de position.

Il existe un certain nombre d'autres systèmes d'indexation.

Au début, l'indexation était réalisée par des experts spécialement formés qui pouvaient effectuer une analyse approfondie du contenu sémantique d'un document et l'attribuer (index) à certaines classes, rubriques et termes clés. Dans ce cas, les frais généraux étaient élevés, car il fallait des indexeurs hautement qualifiés parmi le personnel. De plus, le processus d'indexation était quelque peu subjectif. Par conséquent, la tâche d’automatiser l’indexation des documents s’est posée.

Il existe deux approches pour l'indexation automatique. La première est basée sur l’utilisation d’un dictionnaire de mots-clés et est utilisée dans les systèmes basés sur l’IPT. L'indexation dans de tels systèmes est effectuée par recherche automatique séquentielle de termes clés dans le texte du document. Un index représentant l'espace de recherche de documents est construit. Il existe deux types possibles d'un tel index : direct et inversé.

Le type d'index direct est construit selon le schéma de termes de document. L'espace de recherche dans CE cas est représenté comme une matrice de dimension nxm. Les lignes de cette matrice représentent des images de recherche de documents.

L'index de type inversé est construit selon le schéma inverse - « termes-documents ». L'espace de recherche est donc représenté par une matrice similaire, uniquement sous forme transposée. Dans ce cas, les images de recherche des documents sont les colonnes de la matrice.

La deuxième approche de l'indexation automatique est utilisée dans les systèmes de texte intégral. Au cours du processus d'indexation, des informations sur tous les mots du texte du document sont saisies dans l'index (d'où le nom « texte intégral »).

Analyse morphologique et normalisation des concepts. Les principales étapes du processus d'indexation consistent en la sélection de concepts textuels qui reflètent son contenu sémantique principal, ainsi qu'en l'analyse morphologique et le contrôle lexographique des concepts sélectionnés et de leur codage.

La procédure de sélection des concepts informatifs d'un texte est similaire aux processus de sélection de concepts lors de la construction de dictionnaires d'unités lexicales de base, abordés dans la rubrique précédente.

Examinons plus en détail l'essence des procédures d'analyse morphologique, de contrôle lexicographique et de codage des concepts lors de l'utilisation divers types dictionnaires.

La procédure d'analyse morphologique à l'aide de dictionnaires morphologiques consiste à :

1) pour déterminer la classe grammaticale générale d'un mot et de ses membres en radicaux et terminaisons (selon les dictionnaires de radicaux et de terminaisons) ;

2) dans l'identification du genre des noms (sur la base des bases des mots) ;

3) en identifiant le numéro de la classe flexionnelle des mots (par classe grammaticale généralisée, genre, terminaison, combinaisons de lettres finales du radical) ;

4) pour déterminer le numéro d'un ensemble d'informations grammaticales pour un mot.

Le résultat de cette analyse est un mot normalisé et le numéro de son ensemble d'informations grammaticales.

Les mots normalisés sont codés en les remplaçant par des codes de lettres ou des codes de mots. Dans le premier cas, chaque lettre est remplacée par son code correspondant (selon le dictionnaire des codes de lettres). Dans le second cas, les mots sont identifiés selon un dictionnaire d'unités lexicales et remplacés par leurs numéros ou codes dictionnaires.

Le décodage des mots, effectué lors de l'émission des résultats de recherche, consiste à former la lettre code du mot (puis du mot lui-même) en fonction du numéro ou code de sa partie normalisée et du numéro de l'information grammaticale correspondante.

Lors de l'utilisation de phrases, la procédure d'analyse morphologique devient beaucoup plus compliquée, notamment :

1. Identification des mots d'une phrase avec des éléments d'un dictionnaire de mots. En les remplaçant par des nombres selon le dictionnaire, accompagnés d'informations grammaticales.

2. Identification de la structure grammaticale de la phrase dans son ensemble - analyse(basé sur les informations grammaticales des mots de la phrase).

3. Recherchez dans le dictionnaire le numéro d'une phrase correspondant à une combinaison donnée de numéros de mots et la structure grammaticale de la phrase codée.

4. Sélection dans le dictionnaire par le numéro de la phrase du numéro correspondant de la structure grammaticale et de la structure elle-même. Comparaison de la structure grammaticale sélectionnée avec la structure grammaticale de la phrase codée obtenue à la deuxième étape. Si les structures coïncident, alors les concepts sont identiques. La phrase analysée est remplacée par son numéro ou code correspondant. Les deux dernières étapes sont des étapes d'analyse sémantique.

Le décodage des phrases est :

1) sélection dans le dictionnaire en fonction du numéro de la phrase de l'ensemble correspondant de numéros de mots et du numéro de la structure grammaticale ;

2) extraire des informations sur les formes des mots et leurs connexions, restaurer l'ordre des mots dans une phrase (selon la structure grammaticale) ;

3) formation du code des lettres de la phrase et de la combinaison elle-même.

L'analyse morphologique à partir de dictionnaires d'unités lexicales de base comprend 2 étapes : la comparaison d'un mot avec un dictionnaire (identification et détermination du numéro d'un concept correspondant) et l'identification du numéro d'un ensemble de concepts s'effectue à l'aide d'une lettre code ou d'un concept codes (selon le dictionnaire).

IPS utilise largement l'analyse morphologique par troncature de mots. Dans ce cas, ils sont utilisés diverses procédures troncature :

a) à l'aide de dictionnaires (bases, terminaisons, etc.) ;

b) sans utiliser de dictionnaires (selon les règles a priori les plus simples) ;

c) troncature statistique des mots à l'aide de l'appareil de statistiques de position.

Dans le cas a), les procédures d'analyse morphologique, d'encodage et de décodage sont les mêmes que lors de l'utilisation de dictionnaires morphologiques. Dans le cas b), le début et/ou la fin des mots sont tronqués selon certaines règles. Les parties tronquées des mots sont codées à l’aide de codes de lettres. Il n'y a pas de décodage. Dans le cas c) lors de la troncature des mots, des appareils et des dictionnaires de statistiques de position sont utilisés. Les mots sont codés à l'aide de codes de lettres et il n'y a pas non plus de décodage.

Lorsque les mots sont tronqués, seules leur normalisation et leur analyse non morphologique sont effectuées.

Questions de contrôle

1. Quel est le rôle et la place du système d'indexation dans le cadre des outils logico-sémantiques qui assurent la création et le fonctionnement d'un système automatisé de recherche d'informations ?

2. Donnez des exemples de systèmes d'indexation.

3. Selon quels critères typologiques les systèmes d'indexation peuvent-ils être divisés ?

4. Quelle est l'essence de la procédure d'analyse morphologique, de contrôle lexicographique et de codage des concepts lors de l'utilisation de divers types de dictionnaires dans le processus d'indexation ?

Systèmes d'indexation

Considérons la classification des systèmes d'indexation.

1. En fonction du degré d'automatisation du processus d'indexation, on distingue les systèmes suivants :

Indexation manuelle ;

Indexation automatique ;

Indexation automatisée.

2. En fonction du degré de contrôlabilité, on distingue les systèmes :

Sans dictionnaire ;

Avec un vocabulaire difficile ;

Avec un dictionnaire gratuit.

3. En fonction de la nature de l'algorithme de sélection des mots du texte, on distingue les systèmes suivants :

Avec visualisation séquentielle du texte (tous les mots pleins de sens sont sélectionnés) ;

Avec des procédures heuristiques de sélection de mots dans un texte (les mots sont sélectionnés intuitivement ou selon une procédure donnée) ;

Avec des procédures statistiques de sélection de mots (sélectionnés
uniquement des mots informatifs en fonction de la répartition des fréquences de leur utilisation).

4. Selon la nature du contrôle lexicographique, on distingue les systèmes suivants :

Pas de contrôle lexicographique ;

Avec un contrôle total ;

Avec contrôle intermédiaire.

Le contrôle lexicographique prévoit :

Élimination de la synonymie, de la polysémie et de l'homonymie sur la base de dictionnaires normatifs d'unités lexicales avec des relations paradigmatiques entre elles ;

Normalisation des mots basée sur des normes morphologiques
dictionnaires.

5. En fonction de la nature de l'analyse morphologique des mots, on distingue les systèmes :

Utiliser des dictionnaires morphologiques ;

Utiliser des dictionnaires lexicaux de base ;

Utilisation de l'analyse morphologique avec troncature de mots.

Des systèmes d'indexation sans analyse morphologique sont possibles.

Le processus d'indexation semi-libre est similaire à celui décrit ci-dessus, mais les mots pour AML sont extraits uniquement du dictionnaire.

Avec l'indexation dure, les mots sont extraits uniquement du texte.

Le type d'index direct est construit selon le schéma de termes de document. L'espace de recherche dans ce cas est représenté comme une matrice de dimension nxm. Les lignes de cette matrice représentent des images de recherche de documents.

Site sur l'informatique

Robots.txt

Erreurs lors de l'utilisation de robots.txt

Double

Problèmes causés par les duplications

Comment gérer les doublons ?

Miroirs de sites

Liens utiles dans le travail :

Réponses aux questions

Systèmes d'indexation

ARTICLES LIÉS