Robots des moteurs de recherche

Certains robots peuvent se déguiser en robots Yandex en indiquant l'agent utilisateur correspondant. Vous pouvez vérifier l'authenticité d'un robot à l'aide de la recherche DNS inversée.

Suivez simplement ces étapes :

    Déterminez l’adresse IP de l’agent utilisateur en question à l’aide des journaux de votre serveur. Tous les robots Yandex se présentent dans l'agent utilisateur.

    Utilisez une recherche DNS inversée de l'adresse IP reçue pour déterminer le nom de domaine hôte.

    Après avoir déterminé le nom d'hôte, vous pouvez vérifier s'il appartient ou non à Yandex. Tous les robots Yandex ont des noms se terminant par "yandex.ru", "yandex.. Si le nom d'hôte a une fin différente, le robot n'appartient pas à Yandex.

    Enfin, assurez-vous que le nom est correct. Utilisez une recherche DNS directe pour obtenir l'adresse IP correspondant au nom d'hôte. Elle doit correspondre à l'adresse IP utilisée dans la recherche DNS inversée. Si les adresses IP ne correspondent pas, cela signifie que le nom d'hôte est faux.

Robots Yandex dans les journaux du serveur

Yandex possède de nombreux robots qui prennent différentes formes :

    Mozilla/5.0 (compatible ; YandexBot/3..

  • Mozilla/5.0 (iPhone ; CPU iPhone OS 8_1 comme Mac OS X) AppleWebKit/600.1.4 (KHTML, comme Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible ; YandexBot/3.0 ; +http://site /bots)- Robot d'indexation.
  • Mozilla/5.0 (compatible ; YandexAccessibilityBot/3.. .
  • Mozilla/5.0 (iPhone ; CPU iPhone OS 8_1 comme Mac OS X) AppleWebKit/600.1.4 (KHTML, comme Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible ; YandexMobileBot/3.0 ; +http://site /bots)- Détermine si la mise en page est adaptée aux appareils mobiles. Interprète robots.txt d'une manière spéciale.
  • Mozilla/5.0 (compatible ; YandexDirectDyn/1.0 ; +http://site/bots - Génère des bannières dynamiques, interprète robots.txt d'une manière spéciale .
  • Mozilla/5.0 (X11 ; Linux x86_64) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/41.0.2228.0 Safari/537.36 (compatible ; YandexScreenshotBot/3.. Interprète robots.txt d'une manière particulière .
  • Mozilla/5.0 (compatible ; YandexImages/3.0 ; +http://site/bots) - Le robot d'indexation.

    Mozilla/5.0 (compatible ; YandexVideo/3..

  • Mozilla/5.0 (compatible ; YandexVideoParser/1.0 ; +http://site/bots) - Le robot d'indexation. Interprète robots.txt d'une manière spéciale.
  • Mozilla/5.0 (compatible ; YandexMedia/3..

    Mozilla/5.0 (compatible ; YandexWebmaster/2..

    Mozilla/5.0 (compatible ; YandexPagechecker/1.0 ; +http://site/bots) - Le robot qui valide le balisage soumis via le formulaire.

    Mozilla/5.0 (compatible ; YandexImageResizer/2..

    Mozilla/5.0 (compatible ; YaDirectFetcher/1.. Ceci est nécessaire pour le placement des annonces dans les résultats de recherche et sur les sites partenaires. Lors de l'exploration d'un site, le robot n'utilise pas le fichier robots.txt et ignore les directives qui lui sont définies.

    Mozilla/5.0 (compatible ; YandexCalendar/1.0 ; +http://site/bots) - Le robot Yandex.Calendar utilisé pour la synchronisation avec d'autres calendriers. Interprète robots.txt d'une manière spéciale.

    Mozilla/5.0 (compatible ; YandexSitelinks ; Dyatel ; +http://site/bots) - Le « récupérateur » de liens annexes utilisé pour vérifier la disponibilité des pages détectées comme liens annexes.

    Mozilla/5.0 (compatible ; YandexMetrika/2.0 ; +http://site/bots) - Le robot. Interprète robots.txt d'une manière particulière., Yandex.Job, Yandex.Reviews.

Il existe de nombreuses adresses IP dont les robots Yandex peuvent « provenir », et ces adresses changent fréquemment. Nous ne sommes donc pas en mesure de proposer une liste d'adresses IP et nous vous déconseillons d'utiliser un filtre basé sur les adresses IP.

Pour informer Yandex de manière indépendante du nouveau site, ainsi que pour surveiller son indexation et ses positions dans les résultats de recherche, ajoutez le site à Yandex.Webmaster.

  1. Questions et réponses

Quelles pages sont déjà dans l'index Yandex

Vous pouvez le vérifier de plusieurs manières :

  • Utilisation de l'opérateur de requête d'URL. Dans la barre de recherche Yandex, entrez l'URL de l'opérateur de requête, l'adresse du site et *. Par exemple : url:www.example.com* .
  • Dans Yandex.Webmaster sur la page Indexation → Contourner les statistiques. Pour plus d’informations, consultez Statistiques d’analyse.

Pour savoir quels sous-domaines d'un site sont indexés, vous pouvez utiliser les opérateurs du langage de requête host ou rhost.

Quelles pages de sites Web sont incluses dans les recherches ?

Les résultats de recherche Yandex sont générés sur la base de la base de données des robots. Les pages chargées dans la base de données du robot sont analysées à l'aide d'un algorithme spécial. Si l'algorithme détermine que le contenu d'une page répond suffisamment à la requête de recherche (c'est-à-dire qu'il est pertinent), alors une telle page peut apparaître dans les résultats de recherche. Ainsi, toutes les pages du site ne sont pas visibles dans la recherche Yandex.

Pour voir quelles pages de votre site participent aux recherches, accédez à Indexation → Pages en recherche dans Yandex.Webmaster.

Parfois, les pages précédemment recherchées peuvent être exclues des résultats de recherche. Pour voir une liste des pages exclues de votre site, accédez à Indexation → Pages en recherche dans Yandex.Webmaster.

Pourquoi les pages n'apparaissent-elles pas dans la recherche pendant longtemps ?

Si de nouvelles pages n'apparaissent pas dans la recherche pendant une longue période, assurez-vous que :

  • les pages sont accessibles au robot (à l'aide de l'outil) ;
  • les informations sur les pages sont dans le fichier ;
  • des liens accessibles depuis des pages du site préalablement indexées mènent vers les pages ;
  • aucune directive n'est définie inutilement dans le fichier robots.txt, et les directives d'interdiction Disallow, noindex et l'élément HTML noindex bloquent uniquement le service et les pages en double de l'indexation.

Vérifiez si le robot est au courant nouvelle page et dans quel statut il se trouve, vous pouvez utiliser l'outil. Pour avertir le robot des nouvelles pages, .

Changer la position d'un site dans les résultats de recherche

Les résultats de recherche ne sont pas statiques et peuvent constamment changer. Cela peut arriver pour plusieurs raisons :

La base de données de recherche est régulièrement mise à jour

Les caractéristiques du site sont constamment recalculées en fonction des données récentes sur les pages, ainsi que de leur popularité auprès des utilisateurs. Poids des facteurs de classement et pertinent à la demande la page peut changer, les pages du site peuvent sortir de l'index de recherche. En conséquence, les positions dans les résultats de recherche peuvent également changer.

Il y a eu des changements sur d'autres sites qui ont été recherchés pour les requêtes qui vous intéressent

Votre site pourrait naturellement changer de position dans les résultats de recherche en raison de l'augmentation de la pertinence d'autres ressources pour les mêmes requêtes (les propriétaires d'autres sites apportent également des modifications). Si les premières positions dans la recherche sont occupées par des sites suspects, signalez-le via .

L'adresse du site Web ou le protocole utilisé a changé

Lors de plusieurs mises à jour de la base de données de recherche après un changement d'adresse, il est permis de baisser la position du site dans les résultats de recherche (les anciennes pages du site disparaissent de l'index de recherche, les positions peuvent donc diminuer pour les requêtes correspondantes). Si votre site a une redirection 301 configurée, vérifiez.

Les pages précédemment recherchées ont disparu de la recherche

D'autres modifications ont été apportées à votre site

Toute modification apportée à un site peut affecter son classement dans les résultats de recherche. Par exemple, modifier la structure du site, l'adresse (URL) ou le contenu de la page (ou sa présentation) trouvée pour les requêtes qui vous intéressent.

Les pages du site sont considérées comme de mauvaise qualité

Vous pouvez le vérifier dans Yandex.Webmaster sur la page Diagnostic → Diagnostic des chantiers. Pour améliorer votre site, utilisez ces recommandations :

  • À quelles questions votre site répond-il ?
  • Présentation des informations sur le site

L'algorithme vérifie les pages à chaque mise à jour de la base de données de recherche, de sorte que certaines d'entre elles peuvent être exclues de la recherche. Si une page n'a pas été incluse dans les recherches depuis longtemps, cela signifie qu'elle ne répond pas suffisamment bien aux demandes des utilisateurs.

Questions et réponses

Les résultats de recherche affichent des liens vers des cadres internes du site

Dans ce cas, utilisez la console du navigateur pour vérifier si le cadre de navigation parent est ouvert avant de charger la page. S'il est fermé, ouvrez-le.

Mon serveur n'affiche pas la dernière modification

Même si le serveur n'affiche pas la date de dernière modification du document, votre site sera indexé. Cependant, dans ce cas, les éléments suivants doivent être pris en compte :

    les résultats de recherche n'afficheront pas la date à côté des pages de votre site ;

    lors du tri par date, le site ne sera pas visible par la plupart des utilisateurs ;

    le robot ne pourra pas obtenir d'informations indiquant si la page du site a été mise à jour depuis la dernière indexation. Et comme le nombre de pages que le robot reçoit du site en une seule visite est limité, les pages modifiées seront réindexées moins souvent.

Comment l'encodage affecte l'indexation

Le type d'encodage utilisé sur un site n'a aucune incidence sur l'indexation du site. De plus, si votre serveur ne transmet pas l'encodage dans l'en-tête, le robot Yandex déterminera lui-même l'encodage.

Est-il possible de contrôler la fréquence de réindexation à l'aide de la directive Revisit-After ?

Non. Le robot Yandex l'ignore.

Yandex indexe-t-il un site sur un domaine étranger ?

Contrairement à une idée reçue, le robot n’intervient directement dans aucun traitement des documents numérisés. Il se contente de les lire et de les enregistrer ; ils sont ensuite traités par d'autres programmes. Une confirmation visuelle peut être obtenue en analysant les logs d'un site indexé pour la première fois. Lors de la première visite, le bot demande d'abord le fichier robots.txt, puis la page principale du site. C'est-à-dire qu'il suit le seul lien qu'il connaît. C’est là que se termine toujours la première visite du bot. Après un certain temps (généralement le lendemain), le robot demande pages suivantes- en utilisant les liens trouvés sur la page que vous avez déjà lue. Ensuite le processus se poursuit dans le même ordre : demande de pages pour lesquelles des liens ont déjà été trouvés - une pause pour le traitement des documents lus - la session suivante avec une demande de liens trouvés.

Analyser les pages à la volée signifierait beaucoup plus Ô plus grande consommation de ressources du robot et perte de temps. Chaque serveur d'analyse exécute plusieurs processus de robot en parallèle. Ils doivent agir le plus rapidement possible afin d'avoir le temps de lire les nouvelles pages et de relire celles existantes. Par conséquent, les robots lisent et enregistrent uniquement les documents. Tout ce qu'ils enregistrent est mis en file d'attente pour traitement (analyse du code). Les liens trouvés lors du traitement des pages sont placés dans une file d'attente de tâches pour les robots. C'est ainsi que l'ensemble du réseau est analysé en permanence. La seule chose qu'un bot peut et doit analyser à la volée est le fichier robots.txt, afin de ne pas demander d'adresses qui y sont interdites. Au cours de chaque session d'exploration du site, le robot demande d'abord ce fichier, puis toutes les pages mises en file d'attente pour l'exploration.

Types de robots de recherche

Chaque moteur de recherche possède son propre ensemble de robots destinés à différents objectifs.
Fondamentalement, ils diffèrent par leur objectif fonctionnel, bien que les limites soient très arbitraires et que chaque moteur de recherche les comprenne à sa manière. Pour les systèmes uniquement destinés à la recherche en texte intégral, un seul robot suffit pour toutes les occasions. Pour les moteurs de recherche qui ne s'occupent pas uniquement du texte, les robots sont divisés en au moins deux catégories : pour les textes et les dessins. Il existe également des robots distincts dédiés à des types spécifiques de contenu : mobile, blog, actualités, vidéo, etc.

Google-Robots

Tous les robots Google sont collectivement appelés Googlebot. Le robot indexeur principal « se présente » comme ceci :

Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)

Ce bot est en train d'analyser les pages HTML et autres documents pour le principal recherche Google. Il lit également occasionnellement des fichiers CSS et JS - cela se remarque principalement au début de l'indexation du site, lorsque le robot explore le site pour la première fois. Les types de contenu acceptés sont tous (Accepter : */*).

Le deuxième des principaux robots est occupé à numériser les images du site. Il se « présente » simplement :

Googlebot-Image/1.0

Au moins trois robots ont également été aperçus dans les journaux, occupés à collecter du contenu pour version mobile recherche. Le champ User-agent des trois se termine par la ligne :

(compatible ; Googlebot-Mobile/2.1 ; +http://www.google.com/bot.html)

Avant cette ligne se trouve le modèle téléphone mobile, avec lequel ce bot est compatible. Les robots repérés ont des modèles Téléphones Nokia, Samsung et iPhone. Les types de contenu acceptés sont tous, mais avec des priorités indiquées :

Accepter : application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Robots Yandex

Parmi les moteurs de recherche actifs sur RuNet, Yandex possède la plus grande collection de robots. Dans la section d'aide aux webmasters, vous pouvez trouver une liste officielle de tout le personnel de Spider. Il ne sert à rien de la présenter ici dans son intégralité, puisque des changements interviennent périodiquement dans cette liste.
Cependant, les robots Yandex les plus importants pour nous doivent être mentionnés séparément.
Robot d'indexation de base actuellement appelé

Mozilla/5.0 (compatible ; YandexBot/3.0 ; +http://yandex.com/bots)

Auparavant représenté comme

Yandex/1.01.001 (compatible ; Win16 ; I)

Lit Pages HTML site Web et autres documents à indexer. La liste des types de médias acceptés était auparavant limitée :

Accepter : text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Depuis le 31 juillet 2009, une expansion significative a été constatée dans cette liste (le nombre de types a presque doublé), et depuis le 10 novembre 2009, la liste a été raccourcie à */* (tous types).
Ce robot s'intéresse vivement à un ensemble de langues très spécifiques : le russe, un peu moins l'ukrainien et le biélorusse, un peu moins l'anglais et très peu toutes les autres langues.

Langue acceptée : ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Scanner d'images robotiques porte la ligne suivante dans le champ User-agent :

Mozilla/5.0 (compatible ; YandexImages/3.0 ; +http://yandex.com/bots)

Numérisation des graphiques différents formats pour rechercher en images.

Contrairement à Google, Yandex dispose de robots distincts pour servir certains fonctions spéciales recherche générale.
Robot "miroir"

Mozilla/5.0 (compatible ; YandexBot/3.0 ; MirrorDetector ; +http://yandex.com/bots)

Il ne fait rien de particulièrement compliqué - il apparaît périodiquement et vérifie si la page principale du site correspond lors de l'accès au domaine avec www. Et sans. Vérifie également les domaines « miroirs » parallèles pour les correspondances. Apparemment, les miroirs et la forme canonique des domaines dans Yandex sont traités séparément progiciel, pas directement lié à l'indexation. Sinon, rien n’explique absolument l’existence d’un bot distinct à cet effet.

Collectionneur d'icônes favicon.ico

Mozilla/5.0 (compatible ; YandexFavicons/1.0 ; +http://yandex.com/bots)

Il apparaît périodiquement et demande l'icône favicon.ico, qui apparaît ensuite dans les résultats de recherche à côté du lien vers le site. On ne sait pas pour quelles raisons le collectionneur d’images ne partage pas cette responsabilité. Apparemment, un progiciel distinct est également en jeu.

Bot de vérification pour les nouveaux sites, fonctionne lorsqu'il est ajouté au formulaire AddURL

Mozilla/5.0 (compatible ; YandexWebmaster/2.0 ; +http://yandex.com/bots)

Ce bot vérifie la réponse du site en envoyant une requête HEAD à l'URL racine. De cette façon, nous vérifions l'existence page d'accueil dans le domaine et les en-têtes HTTP de cette page sont analysés. Le bot demande également le fichier robots.txt à la racine du site. Ainsi, après avoir soumis le lien à AddURL, il est déterminé que le site existe et ni le fichier robots.txt ni les en-têtes HTTP n'interdisent l'accès à la page principale.

Robot randonneur

Ne fonctionne plus actuellement, puisque Rambler utilise désormais la recherche Yandex
Le robot indexeur Rambler peut être facilement identifié dans les logs grâce au champ User-agent

StackRambler/2.0 (incompatible avec MSIE)

Comparé à ses « collègues » d'autres moteurs de recherche, ce bot semble assez simple : il n'indique pas de liste de types de médias (il reçoit donc le document demandé de tout type), le champ Accepter-Langue est manquant dans la requête, et le champ If-Modified-since est introuvable dans les requêtes du bot.

Robot Mail.Ru

On sait encore peu de choses sur ce robot. Le portail Mail.Ru développe sa propre recherche depuis longtemps, mais il n'a pas encore eu le temps de lancer cette recherche. Par conséquent, seul le nom du bot dans l'agent utilisateur est connu avec certitude - Mail.Ru/2.0 (auparavant - Mail.Ru/1.0). Le nom du bot pour les directives du fichier robors.txt n'a été publié nulle part, on suppose que le bot devrait s'appeler Mail.Ru.

Autres robots

La recherche sur Internet ne se limite bien entendu pas à deux moteurs de recherche. Il existe donc d'autres robots - par exemple le robot Bing - le moteur de recherche de Microsoft et d'autres robots. Ainsi, en Chine notamment, il existe un moteur de recherche national Système Baidu- mais il est peu probable que son robot atteigne le milieu de la rivière et atteigne le site russe.

Par ailleurs, de nombreux services ont récemment proliféré - notamment solomono - qui, bien qu'ils ne soient pas des moteurs de recherche, analysent également les sites. Souvent, l'intérêt de transmettre des informations sur le site à de tels systèmes est discutable et leurs robots peuvent donc être interdits.

Avant de comprendre ce que sont les robots des moteurs de recherche et comment ils fonctionnent, vous devez comprendre ce qu’est un moteur de recherche moderne. Internet a commencé à gagner en popularité dans les années 90 dans les pays de la CEI.

Le moteur de recherche de l’époque recherchait des mots ou des expressions exactes dans le texte. Cela a causé beaucoup d'inconvénients, car la langue russe possède une fonctionnalité intéressante. Le même concept peut être formulé en 10 à 20 variantes et le résultat sera le même.

Tous les gens sont différents et chacun a sa propre façon de penser. Le développeur du site ne pouvait pas prescrire 20-30 à ce moment-là phrases exactes sur la page qui pourrait éventuellement être utilisée pour rechercher ce matériel.

En conséquence, l'utilisateur ne pouvait souvent pas trouver le matériel qui l'intéressait simplement parce que sa formulation du problème ne coïncidait pas avec la formulation du texte.

Il convient de noter qu’à l’époque, la concurrence n’était pas aussi féroce et que la promotion du site était complètement différente. Il y avait très peu de personnes travaillant sur les chantiers, à l'époque cette zone n'était pas encore mise sur le tapis roulant qu'elle est aujourd'hui.

Ce n’était tout simplement pas nécessaire : très peu de gens possédaient un ordinateur personnel et encore moins se souciaient de se connecter à Internet. Toute personne en ligne ressemblait davantage à une publicité collée sur un poteau qu’à ce que nous voyons actuellement sur Internet.

Tout cela a grandement entravé le développement des moteurs de recherche et de l’ensemble de la cyber-industrie. D'ailleurs, il y avait déjà des robots à l'époque moteurs de recherche et l'indexation. Vous comprenez déjà ce qui a été affiché dans les résultats de la requête de recherche.

Nous devons maintenant expliquer exactement comment les premiers robots de recherche très simples ont été conçus.

Il faut du temps pour numériser le texte. Maintenant ça paraît drôle, le texte est devenu tellement léger et insignifiant aux yeux ordinateurs modernes, qu'il est difficile d'imaginer une machine qui travaillerait dessus pendant plusieurs minutes.

Cependant, c’est ainsi que fonctionnaient les ordinateurs de cette époque. Cela signifie que numériser tous les textes et documents sur demande ne permet pas de gagner du temps. Seuls les titres de titres et les titres de pages ont été inclus dans l'index.

C'est la raison pour laquelle il était impossible d'afficher 20 à 30 options avec le libellé de la demande. Ainsi, la tâche du robot de recherche était de scanner les titres de titres et les titres de pages sur demande.

Désormais, les robots de recherche et l'indexation sont lancés dans emploi permanent sur les serveurs les plus puissants, en même temps tout fonctionnait selon le principe du « chacun pour soi ». Toute recherche a été effectuée à l'aide de l'ordinateur personnel sur lequel la demande a été effectuée.

Peut-être, pour conclure l'histoire des premiers robots de recherche, pouvons-nous seulement ajouter que le site, à travers les yeux d'un robot de recherche, ressemblait à 2 lignes de texte imprimé.

Ensuite, la recherche n'était pas si répandue, les sites étaient recherchés sur des forums de discussion, ainsi que sur les recommandations d'amis et de connaissances.

Les annuaires de sites Web font partie de ces reliques qui existent encore aujourd’hui, ils méritent une rédaction plus détaillée, vous comprendrez plus tard pourquoi ils ne sont plus d’actualité. Les requêtes de recherche à cette époque ressemblaient à ceci :

  • "jeu gratuit"
  • "communication et rencontres"
  • "vers triste"
  • "dernières nouvelles"

Robot de recherche Google

Vers 2003, le projet Google a commencé à prendre de l'ampleur. Ce pour quoi presque tous les gens travaillant dans le domaine prient aujourd’hui. On peut dire que sans Google, il n’y aurait pas de référencement, mais nous y reviendrons plus tard.

Ainsi, en 2003, il existait déjà des moteurs de recherche qui traitaient les informations avec beaucoup plus de soin et offraient à l'utilisateur une recherche de haute qualité non seulement par noms de pages et par titres, mais par le texte lui-même.

À l’époque, les algorithmes de recherche fonctionnaient si mal qu’il n’était jamais venu à l’esprit de personne d’essayer de les tromper. À cette époque, un ordinateur personnel n’était plus un luxe, mais il était encore très loin de la popularité moderne d’Internet.

La taille de l'audience Internet augmentait chaque jour et de nombreuses personnes entreprenantes comptaient sur les activités Internet.

La recherche de texte à cette époque fonctionnait encore selon le principe de la correspondance exacte, alors imperceptible société Google a commencé son ascension vers l'Olympe.

Ce service proposait à l'utilisateur une recherche d'informations par phrase, mais la recherche ne prenait pas en compte le cas dans lequel les mots apparaissaient. Le code du robot de recherche de Google pour les sites Web analysait les mots selon leur sens et ne prenait pas en compte les cas.

Ce type de recherche a immédiatement apporté de la popularité à ce moteur de recherche. Un peu plus tard, les développeurs ont repensé l'algorithme du robot de recherche afin qu'il commence à utiliser la synonymisation, en essayant de trouver les textes les plus adaptés à l'utilisateur.

À ce stade de développement, Google était déjà le leader mondial de la recherche. Cela est dû au fait qu'à la fin, l'utilisateur, en utilisant n'importe quelle formulation, a reçu les informations dont il avait besoin.

À cette époque, un changement dans la formulation standard des expressions de recherche a commencé.

Ils ont commencé à prendre leur forme actuelle :

  • "gratuit Jeux en ligne»
  • "site de réunion"
  • "poèmes tristes"
  • "nouvelles"

Vous pouvez clairement voir les changements dans le libellé. Considérant que de telles formulations ne sont pas très typiques pour les descriptions, robot de recherche Google a parfaitement fait face à la tâche.

A cette époque, l'incendie des moteurs de recherche éclatait, les gens commençaient à gagner de l'argent sur les sites. Bien sûr, il y a toujours eu des spécialistes qui s'occupaient des ressources Internet, mais ensuite un mouvement plus ou moins massif a commencé.

Lyuli a commencé à s'intéresser à la manière exacte dont se produit le classement dans les résultats de recherche, à savoir si un robot de recherche est venu sur leur site, ce qui a donné naissance à toute une couche de science sur le référencement. Ce domaine concernait l'étude de la manière dont les robots des moteurs de recherche effectuent l'indexation.

Depuis lors, la science de la promotion SEO a fait l’objet de nombreux écrits. un grand nombre de du matériel, des services et des programmes spécialisés ont été créés pour améliorer l'influence sur les robots de recherche, qui peuvent être téléchargés sur Internet.

L'objectif de l'étude était de déterminer le chemin le plus court vers le haut de la liste Résultats de recherche. Même alors, les utilisateurs prêtaient avant tout attention au haut de la page et aux premiers résultats. La lutte pour le « sommet » a commencé.

Ce n'était là que l'ombre de la rivalité actuelle entre les ressources Internet.

Robot de recherche Yandex

En utilisant l’exemple de ce merveilleux moteur de recherche, nous pouvons expliquer ce qui est arrivé aux algorithmes de recherche plus tard. Yandex occupait une bonne position et a connu une croissance rapide. L'un des moteurs de recherche les plus populaires avant l'ère Google était un service comme Rambler.

Il était la sommité de la recherche ; Google et Yandex se dressaient devant ses yeux. Il était une fois les propriétaires de Rambler se sont vu proposer d'acheter un petit projet Internet pour un montant ridicule, mais ils ont refusé. Ce petit projet était Yandex.

En quelques années seulement, ces deux géants ont dépassé Rambler, le laissant loin derrière. Une question logique se pose, pourquoi Google n'a-t-il pas supplanté le robot de recherche Yandex, quelle est sa particularité, comment savoir comment un robot de recherche voit un site, avec quels yeux les robots voient les iframes, où puis-je trouver des statistiques sur les visites du robot vers un site ? Il convient de noter que la taille de ces deux moteurs de recherche n'est pas comparable ; Google est bien plus important plus de Yandex. Or, dans la CEI, ces deux concurrents sont quasiment égaux.

Yandex s'est rendu compte avec le temps que la polyvalence n'était pas leur point fort. Les tentatives d'occupation des marchés d'autres pays ont échoué. A un moment critique, la décision a été prise de se développer en Russie et dans les pays de la CEI. Le robot de recherche Yandex s'est concentré sur la recherche dans des régions spécifiées.

Yandex recherche par index de recherche - une base de données où pour tous les mots qui se trouvent sur les sites connus par la recherche, leur emplacement est indiqué - l'adresse de la page et son emplacement.

Il existe de nombreux types de requêtes de recherche sur Internet, mais une part importante d'entre elles est occupée par celles qui concernent une zone ou une région spécifique. C'est à cette définition que le robot de recherche Yandex a été adapté.

C’est ce qui l’a rendu si populaire en Russie.

Voici un exemple de ce que sont les requêtes régionales :

  • acheter quelque chose;
  • services de commande;
  • communication et rencontres;
  • babillards;
  • ressources d'information.

Ce ne sont pas toutes des demandes qui ne concernent qu’une certaine région. Yandex a rendu le segment russe de l'Internet différent des autres. La Russie est le plus grand pays du monde, elle est divisée en régions et possède des territoires assez vastes.

Tout cela n'a été possible que dans certaines régions, car dans d'autres régions du pays, certains matériaux ne sont pas pertinents. Cela a été largement influencé par le système Yandex, divisant Internet en sections.

Pourquoi un tel système ne fonctionne-t-il pas dans d’autres pays, pourquoi Google y est-il populaire ? Ce système peut également déterminer la localisation de la personne qui a envoyé la demande, son adresse IP, mais il ne prête pas autant d'attention à la localisation.

Autre exemple, en France Requêtes de recherche sont rédigés en français et non en anglais, qui est la langue prédominante. Cela signifie que la langue dans d'autres pays est déterminante pour la recherche ; il est peu probable que quiconque utilise la recherche sur Français en Angleterre ou vice versa.

Si cela se produit, l’utilisateur pourra consulter les sites appartenant au pays dont la langue est la plus populaire.

C'est ainsi que les recherches se déroulent dans d'autres pays. Internet russe constitue une exception, puisqu'il est impossible de diviser les sites actuels par région en fonction de critères linguistiques.

Donc, pour l'instant, Yandex est plus pertinent pour la Russie que Google, peut-être qu'un jour ce géant supplantera tous ses concurrents, mais pour l'instant, il n'y a pas lieu d'en avoir peur.

Les robots des moteurs de recherche ont beaucoup changé au fil du temps ; de nombreuses nuances intéressantes ont été ajoutées à l'algorithme de recherche.

Voici la liste compétences de base robots de recherche au cours des prochaines années :

  • analyse ;
  • vérifier le contenu informatif du texte ;
  • allocation mots clés par leur numéro ;
  • calculer le « poids » des pages ;
  • taux d’échec du traitement.

Ces indicateurs ont permis de calculer le plus efficacement possible pour le robot de recherche la fréquence à laquelle l'utilisateur voit et lit le texte, quel est son contenu informatif. Cependant, rien de tout cela n’a fonctionné comme prévu. A cette époque, les moteurs de recherche entraient dans l’ère des textes robotisés.

Cela signifie que presque tout requêtes populaires Ils n'ont pas fourni d'informations utiles, mais du matériel techniquement correctement écrit. Le plus intéressant est qu’un tel texte était très rarement informatif et utile.

Il fallait faire quelque chose à ce sujet, temps différent certains changements ont été introduits. Par exemple, le robot de recherche Google a intégré un système de calcul et de comptage des taux d'échec.

Cela signifie que le moteur de recherche a commencé à se classer en fonction du temps passé par une personne sur une page particulière. Cet indicateur est encore en cours de calcul.

L'innovation la plus sérieuse de cette époque a été l'introduction de systèmes et, respectivement, de Google et Yandex. Le but de cette valeur était de calculer le poids des pages selon le principe de citation.

Yandex explique l'introduction de ce système par le fait que dans la communauté scientifique, il existe un indicateur qui détermine la pertinence travail scientifique. Cet indicateur est appelé « Citation Index ».

En fonction du nombre d'ouvrages différents faisant référence à un texte donné, leur pertinence est calculée. C’est ainsi que les robots des moteurs de recherche ont appris à calculer le poids des pages en analysant les liens entrants.

Cela a bouleversé le monde du référencement et placé le concept de promotion de sites Web dans un nouveau parallèle. Désormais, le contenu n'était plus suffisant pour amener le site au sommet. Il avait besoin Liens externes Et système compétent maillage interne.

Le maillage interne permettait de transférer du poids d’une page à une autre. C'est devenu très outil pratique lors de la gestion de votre site Web.

Robots de recherche modernes et indexation

Comme on peut le constater, le robot de recherche, qui fonctionnait selon ces algorithmes, produisait sur demande des textes techniques qui n'intéressaient pas l'utilisateur.

Mais un analogue du moteur de recherche Systèmes Google ce n’est pas le cas, il n’a pas perdu de sa popularité et ses développeurs ont agi avec beaucoup de sagesse, retravaillant l’algorithme de recherche pour l’adapter aux besoins de l’utilisateur. Sur ce moment toutes les astuces qui existaient alors pour travailler avec du texte sont devenues invalides.

Pour le moment, le robot de recherche de sites Web de Google y prête beaucoup moins attention. Tous les efforts des moteurs de recherche visent à trier le matériel technique créé pour les robots de recherche.

De nombreux points sont analysés, mais tous ne sont pas connus pour le moment, car les moteurs de recherche préfèrent garder ces informations secrètes. Cela est nécessaire pour éviter que de telles crises ne surviennent.

Cette évolution a entraîné de nombreux changements dans le secteur du référencement. Pendant la crise des textes robotiques, tous les efforts des optimiseurs visaient à rendre le texte aussi confortable que possible pour le robot.

À l’heure actuelle, les algorithmes de recherche sont tels qu’il ne sert plus à rien de compter le texte sur un robot. Un matériel intéressant pour l’utilisateur apporte beaucoup plus de résultats.

Il suffit de procéder à une optimisation minimale en introduisant des mots-clés dans le texte et de rendre le texte unique. C'est suffisant pour un moteur de recherche, ces méthodes sont nécessaires non pas pour tromper le robot, mais pour lui faciliter l'indexation.

A noter que le robot de recherche Google pour les sites web prend désormais en compte le « poids des pages » lors du classement. C’est l’un des indicateurs les plus élémentaires qui a fait ses preuves au fil des années de service, il n’y a aucune raison de penser qu’il perdra de sa pertinence.

De nombreux indicateurs d’analyse de texte ont cessé d’être pris en compte ou ont reçu une attention minime. Un autre point intéressant dans le travail du moteur de recherche Google.

Comme mentionné ci-dessus, le taux de rebond est pris en compte, cela viole légèrement les droits de l'utilisateur à l'anonymat des informations, mais cette méthode permet de réellement déterminer la qualité du site et de cette page en particulier.

Voici un exemple de quelques choses qui peuvent conduire à taux de rebond plus élevé:

  • non-pertinence du matériel ;
  • problèmes techniques avec fonctionnement du serveur ;
  • un grand nombre de ;
  • trop brillant, ce qui « brûle » littéralement les yeux.

Lors du travail des moteurs de recherche, les optimiseurs ont tenté d'apprivoiser les robots. Cependant, dès qu'il a commencé à l'apprivoiser, il a encore changé et n'a plus voulu travailler avec l'ancien matériau. De telles tentatives ont toujours existé et peuvent être observées aussi longtemps qu’Internet existe.

En effet, il est possible de comprendre un robot ; son analyse, ses requêtes et ses besoins matériels sont bien plus simples que ceux d’un humain. Ils essaieront toujours de les comprendre. Cependant, il y aura toujours des gens qui créeront des sites pour les utilisateurs et qui finiront par obtenir leur reconnaissance.

Bien que ce chemin soit long et épineux, et que le développement d'une ressource de cette manière soit très long, il sera en tout cas à long terme, puisque les robots des moteurs de recherche rechercheront toujours ce type de matériel. Il convient de noter qu'une telle concurrence est bonne.

Si le moteur de recherche avait perdu du terrain, nous n'aurions pas reçu information nécessaireà travers lui. Et si les optimiseurs croisaient les mains, Internet cesserait d'être une plateforme commerciale aussi importante et il n'y aurait pas beaucoup de matériel dessus, car sur une base volontaire, les ressources se développeraient beaucoup plus lentement.

Mes amis, je vous souhaite à nouveau la bienvenue ! Nous allons maintenant examiner ce que sont les robots de recherche et parler en détail du robot de recherche Google et de la manière d'être ami avec eux.

Vous devez d’abord comprendre ce que sont réellement les robots de recherche ; ils sont également appelés araignées. Quel travail font les robots des moteurs de recherche ?

Ce sont des programmes qui vérifient les sites. Ils parcourent tous les articles et pages de votre blog, collectent des informations qu'ils transmettent ensuite à la base de données du moteur de recherche pour lequel ils travaillent.

Vous n’avez pas besoin de connaître la liste complète des robots de recherche, le plus important est de savoir que Google compte désormais deux araignées principales, appelées « panda » et « pingouin ». Ils luttent contre les contenus de mauvaise qualité et les liens indésirables, et vous devez savoir comment repousser leurs attaques.

Le robot de recherche Google Panda a été créé pour promouvoir uniquement du matériel de haute qualité dans les recherches. Tous les sites dont le contenu est de mauvaise qualité sont relégués au bas des résultats de recherche.

Cette araignée est apparue pour la première fois en 2011. Avant son apparition, il était possible de promouvoir n’importe quel site Web en publiant une grande quantité de texte dans des articles et en utilisant une énorme quantité de mots-clés. Ensemble, ces deux techniques ont amené le contenu de mauvaise qualité en tête des résultats de recherche, et les bons sites ont été relégués au bas des résultats de recherche.

« Panda » a immédiatement mis les choses en ordre en vérifiant tous les sites et en remettant chacun à sa juste place. Bien qu’il soit confronté à un contenu de mauvaise qualité, il est désormais possible de promouvoir même de petits sites avec des articles de haute qualité. Même si auparavant il était inutile de promouvoir de tels sites, ils ne pouvaient pas rivaliser avec les géants qui proposent une grande quantité de contenu.

Voyons maintenant comment éviter les sanctions « panda ». Vous devez d’abord comprendre ce qu’elle n’aime pas. J'ai déjà écrit ci-dessus qu'elle a du mal avec les mauvais contenus, mais quel type de texte est mauvais pour elle, voyons-le afin de ne pas le publier sur notre site Web.

Le robot de recherche Google s'efforce de garantir que ce moteur de recherche ne fournisse que des matériaux de haute qualité aux demandeurs d'emploi. Si vous avez des articles qui contiennent peu d'informations et qui ne sont pas attrayants en apparence, réécrivez de toute urgence ces textes afin que le « panda » ne vous atteigne pas.

Le contenu de haute qualité peut être à la fois grand et petit, mais si l'araignée voit un long article contenant beaucoup d'informations, il sera alors plus utile au lecteur.

Il faut alors constater les doublons, autrement dit le plagiat. Si vous pensez que vous allez réécrire les articles d’autres personnes sur votre blog, alors vous pouvez immédiatement mettre un terme à votre site. La copie est strictement punie par l'application d'un filtre, et Le plagiat est vérifié très facile, j'ai écrit un article sur le sujet comment vérifier l'unicité des textes.

La prochaine chose à remarquer est la sursaturation du texte avec des mots-clés. Quiconque pense pouvoir rédiger un article en utilisant uniquement des mots-clés et occuper la première place dans les résultats de recherche se trompe lourdement. J'ai un article sur la façon de vérifier la pertinence des pages, assurez-vous de le lire.

Et une autre chose qui peut attirer un « panda » vers vous, ce sont les vieux articles moralement dépassés et qui n'apportent pas de trafic vers le site. Ils doivent absolument être mis à jour.

Il existe également un robot de recherche Google « pingouin ». Cette araignée combat le spam et les liens indésirables sur votre site. Il calcule également les liens achetés à partir d’autres ressources. Par conséquent, afin de ne pas avoir peur de ce robot de recherche, vous ne devez pas acheter de liens, mais publier du contenu de haute qualité afin que les gens créent eux-mêmes des liens vers vous.

Formulons maintenant ce qui doit être fait pour que le site soit parfait aux yeux d'un robot de recherche :

  • Pour créer un contenu de qualité, recherchez d’abord bien le sujet avant d’écrire l’article. Ensuite, vous devez comprendre que les gens sont vraiment intéressés par ce sujet.
  • Utiliser exemples spécifiques et des images, cela rendra l'article vivant et intéressant. Divisez le texte en petits paragraphes pour le rendre facile à lire. Par exemple, si vous ouvrez une page de blagues dans un journal, lesquelles liriez-vous en premier ? Bien entendu, chacun lit d’abord des textes courts, puis des textes plus longs et enfin de longs enveloppements de pieds.
  • Le reproche favori du « panda » est le manque de pertinence de l’article qui contient informations obsolètes. Suivez les mises à jour et modifiez les textes.
  • Gardez un œil sur la densité des mots clés, j'ai écrit ci-dessus comment déterminer cette densité, dans le service dont j'ai parlé vous obtiendrez l'exacte quantité requise clés.
  • Ne plagiez pas, tout le monde sait qu’on ne peut pas voler les affaires ou les textes des autres – c’est la même chose. Vous serez puni en cas de vol en vous laissant prendre dans le filtre.
  • Écrivez des textes d'au moins deux mille mots, un tel article aura alors l'air informatif aux yeux des robots des moteurs de recherche.
  • Restez dans le sujet avec votre blog. Si vous gérez un blog sur la manière de gagner de l'argent sur Internet, vous n'avez pas besoin de publier des articles sur les armes à air comprimé. Cela peut réduire la note de votre ressource.
  • Concevez magnifiquement vos articles, divisez-les en paragraphes et ajoutez des images pour que vous aimiez lire et que vous ne vouliez pas quitter le site rapidement.
  • Lorsque vous achetez des liens, dirigez-les vers les articles les plus intéressants et les plus utiles que les gens liront réellement.

Eh bien, vous savez maintenant quel est le travail des robots des moteurs de recherche et vous pouvez être ami avec eux. Et surtout, le robot de recherche Google, ainsi que « panda » et « pingouin », ont été étudiés en détail par vous.