8 Quel genre de travail font les robots des moteurs de recherche ? Les moteurs de recherche sont leurs robots et leurs araignées. Est-il possible de contrôler un robot de recherche à votre avantage ?

Comment fonctionnent les robots des moteurs de recherche

Un robot de recherche (spider, bot) est un petit programme capable de visiter des millions de sites Web et de numériser des gigaoctets de texte sans intervention de l'opérateur. La lecture des pages et le stockage de copies de texte de celles-ci constituent la première étape de l'indexation de nouveaux documents. Il convient de noter que les robots des moteurs de recherche n'effectuent aucun traitement des données reçues. Leur tâche est uniquement de sauvegarder les informations textuelles.

Plus de vidéos sur notre chaîne - apprenez le marketing Internet avec SEMANTICA

Liste des robots de recherche

De tous les moteurs de recherche qui analysent Runet, Yandex possède la plus grande collection de robots. Les robots suivants sont responsables de l'indexation :

le robot d'indexation principal qui collecte les données des pages du site Web ;
un robot capable de reconnaître les miroirs ;
Robot de recherche Yandex, qui indexe les images ;
un robot qui scanne les pages des sites acceptés par YAN ;
icônes de favicon de numérisation de robot ;
plusieurs araignées qui déterminent l'accessibilité des pages du site.

Le principal robot de recherche de Google collecte des informations textuelles. Fondamentalement, il affiche les fichiers HTML et analyse JS et CSS à certains intervalles. Capable d’accepter tous les types de contenu autorisés pour l’indexation. PS Google dispose d'un spider qui contrôle l'indexation des images. Il existe également un robot de recherche - un programme qui prend en charge le fonctionnement de la version mobile de la recherche.

Voir le site à travers les yeux d'un robot de recherche

Pour corriger les erreurs de code et autres défauts, le webmaster peut découvrir comment le robot de recherche voit le site. Cette opportunité est offerte par Google PS. Vous devrez accéder aux outils pour les webmasters, puis cliquer sur l'onglet « exploration ». Dans la fenêtre qui s'ouvre, vous devez sélectionner la ligne « afficher en tant que Googlebot ». Ensuite, vous devez saisir l'adresse de la page que vous recherchez dans le formulaire de recherche (sans préciser le domaine et le protocole http://).

En sélectionnant la commande « obtenir et afficher », le webmaster pourra évaluer visuellement l'état de la page du site. Pour ce faire, vous devez cocher la case « demande d'affichage ». Une fenêtre s'ouvrira avec deux versions du document Web. Le webmaster apprend comment un visiteur régulier voit la page et sous quelle forme elle est disponible pour l'araignée de recherche.

Astuce : Si le document Web que vous analysez n'est pas encore indexé, vous pouvez utiliser la commande « ajouter à l'index » >> « analyser uniquement cette URL ». L'araignée analysera le document en quelques minutes et, dans un avenir proche, la page Web apparaîtra dans les résultats de recherche. La limite mensuelle des demandes d'indexation est de 500 documents.

Comment influencer la vitesse d'indexation

Après avoir compris le fonctionnement des robots de recherche, un webmaster pourra promouvoir son site beaucoup plus efficacement. L’un des principaux problèmes de nombreux jeunes projets Web est une mauvaise indexation. Les robots des moteurs de recherche hésitent à visiter des ressources Internet non autorisées.
Il a été établi que la rapidité d'indexation dépend directement de l'intensité avec laquelle le site est mis à jour. L'ajout régulier de textes uniques attirera l'attention des moteurs de recherche.

Pour accélérer l'indexation, vous pouvez utiliser le bookmarking social et le service Twitter. Il est recommandé de créer un plan du site et de le télécharger dans le répertoire racine du projet Web.

Les robots des moteurs de recherche, parfois appelés « araignées » ou « robots d'exploration », sont des modules logiciels qui recherchent des pages Web. Comment travaillent-ils? Qu'est-ce qu'ils font vraiment? Pourquoi sont-ils importants ?

Compte tenu de tout le bruit autour de l’optimisation des moteurs de recherche et des bases de données d’indexation des moteurs de recherche, vous pourriez penser que les robots doivent être des créatures formidables et puissantes. Pas vrai. Les robots des moteurs de recherche n'ont que des fonctionnalités de base similaires à celles des premiers navigateurs en termes d'informations qu'ils peuvent reconnaître sur un site. Comme les premiers navigateurs, les robots ne peuvent tout simplement pas faire certaines choses. Les robots ne comprennent pas les frames, les animations Flash, les images ou JavaScript. Ils ne peuvent pas accéder aux sections protégées par mot de passe et ne peuvent pas cliquer sur tous les boutons du site. Ils peuvent s’enliser dans le processus d’indexation des URL dynamiques et devenir très lents, au point de s’arrêter et de rendre la navigation JavaScript impuissante.

Comment fonctionnent les robots des moteurs de recherche ?

Les robots de recherche doivent être considérés comme des programmes automatisés de récupération de données qui parcourent le Web à la recherche d'informations et de liens vers des informations.

Lorsque vous accédez à la page Soumettre une URL et enregistrez une autre page Web dans un moteur de recherche, une nouvelle URL est ajoutée à la file d'attente pour que le robot puisse afficher les sites. Même si vous n'enregistrez pas de page, de nombreux robots trouveront votre site car il existe des liens provenant d'autres sites renvoyant vers le vôtre. C’est l’une des raisons pour lesquelles il est important de développer la popularité des liens et de placer des liens vers d’autres ressources thématiques.

Lorsque les robots arrivent sur votre site, ils vérifient d’abord s’il existe un fichier robots.txt. Ce fichier indique aux robots quelles sections de votre site ne doivent pas être indexées. Il s'agit généralement de répertoires contenant des fichiers qui n'intéressent pas le robot ou dont il ne devrait pas avoir connaissance.

Les robots stockent et collectent les liens de chaque page qu’ils visitent et suivent ensuite ces liens vers d’autres pages. L'ensemble du World Wide Web est construit à partir de liens. L'idée initiale de la création d'un réseau Internet était qu'il serait possible de suivre des liens d'un endroit à un autre. C'est ainsi que les robots se déplacent.

L'ingéniosité de l'indexation des pages en temps réel dépend des ingénieurs des moteurs de recherche qui ont inventé les méthodes utilisées pour évaluer les informations récupérées par les robots des moteurs de recherche. Une fois intégrées dans la base de données du moteur de recherche, les informations sont disponibles pour les utilisateurs qui effectuent une recherche. Lorsqu'un utilisateur d'un moteur de recherche saisit une requête de recherche, une série de calculs rapides sont effectués pour garantir que l'ensemble correct de sites est effectivement renvoyé pour la réponse la plus pertinente.

Vous pouvez visualiser quelles pages de votre site ont déjà été visitées par un robot de recherche, guidé par les fichiers journaux du serveur, ou les résultats du traitement statistique du fichier journal. En identifiant les robots, vous verrez quand ils ont visité votre site, quelles pages et à quelle fréquence. Certains robots sont facilement identifiables par leur nom, comme le Googlebot de Google. D'autres sont plus cachés, comme Inktomis Slurp. D'autres robots peuvent également apparaître dans les logs et il est possible que vous ne puissiez pas les identifier immédiatement ; certains d’entre eux peuvent même être des navigateurs gérés par des humains.

En plus d'identifier des robots de recherche uniques et de compter le nombre de leurs visites, les statistiques peuvent également vous montrer des robots agressifs, consommateurs de bande passante ou indésirables pour visiter votre site.

Comment lisent-ils les pages de votre site Web ?

Lorsqu'un robot d'exploration Web visite une page, il examine son texte visible, le contenu des différentes balises du code source de votre page (balise de titre, balises méta, etc.), ainsi que les hyperliens présents sur la page. En fonction des mots contenus dans les liens, le moteur de recherche décide du sujet de la page. De nombreux facteurs sont utilisés pour calculer les aspects clés d’une page qui entrent en jeu. Chaque moteur de recherche possède son propre algorithme d'évaluation et de traitement des informations. Selon la configuration du robot, les informations sont indexées puis transmises à la base de données du moteur de recherche.

Après cela, les informations fournies aux bases de données d'index du moteur de recherche font partie du processus de classement du moteur de recherche et des bases de données. Lorsqu'un visiteur effectue une requête, le moteur de recherche parcourt l'ensemble de la base de données pour renvoyer la liste finale pertinente pour la requête de recherche.

Les bases de données des moteurs de recherche sont soigneusement traitées et mises en conformité. Si vous êtes déjà dans la base de données, des robots vous rendront visite périodiquement pour collecter toute modification apportée aux pages et s'assurer qu'elles disposent des informations les plus à jour. Le nombre de visites dépend des paramètres du moteur de recherche, qui peuvent varier en fonction de son type et de sa finalité.

Parfois, les robots de recherche ne parviennent pas à indexer un site Web. Si votre site tombe en panne ou s'il y a un grand nombre de visiteurs sur le site, le robot peut être impuissant dans ses tentatives de l'indexer. Lorsque cela se produit, le site ne peut pas être réindexé, ce qui dépend de la fréquence à laquelle le robot le visite. Dans la plupart des cas, les robots qui ne parviennent pas à atteindre vos pages réessayeront plus tard dans l'espoir que votre site sera bientôt disponible.

De nombreux robots d'exploration Web ne peuvent pas être identifiés lorsque vous consultez les journaux. Ils vous rendent peut-être visite, mais les journaux indiquent que quelqu'un utilise un navigateur Microsoft, etc. Certains robots s'identifient grâce au nom d'un moteur de recherche (googlebot) ou de son clone (Scooter = AltaVista).

Selon la configuration du robot, les informations sont indexées puis transmises aux bases de données des moteurs de recherche.

Les bases de données des moteurs de recherche sont sujettes à modification à différents moments. Même les annuaires contenant des résultats de recherche secondaires utilisent les données du robot comme contenu de leur site Web.

En fait, les robots ne sont pas utilisés par les moteurs de recherche uniquement pour cela. Il existe des robots qui vérifient le nouveau contenu des bases de données, visitent l'ancien contenu des bases de données, vérifient si les liens ont changé, téléchargent des sites entiers pour les consulter, etc.

Pour cette raison, la lecture des fichiers journaux et la surveillance des résultats des moteurs de recherche vous aident à surveiller l'indexation de vos projets.

Il fait partie intégrante d’un moteur de recherche et est conçu pour trier les pages Internet afin de saisir les informations les concernant dans la base de données du moteur de recherche. Selon le principe de fonctionnement, l'araignée ressemble à un navigateur classique. Il analyse le contenu de la page, le stocke sous une forme spéciale sur le serveur du moteur de recherche auquel elle appartient et envoie des liens vers les pages suivantes. Les propriétaires de moteurs de recherche limitent souvent la profondeur de pénétration des robots à l'intérieur d'un site et la taille maximale du texte numérisé, de sorte que les sites trop volumineux peuvent ne pas être entièrement indexés par le moteur de recherche. En plus des araignées ordinaires, il existe ce qu'on appelle " pics" - des robots qui « tapent » sur un site indexé pour déterminer qu'il est accessible.

L'ordre d'exploration des pages, la fréquence des visites, la protection contre les bouclages, ainsi que les critères de mise en évidence des informations significatives sont déterminés par des algorithmes de recherche d'informations.

Dans la plupart des cas, le passage d'une page à une autre s'effectue en suivant les liens contenus sur la première page et les suivantes.

En outre, de nombreux moteurs de recherche offrent à l'utilisateur la possibilité d'ajouter indépendamment un site à la file d'attente pour l'indexation. Habituellement, cela accélère considérablement l'indexation du site, et dans les cas où aucun lien externe ne mène au site, cela s'avère être pratiquement le seul moyen d'indiquer son existence. Une autre façon d'indexer rapidement un site consiste à ajouter au site des systèmes d'analyse Web appartenant aux services de recherche. Par exemple, comme Google Analytics, Yandex.Metrica et [email protected] de Google, Yandex et Mail.Ru, respectivement.

Vous pouvez limiter l'indexation du site à l'aide du fichier robots.txt. Une protection complète contre l'indexation peut être assurée par d'autres mécanismes, tels que la définition d'un mot de passe sur la page ou l'obligation de remplir un formulaire d'inscription avant d'accéder au contenu.

YouTube encyclopédique

1 / 3
Vues :

En parcourant les journaux du serveur, vous pouvez parfois observer un intérêt excessif pour les sites de la part des robots de recherche. Si les robots sont utiles (par exemple les robots d'indexation PS), il ne reste plus qu'à observer, même si la charge sur le serveur augmente. Mais il existe aussi de nombreux robots mineurs dont l’accès au site n’est pas obligatoire. Pour moi et pour vous, cher lecteur, j'ai collecté les informations et les ai converties en une tablette pratique.

Qui sont les robots de recherche

Bot de recherche, ou comme on les appelle aussi, robot, robot, araignée - rien de plus que un programme qui recherche et analyse le contenu des sites Web en suivant les liens sur les pages. Il n’y a pas que les moteurs de recherche qui disposent de robots de recherche. Par exemple, le service Ahrefs utilise des robots pour améliorer les données sur les backlinks, Facebook effectue un scraping Web du code de la page pour afficher les liens republiés avec des titres, des images et des descriptions. Le web scraping est la collecte d’informations provenant de diverses ressources.

Utiliser des noms d'araignées dans robots.txt

Comme vous pouvez le constater, tout projet sérieux lié à la recherche de contenu possède ses propres araignées. Et parfois, la tâche urgente consiste à restreindre l'accès de certains robots au site ou à ses sections individuelles. Cela peut être fait via le fichier robots.txt dans le répertoire racine du site. J'ai écrit plus sur la configuration des robots plus tôt, je vous recommande de le lire.

Veuillez noter que le fichier robots.txt et ses directives peuvent être ignorés par les robots de recherche. Les directives ne sont que des recommandations pour les robots.

Vous pouvez définir une directive pour un robot de recherche en utilisant la section - contacter l'agent utilisateur de ce robot. Les sections pour différentes araignées sont séparées par une ligne vierge.

Agent utilisateur : Googlebot Autoriser : /

Agent utilisateur : Googlebot

Permettre: /

Ci-dessus, un exemple d'appel au moteur de recherche principal de Google.

Initialement, j'avais prévu d'ajouter des entrées au tableau sur la manière dont les robots de recherche s'identifient dans les journaux du serveur. Mais comme ces données ont peu d’importance pour le SEO et que pour chaque token d’agent il peut y avoir plusieurs types d’enregistrements, il a été décidé de se contenter uniquement du nom des bots et de leur finalité.

Rechercher des robots G o o g l e

Agent utilisateur	Les fonctions
Googlebot	Le principal robot d'indexation de pages pour PC et optimisé pour les smartphones
Partenaires Médias-Google	Robot du réseau publicitaire AdSense
API-Google	API - Google User Agent
AdsBot-Google	Vérifie la qualité de la publicité sur les pages Web destinées aux PC
AdsBot-Google-Mobile	Vérifie la qualité de la publicité sur les pages Web conçues pour les appareils mobiles
Image Googlebot (Googlebot)	Indexe les images sur les pages du site Web
Googlebot-Actualités (Googlebot)	Recherche des pages à ajouter à Google Actualités
Googlebot-Vidéo (Googlebot)	Indexe le matériel vidéo
AdsBot-Google-Mobile-Apps	Vérifie la qualité de la publicité dans les applications pour appareils Android, fonctionne selon les mêmes principes qu'un AdsBot classique

Rechercher des robots I index

Agent utilisateur	Les fonctions
Yandex	Lorsque vous spécifiez ce jeton d'agent dans robots.txt, la demande est envoyée à tous les robots Yandex
YandexBot	Robot d'indexation de base
YandexDirect	Télécharge des informations sur le contenu des sites partenaires de YAN
YandexImages	Indexe les images de sites Web
YandexMetrika	Robot Yandex.Metrica
YandexMobileBot	Télécharge des documents pour analyser la présence d'une mise en page pour les appareils mobiles
YandexMédias	Robot indexant les données multimédia
YandexActualités	Indexeur Yandex.News
YandexPagechecker	Validateur de micro-balisage
Marché Yandex	Robot Yandex.Market ;
YandexCalenda	Robot Yandex.Calendrier
YandexDirectDyn	Génère des bannières dynamiques (Direct)
YaDirectFetcher	Télécharge des pages avec des publicités pour vérifier leur disponibilité et clarifier le sujet (YAN)
YandexAccessibilitéBot	Pages de téléchargement pour vérifier leur disponibilité pour les utilisateurs
YandexCapture d'écranBot	Prend un instantané (capture d'écran) de la page
YandexVideoParser	Araignée du service Yandex.Video
YandexSearchShop	Télécharge les fichiers YML des catalogues de produits
YandexOntoDBAPI	Bot de réponse aux objets téléchargeant des données dynamiques

Autres robots de recherche populaires

Agent utilisateur	Les fonctions
Araignée Baidus	Araignée du moteur de recherche chinois Baidu
Cliqzbot	Robot du moteur de recherche anonyme Cliqz
AhrefsBot	Bot de recherche Ahrefs (analyse des liens)
Génieo	Robot de service Génieo
Bingbot	Robot d'exploration du moteur de recherche Bing
Slurp	Robot d'exploration du moteur de recherche Yahoo
CanardCanardBot	Robot d'exploration Web PS DuckDuckGo
facebot	Robot Facebook pour l'exploration du Web
WebAlta (WebAlta Crawler/2.0)	Robot de recherche PS WebAlta
BomboraBot	Scanne les pages impliquées dans le projet Bombora
CCBot	Crawler basé sur Nutch qui utilise le projet Apache Hadoop
MSNBot	Bot PS MSN
Mail.Ru	Robot d'exploration du moteur de recherche Mail.Ru
ia_archiver	Suppression des données pour le service Alexa
Théoma	Demander au robot de service

Il existe de nombreux robots de recherche, j'ai sélectionné uniquement les plus populaires et les plus connus. Si vous avez rencontré des robots en raison d'une analyse agressive et persistante des sites, veuillez l'indiquer dans les commentaires, je les ajouterai également au tableau.

Mes amis, je vous souhaite à nouveau la bienvenue ! Nous allons maintenant examiner ce que sont les robots de recherche et parler en détail du robot de recherche Google et de la manière d'être ami avec eux.

Vous devez d’abord comprendre ce que sont réellement les robots de recherche ; ils sont également appelés araignées. Quel travail font les robots des moteurs de recherche ?

Ce sont des programmes qui vérifient les sites. Ils parcourent tous les articles et pages de votre blog, collectent des informations qu'ils transmettent ensuite à la base de données du moteur de recherche pour lequel ils travaillent.

Vous n’avez pas besoin de connaître la liste complète des robots de recherche, le plus important est de savoir que Google compte désormais deux araignées principales, appelées « panda » et « pingouin ». Ils luttent contre les contenus de mauvaise qualité et les liens indésirables, et vous devez savoir comment repousser leurs attaques.

Le robot de recherche Google Panda a été créé pour promouvoir uniquement du matériel de haute qualité dans les recherches. Tous les sites dont le contenu est de mauvaise qualité sont relégués au bas des résultats de recherche.

Cette araignée est apparue pour la première fois en 2011. Avant son apparition, il était possible de promouvoir n’importe quel site Web en publiant une grande quantité de texte dans des articles et en utilisant une énorme quantité de mots-clés. Ensemble, ces deux techniques ont amené le contenu de mauvaise qualité en tête des résultats de recherche, et les bons sites ont été relégués au bas des résultats de recherche.

« Panda » a immédiatement mis les choses en ordre en vérifiant tous les sites et en remettant chacun à sa juste place. Bien qu’il soit confronté à un contenu de mauvaise qualité, il est désormais possible de promouvoir même de petits sites avec des articles de haute qualité. Même si auparavant il était inutile de promouvoir de tels sites, ils ne pouvaient pas rivaliser avec les géants qui proposent une grande quantité de contenu.

Voyons maintenant comment éviter les sanctions « panda ». Vous devez d’abord comprendre ce qu’elle n’aime pas. J'ai déjà écrit ci-dessus qu'elle a du mal avec les mauvais contenus, mais quel type de texte est mauvais pour elle, voyons-le afin de ne pas le publier sur notre site Web.

Le robot de recherche Google s'efforce de garantir que ce moteur de recherche ne fournisse que des matériaux de haute qualité aux demandeurs d'emploi. Si vous avez des articles qui contiennent peu d'informations et qui ne sont pas attrayants en apparence, réécrivez de toute urgence ces textes afin que le « panda » ne vous atteigne pas.

Le contenu de haute qualité peut être à la fois grand et petit, mais si l'araignée voit un long article contenant beaucoup d'informations, il sera alors plus utile au lecteur.

Il faut alors constater les doublons, autrement dit le plagiat. Si vous pensez que vous allez réécrire les articles d’autres personnes sur votre blog, alors vous pouvez immédiatement mettre un terme à votre site. La copie est strictement punie par l'application d'un filtre, et Le plagiat est vérifié très facile, j'ai écrit un article sur le sujet comment vérifier l'unicité des textes.

La prochaine chose à remarquer est la sursaturation du texte avec des mots-clés. Quiconque pense pouvoir rédiger un article en utilisant uniquement des mots-clés et occuper la première place dans les résultats de recherche se trompe lourdement. J'ai un article sur la façon de vérifier la pertinence des pages, assurez-vous de le lire.

Et une autre chose qui peut attirer un « panda » vers vous, ce sont les vieux articles moralement dépassés et qui n'apportent pas de trafic vers le site. Ils doivent absolument être mis à jour.

Il existe également un robot de recherche Google « pingouin ». Cette araignée combat le spam et les liens indésirables sur votre site. Il calcule également les liens achetés à partir d’autres ressources. Par conséquent, afin de ne pas avoir peur de ce robot de recherche, vous ne devez pas acheter de liens, mais publier du contenu de haute qualité afin que les gens créent eux-mêmes des liens vers vous.

Formulons maintenant ce qui doit être fait pour que le site soit parfait aux yeux d'un robot de recherche :

Pour créer un contenu de qualité, recherchez d’abord bien le sujet avant d’écrire l’article. Ensuite, vous devez comprendre que les gens sont vraiment intéressés par ce sujet.

Utilisez des exemples et des images spécifiques, cela rendra l'article vivant et intéressant. Divisez le texte en petits paragraphes pour le rendre facile à lire. Par exemple, si vous ouvrez une page de blagues dans un journal, lesquelles liriez-vous en premier ? Bien entendu, chacun lit d’abord des textes courts, puis des textes plus longs et enfin de longs enveloppements de pieds.

Le reproche favori du « panda » est le manque de pertinence d’un article contenant des informations périmées. Suivez les mises à jour et modifiez les textes.

Gardez une trace de la densité des mots-clés ; j’ai écrit ci-dessus comment déterminer cette densité ; dans le service que j’ai décrit, vous recevrez le nombre exact de mots-clés requis.

Ne plagiez pas, tout le monde sait qu’on ne peut pas voler les affaires ou les textes des autres – c’est la même chose. Vous serez puni en cas de vol en vous laissant prendre dans le filtre.

Écrivez des textes d'au moins deux mille mots, un tel article aura alors l'air informatif aux yeux des robots des moteurs de recherche.

Restez dans le sujet avec votre blog. Si vous gérez un blog sur la manière de gagner de l'argent sur Internet, vous n'avez pas besoin de publier des articles sur les armes à air comprimé. Cela peut réduire la note de votre ressource.

Concevez magnifiquement vos articles, divisez-les en paragraphes et ajoutez des images pour que vous aimiez lire et que vous ne vouliez pas quitter le site rapidement.

Lorsque vous achetez des liens, dirigez-les vers les articles les plus intéressants et les plus utiles que les gens liront réellement.

Eh bien, vous savez maintenant quel est le travail des robots des moteurs de recherche et vous pouvez être ami avec eux. Et surtout, le robot de recherche Google, ainsi que « panda » et « pingouin », ont été étudiés en détail par vous.

Site sur l'informatique