Recommandations pour la configuration du fichier txt des robots

/ Vues : 21953

Bonjour chers amis! Vérifier le fichier robots.txt est aussi important que de le rédiger correctement.

Examen fichier de robots.txt dans Panneaux Yandex et les webmasters de Google.

En vérifiant le fichier robots.txt, pourquoi est-il important de vérifier ?

Tôt ou tard, tout auteur de site internet qui se respecte se souvient du fichier robots. Il y a beaucoup d’écrits sur Internet à propos de ce fichier, situé à la racine du site. Presque tous les webmasters ont un site Web sur la pertinence et l'exactitude de sa composition. Dans cet article, je rappellerai aux blogueurs débutants comment le vérifier à l'aide des outils du panneau des webmasters fournis par Yandex et Google.

Tout d’abord, un peu de lui. Fichier Robots.txt (parfois appelé à tort robot.txt, singulier, note lettre anglaise s à la fin est obligatoire) est créé par les webmasters pour marquer ou interdire certains fichiers et dossiers du site Web, par exemple rechercher des araignées(ainsi que d'autres types de robots). C'est-à-dire les fichiers auxquels le robot du moteur de recherche ne devrait pas avoir accès.

La vérification du fichier robots.txt est un attribut obligatoire pour un auteur de site Web lors de la création d'un blog sur WordPress et de sa promotion ultérieure. De nombreux webmasters veillent également à consulter les pages du projet. L'analyse indique aux robots la syntaxe correcte pour garantir qu'elle est dans un format valide. Le fait est qu’il existe une norme d’exception pour les robots établie. Il serait bon de connaître l'avis des moteurs de recherche eux-mêmes ; de lire la documentation, dans laquelle les moteurs de recherche détaillent leur vision de ce fichier.

Tout cela ne sera pas superflu afin de protéger davantage votre site des erreurs lors de l'indexation. Je connais des exemples où, en raison d'un fichier mal compilé, un signal a été donné pour interdire sa visibilité sur le réseau. Si vous continuez à le corriger, vous risquez d'attendre longtemps que la situation autour du site change.

Je ne m'attarderai pas sur la compilation correcte du fichier lui-même dans cet article. Il existe de nombreux exemples sur Internet, vous pouvez aller sur le blog de n’importe qui blogueur populaire et ajoutez /robots.txt à la fin de son domaine pour vérification. Le navigateur affichera sa version, que vous pourrez utiliser comme base. Cependant, chacun a ses propres exceptions, vous devez donc vérifier la conformité spécifiquement pour votre site. En outre, une description et un exemple du texte correct pour un blog WordPress peuvent être trouvés à l’adresse :

Plan du site : http://votre site/sitemap.xml

Agent utilisateur : Googlebot-Image

# Google adsense

Agent utilisateur : Mediapartners-Google*

Agent utilisateur : duggmirror

Interdire : /cgi-bin/

Interdire : /wp-admin/

Interdire : /wp-includes/

Interdire : /wp-content/plugins/

Interdire : /wp-content/cache/

Interdire : /wp-content/themes/

Interdire : /trackback/

Interdire : /feed/

Interdire : /commentaires/

Interdire : /category/*/*

Interdire : */trackback/

Interdire : */feed/

Interdire : */commentaires/

Autoriser : /wp-content/uploads/

Il existe quelques différences dans la compilation et la vérification plus approfondie du fichier robots.txt pour les principaux moteurs de recherche Runet. Ci-dessous, je vais donner des exemples de la façon de vérifier dans les panneaux Yandex Webmaster et Google.

Après avoir compilé un fichier et l'avoir téléchargé à la racine de votre site via FTP, vous devez vérifier sa conformité, par exemple avec le moteur de recherche Yandex. De cette façon, nous saurons si nous avons accidentellement fermé les pages qui attireraient des visiteurs vers vous.

Vérification du fichier robots.txt dans le panneau Yandex Webmaster

Vous devez avoir un compte dans le panneau Yandex Webmaster. Après être allé dans les outils et avoir indiqué votre site, il y aura une liste à droite opportunités disponibles. Allez dans l'onglet « Vérifier le fichier robots.txt »

Spécifiez votre domaine et cliquez sur « Charger le fichier robots.txt depuis le site ». Si vous avez compilé un fichier qui indique séparément pour chaque moteur de recherche, vous devez alors sélectionner les lignes pour Yandex et les copier dans le champ ci-dessous. Permettez-moi de vous rappeler que la directive Host: est pertinente pour Yand., alors n'oubliez pas de la saisir dans le champ de vérification. Il ne reste plus qu'à vérifier le fichier robots.txt. Bouton à droite.

Littéralement immédiatement, vous verrez une analyse de Yandex pour vérifier la conformité avec votre robots.txt. Vous trouverez ci-dessous les lignes que Yand. accepté pour examen. Et regardez les résultats des tests. Les directives sont indiquées à gauche de l'Url. À droite, en face, le résultat lui-même. Comme vous pouvez le voir sur la capture d'écran, il serait correct de voir l'inscription en rouge - interdite par la règle et la règle elle-même est indiquée. Si vous avez spécifié une directive pour l'indexation, nous la verrons en vert - autorisé.

Après avoir vérifié robots.txt, vous pouvez corriger votre fichier. Je recommande également de consulter les pages du site. Collez l'adresse URL d'une entrée distincte dans le champ /Liste des URL/. Et à la sortie, nous obtenons le résultat - autorisé. De cette façon, nous pouvons vérifier séparément les interdictions sur les archives, les catégories, etc.

N'oubliez pas de vous abonner : dans le prochain article, j'ai l'intention de vous montrer comment vous inscrire gratuitement au catalogue Mail.ru. Ne manquez pas, .

Comment s'enregistrer chez les webmasters Yandex.

Vérifiez robots.txt dans le panneau Google Webmasters

Connectez-vous à votre compte et cherchez sur la gauche /Statut/ – /URL bloquées/

Nous verrons ici sa présence et la possibilité de le modifier. Si vous devez vérifier la conformité de l'ensemble du site, indiquez l'adresse dans le champ ci-dessous page d'accueil. Il est possible de vérifier comment les différents robots de Google voient votre site en consultant le fichier robots.txt

En plus du bot principal de Google, nous sélectionnons également un robot spécialisé dans différents types contenu (2). Capture d'écran ci-dessous.

  1. Googlebot
  2. Googlebot-Image
  3. Googlebot-Mobile
  4. Mediapartners-Google – Statistiques AdSense
  5. AdsBot-Google – contrôle de la qualité de la page de destination.

Je n'ai pas trouvé d'indicateurs pour les autres robots Google :

  • Vidéo Googlebot
  • Googlebot-Actualités

Par analogie avec la vérification du fichier robots.txt dans le panneau Yandex, il est également possible d'analyser ici page séparée site. Après vérification, vous verrez le résultat séparément pour chaque robot de recherche.

Si vous n'êtes pas satisfait des résultats du contrôle, vous pouvez continuer à modifier. Et une vérification plus approfondie.

Analyse Robots.txt en ligne

En plus de ces options, vous pouvez également analyser le fichier robots.txt à l'aide de services en ligne. Ceux que j’ai trouvés étaient pour la plupart en anglais. J'ai aimé ce service. Après analyse, des recommandations pour y remédier seront données.

tool.motoricerca.info/robots-checker.phtml

C'est tout. J'espère que vérifier le fichier robots.txt à travers les yeux de Yandex et de Google ne vous a pas dérangé ? Si vous constatez qu'il ne correspond pas à vos envies, vous pouvez toujours le modifier puis le ré-analyser. Merci pour votre tweet sur Twitter et votre like sur Facebook !

Tout d’abord, je vais vous dire ce qu’est robots.txt.

Robots.txt– un fichier qui se trouve dans le dossier racine du site où ils sont enregistrés instructions spéciales pour les robots de recherche. Ces instructions sont nécessaires pour qu'en entrant sur le site, le robot ne tienne pas compte de la page/section ; autrement dit, nous fermons la page de l'indexation.

Pourquoi avons-nous besoin de robots.txt ?

Le fichier robots.txt est considéré comme une exigence clé pour l’optimisation du référencement de n’importe quel site Web. L'absence de ce fichier peut affecter négativement la charge des robots et ralentir l'indexation et, de plus, le site ne sera pas complètement indexé. En conséquence, les utilisateurs ne pourront pas accéder aux pages via Yandex et Google.

Impact du robots.txt sur les moteurs de recherche ?

Moteurs de recherche(surtout Google) indexera le site, mais s'il n'y a pas de fichier robots.txt, alors, comme je l'ai dit, pas toutes les pages. S'il existe un tel fichier, alors les robots sont guidés par les règles spécifiées dans ce fichier. Par ailleurs, il existe plusieurs types de robots de recherche ; certains peuvent prendre en compte la règle, tandis que d’autres l’ignorent. En particulier, le robot GoogleBot ne prend pas en compte les directives Host et Crawl-Delay, le robot YandexNews a récemment cessé de prendre en compte la directive Crawl-Delay, et les robots YandexDirect et YandexVideoParser ignorent les directives généralement acceptées dans robots.txt (mais prendre en compte ceux qui sont écrits spécifiquement pour eux).

Le site est le plus chargé par les robots qui chargent le contenu de votre site. En conséquence, si nous indiquons au robot quelles pages indexer et lesquelles ignorer, ainsi que à quels intervalles de temps charger le contenu des pages (cela s'applique davantage aux grands sites qui ont plus de 100 000 pages dans l'index du moteur de recherche). Cela permettra au robot d’indexer et de télécharger beaucoup plus facilement le contenu du site.


Les fichiers inutiles pour les moteurs de recherche incluent les fichiers appartenant au CMS, par exemple dans Wordpress – /wp-admin/. De plus, les scripts ajax, json sont responsables des formulaires contextuels, des bannières, de la sortie captcha, etc.

Pour la plupart des robots, je recommande également de bloquer l’indexation de tous les fichiers Javascript et CSS. Mais pour GoogleBot et Yandex, il est préférable d'indexer ces fichiers, car ils sont utilisés par les moteurs de recherche pour analyser la commodité du site et son classement.

Qu'est-ce qu'une directive robots.txt ?



Directives– ce sont les règles pour les robots de recherche. Les premières normes d'écriture de robots.txt sont apparues en 1994 et la norme étendue en 1996. Cependant, comme vous le savez déjà, tous les robots ne prennent pas en charge certaines directives. Par conséquent, j'ai décrit ci-dessous par quoi les principaux robots sont guidés lors de l'indexation des pages d'un site Web.

Que signifie User-Agent ?

Il s’agit de la directive la plus importante qui détermine quels robots de recherche suivront d’autres règles.

Pour tous les robots :

Pour un bot spécifique :

Agent utilisateur : Googlebot

Le registre dans robots.txt n'est pas important, vous pouvez écrire à la fois Googlebot et googlebot

Robots de recherche Google







Robots de recherche Yandex

Le robot d'indexation principal de Yandex

Utilisé dans le service Yandex.Images

Utilisé dans le service Yandex.Video

Données multimédia

Recherche de blogs

Robot de recherche, en accédant à la page lors de son ajout via le formulaire "Ajouter une URL"

robot qui indexe les icônes de sites Web (favicons)

Yandex.Direct

Yandex.Metrica

Utilisé dans le service Yandex.Catalog

Utilisé dans le service Yandex.News

YandexImageResizer

Robot de recherche de services mobiles

Robots de recherche Bing, Yahoo, Mail.ru, Rambler

Directives Interdire et Autoriser

Interdire l’indexation des sections et des pages de votre site. En conséquence, Allow, au contraire, les ouvre.

Il y a quelques particularités.

Premièrement, les opérateurs supplémentaires sont *, $ et #. Pour quoi sont-ils utilisés?

“*” – c'est n'importe quel nombre de personnages et leur absence. Par défaut, il est déjà en fin de ligne, cela ne sert donc à rien de le remettre.

“$” – indique que le caractère qui le précède doit venir en dernier.

“#” – commentaire, le robot ne prend pas en compte tout ce qui vient après ce symbole.

Exemples d'utilisation de Disallow :

Interdire : *?s=

Interdire : /catégorie/

En conséquence, le robot de recherche fermera des pages telles que :

Mais des pages comme celle-ci seront ouvertes à l’indexation :

Vous devez maintenant comprendre comment les règles d’imbrication sont exécutées. L’ordre dans lequel les directives sont rédigées est absolument important. L'héritage des règles est déterminé par les répertoires spécifiés, c'est-à-dire que si nous voulons bloquer l'indexation d'une page/d'un document, il suffit d'écrire une directive. Regardons un exemple

Ceci est notre fichier robots.txt

Interdire : /modèle/

Cette directive peut également être spécifiée n'importe où, et plusieurs fichiers de plan de site peuvent être spécifiés.

Directive hôte dans robots.txt

Cette directive est nécessaire pour indiquer le miroir principal du site (souvent avec ou sans www). Veuillez noter que la directive host est spécifiée sans protocole http://, mais avec le protocole https://. La directive n'est prise en compte que par les robots de recherche Yandex et Mail.ru, et les autres robots, dont GoogleBot, ne prendront pas en compte la règle. L'hôte doit être spécifié une fois dans le fichier robots.txt

Exemple avec http://

Hébergeur : site web.ru

Exemple avec https://

Directive de délai d'exploration

Définit l'intervalle de temps d'indexation des pages du site par un robot de recherche. La valeur est indiquée en secondes et millisecondes.

Exemple:

Principalement utilisé sur grands magasins en ligne, sites d'information, portails, où le trafic du site est de 5 000 par jour. Il est nécessaire que le robot de recherche fasse une demande d'indexation dans un certain délai. Si cette directive n'est pas spécifiée, cela peut créer une charge importante sur le serveur.

La valeur optimale du délai d'exploration est différente pour chaque site. Pour les moteurs de recherche Systèmes de messagerie, Bing, la valeur Yahoo peut être définie valeur minimum 0,25, 0,3, puisque ces robots des moteurs de recherche peuvent explorer votre site une fois par mois, 2 mois, etc. (très rarement). Pour Yandex, il est préférable de définir une valeur plus élevée.


Si la charge sur votre site est minime, alors cela ne sert à rien de spécifier cette directive.

Directive de paramétrage propre

La règle est intéressante car elle indique au robot que les pages avec certains paramètres n'ont pas besoin d'être indexées. Deux arguments sont spécifiés : l'URL de la page et le paramètre. Cette directive est prise en charge par le moteur de recherche Yandex.

Exemple:

Interdire : /admin/

Interdire : /plugins/

Interdire : /recherche/

Interdire : /cart/

Interdire : *trier=

Interdire : *view=

Agent utilisateur : GoogleBot

Interdire : /admin/

Interdire : /plugins/

Interdire : /recherche/

Interdire : /cart/

Interdire : *trier=

Interdire : *view=

Autoriser : /plugins/*.css

Autoriser : /plugins/*.js

Autoriser : /plugins/*.png

Autoriser : /plugins/*.jpg

Autoriser : /plugins/*.gif

Agent utilisateur : Yandex

Interdire : /admin/

Interdire : /plugins/

Interdire : /recherche/

Interdire : /cart/

Interdire : *trier=

Interdire : *view=

Autoriser : /plugins/*.css

Autoriser : /plugins/*.js

Autoriser : /plugins/*.png

Autoriser : /plugins/*.jpg

Autoriser : /plugins/*.gif

Clean-Param : utm_source&utm_medium&utm_campaign

Dans l’exemple, nous avons noté les règles de 3 robots différents.

Où ajouter robots.txt ?

Ajouté au dossier racine du site. De plus, pour que vous puissiez suivre le lien :

Comment vérifier le fichier robots.txt ?

Webmestre Yandex

Dans l'onglet Outils, sélectionnez Analyse Robots.txt, puis cliquez sur Vérifier.

Recherche Google Console

Sur l'onglet Balayage choisir Outil d'inspection de fichiers Robots.txt puis cliquez sur vérifier.

Conclusion:

Le fichier robots.txt doit être présent sur chaque site Internet promu, et seule sa configuration correcte vous permettra d'obtenir l'indexation nécessaire.

Et enfin, si vous avez des questions, posez-les dans les commentaires sous l'article et je me demande aussi, comment écrivez-vous robots.txt ?

Le fichier sitemap.xml et le robots.txt correct pour le site sont deux documents obligatoires qui contribuent à l'indexation rapide et complète de toutes les pages nécessaires d'une ressource Web par les robots de recherche. Une indexation correcte du site dans Yandex et Google est la clé d'une promotion réussie d'un blog dans les moteurs de recherche.

J'ai déjà écrit comment créer un plan de site au format XML et pourquoi il est nécessaire. Parlons maintenant de la façon de créer le fichier robots.txt correct pour un site WordPress et pourquoi il est nécessaire en général. Des informations détaillées des informations sur ce fichier peuvent être obtenues respectivement auprès de Yandex et de Google eux-mêmes. J'entrerai dans le vif du sujet et aborderai les paramètres de base du fichier robots.txt pour WordPress en utilisant mon fichier comme exemple.

Pourquoi avez-vous besoin d’un fichier robots.txt pour un site Web ?

Le standard robots.txt est apparu en janvier 1994. Lors de l'analyse d'une ressource Web, les robots de recherche recherchent d'abord fichier texte robots.txt, situé dans le dossier racine du site ou du blog. Avec son aide, nous pouvons préciser certaines règles aux robots des différents moteurs de recherche selon lesquelles ils indexeront le site.

Configurer correctement robots.txt vous permettra de :

  • exclure les doublons et diverses pages indésirables de l'index ;
  • interdire l'indexation des pages, fichiers et dossiers que l'on souhaite cacher ;
  • refuser généralement l'indexation à certains robots de recherche (par exemple Yahoo, afin de masquer les informations sur les liens entrants aux concurrents) ;
  • indiquer le miroir principal du site (avec www ou sans www) ;
  • spécifiez le chemin d'accès au plan du site sitemap.xml.

Comment créer le fichier robots.txt correct pour un site

Il existe des générateurs et des plugins spéciaux à cet effet, mais il est préférable de le faire manuellement.

Il vous suffit de créer un fichier texte ordinaire appelé robots.txt, à l'aide de n'importe quel éditeur de texte (par exemple, Notepad ou Notepad++) et de le télécharger sur votre hébergement dans le dossier racine de votre blog. Certaines directives doivent être écrites dans ce fichier, c'est-à-dire règles d'indexation pour les robots de Yandex, Google, etc.

Si vous êtes trop paresseux pour vous en préoccuper, je donnerai ci-dessous un exemple, de mon point de vue, du fichier robots.txt correct pour WordPress de mon blog. Vous pouvez l'utiliser en remplaçant le nom de domaine à trois endroits.

Règles et directives de création de Robots.txt

Pour réussir optimisation du moteur de recherche blog, vous devez connaître quelques règles pour créer des robots.txt :

  • Absence ou fichier vide robots.txt signifiera que les moteurs de recherche seront autorisés à indexer tout le contenu d'une ressource Web.
  • robots.txt devrait s'ouvrir sur votre site.ru/robots.txt, donnant au robot un code de réponse de 200 OK et ne dépassant pas 32 Ko. Un fichier qui ne peut pas être ouvert (par exemple, en raison d'une erreur 404) ou plus grande taille, sera considéré comme permissif.
  • Le nombre de directives dans le fichier ne doit pas dépasser 1 024. La longueur d'une ligne ne doit pas dépasser 1 024 caractères.
  • Un fichier robots.txt valide peut contenir plusieurs instructions, chacune devant commencer par une directive User-agent et contenir au moins une directive Disallow. Habituellement, ils écrivent des instructions dans robots.txt pour Google et tous les autres robots et séparément pour Yandex.

Directives robots.txt de base :

User-agent – ​​​​​​indique à quel robot de recherche l’instruction est adressée.

Le symbole « * » signifie que cela s'applique à tous les robots, par exemple :

Agent utilisateur: *

Si nous devons créer une règle dans robots.txt pour Yandex, alors nous écrivons :

Agent utilisateur : Yandex

Si une directive est spécifiée pour un robot spécifique, la directive User-agent: * n'est pas prise en compte par celui-ci.

Interdire et Autoriser – respectivement, interdisent et autorisent les robots à indexer les pages spécifiées. Toutes les adresses doivent être spécifiées à partir de la racine du site, c'est-à-dire à partir de la troisième barre oblique. Par exemple:

  • Interdire à tous les robots d'indexer l'intégralité du site :

    Agent utilisateur: *
    Interdire : /

  • Il est interdit à Yandex d'indexer toutes les pages commençant par /wp-admin :

    Agent utilisateur : Yandex
    Interdire : /wp-admin

  • La directive Disallow vide permet d'indexer tout et est similaire à Allow. Par exemple, j'autorise Yandex à indexer l'intégralité du site :

    Agent utilisateur : Yandex
    Refuser:

  • Et vice versa, j'interdis à tous les robots de recherche d'indexer toutes les pages :

    Agent utilisateur: *
    Permettre:

  • Les directives Allow et Disallow du même bloc User-agent sont triées par longueur de préfixe d'URL et exécutées séquentiellement. Si plusieurs directives conviennent à une page du site, alors la dernière de la liste est exécutée. Désormais, l'ordre dans lequel elles sont écrites n'a plus d'importance lorsque le robot utilise les directives. Si les directives ont des préfixes de même longueur, Allow est exécuté en premier. Ces règles sont entrées en vigueur le 8 mars 2012. Par exemple, il permet d'indexer uniquement les pages commençant par /wp-includes :

    Agent utilisateur : Yandex
    Interdire : /
    Autoriser : /wp-includes

Plan du site – Spécifie l'adresse du plan du site XML. Un site peut avoir plusieurs directives Sitemap, qui peuvent être imbriquées. Toutes les adresses des fichiers Sitemap doivent être spécifiées dans robots.txt pour accélérer l'indexation du site :

Plan du site : http://site/sitemap.xml.gz
Plan du site : http://site/sitemap.xml

Hôte – indique au robot miroir quel miroir de site Web considérer comme le miroir principal.

Si le site est accessible à plusieurs adresses (par exemple avec www et sans www), cela crée des pages en double complètes, qui peuvent être interceptées par le filtre. Aussi, dans ce cas, ce n'est peut-être pas la page principale qui est indexée, mais la page principale, au contraire, sera exclue de l'index du moteur de recherche. Pour éviter cela, utilisez la directive Host, qui est prévue dans le fichier robots.txt uniquement pour Yandex et il ne peut y en avoir qu'une. Il est écrit après Disallow et Allow et ressemble à ceci :

Hébergeur : site internet

Crawl-delay – définit le délai entre le téléchargement des pages en secondes. Utilisé s'il y a une charge importante et que le serveur n'a pas le temps de traiter les requêtes. Sur les sites jeunes, il vaut mieux ne pas utiliser la directive Crawl-delay. C'est écrit ainsi :

Agent utilisateur : Yandex
Délai d'exploration : 4

Clean-param – pris en charge uniquement par Yandex et utilisé pour éliminer les pages en double avec des variables, en les fusionnant en une seule. Ainsi, le robot Yandex ne téléchargera pas plusieurs fois des pages similaires, par exemple celles associées à des liens de référence. Je n'ai pas encore utilisé cette directive, mais dans l'aide sur robots.txt pour Yandex, suivez le lien au début de l'article, vous pourrez lire cette directive en détail.

Les caractères spéciaux * et $ sont utilisés dans robots.txt pour indiquer les chemins des directives Disallow et Allow :

  • Le caractère spécial « * » désigne toute séquence de caractères. Par exemple, Disallow: /*?* signifie une interdiction de toutes les pages où « ? » apparaît dans l'adresse, quels que soient les caractères précédant et suivant ce caractère. Par défaut, le caractère spécial « * » est ajouté à la fin de chaque règle, même s'il n'est pas précisé spécifiquement.
  • Le symbole « $ » annule le « * » à la fin de la règle et signifie une correspondance stricte. Par exemple, la directive Disallow: /*?$ interdira l'indexation des pages se terminant par le caractère « ? ».

Exemple de fichier robots.txt pour WordPress

Voici un exemple de mon fichier robots.txt pour un blog sur le moteur WordPress :

Agent utilisateur : * Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : / trackback Interdire : */trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?s= Agent utilisateur : Yandex Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : /trackback Interdire : */ trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?.ru/sitemap.xml..xml

Agent utilisateur : * Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : / trackback Interdire : */trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?s= Agent utilisateur : Yandex Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : /trackback Interdire : */ trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?.ru/sitemap.xml..xml

Afin de ne pas vous tromper en créant le bon robots.txt pour WordPress, vous pouvez utiliser ce fichier. Il n'y a aucun problème avec l'indexation. J'ai un script de protection contre la copie, il sera donc plus pratique de télécharger le fichier robots.txt prêt à l'emploi et de le télécharger sur votre hébergement. N'oubliez pas de remplacer le nom de mon site par le vôtre dans les directives Host et Sitemap.

Ajouts utiles pour configurer correctement le fichier robots.txt pour WordPress

Si des commentaires arborescents sont installés sur votre blog WordPress, ils créent alors des pages en double du formulaire ?replytocom= . Dans robots.txt, ces pages sont fermées avec la directive Disallow: /*?*. Mais ce n’est pas une solution et il vaut mieux lever les interdictions et combattre les réponses à réponse d’une autre manière. Quoi, .

Ainsi, le fichier robots.txt actuel en juillet 2014 ressemble à ceci :

Agent utilisateur : * Interdire : /wp-includes Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Agent utilisateur : Yandex Interdire : /wp -inclut Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Hôte : site.ru Agent utilisateur : Googlebot-Image Autoriser : /wp-content /uploads/ Agent utilisateur : YandexImages Autoriser : /wp-content/uploads/ Plan du site : http://site.ru/sitemap.xml

Agent utilisateur : * Interdire : /wp-includes Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Agent utilisateur : Yandex Interdire : /wp -inclut Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Hôte : site.ru Agent utilisateur : Googlebot-Image Autoriser : /wp-content /uploads/ Agent utilisateur : YandexImages Autoriser : /wp-content/uploads/ Plan du site : http://site.ru/sitemap.xml

Il définit également les règles applicables aux robots d’indexation d’images.

Agent utilisateur : Mediapartners-Google
Refuser:

Si vous envisagez de promouvoir des pages de catégories ou de balises, vous devez les ouvrir aux robots. Par exemple, sur un site de blog, les catégories ne sont pas fermées à l'indexation, puisqu'elles ne publient que de petites annonces d'articles, ce qui est assez insignifiant en termes de duplication de contenu. Et si vous utilisez l'affichage de citations dans le flux du blog, qui sont remplies d'annonces uniques, il n'y aura aucune duplication.

Si vous n'utilisez pas le plugin ci-dessus, vous pouvez spécifier dans votre fichier robots.txt d'interdire l'indexation des balises, des catégories et des archives. Par exemple, en ajoutant les lignes suivantes :

Interdire : /auteur/
Interdire : /tag
Interdire : /category/*/*
Interdire : /20*

N'oubliez pas de vérifier le fichier robots.txt dans le panneau Yandex.Webmaster, puis de le télécharger à nouveau sur votre hébergement.

Si vous avez des ajouts pour configurer robots.txt, écrivez-le dans les commentaires. Regardez maintenant une vidéo expliquant de quoi il s'agit et comment créer le fichier robots.txt correct pour un site, comment interdire l'indexation dans le fichier robots.txt et corriger les erreurs.

L'indexation correcte des pages d'un site Web dans les moteurs de recherche est l'une des tâches importantes auxquelles est confronté le propriétaire de la ressource. Entrer dans l'index pages inutiles peut conduire à une diminution du nombre de documents lors de la délivrance. Pour résoudre ces problèmes, le consortium W3C a adopté le 30 janvier 1994 une norme d'exception pour les robots - robots.txt.

Qu'est-ce que Robots.txt ?

Robots.txt est un fichier texte sur le site contenant des instructions pour les robots sur les pages autorisées à être indexées et celles qui ne le sont pas. Mais il ne s'agit pas d'instructions directes destinées aux moteurs de recherche ; ces instructions sont plutôt de nature consultative, par exemple, comme l'écrit Google, si le site a Liens externes, alors la page sera indexée.

Dans l'illustration, vous pouvez voir l'indexation d'une ressource sans le fichier Robots.txt et avec celui-ci.

Ce qui devrait être bloqué lors de l'indexation :

  • pages de services du site
  • documents en double
  • pages avec des données privées
  • résultat de la recherche de ressources
  • trier les pages
  • pages de connexion et d'inscription
  • comparaisons de produits

Comment créer et ajouter Robots.txt au site ?

Robots.txt est un fichier texte brut qui peut être créé dans le Bloc-notes en suivant la syntaxe standard décrite ci-dessous. Un seul fichier de ce type est nécessaire pour un site.

Le fichier doit être ajouté au répertoire racine du site et il doit être disponible sur : http://www.site.ru/robots.txt

Syntaxe du fichier Robots.txt

Les instructions destinées aux robots de recherche sont spécifiées à l'aide de directives avec divers paramètres.

Directive utilisateur-agent

À l'aide de cette directive, vous pouvez spécifier pour quel robot du moteur de recherche les recommandations suivantes seront spécifiées. Le fichier robots doit commencer par cette directive. Total officiellement en World Wide Web Il existe 302 robots de ce type, mais si vous ne souhaitez pas tous les lister, vous pouvez utiliser la ligne suivante :

Où * est un caractère spécial pour désigner n'importe quel robot.

Liste des robots de recherche populaires :

  • Googlebot est le robot principal de Google ;
  • YandexBot est le principal robot d'indexation ;
  • Googlebot-Image - robot d'images ;
  • YandexImages - Robot d'indexation Yandex.Images ;
  • Yandex Metrika - Robot Yandex.Metrica ;
  • Marché Yandex : robot Yandex.Market ;
  • Googlebot-Mobile est un indexeur de versions mobiles.

Directives Interdire et Autoriser

À l'aide de ces directives, vous pouvez spécifier quelles sections ou fichiers peuvent être indexés et lesquels ne le doivent pas.

Refuser- directive interdisant l'indexation des documents sur la ressource. La syntaxe de la directive est la suivante :

Interdire : /site/

DANS dans cet exemple Toutes les pages de la section site.ru/site/ ont été fermées aux moteurs de recherche de l'indexation

Note: Si cette directive est spécifiée vide, cela signifie que l'ensemble du site est ouvert à l'indexation. Si vous précisez Interdire : /- cela bloquera l'indexation de l'ensemble du site.

  • Pour interdire un dossier de site, spécifiez les éléments suivants :
    Interdire : /dossier/
  • Pour bannir un seul fichier, vous devez écrire :
    Interdire : /folder/img.jpg
  • Si vous souhaitez restreindre les fichiers d'une certaine résolution uniquement :
    Interdire : /*.css$
  • Allow, au contraire, est une instruction permissive pour l’indexation.
    Agent utilisateur: *
    Autoriser : /site
    Interdire : /

    Cette instruction interdit d'indexer l'intégralité du site, à l'exception du dossier du site.

Directive sur le plan du site

Si le site dispose d'un fichier décrivant la structure du site sitemap.xml, le chemin d'accès à celui-ci peut être spécifié dans robots.txt en utilisant Directives du plan du site. S'il existe plusieurs fichiers de ce type, vous pouvez les lister dans les robots :

Agent utilisateur: *
Interdire : /site/
Permettre: /
Plan du site : http://site.com/sitemap1.xml
Plan du site : http://site.com/sitemap2.xml

La directive peut être spécifiée dans n’importe quelle instruction de n’importe quel robot.

Directive hôte

Host est une instruction directement destinée au robot Yandex pour indiquer le miroir principal du site. Cette directive est nécessaire si le site dispose de plusieurs domaines via lesquels il est accessible. Vous devez spécifier Hôte dans la section pour les robots Yandex :

Agent utilisateur : Yandex
Interdire : /site/
Hébergeur : site.ru

Note: Si le miroir principal du site est un domaine avec le protocole https, alors il faut le préciser dans les robots de cette manière :
Hôte : https://site.ru.

Dans les robots, la directive Host n'est prise en compte qu'une seule fois. S'il y a 2 directives HOST dans le fichier, alors les robots Yandex ne prendront en compte que la première.

Directive de paramétrage propre

Clean-param permet d'interdire l'indexation des pages du site générées avec des paramètres dynamiques. Ces pages peuvent contenir le même contenu, ce qui sera des doublons pour les moteurs de recherche et pourra conduire à un classement inférieur du site.

La directive Clean-param a la syntaxe suivante :

Clean-param : p1[&p2&p3&p4&..&pn] [Chemin d'accès aux pages dynamiques]

Regardons un exemple : le site possède des pages dynamiques :

  • https://site.ru/promo-odezhda/polo.html?kol_from=&price_to=&color=7
  • https://site.ru/promo-odezhda/polo.html?kol_from=100&price_to=&color=7

Afin d'exclure ces pages de l'index, vous devez définir la directive comme suit :

Clean-param : kol_from1&price_to2&pcolor /polo.html # uniquement pour polo.html
ou
Clean-param : kol_from1&price_to2&pcolor / # pour toutes les pages du site

Directive de délai d'exploration

Si les robots des moteurs de recherche visitent une ressource trop souvent, cela peut affecter la charge sur le serveur (pertinent pour les ressources avec gros montant pages). Pour réduire la charge sur le serveur, vous pouvez utiliser la directive Crawl-delay.

Le paramètre pour Crawl-delay est le temps en secondes, qui indique aux robots que les pages ne doivent pas être téléchargées à partir du site plus d'une fois au cours de la période spécifiée.

Exemple d'utilisation de la directive Crawl-delay :

Agent utilisateur: *
Interdire : /site
Délai d'exploration : 4

Caractéristiques du fichier Robots.txt

  • Toutes les directives sont indiquées par nouvelle ligne et vous ne devriez pas lister les directives sur une seule ligne
  • La directive ne doit être précédée d'aucun autre caractère ( y compris l'espace)
  • Les paramètres de la directive doivent être spécifiés sur une seule ligne
  • Les règles dans les robots sont indiquées sous la forme suivante : [DirectiveName] :[espace facultatif][valeur][espace facultatif]
  • Les paramètres n'ont pas besoin d'être spécifiés entre guillemets ou autres caractères
  • Vous ne devez pas utiliser « ; » après les directives.
  • Une ligne vide est interprétée comme la fin de la directive User-agent ; s'il n'y a pas de ligne vide avant le prochain User-agent, alors elle peut être ignorée.
  • Dans les robots, vous pouvez spécifier des commentaires après le signe dièse # (même si le commentaire est déplacé à la ligne suivante, vous devez également mettre un # sur la ligne suivante)
  • Robots.txt ne respecte pas la casse
  • Si le fichier robots pèse plus de 32 Ko ou est pour une raison quelconque inaccessible ou vide, alors il est perçu comme Disallow : (tout peut être indexé)
  • Dans les directives « Allow » et « Disallow », vous ne pouvez spécifier qu'1 seul paramètre
  • Dans les directives « Allow » et « Disallow », le paramètre répertoire du site est indiqué par une barre oblique (par exemple, Disallow : /site)
  • L'utilisation de l'alphabet cyrillique dans les robots n'est pas autorisée

Caractères spéciaux du fichier Robots.txt

Lors de la spécification de paramètres dans les directives Disallow et Allow, il est permis d'utiliser Symboles spéciaux* et $ à préciser expressions régulières. Le symbole * désigne toute séquence de caractères (même vide).

Exemple d'utilisation :

Agent utilisateur: *
Interdire : /store/* .php # interdit "/store/ex.php" et "/store/test/ex1.php"
Interdire : /* tpl # interdit non seulement "/tpl", mais aussi "/tpl/user"

Par défaut, chaque instruction dans les robots a un caractère spécial * à la fin. Afin d'annuler un * à la fin, le caractère spécial $ est utilisé (mais il ne peut pas annuler un * explicitement placé à la fin).

Exemple d'utilisation de $ :

Agent utilisateur: *
Interdire : /site$ # non autorisé pour l'indexation de "/site", mais non autorisé pour "/ex.css"
Agent utilisateur: *
Interdire : /site # "/site" et "/site.css" ne sont pas autorisés pour l'indexation
Agent utilisateur: *
Interdire : /site$ # seul "/site" est interdit d'indexation
Interdire : /site*$ # identique à "Interdire : /site" interdit à la fois /site.css et /site

Fonctionnalités de configuration de robots.txt pour Yandex

La seule particularité de la configuration des robots pour Yandex est la présence du répertoire Host dans les instructions. Examinons les bons robots à l'aide d'un exemple :

Agent utilisateur : Yandex
Interdire : /site
Interdire : /admin
Interdire : /utilisateurs
Interdire : */modèles
Interdire : */css
Hébergeur : www.site.com

Dans ce cas, la directive Host indique aux robots Yandex que le miroir principal du site est www.site.com (mais cette directive est de nature consultative).

Fonctionnalités de configuration de robots.txt pour Google

Pour Fonctionnalité Google La seule chose est que l'entreprise elle-même recommande de ne pas cacher les fichiers avec des styles CSS et des scripts JS aux robots de recherche. Dans ce cas, le robot ressemblera à ceci :

Agent utilisateur : Googlebot
Interdire : /site
Interdire : /admin
Interdire : /utilisateurs
Interdire : */modèles
Autoriser : *.css
Autoriser : *.js
Hébergeur : www.site.com

Grâce aux directives Allow, les feuilles de style et les scripts sont à la disposition des robots de Google ; ils ne seront pas indexés par le moteur de recherche.

Vérifier que les robots sont correctement configurés

Vous pouvez vérifier les erreurs dans le fichier robots.txt à l'aide de l'outil du panneau Yandex.Webmaster :


Vous pouvez également utiliser cet outil pour vérifier si les pages sont autorisées ou interdites à l'indexation :


Un autre outil pour vérifier l'exactitude des robots est le « Robots.txt File Checker Tool » dans Panneaux Google Console de recherche :


Mais cet outil n'est disponible que si le site est ajouté au panel Google Webmaster.

Conclusion

Robots.txt est un outil important pour gérer l'indexation des sites par les moteurs de recherche. Il est très important de le maintenir à jour et de penser à l'ouvrir documents nécessaires pour l'indexation et fermer les pages qui peuvent nuire au bon classement de la ressource dans les résultats de recherche.

Exemple de mise en place de robots pour WordPress

Le fichier robots.txt correct pour Wordpress doit être compilé de cette manière (tout ce qui est spécifié dans les commentaires n'a pas besoin d'être placé) :

Agent utilisateur : Yandex



Hébergeur : www.site.ru

Agent utilisateur : Googlebot
Interdire : /cgi-bin # dossier de stockage du service scripts de serveur
Interdire : /? # tous les paramètres de requête sur la page principale
Interdire : /wp- # Fichiers WP : /wp-json/, /wp-includes, /wp-content/plugins
Interdire : *?s= # résultats de recherche
Interdire : /search # résultats de recherche
Interdire : */page/ # pages de pagination
Interdire : /*print= # pages à imprimer
Autoriser : *.css # ouvrir tous les fichiers de style
Autoriser : *.js # tout ouvrir avec des scripts js

Agent utilisateur: *
Interdire : /cgi-bin # dossier de service pour stocker les scripts du serveur
Interdire : /? # tous les paramètres de requête sur la page principale
Interdire : /wp- # Fichiers WP : /wp-json/, /wp-includes, /wp-content/plugins
Interdire : *?s= # résultats de recherche
Interdire : /search # résultats de recherche
Interdire : */page/ # pages de pagination
Interdire : /*print= # pages à imprimer


Plan du site : http://site.ru/sitemap1.xml

Exemple de mise en place de robots pour Bitrix

Si le site fonctionne sur le moteur Bitrix, les problèmes suivants peuvent survenir :

  • frapper les résultats de recherche grande quantité pages de services ;
  • indexation des pages du site en double.

Éviter problèmes similaires, ce qui peut affecter la position du site dans les résultats de recherche, vous devez configurer correctement le fichier robots.txt. Vous trouverez ci-dessous un exemple de robots.txt pour CMS 1C-Bitrix :

Agent utilisateur : Yandex
Interdire : /personnel/
Interdire : /recherche/
Interdire : /auth/
Interdire : /bitrix/
Interdire : /connexion/
Interdire : /*?action=
Interdire : /?mySort=
Interdire : */filter/
Interdire : */effacer/
Autoriser : /personnel/panier/
HÔTE : https://site.ru

Agent utilisateur: *
Interdire : /personnel/
Interdire : /recherche/
Interdire : /auth/
Interdire : /bitrix/
Interdire : /connexion/
Interdire : /*?action=
Interdire : /?mySort=
Interdire : */filter/
Interdire : */effacer/
Autoriser : /personnel/panier/

Agent utilisateur : Googlebot
Interdire : /personnel/
Interdire : /recherche/
Interdire : /auth/
Interdire : /bitrix/
Interdire : /connexion/
Interdire : /*?action=
Interdire : /?mySort=
Interdire : */filter/
Interdire : */effacer/
Autoriser : /bitrix/js/
Autoriser : /bitrix/templates/
Autoriser : /bitrix/tools/conversion/ajax_counter.php
Autoriser : /bitrix/components/main/
Autoriser : /bitrix/css/
Autoriser : /bitrix/templates/comfer/img/logo.png
Autoriser : /personnel/panier/
Plan du site : https://site.ru/sitemap.xml

Exemple de mise en place de robots pour OpenCart

Le fichier robots.txt correct pour OpenCart doit être composé comme ceci :

Agent utilisateur : Yandex
Interdire : /*route=compte/
Interdire : /*route=affilié/
Interdire : /*route=checkout/
Interdire : /index.php
Interdire : /admin
Interdire : /catalogue
Interdire : /télécharger
Interdire : /export
Interdire : /système
Interdire : /*?sort=
Interdire : /*&sort=
Interdire : /*?order=
Interdire : /*&order=
Interdire : /*?limit=
Interdire : /*&limit=
Interdire : /*?filter_name=
Interdire : /*&filter_name=


Interdire : /*?tracking=
Interdire : /*&tracking=
Interdire : /*?page=
Interdire : /*&page=
Interdire : /liste de souhaits
Interdire : /connexion
Hébergeur : site.ru

Agent utilisateur : Googlebot
Interdire : /*route=compte/
Interdire : /*route=affilié/
Interdire : /*route=checkout/
Interdire : /*route=product/search
Interdire : /index.php
Interdire : /admin
Interdire : /catalogue
Interdire : /télécharger
Interdire : /export
Interdire : /système
Interdire : /*?sort=
Interdire : /*&sort=
Interdire : /*?order=
Interdire : /*&order=
Interdire : /*?limit=
Interdire : /*&limit=
Interdire : /*?filter_name=
Interdire : /*&filter_name=
Interdire : /*?filter_sub_category=
Interdire : /*&filter_sub_category=
Interdire : /*?filter_description=
Interdire : /*&filter_description=
Interdire : /*?tracking=
Interdire : /*&tracking=
Interdire : /*?page=
Interdire : /*&page=
Interdire : /liste de souhaits
Interdire : /connexion
Autoriser : *.css
Autoriser : *.js

Agent utilisateur: *
Interdire : /*route=compte/
Interdire : /*route=affilié/
Interdire : /*route=checkout/
Interdire : /*route=product/search
Interdire : /index.php
Interdire : /admin
Interdire : /catalogue
Interdire : /télécharger
Interdire : /export
Interdire : /système
Interdire : /*?sort=
Interdire : /*&sort=
Interdire : /*?order=
Interdire : /*&order=
Interdire : /*?limit=
Interdire : /*&limit=
Interdire : /*?filter_name=
Interdire : /*&filter_name=
Interdire : /*?filter_sub_category=
Interdire : /*&filter_sub_category=
Interdire : /*?filter_description=
Interdire : /*&filter_description=
Interdire : /*?tracking=
Interdire : /*&tracking=
Interdire : /*?page=
Interdire : /*&page=
Interdire : /liste de souhaits
Interdire : /connexion

Plan du site : http://site.ru/sitemap.xml

Exemple de mise en place de robots pour Umi.CMS

Le fichier robots.txt correct pour Umi CMS doit être compilé de cette manière (il ne devrait y avoir aucun problème de pages en double dans ce cas) :

Agent utilisateur : Yandex
Interdire : /?
Interdire : /emarket/basket
Interdire : /go_out.php
Interdire : /images
Interdire : /files
Interdire : /utilisateurs
Interdire : /admin
Interdire : /recherche
Interdire : /install-temp
Interdire : /install-static
Interdire : /install-libs
Hébergeur : site.ru

Agent utilisateur : Googlebot
Interdire : /?
Interdire : /emarket/addToCompare
Interdire : /emarket/basket
Interdire : /go_out.php
Interdire : /images
Interdire : /files
Interdire : /utilisateurs
Interdire : /admin
Interdire : /recherche
Interdire : /install-temp
Interdire : /install-static
Interdire : /install-libs
Autoriser : *.css
Autoriser : *.js

Agent utilisateur: *
Interdire : /?
Interdire : /emarket/addToCompare
Interdire : /emarket/basket
Interdire : /go_out.php
Interdire : /images
Interdire : /files
Interdire : /utilisateurs
Interdire : /admin
Interdire : /recherche
Interdire : /install-temp
Interdire : /install-static
Interdire : /install-libs

Plan du site : http://site.ru/sitemap.xml

Exemple de mise en place de robots pour Joomla

Le fichier robots.txt correct pour Joomla doit être composé comme ceci :

Agent utilisateur : Yandex
Interdire : /administrateur/
Interdire : /cache/
Interdire : /composants/
Interdire : /composant/
Interdire : /inclut/
Interdire : /installation/
Interdire : /langue/
Interdire : /bibliothèques/
Interdire : /media/
Interdire : /modules/
Interdire : /plugins/
Interdire : /modèles/
Interdire : /tmp/
Interdire : /*?start=*
Interdire : /xmlrpc/
Hébergeur : www.site.ru

Agent utilisateur : Googlebot
Interdire : /administrateur/
Interdire : /cache/
Interdire : /composants/
Interdire : /composant/
Interdire : /inclut/
Interdire : /installation/
Interdire : /langue/
Interdire : /bibliothèques/
Interdire : /media/
Interdire : /modules/
Interdire : /plugins/
Interdire : /modèles/
Interdire : /tmp/
Interdire : /*?start=*
Interdire : /xmlrpc/
Autoriser : *.css
Autoriser : *.js

Agent utilisateur: *
Interdire : /administrateur/
Interdire : /cache/
Interdire : /composants/
Interdire : /composant/
Interdire : /inclut/
Interdire : /installation/
Interdire : /langue/
Interdire : /bibliothèques/
Interdire : /media/
Interdire : /modules/
Interdire : /plugins/
Interdire : /modèles/
Interdire : /tmp/
Interdire : /*?start=*
Interdire : /xmlrpc/

Plan du site : http://www.site.ru/sitemap.xml

La première chose qu'un robot de recherche fait lorsqu'il s'agit de votre site est de rechercher et de lire le fichier robots.txt. C'est quoi ce fichier ? est un ensemble d'instructions pour un moteur de recherche.

Il s'agit d'un fichier texte avec une extension txt, situé dans le répertoire racine du site. Cet ensemble Les instructions indiquent au robot de recherche quelles pages et fichiers du site doivent être indexés et lesquels ne le sont pas. Il indique également le miroir principal du site et où chercher le plan du site.

A quoi sert le fichier robots.txt ? Pour une bonne indexation de votre site. Pour que la recherche ne contienne pas de pages en double, de pages de services et de documents divers. Une fois que vous aurez correctement configuré les directives dans les robots, vous éviterez à votre site de nombreux problèmes d'indexation et de mise en miroir de sites.

Comment créer le bon robots.txt

C'est assez simple de créer un fichier robots.txt, créons Document texte dans un bloc-notes Windows standard. Nous écrivons des directives pour les moteurs de recherche dans ce fichier. Ensuite, enregistrez ce fichier appelé « robots » et extension de texte"SMS". Le tout peut désormais être téléchargé sur l'hébergement, dans le dossier racine du site. Attention, vous ne pouvez créer qu'un seul document « robots » par site. Si ce fichier n'est pas sur le site, alors le bot « décide » automatiquement que tout peut être indexé.

Puisqu’il n’en existe qu’un, il contient des instructions pour tous les moteurs de recherche. De plus, vous pouvez écrire à la fois des instructions distinctes pour chaque PS et une instruction générale pour tous à la fois. La séparation des instructions pour les différents robots de recherche se fait via la directive User-agent. Parlons-en davantage ci-dessous.

Directives Robots.txt

Le fichier « pour les robots » peut contenir les directives suivantes pour la gestion de l'indexation : User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Examinons chaque instruction plus en détail.

Directive utilisateur-agent

Directive utilisateur-agent— indique à quel moteur de recherche seront destinées les instructions (plus précisément, à quel bot spécifique). S'il y a un « * », alors les instructions sont destinées à tous les robots. Si un robot spécifique est spécifié, tel que Googlebot, les instructions sont destinées uniquement au robot d'indexation principal de Google. De plus, s'il existe des instructions distinctes pour Googlebot et pour tous les autres sous-systèmes, Google lira uniquement ses propres instructions et ignorera les instructions générales. Le bot Yandex fera de même. Regardons un exemple d'écriture d'une directive.

Agent utilisateur : YandexBot - instructions uniquement pour le robot d'indexation principal Yandex
Agent utilisateur : Yandex - instructions pour tous les robots Yandex
Agent utilisateur : * - instructions pour tous les robots

Directives Interdire et Autoriser

Directives Interdire et Autoriser- donner des instructions sur ce qu'il faut indexer ou non. Disallow donne la commande de ne pas indexer une page ou une section entière du site. Au contraire, Allow indique ce qui doit être indexé.

Interdire : / - interdit l'indexation de l'intégralité du site
Interdire : /papka/ - interdit l'indexation de l'intégralité du contenu du dossier
Interdire : /files.php - interdit l'indexation du fichier files.php

Autoriser : /cgi-bin – permet d'indexer les pages cgi-bin

Il est possible et souvent simplement nécessaire d'utiliser des caractères spéciaux dans les directives Disallow et Allow. Ils sont nécessaires pour spécifier des expressions régulières.

Caractère spécial * - remplace toute séquence de caractères. Il est attribué par défaut à la fin de chaque règle. Même si vous ne l’avez pas enregistré, le PS l’attribuera lui-même. Exemple d'utilisation :

Interdire : /cgi-bin/*.aspx – interdit l'indexation de tous les fichiers avec l'extension .aspx
Interdire : /*foto - interdit l'indexation des fichiers et dossiers contenant le mot foto

Le caractère spécial $ annule l'effet du caractère spécial « * » à la fin de la règle. Par exemple:

Interdire : /example$ - interdit l'indexation de '/example', mais n'interdit pas '/example.html'

Et si vous l'écrivez sans le symbole spécial $, alors l'instruction fonctionnera différemment :

Interdire : /example - interdit à la fois "/example" et "/example.html"

Directive sur le plan du site

Directive sur le plan du site— est destiné à indiquer au robot du moteur de recherche où se trouve le plan du site sur l'hébergement. Le format du plan du site doit être sitemaps.xml. Un plan du site est nécessaire pour une indexation plus rapide et plus complète du site. De plus, un sitemap n’est pas forcément un fichier, il peut y en avoir plusieurs. Format du message direct :

Plan du site : http://site/sitemaps1.xml
Plan du site : http://site/sitemaps2.xml

Directive hôte

Directive hôte- indique au robot le miroir principal du site. Quoi qu'il y ait dans l'index des miroirs de sites, vous devez toujours spécifier cette directive. Si vous ne le précisez pas, le robot Yandex indexera au moins deux versions du site avec et sans www. Jusqu'à ce que le robot miroir les colle ensemble. Exemple d'entrée :

Hébergeur : www.site
Hébergeur : site internet

Dans le premier cas, le robot indexera la version avec www, dans le second cas, sans. Il est permis de spécifier une seule directive Host dans le fichier robots.txt. Si vous en saisissez plusieurs, le bot traitera et ne prendra en compte que le premier.

Une directive hôte valide doit contenir les données suivantes :
— indiquer le protocole de connexion (HTTP ou HTTPS) ;
- correctement écrit Nom de domaine(vous ne pouvez pas enregistrer une adresse IP) ;
— numéro de port, si nécessaire (par exemple, Hôte : site.com:8080).

Les directives mal formulées seront tout simplement ignorées.

Directive de délai d'exploration

Directive de délai d'exploration vous permet de réduire la charge sur le serveur. Il est nécessaire au cas où votre site commencerait à tomber sous les assauts de divers robots. La directive Crawl-delay indique au robot de recherche le temps d'attente entre la fin du téléchargement d'une page et le début du téléchargement d'une autre page du site. La directive doit venir immédiatement après les entrées de directive « Disallow » et/ou « Allow ». Le robot de recherche Yandex peut lire des valeurs fractionnaires. Par exemple : 1,5 (une seconde et demie).

Directive de paramétrage propre

Directive de paramétrage propre nécessaire pour les sites dont les pages contiennent des paramètres dynamiques. Nous parlons de ceux qui n'affectent pas le contenu des pages. Il s'agit de diverses informations de service : identifiants de session, utilisateurs, référents, etc. Ainsi, pour qu'il n'y ait pas de doublons de ces pages, cette directive est utilisée. Elle dira au PS de ne pas télécharger à nouveau les informations obtenues. La charge sur le serveur et le temps nécessaire au robot pour explorer le site seront également réduits.

Paramètres propres : s /forum/showthread.php

Cette entrée indique au PS que le paramètre s sera considéré comme insignifiant pour toutes les URL commençant par /forum/showthread.php. La longueur maximale de saisie est de 500 caractères.

Nous avons réglé les directives, passons à la configuration de notre fichier robots.

Configuration du fichier robots.txt

Passons directement à la configuration du fichier robots.txt. Il doit contenir au moins deux entrées :

Agent utilisateur:— indique à quel moteur de recherche seront destinées les instructions ci-dessous.
Refuser:— précise quelle partie du site ne doit pas être indexée. Il peut bloquer l’indexation d’une seule page d’un site et de sections entières.

De plus, vous pouvez indiquer que ces directives sont destinées à tous les moteurs de recherche, ou à un en particulier. Ceci est indiqué dans la directive User-agent. Si vous souhaitez que tous les robots lisent les instructions, mettez un astérisque

Si vous souhaitez écrire des instructions pour un robot spécifique, vous devez spécifier son nom.

Agent utilisateur : YandexBot

Un exemple simplifié d'un fichier robots correctement composé ressemblerait à ceci :

Agent utilisateur: *
Interdire : /files.php
Interdire : /section/
Hébergeur : site internet

Où, * indique que les instructions sont destinées à tous les PS ;
Interdire : /files.php– interdit l'indexation du fichier file.php ;
Interdire : /foto/— interdit d'indexer toute la section « photo » avec tous les fichiers joints ;
Hébergeur : site internet- indique aux robots quel miroir indexer.

Si vous n'avez pas de pages sur votre site qui doivent être fermées à l'indexation, alors votre fichier robots.txt devrait ressembler à ceci :

Agent utilisateur: *
Refuser:
Hébergeur : site internet

Robots.txt pour Yandex (Yandex)

Pour indiquer que ces instructions sont destinées au moteur de recherche Yandex, vous devez spécifier dans la directive User-agent : Yandex. De plus, si nous entrons « Yandex », alors tous les robots Yandex indexeront le site, et si nous spécifions « YandexBot », alors ce sera une commande uniquement pour le robot d'indexation principal.

Il faut également préciser la directive « Host », où indiquer le miroir principal du site. Comme je l'ai écrit ci-dessus, cela est fait pour éviter les pages en double. Votre fichier robots.txt correct pour Yandex ressemblera à ceci :

Agent utilisateur : Yandex
Interdire : /cgi-bin
Interdire : /adminka
Hébergeur : site internet

On entend encore souvent des questions sur ce qu'il est préférable d'indiquer dans la directive d'accueil, un site avec ou sans www. Mais il n'y a aucune différence. C’est exactement l’apparence que vous souhaitez donner au site dans les résultats PS. L'essentiel est de ne pas oublier du tout de l'indiquer, afin de ne pas créer de doublons.

Robots.txt pour Google

Moteur de recherche Système Google prend en charge tous les formats d'enregistrement de fichiers robots.txt courants. Certes, cela ne prend pas en compte la directive Host. Par conséquent, il n'y aura en réalité aucune différence par rapport à Yandex. Le fichier Robots.txt pour Google ressemblera à ceci :

Agent utilisateur : Googlebot
Interdire : /cgi-bin
Interdire : /adminka
Plan du site : http://site/sitemaps.xml

J'espère que les données que j'ai présentées seront suffisantes pour que vous puissiez compiler un rapport de haute qualité, et surtout fichier correct. robots.txt. Si vous utilisez l'un des CMS populaires, dans le prochain article, j'ai préparé pour vous une sélection de robots - robots.txt pour les CMS populaires 1 note, moyenne : 5,00 sur 5)