Comment modifier le fichier txt des robots

L'une des étapes de l'optimisation d'un site pour les moteurs de recherche consiste à compiler un fichier robots.txt. Grâce à ce fichier, vous pouvez empêcher tout ou partie des robots de recherche d'indexer votre site ou certaines parties de celui-ci qui ne sont pas destinées à l'indexation. En particulier, vous pouvez empêcher l'indexation du contenu en double, comme les versions imprimables des pages.

Avant de lancer l'indexation, les robots de recherche se réfèrent toujours au fichier robots.txt dans répertoire racine votre site, par exemple http://site.ru/robots.txt, afin de savoir quelles sections du site il est interdit au robot d'indexer. Mais même si vous n'interdisez rien, il est quand même recommandé de créer ce fichier.

Comme vous pouvez le voir sur l'extension robots.txt, il s'agit de fichier texte. Pour créer ou éditer ce fichier, il est préférable d'utiliser le plus simple éditeurs de texte comme le Bloc-notes. robots.txt doit être placé dans le répertoire racine du site et possède son propre format, dont nous parlerons ci-dessous.

Format de fichier Robots.txt

Le fichier robots.txt doit contenir au moins deux entrées obligatoires. La première est la directive User-agent indiquant quel robot de recherche doit suivre les instructions suivantes. La valeur peut être le nom du robot (googlebot, Yandex, StackRambler) ou le symbole * si vous accédez à tous les robots en même temps. Par exemple:

Agent utilisateur : googlebot

Vous pouvez retrouver le nom du robot sur le site du moteur de recherche correspondant. Ensuite, il devrait y avoir une ou plusieurs directives Disallow. Ces directives indiquent au robot quels fichiers et dossiers ne peuvent pas être indexés. Par exemple, les lignes suivantes empêchent les robots d'indexer le fichier feedback.php et le répertoire cgi-bin :

Interdire : /feedback.php Interdire : /cgi-bin/

Vous pouvez également utiliser uniquement les caractères de début des fichiers ou des dossiers. La ligne Disallow: /forum interdit l'indexation de tous les fichiers et dossiers à la racine du site dont le nom commence par forum, par exemple le fichier http://site.ru/forum.php et le dossier http://site. ru/forum/ avec tout son contenu. Si Disallow est vide, cela signifie que le robot peut indexer toutes les pages. Si la valeur Disallow est le symbole /, cela signifie que l'ensemble du site ne peut pas être indexé.

Pour chaque champ User-agent, il doit y avoir au moins un champ Disallow. Autrement dit, si vous n'interdisez rien pour l'indexation, alors fichier de robots.txt doit contenir les entrées suivantes :

Agent utilisateur : * Interdire :

Directives supplémentaires

Sauf expressions régulières Yandex et Google autorisent l'utilisation de la directive Allow, qui est à l'opposé de Disallow, c'est-à-dire qu'elle indique quelles pages peuvent être indexées. Dans l'exemple suivant, il est interdit à Yandex de tout indexer, sauf les adresses de pages commençant par /articles :

Agent utilisateur : Yandex Autoriser : /articles Interdire : /

DANS dans cet exemple La directive Allow doit être écrite avant Disallow, sinon Yandex comprendra cela comme une interdiction totale d'indexer le site. Une directive Allow vide désactive également complètement l’indexation du site :

Agent utilisateur : Yandex Autoriser :

équivalent

Agent utilisateur : Yandex Interdire : /

Les directives non standard doivent être spécifiées uniquement pour les moteurs de recherche qui les prennent en charge. DANS sinon Un robot qui ne comprend pas cette entrée peut la traiter de manière incorrecte ou traiter l'intégralité du fichier robots.txt. De plus amples informations sur les directives supplémentaires et, en général, sur la compréhension des commandes du fichier robots.txt par un robot individuel peuvent être trouvées sur le site Internet du moteur de recherche correspondant.

Expressions régulières dans robots.txt

Majorité moteurs de recherche seuls les noms de fichiers et de dossiers explicitement spécifiés sont pris en compte, mais il existe également des moteurs de recherche plus avancés. Google Robot et Yandex Robot prennent en charge l'utilisation d'expressions régulières simples dans robots.txt, ce qui réduit considérablement la quantité de travail des webmasters. Par exemple, les commandes suivantes empêchent Googlebot d'indexer tous les fichiers portant une extension .pdf :

Agent utilisateur : googlebot Interdire : *.pdf$

Dans l'exemple ci-dessus, * est n'importe quelle séquence de caractères et $ indique la fin du lien.

Agent utilisateur : Yandex Autoriser : /articles/*.html$ Interdire : /

Les directives ci-dessus permettent à Yandex d'indexer uniquement les fichiers avec l'extension ".html" situés dans le dossier /articles/. Tout le reste est interdit pour l'indexation.

Plan du site

Vous pouvez spécifier l'emplacement du plan du site XML dans le fichier robots.txt :

Agent utilisateur : googlebot Interdire : Plan du site : http://site.ru/sitemap.xml

Si vous êtes très un grand nombre de pages du site et vous avez dû diviser le plan du site en parties, puis dans le fichier robots.txt vous devez indiquer toutes les parties de la carte :

Agent utilisateur : Yandex Disallow : Plan du site : http://mysite.ru/my_sitemaps1.xml Plan du site : http://mysite.ru/my_sitemaps2.xml

Miroirs de sites

Comme vous le savez, le même site est généralement accessible à deux adresses : avec et sans www. Pour un robot de recherche, site.ru et www.site.ru sont des sites différents, mais avec le même contenu. On les appelle des miroirs.

En raison du fait qu'il existe des liens vers les pages du site avec et sans www, le poids des pages peut être divisé entre www.site.ru et site.ru. Pour éviter que cela ne se produise, le moteur de recherche doit indiquer le miroir principal du site. Grâce au « collage », tout le poids appartiendra à un miroir principal et le site pourra prendre une position plus élevée dans Résultats de recherche.

Vous pouvez spécifier le miroir principal pour Yandex directement dans le fichier robots.txt à l'aide de la directive Host :

Agent utilisateur : Yandex Interdire : /feedback.php Interdire : /cgi-bin/ Hôte : www.site.ru

Après collage, le miroir www.site.ru aura tout le poids et occupera une position plus élevée dans les résultats de recherche. Et le moteur de recherche n'indexera pas du tout site.ru.

Pour les autres moteurs de recherche, le choix du miroir principal est une redirection permanente côté serveur (code 301) des miroirs supplémentaires vers le miroir principal. Cela se fait à l'aide du fichier .htaccess et du module mod_rewrite. Pour cela, placez le fichier .htaccess à la racine du site et écrivez-y ce qui suit :

RewriteEngine sur les options + FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

En conséquence, toutes les demandes de site.ru seront envoyées à www.site.ru, c'est-à-dire que site.ru/page1.php sera redirigé vers www.site.ru/page1.php.

La méthode de redirection fonctionnera pour tous les moteurs de recherche et navigateurs, mais il est toujours recommandé d'ajouter la directive Host au fichier robots.txt pour Yandex.

Commentaires dans robots.txt

Vous pouvez également ajouter des commentaires au fichier robots.txt - ils commencent par le symbole # et se terminent par une nouvelle ligne. Il est conseillé d'écrire les commentaires sur une ligne séparée, ou il vaut mieux ne pas les utiliser du tout.

Un exemple d'utilisation des commentaires :

User-agent : StackRambler Disallow : /garbage/ # il n'y a rien d'utile dans ce dossier Disallow : /doc.xhtml # et sur cette page aussi # et tous les commentaires de ce fichier sont également inutiles

Exemples de fichiers robots.txt

1. Autoriser tous les robots à indexer tous les documents du site :

Agent utilisateur : * Interdire :
Agent utilisateur : * Interdire : /

3. Nous interdisons le robot Moteur de recherche Google indexez le fichier feedback.php et le contenu du répertoire cgi-bin :

Agent utilisateur : googlebot Interdire : /cgi-bin/ Interdire : /feedback.php

4. Nous autorisons tous les robots à indexer l'intégralité du site et nous interdisons au robot du moteur de recherche Yandex d'indexer le fichier feedback.php et le contenu du répertoire cgi-bin :

Agent utilisateur : Yandex Interdire : /cgi-bin/ Interdire : /feedback.php Hôte : www.site.ru Agent utilisateur : * Interdire :

5. Nous autorisons tous les robots à indexer l'intégralité du site, et nous permettons au robot Yandex d'indexer uniquement la partie du site qui lui est destinée :

Agent utilisateur : Yandex Autoriser : /yandex Interdire : / Hôte : www.site.ru Agent utilisateur : * Interdire :

Des lignes vides séparent les restrictions pour les différents robots. Chaque bloc de restrictions doit commencer par une ligne avec le champ User-Agent, indiquant le robot auquel ces règles d'indexation de site s'appliquent.

Erreurs courantes

Il est important de prendre en compte qu'une ligne vide dans le fichier robots.txt est un séparateur entre deux entrées pour des robots différents. Vous ne pouvez pas non plus spécifier plusieurs directives sur une seule ligne. Lorsqu'ils empêchent l'indexation d'un fichier, les webmasters omettent souvent le / avant le nom du fichier.

Il n'est pas nécessaire de préciser dans robots.txt une interdiction d'indexation du site pour divers programmes, qui sont conçus pour télécharger complètement un site, par exemple TeleportPro. Ni les programmes de téléchargement ni les navigateurs ne consultent ce fichier et n'exécutent les instructions qui y sont écrites. Il est destiné exclusivement aux moteurs de recherche. Vous ne devez pas non plus bloquer le panneau d'administration de votre site dans robots.txt, car s'il n'y a aucun lien vers celui-ci nulle part, il ne sera pas indexé. Vous révélerez simplement l’emplacement de la zone d’administration aux personnes qui ne devraient pas le connaître. Il convient également de rappeler que les fichiers robots.txt trop volumineux peuvent être ignorés par le moteur de recherche. Si vous avez trop de pages qui ne sont pas destinées à l'indexation, il est préférable de simplement les supprimer du site ou de les déplacer vers un répertoire séparé et d'empêcher l'indexation de ce répertoire.

Vérification des erreurs dans le fichier robots.txt

Assurez-vous de vérifier comment les moteurs de recherche comprennent votre fichier robots. Pour Vérifications Google vous pouvez utiliser Google Webmaster Tools. Si vous souhaitez savoir comment votre fichier robots.txt est compris par Yandex, vous pouvez utiliser le service Yandex.Webmaster. Cela vous permettra de corriger toute erreur en temps opportun. Également sur les pages de ces services, vous pouvez trouver des recommandations pour créer un fichier robots.txt et bien d'autres informations utiles.

La copie de l'article est interdite.

La première chose qu'un robot de recherche fait lorsqu'il s'agit de votre site est de rechercher et de lire le fichier robots.txt. C'est quoi ce fichier ? est un ensemble d'instructions pour un moteur de recherche.

Il s'agit d'un fichier texte avec une extension txt, situé dans le répertoire racine du site. Cet ensemble les instructions indiquent robot de recherche, quelles pages et fichiers de site indexer et lesquels non. Il indique également le miroir principal du site et où chercher le plan du site.

A quoi sert le fichier robots.txt ? Pour une bonne indexation de votre site. Pour que la recherche ne contienne pas de pages en double, de pages de services et de documents divers. Une fois que vous aurez correctement configuré les directives dans les robots, vous éviterez à votre site de nombreux problèmes d'indexation et de mise en miroir de sites.

Comment créer le bon robots.txt

C'est assez simple de créer un fichier robots.txt, créons Document texte dans un bloc-notes Windows standard. Nous écrivons des directives pour les moteurs de recherche dans ce fichier. Ensuite, enregistrez ce fichier appelé « robots » et extension de texte"SMS". Le tout peut désormais être téléchargé sur l'hébergement, dans le dossier racine du site. Attention, vous ne pouvez créer qu'un seul document « robots » par site. Si ce fichier n'est pas sur le site, alors le bot « décide » automatiquement que tout peut être indexé.

Puisqu’il n’en existe qu’un, il contient des instructions pour tous les moteurs de recherche. De plus, vous pouvez écrire à la fois des instructions distinctes pour chaque PS et une instruction générale pour tous à la fois. La séparation des instructions pour les différents robots de recherche se fait via la directive User-agent. Parlons-en davantage ci-dessous.

Directives Robots.txt

Le fichier « pour les robots » peut contenir les directives suivantes pour la gestion de l'indexation : User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Examinons chaque instruction plus en détail.

Directive utilisateur-agent

Directive utilisateur-agent— indique à quel moteur de recherche seront destinées les instructions (plus précisément, à quel bot spécifique). S'il y a un « * », alors les instructions sont destinées à tous les robots. Si un robot spécifique est spécifié, tel que Googlebot, les instructions sont destinées uniquement au robot d'indexation principal de Google. De plus, s'il existe des instructions distinctes pour Googlebot et pour tous les autres sous-systèmes, Google lira uniquement ses propres instructions et ignorera les instructions générales. Le bot Yandex fera de même. Regardons un exemple d'écriture d'une directive.

Agent utilisateur : YandexBot - instructions uniquement pour le robot d'indexation principal Yandex
Agent utilisateur : Yandex - instructions pour tous les robots Yandex
Agent utilisateur : * - instructions pour tous les robots

Directives Interdire et Autoriser

Directives Interdire et Autoriser- donner des instructions sur ce qu'il faut indexer ou non. Disallow donne la commande de ne pas indexer une page ou une section entière du site. Au contraire, Allow indique ce qui doit être indexé.

Interdire : / - interdit l'indexation de l'intégralité du site
Interdire : /papka/ - interdit l'indexation de l'intégralité du contenu du dossier
Interdire : /files.php - interdit l'indexation du fichier files.php

Autoriser : /cgi-bin – permet d'indexer les pages cgi-bin

Il est possible et souvent simplement nécessaire d'utiliser des caractères spéciaux dans les directives Disallow et Allow. Ils sont nécessaires pour spécifier des expressions régulières.

Caractère spécial * - remplace toute séquence de caractères. Il est attribué par défaut à la fin de chaque règle. Même si vous ne l’avez pas enregistré, le PS l’attribuera lui-même. Exemple d'utilisation :

Interdire : /cgi-bin/*.aspx – interdit l'indexation de tous les fichiers avec l'extension .aspx
Interdire : /*foto - interdit l'indexation des fichiers et dossiers contenant le mot foto

Le caractère spécial $ annule l'effet du caractère spécial « * » à la fin de la règle. Par exemple:

Interdire : /example$ - interdit l'indexation de '/example', mais n'interdit pas '/example.html'

Et si vous l'écrivez sans le symbole spécial $, alors l'instruction fonctionnera différemment :

Interdire : /example - interdit à la fois "/example" et "/example.html"

Directive sur le plan du site

Directive sur le plan du site— est destiné à indiquer au robot du moteur de recherche où se trouve le plan du site sur l'hébergement. Le format du plan du site doit être sitemaps.xml. Un plan du site est nécessaire pour une indexation plus rapide et plus complète du site. De plus, un sitemap n’est pas forcément un fichier, il peut y en avoir plusieurs. Format du message direct :

Plan du site : http://site/sitemaps1.xml
Plan du site : http://site/sitemaps2.xml

Directive hôte

Directive hôte- indique au robot le miroir principal du site. Quoi qu'il y ait dans l'index des miroirs de sites, vous devez toujours spécifier cette directive. Si vous ne le précisez pas, le robot Yandex indexera au moins deux versions du site avec et sans www. Jusqu'à ce que le robot miroir les colle ensemble. Exemple d'entrée :

Hébergeur : www.site
Hébergeur : site internet

Dans le premier cas, le robot indexera la version avec www, dans le second cas, sans. Il est permis de spécifier une seule directive Host dans le fichier robots.txt. Si vous en saisissez plusieurs, le bot traitera et ne prendra en compte que le premier.

Une directive hôte valide doit contenir les données suivantes :
— indiquer le protocole de connexion (HTTP ou HTTPS) ;
- correctement écrit Nom de domaine(vous ne pouvez pas enregistrer une adresse IP) ;
— numéro de port, si nécessaire (par exemple, Hôte : site.com:8080).

Les directives mal formulées seront tout simplement ignorées.

Directive de délai d'exploration

Directive de délai d'exploration vous permet de réduire la charge sur le serveur. Il est nécessaire au cas où votre site commencerait à tomber sous les assauts de divers robots. La directive Crawl-delay indique au robot de recherche le temps d'attente entre la fin du téléchargement d'une page et le début du téléchargement d'une autre page du site. La directive doit venir immédiatement après les entrées de directive « Disallow » et/ou « Allow ». Le robot de recherche Yandex peut lire des valeurs fractionnaires. Par exemple : 1,5 (une seconde et demie).

Directive de paramétrage propre

Directive de paramétrage propre nécessaire pour les sites dont les pages contiennent des paramètres dynamiques. Nous parlons de ceux qui n'affectent pas le contenu des pages. Il s'agit de diverses informations de service : identifiants de session, utilisateurs, référents, etc. Ainsi, pour qu'il n'y ait pas de doublons de ces pages, cette directive est utilisée. Elle dira au PS de ne pas télécharger à nouveau les informations obtenues. La charge sur le serveur et le temps nécessaire au robot pour explorer le site seront également réduits.

Paramètres propres : s /forum/showthread.php

Cette entrée indique au PS que le paramètre s sera considéré comme insignifiant pour toutes les URL commençant par /forum/showthread.php. Longueur maximale entrées 500 caractères.

Nous avons réglé les directives, passons à la configuration de notre fichier robots.

Configuration du fichier robots.txt

Passons directement à la configuration du fichier robots.txt. Il doit contenir au moins deux entrées :

Agent utilisateur:— indique à quel moteur de recherche seront destinées les instructions ci-dessous.
Refuser:— précise quelle partie du site ne doit pas être indexée. Peut bloquer l'indexation, comme page séparée site et des sections entières.

De plus, vous pouvez indiquer que ces directives sont destinées à tous les moteurs de recherche, ou à un en particulier. Ceci est indiqué dans la directive User-agent. Si vous souhaitez que tous les robots lisent les instructions, mettez un astérisque

Si vous souhaitez écrire des instructions pour un robot spécifique, vous devez spécifier son nom.

Agent utilisateur : YandexBot

Un exemple simplifié d'un fichier robots correctement composé ressemblerait à ceci :

Agent utilisateur: *
Interdire : /files.php
Interdire : /section/
Hébergeur : site internet

Où, * indique que les instructions sont destinées à tous les PS ;
Interdire : /files.php– interdit l'indexation du fichier file.php ;
Interdire : /foto/— interdit d'indexer toute la section « photo » avec tous les fichiers joints ;
Hébergeur : site internet- indique aux robots quel miroir indexer.

Si vous n'avez pas de pages sur votre site qui doivent être fermées à l'indexation, alors votre fichier robots.txt devrait ressembler à ceci :

Agent utilisateur: *
Refuser:
Hébergeur : site internet

Robots.txt pour Yandex (Yandex)

Pour indiquer que ces instructions sont destinées au moteur de recherche Yandex, vous devez spécifier dans la directive User-agent : Yandex. De plus, si nous entrons « Yandex », alors tous les robots Yandex indexeront le site, et si nous spécifions « YandexBot », alors ce sera une commande uniquement pour le robot d'indexation principal.

Il faut également préciser la directive « Host », où indiquer le miroir principal du site. Comme je l'ai écrit ci-dessus, cela est fait pour éviter les pages en double. Ton robots corrects.txt pour Yandex ressemblera à ceci :

Agent utilisateur : Yandex
Interdire : /cgi-bin
Interdire : /adminka
Hébergeur : site internet

On entend encore souvent des questions sur ce qu'il est préférable d'indiquer dans la directive d'accueil, un site avec ou sans www. Mais il n'y a aucune différence. C’est exactement l’apparence que vous souhaitez donner au site dans les résultats PS. L'essentiel est de ne pas oublier du tout de l'indiquer, afin de ne pas créer de doublons.

Robots.txt pour Google

Moteur de recherche Système Google prend en charge tous les formats d'enregistrement de fichiers robots.txt courants. Certes, cela ne prend pas en compte la directive Host. Par conséquent, il n'y aura en réalité aucune différence par rapport à Yandex. Le fichier Robots.txt pour Google ressemblera à ceci :

Agent utilisateur : Googlebot
Interdire : /cgi-bin
Interdire : /adminka
Plan du site : http://site/sitemaps.xml

J'espère que les données que j'ai présentées sont suffisantes pour que vous puissiez créer un fichier de haute qualité et, surtout, correct. robots.txt. Si vous utilisez l'un des CMS populaires, dans le prochain article, j'ai préparé pour vous une sélection de robots - robots.txt pour les CMS populaires 1 note, moyenne : 5,00 sur 5)

La plupart des robots sont bien conçus et ne posent aucun problème aux propriétaires de sites Web. Mais si le bot a été écrit par un amateur ou si « quelque chose s'est mal passé », il peut alors créer une charge importante sur le site qu'il explore. À propos, les araignées n'entrent pas du tout dans le serveur comme les virus - ils demandent simplement les pages dont ils ont besoin à distance (en fait, ce sont des analogues des navigateurs, mais sans la fonction de visualisation des pages).

Robots.txt - directive user-agent et robots des moteurs de recherche

Robots.txt a une syntaxe très simple, qui est décrite de manière très détaillée, par exemple dans Aide Yandex Et Aide Google. Il indique généralement à quel robot de recherche les directives suivantes sont destinées : nom du bot (" Agent utilisateur"), en permettant (" Permettre") et interdisant (" Refuser"), et "Sitemap" est également activement utilisé pour indiquer aux moteurs de recherche exactement où se trouve le fichier cartographique.

La norme a été créée il y a longtemps et quelque chose a été ajouté plus tard. Il existe des directives et des règles de conception qui ne seront comprises que par les robots de certains moteurs de recherche. Dans RuNet, seuls Yandex et Google sont intéressants, ce qui signifie que vous devez vous familiariser de manière particulièrement détaillée avec leur aide pour compiler robots.txt (j'ai fourni les liens dans le paragraphe précédent).

Par exemple, auparavant, il était utile pour le moteur de recherche Yandex d'indiquer que votre projet Web est le principal dans une directive spéciale "Hôte", que seul ce moteur de recherche comprend (enfin, aussi Mail.ru, car leur recherche provient de Yandex ). C'est vrai, début 2018 Yandex a toujours annulé l'hôte et désormais ses fonctions, comme celles des autres moteurs de recherche, sont assurées par une redirection 301.

Même si votre ressource ne dispose pas de miroirs, il sera utile d'indiquer quelle option orthographique est la principale - .

Parlons maintenant un peu de la syntaxe de ce fichier. Les directives dans robots.txt ressemblent à ceci :

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Corriger le code doit contenir au moins une directive « Disallow » après chaque entrée « User-agent ». Fichier vide implique l'autorisation d'indexer l'intégralité du site.

Agent utilisateur

Directive "agent utilisateur" doit contenir le nom du robot de recherche. Grâce à lui, vous pouvez mettre en place des règles de comportement pour chaque moteur de recherche spécifique (par exemple, créer une interdiction d'indexation dossier séparé uniquement pour Yandex). Un exemple d'écriture de « User-agent » adressé à tous les robots visitant votre ressource ressemble à ceci :

Agent utilisateur: *

Si vous souhaitez définir certaines conditions dans le « User-agent » uniquement pour un seul bot, par exemple Yandex, vous devez alors écrire ceci :

Agent utilisateur : Yandex

Nom des robots des moteurs de recherche et leur rôle dans le fichier robots.txt

Bot de chaque moteur de recherche a son propre nom (par exemple, pour un randonneur, c'est StackRambler). Je vais donner ici une liste des plus célèbres d'entre eux :

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Les principaux moteurs de recherche ont parfois sauf les principaux robots, il existe également des instances distinctes pour l'indexation des blogs, des actualités, des images, etc. Vous pouvez obtenir de nombreuses informations sur les types de robots (pour Yandex) et (pour Google).

Comment être dans ce cas ? Si vous devez rédiger une règle interdisant l'indexation, que tous les types de robots Google doivent suivre, utilisez le nom Googlebot et tous les autres robots de ce moteur de recherche obéiront également. Cependant, vous ne pouvez interdire, par exemple, l'indexation d'images qu'en spécifiant le robot Googlebot-Image comme User-agent. Maintenant, ce n'est pas très clair, mais avec des exemples, je pense que ce sera plus facile.

Exemples d'utilisation des directives Disallow et Allow dans robots.txt

Je vais vous en donner quelques simples. exemples d'utilisation de directives avec une explication de ses actes.

  1. Le code ci-dessous permet à tous les robots (indiqués par un astérisque dans le User-agent) d'indexer tout le contenu sans aucune exception. Ceci est donné directive vide Interdire. Agent utilisateur : * Interdire :
  2. Le code suivant, au contraire, interdit totalement à tous les moteurs de recherche d'ajouter des pages de cette ressource à l'index. Définit ceci sur Interdire avec "/" dans le champ de valeur. Agent utilisateur : * Interdire : /
  3. Dans ce cas, il sera interdit à tous les robots de visualiser le contenu du répertoire /image/ (http://mysite.ru/image/ - chemin absolu vers ce répertoire) Agent utilisateur : * Interdire : /image/
  4. Pour bloquer un fichier, il suffira d'y enregistrer son chemin absolu (lire) : User-agent : * Disallow : /katalog1//katalog2/private_file.html

    En regardant un peu vers l'avant, je dirai qu'il est plus simple d'utiliser le symbole astérisque (*) pour ne pas écrire le chemin complet :

    Interdire : /*private_file.html

  5. Dans l'exemple ci-dessous, le répertoire « image » sera interdit, ainsi que tous les fichiers et répertoires commençant par les caractères « image », soit les fichiers : « image.htm », « images.htm », les répertoires : « image », " images1", "image34", etc.) : Agent utilisateur : * Interdire : /image Le fait est que par défaut à la fin de l'entrée il y a un astérisque, qui remplace tous les caractères, y compris leur absence. Lisez à ce sujet ci-dessous.
  6. En utilisant Autoriser les directives nous autorisons l'accès. Compléments Disallow bien. Par exemple, avec cette condition, nous interdisons au robot de recherche Yandex de tout télécharger (indexer) sauf les pages Web dont l'adresse commence par /cgi-bin : Agent utilisateur : Yandex Autoriser : /cgi-bin Disallow : /

    Eh bien, ou cet exemple évident d'utilisation de la combinaison Autoriser et Interdire :

    Agent utilisateur : * Interdire : /catalog Autoriser : /catalog/auto

  7. Lors de la description des chemins pour les directives Allow-Disallow, vous pouvez utiliser les symboles "*" et "$", définissant ainsi certaines expressions logiques.
    1. Symbole "*"(étoile) désigne toute séquence de caractères (y compris vide). L'exemple suivant interdit à tous les moteurs de recherche d'indexer les fichiers avec l'extension « .php » : User-agent : * Disallow : *.php$
    2. Pourquoi est-ce nécessaire à la fin ? signe $? Le fait est que, selon la logique de compilation du fichier robots.txt, un astérisque par défaut est ajouté à la fin de chaque directive (il n'est pas là, mais il semble y être). Par exemple, nous écrivons : Interdire : /images

      Ce qui implique que c'est la même chose que :

      Interdire : /images*

      Ceux. cette règle interdit l'indexation de tous les fichiers (pages Web, images et autres types de fichiers) dont l'adresse commence par /images, puis tout ce qui suit (voir exemple ci-dessus). Donc, symbole $ il annule simplement l'astérisque par défaut à la fin. Par exemple:

      Interdire : /images$

      Empêche uniquement l'indexation du fichier /images, mais pas /images.html ou /images/primer.html. Eh bien, dans le premier exemple, nous avons interdit d'indexer uniquement les fichiers se terminant par .php (ayant une telle extension), afin de ne rien attraper d'inutile :

      Interdire : *.php$

  • Dans de nombreux moteurs, les utilisateurs (URL lisibles par l'homme), tandis que les URL générées par le système comportent un point d'interrogation "?" dans l'adresse. Vous pouvez en profiter et écrire la règle suivante dans robots.txt : User-agent : * Disallow : /*?

    L'astérisque après le point d'interrogation se suggère, mais, comme nous l'avons découvert juste plus haut, il est déjà sous-entendu à la fin. Ainsi, nous interdirons l'indexation des pages de recherche et autres pages de services créées par le moteur, auxquelles le robot de recherche peut accéder. Ce ne sera pas superflu, car le point d'interrogation est le plus souvent utilisé par les CMS comme identifiant de session, ce qui peut conduire à l'inclusion de pages en double dans l'index.

  • Directives du plan du site et de l'hôte (pour Yandex) dans Robots.txt

    Pour éviter l'apparition problèmes désagréables avec les miroirs de sites, il était auparavant recommandé d'ajouter une directive Host au robots.txt, qui pointait le bot Yandex vers le miroir principal.

    Directive hôte - indique le miroir principal du site pour Yandex

    Par exemple, plus tôt si vous je n'ai pas encore basculé vers un protocole sécurisé, il fallait indiquer dans Host non pas l'URL complète, mais le nom de domaine (sans http://, c'est-à-dire.ru). Si vous êtes déjà passé à https, vous devrez alors indiquer l'URL complète (par exemple https://myhost.ru).

    Un merveilleux outil pour lutter contre le contenu en double - le moteur de recherche n'indexera tout simplement pas la page si une URL différente est enregistrée dans Canonical. Par exemple, pour une telle page de mon blog (page avec pagination), Canonical pointe vers https://site et il ne devrait y avoir aucun problème de duplication des titres.

    Mais je m'éloigne du sujet...

    Si votre projet est créé sur la base d'un moteur, alors Du contenu en double se produira avec une forte probabilité, ce qui signifie qu'il faut le combattre, y compris à l'aide d'une interdiction dans le fichier robots.txt, et surtout dans la balise méta, car dans le premier cas Google peut ignorer l'interdiction, mais il ne pourra plus m'en foutre de la balise méta (évoquée de cette façon).

    Par exemple, dans Pages WordPress avec un contenu très similaire peuvent être inclus dans l'index du moteur de recherche si l'indexation du contenu des catégories, du contenu de l'archive de balises et du contenu des archives temporaires est autorisée. Mais si, à l'aide de la balise méta Robots décrite ci-dessus, vous créez une interdiction sur l'archive de balises et l'archive temporaire (vous pouvez laisser les balises et interdire l'indexation du contenu des catégories), alors la duplication du contenu ne se produira pas. Comment faire cela est décrit dans le lien donné juste au-dessus (vers le plugin OlInSeoPak)

    Pour résumer, je dirai que le fichier Robots est destiné à définir des règles globales pour refuser l'accès à des répertoires entiers du site, ou à des fichiers et dossiers dont les noms contiennent des caractères spécifiés (par masque). Vous pouvez voir des exemples de définition de telles interdictions juste au-dessus.

    Maintenant, jetons un coup d'oeil exemples spécifiques des robots conçus pour différents moteurs - Joomla, WordPress et SMF. Naturellement, les trois options créées pour différents CMS différeront considérablement (voire radicalement) les unes des autres. Certes, ils auront tous une chose en commun, et ce moment est lié au moteur de recherche Yandex.

    Parce que Dans RuNet, Yandex a beaucoup de poids, nous devons alors prendre en compte toutes les nuances de son travail, et ici nous La directive Host aidera. Il indiquera explicitement à ce moteur de recherche le miroir principal de votre site.

    Pour cela, il est recommandé d'utiliser un blog User-agent distinct, destiné uniquement à Yandex (User-agent : Yandex). Cela est dû au fait que d'autres moteurs de recherche peuvent ne pas comprendre Host et, par conséquent, son inclusion dans l'enregistrement User-agent destiné à tous les moteurs de recherche (User-agent : *) peut entraîner des conséquences négatives et une indexation incorrecte.

    Il est difficile de dire quelle est la situation réelle, car les algorithmes de recherche sont une chose en soi, il vaut donc mieux suivre les conseils. Mais dans ce cas, nous devrons dupliquer dans la directive User-agent : Yandex toutes les règles que nous avons définies User-agent : *. Si vous quittez User-agent : Yandex avec un Disallow : vide, vous permettrez ainsi à Yandex d'aller n'importe où et de tout faire glisser dans l'index.

    Robots pour WordPress

    Je ne donnerai pas d'exemple de fichier recommandé par les développeurs. Vous pouvez le regarder vous-même. De nombreux blogueurs ne limitent pas du tout les robots Yandex et Google dans leur navigation dans le contenu Moteur WordPress. Le plus souvent sur les blogs, vous pouvez trouver des robots automatiquement remplis d'un plugin.

    Mais, à mon avis, nous devrions quand même aider les chercheurs dans la tâche difficile de trier le bon grain de l'ivraie. Premièrement, il faudra beaucoup de temps aux robots Yandex et Google pour indexer ces déchets, et il ne restera peut-être plus de temps pour ajouter des pages Web contenant vos nouveaux articles à l'index. Deuxièmement, les robots grimpent spams Le moteur créera une charge supplémentaire sur le serveur de votre hôte, ce qui n’est pas bon.

    Vous pouvez voir ma version de ce fichier par vous-même. Il est vieux et n'a pas été modifié depuis longtemps, mais j'essaie de suivre le principe « ne répare pas ce qui n'est pas cassé », et c'est à toi de décider : utilise-le, fabrique-le toi-même ou vole-le. quelqu'un d'autre. Jusqu'à récemment, j'avais également une interdiction d'indexer les pages avec pagination (Disallow: */page/), mais récemment je l'ai supprimée, en m'appuyant sur Canonical, dont j'ai parlé ci-dessus.

    Mais en général, seulement fichier correct pour WordPress n'existe probablement pas. Vous pouvez, bien sûr, y mettre en œuvre toutes les conditions préalables, mais qui a dit qu'elles seraient correctes. Il existe de nombreuses options pour un robots.txt idéal sur Internet.

    je vais donner deux extrêmes:

    1. vous pouvez trouver un mégafichier avec des explications détaillées (le symbole # sépare les commentaires qui seraient mieux supprimés dans un vrai fichier) : User-agent : * # règles générales pour les robots, sauf Yandex et Google, # parce que pour eux, les règles sont ci-dessous Disallow: /cgi-bin # dossier sur l'hébergement Disallow: /? # tous les paramètres de requête sur la page principale Interdire : /wp- # tous les fichiers WP : /wp-json/, /wp-includes, /wp-content/plugins Interdire : /wp/ # s'il existe un sous-répertoire /wp/ où le CMS est installé (sinon, # la règle peut être supprimée) Interdire : *?s= # recherche Interdire : *&s= # recherche Interdire : /search/ # recherche Interdire : /auteur/ # archive d'auteur Interdire : /users/ # archive d'auteur Interdire : */ trackback # rétroliens, notifications dans les commentaires concernant l'apparition d'un # lien vers un article ouvert Interdire : */feed # tous les flux Interdire : */rss # flux rss Interdire : */embed # tous les intégrations Interdire : */wlwmanifest.xml # fichier XML manifeste Windows Live Writer (si vous ne l'utilisez pas, # la règle peut être supprimée) Interdire : /xmlrpc.php # Fichier WordPress API Interdire : *utm= # liens avec des balises utm Interdire : *openstat= # liens avec des balises openstat Autoriser : */uploads # ouvrir le dossier avec les téléchargements de fichiers User-agent : GoogleBot # règles pour Google (je ne duplique pas les commentaires) Interdire : / cgi-bin Interdire : /? Interdire : /wp- Interdire : /wp/ Interdire : *?s= Interdire : *&s= Interdire : /search/ Interdire : /auteur/ Interdire : /users/ Interdire : */trackback Interdire : */feed Interdire : */ rss Interdire : */embed Interdire : */wlwmanifest.xml Interdire : /xmlrpc.php Interdire : *utm= Interdire : *openstat= Autoriser : */uploads Autoriser : /*/*.js # ouvrir les scripts js dans /wp - (/*/ - pour la priorité) Autoriser : /*/*.css # ouvrir les fichiers CSS dans /wp- (/*/ - pour la priorité) Autoriser : /wp-*.png # images dans les plugins, le dossier cache, etc. Autoriser : /wp-*.jpg # images dans les plugins, le dossier cache, etc. Autoriser : /wp-*.jpeg # images dans les plugins, le dossier cache, etc. Autoriser : /wp-*.gif # images dans les plugins, le dossier cache, etc. Autoriser : /wp-admin/admin-ajax.php # utilisé par les plugins afin de ne pas bloquer JS et CSS User-agent : Yandex # règles pour Yandex (je ne duplique pas les commentaires) Interdire : /cgi-bin Interdire : /? Interdire : /wp- Interdire : /wp/ Interdire : *?s= Interdire : *&s= Interdire : /search/ Interdire : /auteur/ Interdire : /users/ Interdire : */trackback Interdire : */feed Interdire : */ rss Interdire : */embed Interdire : */wlwmanifest.xml Interdire : /xmlrpc.php Autoriser : */uploads Autoriser : /*/*.js Autoriser : /*/*.css Autoriser : /wp-*.png Autoriser : /wp-*.jpg Autoriser : /wp-*.jpeg Autoriser : /wp-*.gif Autoriser : /wp-admin/admin-ajax.php Clean-Param : utm_source&utm_medium&utm_campaign # Yandex recommande de ne pas bloquer # l'indexation, mais de supprimer paramètres de balise, # Google ne prend pas en charge de telles règles Clean-Param : openstat # similaire # Spécifiez un ou plusieurs fichiers Sitemap (pas besoin de dupliquer pour chaque User-agent #). Google Plan du site XML crée 2 plans de site, comme dans l'exemple ci-dessous. Plan du site : http://site.ru/sitemap.xml Plan du site : http://site.ru/sitemap.xml.gz # Précisez le miroir principal du site, comme dans l'exemple ci-dessous (avec WWW / sans WWW, si HTTPS # puis écrivez le protocole, si vous devez spécifier un port, indiquez-le). La commande Host est comprise par # Yandex et Mail.RU, Google n'en tient pas compte. Hébergeur : www.site.ru
    2. Mais vous pouvez utiliser un exemple de minimalisme : User-agent : * Interdire : /wp-admin/ Autoriser : /wp-admin/admin-ajax.php Hôte : https://site.ru Plan du site : https://site. ru/sitemap.xml

    La vérité se situe probablement quelque part entre les deux. N'oubliez pas non plus d'ajouter la balise méta Robots pour les pages « supplémentaires », par exemple en utilisant le merveilleux plugin - . Cela vous aidera également à configurer Canonical.

    Corriger le fichier robots.txt pour Joomla

    Agent utilisateur : * Interdire : /administrateur/ Interdire : /bin/ Interdire : /cache/ Interdire : /cli/ Interdire : /components/ Interdire : /includes/ Interdire : /installation/ Interdire : /langue/ Interdire : /layouts/ Interdire : /bibliothèques/ Interdire : /logs/ Interdire : /modules/ Interdire : /plugins/ Interdire : /tmp/

    En principe, presque tout est pris en compte ici et cela fonctionne bien. La seule chose est que vous devez ajouter une règle User-agent: Yandex distincte pour insérer la directive Host, qui définit le miroir principal pour Yandex, et également spécifier le chemin d'accès au fichier Sitemap.

    Par conséquent, dans leur forme finale, les robots corrects pour Joomla, à mon avis, devraient ressembler à ceci :

    Agent utilisateur : Yandex Interdire : /administrateur/ Interdire : /cache/ Interdire : /includes/ Interdire : /installation/ Interdire : /langue/ Interdire : /bibliothèques/ Interdire : /modules/ Interdire : /plugins/ Interdire : /tmp/ Interdire : /layouts/ Interdire : /cli/ Interdire : /bin/ Interdire : /logs/ Interdire : /components/ Interdire : /component/ Interdire : /component/tags* Interdire : /*mailto/ Interdire : /*.pdf Interdire : /*% Interdire : /index.php Hôte : vash_sait.ru (ou www.vash_sait.ru) Agent utilisateur : * Autoriser : /*.css?*$ Autoriser : /*.js?*$ Autoriser : /* .jpg?*$ Autoriser : /*.png?*$ Interdire : /administrateur/ Interdire : /cache/ Interdire : /includes/ Interdire : /installation/ Interdire : /langue/ Interdire : /bibliothèques/ Interdire : /modules/ Interdire : /plugins/ Interdire : /tmp/ Interdire : /layouts/ Interdire : /cli/ Interdire : /bin/ Interdire : /logs/ Interdire : /components/ Interdire : /component/ Interdire : /*mailto/ Interdire : /*. pdf Interdire : /*% Interdire : /index.php Plan du site : http://chemin d'accès à votre carte Format XML

    Oui, notez également que dans la deuxième option il y a des directives Autoriser, permettant l'indexation des styles, des scripts et des images. Ceci a été écrit spécifiquement pour Google, car son Googlebot se plaint parfois que l'indexation de ces fichiers, par exemple à partir du dossier avec le thème utilisé, est interdite dans les robots. Il menace même de baisser son classement pour cela.

    Par conséquent, nous permettons à tout cela d’être indexé à l’avance en utilisant Allow. À propos, la même chose s’est produite dans le fichier d’exemple pour WordPress.

    Bonne chance à toi! A bientôt sur les pages du site blog

    Vous pouvez regarder plus de vidéos en allant sur
    ");">

    Vous pourriez être intéressé

    Domaines avec et sans www - l'historique de leur apparition, l'utilisation des redirections 301 pour les coller ensemble
    Miroirs, pages en double et adresses Url – un audit de votre site ou quelle pourrait être la cause d'échec lors de sa promotion SEO

    Robots.txt- il s'agit d'un fichier texte situé à la racine du site - http://site.ru/robots.txt. Son objectif principal est de définir certaines directives pour les moteurs de recherche : quoi et quand faire sur le site.

    Le fichier Robots.txt le plus simple

    Le robots.txt le plus simple, qui permet à tous les moteurs de recherche de tout indexer, ressemble à ceci :

    Agent utilisateur: *
    Refuser:

    Si la directive Disallow n'a pas de barre oblique finale, alors toutes les pages sont autorisées à être indexées.

    Cette directive interdit totalement au site d'indexer :

    Agent utilisateur: *
    Interdire : /

    Agent utilisateur - indique à qui les directives sont destinées, l'astérisque indique que pour tous les PS, pour Yandex indiquez Agent utilisateur : Yandex.

    L'aide de Yandex indique que ses robots de recherche traitent User-agent: * , mais si User-agent: Yandex est présent, User-agent: * est ignoré.

    Directives Interdire et Autoriser

    Il existe deux directives principales :

    Interdire - interdire

    Autoriser - autoriser

    Exemple: Sur le blog, nous avons interdit l'indexation du dossier /wp-content/ où se trouvent les fichiers du plugin, les modèles, etc. Mais il existe aussi des images qui doivent être indexées par le PS pour pouvoir participer à la recherche d'images. Pour ce faire, vous devez utiliser le schéma suivant :

    Agent utilisateur: *
    Autoriser : /wp-content/uploads/ # Autoriser l'indexation des images dans le dossier de téléchargement
    Interdire : /wp-content/

    L'ordre dans lequel les directives sont utilisées est important pour Yandex si elles s'appliquent aux mêmes pages ou dossiers. Si vous le précisez comme ceci :

    Agent utilisateur: *
    Interdire : /wp-content/
    Autoriser : /wp-content/uploads/

    Les images ne seront pas téléchargées par le robot Yandex à partir du répertoire /uploads/, car la première directive est en cours d'exécution, ce qui refuse tout accès au dossier wp-content.

    Google simplifie les choses et exécute toutes les directives du fichier robots.txt, quel que soit leur emplacement.

    N'oubliez pas non plus que les directives avec et sans barres obliques remplissent des rôles différents :

    Interdire : /à propos Cela refusera l'accès à l'intégralité du répertoire site.ru/about/, et les pages contenant about - site.ru/about.html, site.ru/aboutlive.html, etc. ne seront pas indexées.

    Interdire : /à propos de/ Cela empêchera les robots d'indexer les pages du répertoire site.ru/about/ et les pages comme site.ru/about.html, etc. sera disponible pour l’indexation.

    Expressions régulières dans robots.txt

    Deux caractères sont pris en charge, ce sont :

    * - implique n'importe quel ordre de caractères.

    Exemple:

    Interdire : /à propos de* refusera l'accès à toutes les pages contenant environ ; en principe, une telle directive fonctionnera de la même manière sans astérisque. Mais dans certains cas, cette expression n’est pas remplaçable. Par exemple, dans une catégorie, il y a des pages avec et sans .html à la fin, afin de bloquer l'indexation de toutes les pages contenant du html, nous écrivons la directive suivante :

    Interdire : /about/*.html

    Maintenant, la page site.ru/about/live.html est fermée à l'indexation et la page site.ru/about/live est ouverte.

    Autre exemple par analogie :

    Agent utilisateur : Yandex
    Autoriser : /about/*.html #autoriser l'indexation
    Interdire : /à propos de/

    Toutes les pages seront fermées, à l'exception des pages se terminant par .html

    $ - coupe la partie restante et marque la fin de la ligne.

    Exemple:

    Interdire : /à propos- Cette directive robots.txt interdit l'indexation de toutes les pages commençant par about , et interdit également les pages du répertoire /about/.

    En ajoutant un symbole dollar à la fin - Disallow: /about$ nous indiquerons aux robots que seule la page /about ne peut pas être indexée, mais le répertoire /about/, les pages /aboutlive, etc. peuvent être indexés.

    Directive sur le plan du site

    Cette directive précise le chemin d'accès au Plan du site, sous cette forme :

    Plan du site : http://site.ru/sitemap.xml

    Directive hôte

    Il est indiqué sous cette forme :

    Hébergeur : site.ru

    Sans http:// , les barres obliques et autres. Si vous avez un site miroir principal avec www, alors écrivez :

    Hébergeur : www.site.ru

    Exemple de fichier robots.txt pour WordPress

    Après que toutes les directives nécessaires décrites ci-dessus aient été ajoutées. Vous devriez vous retrouver avec un fichier robots ressemblant à ceci :

    Agent utilisateur: *
    Autoriser : /wp-content/uploads/
    Interdire : /cgi-bin
    Interdire : /wp-login.php
    Interdire : /wp-register.php
    Interdire : /wp-content/
    Interdire : /wp-admin/
    Interdire : /wp-includes/
    Interdire : /commentaires
    Interdire : /trackback
    Interdire : */trackback
    Interdire : */*/trackback
    Interdire : */*/feed/*/
    Interdire : */flux
    Interdire : /*?*
    Interdire : */page de commentaires*
    Interdire : /tag
    Permettre: /
    Plan du site : https://site/sitemap.xml

    Agent utilisateur : Yandex
    Autoriser : /wp-content/uploads/
    Interdire : /cgi-bin
    Interdire : /wp-login.php
    Interdire : /wp-register.php
    Interdire : /wp-content/
    Interdire : /wp-admin/
    Interdire : /wp-includes/
    Interdire : /commentaires
    Interdire : /trackback
    Interdire : */trackback
    Interdire : */*/trackback
    Interdire : */*/feed/*/
    Interdire : */flux
    Interdire : /*?*
    Interdire : */page de commentaires*
    Interdire : /tag
    Permettre: /
    Hébergeur : site internet

    Plan du site : https://site/sitemap.xml

    Il s’agit pour ainsi dire de la version de base de robots.txt pour WordPress. Il y a deux agents utilisateurs ici - un pour tout le monde et le second pour Yandex, où la directive Host est spécifiée.

    Balises méta robots

    Il est possible de bloquer l'indexation d'une page ou d'un site Web non seulement avec le fichier robots.txt, mais également à l'aide d'une balise méta.

    <méta nom = "robots" content = "noindex,nofollow" >

    Il faut que ce soit écrit dans la balise et cette balise méta empêchera l'indexation du site. Il existe des plugins dans WordPress qui vous permettent de définir de telles balises méta, par exemple – Platinum Seo Pack. Avec lui, vous pouvez bloquer l'indexation de n'importe quelle page ; il utilise des balises méta.

    Directive de délai d'exploration

    À l'aide de cette directive, vous pouvez définir la durée pendant laquelle le robot de recherche doit être interrompu entre le téléchargement des pages du site.

    Agent utilisateur: *
    Délai d'exploration : 5

    Le délai entre le chargement de deux pages sera de 5 secondes. Pour réduire la charge sur le serveur, ils la règlent généralement sur 15 à 20 secondes. Cette directive est nécessaire pour les grands sites fréquemment mis à jour sur lesquels les robots de recherche « vivent » simplement.

    Pour les sites/blogs ordinaires, cette directive n'est pas nécessaire, mais vous pouvez ainsi limiter le comportement d'autres robots de recherche non pertinents (Rambler, Yahoo, Bing), etc. Après tout, ils se rendent également sur le site et l'indexent, créant ainsi une charge sur le serveur.

    Déposer robots.txt est un fichier ordinaire avec une extension .txt, qui peut être créé à l'aide d'un fichier ordinaire Bloc-notes Windows. Ce fichier contient des instructions d'indexation pour les robots de recherche. Placez ce fichier du répertoire racine sur l'hébergement.

    Lorsqu'un robot de recherche entre sur un site, la première chose qu'il fait est de consulter le fichier robots.txt afin de recevoir des instructions pour d'autres mesures et découvrez quels fichiers et répertoires sont interdits d'indexation. Déposer robots.txt est de nature consultative pour les moteurs de recherche. On ne peut pas affirmer avec une certitude absolue que tous les fichiers interdits d'indexation ne seront finalement pas indexés.

    Considérons exemple le plus simple fichier robots.txt. Ce fichier contient les lignes suivantes :

    Agent utilisateur : * Interdire : /wp-admin/ Interdire : /images/

    La première ligne indique à quels robots de recherche ces instructions s'appliquent. Dans cet exemple, un astérisque est indiqué - cela signifie que les instructions s'appliquent à tous les robots de recherche. Si vous devez fournir des instructions pour un robot de recherche spécifique, vous devez saisir son nom. Les deuxième et troisième lignes interdisent l'indexation des répertoires « wp-admin » et « images ».

    Pour le robot de recherche Yandex, il est également important d'enregistrer le répertoire Host pour indiquer le miroir principal du site :

    Agent utilisateur : Yandex Interdire : /wp-admin/ Interdire : /images/ Hôte : yoursite.ru

    Exemples d'écriture d'un fichier robots.txt pour des tâches spécifiques

    1. N'interdisez pas aux robots des moteurs de recherche d'indexer le site :

    Agent utilisateur : googlebot Interdire : /

    4. N'interdisez pas l'indexation par un seul robot (par exemple, googlebot) et interdisez à tous les autres robots de recherche d'indexer :

    Agent utilisateur : googlebot Interdire :
    Agent utilisateur : * Interdire : /admin/ Interdire : /wp-content/ Interdire : /images/
    Agent utilisateur : * Interdire : /News/webnews.html Interdire : /content/page.php
    Agent utilisateur : * Interdire : /page.php Interdire : /links.htm Interdire : /secret.html

    Règles de base pour écrire des robots.txt

    Des erreurs sont souvent commises lors de l'écriture du fichier robots.txt. Afin de les éviter, regardons les règles de base :

    1. Le contenu du dossier doit être écrit en majuscules uniquement.
    2. L'instruction Disallow doit spécifier un seul répertoire ou un seul fichier.
    3. La ligne « User-agent » ne doit pas être vide. Si les instructions s'appliquent à tous les robots de recherche, vous devez alors indiquer un astérisque, et si elles s'appliquent à un robot de recherche spécifique, indiquez son nom.
    4. Les instructions Disallow et User-agent ne peuvent pas être échangées.
    5. Dans la directive Host, utilisée pour Yandex, l'adresse de notre site doit être spécifiée sans Protocole HTTP et sans barre oblique de fermeture.
    6. Lors de l'interdiction de l'indexation des répertoires, il est nécessaire d'inclure des barres obliques.
    7. Vous devez vérifier le fichier robots.txt avant de le télécharger sur le serveur. Cela évitera de futurs problèmes possibles avec indexation du site.