Description des robots txt. Comment modifier le fichier txt des robots. Plan du site, directives de l'hôte

Le fichier robots.txt se trouve dans le répertoire racine de votre site. Par exemple, sur le site www.example.com l'adresse du fichier robots.txt ressemblera à www.example.com/robots.txt. Le fichier robots.txt est un fichier texte brut qui suit la norme d'exclusion des robots et comprend une ou plusieurs règles, dont chacune refuse ou autorise un robot d'exploration particulier à accéder à un chemin spécifique sur le site.

Voici un exemple de fichier robots.txt simple avec deux règles. Ci-dessous les explications.

# Agent utilisateur du groupe 1 : Googlebot Interdire : /nogooglebot/ # Agent utilisateur du groupe 2 : * Autoriser : / Plan du site : http://www.example.com/sitemap.xml

Explications

Un agent utilisateur appelé Googlebot ne doit pas explorer le répertoire http://example.com/nogooglebot/ et ses sous-répertoires.
Tous les autres agents utilisateurs ont accès à l'intégralité du site (peut être omis, le résultat sera le même, puisque l'accès complet est accordé par défaut).
Fichier de plan du site ce site est situé à http://www.example.com/sitemap.xml.

Vous trouverez ci-dessous quelques conseils pour travailler avec les fichiers robots.txt. Nous vous recommandons d'étudier la syntaxe complète de ces fichiers, car les règles de syntaxe utilisées pour les créer ne sont pas évidentes et vous devez les comprendre.

Format et mise en page

Vous pouvez créer un fichier robots.txt dans presque tous les éditeurs de texte prenant en charge le codage UTF-8. Évitez d'utiliser des traitements de texte, car ils enregistrent souvent les fichiers dans un format propriétaire et ajoutent des caractères illégaux, tels que des guillemets bouclés, qui ne sont pas reconnus par les robots de recherche.

Lors de la création et du test de fichiers robots.txt, utilisez un outil de test. Il permet d'analyser la syntaxe d'un fichier et de découvrir comment il fonctionnera sur votre site.

Règles concernant le format et l'emplacement des fichiers

Le fichier doit être nommé robots.txt.
Il ne devrait y avoir qu'un seul fichier de ce type sur le site.
Le fichier robots.txt doit être placé dans répertoire racine site. Par exemple, pour contrôler l'exploration de toutes les pages du site http://www.example.com/, le fichier robots.txt doit se trouver à l'adresse http://www.example.com/robots.txt. Il ne devrait pas être dans un sous-répertoire(par exemple, à l'adresse http://example.com/pages/robots.txt). Si vous rencontrez des difficultés pour accéder au répertoire racine, contactez votre hébergeur. Si vous n'avez pas accès au répertoire racine du site, utilisez une méthode de blocage alternative telle que les balises méta.
Le fichier robots.txt peut être ajouté aux adresses avec sous-domaines(par exemple http:// site web.example.com/robots.txt) ou des ports non standard (par exemple, http://example.com : 8181 /robots.txt).
Tout texte après le symbole # est considéré comme un commentaire.

Syntaxe

Le fichier robots.txt doit être un fichier texte codé en UTF-8 (qui inclut des codes de caractères ASCII). D'autres jeux de caractères ne peuvent pas être utilisés.
Le fichier robots.txt se compose de groupes.
Chaque groupe peut contenir plusieurs règles, un par ligne. Ces règles sont aussi appelées directive.
Le groupe comprend les informations suivantes :
- À quoi agent utilisateur Les directives de groupe s'appliquent.
- avoir accès.
- À quels répertoires ou fichiers cet agent accède-t-il ? Pas d'accès.
Les instructions de groupe se lisent de haut en bas. Le robot ne suivra que les règles d’un groupe avec l’agent utilisateur qui lui correspond le plus.
Par défaut, on suppose que si l'accès à une page ou à un répertoire n'est pas bloqué par une règle Disallow:, alors l'agent utilisateur peut le traiter.
Règles sensible aux majuscules et minuscules. Ainsi, la règle Disallow: /file.asp s'applique à l'URL http://www.example.com/file.asp, mais pas à http://www.example.com/File.asp.

Directives utilisées dans les fichiers robots.txt

Agent utilisateur: Directive obligatoire, il peut y en avoir plusieurs dans un groupe. Détermine quel moteur de recherche robot des règles doivent s’appliquer. Chaque groupe commence par cette ligne. La plupart des agents utilisateurs liés aux Googlebots peuvent être trouvés dans une liste spéciale et dans la base de données Internet Robots. Le caractère générique * est pris en charge pour indiquer un préfixe, un suffixe d'un chemin ou le chemin complet. Utilisez le signe * comme indiqué dans l'exemple ci-dessous pour bloquer l'accès à tous les robots ( sauf les robots AdsBot, qui doit être spécifié séparément). Nous vous recommandons de vous familiariser avec la liste des robots Google. Exemples:# Exemple 1. Bloquer l'accès uniquement à l'agent utilisateur de Googlebot : Googlebot Disallow : / # Exemple 2. Bloquer l'accès aux robots Googlebot et AdsBot Agent utilisateur : Googlebot User-agent : AdsBot-Google Disallow : / # Exemple 3. Bloquer l'accès à tous les robots, à l'exception de l'agent utilisateur AdsBot : * Interdire : /
Refuser: . Pointe vers un répertoire ou une page relatif au domaine racine qui ne peut pas être exploré par l'agent utilisateur défini ci-dessus. S'il s'agit d'une page, le chemin complet d'accès à celle-ci doit être précisé, comme dans la barre d'adresse du navigateur. S'il s'agit d'un répertoire, le chemin doit se terminer par une barre oblique (/). Le caractère générique * est pris en charge pour indiquer un préfixe, un suffixe d'un chemin ou le chemin complet.
Permettre: Au moins une directive Disallow: ou Allow: doit être dans chaque groupe. Pointe vers un répertoire ou une page relative au domaine racine qui peut être exploré par l'agent utilisateur défini ci-dessus. Utilisé pour remplacer la directive Disallow et autoriser l'analyse d'un sous-répertoire ou d'une page dans un répertoire fermé pour analyse. S'il s'agit d'une page, le chemin complet d'accès à celle-ci doit être précisé, comme dans la barre d'adresse du navigateur. S'il s'agit d'un répertoire, le chemin doit se terminer par une barre oblique (/). Le caractère générique * est pris en charge pour indiquer un préfixe, un suffixe d'un chemin ou le chemin complet.
Plan du site : Une directive facultative ; il peut y en avoir plusieurs ou aucune dans le fichier. Indique l'emplacement du plan du site utilisé sur ce site. L'URL doit être complète. Google ne traite ni ne valide les variantes d'URL comportant les préfixes http et https, ni avec ou sans l'élément www. Les plans de site indiquent à Google quel contenu besoin de scanner et comment le distinguer du contenu qui Peut ou c'est interdit analyse. Exemple: Plan du site : https://example.com/sitemap.xml Plan du site : http://www.example.com/sitemap.xml

Les autres règles sont ignorées.

Encore un exemple

Le fichier robots.txt est constitué de groupes. Chacun d'eux commence par une ligne User-agent, qui définit le robot qui doit suivre les règles. Vous trouverez ci-dessous un exemple de fichier avec deux groupes et des commentaires explicatifs pour les deux.

# Bloquer l'accès de Googlebot à example.com/directory1/... et example.com/directory2/... # mais autoriser l'accès à directory2/subdirectory1/... # L'accès à tous les autres répertoires est autorisé par défaut. Agent utilisateur : googlebot Interdire : /répertoire1/ Interdire : /répertoire2/ Autoriser : /répertoire2/sous-répertoire1/ # Bloquer l'accès à l'intégralité du site à un autre moteur de recherche. Agent utilisateur : anothercrawler Interdire : /

Syntaxe complète du fichier robots.txt

La syntaxe complète est décrite dans cet article. Nous vous recommandons de vous familiariser avec celui-ci, car il existe des nuances importantes dans la syntaxe du fichier robots.txt.

Règles utiles

Voici quelques règles courantes pour le fichier robots.txt :

Règle	Exemple
Interdiction de parcourir l'intégralité du site. Veuillez noter que dans certains cas, les URL de sites peuvent être présentes dans l'index même si elles n'ont pas été explorées. Veuillez noter que cette règle ne s'applique pas aux robots AdsBot, qui doivent être spécifiés séparément.	Agent utilisateur : * Interdire : /
Pour empêcher l'analyse d'un répertoire et de tout son contenu, placez une barre oblique après le nom du répertoire. N'utilisez pas le fichier robots.txt pour protéger des informations confidentielles ! L'authentification doit être utilisée à ces fins. Les URL qui ne sont pas autorisées à être explorées par le fichier robots.txt peuvent être indexées et le contenu du fichier robots.txt peut être consulté par n'importe quel utilisateur et ainsi révéler l'emplacement des fichiers contenant des informations sensibles.	Agent utilisateur : * Interdire : /calendar/ Interdire : /junk/
Pour autoriser l'exploration par un seul robot	Agent utilisateur : Googlebot-news Autoriser : / Agent utilisateur : * Interdire : /
Pour autoriser l'exploration pour tous les robots d'exploration sauf un	Agent utilisateur : Bot inutile Interdire : / Agent utilisateur : * Autoriser : /
Pour empêcher l'exploration d'une page spécifique, précisez cette page après la barre oblique.	Agent utilisateur : * Interdire : /private_file.html
Pour masquer une image spécifique au robot Google Images	Agent utilisateur : Googlebot-Image Disallow : /images/dogs.jpg
Pour masquer toutes les images de votre site au robot Google Images	Agent utilisateur : Googlebot-Image Disallow : /
Pour empêcher l'analyse de tous les fichiers d'un type spécifique(dans ce cas GIF)	Agent utilisateur : Googlebot Interdire : /*.gif$
Pour bloquer certaines pages de votre site tout en y diffusant des annonces AdSense, utilisez la règle Interdire pour tous les robots à l'exception de Mediapartners-Google. De ce fait, ce robot pourra accéder aux pages supprimées des résultats de recherche afin de sélectionner les annonces à afficher auprès d'un utilisateur particulier.	Agent utilisateur : * Interdire : / Agent utilisateur : Mediapartners-Google Autoriser : /
Pour spécifier une URL qui se termine par un fragment spécifique, utilisez le symbole $. Par exemple, pour les URL se terminant par .xls, utilisez le code suivant :	Agent utilisateur : Googlebot Interdire : /*.xls$

Ces informations ont-elles été utiles ?

Comment cet article peut-il être amélioré ?

Créer le fichier lui-même

Robots.txt est un fichier contenant des instructions pour les robots de recherche. Il est créé à la racine du site. Vous pouvez le créer dès maintenant sur votre bureau à l’aide du Bloc-notes, tout comme vous créez n’importe quel fichier texte.

Pour ce faire, faites un clic droit sur l'espace vide et sélectionnez Nouveau – Document texte (pas Word). Il s'ouvrira à l'aide d'un bloc-notes ordinaire. Appelez-le des robots, son extension est déjà correcte - txt. C'est tout pour créer le fichier lui-même.

Comment composer un fichier robots.txt

Il ne reste plus qu'à remplir le dossier avec les instructions nécessaires. En fait, les commandes pour robots ont la syntaxe la plus simple, beaucoup plus simple que dans n'importe quel langage de programmation. En général, vous pouvez remplir le dossier de deux manières :

Regardez un autre site, copiez et modifiez en fonction de la structure de votre projet.

Écrivez-le vous-même

J'ai déjà écrit sur la première méthode. Cela convient si les sites ont les mêmes moteurs et qu'il n'y a pas de différences significatives de fonctionnalités. Par exemple, tous les sites WordPress ont la même structure, mais il peut y avoir diverses extensions, comme un forum, une boutique en ligne et de nombreux répertoires supplémentaires. Si vous voulez savoir comment changer le fichier robots.txt, lisez cet article, vous pouvez aussi lire le précédent, mais celui-ci en dira beaucoup.

Par exemple, vous disposez d'un répertoire /source sur votre site Web, où sont stockées les sources des articles que vous écrivez sur votre blog, mais un autre webmaster ne dispose pas d'un tel répertoire. Et vous souhaitez, par exemple, fermer le dossier source de l'indexation. Si vous copiez robots.txt à partir d'une autre ressource, une telle commande n'y sera pas. Vous devrez ajouter vos instructions, supprimer les choses inutiles, etc.

Dans tous les cas, il est donc utile de connaître la syntaxe de base des instructions pour robots, que nous allons maintenant analyser.

Comment écrire vos instructions aux robots ?

La première chose par laquelle commence le fichier est une indication des moteurs de recherche auxquels les instructions sont adressées. Cela se fait comme ceci :

Agent utilisateur : Yandex ou agent utilisateur : Googlebot

Agent utilisateur : Yandex

Agent utilisateur : Googlebot

Il n'est pas nécessaire de mettre des points-virgules à la fin de la ligne, ce n'est pas de la programmation pour vous). En général, il est clair que dans le premier cas, seul le bot Yandex lira les instructions, dans le second, uniquement Google. Si les commandes doivent être exécutées par tous les robots, écrivez ceci : User-agent :

Super. Nous avons réglé l'appel aux robots. Ce n'est pas difficile. Vous pouvez illustrer cela avec un exemple simple. Vous avez trois frères plus jeunes, Vasya, Dima et Petya, et vous êtes le principal. Vos parents sont partis et vous ont dit de les surveiller.

Tous les trois vous demandent quelque chose. Imaginez que vous deviez leur donner une réponse comme si vous écriviez des instructions pour rechercher des robots. Cela ressemblera à ceci :

Agent utilisateur : Vasya Autoriser : aller au football Agent utilisateur : Dima Interdire : aller au football (Dima a cassé le verre de ses voisins la dernière fois, il a été puni) Agent utilisateur : Petya Autoriser : aller au cinéma (Petya a déjà 16 ans et il est généralement choqué que je doive aussi vous demander la permission, mais bon, laissez-le partir).

Ainsi, Vasya enfile joyeusement ses baskets, Dima, la tête baissée, regarde par la fenêtre son frère, qui pense déjà combien de buts il va marquer aujourd'hui (Dima a reçu l'ordre d'interdiction, c'est-à-dire une interdiction). Eh bien, Petya va à son film.

À partir de cet exemple, il est facile de comprendre qu'Autoriser est une autorisation et Disallow est une interdiction. Mais dans robots.txt, nous donnons des commandes non pas à des personnes, mais à des robots, donc au lieu de tâches spécifiques, les adresses des pages et des répertoires dont l'indexation doit être autorisée ou interdite y sont écrites.

Par exemple, j'ai un site Web site.ru. Il est propulsé par WordPress. Je commence à écrire des instructions :

Agent utilisateur : * Interdire : /wp-admin/ Interdire : /wp-content/ Interdire : /wp-includes/ Autoriser : /wp-content/uploads/ Interdire : /source/ Eh bien, etc.

Agent utilisateur: *

Interdire : /wp-admin/

Interdire : /wp-content/

Interdire : /wp-includes/

Interdire : /source/

Nuit. d.

Tout d’abord, j’ai contacté tous les robots. Deuxièmement, j'ai bloqué l'indexation des dossiers du moteur, mais en même temps j'ai donné au robot l'accès au dossier de téléchargement. Toutes les images y sont généralement stockées et leur indexation n'est généralement pas bloquée si vous prévoyez de recevoir du trafic provenant de la recherche d'images.

Eh bien, rappelez-vous, plus tôt dans l'article, j'ai dit que vous pouviez avoir des répertoires supplémentaires ? Vous pouvez les créer vous-même à diverses fins. Par exemple, sur un de mes sites il y a un dossier flash dans lequel je mets des jeux flash pour pouvoir les lancer sur le site. Ou source – ce dossier peut stocker des fichiers que les utilisateurs peuvent télécharger.

En général, le nom du dossier n’a pas d’importance. Si vous devez le fermer, spécifiez le chemin d'accès et la commande Disallow.

La commande Autoriser est nécessaire précisément pour ouvrir certaines parties de sections déjà fermées. Après tout, par défaut, si vous n'avez pas de fichier robots.txt, l'intégralité du site sera disponible pour l'indexation. C'est à la fois une bonne chose (vous ne fermerez certainement pas quelque chose d'important par erreur) et en même temps une mauvaise chose (des fichiers et des dossiers seront ouverts qui ne devraient pas figurer dans les résultats de recherche).

Pour mieux comprendre ce point, je vous suggère de revoir cet article :

Interdire : /wp-content/ Autoriser : /wp-content/uploads/

Interdire : /wp-content/

Autoriser : /wp-content/uploads/

Comme vous pouvez le voir, nous bloquons d’abord l’indexation de l’intégralité du répertoire wp-content. Il stocke tous vos modèles, plugins, mais il contient également des images. Bien évidemment, ils peuvent être ouverts. C'est pourquoi nous avons besoin de la commande Allow.

Options supplémentaires

Les commandes répertoriées ne sont pas les seules choses qui peuvent être spécifiées dans le fichier. Il y a aussi ceux-ci : Hôte – indique le miroir principal du site. Pour ceux qui ne le savaient pas, tout site Web propose deux options orthographiques par défaut pour son nom de domaine : domain.com et www.domain.com.

Pour éviter les problèmes, vous devez spécifier une option comme miroir principal. Cela peut être fait à la fois dans les outils pour les webmasters et dans le fichier Robots.txt. Pour ce faire nous écrivons : Hébergeur : domain.com

Qu'est-ce que cela donne ? Si quelqu'un tente d'accéder à votre site comme ceci : www.domain.com, il sera automatiquement redirigé vers la version sans www, car elle sera reconnue comme le miroir principal.

La deuxième directive est le plan du site. Je pense que vous avez déjà compris qu'il spécifie le chemin d'accès au plan du site au format XML. Exemple : http://domain.com/sitemap.xml

Encore une fois, vous pouvez télécharger la carte dans Yandex.Webmaster, vous pouvez également la spécifier dans robots.txt afin que le robot lise cette ligne et comprenne clairement où chercher le plan du site. Pour un robot, un plan du site est aussi important que pour Vasya - le ballon avec lequel il ira au football. C'est comme s'il vous demandait (comme un frère aîné) où est le ballon. Et tu lui dis :

Derrière le canapé

Vous savez maintenant comment configurer et modifier correctement le fichier robots.txt pour Yandex et, en général, tout autre moteur de recherche en fonction de vos besoins.

À quoi sert la personnalisation des fichiers ?

J'en ai également parlé plus tôt, mais je le répète. Grâce à un fichier clairement configuré avec des commandes pour les robots, vous pouvez dormir plus facilement en sachant que le robot n'explorera pas une section inutile et n'insérera pas de pages inutiles dans l'index.

J'ai également dit que la configuration de robots.txt ne résout pas tout. En particulier, cela ne vous évite pas les doublons dus au fait que les moteurs sont imparfaits. Tout comme les gens. Vous avez permis à Vasya d'aller au football, mais ce n'est pas un fait qu'il n'y fera pas la même chose que Dima. C'est la même chose avec les doublons : vous pouvez donner une commande, mais vous ne pouvez certainement pas être sûr que quelque chose en plus ne se faufilera pas dans l'index, ruinant les positions.

Il n’y a pas non plus lieu d’avoir peur des doubles comme le feu. Par exemple, Yandex traite plus ou moins normalement les sites qui rencontrent de graves problèmes techniques. Une autre chose est que si vous démarrez une entreprise, vous pouvez vraiment perdre un pourcentage important de trafic pour vous-même. Cependant, bientôt dans notre section dédiée au SEO il y aura un article sur les doublons, puis nous nous battrons avec eux.

Comment puis-je obtenir un fichier robots.txt normal si je ne comprends rien moi-même ?

Après tout, créer un fichier robots.txt ne signifie pas créer un site Web. C'est en quelque sorte plus simple, vous pouvez donc simplement copier le contenu du fichier de n'importe quel blogueur plus ou moins performant. Bien sûr, si vous possédez un site WordPress. S'il s'agit d'un moteur différent, vous devez alors rechercher des sites en utilisant le même cms. J'ai déjà expliqué comment afficher le contenu d'un fichier sur le site Web de quelqu'un d'autre : Domain.com/robots.txt

Conclusion

Je ne pense pas qu'il y ait grand chose à dire ici, car rédiger des instructions pour le robot ne devrait pas être votre objectif pour l'année. Il s’agit d’une tâche que même un débutant peut accomplir en 30 à 60 minutes, et qu’un professionnel peut généralement accomplir en quelques minutes seulement. Vous réussirez et vous n’en doutez pas.

Et pour découvrir d'autres conseils utiles et importants pour promouvoir et promouvoir un blog, vous pouvez consulter notre unique. Si vous appliquez 50 à 100 % des recommandations qui en découlent, vous pourrez promouvoir avec succès n'importe quel site à l'avenir.

Robots.txt est un fichier texte qui contient les paramètres d'indexation du site pour les robots des moteurs de recherche.

Comment configurer le fichier robots.txt

Créez un fichier nommé robots.txt dans un éditeur de texte et remplissez-le en suivant les instructions ci-dessous.

Vérifiez le fichier dans le service Yandex.Webmaster (analyse Robots.txt dans le menu).

Téléchargez le fichier dans le répertoire racine de votre site.

La directive User-Agent

YandexMedia - Indexe les données multimédias.

S'il existe des directives pour un robot spécifique, les directives User-agent : Yahoo et User-agent : * ne sont pas utilisées.

Agent utilisateur : YandexBot # sera utilisé uniquement par le robot d'indexation principal Interdire : /*id= Agent utilisateur : Yandex # sera utilisé par tous les robots Yandex Interdire : /*sid= # sauf pour le robot d'indexation principal Agent utilisateur : * # ne sera pas utilisé par les robots Yandex Interdire : /cgi-bin

Directives Interdire et Autoriser

Pour interdire au robot d'accéder à votre site ou à certaines sections de celui-ci, utilisez la directive Disallow.

Agent utilisateur : YandexDisallow : / # bloque l'accès à l'ensemble du site Agent utilisateur : YandexDisallow : /cgi-bin # bloque l'accès aux pages # commençant par "/cgi-bin"

Selon la norme, vous devez insérer une ligne vide avant chaque directive User-agent.

Le commentaire sur la conception des personnages #. Tout ce qui suit ce caractère, jusqu'au premier saut de ligne, est ignoré.

Utilisez la directive Autoriser pour autoriser le robot à accéder à des parties spécifiques du site ou à l'ensemble du site.

Agent utilisateur : Yandex Autoriser : /cgi-bin Interdire : / # interdit de télécharger quoi que ce soit à l'exception des pages # commençant par "/cgi-bin"

Note. Les sauts de ligne vides ne sont pas autorisés entre les directives User-agent , Disallow et Allow.

Combinaison de directives

Les directives Allow et Disallow du bloc User-agent correspondant sont triées en fonction de la longueur du préfixe d'URL (du plus court au plus long) et appliquées dans l'ordre. Si plusieurs directives correspondent à une page particulière du site, le robot sélectionne la dernière dans la liste triée. De cette façon, l'ordre des directives dans le fichier robots.txt n'affecte pas la façon dont elles sont utilisées par le robot. Exemples :

# Source robots.txt : Agent utilisateur : Yandex Autoriser : /catalog Interdire : / # Robots.txt triés : Agent utilisateur : Yandex Interdire : / Autoriser : /catalog # autorise uniquement le téléchargement de pages # commençant par "/catalog" # Source robots.txt : Agent utilisateur : Yandex Autoriser : /Autoriser : /catalog/auto Interdire : /catalogue # Robots.txt triés : Agent utilisateur : Yandex Autoriser : / Interdire : /catalog Autoriser : /catalog/auto # interdictions de téléchargement de pages commençant par "/catalog", # mais permet de télécharger des pages commençant par "/catalog/auto".

Directives Autoriser et Interdire sans paramètres

Si les directives ne contiennent pas de paramètres, le robot gère les données comme suit :

User-agent : Yandex Disallow : # idem Allow : / User-agent : Yandex Allow : # n'est pas pris en compte par le robot

Utilisation des caractères spéciaux * et $

Vous pouvez utiliser les caractères spéciaux * et $ pour définir des expressions régulières lors de la spécification de chemins pour les directives Allow et Disallow. Le caractère * indique n'importe quelle séquence de caractères (ou aucune). Exemples:

Agent utilisateur : Yandex Interdire : /cgi-bin/*.aspx # interdictions "/cgi-bin/example.aspx" # et "/cgi-bin/private/test.aspx" Interdire : /*private # interdit les deux " /private", # et "/cgi-bin/private"

Le personnage $

Par défaut, le caractère * est ajouté à la fin de chaque règle décrite dans le fichier robots.txt. Exemple:

Agent utilisateur : Yandex Interdire : /cgi-bin* # bloque l'accès aux pages # commençant par "/cgi-bin"Interdire : /cgi-bin # pareil

Pour annuler * à la fin de la règle, utilisez le caractère $, par exemple :

Agent utilisateur : Yandex Disallow : /example$ # interdit "/example", # mais autorise "/example.html" User-agent : Yandex Disallow : /example # interdit à la fois "/example", # et "/example.html " Le caractère $ n'interdit pas * à la fin, c'est-à-dire : Agent utilisateur : Yandex Interdire : /exemple$ # interdit uniquement "/exemple" Interdire : /exemple*$ # exactement la même chose que "Interdire : /exemple" # interdit à la fois /example.html et /example

La directive Plan du site

Si vous utilisez un fichier Sitemap pour décrire la structure de votre site, indiquez le chemin d'accès au fichier en paramètre de la directive Sitemap (si vous avez plusieurs fichiers, indiquez tous les chemins). Exemple :

Agent utilisateur : Yandex Autoriser : / plan du site : https://example.com/site_structure/my_sitemaps1.xml plan du site : https://example.com/site_structure/my_sitemaps2.xml

La directive est intersectionnelle, ce qui signifie qu'elle est utilisée par le robot quel que soit son emplacement dans robots.txt .

Le robot mémorise le chemin d'accès à votre fichier, traite vos données et utilise les résultats lors de la prochaine visite sur votre site.

La directive Crawl-delay

Si le serveur est surchargé et qu'il n'est pas possible de traiter les demandes de téléchargement, utilisez la directive Crawl-delay. Vous pouvez spécifier l'intervalle minimum (en secondes) pendant lequel le robot de recherche attend après le téléchargement d'une page, avant de commencer à en télécharger une autre.

Pour maintenir la compatibilité avec les robots qui peuvent s'écarter de la norme lors du traitement de robots.txt , ajoutez la directive Crawl-delay au groupe qui commence par l'entrée User-Agent juste après les directives Disallow et Allow.

Le robot de recherche Yandex prend en charge les valeurs fractionnaires pour Crawl-Delay , telles que "0,5". Cela ne signifie pas que le robot de recherche accédera à votre site toutes les demi-secondes, mais cela peut accélérer le traitement du site.

Agent utilisateur : Yandex Crawl-delay : 2 # définit un délai d'expiration de 2 secondes Agent utilisateur : * Interdire : /search Crawl-delay : 4,5 # définit un délai d'expiration de 4,5 secondes

La directive Clean-param

Si les adresses des pages de votre site contiennent des paramètres dynamiques qui n'affectent pas le contenu (par exemple, des identifiants de sessions, d'utilisateurs, de référents, etc.), vous pouvez les décrire à l'aide de la directive Clean-param.

Le robot Yandex utilise ces informations pour éviter de recharger des informations en double. Cela améliore l'efficacité du robot et réduit la charge du serveur.

Par exemple, votre site contient les pages suivantes :

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Le paramètre ref est uniquement utilisé pour suivre la ressource à partir de laquelle la demande a été envoyée. Cela ne change pas le contenu de la page. Les trois URL afficheront la même page avec le livre book_id=123. Ensuite, si vous indiquez la directive de la manière suivante :

Agent utilisateur : Yandex Interdire : Clean-param : ref /some_dir/get_book.pl

le robot Yandex fera converger toutes les adresses de page en une seule :

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Si une page sans paramètres est disponible sur le site :

www.example.com/some_dir/get_book.pl?book_id=123

toutes les autres URL sont remplacées par celle-ci une fois que le robot l'a indexée. Les autres pages de votre site seront explorées plus souvent, car il n'y aura pas besoin de mettre à jour les pages :

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Syntaxe des directives

Paramètres propres : p0[&p1&p2&..&pn]

Dans le premier champ, listez les paramètres à ignorer, séparés par le caractère &. Dans le deuxième champ, indiquez le préfixe de chemin des pages auxquelles la règle doit s'appliquer.

Le préfixe peut contenir une expression régulière au format similaire à celui utilisé dans le fichier robots.txt, mais avec quelques restrictions : vous ne pouvez utiliser que les caractères A-Za-z0-9.-/*_ . Cependant, * est interprété de la même manière que dans robots.txt . Un * est toujours implicitement ajouté à la fin du préfixe. Par exemple:

Paramètres propres : s /forum/showthread.php

signifie que le paramètre s est ignoré pour toutes les URL commençant par /forum/showthread.php . Le deuxième champ est facultatif, et dans ce cas la règle s'appliquera à toutes les pages du site. C'est sensible à la casse. La longueur maximale de la règle est de 500 caractères. Par exemple:

Param propre : abc /forum/showthread.php Param propre : sid&sort /forum/*.php Param propre : someTrash&otherTrash

Exemples supplémentaires

#pour les adresses telles que :www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 #robots.txt contiendra les éléments suivants : Utilisateur- agent : Yandex Interdire : Clean-param : s /forum/showthread.php #pour des adresses telles que :www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php?page= 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt contiendra les éléments suivants : User-agent : Yandex Disallow : Clean-param : sid /index.php #s'il existe plusieurs de ces paramètres :www.example1.com/forum_old/showthread.php ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt contiendra les éléments suivants : Agent utilisateur : Yandex Interdire : Clean-param : s&ref /forum */showthread.php #si le paramètre est utilisé dans plusieurs scripts :www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71c4427317a117a&t=8243 # robots.txt contiendra les éléments suivants : Agent utilisateur : Yandex Disallow : Clean-param : s /forum/index.php Clean-param : s /forum/showthread.php

Utiliser des caractères cyrilliques

L'utilisation de l'alphabet cyrillique n'est pas autorisée dans le fichier robots.txt et les en-têtes du serveur HTTP.

Pour les noms de domaine, utilisez Punycode . Pour les adresses de pages, utilisez le même codage que celui utilisé pour la structure actuelle du site.

Exemple du fichier robots.txt :

#Incorrect : Agent utilisateur : Yandex Interdire : / cart Plan du site : site.рф/sitemap.xml #Correct : Agent utilisateur : Yandex Interdire : /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 Plan du site : http://xn--80aswg.xn--p1ai/sitemap.xml

Informations Complémentaires

Le robot Yandex prend en charge uniquement les directives robots.txt répertoriées sur cette page. Les règles de traitement des fichiers décrites ci-dessus représentent une extension du standard de base. D'autres robots peuvent interpréter le contenu du fichier robots.txt d'une manière différente.

Les résultats obtenus lors de l'utilisation du format robots.txt étendu peuvent différer des résultats utilisant le standard de base, notamment :

Agent utilisateur : Yandex Autoriser : / Interdire : /# sans extensions, tout était interdit car "Autoriser : /" a été ignoré, # avec les extensions prises en charge, tout est autorisé Agent utilisateur : Yandex Disallow : /private*html # sans extensions, " /private*html" était interdit, # avec les extensions prises en charge, "/private*html", # "/private/test.html", "/private/html/test.aspx", et ainsi de suite sont également interdits. agent : Yandex Interdire : /private$ # sans extensions prises en charge, "/private$" et "/private$test", et ainsi de suite étaient interdits, # avec les extensions prises en charge, seul "/private" est interdit Agent utilisateur : * Interdire : / User-agent : Yandex Allow : / # sans extensions prises en charge, en raison du saut de ligne manquant, # "User-agent : Yandex" serait ignoré # le résultat serait "Disallow: /", mais le robot Yandex # analyse chaînes basées sur la sous-chaîne « User-agent : ». # Dans ce cas, le résultat pour le robot Yandex est "Autoriser : /" Agent utilisateur : * Interdire : / # commentaire1... # commentaire2... # commentaire3... Agent utilisateur : Yandex Autoriser : / # identique comme dans l'exemple précédent (voir ci-dessus)

Exemples utilisant le format étendu robots.txt :

Agent utilisateur : Yandex Autoriser : /archive Interdire : / # autorise tout ce qui contient « /archive » ; le reste est interdit Agent utilisateur : Yandex Autoriser : /obsolete/private/*.html$ # autorise les fichiers HTML # dans le chemin "/obsolete/private/..." Interdire : /*.php$ # interdit tout "* .php" sur siteDisallow : /*/private/ # interdit tous les sous-chemins contenant # "/private/", mais l'autorisation ci-dessus annule # une partie de l'interdiction. Disallow : /*/old/*.zip$ # interdit tous les "*. zip" contenant # "/old/" dans le chemin User-agent : Yandex Interdire : /add.php?*user= # interdit tous les "add.php?" scripts avec l'option "utilisateur"

Lors de la création du fichier robots.txt, vous devez garder à l’esprit que le robot impose une limite raisonnable à sa taille. Si la taille du fichier dépasse 32 Ko, le robot suppose qu'il autorise tout, ce qui signifie qu'il est interprété de la même manière que.

Temps de lecture: 7 minutes

Presque tous les projets qui nous sont soumis pour audit ou promotion comportent un fichier robots.txt incorrect, et il est souvent complètement absent. Cela se produit parce que lors de la création d'un fichier, chacun est guidé par son imagination, et non par les règles. Voyons comment composer correctement ce fichier afin que les robots de recherche l'utilisent efficacement.

Pourquoi devez-vous configurer robots.txt ?

Robots.txt est un fichier situé dans le répertoire racine d'un site qui indique aux robots des moteurs de recherche à quelles sections et pages du site ils peuvent accéder et celles auxquelles ils ne peuvent pas accéder.

La configuration du fichier robots.txt est un élément important dans les résultats des moteurs de recherche ; des robots correctement configurés augmentent également les performances du site. Le fichier Robots.txt manquant n'empêchera pas les moteurs de recherche d'explorer et d'indexer votre site, mais si vous ne disposez pas de ce fichier, vous pourriez rencontrer deux problèmes :

Le robot de recherche lira l'intégralité du site, ce qui « sapera » le budget d'exploration. Le budget d'exploration est le nombre de pages qu'un robot de recherche est capable d'explorer sur une certaine période de temps.

Sans fichier robots, le moteur de recherche aura accès à des brouillons et des pages cachées, à des centaines de pages utilisées pour administrer le CMS. Il les indexera, et lorsqu'il s'agira des pages nécessaires qui fournissent du contenu direct aux visiteurs, le budget d'exploration « s'épuisera ».

L'index peut inclure la page de connexion du site et d'autres ressources de l'administrateur, afin qu'un attaquant puisse facilement les suivre et mener une attaque ddos ou pirater le site.

Comment les robots de recherche voient un site avec et sans robots.txt :

Syntaxe du fichier Robots.txt

Avant de commencer à comprendre la syntaxe et à configurer le fichier robots.txt, regardons à quoi devrait ressembler le « fichier idéal » :

Mais il ne faut pas l’utiliser tout de suite. Chaque site nécessite le plus souvent ses propres paramétrages, puisque nous avons tous une structure de site et un CMS différents. Examinons chaque directive dans l'ordre.

Agent utilisateur

Agent utilisateur - définit un robot de recherche qui doit suivre les instructions décrites dans le fichier. Si vous devez vous adresser à tout le monde en même temps, utilisez l’icône *. Vous pouvez également contacter un robot de recherche spécifique. Par exemple, Yandex et Google :

Grâce à cette directive, le robot comprend quels fichiers et dossiers ne peuvent pas être indexés. Si vous souhaitez que l'intégralité de votre site soit ouvert à l'indexation, laissez la valeur Interdire vide. Pour masquer tout le contenu du site après Disallow, mettez « / ».

Nous pouvons empêcher l’accès à un dossier, un fichier ou une extension de fichier spécifique. Dans notre exemple, nous contactons tous les robots de recherche et bloquons l'accès au bitrix, au dossier de recherche et à l'extension pdf.

Permettre

Autoriser force l’indexation des pages et sections du site. Dans l'exemple ci-dessus, nous contactons le robot de recherche Google, bloquons l'accès au bitrix, au dossier de recherche et à l'extension pdf. Mais dans le dossier bitrix on force l'ouverture de 3 dossiers pour l'indexation : composants, js, outils.

Hôte - miroir du site

Un site miroir est une copie du site principal. Les miroirs sont utilisés à diverses fins : changement d'adresse, sécurité, réduction de la charge sur le serveur, etc.

L'hôte est l'une des règles les plus importantes. Si cette règle est écrite, le robot comprendra lequel des miroirs du site doit être pris en compte pour l’indexation. Cette directive est nécessaire pour les robots Yandex et Mail.ru. D'autres robots ignoreront cette règle. L'hôte n'est enregistré qu'une seule fois !

Pour les protocoles « https:// » et « http:// », la syntaxe du fichier robots.txt sera différente.

Plan du site - plan du site

Un plan du site est une forme de navigation sur un site utilisée pour informer les moteurs de recherche des nouvelles pages. À l’aide de la directive sitemap, nous montrons « de force » au robot où se trouve la carte.

Symboles dans robots.txt

Symboles utilisés dans le fichier : « /, *, $, # ».

Vérification de la fonctionnalité après la configuration de robots.txt

Après avoir placé Robots.txt sur votre site Web, vous devez l'ajouter et le vérifier dans le webmaster Yandex et Google.

Vérification Yandex :

Suivez ce lien .
Sélectionnez : Paramètres d'indexation - Analyse Robots.txt.

Vérification Google :

Suivez ce lien .
Sélectionnez : Analyser - Outil d'inspection de fichiers Robots.txt.

De cette façon, vous pouvez vérifier les erreurs dans votre fichier robots.txt et effectuer les ajustements nécessaires si nécessaire.

Le contenu du dossier doit être écrit en majuscules.
Un seul fichier ou répertoire doit être spécifié dans la directive Disallow.
La ligne "User-agent" ne doit pas être vide.
L'agent utilisateur doit toujours précéder Disallow.
N'oubliez pas d'inclure une barre oblique si vous devez désactiver l'indexation d'un répertoire.
Avant de télécharger un fichier sur le serveur, assurez-vous de vérifier s'il contient des erreurs de syntaxe et d'orthographe.

Je te souhaite du succès!

Revue vidéo de 3 méthodes de création et de personnalisation du fichier Robots.txt

Robots.txt est un fichier texte qui contient des instructions spéciales destinées aux robots des moteurs de recherche qui explorent votre site sur Internet. Ces instructions sont appelées directive— peut interdire l'indexation de certaines pages du site, indiquer un « mirroring » correct du domaine, etc.

Pour les sites fonctionnant sur la plate-forme Nubex, un fichier avec des directives est créé automatiquement et se trouve à l'adresse domen.ru/robots.txt, où domen.ru est le nom de domaine du site..ru/robots.txt.

Vous pouvez modifier le fichier robots.txt et ajouter des directives supplémentaires pour les moteurs de recherche dans la zone d'administration du site. Pour ce faire, sélectionnez la section sur le panneau de configuration "Paramètres", et il y a un point là-dedans "Référencement".

Trouver le terrain "Texte du fichier robots.txt" et notez-y les directives nécessaires. Il est conseillé d'activer la case « Ajouter un lien vers un fichier sitemap.xml généré automatiquement dans robots.txt » : ainsi le robot de recherche pourra charger le plan du site et trouver toutes les pages nécessaires à l'indexation.

Directives de base pour le fichier txt des robots

Lors du chargement du fichier robots.txt, le robot de recherche recherche d'abord une entrée commençant par Agent utilisateur: La valeur de ce champ doit être le nom du robot dont les droits d'accès sont définis dans cette entrée. Ceux. La directive User-agent est une sorte d’appel au robot.

1. Si la valeur du champ User-agent contient le symbole " * ", alors les droits d'accès spécifiés dans cette entrée s'appliquent à tous les robots de recherche qui demandent le fichier /robots.txt.

2. Si plusieurs noms de robots sont spécifiés dans une entrée, les droits d'accès s'appliquent à tous les noms spécifiés.

3. Les caractères majuscules ou minuscules n'ont pas d'importance.

4. Si la chaîne User-agent : BotName est détectée, les directives pour User-agent : * ne sont pas prises en compte (c'est le cas si vous effectuez plusieurs saisies pour des robots différents). Ceux. le robot scannera d'abord le texte de l'entrée de l'agent utilisateur : MyName, et s'il le trouve, il suivra ces instructions ; sinon, il agira selon les instructions de l'entrée User-agent : * (pour tous les robots).

D'ailleurs, il est recommandé d'insérer un saut de ligne vide (Entrée) avant chaque nouvelle directive User-agent.

5. Si les lignes User-agent : BotName et User-agent : * sont manquantes, on considère que l'accès du robot n'est pas limité.

Interdire et autoriser l'indexation de sites : directives Disallow et Allow

Pour refuser ou autoriser les robots de recherche à accéder à certaines pages du site, des directives sont utilisées Refuser Et Permettre respectivement.

La signification de ces directives indique le chemin complet ou partiel vers la section :

Interdire : /admin/— interdit l'indexation de toutes les pages situées à l'intérieur de la section admin ;
Interdire : /help— interdit l'indexation de /help.html et de /help/index.html ;
Interdire : /help/ — ferme uniquement /help/index.html ;
Interdire : /— bloque l'accès à l'ensemble du site.

Si la valeur Disallow n’est pas spécifiée, alors l’accès n’est pas limité :

Refuser:— l'indexation de toutes les pages du site est autorisée.

Vous pouvez utiliser la directive Allow pour configurer des exceptions Permettre. Par exemple, une telle entrée interdira aux robots d'indexer toutes les sections du site sauf celles dont le chemin commence par /search :

Peu importe dans quel ordre les directives interdisant et autorisant l'indexation seront répertoriées. Lors de la lecture, le robot les triera toujours selon la longueur du préfixe de l'URL (du plus petit au plus grand) et les appliquera séquentiellement. Autrement dit, l'exemple ci-dessus dans la perception du bot ressemblera à ceci :

— seules les pages commençant par /search peuvent être indexées. Ainsi, l’ordre des directives n’affectera en rien le résultat.

Directive hôte : comment spécifier le domaine principal du site

Si plusieurs noms de domaine sont associés à votre site (adresses techniques, miroirs, etc.), le moteur de recherche peut décider qu'il s'agit de tous des sites différents. Et avec le même contenu. Solution? Interdire! Et un bot sait quel domaine sera « puni » - le domaine principal ou le domaine technique.

Pour éviter ce problème, vous devez indiquer au robot de recherche à quelle adresse votre site participe à la recherche. Cette adresse sera désignée comme l'adresse principale, et le reste formera un groupe de miroirs de votre site.

Vous pouvez le faire en utilisant Directives de l'hôte. Il doit être ajouté à l'entrée commençant par User-Agent, immédiatement après les directives Disallow et Allow. Dans la valeur de la directive Host, vous devez spécifier le domaine principal avec le numéro de port (80 par défaut). Par exemple:

Hébergeur : test-o-la-la.ru

Une telle entrée signifie que le site sera affiché dans les résultats de recherche avec un lien vers le domaine test-o-la-la.ru, et non www.test-o-la-la.ru et s10364.. capture d'écran ci-dessus).

Dans le constructeur Nubex, la directive Host est ajoutée automatiquement au texte du fichier robots.txt lorsque vous spécifiez dans le panneau d'administration quel domaine est le domaine principal.

Dans le texte du robots.txt, la directive host ne peut être utilisée qu'une seule fois. Si vous l'écrivez plusieurs fois, le robot n'acceptera que la première entrée dans l'ordre.

Directive crawl-delay : comment définir l'intervalle de chargement des pages

Pour indiquer au robot l'intervalle minimum entre la fin du chargement d'une page et le début du chargement de la suivante, utilisez Directive de délai d'exploration. Il doit être ajouté à l'entrée commençant par User-Agent, immédiatement après les directives Disallow et Allow. Dans la valeur de la directive, précisez le temps en secondes.

L'utilisation d'un tel délai lors du traitement des pages sera pratique pour les serveurs surchargés.

Il existe également d'autres directives pour les robots de recherche, mais les cinq décrites - Agent utilisateur, interdire, autoriser, héberger et Délai d'exploration - généralement suffisant pour composer le texte du fichier robots.txt.

Site sur l'informatique