Modification du fichier txt des robots. Corriger le txt des robots

) on peut passer à la partie pratique, ou plutôt à la préparation du site pour la promotion. Aujourd'hui, nous allons examiner la question : comment créer un robots.txt ?

robots.txt est un fichier qui contient les paramètres d'indexation pour les moteurs de recherche.

La création de ce fichier est l’une des premières étapes de la promotion SEO. Et c'est pourquoi.

A quoi sert le fichier robots.txt ?

Après avoir ajouté votre site à Yandex et Google (nous n'avons pas encore abordé cela), le PS commencera à tout indexer, absolument tout ce qui se trouve dans le dossier de votre site sur le serveur. Ce n'est pas très bon du point de vue de la promotion, car le dossier contient beaucoup de « déchets » dont le PS n'a pas besoin, ce qui affectera négativement les positions dans les résultats de recherche.

Exactement fichier de robots.txt empêche l'indexation des documents, dossiers et pages inutiles. Entre autres choses, le chemin d'accès au plan du site (le sujet de la prochaine leçon) et l'adresse principale sont indiqués ici, dont un peu plus.

Je ne parlerai pas beaucoup du plan du site, je dirai juste une chose : un plan du site améliore l'indexation du site. Mais cela vaut la peine de parler plus en détail de l'adresse principale. Le fait est que chaque site dispose dans un premier temps de plusieurs miroirs (copies du site) et sont disponibles à différentes adresses :

  • www.site
  • site web
  • site web/
  • www.site/

Avec tous ces miroirs, le site n’a rien d’unique. Naturellement, les PS n'aiment pas les contenus non uniques, ce qui empêche ces sites de figurer dans les résultats de recherche.

Comment remplir le fichier robots.txt ?

Tout fichier conçu pour fonctionner avec divers services externes, dans notre cas les moteurs de recherche, doit avoir des règles de remplissage (syntaxe). Voici les règles pour les robots :

  • Le nom du fichier robots.txt doit commencer par une petite lettre. Vous n'avez pas besoin de l'appeler Robots.txt ou ROBOTS.TXT. Droite: robots.txt;
  • Format de texte Unix. Le format est typique d'un bloc-notes classique sous Windows, donc la création de robots.txt est assez simple ;

Opérateurs de robots

Parlons maintenant des opérateurs de robots eux-mêmes. Il y en a environ 6 au total, à mon avis, mais seulement 4 sont nécessaires :

  1. Agent utilisateur. Cet opérateur permet de préciser le moteur de recherche auquel s'adressent les règles d'indexation. Avec son aide, vous pouvez spécifier différentes règles pour différents PS. Exemple de remplissage : User-agent : Yandex;
  2. Refuser. Opérateur qui interdit l'indexation d'un dossier, d'une page ou d'un fichier particulier. Exemple de remplissage : Interdire : /page.html;
  3. Hôte. Cet opérateur indique l'adresse principale (domaine) du site. Exemple de remplissage : Hébergeur : site internet;
  4. Plan du site. Pointe vers l’adresse du plan du site. Exemple de remplissage : Plan du site : site/sitemap.xml;

Ainsi, j'ai interdit à Yandex d'indexer la page « page. ». Désormais, le robot de recherche Yandex prendra en compte ces règles et la page « page.html » ne sera jamais dans l'index.

Agent utilisateur

Comme mentionné ci-dessus, le User-agent précise le moteur de recherche auquel les règles d’indexation seront appliquées. Voici un petit signe :

Système de recherche Paramètre de l'agent utilisateur
Yandex Yandex
Google Google
Mail.ru Mail.ru
Randonneur StackRambler

Si vous souhaitez que les règles d'indexation s'appliquent à tous les PS, vous devez alors saisir la saisie suivante :

Agent utilisateur: *

Autrement dit, utilisez un astérisque ordinaire comme paramètre.

Refuser

Cet opérateur est un peu plus compliqué, vous devez donc faire attention à la façon dont vous le remplissez. Il est écrit après l'opérateur « User-agent ». Toute erreur peut avoir des conséquences très désastreuses.

Qu'est-ce qu'on interdit ? Paramètre Exemple
Indexation des sites / Interdire : /
Fichier dans le répertoire racine /nom de fichier Interdire : /page.html
Déposer à une adresse précise /chemin/nom de fichier Interdire : /dir/page.html
Indexer un dossier /nom de dossier/ Interdire : /dossier/
Indexer un dossier à une adresse spécifique /chemin/nom du dossier/ Interdire : /dir/papka/
Documents commençant par un jeu de caractères spécifique /personnages /symboles
Documents commençant par un jeu de caractères spécifique à l'adresse /chemin/personnages /rép/symboles

Je le répète : soyez extrêmement prudent lorsque vous travaillez avec cet opérateur. Il arrive aussi que, par pur hasard, une personne interdise l'indexation de son site, et s'étonne alors qu'il ne soit pas dans la recherche.

Cela ne sert à rien de parler des autres opérateurs. Ce qui est écrit ci-dessus est largement suffisant.

Peut-être aimeriez-vous un exemple de robots.txt ? Attraper:

Agent utilisateur : * Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : / trackback Interdire : */trackback Interdire : */*/trackback Interdire : */*/feed/*/ Interdire : */feed Interdire : /tag Hôte : site.ru Plan du site : site.ru/sitemap.xml

À propos, cet exemple peut être utilisé comme un véritable fichier robots.txt par les personnes dont les sites fonctionnent sur WordPress. Eh bien, ceux qui ont des sites Web ordinaires, écrivez-les vous-même, ha ha ha. Malheureusement, il n’y a pas de solution pour tout le monde ; chacun a la sienne. Mais avec les informations que je vous ai données, créer un fichier robots.txt ne devrait pas être trop difficile.

Au revoir les amis!

Article précédent
Article suivant

Robots.txt est fichier texte, qui contient les paramètres d'indexation du site pour les robots des moteurs de recherche.

Yandex prend en charge les directives suivantes :

Directif Que fait-il
Agent utilisateur *
Refuser
Plan du site
Paramètres propres
Permettre
Délai d'exploration
Directif Que fait-il
Agent utilisateur * Indique un robot pour lequel les règles répertoriées dans robots.txt s'appliquent.
Refuser Interdit l'indexation de sections ou de pages individuelles du site.
Plan du site Spécifie le chemin d'accès au fichier Sitemap situé sur le site.
Paramètres propres Indique au robot que l'URL de la page contient des paramètres (par exemple des balises UTM) qui n'ont pas besoin d'être pris en compte lors de l'indexation.
Permettre Permet l'indexation de sections ou de pages individuelles du site.
Délai d'exploration Définit la période de temps minimale (en secondes) du robot entre la fin du chargement d'une page et le début du chargement de la suivante.

*Directive obligatoire.

Les directives les plus courantes dont vous pourriez avoir besoin sont Disallow, Sitemap et Clean-param. Par exemple:

Agent utilisateur : * #préciser pour quelles directives robots sont installées\nDisallow : /bin/ # interdit les liens du \"Panier\".\nDisallow : /search/ # interdit les liens vers les pages intégrées au site de recherche\nDisallow : /admin / # interdit les liens depuis le panneau d'administration\nSitemap : http://example.com/sitemap # pointe le robot vers le fichier sitemap du site\nClean-param : ref /some_dir/get_book.pl

Les robots d'autres moteurs et services de recherche peuvent interpréter ces directives différemment.

Note. Le robot prend en compte la casse lors de l'écriture des sous-chaînes (nom ou chemin d'accès au fichier, nom du robot) et ne prend pas en compte la casse dans les noms des directives.

Utiliser l'alphabet cyrillique

L'utilisation du cyrillique est interdite dans le fichier robots.txt et les en-têtes HTTP du serveur.

Pour spécifier des noms de domaine, utilisez Punycode. Spécifiez les adresses de page dans le codage qui correspond au codage de la structure actuelle du site.

Exemple de fichier robots.txt :

#False :\nAgent utilisateur : Yandex\nInterdire : /cart\n\n#Correct :\nAgent utilisateur : Yandex\nInterdire : /%D0%BA%D0%BE%D1%80%D0%B7%D0% B8%D0%BD%D0%B0

Comment créer des robots.txt

Questions et réponses

Dans Yandex.Webmaster, sur la page « Diagnostics du site », l'erreur « Le serveur répond avec une redirection vers la demande /robots.txt » apparaît

Pour qu'un fichier robots.txt soit pris en compte par le robot, il doit se trouver dans le répertoire racine du site et répondre par un code HTTP 200. Le robot indexeur ne prend pas en charge l'utilisation de fichiers situés sur d'autres sites.

Vous pouvez vérifier la réponse du serveur et la disponibilité du fichier robots.txt pour le robot à l'aide de l'outil Vérification de la réponse du serveur .

Si votre robots.txt redirige vers un autre fichier robots.txt (par exemple, lors du déplacement d'un site), ajoutez le site cible de la redirection vers Yandex.Webmaster et confirmez les droits de gestion du site.

Robots.txt est un fichier de service qui sert de recommandation pour restreindre l'accès au contenu des documents Web pour les moteurs de recherche. Dans cet article, nous examinerons la configuration de Robots.txt, la description des directives et sa composition pour les CMS populaires.

Situé ce fichier Le robot est dans le répertoire racine de votre site et est ouvert/édité avec un simple bloc-notes, je recommande Notepad++. Pour ceux qui n'aiment pas lire, il y a une VIDEO, voir la fin de l'article 😉

Pourquoi avez-vous besoin de robots.txt ?

Comme je l'ai dit plus haut, en utilisant le fichier robots.txt, nous pouvons limiter l'accès des robots de recherche aux documents, c'est-à-dire nous influençons directement l'indexation du site. Le plus souvent, leur indexation est bloquée :

  • Fichiers de service et dossiers CMS
  • Doublons
  • Documents qui ne sont pas utiles à l'utilisateur
  • Pages non uniques

Regardons un exemple spécifique :

Une boutique en ligne vendant des chaussures et implémentée sur l'un des CMS populaires, et non de la meilleure façon possible. Je peux immédiatement dire que les résultats de la recherche incluront des pages de recherche, une pagination, un panier, certains fichiers du moteur, etc. Tous ces éléments seront des doublons et des fichiers de service inutiles pour l'utilisateur. Par conséquent, ils doivent être fermés à l'indexation, et s'il existe encore une section « Actualités » dans laquelle divers articles intéressants des sites concurrents – vous n’avez même pas besoin d’y penser, nous le fermons immédiatement.

Par conséquent, nous veillons à créer un fichier robots.txt afin qu'aucune erreur ne pénètre dans les résultats. N'oubliez pas que le fichier doit être ouvert sur http://site.ru/robots.txt.

Directives Robots.txt et règles de configuration

Agent utilisateur. Il s'agit d'un appel à un robot de moteur de recherche spécifique ou à tous les robots. Si prescrit nom spécifique robot, par exemple "YandexMedia", alors les directives générales de l'agent utilisateur ne sont pas utilisées pour cela. Exemple d'écriture :

Agent utilisateur : YandexBot Disallow : /cart # ne sera utilisé que par le robot d'indexation principal Yandex

Interdire/Autoriser. Il s’agit d’une interdiction/autorisation d’indexer un document ou une section spécifique. L’ordre d’écriture n’a pas d’importance, mais s’il y a 2 directives et le même préfixe, « Autoriser » est prioritaire. Le robot de recherche les lit selon la longueur du préfixe, du plus petit au plus grand. Si vous devez désactiver l'indexation d'une page, entrez simplement chemin relatif avant (Interdire : /blog/post-1).

Agent utilisateur : Yandex Interdire : / Autoriser : /articles # Nous interdisons l'indexation de sites, à l'exception des articles d'une section

Expressions régulières avec * et $. Un astérisque désigne toute séquence de caractères (y compris les caractères vides). Le signe dollar signifie interruption. Exemples d'utilisation :

Interdire : /page* # interdit toutes les pages, constructions http://site.ru/page Interdire : /arcticles$ # interdit uniquement la page http://site.ru/articles, autorisant les pages http://site.ru/ articles /nouveaux

Directive Plan du site. Si vous l'utilisez, alors dans robots.txt, il doit être indiqué comme ceci :

Plan du site : http://site.ru/sitemap.xml

Directive hôte. Comme vous le savez, les sites ont des miroirs (lit-on). Cette règle pointe le robot de recherche vers le miroir principal de votre ressource. Fait référence à Yandex. Si vous avez un miroir sans WWW, alors écrivez :

Hébergeur : site.ru

Délai d'exploration. Définit le délai (en secondes) entre le téléchargement de vos documents par le robot. Il est écrit après les directives Disallow/Allow.

Délai d'exploration : 5 # délai d'attente en 5 secondes

Paramètres propres. Indique au robot de recherche qu'il n'est pas nécessaire de télécharger des informations supplémentaires en double (identifiants de session, référents, utilisateurs). Clean-param doit être spécifié pour les pages dynamiques :

Clean-param : ref /category/books # nous indiquons que notre page est la principale, et http://site.ru/category/books?ref=yandex.ru&id=1 est la même page, mais avec des paramètres

Règle principale : robots.txt doit être écrit en minuscule et situé à la racine du site. Exemple de structure de fichier :

Agent utilisateur : Yandex Interdire : /cart Autoriser : /cart/images Plan du site : http://site.ru/sitemap.xml Hôte : site.ru Délai d'exploration : 2

Balise méta robots et comment elle est écrite

Cette option de bannissement des pages est mieux prise en compte par le moteur de recherche. Système Google. Yandex prend également en compte les deux options.

Il comporte 2 directives : suivre/ne pas suivre Et index/non-index. Il s’agit de l’autorisation/interdiction de suivre des liens et de l’autorisation/interdiction d’indexation de documents. Les directives peuvent être écrites ensemble, voir l'exemple ci-dessous.

Pour tout le monde page séparée tu peux écrire dans le tag suivant:

Corriger les fichiers robots.txt pour les CMS populaires

Exemple de fichier Robots.txt pour WordPress

Ci-dessous, vous pouvez voir ma version de ce blog SEO.

Agent utilisateur : Yandex Interdire : /wp-content/uploads/ Autoriser : /wp-content/uploads/*/*/ Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : /template.html Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : / wp-trackback Interdire : /wp-feed Interdire : /wp-comments Interdire : */trackback Interdire : */feed Interdire : */comments Interdire : /tag Interdire : /archive Interdire : */trackback/ Interdire : */feed/ Interdire : */comments/ Interdire : /?feed= Interdire : /?.php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : /template.html Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : /wp-trackback Interdire : /wp-feed Interdire : /wp-comments Interdire : */trackback Interdire : */feed Interdire : */comments Interdire : /tag Interdire : /archive Interdire : */trackback/ Interdire : */feed/ Interdire : */comments/ Interdire : /?feed= Interdire : /?. XML

J'interdis les rétroliens car ils dupliquent une partie de l'article dans les commentaires. Et s’il y a beaucoup de rétroliens, vous obtiendrez un tas de commentaires identiques.

J'essaie de fermer les dossiers et fichiers de service de n'importe quel CMS, car... Je ne veux pas qu'ils soient inclus dans l'index (même si les moteurs de recherche ne les acceptent pas de toute façon, mais ce ne sera pas pire).

Les flux doivent être fermés, car Il s’agit de pages en double partielles ou complètes.

Nous fermons les balises si nous ne les utilisons pas ou si nous sommes trop paresseux pour les optimiser.

Exemples pour d'autres CMS

Pour télécharger les robots appropriés pour le CMS souhaité, cliquez simplement sur le lien approprié.

Le fichier sitemap.xml et le robots.txt correct pour le site sont deux documents obligatoires qui contribuent à l'indexation rapide et complète de toutes les pages nécessaires d'une ressource Web par les robots de recherche. Une indexation correcte du site dans Yandex et Google est la clé d'une promotion réussie d'un blog dans les moteurs de recherche.

Comment créer un plan de site dans Format XML et pourquoi c'est nécessaire, je l'ai déjà écrit. Parlons maintenant de la façon de créer le fichier robots.txt correct pour un site WordPress et pourquoi il est nécessaire en général. Des informations détaillées des informations sur ce fichier peuvent être obtenues respectivement auprès de Yandex et de Google eux-mêmes. J'entrerai dans le vif du sujet et aborderai les paramètres de base du fichier robots.txt pour WordPress en utilisant mon fichier comme exemple.

Pourquoi avez-vous besoin d’un fichier robots.txt pour un site Web ?

Le standard robots.txt est apparu en janvier 1994. Lors de l'analyse d'une ressource Web, les robots de recherche recherchent d'abord le fichier texte robots.txt, situé dans le dossier racine du site ou du blog. Avec son aide, nous pouvons préciser certaines règles aux robots des différents moteurs de recherche selon lesquelles ils indexeront le site.

Configurer correctement robots.txt vous permettra de :

  • exclure les doublons et diverses pages indésirables de l'index ;
  • interdire l'indexation des pages, fichiers et dossiers que l'on souhaite cacher ;
  • refuser généralement l'indexation à certains robots de recherche (par exemple Yahoo, afin de masquer les informations sur les liens entrants aux concurrents) ;
  • indiquer le miroir principal du site (avec www ou sans www) ;
  • spécifiez le chemin d'accès au plan du site sitemap.xml.

Comment créer le fichier robots.txt correct pour un site

Il existe des générateurs et des plugins spéciaux à cet effet, mais il est préférable de le faire manuellement.

Il vous suffit de créer un fichier texte normal appelé robots.txt, en utilisant n'importe quel éditeur de texte(par exemple, Notepad ou Notepad++) et téléchargez-le sur l'hébergement dans le dossier racine du blog. Certaines directives doivent être écrites dans ce fichier, c'est-à-dire règles d'indexation pour les robots de Yandex, Google, etc.

Si vous êtes trop paresseux pour vous en préoccuper, je donnerai ci-dessous un exemple, de mon point de vue, du fichier robots.txt correct pour WordPress de mon blog. Vous pouvez l'utiliser en remplaçant le nom de domaine à trois endroits.

Règles et directives de création de Robots.txt

Pour réussir optimisation du moteur de recherche blog, vous devez connaître quelques règles pour créer des robots.txt :

  • Absence ou fichier vide robots.txt signifiera que les moteurs de recherche seront autorisés à indexer tout le contenu d'une ressource Web.
  • robots.txt devrait s'ouvrir sur votre site.ru/robots.txt, donnant au robot un code de réponse de 200 OK et ne dépassant pas 32 Ko. Un fichier qui ne s'ouvre pas (par exemple, en raison d'une erreur 404) ou qui est plus volumineux sera considéré comme correct.
  • Le nombre de directives dans le fichier ne doit pas dépasser 1 024. La longueur d'une ligne ne doit pas dépasser 1 024 caractères.
  • Un fichier robots.txt valide peut contenir plusieurs instructions, chacune devant commencer par une directive User-agent et contenir au moins une directive Disallow. Habituellement, ils écrivent des instructions dans robots.txt pour Google et tous les autres robots et séparément pour Yandex.

Directives robots.txt de base :

User-agent – ​​​​​​indique à quel robot de recherche l’instruction est adressée.

Le symbole « * » signifie que cela s'applique à tous les robots, par exemple :

Agent utilisateur: *

Si nous devons créer une règle dans robots.txt pour Yandex, alors nous écrivons :

Agent utilisateur : Yandex

Si une directive est spécifiée pour un robot spécifique, la directive User-agent: * n'est pas prise en compte par celui-ci.

Interdire et Autoriser – respectivement, interdisent et autorisent les robots à indexer les pages spécifiées. Toutes les adresses doivent être spécifiées à partir de la racine du site, c'est-à-dire à partir de la troisième barre oblique. Par exemple:

  • Interdire à tous les robots d'indexer l'intégralité du site :

    Agent utilisateur: *
    Interdire : /

  • Il est interdit à Yandex d'indexer toutes les pages commençant par /wp-admin :

    Agent utilisateur : Yandex
    Interdire : /wp-admin

  • La directive Disallow vide permet d'indexer tout et est similaire à Allow. Par exemple, j'autorise Yandex à indexer l'intégralité du site :

    Agent utilisateur : Yandex
    Refuser:

  • Et vice versa, j'interdis à tous les robots de recherche d'indexer toutes les pages :

    Agent utilisateur: *
    Permettre:

  • Les directives Allow et Disallow du même bloc User-agent sont triées par longueur de préfixe d'URL et exécutées séquentiellement. Si plusieurs directives conviennent à une page du site, alors la dernière de la liste est exécutée. Désormais, l'ordre dans lequel elles sont écrites n'a plus d'importance lorsque le robot utilise les directives. Si les directives ont des préfixes de même longueur, Allow est exécuté en premier. Ces règles sont entrées en vigueur le 8 mars 2012. Par exemple, il permet d'indexer uniquement les pages commençant par /wp-includes :

    Agent utilisateur : Yandex
    Interdire : /
    Autoriser : /wp-includes

Plan du site – Spécifie l'adresse du plan du site XML. Un site peut avoir plusieurs directives Sitemap, qui peuvent être imbriquées. Toutes les adresses Fichiers de plan de site doit être spécifié dans robots.txt pour accélérer l'indexation du site :

Plan du site : http://site/sitemap.xml.gz
Plan du site : http://site/sitemap.xml

Hôte – indique au robot miroir quel miroir de site Web considérer comme le miroir principal.

Si le site est accessible à plusieurs adresses (par exemple avec www et sans www), cela crée des pages en double complètes, qui peuvent être interceptées par le filtre. Aussi, dans ce cas, ce n'est peut-être pas la page principale qui est indexée, mais la page principale, au contraire, sera exclue de l'index du moteur de recherche. Pour éviter cela, utilisez la directive Host, qui est prévue dans le fichier robots.txt uniquement pour Yandex et il ne peut y en avoir qu'une. Il est écrit après Disallow et Allow et ressemble à ceci :

Hébergeur : site internet

Crawl-delay – définit le délai entre le téléchargement des pages en secondes. Utilisé s'il y a une charge importante et que le serveur n'a pas le temps de traiter les requêtes. Sur les sites jeunes, il vaut mieux ne pas utiliser la directive Crawl-delay. C'est écrit ainsi :

Agent utilisateur : Yandex
Délai d'exploration : 4

Clean-param – pris en charge uniquement par Yandex et utilisé pour éliminer les pages en double avec des variables, en les fusionnant en une seule. Ainsi, le robot Yandex ne téléchargera pas plusieurs fois des pages similaires, par exemple celles associées à des liens de référence. Je n'ai pas encore utilisé cette directive, mais dans l'aide sur robots.txt pour Yandex, suivez le lien au début de l'article, vous pourrez lire cette directive en détail.

Les caractères spéciaux * et $ sont utilisés dans robots.txt pour indiquer les chemins des directives Disallow et Allow :

  • Le caractère spécial « * » désigne toute séquence de caractères. Par exemple, Disallow: /*?* signifie une interdiction de toutes les pages où « ? » apparaît dans l'adresse, quels que soient les caractères précédant et suivant ce caractère. Par défaut, le caractère spécial « * » est ajouté à la fin de chaque règle, même s'il n'est pas précisé spécifiquement.
  • Le symbole « $ » annule le « * » à la fin de la règle et signifie une correspondance stricte. Par exemple, la directive Disallow: /*?$ interdira l'indexation des pages se terminant par le caractère « ? ».

Exemple de fichier robots.txt pour WordPress

Voici un exemple de mon fichier robots.txt pour un blog sur le moteur WordPress :

Agent utilisateur : * Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : / trackback Interdire : */trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?s= Agent utilisateur : Yandex Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : /trackback Interdire : */ trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?.ru/sitemap.xml..xml

Agent utilisateur : * Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : / trackback Interdire : */trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?s= Agent utilisateur : Yandex Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : /trackback Interdire : */ trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?.ru/sitemap.xml..xml

Afin de ne pas vous tromper en créant le bon robots.txt pour WordPress, vous pouvez utiliser ce fichier. Il n'y a aucun problème avec l'indexation. J'ai un script de protection contre la copie, il sera donc plus pratique de télécharger le fichier robots.txt prêt à l'emploi et de le télécharger sur votre hébergement. N'oubliez pas de remplacer le nom de mon site par le vôtre dans les directives Host et Sitemap.

Ajouts utiles pour configurer correctement le fichier robots.txt pour WordPress

Si des commentaires arborescents sont installés sur votre blog WordPress, ils créent alors des pages en double du formulaire ?replytocom= . Dans robots.txt, ces pages sont fermées avec la directive Disallow: /*?*. Mais ce n’est pas une solution et il vaut mieux lever les interdictions et combattre les réponses à réponse d’une autre manière. Quoi, .

Ainsi, le fichier robots.txt actuel en juillet 2014 ressemble à ceci :

Agent utilisateur : * Interdire : /wp-includes Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Agent utilisateur : Yandex Interdire : /wp -inclut Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Hôte : site.ru Agent utilisateur : Googlebot-Image Autoriser : /wp-content /uploads/ Agent utilisateur : YandexImages Autoriser : /wp-content/uploads/ Plan du site : http://site.ru/sitemap.xml

Agent utilisateur : * Interdire : /wp-includes Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Agent utilisateur : Yandex Interdire : /wp -inclut Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Hôte : site.ru Agent utilisateur : Googlebot-Image Autoriser : /wp-content /uploads/ Agent utilisateur : YandexImages Autoriser : /wp-content/uploads/ Plan du site : http://site.ru/sitemap.xml

Il définit également les règles applicables aux robots d’indexation d’images.

Agent utilisateur : Mediapartners-Google
Refuser:

Si vous envisagez de promouvoir des pages de catégories ou de balises, vous devez les ouvrir aux robots. Par exemple, sur un site de blog, les catégories ne sont pas fermées à l'indexation, puisqu'elles ne publient que de petites annonces d'articles, ce qui est assez insignifiant en termes de duplication de contenu. Et si vous utilisez l'affichage de citations dans le flux du blog, qui sont remplies d'annonces uniques, il n'y aura aucune duplication.

Si vous n'utilisez pas le plugin ci-dessus, vous pouvez spécifier dans votre fichier robots.txt d'interdire l'indexation des balises, des catégories et des archives. Par exemple, en ajoutant les lignes suivantes :

Interdire : /auteur/
Interdire : /tag
Interdire : /category/*/*
Interdire : /20*

N'oubliez pas de vérifier le fichier robots.txt dans le panneau Yandex.Webmaster, puis de le télécharger à nouveau sur votre hébergement.

Si vous avez des ajouts pour configurer robots.txt, écrivez-le dans les commentaires. Regardez maintenant une vidéo expliquant de quoi il s'agit et comment créer le fichier robots.txt correct pour un site, comment interdire l'indexation dans le fichier robots.txt et corriger les erreurs.

Nous avons publié un nouveau livre « Content Marketing in dans les réseaux sociaux: Comment entrer dans la tête de vos abonnés et les faire tomber amoureux de votre marque.

S'abonner

Robots.txt est un fichier texte contenant des informations destinées aux robots de recherche qui aident à indexer les pages du portail.


Plus de vidéos sur notre chaîne - apprenez le marketing Internet avec SEMANTICA

Imaginez que vous alliez sur une île à la recherche d'un trésor. Vous avez une carte. L'itinéraire y est indiqué : « Approchez-vous d'une grosse souche. De là, faites 10 pas vers l’Est, puis rejoignez la falaise. Tournez à droite, trouvez une grotte.

Ce sont les directions. En les suivant, vous suivez l'itinéraire et trouvez le trésor. Un robot de recherche fonctionne à peu près de la même manière lorsqu’il commence à indexer un site ou une page. Il trouve le fichier robots.txt. Il lit quelles pages doivent être indexées et lesquelles ne le font pas. Et en suivant ces commandes, il explore le portail et ajoute ses pages à l'index.

A quoi sert le fichier robots.txt ?

Ils commencent à visiter les sites et à indexer les pages une fois le site téléchargé sur l'hébergement et le DNS enregistré. Ils font leur travail, que vous en ayez ou non dossiers techniques ou non. Les robots indiquent aux moteurs de recherche que lors de l'exploration d'un site Web, ils doivent prendre en compte les paramètres qu'il contient.

L'absence de fichier robots.txt peut entraîner des problèmes de vitesse d'exploration du site et la présence de déchets dans l'index. Réglage incorrect Le fichier se heurte à l'exclusion de parties importantes de la ressource de l'index et à la présence de pages inutiles dans la sortie.

Tout cela entraîne par conséquent des problèmes de promotion.

Examinons de plus près les instructions contenues dans ce fichier et comment elles affectent le comportement du bot sur votre site.

Comment créer un fichier robots.txt

Tout d'abord, vérifiez si vous disposez de ce fichier.

Entrez l'adresse du site dans la barre d'adresse du navigateur, suivie d'une barre oblique du nom du fichier, par exemple https://www.xxxxx.ru/robots.txt

Si le fichier est présent, une liste de ses paramètres apparaîtra à l'écran.

S'il n'y a pas de fichier :

  1. Le fichier est créé dans un éditeur de texte classique tel que Notepad ou Notepad++.
  2. Vous devez définir le nom des robots, extension .txt. Saisir les données en tenant compte des normes de conception acceptées.
  3. Vous pouvez vérifier les erreurs en utilisant des services tels que Yandex Webmaster. Là, vous devez sélectionner l'élément « Analyse Robots.txt » dans la section « Outils » et suivre les invites.
  4. Lorsque le fichier est prêt, téléchargez-le dans le répertoire racine du site.

Définir des règles

Les moteurs de recherche disposent de plusieurs robots. Certains robots indexent uniquement le contenu textuel, d’autres uniquement le contenu graphique. Et même parmi les moteurs de recherche eux-mêmes, la manière dont fonctionnent les robots d’exploration peut être différente. Ceci doit être pris en compte lors de la constitution du fichier.

Certains d'entre eux peuvent ignorer certaines règles, par exemple, GoogleBot ne répond pas aux informations indiquant quel miroir de site est considéré comme le principal. Mais en général, ils perçoivent et se laissent guider par le dossier.

Syntaxe du fichier

Paramètres du document : nom du robot (bot) « User-agent », directives : autoriser « Autoriser » et interdire « Interdire ».

Maintenant, il y a deux clés moteurs de recherche: Yandex et Google, respectivement, il est important de prendre en compte les exigences des deux lors de la création d'un site Web.

Le format de création des entrées est le suivant, veuillez noter les espaces requis et les lignes vides.

Directive utilisateur-agent

Le robot recherche les enregistrements qui commencent par User-agent ; ils doivent contenir des indications sur le nom robot de recherche. Si cela n’est pas précisé, l’accès du bot est considéré comme illimité.

Directives Interdire et Autoriser

Si vous devez désactiver l'indexation dans robots.txt, utilisez Disallow. Avec son aide, l’accès du bot au site ou à certaines sections est limité.

Si le fichier robots.txt ne contient aucune directive d'interdiction « Disallow », il est considéré que l'indexation de l'ensemble du site est autorisée. Habituellement, les interdictions sont prescrites séparément après chaque bot.

Toutes les informations qui apparaissent après le signe # sont des commentaires et ne sont pas lisibles par machine.

Autoriser est utilisé pour autoriser l’accès.

Le symbole astérisque sert d'indication de ce qui s'applique à tout le monde : Agent utilisateur : *.

Cette option signifie au contraire une interdiction totale de l'indexation pour tout le monde.

Empêcher l'affichage de l'intégralité du contenu d'un dossier de répertoire spécifique

Pour bloquer un fichier, vous devez spécifier son chemin absolu


Plan du site, directives de l'hôte

Pour Yandex, il est d'usage d'indiquer quel miroir vous souhaitez désigner comme principal. Et Google, on s’en souvient, l’ignore. S'il n'y a pas de miroirs, notez simplement si vous pensez qu'il est correct d'écrire le nom de votre site Web avec ou sans www.

Directive de paramétrage propre

Il peut être utilisé si les URL des pages du site Web contiennent des paramètres modifiables qui n'affectent pas leur contenu (il peut s'agir d'identifiants d'utilisateur, de référents).

Par exemple, dans l'adresse de la page « ref » détermine la source du trafic, c'est-à-dire indique d'où vient le visiteur sur le site. La page sera la même pour tous les utilisateurs.

Vous pouvez le signaler au robot et il ne téléchargera pas d'informations en double. Cela réduira la charge du serveur.

Directive de délai d'exploration

Grâce à cela, vous pouvez déterminer à quelle fréquence le bot chargera les pages à des fins d'analyse. Cette commande est utilisée lorsque le serveur est surchargé et indique que le processus d'analyse doit être accéléré.

Erreurs Robots.txt

  1. Le fichier ne se trouve pas dans le répertoire racine. Le robot ne le cherchera pas plus en profondeur et n’en tiendra pas compte.
  2. Les lettres du nom doivent être en minuscules latines.
    Il y a une erreur dans le nom, parfois ils manquent la lettre S à la fin et écrivent robot.
  3. Vous ne pouvez pas utiliser de caractères cyrilliques dans le fichier robots.txt. Si vous devez spécifier un domaine en russe, utilisez le format dans l'encodage spécial Punycode.
  4. Il s'agit d'une méthode de conversion des noms de domaine en une séquence de caractères ASCII. Pour ce faire, vous pouvez utiliser des convertisseurs spéciaux.

Cet encodage ressemble à ceci :
site.rf = xn--80aswg.xn--p1ai

Informations supplémentaires sur ce qu'il faut fermer robots txt et les paramètres conformes aux exigences des moteurs de recherche Google et Yandex peuvent être trouvés dans les documents d'aide. Différents cms peuvent également avoir leurs propres caractéristiques, cela doit être pris en compte.