Comment créer un fichier txt de robots pour wordpress

En général, toute optimisation de site Web (peu importe le référencement ou tout autre) commence dès la phase de développement.

Cependant, très souvent, un site Web est créé à la va-vite, par n'importe qui (celui qu'il a trouvé pour l'argent), sans spécifications techniques, et s'il y en a une, il change à la volée. Par conséquent, je reçois souvent des demandes pour préparer un site Web sur le moteur WordPress (puisqu'il s'agit d'une plateforme populaire) pour l'optimisation du référencement.

Balises méta

D'ACCORD. Commençons par quelque chose de simple. Installons le plugin "Pack SEO tout-en-un". Cela se fait dans le panneau d'administration, dans la section "Plugins", au sous-paragraphe "Ajouter un nouveau".

Sur la page qui s'ouvre, saisissez le nom du plugin dans la barre de recherche, recherchez, installez, activez.

Après cela, dans la fenêtre d'édition ou de création d'un article, sous le champ où vous saisissez le texte, apparaissent les champs de titre, de description et de mots-clés. Si vous ne savez pas ce que c’est ni pourquoi, alors vous ne savez rien du référencement. Mais j'ai une bonne nouvelle pour vous, toutes les informations sont sur Internet. Utilisez Yandex, la recherche Google, la recherche sur YouTube. Ne soyez pas stupide !

J'écris sur les balises méta dans cet article exclusivement pour le kit. Je n'aborderai même pas les paramètres du plugin lui-même. C'est la partie de l'optimisation du référencement qu'il est préférable de réaliser simultanément avec l'ajout d'un plan du site et de robots, qui sera abordée plus tard. Pourquoi? Parce que cela ne prendra que quelques minutes et que nous en aurons certainement besoin à l’avenir.

Plan du site.xml

Ajoutons maintenant un plan du site. Cela se fait également à l'aide d'un plugin. Il y en a beaucoup, mais je préfère celui qui s'appelle Plans de site XML Google. Il est placé exactement de la même manière que le précédent.

Configuré dans la section admin (menu vertical de gauche) "Paramètres", alinéa "Plan du site XML". En fait, c'est assez stupide de décocher la case « Ajouter l'URL du plan du site au fichier robots.txt virtuel ». et enregistrez (il y a un bouton Enregistrer si vous faites défiler ci-dessous).

Pour vous assurer que tout fonctionne, ouvrez un lien comme http://votre_site/sitemap.xml

Vous avez vu quelque chose comme ça ?

Super. Ne fermez pas l'onglet. Nous en aurons encore besoin. En attendant, allons dans le panneau d'administration.

Robots.txt

Ce fichier peut être téléchargé sans aucun plugin. Par exemple via FTP. Mais si vous n’y avez pas accès ou si vous souhaitez tout faire confortablement, alors… Installez le plugin. Comme vous l'avez déjà vu dans les exemples précédents, il s'agit d'une action très simple, mais les professionnels la facturent.

Alors, installons le plugin "Fichier WordPress Robots.txt". Encore une fois, vous pouvez en choisir un autre qui fonctionne.

Installez le plugin, activez-le, allez sur "Paramètres", dans le sous-élément "En lisant".

Sur la page qui s'ouvre, nous voyons un champ robots.txt

S'il est rempli de quelque chose, supprimez-le. Nous allons maintenant le remplir de nouveau contenu.

Suivez le lien (il est conseillé d'ouvrir ce lien dans un nouvel onglet). Sur la page qui s'ouvre, vous pouvez voir trois champs et un bouton.

Copiez l'adresse de votre site Web depuis la barre d'adresse de votre navigateur et collez-la dans le champ intitulé "Entrez l'adresse du site".

Allez maintenant dans l'onglet avec Plan du site. Vous vous souvenez dans le texte ci-dessus que je vous ai demandé de ne pas le fermer ? Copier depuis la barre d'adresse chemin d'accès au fichier sitemap.xml et collez-le dans le champ "Entrez l'adresse de votre fichier sitemap.xml".

Cliquez sur le bouton "Créer un fichier robots.txt".

Si tout est fait correctement, du texte apparaîtra dans le champ sous le bouton. Copiez le tout et collez-le dans le champ robots.txt, ouvert dans le panneau d'administration de votre site (« Paramètres », « Lecture »).

Si sur la page qui s'ouvre vous voyez le texte que vous venez de copier et coller depuis le champ, alors tout a été installé comme il se doit.

Est-ce que ça a aidé ? Nous sommes allés chez l'administrateur pour prendre le thé.

Un fichier robots.txt correctement créé facilite une indexation rapide des pages du site. Ce fichier est un fichier de service et est conçu pour améliorer l’optimisation du site pour les moteurs de recherche. L'optimisation des pages internes est également importante pour le projet et doit être prise en compte.

Le fichier robots.txt permet de limiter l'indexation des pages qui n'ont pas besoin d'être indexées. Les robots de recherche prêtent attention à ce fichier de service afin d'interdire l'affichage de pages dans les moteurs de recherche fermées à l'indexation. D'ailleurs, le fichier contient également un plan du site et son miroir.

Comment créer des robots.txt pour WordPress

Pour commencer à créer le bon fichier, commençons par comprendre où se trouve le fichier robots.txt de WordPress. Il est situé à la racine du site. Pour visualiser les dossiers et fichiers racine de votre projet, vous devez utiliser n'importe quel client FTP ; pour ce faire, il vous suffit de cliquer sur la « Connexion » configurée.

Pour afficher le contenu de notre fichier de service, tapez simplement robots.txt dans la barre d'adresse après le nom du site. Exemple:https://mon site.com/robots.SMS

Vous savez où se trouve le fichier robots.txt de WordPress, il ne reste plus qu'à regarder à quoi devrait ressembler un fichier de service idéal pour le moteur ci-dessus.

  1. Tout d'abord, dans le fichier, vous devez spécifier let au plan du site :

Plan du site : http://web-profy.com/sitemap.xml

  1. Et maintenant la structure correcte du fichier robots.txt pour WordPress :

Interdire : /wp-admin

Interdire : /wp-includes

Interdire : /wp-content/plugins

Interdire : /wp-content/cache

Interdire : /wp-content/themes

Interdire : /trackback

Interdire : */trackback

Interdire : */*/trackback

Interdire : */*/feed/*/

Interdire : */flux

Agent utilisateur : Yandex

Interdire : /wp-admin

Interdire : /wp-includes

Interdire : /wp-content/plugins

Interdire : /wp-content/cache

Interdire : /wp-content/themes

Interdire : /trackback

Interdire : */trackback

Interdire : */*/trackback

Interdire : */*/feed/*/

Interdire : */flux

Hébergeur : monsite.com

Plan du site : http://mysite.com/sitemap.xml.gz

Plan du site : http://mysite.com/sitemap.xml

Copiez simplement ces données dans votre fichier. Voici à quoi ressemble le fichier robots.txt correct pour WordPress.

Voyons maintenant ce que signifie chacune des lignes de la structure du fichier de service :

Agent utilisateur : * - une chaîne qui indique que toutes les données saisies ci-dessous seront applicables à tous les moteurs de recherche.

Cependant, pour Yandex, la règle ressemblera à ceci : Agent utilisateur : Yandex.

Autoriser : - les pages que les robots de recherche peuvent indexer.

Interdire : - les pages que les robots de recherche ne peuvent pas indexer.

Hôte : mysite.com est un site miroir qui doit être spécifié dans ce fichier de service.

Plan du site : — chemin d'accès au plan du site.

robots.txt pour un site WordPress sur lequel la CNC n'est pas configurée

robots.txt pour un site WordPress, où se trouve la liste des règles, sera légèrement différent si la CNC n'est pas configurée sur le site.

Interdire : /cgi-bin

Interdire : /wp-admin

Interdire : /wp-includes

Interdire : /wp-content/plugins

Interdire : /wp-content/cache

Interdire : /wp-content/themes

Interdire : /trackback

Interdire : */trackback

Interdire : */*/trackback

Interdire : */*/feed/*/

Interdire : */flux

Agent utilisateur : Yandex

Interdire : /cgi-bin

Interdire : /wp-admin

Interdire : /wp-includes

Interdire : /wp-content/plugins

Interdire : /wp-content/cache

Interdire : /wp-content/themes

Interdire : /trackback

Interdire : */trackback

Interdire : */*/trackback

Interdire : */*/feed/*/

Interdire : */flux

Hébergeur : monsite.com

Plan du site : http://mysite.com/sitemap.xml.gz

Plan du site : http://mysite.com/sitemap.xml

Quels problèmes peuvent survenir sur un site WordPress si la CNC n'est pas configurée ? Ligne dans le fichier de service robots.txt Refuser: /*?* ne permet pas l'indexation des pages du site, mais voici à quoi ressemblent les adresses des pages du projet en l'absence de réglages CNC. Cela peut affecter négativement le classement d'un projet Internet dans les moteurs de recherche, puisque le contenu dont les utilisateurs ont besoin ne leur sera tout simplement pas présenté dans les résultats de recherche.

Bien entendu, cette ligne peut être facilement supprimée du fichier. Ensuite, le site fonctionnera normalement.

Comment s'assurer que robots.txt est écrit correctement

Cela peut être fait à l'aide d'un outil spécial de Yandex - Yandex.Webmaster.

Tu dois aller à Paramètres d'indexation - Analyserobots.SMS

Tout à l’intérieur est intuitif. Vous devez cliquer sur "Téléchargerrobots.SMSdu site". Vous pouvez également afficher chaque page séparément pour voir si elle peut être indexée. Dans la « Liste des URL », vous pouvez simplement saisir l'adresse des pages qui vous intéressent, le système affichera tout lui-même.

N'oubliez pas que toutes les modifications que vous apportez au fichier robots.txt ne seront pas disponibles immédiatement, mais seulement après quelques mois.

Comment enregistrer correctement le fichier robots.txt

Pour que notre fichier de service soit disponible dans un moteur de recherche comme Google, il doit être enregistré comme suit :

  1. Le fichier doit être au format texte ;
  2. Il doit être placé à la racine de votre site ;
  3. Le fichier doit être nommé robots.txt et rien d'autre.

L'adresse à laquelle les robots de recherche trouvent le fichier robots.txt devrait ressembler à ceci : https://mysite.com/robots.txt

Le fichier sitemap.xml et le robots.txt correct pour le site sont deux documents obligatoires qui contribuent à l'indexation rapide et complète de toutes les pages nécessaires d'une ressource Web par les robots de recherche. Une indexation correcte du site dans Yandex et Google est la clé d'une promotion réussie d'un blog dans les moteurs de recherche.

J'ai déjà écrit comment créer un plan de site au format XML et pourquoi il est nécessaire. Parlons maintenant de la façon de créer le fichier robots.txt correct pour un site WordPress et pourquoi il est nécessaire en général. Des informations détaillées sur ce fichier peuvent être obtenues respectivement auprès de Yandex et de Google eux-mêmes. J'entrerai dans le vif du sujet et aborderai les paramètres de base du fichier robots.txt pour WordPress en utilisant mon fichier comme exemple.

Pourquoi avez-vous besoin d’un fichier robots.txt pour un site Web ?

Le standard robots.txt est apparu en janvier 1994. Lors de l'analyse d'une ressource Web, les robots de recherche recherchent d'abord le fichier texte robots.txt, situé dans le dossier racine du site ou du blog. Avec son aide, nous pouvons préciser certaines règles aux robots des différents moteurs de recherche selon lesquelles ils indexeront le site.

Configurer correctement robots.txt vous permettra de :

  • exclure les doublons et diverses pages indésirables de l'index ;
  • interdire l'indexation des pages, fichiers et dossiers que l'on souhaite cacher ;
  • refuser généralement l'indexation à certains robots de recherche (par exemple Yahoo, afin de masquer les informations sur les liens entrants aux concurrents) ;
  • indiquer le miroir principal du site (avec www ou sans www) ;
  • spécifiez le chemin d'accès au plan du site sitemap.xml.

Comment créer le fichier robots.txt correct pour un site

Il existe des générateurs et des plugins spéciaux à cet effet, mais il est préférable de le faire manuellement.

Il vous suffit de créer un fichier texte ordinaire appelé robots.txt, à l'aide de n'importe quel éditeur de texte (par exemple, Notepad ou Notepad++) et de le télécharger sur votre hébergement dans le dossier racine de votre blog. Certaines directives doivent être écrites dans ce fichier, c'est-à-dire règles d'indexation pour les robots de Yandex, Google, etc.

Si vous êtes trop paresseux pour vous en préoccuper, je donnerai ci-dessous un exemple, de mon point de vue, du fichier robots.txt correct pour WordPress de mon blog. Vous pouvez l'utiliser en remplaçant le nom de domaine à trois endroits.

Règles et directives de création de Robots.txt

Pour réussir l'optimisation d'un blog par les moteurs de recherche, vous devez connaître quelques règles de création de robots.txt :

  • L'absence ou le fichier robots.txt vide signifiera que les moteurs de recherche seront autorisés à indexer tout le contenu de la ressource Web.
  • robots.txt devrait s'ouvrir sur votre site.ru/robots.txt, donnant au robot un code de réponse de 200 OK et ne dépassant pas 32 Ko. Un fichier qui ne s'ouvre pas (par exemple, en raison d'une erreur 404) ou qui est plus volumineux sera considéré comme correct.
  • Le nombre de directives dans le fichier ne doit pas dépasser 1 024. La longueur d'une ligne ne doit pas dépasser 1 024 caractères.
  • Un fichier robots.txt valide peut contenir plusieurs instructions, chacune devant commencer par une directive User-agent et contenir au moins une directive Disallow. Habituellement, ils écrivent des instructions dans robots.txt pour Google et tous les autres robots et séparément pour Yandex.

Directives robots.txt de base :

User-agent – ​​​​​​indique à quel robot de recherche l’instruction est adressée.

Le symbole « * » signifie que cela s'applique à tous les robots, par exemple :

Agent utilisateur: *

Si nous devons créer une règle dans robots.txt pour Yandex, alors nous écrivons :

Agent utilisateur : Yandex

Si une directive est spécifiée pour un robot spécifique, la directive User-agent: * n'est pas prise en compte par celui-ci.

Interdire et Autoriser – respectivement, interdisent et autorisent les robots à indexer les pages spécifiées. Toutes les adresses doivent être spécifiées à partir de la racine du site, c'est-à-dire à partir de la troisième barre oblique. Par exemple:

  • Interdire à tous les robots d'indexer l'intégralité du site :

    Agent utilisateur: *
    Interdire : /

  • Il est interdit à Yandex d'indexer toutes les pages commençant par /wp-admin :

    Agent utilisateur : Yandex
    Interdire : /wp-admin

  • La directive Disallow vide permet d'indexer tout et est similaire à Allow. Par exemple, j'autorise Yandex à indexer l'intégralité du site :

    Agent utilisateur : Yandex
    Refuser:

  • Et vice versa, j'interdis à tous les robots de recherche d'indexer toutes les pages :

    Agent utilisateur: *
    Permettre:

  • Les directives Allow et Disallow du même bloc User-agent sont triées par longueur de préfixe d'URL et exécutées séquentiellement. Si plusieurs directives conviennent à une page du site, alors la dernière de la liste est exécutée. Désormais, l'ordre dans lequel elles sont écrites n'a plus d'importance lorsque le robot utilise les directives. Si les directives ont des préfixes de même longueur, Allow est exécuté en premier. Ces règles sont entrées en vigueur le 8 mars 2012. Par exemple, il permet d'indexer uniquement les pages commençant par /wp-includes :

    Agent utilisateur : Yandex
    Interdire : /
    Autoriser : /wp-includes

Plan du site – Spécifie l'adresse du plan du site XML. Un site peut avoir plusieurs directives Sitemap, qui peuvent être imbriquées. Toutes les adresses des fichiers Sitemap doivent être spécifiées dans robots.txt pour accélérer l'indexation du site :

Plan du site : http://site/sitemap.xml.gz
Plan du site : http://site/sitemap.xml

Hôte – indique au robot miroir quel miroir de site Web considérer comme le miroir principal.

Si le site est accessible à plusieurs adresses (par exemple avec www et sans www), cela crée des pages en double complètes, qui peuvent être interceptées par le filtre. Aussi, dans ce cas, ce n'est peut-être pas la page principale qui est indexée, mais la page principale, au contraire, sera exclue de l'index du moteur de recherche. Pour éviter cela, utilisez la directive Host, qui est prévue dans le fichier robots.txt uniquement pour Yandex et il ne peut y en avoir qu'une. Il est écrit après Disallow et Allow et ressemble à ceci :

Hébergeur : site internet

Crawl-delay – définit le délai entre le téléchargement des pages en secondes. Utilisé s'il y a une charge importante et que le serveur n'a pas le temps de traiter les requêtes. Sur les sites jeunes, il vaut mieux ne pas utiliser la directive Crawl-delay. C'est écrit ainsi :

Agent utilisateur : Yandex
Délai d'exploration : 4

Clean-param – pris en charge uniquement par Yandex et utilisé pour éliminer les pages en double avec des variables, en les fusionnant en une seule. Ainsi, le robot Yandex ne téléchargera pas plusieurs fois des pages similaires, par exemple celles associées à des liens de référence. Je n'ai pas encore utilisé cette directive, mais dans l'aide sur robots.txt pour Yandex, suivez le lien au début de l'article, vous pourrez lire cette directive en détail.

Les caractères spéciaux * et $ sont utilisés dans robots.txt pour indiquer les chemins des directives Disallow et Allow :

  • Le caractère spécial « * » désigne toute séquence de caractères. Par exemple, Disallow: /*?* signifie une interdiction de toutes les pages où « ? » apparaît dans l'adresse, quels que soient les caractères précédant et suivant ce caractère. Par défaut, le caractère spécial « * » est ajouté à la fin de chaque règle, même s'il n'est pas précisé spécifiquement.
  • Le symbole « $ » annule le « * » à la fin de la règle et signifie une correspondance stricte. Par exemple, la directive Disallow: /*?$ interdira l'indexation des pages se terminant par le caractère « ? ».

Exemple de fichier robots.txt pour WordPress

Voici un exemple de mon fichier robots.txt pour un blog sur le moteur WordPress :

Agent utilisateur : * Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : / trackback Interdire : */trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?s= Agent utilisateur : Yandex Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : /trackback Interdire : */ trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?.ru/sitemap.xml..xml

Agent utilisateur : * Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : / trackback Interdire : */trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?s= Agent utilisateur : Yandex Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : /trackback Interdire : */ trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?.ru/sitemap.xml..xml

Afin de ne pas vous tromper en créant le bon robots.txt pour WordPress, vous pouvez utiliser ce fichier. Il n'y a aucun problème avec l'indexation. J'ai un script de protection contre la copie, il sera donc plus pratique de télécharger le fichier robots.txt prêt à l'emploi et de le télécharger sur votre hébergement. N'oubliez pas de remplacer le nom de mon site par le vôtre dans les directives Host et Sitemap.

Ajouts utiles pour configurer correctement le fichier robots.txt pour WordPress

Si des commentaires arborescents sont installés sur votre blog WordPress, ils créent alors des pages en double du formulaire ?replytocom= . Dans robots.txt, ces pages sont fermées avec la directive Disallow: /*?*. Mais ce n’est pas une solution et il vaut mieux lever les interdictions et combattre les réponses à réponse d’une autre manière. Quoi, .

Ainsi, le fichier robots.txt actuel en juillet 2014 ressemble à ceci :

Agent utilisateur : * Interdire : /wp-includes Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Agent utilisateur : Yandex Interdire : /wp -inclut Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Hôte : site.ru Agent utilisateur : Googlebot-Image Autoriser : /wp-content /uploads/ Agent utilisateur : YandexImages Autoriser : /wp-content/uploads/ Plan du site : http://site.ru/sitemap.xml

Agent utilisateur : * Interdire : /wp-includes Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Agent utilisateur : Yandex Interdire : /wp -inclut Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Hôte : site.ru Agent utilisateur : Googlebot-Image Autoriser : /wp-content /uploads/ Agent utilisateur : YandexImages Autoriser : /wp-content/uploads/ Plan du site : http://site.ru/sitemap.xml

Il définit également les règles applicables aux robots d’indexation d’images.

Agent utilisateur : Mediapartners-Google
Refuser:

Si vous envisagez de promouvoir des pages de catégories ou de balises, vous devez les ouvrir aux robots. Par exemple, sur un site de blog, les catégories ne sont pas fermées à l'indexation, puisqu'elles ne publient que de petites annonces d'articles, ce qui est assez insignifiant en termes de duplication de contenu. Et si vous utilisez l'affichage de citations dans le flux du blog, qui sont remplies d'annonces uniques, il n'y aura aucune duplication.

Si vous n'utilisez pas le plugin ci-dessus, vous pouvez spécifier dans votre fichier robots.txt d'interdire l'indexation des balises, des catégories et des archives. Par exemple, en ajoutant les lignes suivantes :

Interdire : /auteur/
Interdire : /tag
Interdire : /category/*/*
Interdire : /20*

N'oubliez pas de vérifier le fichier robots.txt dans le panneau Yandex.Webmaster, puis de le télécharger à nouveau sur votre hébergement.

Si vous avez des ajouts pour configurer robots.txt, écrivez-le dans les commentaires. Regardez maintenant une vidéo expliquant de quoi il s'agit et comment créer le fichier robots.txt correct pour un site, comment interdire l'indexation dans le fichier robots.txt et corriger les erreurs.

Bonjour chers amis!

Je vais maintenant écrire un article sur le dossier sensationnel dont les jeunes propriétaires de sites Web ont tant peur. Et pour cause, car s’il est mal rédigé, de mauvaises conséquences peuvent survenir.

Le sujet de l'article est le fichier robots.txt. Aujourd'hui, nous allons examiner les bases de sa compilation à partir d'un exemple de mon dossier personnel, qui fonctionne actuellement bien. Le matériel s'est avéré assez complexe et après la première lecture, vous n'aurez peut-être pas l'impression d'une image complète, mais vous devriez avoir l'idée principale. Il y aura de nombreux conseils et informations privilégiées qui vous aideront à améliorer l'indexation de votre site.

Théorie importante

Tout d’abord, définissez le fichier lui-même.

Le fichier Robots.txt permet aux moteurs de recherche de savoir ce qui ne doit pas être indexé sur le site pour éviter la duplication de contenu. Vous pouvez bloquer l'indexation de sections entières, de pages individuelles, de dossiers sur l'hébergement, etc. Tout ce qui me vient à l'esprit.

C'est à ce fichier que les robots de recherche prêtent d'abord attention lorsqu'ils visitent un site afin de comprendre où chercher et ce qui doit être ignoré et non saisi dans la base de données de recherche.

Ce fichier sert également à faciliter le travail des robots de recherche afin qu'ils n'indexent pas beaucoup de pages indésirables. Cela crée une charge sur notre site, car les robots passeront beaucoup de temps à ramper pendant le processus d'indexation.

Le fichier Robots.txt se trouve dans le répertoire racine de n'importe quel site Web et possède l'extension d'un document texte ordinaire. Autrement dit, nous pouvons le modifier sur notre ordinateur à l'aide d'un éditeur de texte classique - le Bloc-notes.

Pour afficher le contenu de ce fichier sur le site Web, vous devez ajouter le nom du fichier au nom de domaine en utilisant une barre oblique droite comme ceci : nom de domaine.ru/robots.txt

Il est très important de comprendre que le fichier peut différer pour certains sites, car la structure peut être complexe. Mais l’idée principale est de fermer les pages générées par le moteur lui-même et de créer du contenu en double. En outre, l'objectif est d'empêcher ces pages d'entrer dans l'index, et pas seulement leur contenu. Si vous disposez d’un site WordPress simple, alors le fichier vous convient.

Différences de travail pour Yandex et Google

La seule différence, peut-être significative, est que Yandex perçoit les interdictions contenues dans le fichier comme une sorte de règle impérative et suit assez bien toutes les interdictions. Nous lui avons dit qu’il n’était pas nécessaire de mettre ces pages dans l’index, et il ne les prend pas.

Chez Google, la situation est complètement différente. Le fait est que Google agit selon le principe du « par dépit ». Ce que je veux dire? Nous interdisons certaines pages de service. La page la plus courante interdite est la page créée par le lien « Répondre » lorsque la fonction d'arborescence des commentaires est activée.

La page de ce lien porte le préfixe "replytocom". Lorsque nous bloquons une telle page, Google ne peut pas accéder à son contenu et inscrit cette adresse dans l'index. En conséquence, plus il y a de commentaires sur une ressource, plus il y a d'adresses indésirables dans l'index, ce qui n'est pas bon.

Bien entendu, puisque nous avons fermé l'indexation de ces adresses, le contenu des pages n'est pas indexé et le contenu en double n'apparaît pas dans l'index. En témoigne l’inscription « Une description de ce résultat n’est pas disponible en raison du fichier robots.txt de ce site ».

Cela se traduit comme suit : « La description de la page Web n'est pas disponible en raison d'une limitation dans le fichier robots.txt. »

Ce n'est pas grand chose. Mais la page s'est retrouvée dans l'index, même s'il n'y a pas eu de duplication. En général, cela peut être le cas, mais vous pouvez complètement vous débarrasser de ces déchets.

Et il existe plusieurs solutions :


Il existe également des plugins spéciaux pour la configuration des commentaires, qui ont une fonction permettant de fermer ces liens. Vous pouvez également les utiliser. Mais pourquoi réinventer la roue ? Après tout, vous ne pouvez rien faire et tout ira bien sans notre participation. L'essentiel ici est d'ouvrir l'accès afin que Google puisse comprendre l'ensemble de la situation.

Google trouvera certainement ces pages via des liens internes (dans notre cas, par exemple, le lien « Répondre »). L'aide de Google elle-même nous dit ceci :

Bien que Google n'explore ni n'indexe le contenu des pages bloquées par robots.txt, les URL trouvées sur d'autres pages Internet peuvent toujours être ajoutées à l'index. Par conséquent, l'URL de la page, ainsi que d'autres informations accessibles au public telles que le texte du lien du site ou le titre du projet Open Directory (www.dmoz.org), peuvent apparaître dans les résultats de recherche Google.

Cependant, même si vous empêchez les robots de recherche d'explorer le contenu de votre site à l'aide du fichier robots.txt, cela n'exclut pas la possibilité que Google le détecte par d'autres moyens et l'ajoute à l'index.

Et après? Si l'accès est ouvert, il tombera sur la balise méta Noindex, qui interdit l'indexation de la page, et sur l'attribut rel="canonical", qui pointe vers l'adresse principale de la page. A partir de ce dernier, il apparaîtra clairement à Google que ce document n'est pas le document principal et ne doit pas être inclus dans l'index. C'est ça. Rien ne sera inclus dans l'index et aucun conflit ne surviendra avec le robot de recherche Google. Et puis vous n’aurez pas à vous débarrasser des déchets dans l’index.

Si l'accès est refusé, il existe une forte probabilité, et très probablement 100 %, que les adresses trouvées via ces liens soient indexées par Googlebot. Dans ce cas, vous devrez vous en débarrasser, ce qui prend déjà une seule journée, une semaine voire un mois. Tout dépend de la quantité de déchets.

En général, pour éviter que cela ne se produise, vous devez utiliser le fichier correct sans restrictions inutiles + ouvrir toutes les pages similaires pour le moteur de recherche Google.

Vous pouvez, bien sûr, simplement fermer tous ces liens avec des scripts ou des plugins et effectuer une redirection 301 des pages en double vers la page principale, afin que le robot de recherche soit immédiatement transféré vers l'adresse principale, qu'il indexera sans y prêter attention. les doublons.

La deuxième option est plus difficile, pour ainsi dire, plus solide, puisque nous effectuons quelques manipulations, bloquant toutes les ordures des moteurs de recherche. Nous les laissons comprendre la situation eux-mêmes. Il n'y a aucune chance que des pages via des liens internes soient incluses dans l'index.

Personnellement, c'est ce que j'ai fait. Tout est fermé avec un script et des redirections.

Avant d'examiner les bases d'un fichier robots approprié, nous analyserons les principales directives afin qu'à un niveau basique, vous compreniez comment ce fichier est compilé et comment il peut être modifié en fonction de vos besoins.

Directives de base

Les principales directives du fichier robots sont :

Important! Après chaque directive, il doit y avoir une indentation d'un espace.

Connaissant les principaux points du travail de robots.txt et les principes de base de sa compilation, vous pouvez commencer à l'assembler.

Compiler le bon fichier

En général, l'option idéale serait d'ouvrir complètement votre site à l'indexation et de donner aux robots de recherche la possibilité de comprendre eux-mêmes toute la situation. Mais leurs algorithmes ne sont pas parfaits et ils prennent dans l'index tout ce qui ne peut être pris que dans la base de données de recherche. Mais nous n’en avons pas besoin, car il y aura beaucoup de contenu en double sur le site et un tas de pages inutiles.

Pour éviter que cela ne se produise, vous devez créer un fichier qui permettra d'indexer uniquement les pages des articles eux-mêmes, c'est-à-dire le contenu et, le cas échéant, les pages si elles fournissent des informations utiles au visiteur et aux moteurs de recherche.

À partir du point 2 de ce document, il est devenu clair pour vous que le fichier ne doit pas contenir de restrictions inutiles pour Google, afin que les adresses de pages inutiles n'apparaissent pas dans l'index. Cela ne sert à rien. Yandex traite ce fichier normalement et accepte bien les interdictions. Ce que nous signalons comme une interdiction, Yandex ne l'indexera pas.

Sur cette base, j'ai créé un fichier qui ouvre l'intégralité du site pour le moteur de recherche Google (à l'exception des répertoires de service du moteur WordPress lui-même) et ferme toutes les pages en double de Yandex, Mail et autres moteurs de recherche.

Mon fichier est assez volumineux.

Agent utilisateur : Yandex Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /wp-content/cache Interdire : /xmlrpc.php Interdire : * /author/* Interdire : */feed/ Interdire : */feed Interdire : /?feed= Interdire : */page/* Interdire : */trackback/ Interdire : /search Interdire : */tag/* Interdire : /?. php Interdire : /wp-register.php Interdire : /wp-content/plugins Interdire : /wp-content/cache Autoriser : /wp-content/uploads/ Agent utilisateur : Mail.Ru Interdire : /wp-admin Interdire : / wp-includes Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /xmlrpc.php Interdire : */author/* Interdire : */feed/ Interdire : */feed Interdire : /?feed= Interdire : */page/* Interdire : */trackback/ Interdire : /search Interdire : */tag/* Interdire : /?wp-subscription-manager* Autoriser : /wp-content/uploads/ Agent utilisateur : * Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /xmlrpc.php Interdire : /?.xml Plan du site : http://site/sitemap.xml.gz Agent utilisateur : Mediapartners-Google Interdire : Agent utilisateur : YaDirectBot Interdire : Utilisateur- agent : Googlebot-Image Autoriser : /wp-content/uploads/ Agent utilisateur : YandexImages Autoriser : /wp-content/uploads/

Agent utilisateur : Yandex

Interdire : /wp - admin

Interdire : /wp - inclut

Interdire : /xmlrpc. php

Interdire : * /auteur /*

Interdire : */feed/

Interdire : */flux

Interdire : /? nourrir =

Interdire : */page/*

Interdire : */trackback/

Interdire : /recherche

Interdire : * / tag /*

Interdire : /?wp-subscription-manager*

Autoriser : /wp-content/uploads/

Hébergeur : site internet

Agent utilisateur : Googlebot

Interdire : /wp-admin

Interdire : /wp-includes

Interdire : /wp-login.php

Interdire : /wp-register.php

Interdire : /wp-content/plugins

Interdire : /wp-content/cache

Autoriser : /wp-content/uploads/

Agent utilisateur : Mail.Ru

Interdire : /wp-admin

Interdire : /wp-includes

Interdire : /wp-login.php

Interdire : /wp-register.php

Interdire : /wp-content/plugins

Interdire : /wp-content/cache

Interdire : /xmlrpc.php

Interdire : */auteur /*

Interdire : */feed/

Interdire : */flux

Interdire : /? nourrir =

Interdire : */page/*

Interdire : */trackback/

Interdire : /recherche

Interdire : */tag/*

Autoriser : /wp-content/uploads/

Agent utilisateur: *

Interdire : /wp - admin

Interdire : /wp - inclut

Interdire : /wp-login. php

Interdire : /wp-register. php

Interdire : /wp-content/plugins

Interdire : /wp-content/cache

Interdire : /xmlrpc. php

Interdire : /? wp - abonnement - gestionnaire *

contenu/téléchargements/de l'agent

N'oubliez pas de changer l'adresse de mon domaine par la vôtre dans les directives Host et Sitemap.

Comme vous pouvez le constater, le fichier Robots.txt pour WordPress est assez volumineux. Cela est dû au fait que j'ai prescrit les règles pour les 3 robots principaux : Yandex, Google et mail. Vous devez absolument le faire pendant les 2 premières minutes. De plus, envoyer du courrier à un robot de recherche ne fera pas de mal, puisque récemment, le moteur de recherche s'est plutôt bien développé et commence à générer de plus en plus de trafic.

Quant au contenu du fichier lui-même, les mêmes règles sont écrites pour les robots Yandex, Mail et pour la directive qui fonctionne avec tous les robots (User-agent : *). L'interdiction s'applique à tous les problèmes majeurs liés à l'apparition de doublons dans l'index.

Uniquement pour le robot de recherche Google, j'ai prescrit une option distincte, qui consiste à ouvrir l'intégralité du contenu du site, à l'exception des dossiers de service du moteur lui-même. J'ai expliqué pourquoi il en est ainsi ci-dessus. Il est nécessaire que Googlebot puisse explorer toutes les pages avec des liens internes et voir les interdictions sur celles-ci sous la forme d'une balise méta robots avec la valeur noindex, ainsi que l'attribut rel="canonical", ce qui l'obligera à laisser les doublons tranquilles.

Si nous faisons un ban dans le fichier robots, alors le robot ne pourra pas voir ces données (tags) et, comme je l'ai dit plus tôt, « par dépit », il prendra l'adresse dans l'index.

J'ai également autorisé l'indexation des images pour chaque robot (Autoriser : /wp-content/uploads/).

À la fin du fichier, j'ai spécifié séparément l'autorisation d'indexation d'images pour les robots d'images Google et Yandex. Dans le même temps, j'ai autorisé l'intégralité du site à faire de la publicité contextuelle aux robots des mêmes moteurs de recherche.

Si vous l'utilisez, alors dans ce fichier, utilisez une interdiction de l'indexer, car le robot de recherche le détectera également.

La ligne suivante est utilisée pour cela :

Interdire : /?wp-subscription-manager*

Grâce à ce fichier, vous n'aurez pas peur que du contenu en double apparaisse dans l'index, qui est généré par le moteur lui-même, ou plutôt par ses liens internes sur les pages du site. Yandex considérera toutes les interdictions comme une sorte de dogme, et Google tombera sur des interdictions lorsqu'il s'agira de doublons créés par le moteur.

Comme je l'ai décrit plus tôt, des paramètres plus avancés consistent à masquer ces liens afin que les robots de recherche ne puissent même pas les trouver. De plus, cela nous protégera non seulement à 100 % maintenant, mais nous donnera également une sorte de filet de sécurité pour l'avenir, car les algorithmes des moteurs de recherche changent constamment et il est possible que les interdictions qui fonctionnent actuellement ne fonctionnent plus après un certain temps. .

Mais ici aussi. Les développeurs de moteurs restent toujours dans l'air du temps et prennent en compte tous les nouveaux changements dans le travail du PS pour améliorer WordPress. Sur cette base, il n’y a rien à craindre dans un avenir proche.

Dans les articles suivants, je décrirai le processus de suppression des pages en double pouvant apparaître sur la ressource, ainsi que les moyens de masquer les liens dangereux créés par les outils WordPress, si vous décidez toujours de vous protéger à 100 %. Nous ne savons pas comment le robot de recherche se comportera, n’est-ce pas ? Peut-être qu'il commencera à ignorer les interdictions même s'il existe une balise méta Noindex et l'attribut rel="canonical". Dans ce cas, cacher les liens dangereux sera utile.

Alors, peut-être que l'article s'est avéré assez difficile à comprendre au début, car il aborde non seulement la question de la compilation du fichier lui-même, mais aussi les principes des robots de recherche et ce qui devrait être fait idéalement, ce qui fait peur et quoi n'est pas.

Si vous avez des questions ou des ambiguïtés, je vous serais reconnaissant d'en parler dans les commentaires afin que je puisse d'une manière ou d'une autre modifier ce matériel pour une perception plus réactive par les autres utilisateurs.

C'est ici que je terminerai ce post. À bientôt!

Cordialement, Konstantin Khmelev!

Pourquoi créer un fichier robots.txt pour un site hébergé WordPress et quelle est la meilleure façon de le configurer ? Une mauvaise utilisation de ce fichier peut nuire à l'indexation du site et à sa promotion dans les moteurs de recherche.

Des paramètres corrects élimineront les pages en double et masqueront les pages inutiles des résultats de recherche.

L'exemple le plus simple d'un fichier robots.txt pour WordPress, qui ferme uniquement le panneau d'administration :

Où se trouve le fichier de paramètres des robots par défaut dans WP ?

Le programme d'installation WordPress standard ne contient pas de fichier robots. Par conséquent, après avoir installé le CMS, vous devrez le créer vous-même. Dans notre article, vous trouverez des informations complètes sur toutes les commandes contenues dans ce fichier. Nous vous proposons également un code de travail prêt à l'emploi pour ce fichier - il vous suffit de le copier dans votre fichier robots. Tout ce que vous avez à faire est de créer votre propre fichier, d'y copier le code et de l'ajouter au dossier racine de votre site. Après cela, vérifiez son exactitude pour les moteurs de recherche selon nos instructions.

Hébergement de sites Web virtuels pour les CMS populaires :

Un exemple de fichier robots.txt que vous pouvez utiliser sur votre site.

Vous pouvez mettre en évidence ce code et le coller dans votre site WordPress, en remplaçant les liens dans les sections Hôte et Plan du site par l'adresse de votre site.

Interdire : /wp-admin
Interdire : /wp-includes

Interdire : /wp-content/cache
Interdire : /wp-content/themes
Interdire : /trackback
Interdire : */trackback
Interdire : */*/trackback
Interdire : */*/feed/*/
Interdire : */flux
Interdire : /*?*

Agent utilisateur : Yandex

Interdire : /wp-admin
Interdire : /wp-includes
Interdire : /wp-content/plugins
Interdire : /wp-content/cache
Interdire : /wp-content/themes
Interdire : /trackback
Interdire : */trackback
Interdire : */*/trackback
Interdire : */*/feed/*/
Interdire : */flux
Interdire : /*?*
Hébergeur : http://site.ru/

Plan du site : http://site.ru/sitemap.xml

Le fichier robots.txt est un simple fichier texte que vous pouvez créer dans n'importe quel éditeur de texte. Toutes les instructions utilisées dans robots.txt conduisent à l'un des trois résultats suivants :

  1. Autorisation d'indexation – les robots de recherche peuvent explorer tout le contenu.
  2. Une interdiction totale de l'indexation - rien du contenu du site ne sera exploré.
  3. Autorisation conditionnelle - des directives spécifiques sont définies pour indiquer la possibilité d'analyser des dossiers et des fichiers spécifiques.

Il y a souvent des désaccords sur ce qui doit être mis dans le fichier robots.txt. Veuillez noter que ce fichier n'est pas destiné à résoudre les problèmes de sécurité du site Web. Par conséquent, si vous souhaitez empêcher les robots d'accéder au contenu privé, vous devrez protéger par mot de passe la zone où ces informations sont stockées.

En règle générale, le fichier robots.txt est destiné à fournir des conseils aux moteurs de recherche, mais ils peuvent ne pas suivre ces instructions. Une version du fichier robots.txt est affichée dans la capture d'écran.

Voyons quelles fonctions remplissent chaque ligne de ce fichier. La directive User-agent désigne un groupe d'instructions destinées à un robot ou à tous à la fois. Il existe deux options pour l'utiliser :

  1. Si tous les robots reçoivent les mêmes instructions, un astérisque est indiqué (ligne 1) ;
  2. si le nom d'un bot spécifique est spécifié, alors les conditions s'appliqueront uniquement à lui (ligne 15).

Les développeurs de Yandex notent que si l'agent utilisateur spécifie directement le robot de ce moteur de recherche, les mêmes instructions générales utilisées pour d'autres robots de recherche (lignes 15 à 24) doivent être répétées dans cette section. Sinon, le robot Yandex ne prendra en compte que les commandes qui lui sont explicitement écrites et ignorera le reste.

Refuser

La directive Disallow informe les robots quels répertoires ne doivent pas être indexés. Par exemple, si vous devez empêcher les moteurs de recherche d'indexer les photos de votre site, placez les fichiers contenant ces photos dans un dossier et bloquez l'accès à celui-ci.

Pour un site créé sur WordPress, il est obligatoire d'interdire l'indexation de la zone admin, c'est-à-dire le dossier wp-admin. De plus, vous pouvez interdire l'indexation des catégories, des archives et des balises, bien que lors de l'utilisation de plugins SEO sur WordPress, ces interdictions soient définies dans les paramètres du plugin. Dans l'exemple ci-dessus, le modèle et les dossiers de contenu mis en cache sont également protégés contre une éventuelle entrée dans l'index.

Permettre

La directive Allow permet d'indiquer au robot qu'il peut voir un fichier dans un dossier interdit par d'autres instructions. Cette directive n'est pas présente dans l'exemple, car Ce fichier fonctionne sur le principe « ce qui n’est pas interdit est permis ».

Hôte et plan du site

La directive Host rapporte l'adresse du miroir principal du site. La commande Sitemap est destinée à tous les robots, elle marque l'emplacement du fichier XML avec la structure du site et facilite l'indexation des pages par les moteurs de recherche.

Où télécharger le fichier robots.txt dans WordPress

S'il n'y a pas de fichier robots.txt sur le site, vous devez en créer un. Vous pouvez utiliser Notepad++ sous Windows ou TextEdit sur Mac.

  1. Créez un nouveau fichier texte, notez les directives nécessaires et enregistrez-le sur votre ordinateur sous robots.txt.
  2. Connectez-vous au serveur d'hébergement via le gestionnaire de fichiers et copiez le fichier robots.txt (2) dans le répertoire racine (1) du site Web.
  3. Dans la barre d'adresse, tapez /robots.txt immédiatement après le nom de domaine et assurez-vous que le contenu du fichier est affiché par le navigateur. Si vous utilisez des sous-domaines, vous devez créer un fichier robots.txt pour chaque sous-domaine.

Vérification du txt des robots avec Yandex et Google - le fichier fonctionne-t-il correctement ?

Il est recommandé de tester le fichier robots.txt pour vous assurer qu'il fonctionne exactement comme prévu d'après les instructions qui y sont placées. Avant analyse, assurez-vous que le site est enregistré dans les outils pour les webmasters proposés par les moteurs de recherche Google et Yandex.

Pour vérifier auprès de Yandex, accédez au compte du webmaster en utilisant le lien https://webmaster.yandex.ru. Sélectionnez le menu "Outils" et le sous-menu "Analyse Robots.txt".
Pour vérifier le fichier sur Google, suivez le lien https://www.google.com/webmasters/tools. Dans le menu « Analyse », sélectionnez l'élément « Outil de vérification du fichier Robots.txt ».

Les deux systèmes vous permettent de soumettre un fichier robots.txt pour vérification, après quoi ils fournissent des résultats d'analyse et des messages d'erreur le cas échéant.

Pourquoi le fichier robots.txt est-il nécessaire sur un site WordPress ?

Le fichier robots.txt est un document texte ordinaire hébergé sur un serveur web ; il informe les robots de recherche sur l'accès aux sections du site. Lors de l'utilisation de ce fichier, vous pouvez définir des instructions, par exemple interdire aux moteurs de recherche d'indexer les fichiers de service et les catégories de sites, indiquer la version principale du site et le chemin d'accès au plan du site au format XML. Avant qu'un moteur de recherche n'indexe un site, un robot, tel que Googlebot ou Yandex, le visitera et analysera le fichier robots.txt pour trouver des commandes sur les pages autorisées à être visitées et enregistrées dans les résultats de recherche.

Pour vérifier si un site possède un fichier robots.txt, saisissez /robots.txt dans la barre d'adresse immédiatement après le nom de domaine. Si ce fichier est manquant, les robots des moteurs de recherche ont un accès complet à votre site. Dans le même temps, les résultats de la recherche peuvent contenir des liens vers le panneau d'administration et toutes les informations qui doivent être cachées aux étrangers. À cet égard, il existe un certain nombre de raisons pour lesquelles vous devrez utiliser le fichier robots.txt :

  • Il existe du contenu sur le site que vous souhaitez empêcher d'être affiché dans les moteurs de recherche, par exemple des pages en double ou des résultats de recherche internes sur le site, le compte personnel d'un utilisateur ou un panier d'achat.
  • Vous souhaitez affiner l'accès au site pour les robots connus.
  • Vous utilisez des liens payants ou des publicités qui nécessitent des instructions particulières pour les robots.
  • Vous développez un site Internet en temps réel, mais vous ne souhaitez pas encore que les moteurs de recherche l'indexent.
  • Vous souhaitez indiquer aux robots de recherche où se trouve le fichier de navigation du plan du site.

Chacune de ces situations peut être corrigée de différentes manières, mais la configuration d'un fichier robots.txt aidera à les implémenter toutes en même temps au même endroit, car la plupart des webmasters disposent de l'accès au site nécessaire pour créer et utiliser un fichier robots.txt.