Les partenaires. Partenaires En décembre, vous avez annoncé l'analyseur de texte Tourgueniev. Dites-nous comment et sur quelles données vous avez formé l'analyseur ? Quel était l'échantillon ?

À première vue, ils n’ont absolument aucune importance pour les demandes commerciales. Il existe des corrélations avec la position dans Yandex uniquement pour une petite partie des paramètres de texte, et même dans ce cas, elles sont faibles. Dans les trois premiers et dans les dix troisièmes résultats de recherche, le nombre d'occurrences de la requête dans le texte de la page est à peu près le même - et on peut en dire autant du titre, des titres h1-h4, etc.

Mais en réalité, malgré tout cela, les facteurs textuels sont d’une importance cruciale. Si nous comparons le TOP 30 de Yandex pour les requêtes commerciales et les pages tout aussi pertinentes qui n'y étaient pas incluses (du TOP 30 de Google et Mail.ru), il s'avère que les valeurs de presque tous les paramètres de texte dans le TOP de Yandex sont statistiquement significativement - et très sensiblement - plus élevés.

Cela signifie très probablement que les facteurs textuels fonctionnent dans les étapes préliminaires du classement, lorsqu'environ un millier de résultats sont sélectionnés, qui sont ensuite classés en détail.

Autrement dit, si vous n'avez pas suffisamment d'occurrences d'une requête (ou de mots individuels d'une requête) sur votre page, vos chances d'accéder au TOP Yandex diminuent fortement.

Ainsi, pour la requête « lustres » dans le TOP 30 de Yandex, il n'y a que deux résultats où le mot « lustre » apparaît moins de 40 fois - lustron.ru avec 23 occurrences et lustre.rf avec quatre (plus un de plus dans le nom de domaine). Alors que dans le TOP 30 Google il y a 5 pages où « lustre » apparaît moins de 10 fois. Le nombre moyen d'occurrences de « lustre » dans le texte d'une page du Yandex TOP 30 est de 64, contre 48 pour Google et 30 pour les pages des tops Google et Mail.ru qui n'étaient pas incluses dans le Yandex TOP.

En quoi la situation des facteurs de texte dans Google diffère-t-elle de celle de Yandex ?

Sur Google, au contraire, il existe des corrélations notables entre les facteurs de texte et la position : plus on se rapproche du TOP 1, plus les valeurs sont élevées. Mais le "filtre d'entrée" n'est pas visible, comme dans Yandex, et les valeurs moyennes des paramètres de texte sont généralement légèrement inférieures.

Mais il y a beaucoup de points communs. Ainsi, dans les deux moteurs de recherche, les facteurs de classement sont d’autant plus forts que l’on s’éloigne de la « lettre » de la requête. Il semble que la forme exacte de la demande ne soit plus distinguée par les moteurs de recherche de toutes les autres. Le nombre de mots de requête individuels dispersés dans le texte est plus important que le nombre de fois où ils apparaissent ensemble. Les synonymes des mots de requête et, dans une plus large mesure encore, les « modules complémentaires » - ces mots que les moteurs de recherche eux-mêmes mettent en évidence dans les extraits de code sont également importants.

Apprenez-en davantage à ce sujet dans notre vaste rapport analytique sur les facteurs de classement préparé pour la conférence Optimization 2017.

Revenons directement à Yandex. Le blog du moteur de recherche indique que « Baden-Baden » se concentre sur les textes sur-optimisés. Vous analysez les sites sous "Baden". Sur la base de vos observations, sur quelles fonctionnalités spécifiques l'algorithme Yandex se concentre-t-il ? Pourquoi les sites relèvent-ils de « Baden-Baden » ?

En principe, tout est formulé assez clairement dans le blog Yandex : « Ils contiennent beaucoup de mots-clés répétés et de modèles de discours non naturels, mais peu d'informations utiles. Nous qualifions de tels textes de sur-optimisés… »

Il est facile de voir que Yandex comprend la réoptimisation au sens large - incluant non seulement le « spam par mots clés », mais également le faible naturel et l'inutilité pour l'utilisateur.

En d'autres termes, Yandex n'aime pas les textes SEO. De plus, il ne les aime pas depuis longtemps (voir les mantras sur les sites « faits pour les gens »), mais maintenant il a appris à les reconnaître et a décidé de les punir pour eux.

Comment exactement il les reconnaît est une question distincte et beaucoup moins importante. Il peut y avoir de nombreux facteurs, et ils concernent les trois composants du texte SEO : une abondance de mots-clés, un manque de naturel et une faible utilité. Divers paramètres de fréquence (à la fois liés aux demandes et non liés) ; vocabulaire typique des textes SEO ; longueur et position du bloc de texte ; présence de texte caché ; structure du texte. Et ce n'est pas une liste complète.

Très probablement, le problème a été résolu de manière purement pratique. Les facteurs qui sont déjà utilisés par Yandex pour d'autres tâches (par exemple, lors du classement) ont été utilisés au maximum ; un certain nombre de nouveaux facteurs y ont été ajoutés, développés spécifiquement pour cette tâche. L’apprentissage automatique a été exécuté autant de fois que nécessaire pour atteindre l’exhaustivité et la précision requises. Ensuite, nous avons effectué des tests A/B – et nous nous sommes lancés dans la bataille.

Nous n'avons pas essayé de savoir ce que Yandex prend exactement en compte - il n'y a clairement pas assez de données pour cela, et en fin de compte, ce n'est pas si important. Nous avons essayé d'apprendre à identifier et évaluer les textes SEO. Et je pense que nous l'avons bien fait. En outre, il est important de ne pas se contenter d'une évaluation sommaire, mais de tout détailler et de montrer ainsi ce qu'il serait utile de corriger.

Quel pourcentage de contenu de mauvaise qualité est acceptable sur une page ? À quel point faut-il se méfier d’un filtre de page ? Et combien de temps faut-il pour que l’ensemble du site soit filtré ?

Les pourcentages ne jouent pas un rôle particulier. Pour commencer à lutter contre les textes SEO, Yandex a dû d'abord apprendre à bien comprendre la structure d'une page Web - mettre en évidence les zones de navigation, une « vitrine », les critiques, les publicités, divers autres blocs - et le texte SEO. La taille du « baril de miel » (la partie contenu de la page) n’a pas d’importance. La taille de la « mouche dans la pommade » est importante. Plus c'est gros, plus c'est pire. Mais il peut aussi être relativement petit. Disons que deux mille caractères suffisent largement. Peut-être, apparemment, quelques paragraphes de taille moyenne suffiront - moins d'un millier de caractères, une centaine de mots. Il est difficile de dire plus précisément. En effet, il existe trois types de pages importantes pour B.-B. :

1) ceux qui tombaient sous le filtre de page ;

2) ceux qui tombaient sous le filtre du site ;

3) ceux indiqués par le support technique Yandex.

Et aucun d’entre eux n’apporte une clarté totale.

Malheureusement, nous savons très peu de choses sur le filtre de page : il n'y avait pas de telles personnes parmi les clients d'Ashmanov and Partners ; Les utilisateurs de Tourgueniev signalent plus souvent un filtre de site, il existe peu de publications « en open source », etc. Les cas que nous connaissons se répartissent en deux catégories - flagrants (textes SEO volumineux « en éponge », beaucoup de « tar ») et douteux (le trafic a chuté peu de temps avant l'annonce du nouvel algorithme, le propriétaire du site estime donc qu'il s'agit de « Baden -Baden", mais nous en doutons beaucoup).

On en sait beaucoup plus sur le filtre de site. Mais il est presque impossible de déterminer exactement quelles pages ont été prises en compte lors de l'imposition de sanctions, elles ne conviennent donc pas non plus pour déterminer des seuils. Les sites concernés ont des pages avec de gros textes SEO qui méritent clairement « Baden-Baden » - et ceux-ci incluent souvent la page principale du site et les pages des sections principales. Et il existe également des pages avec des blocs de texte très courts, voire même sans eux. Ce pour quoi le site a été puni est facile à comprendre à partir de ces données, mais il est difficile de savoir où Yandex fixe la limite.

Enfin, le troisième type de pages est celui vers lequel Yandex lui-même pointe lorsqu'il répond aux demandes des webmasters. Ces pages semblent précises, et un certain nombre d'entre elles sont connues, mais le problème est qu'elles sont souvent peu révélatrices. En gros, si toutes ces pages (et pires) étaient sous sanctions, Yandex n'aurait tout simplement rien à trouver. On peut imaginer que de telles pages provoquent des robots quelques réclamations, mais dans tous les cas connus de nous sur les mêmes sites il y avait bien pire pages (dont souvent la tête du site). Ces sites méritent vraiment le "B.-B." - mais les pages que Yandex juge nécessaires d'afficher n'y ont pas joué le premier rôle.

Si l'on parle de marché, d'après vos observations, combien de webmasters ont « repris conscience » après le lancement de Baden-Baden ?

Un nombre surprenant, malgré l’application jusqu’à présent très ciblée des sanctions.

Désormais, deux stratégies principales concurrentes sont clairement visibles : jouer la sécurité ou attendre que le coq rôti picore. Nous ne recommandons vraiment pas le deuxième.

Pour éviter les sanctions, il suffit de supprimer ou de modifier des textes franchement contre nature. Ils sont généralement visibles à l'œil nu - mais vous pouvez vérifier auprès de Tourgueniev. Pour vous débarrasser des sanctions qui vous ont déjà été infligées, vous devez accomplir une quête : deviner pourquoi Platon n'a pas aimé la page qu'il a envoyée et combien il y en a d'autres. Prévenir coûte moins cher que guérir.

En décembre, vous avez annoncé l'analyseur de texte Tourgueniev. Dites-nous comment et sur quelles données vous avez formé l'analyseur ? Quel était l'échantillon ?

Il n’y a vraiment pas d’apprentissage automatique là-bas. Il existe des algorithmes et des dictionnaires. Ils ont été développés et débogués sur la base de plusieurs centaines de pages relevant de « Baden-Baden », provenant d'environ cinq douzaines de sites différents, ainsi que de plusieurs milliers d'autres textes, dont nous avons évalué la qualité de manière indépendante.

À proprement parler, nous considérions que notre tâche consistait à apprendre à identifier automatiquement et efficacement les textes sur-optimisés - et, tout aussi important, à expliquer ce qui ne va pas exactement chez eux. L’apprentissage automatique ne permettrait pas cela.

À propos, même dans les cas où une menace directe contre « B.-B. » non, Tourgueniev est utile aux webmasters et aux rédacteurs, car il aide à remarquer et à corriger les répétitions non naturelles, les erreurs de style et autres problèmes similaires.

Comment Tourgueniev détermine-t-il que tel ou tel contenu doit être ajouté/supprimé ? Avec quels matériaux le service compare-t-il le texte lors de l'analyse ? Par exemple, avec des fichiers similaires déjà présents dans la base de données ; extrait des résultats de recherche en temps réel ; basé sur des moyennes de tout le contenu, etc. ?

Nous avons d'abord développé les paramètres responsables du risque de Baden-Baden au sein du Search Analytics Laboratory, et c'est seulement ensuite qu'est née l'idée de mettre un service à la disposition du public. Nous avons donc deux versions différentes de « Tourgueniev » : celle publiée sur turgenev.ashmanov.com, pour tout le monde, et la « Tourgueniev intérieure », pour nos clients. La version interne de l'algorithme fonctionne avec les pages Web et prend en compte le contexte des requêtes sur lesquelles elles doivent se trouver. Par exemple, il estime la taille d'un bloc de texte et la « teneur en eau » en fonction des performances des pages du TOP Yandex pour des requêtes spécifiques.

La version publique ne fonctionne qu'avec des textes (cette limitation a permis de rendre le service gratuit) et n'a donc rien de comparable avec le matériel testé. Il est simplement évalué selon plusieurs paramètres, gagne des points de pénalité s'il y en a et, de ce fait, le risque est évalué sur la base de la somme des points des différents paramètres. Nous ne recommandons pas d'ajouter ou de supprimer du contenu - nous identifions simplement les problèmes, et c'est à l'auteur du texte ou au propriétaire du site de décider quoi faire.

Dans l'onglet « Répétitions », les fréquences des mots et des phrases sont calculées, et un modèle simple est construit pour évaluer la présence de mots « super fréquents ». Typiquement, dans un texte SEO, ce sont les mots pour lesquels il est (ré)optimisé. Le nombre total de répétitions dans le texte est également évalué - pour cela, nous utilisons un paramètre apprécié des référenceurs avec le nom étrange de « nausée académique », que nous avons dû réinventer, car il s'est avéré que sa recette est gardée secrète. Les seuils sont fixés assez élevés - les points de pénalité commencent à partir de la nausée académique 10,5, c'est-à-dire que seuls les textes avec un nombre de répétitions très élevé sont « punis ». Et le texte peut aussi gagner un point pour la très haute fréquence de la conjonction « et » - il s'agit davantage de stylistique afin de capter des textes dans lesquels « des médecins expérimentés et compétents garantissent le codage et l'élimination d'une dépendance ».

Dans l'onglet « Stylistes », les occurrences de plusieurs types de mots et d'expressions dans le texte sont simplement comptées. Ce sont tout d’abord des figures de style caractéristiques des mauvais textes SEO. Par exemple, des fragments Pour vous assurer de ce choix, nous vous suggérons de revoir les principales caractéristiques du produit ou tout le monde sait qu'une machine à laver est un attribut important de la salle de bain ont été triés par nos soins entre guillemets presque sans laisser de trace, et désormais tout texte dans lequel se trouve « être convaincu de ce choix » recevra pour cela une certaine quantité de « quanta stylistiques », qui après un certain seuil se transforment en points de pénalité. De plus, diverses erreurs de style, cléricalisme, expressions trop familières et bien plus encore sont notées. Ils sont également extraits de textes SEO, et bien que beaucoup d'entre eux ne rendent pas le texte non naturel, s'ils sont nombreux, cela devient un problème dont la gravité s'exprime en points de pénalité.

Dans l'onglet « Demandes », sont notées les demandes trouvées dans le texte provenant d'une liste « commerciale » de taille moyenne (environ deux millions et demi). Si la couverture des requêtes est élevée, cela peut indiquer une sur-optimisation.

Les deux onglets restants donnent des points moins souvent et très peu à la fois. « Teneur en eau » - pour une faible proportion de texte significatif. "Lisibilité" - pour un texte contenant beaucoup de phrases longues et de mots longs.

Dans quelle mesure les données d’un même texte peuvent-elles varier d’un jour à l’autre ?

Généralement un peu. Nous continuons d'améliorer les algorithmes et d'élargir les dictionnaires, mais la probabilité que quelque chose change sensiblement dans votre texte est très faible. Une rare exception est si nous avons utilisé votre texte aujourd'hui pour réapprovisionner les dictionnaires.

Avec quelle précision Tourgueniev détermine-t-il le risque qu'un site tombe sous Baden-Baden ?

Chaque fois que nous découvrons un nouvel exemple de site ou de pages tombant sous le filtre, nous vérifions le travail de Tourgueniev sur ceux-ci. Dans 95% des cas, il s'en sort - il présente un risque critique ou élevé. En ce sens, tout va bien - nous recommandons seulement de vérifier plusieurs textes du site (et certainement les textes SEO, et non des pages entières).

Mais ceci, bien entendu, ne signifie pas que tout texte pour lequel Tourgueniev a montré un risque élevé tombera demain sous le filtre. Des scores élevés indiquent simplement que le texte est guindé, sur-optimisé et a besoin d'être modifié. Il y en a encore beaucoup dans le TOP Yandex - y compris dans les premières positions, notamment pour les demandes d'informations. Pourquoi n'est-ce pas une question pour nous.

Les représentants de Yandex, lorsqu'ils sont entourés de spécialistes du référencement et rivalisent pour se demander pourquoi mon site est sous filtre, et tel ou tel, pire encore, est gratuit, répondent généralement : « Ce n'est pas encore le soir, tout a son heure.

Nous ne pouvons que rejoindre cette réponse.

Certes, des faux positifs sont possibles si l'on vérifie des textes pour lesquels Tourgueniev n'est pas conçu. Par exemple, de nombreuses lois et autres documents juridiques reçoivent beaucoup de points pour la répétition et un peu plus pour le style et la lisibilité. Oui, les lois ne sont pas non plus les textes les plus naturels, rédigés dans un style loin d’être le meilleur, même s’ils ne sont pas sur-optimisés.

« Tourgueniev » est conçu uniquement pour les sites commerciaux ? Ou convient-il également aux portails d'information ? Après tout, il semblerait que le texte SEO soit à la fois là et le texte SEO.

Les textes SEO sont différents et la nature des problèmes, principalement stylistiques, dans un texte informatif sur-optimisé est quelque peu différente de celle dans un texte commercial. À partir de textes comme Avant de répondre à la question : "Doxycycline - à quoi servent ces comprimés ?", vous devez indiquer la composition de ce médicament. vous devez collecter des marqueurs qui les caractérisent.

Nous le faisons petit à petit, et de tels textes sont également capturés, bien qu'un peu pires que les textes commerciaux. Par exemple, la page d'où est tirée la citation donnée dans le paragraphe précédent n'a reçu que 5 points, même si, bien sûr, elle mérite plus. Mais d'un autre côté, ce texte apparaît dans le TOP Yandex en toute première position (pour la requête « comprimés de doxycycline » au moment de la rédaction). Lorsque Yandex commencera à appliquer "Baden-Baden" aux "text dumps", nous leur accorderons l'attention qu'ils méritent et ils seront bien attrapés.

Nous ne connaissons toujours pas un seul exemple confirmé d’utilisation de « B.-B ». vers des sites d'information. Nous serions très reconnaissants si l'un des lecteurs nous les envoyait - comme d'ailleurs tous les exemples de « Baden-Baden ». L'intérêt ici est mutuel : nous serons heureux de discuter de votre cas avec vous et cela nous aidera à améliorer le service pour tous.

Comment comptez-vous développer Tourgueniev, dans quelle direction ?

Nous n’avons pas encore sérieusement réfléchi aux plans globaux, mais localement, nous travaillons sur plusieurs onglets à la fois. Par exemple, nous allons améliorer radicalement l'onglet « Demandes » - et en même temps accélérer l'émission des réponses (les facteurs liés aux demandes sont désormais considérés comme plus longs que tous les autres).

Associé gérant de la société

L'un des managers les plus célèbres de Runet, spécialiste dans le domaine de l'intelligence artificielle, du développement de logiciels et de la gestion de projets. Associé directeur de la société "Ashmanov and Partners". Diplômé de la Faculté de mécanique et de mathématiques de l'Université d'État de Moscou, candidat en sciences techniques.

Igor Ashmanov est impliqué dans les technologies de l'information depuis 1983. Il a dirigé le développement du programme de vérification orthographique Orfo en informatique, a été copropriétaire et directeur général de la société MediaLingua, qui a produit des dictionnaires MultiLex, et a été directeur exécutif de la holding Internet Rambler. Pendant ce temps, il a sorti plusieurs dizaines de projets, dont :

  • Module linguistique ORFO (vérificateur d'orthographe et de style, thésaurus, module de césure) dans la version russe de Microsoft Office, utilisée par des millions de personnes dans toute la Russie ;
  • Les dictionnaires électroniques « MultiLex », qui restent à ce jour le meilleur outil de traduction professionnelle en Russie ;
  • Une version du moteur de recherche Rambler sortie en 2001, et la plupart des sites et services du portail Rambler avant leur mise à jour en 2012.
  • Filtre anti-spam « Spamtest », protégeant des dizaines de millions d'utilisateurs (maintenant vendu sous la marque « Kaspersky Antispam »).
  • Moteur de recherche d'actualités Novoteka, qui regroupe et regroupe les actualités provenant de centaines de sources.
  • La recherche populaire "Flexum" est un service de création de moteurs de recherche thématiques.

Igor Ashmanov est membre de l'Union internationale des militants Internet « EZHE », a remporté à deux reprises la nomination « Personne de l'année » au concours du réseau ROTOR (en ROTOR 2004 et en ROTOR-2006), dans le cadre de « EZHE » mouvement, il existe une galerie de personnalités éminentes du réseau, dans laquelle se trouve FRI Igor Ashmanov.

Entreprise partenaire

Spécialiste reconnu dans le domaine de la gestion de la production logicielle. Actuellement engagé dans le développement et le développement de la technologie Semantic Mirror et de plusieurs autres. Diplômé de la Faculté de physique de l'Université d'État de Moscou. Enseigne la programmation au département de physique.

En 1999-2001, Alexey a travaillé comme chef de projet de recherche chez Rambler, où, sous sa direction, une nouvelle version du moteur de recherche a été développée et mise en service.

En 1995-1999, Alexey Ivanov était directeur technique de la société MediaLingua, où il a dirigé le développement de la famille de dictionnaires informatiques MultiLex et de nombreux autres projets.

En 2001-2005, il a participé au développement du filtre anti-spam Spamtest au sein de la société Ashmanov and Partners.

En 2004–2007 - responsable du projet Semantic Mirror et du projet de moteur de recherche Ashmanov and Partners.

En 2006–2012 - responsable du développement du projet Search Engine Analysers.

En 2010-2011 - responsable du projet « recherche sociale » Flexum.ru.

De 2011 à 2016, il a été chef de projet pour Wada.vn, un moteur de recherche pour le segment Internet vietnamien.

En 2015-2016 - responsable du développement de WadaMarket.com, un agrégateur de produits pour les magasins vietnamiens en ligne et hors ligne.

Entreprise partenaire

Spécialiste en Russie des technologies Internet, développement de sites complexes, charges élevées, gros volumes de données. Chez Ashmanov and Partners, il développe un moteur de recherche.

Les plus célèbres étaient les propres projets du Russian Internet Survey et le serveur Web russe Apache, qui gère plus de la moitié de tous les sites Runet.

L'un des meilleurs spécialistes en Russie dans les technologies Internet, le développement de sites Web et de services Internet complexes, les charges élevées et les gros volumes de données. Diplômé de la Faculté de Géologie de l'Université d'État de Moscou.

Alexey est surtout connu pour ses propres projets, Russian Internet Survey et le serveur Web russe Apache.

En 1999-2001, Alexey était à la tête du projet Rambler's Top100 au sein de la holding Rambler Internet.

Depuis 2001 - employé et copropriétaire de la société "Ashmanov and Partners".

En 2004-2006, il a été directeur technique de la société Search Technologies, auteur du moteur de recherche d'actualités Novotek et du réseau d'échange d'actualités.

Depuis 2008, il est directeur technique de LibRaw LLC, qui développe des logiciels et des outils de développement pour la photographie numérique.

Actuellement, il n'y a aucun projet dans l'entreprise.

Alexey Tutubalin est membre de l'Union internationale des militants de l'Internet « EZHE », a remporté trois fois dans la catégorie « Chercheur de l'année » : au concours de réseau ROTOR 2006, au concours ROTOR++ 2007 et au concours ROTOR 2008, dans le cadre du Dans le cadre du mouvement "EZHE", il existe une galerie de personnalités éminentes du réseau, qui contient .

Entreprise partenaire

Spécialiste de la production d'applications informatiques, alliant les connaissances et les compétences d'un gestionnaire, d'un programmeur et d'un linguiste. Chez Ashmanov and Partners, il est responsable des technologies d'intelligence artificielle.

Diplômé de la Faculté de philologie de l'Université d'État de Moscou, Département de linguistique appliquée.

En 1996-1999, Kirill Zorkiy a travaillé comme chef du département de linguistique chez MediaLingva, produisant des dictionnaires MultiLex. Supervisé la préparation des données pour les dictionnaires électroniques, développé des morphologies informatiques de plusieurs langues.

De 1999 à 2001, Kirill a travaillé comme chef du département des projets de contenu chez Rambler, période pendant laquelle il a publié plusieurs dizaines de projets de contenu Rambler.

Depuis 2001, Kirill Zorkiy est employé et copropriétaire d'Ashmanov and Partners.

De 2001 à 2005, il a dirigé le projet Spamtest.

En 2005-2007 - chef du département antispam de Kaspersky Lab, chef du projet Kaspersky Antispam.

Actuellement, il est directeur technique de la société Nanosemantics.

Entreprise partenaire

Candidat en sciences physiques et mathématiques, l'un des meilleurs experts de Russie dans le développement de logiciels techniquement complexes, l'audit technique et la gestion de projets informatiques.

Diplômé de la Faculté de physique de l'Université d'État de Moscou, candidat en sciences physiques et mathématiques.

En 1996-1999, Dmitry était employé de la société MediaLingua et a participé au développement de la plupart des projets MediaLingua : dictionnaires électroniques, services de recherche, applications serveur, projets Internet, etc.

En 2000-2001, Dmitry Pashko a travaillé au sein de la holding Internet Rambler, d'abord en tant que chef du département des opérations, puis en tant que directeur technique. Durant cette période, sous sa direction, plus de 30 projets ont été développés, testés et publiés. En particulier, en 2000, Dmitry a dirigé le projet unique de jeux Internet « Quoi ? Où? Quand ? », dans lequel des équipes d’experts rivalisaient avec « l’esprit universel ».

Depuis 2001, employé et copropriétaire d'Ashmanov and Partners, a participé aux projets Spamtest, SeoRate, Semantic Mirror, ainsi qu'au développement des services web de l'entreprise.

Depuis 2013, il dirige le développement technologique d'Ashmanov and Partners. Participe aux projets filiales de l'entreprise liés à l'analyse Internet et à la protection des utilisateurs contre les informations indésirables.

Entreprise partenaire

Linguiste, lexicographe, spécialiste des technologies intellectuelles et de l'ergonomie des sites Web. Il travaille chez Ashmanov and Partners depuis sa création. Dirige actuellement le laboratoire d'analyse de recherche.

Il a travaillé comme rédacteur en chef de la production de Kommersant (alors un hebdomadaire). Développement du meilleur algorithme de césure pour la langue russe à ce jour. A écrit le dictionnaire anglais-russe « Christianisme ». Données préparées pour les dictionnaires MultiLex. Il était le rédacteur en chef du portail Rambler. Il a participé (et continue de participer) à la création de l'excellent site de vulgarisation scientifique Elementy.ru.

Depuis 2007, il travaille sur le projet AnalyseThis.ru - il s'agit de plus de 70 analyseurs automatiques qui évaluent la qualité des recherches en russe, anglais, chinois et vietnamien. Il a étudié le phénomène du spam de recherche et développé des méthodes pour le combattre. Gérer la préparation des données et le travail des linguistes pour le moteur de recherche vietnamien Wada.vn et le marché Wada.

En 2014-2015, elle a travaillé comme directrice du marketing et des communications externes chez Kribrum, où elle était responsable du développement des services.

Depuis 2015, il dirige l'agence de communication Ça Va Agency.

Depuis 2017, il est directeur général d'Ashmanov and Partners Saint-Pétersbourg.

Comment est-il écrit sur Internet ?

Mikhaïl Volovitch. Comment est-il écrit sur Internet ?


Dédié à Rambler

De nombreuses rédactions ont des « normes internes » – des ajouts écrits ou non aux règles habituelles d’orthographe et de ponctuation. Ils réglementent l'écriture de nouveaux mots, le placement des majuscules et des guillemets, ainsi que d'autres cas difficiles, et mettent en garde contre les erreurs courantes.

En 2001, j'ai moi-même dû établir et mettre en œuvre de telles normes internes au sein de la holding Rambler Internet. Mais hélas, les règles sont restées non écrites. Ce court article est une tentative de résumer l’expérience accumulée (mieux vaut tard que jamais). J'espère que cela sera utile à quelqu'un - y compris peut-être chez Rambler.

Et une dédicace personnelle, également liée à Rambler, à la mémoire de Sergei Brovtsyn, l'un des auditeurs les plus reconnaissants de mes recommandations.

Peu importe comment

La popularité et le succès commercial d'une ressource Internet dépendent de ses qualités « éditoriales » – ainsi que de la qualité en général – mais pas principalement. Peu de gens, lorsqu'ils visitent le site, prêtent attention à des petites choses telles que les fautes d'orthographe (surtout si elles ne sont pas trop grossières), les incohérences et une mauvaise conception.

Et pourtant le site d'une entreprise réputée, sur laquelle au milieu des mots rencontrer les traits d'union supplémentaires (traces de traits d'union manuels) n'ont plus l'air aussi solides. Je ne m'engage pas à le prouver, mais je suis personnellement sûr que le travail éditorial et tout simplement le bon goût sont payants partout, y compris sur Internet.

Internet, Internet, Internet

Commençons par le problème le plus urgent : après tout l'Internet ou l'Internet?

Dans le dictionnaire orthographique russe de 1999, il a été enregistré l'Internet; La pratique linguistique est également plus susceptible de jouer en son faveur, mais la tendance est clairement à « abaisser » la lettre. Par exemple, le journal Vedomosti (pour l'instant ?) écrit régulièrement l'Internet- mais la maison d'édition Kommersant a annoncé publiquement le passage à l'Internet; Même plus tôt, certaines ressources Internet le faisaient.

Les principaux arguments en faveur des lettres minuscules (« petites ») :

La langue russe a tendance à transformer les noms propres en noms communs, et avec l'Internet cela s'est déjà produit (comme cela s'est déjà produit avec photocopieur Et couche); l'Internet- rien de plus qu'un environnement de communication (options : « mode de diffusion », « culture de l'information »), au même titre que Téléphone, la télé ou presse.

Les principaux arguments en faveur des majuscules :

l'Internet reste encore le nom d'un objet unique, un nom propre - le même, par exemple, que Mars, Interpol ou talibans. Internet n'est pas qu'un « média » et encore moins un « moyen de diffusion » (mon oreille refuse de percevoir des expressions comme * rapport en ligne). Il s'agit d'un réseau informatique spécifique ; au cours des 10 dernières années, elle s'est beaucoup développée, mais a conservé son individualité, elle possède ses propres organes législatifs, ses infrastructures, etc. ; il n'est pas difficile d'imaginer un autre réseau informatique mondial, parallèle ou alternatif à Internet.

(D'ailleurs, en anglais l'Internet- presque toujours l'Internet, avec l'article défini, et il ne semble y avoir aucun débat sur la majuscule.)

Si les arguments des partisans l'Internet vous semble convaincant, ou vous avez simplement peur de prendre du retard dans la vie - écrivez l'Internet. Mais je crois toujours que l'Internet- nom propre. Je recommanderais donc :

  • l'Internet, indésirable * l'Internet;
  • Filet(quand il s'agit d'Internet), Le World Wide Web; Mais World Wide Web;
  • Runette, faux * Runette(cela ne peut certainement pas être considéré comme une « méthode de traduction »).

Cependant, dans des mots composés comme fournisseur d'accès Internet, bibliothèque en ligne mot l'Internet agit comme une définition. L'écrire dans de tels cas avec une majuscule est une erreur assez grave. Une autre erreur très courante consiste à écrire de telles formations en deux mots, sans trait d'union.

  • cyber café, Ressource Internet, Internet public et ainsi de suite.; faux * Ressource Internet, *Ressource Internet.

Mot l'Internet- ainsi que Interpol Avec talibans- devrait s'incliner s'il est seul. Écrit en lettres latines, l'Internet, Interpol, talibans, bien sûr, ils ne s’inclinent pas ; mais tous ces mots sont adoptés depuis longtemps par la langue russe, et il n'y a aucune raison de les écrire en latin.

  • sur Internet, les internautes, les internautes; faux * sur Internet, *les internautes; indésirable * sur Internet.

Navigateur, tag, hors ligne

Il existe de nombreux mots que l'on rencontre à chaque instant sur Internet, dans des orthographes très diverses, mais qui, jusqu'à tout récemment, ne figuraient pas dans les dictionnaires.

Beaucoup d'entre eux sont comme moi l'Internet- inclus dans le Dictionnaire orthographique russe en 1999, édité par V.V. Lopatin. Beaucoup d’autres ont été inclus dans les plus d’un millier et demi de mots ajoutés à la version électronique de ce dictionnaire depuis 1999.

  • navigateur, navigateur Internet(faux * navigateur, *la toile);
  • étiqueter, Balise HTML(faux * étiqueter), marque, de marque(faux * marque); cache, cache(faux * cache); table de hachage;
  • en ligne, en ligne Et en mode en ligne,en ligne; hors ligne, hors ligne; en mer, en mer(indésirable * en ligne, *hors ligne, *hors ligne, *en mer);
  • trafic(faux * trafic);
  • joueur, lecteur Internet(indésirable * joueur, bien que cette option soit enregistrée dans certains dictionnaires) ;
  • RP(faux * RP), Agence de relations publiques(ou Agence de relations publiques), RP, Homme des relations publiques;
  • agent immobilier(faux * agent immobilier, *agent immobilier; il y a dix ans, j'ai essayé de le réparer spécialiste de l'immobilier, mais il a gagné); distributeur(en même temps je me battais pour distributeur, mais aussi sans succès) ;
  • itinérance; Halloween; fin de semaine; bande sonore;
  • liste de prix(bien qu'il soit préférable d'utiliser un mot également emprunté, mais préalablement enraciné dans la langue russe liste de prix; faux * liste de prix); heure de grande écoute.

Le dictionnaire « dépasse » en quelque sorte la norme littéraire établie, en se concentrant par avance sur les changements que la Commission orthographique dirigée par V.V. Lopatin entend apporter à l'orthographe russe. De plus, quelque chose peut changer entre la version électronique actuelle et la nouvelle édition du dictionnaire. À proprement parler, il n’est pas nécessaire d’obéir à ses recommandations ; par exemple, dans Kommersant, ils écrivent systématiquement distributeur Et agent immobilier, UN joueur se produit pas moins fréquemment que joueur.

Cependant, s'il y a des « divergences », il me semble raisonnable d'écouter les recommandations du livre de référence orthographique le plus faisant autorité à ce jour.

CD-ROM, courrier électronique, Java

  • e-mail, e-mail", e-mail "om; équivalent russe, mieux que E-mail ou adresse e-mail, pas encore (mais si tu veux vraiment quelque chose de conversationnel, alors c'est mieux selon "savon" ou par email, comment * par email ou * par email);
  • CD ROM, CD ROM; CD, et si « en russe », alors CD;
  • Mot, dans Word(en écrivant * dans Word familièrement et donc inacceptable dans des textes décents) ; Exceller, à propos d'Excel, ...;
  • Applet Java(Nom de la langue Java en russe, ce n'est pas réglé, il vaut donc mieux l'écrire en latin).

L'essentiel est d'être cohérent

En fin de compte, ce qui compte, ce n'est pas Comment nous écrivons et quelle cohérence. Mot l'Internet Vous pouvez écrire avec une lettre majuscule ou avec une lettre minuscule (voir ci-dessus). Mais cela ne veut pas dire qu’il est possible de faire les deux. Nous devons prendre une décision et la suivre.

Quand sur une page d'écran (sur une page imprimée, Dieu merci, je n'ai pas eu à le faire), je vois deux nouvelles - une sur ben Laden Et Al-Quaïda, et l'autre à propos Ben Laden Et Al Qaïd(et on mentionne une ville palestinienne Ramallah, et dans l'autre Ramallah), - Je grimpe au mur.

C'est mauvais quand il y a des points à la fin des titres (voir ci-dessous) - mais c'est encore pire quand il y a parfois des points, parfois pas.

Vous pouvez inclure les signes de ponctuation suivants dans vos liens, ou vous ne pouvez pas les inclure - mais il vaut mieux ne pas faire ceci ou cela.

Décoration de texte

  • Non! - de gros volumes de texte non structurés.

La longueur maximale d'un paragraphe que je (l'utilisateur) suis prêt à lire à partir de l'écran est de 6 à 8, enfin, 10 lignes. Alors je vais quand même sauter : au mieux au paragraphe suivant, au pire au site suivant.

Il est également fortement conseillé de diviser le texte en petits fragments (chapitres) avec des titres séparés.

  • Non! - les sauts de ligne (
    ). Oui! - des paragraphes complets (

    Ou

    ).

Le HTML standard laisse très peu de choix au créateur du site : soit les paragraphes se suivent et se collent les uns aux autres, soit une ligne entière est sautée et le texte devient gonflé. De deux maux, le premier est bien pire. Les limites des paragraphes qui se succèdent sans espaces sont très mal visibles ; le texte semble indivis. Et si la dernière ligne d’un paragraphe est suffisamment longue, la bordure risque d’être complètement perdue.

  • Oui! — listes numérotées et non numérotées (listes à puces)

Vous devez simplement vous assurer que vous pouvez voir clairement où commence et se termine chaque élément. Dans ce cas, la liste est facile à parcourir, ce qui est très important lors de la lecture à l'écran.

  • Oui! — mettre en évidence les lieux importants en gras ou en italique (mais pas en quantité excessive). Non! - souligne les liens extérieurs.

C’est pratique quand l’œil a quelque chose à quoi s’accrocher ; cela vous aide à analyser rapidement le texte et à comprendre ce que vous devez y lire et ce que vous ne devriez pas lire – une qualité très précieuse pour Internet. Cependant, le soulignement est incorrect : il est réservé aux liens et toute autre utilisation risque de dérouter les visiteurs du site.

Lettres majuscules et points dans les titres.

Ce titre contient délibérément une erreur très courante sur Internet et très offensante dans un pays aux traditions culturelles si riches. Dans ce document (vous l'avez probablement remarqué), tous les mots commencent par des lettres majuscules.

C'est ainsi qu'il est d'usage de formater les titres non pas en russe, mais en anglais. (Et en anglais, il est d'usage d'écrire les jours de la semaine et les mois, les noms des peuples et leurs adjectifs en lettres majuscules. Et les virgules en anglais sont placées complètement différemment qu'en russe. Et les mots sont différents. Et même le des lettres... Et en allemand, en général, tous les noms sont écrits avec des majuscules.)

La tradition russe de conception de textes imprimés nécessite de mettre une seule lettre majuscule dans les titres - au début (plus les noms propres, etc.). Les titres ne diffèrent des phrases ordinaires que sur un point : il n'est pas d'usage de mettre un point à la fin des titres (ainsi que des légendes sous les photographies).

Yo

Internet est l'héritier de l'imprimé et non du texte écrit. Que ce soit bon ou mauvais, mettez les points dans le texte imprimé. e non accepté (sauf pour les dictionnaires, la littérature pédagogique, etc.). Un livre de chimie contenant e, semblerait indigne - et tout aussi indignes sont les sites où eça n'en vaut pas la peine e. (Par conséquent, avant de publier un document dans un livre ou sur Internet, il faut souvent faire un travail apparemment inutile et absurde : trouver le marqué e et remplacez-les par e.)

Bien entendu, les livres et les sites Web où e Parfois c’est marqué, parfois non, ils ont l’air encore plus indignes.

Toutefois, si les points ci-dessus e aider à clarifier le sens, résoudre l'homonymie ( j'ai tout fait - j'ai tout fait), il est néanmoins recommandé de les installer. Je pars habituellement e en un mot Tous, même lorsqu'on le confond avec Tous assez dur.

Citations et tirets

Lorsque je travaille dans Word, je mets toujours un tiret cadratin et presque toujours - des guillemets à chevrons, et dans le texte anglais - des guillemets en pied de page (j'ai désactivé la fonction de remplacement automatique de correction automatique, je le fais donc délibérément « à la main »). moi de formater les documents que je crée conformément aux normes du « livre », et les tirets et guillemets corrects en font partie intégrante.

Cependant, je dois m'assurer que dans mes documents et dans ceux des autres, les guillemets simples sont remplacés par des simples ("", ") et le tiret par un trait d'union régulier (-) avant leur publication sur le Web. C'est là que réside la sécurité Les considérations (compatibilité avec d’autres encodages et systèmes d’exploitation) sont plus importantes que la beauté.

Le fait est que le tiret - , citations d'arbres de Noël « » et pattes (doubles “ ” et célibataire ‘ ’ ) et quelques autres caractères (par exemple, le chiffre E, paragraphe § , ellipse , ppm , milieu , plus ou moins ± ), qui sont dans le codage « Windows » (Windows-1251), dans koi8-r et d'autres codages russes, dans lesquels l'utilisateur peut très bien les recevoir, manquent ou se trouvent aux mauvais endroits. Lors de la sortie de texte dans un codage autre que Windows-1251, ces caractères peuvent être déformés (les Cheburashkas commencent à s'exécuter dans le texte). Il est possible que vous voyiez dans ce paragraphe non pas les signes que j'ai évoqués ci-dessus, mais des icônes incompréhensibles ; sinon, vous avez sans doute vu de telles icônes sur d'autres sites.

Les caractères spéciaux comme - (tiret) et ‰ (ppm) ne sauvent pas la situation, car il n'y a tout simplement aucun signe correspondant dans koi8. Le plus beau moyen de sortir de cette situation est de publier des textes dans Windows-1251 et de configurer les programmes de sorte que lors du passage à koi, le tiret soit automatiquement remplacé par un trait d'union, le signe dièse soit remplacé par la lettre N, etc. Cela nécessite cependant une programmation particulière et n’est pas toujours possible. C’est donc à contrecœur que nous devons formuler la recommandation suivante.

  • Avant de publier du texte sur Internet, à moins que votre serveur ne dispose de mesures particulières pour l'affichage correct des « caractères spéciaux », vous devez remplacer tous les types de guillemets par des guillemets simples, un tiret par un trait d'union et un signe dièse par une lettre. N ou le mot « numéro », et ainsi de suite.

Et encore une fois à propos de Rambler

  • "Randonneur", sur Rambler; indésirable * Randonneur.

Rambler s'est choisi un nom russe au début des années 2000, il est inscrit dans son nom officiel (JSC Rambler Internet Holding). Randonneur ceux qui s'en souviennent depuis des temps très anciens continuent de l'appeler Rambler Stekovsky.

  • avec Internet holding "Rambler", hautement indésirable * avec Rambler Internet Holding!

Il se trouve qu'un nom pas tout à fait correct a été légalement inscrit (à qui cela n'arrive pas - regardez Ashmanov et partenaireségalement écrit à la manière anglaise avec deux majuscules). Ce nom officiel de Rambler peut et doit être utilisé comme citation, par exemple : chez OJSC (société) Rambler Internet Holding. Mais * chez Rambler Internet Holdingça a l'air monstrueux !

  • Top100 des randonneurs C’est ainsi qu’il faut l’écrire. Faux * Randonneur Top100, *Randonneur Top100, *Top 100, *Top 100 et ainsi de suite.

Remarques

Je cite Artemy Lebedev du site redactor.ru : « Il est à noter que la plupart des gens qui écrivent l'Internet avec une majuscule, ils ne déclinent souvent pas ce mot et y ajoutent la construction de « réseau informatique mondial international », qui est un exemple flagrant de pensée démodée. (