Moteur de recherche puissant. Moteurs de recherche Internet : revue des solutions existantes

Bonjour gars. Dites-moi combien de temps il vous faut pour rechercher des fichiers sur votre ordinateur. Je réfléchis beaucoup, et encore plus si vous gérez votre propre blog sur Internet ou si vous êtes simplement photographe. Dans ce cas, beaucoup de fichiers sont collectés un grand nombre de. Il existe plusieurs façons de trouver rapidement fichier requis. Par exemple, comme ça ou comme ça

C'est bien si vous savez avec certitude qu'ils sont là. Que se passe-t-il si vous recherchez le fichier dont vous avez besoin et savez avec certitude qu'il se trouve sur l'ordinateur, où et dans quel dossier ? Eh bien, la sclérose vient juste en visite. Et puis le programme FileSearchy nous aidera. Voir ses capacités.

C’est un excellent programme, je l’utilise souvent et je vous le recommande.

Elle ressemble à ça. Sur le côté gauche se trouve une barre de recherche où vous devez saisir le nom fichier perdu. Après cela, cliquez sur le bouton situé tout en bas de la fenêtre du programme.

Il ne s'écoulera même pas cinq secondes avant que le programme ne recherche tout disques durs et affichera tous les fichiers dont les noms contiennent le mot que vous avez saisi dans le moteur de recherche. Vous voyez à quel point le programme FileSearchy fonctionne rapidement, mais s'ils commençaient la recherche manuellement, ils ne rentreraient certainement pas dans le temps nécessaire au programme pour la terminer.

Nous recherchons donc tous les fichiers contenant une correspondance à notre demande. Et il peut y avoir beaucoup de fichiers contenant le même mot, et donc nous devrons quand même perdre une partie de notre temps. Dans ce cas, le programme nous propose une recherche avancée. C'est simplifié.

Rechercher des fichiers sur votre ordinateur par type

Si nous avons besoin de trouver uniquement des images, alors nous recherchons des images. Ne serait-ce que des dossiers, alors nous demandons au programme d'afficher uniquement les dossiers trouvés sous le nom que nous avons entré dans le moteur de recherche. En général, nous trions. Recherchez tous les fichiers, puis spécifiez Type de fichier, en cochant la case.

De cette façon, vous gagnerez encore plus de temps. FileSearchy peut reconnaître les types de fichiers tels que les images, l'audio, la vidéo, les documents, les programmes et les dossiers.

FileSearchy a également d'autres fonctionnalités. Par exemple, nous n'avons besoin que des fichiers du lecteur « D ». Sous la ligne de recherche, cochez la case à côté de l'élément "Dans l'annuaire". Nous rechercherons dans un endroit précis, et non dans toute la mémoire de l'ordinateur. Regardez l'image pour voir comment cela se fait.

À propos, le programme nous permet de sélectionner plusieurs endroits à rechercher à la fois. Autorisez-le sur le lecteur « E » et dans l’un des dossiers de n’importe quel autre lecteur.

Vous pouvez aussi exclure de la recherche certains répertoires (lecteurs ou dossiers). Cela signifie que si vous effectuez une recherche sur l'ensemble de l'ordinateur, les répertoires exclus de la recherche ne seront tout simplement pas analysés et n'apparaîtront pas dans les résultats de la recherche.

Veuillez noter que les dossiers et lecteurs qui ne sont pas analysés comportent un point d'exclamation avant la lettre du lecteur ou le nom du dossier.

Ainsi, en cliquant sur la flèche dans la recherche, nous saurons ce qui sera analysé et ce que le programme exclura de la recherche.

Eh bien, et quelques autres fonctionnalités de ce programme, que, en principe, j'utilise très rarement. Bien que dans certains cas, ils seront très utiles.

Rechercher des fichiers dans le contenu du document

Dans les paramètres de recherche, il y a un élément « Dans le contenu » Ce mode de recherche est plus lié à la recherche documents texte. Disons que vous avez oublié comment le document a été signé. Par exemple, nous avons téléchargé sur Internet un livre dont le titre était en anglais ou en translittération. Vous ne savez pas comment l’écrire correctement, mais rappelez-vous quels mots y ont été trouvés.

Et deux autres filtres pouvant être appliqués sont la recherche par date et par taille. Tout est clair ici.

La version que j'utilise.

Et qui ne veut pas installer le programme sur un ordinateur, il y a version portable programme similaire. Je dirai tout de suite qu'il n'est pas si attractif en termes d'interface, mais il a ses propres fonctionnalités intéressantes.

Vous pouvez le découvrir et le télécharger sur le site officiel http://www.voidtools.com

Il est utile de savoir :


Bonjour, chers lecteurs du site blog. , alors ses quelques utilisateurs en avaient assez de leurs propres signets. Cependant, comme vous vous en souvenez, cela s'est produit selon une progression géométrique et, très vite, il est devenu plus difficile de s'y retrouver dans toute sa diversité.

Puis sont apparus des répertoires (Yahoo, Dmoz et autres), dans lesquels leurs auteurs ajoutaient et triaient divers sites en catégories. Cela a immédiatement facilité la vie des utilisateurs du réseau mondial, alors encore peu nombreux. Beaucoup de ces catalogues sont encore vivants aujourd’hui.

Mais après un certain temps, la taille de leurs bases de données est devenue si grande que les développeurs ont d'abord pensé à créer une recherche à l'intérieur de celles-ci, puis à créer Système automatisé indexer tous les contenus Internet pour les rendre accessibles à tous.

Les principaux moteurs de recherche du segment russophone de l'Internet

Comme vous le comprenez, cette idée a été mise en œuvre avec un succès fulgurant, mais tout s'est toutefois bien passé uniquement pour une poignée d'entreprises sélectionnées qui ont réussi à ne pas disparaître sur Internet. Presque tous les moteurs de recherche apparus lors de la première vague ont désormais disparu, sont devenus obsolètes ou ont été rachetés par des concurrents plus performants.

Un moteur de recherche est un mécanisme très complexe et, surtout, très gourmand en ressources (il s'agit non seulement de ressources matérielles, mais aussi humaines). Derrière l'apparemment simple , ou son analogue ascétique de Google, se cachent des milliers d'employés, des centaines de milliers de serveurs et plusieurs milliards d'investissements qui sont nécessaires pour que ce colosse puisse continuer à fonctionner et rester compétitif.

Entrer sur ce marché maintenant et repartir de zéro relève plus d’une utopie que d’un véritable projet d’entreprise. Par exemple, l'une des sociétés les plus riches au monde, Microsoft, tente de prendre pied sur le marché de la recherche depuis des décennies, et ce n'est que maintenant que son moteur de recherche Bing commence lentement à répondre à ses attentes. Et avant cela, il y a eu toute une série d’échecs et de revers.

Que dire de l’entrée sur ce marché sans influence financière particulière. Par exemple, notre moteur de recherche national Nigma a dans son arsenal de nombreux éléments utiles et innovants, mais leur trafic est des milliers de fois inférieur à celui des leaders du marché russe. Par exemple, jetez un œil à l'audience quotidienne de Yandex :

À cet égard, nous pouvons supposer que la liste des principaux moteurs de recherche (les meilleurs et les plus chanceux) de Runet et de l'ensemble d'Internet a déjà été constituée et que toute l'intrigue réside uniquement dans qui finira par dévorer qui, ou comment leur part en pourcentage sera être distribués s’ils survivent tous et restent à flot.

Marché russe des moteurs de recherche est très clairement visible et ici, probablement, nous pouvons distinguer deux ou trois acteurs principaux et quelques acteurs mineurs. En général, une situation plutôt unique s'est développée sur RuNet, qui, si je comprends bien, ne s'est répétée que dans deux autres pays du monde.

Je parle du fait que le moteur de recherche Google, arrivé en Russie en 2004, n'a toujours pas réussi à prendre le leadership. En fait, ils ont essayé d'acheter Yandex à cette époque, mais quelque chose n'a pas fonctionné là-bas et maintenant « notre Russie », avec la République tchèque et la Chine, sont ces endroits où le tout-puissant Google, s'il n'est pas vaincu, alors, en en tout cas, se heurta à une sérieuse résistance.

En fait, pour voir l'état actuel des choses parmi les meilleurs moteurs de recherche Runette N’importe qui peut le faire. Il suffira de coller cette URL dans la barre d'adresse de votre navigateur :

Http://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

Le fait est que la plupart d’entre eux utilisent .

Après avoir entré l'URL donnée, vous verrez une image qui n'est pas très attrayante et présentable, mais qui reflète bien l'essence du problème. Faites attention aux cinq principaux moteurs de recherche à partir desquels les sites en russe reçoivent du trafic :

Oui, bien sûr, toutes les ressources proposant un contenu en russe ne se trouvent pas dans cette zone. Il y a aussi SU et RF, et des espaces communs Type COM or NET regorge de projets Internet axés sur Runet, mais l'échantillon est néanmoins assez représentatif.

Cette dépendance peut être présentée de manière plus colorée, comme par exemple quelqu'un l'a fait en ligne pour sa présentation :

Cela ne change rien à l'essence. Il y a quelques leaders et plusieurs moteurs de recherche très, très loin derrière. D’ailleurs, j’ai déjà écrit sur plusieurs d’entre eux. Parfois, il peut être très intéressant de se plonger dans l'histoire des succès ou, à l'inverse, d'approfondir les raisons des échecs de moteurs de recherche autrefois prometteurs.

Ainsi, par ordre d'importance pour la Russie et le Runet dans son ensemble, je vais les énumérer et leur donner de brèves caractéristiques :

    La recherche sur Google est déjà devenue un mot familier pour de nombreuses personnes sur la planète - vous pouvez en savoir plus sur le lien. Dans ce moteur de recherche, j'ai aimé l'option « traduction des résultats », lorsque vous receviez des réponses du monde entier, mais dans votre langue maternelle, mais maintenant, malheureusement, elle n'est pas disponible (du moins sur google.ru).

    Aussi dans Dernièrement Je suis également intrigué par la qualité de leur sortie (page de résultats du moteur de recherche). Personnellement, j'utilise toujours d'abord le moteur de recherche miroir RuNet (il y en a un là-bas, eh bien, j'y suis habitué) et seulement si je n'y trouve pas de réponse intelligible, je me tourne vers Google.

    Habituellement, leur sortie me rendait heureux, mais dernièrement, cela m'a seulement intrigué - parfois de telles absurdités ressortent. Il est possible que leur lutte pour augmenter leurs revenus avec publicité contextuelle et un remaniement constant des problèmes afin de discréditer Promotion du référencement peut conduire au résultat inverse. Quoi qu'il en soit, ce moteur de recherche a un concurrent sur RuNet, et quel genre de concurrent.

    Je pense qu'il est peu probable que quiconque aille spécifiquement sur Go.mail.ru pour effectuer une recherche dans RuNet. Par conséquent, le trafic vers des projets de divertissement provenant de ce moteur de recherche peut dépasser largement dix pour cent. Les propriétaires de tels projets doivent prêter attention à ce système.

Cependant, outre les leaders incontestés sur le marché des moteurs de recherche du segment russophone de l'Internet, il existe plusieurs autres acteurs dont la part est assez faible, mais le fait même de leur existence oblige néanmoins à dire quelques mots. à propos d'eux.

Moteurs de recherche Runet du deuxième échelon


Moteurs de recherche sur Internet

Dans l'ensemble, à l'échelle de l'ensemble de l'Internet, il n'y a qu'un seul acteur sérieux - Google. C'est le leader incontesté, mais il lui reste encore une certaine concurrence.

Tout d'abord, c'est toujours pareil Bing, qui, par exemple, occupe une très bonne position sur le marché américain, d'autant plus que son moteur est également utilisé sur tous les services Yahoo (près d'un tiers de l'ensemble du marché de recherche américain).

Eh bien, deuxièmement, en raison de la part énorme que représentent les utilisateurs chinois dans le nombre total d'utilisateurs Internet, leur principal moteur de recherche appelé Baidu se cale dans la répartition des places sur l’Olympe mondial. Il est né en 2000 et sa part représente désormais environ 80 % de l'ensemble du public national en Chine.

Il est difficile de dire quelque chose de plus intelligible sur Baidu, mais sur Internet, il existe des jugements selon lesquels les places dans son Top sont occupées non seulement par le plus pertinent à la demande sites, mais aussi ceux qui ont payé (directement au moteur de recherche, pas au bureau de référencement). Bien entendu, cela s’applique principalement aux annonces commerciales.

En général, en regardant les statistiques, il devient clair pourquoi Google accepte facilement de détériorer ses résultats de recherche en échange d'augmentation des bénéfices de la publicité contextuelle. En fait, ils n’ont pas peur du désabonnement des utilisateurs, car dans la plupart des cas, ils n’ont nulle part où aller. Cette situation est un peu triste, mais nous verrons ce qui se passera ensuite.

D'ailleurs, afin de rendre la vie encore plus difficile aux optimiseurs, et peut-être de préserver la tranquillité d'esprit des utilisateurs de ce moteur de recherche, Google récemment applique le cryptage lors de la transmission des requêtes du navigateur des utilisateurs à la chaîne de recherche. Bientôt, il ne sera plus possible de voir dans les statistiques des compteurs de visiteurs pour quelles requêtes les utilisateurs de Google s'adressent à vous.

Bien entendu, outre les moteurs de recherche mentionnés dans cette publication, il en existe des milliers d'autres - régionaux, spécialisés, exotiques, etc. Essayer de les énumérer et de les décrire tous dans un seul article serait impossible, et probablement pas nécessaire. Mieux vaut dire quelques mots sur comme il est facile de créer un moteur de recherche et combien il est facile et peu coûteux de le maintenir à jour.

La grande majorité des systèmes fonctionnent sur des principes similaires (lisez ceci et cela) et poursuivent le même objectif : donner aux utilisateurs une réponse à leur question. De plus, cette réponse doit être pertinente (correspondant à la question), complète et, ce qui n'est pas sans importance, pertinente (de première fraîcheur).

Résoudre ce problème n'est pas si facile, d'autant plus que le moteur de recherche devra analyser le contenu de milliards de pages Internet à la volée, éliminer celles qui sont inutiles et, à partir des autres, former une liste (problème), où le plus les réponses appropriées à la question de l'utilisateur apparaîtront en premier.

Cette tâche extrêmement complexe est résolue par la collecte préliminaire d'informations à partir de ces pages à l'aide de divers robots d'indexation. Ils collectent des liens à partir de pages déjà visitées et chargent leurs informations dans la base de données du moteur de recherche. Il existe des robots qui indexent du texte (un robot régulier et rapide qui vit de l'actualité et des ressources fréquemment mises à jour afin que les dernières données soient toujours présentées dans les résultats).

De plus, il existe des robots qui indexent les images (pour leur sortie ultérieure), des favicons, des miroirs de sites (pour leur comparaison ultérieure et leur éventuel collage), des robots qui vérifient la fonctionnalité des pages Internet, quelles utilisateurs ou via des outils pour les webmasters (ici vous peut lire, et) .

Le processus d'indexation lui-même et le processus ultérieur de mise à jour des bases de données d'indexation prennent beaucoup de temps. Bien que Google le fasse beaucoup plus rapidement que ses concurrents, du moins Yandex, ce qui prend une semaine ou deux pour le faire (lire à propos).

Généralement, le moteur de recherche divise le contenu textuel d'une page Internet en mots individuels, ce qui conduit à principes de base, afin que vous puissiez ensuite donner des réponses correctes aux questions posées sous différentes formes morphologiques. Tous les excédents de kit carrosserie sous la forme Balises HTML, espaces, etc. les choses sont supprimées, et les mots restants sont triés par ordre alphabétique et leur position dans ce document est indiquée à côté d'eux.

Ce genre de chose s'appelle un index inversé et vous permet de rechercher non pas par pages Web, mais par données structurées situées sur les serveurs des moteurs de recherche.

Le nombre de ces serveurs pour Yandex (qui recherche principalement uniquement des sites en langue russe et un peu en ukrainien et en turc) se compte en dizaines, voire en centaines de milliers, et pour Google (qui recherche dans des centaines de langues) - en millions. .

De nombreux serveurs disposent de copies, qui servent à la fois à accroître la sécurité des documents et à contribuer à augmenter la vitesse de traitement des demandes (en répartissant la charge). Estimez les coûts liés au maintien de l’ensemble de cette économie.

La demande de l'utilisateur sera envoyée par l'équilibreur de charge au segment de serveur actuellement le moins chargé. Ensuite, une analyse est effectuée de la région à partir de laquelle l'utilisateur du moteur de recherche a envoyé sa demande, et elle est analysée morphologiquement. Si une requête similaire a été récemment saisie dans la barre de recherche, l'utilisateur reçoit les données du cache afin de ne pas surcharger à nouveau les serveurs.

Si la requête n'a pas encore été mise en cache, elle est alors transférée vers la zone où se trouve la base de données d'index du moteur de recherche. En réponse, vous recevrez une liste de toutes les pages Internet qui sont au moins quelque peu liées à la demande. Non seulement les occurrences directes sont prises en compte, mais aussi d'autres formes morphologiques, etc. des choses.

Leur il faut classer et c’est à ce stade que l’algorithme (intelligence artificielle) entre en jeu. En effet, la demande de l'utilisateur se multiplie aux dépens de tout le monde options possibles son interprétation et les réponses à de nombreuses requêtes sont recherchées simultanément (grâce à l'utilisation d'opérateurs de langage de requête, dont certains sont accessibles aux utilisateurs ordinaires).

En règle générale, les résultats de recherche contiennent une page de chaque site (parfois plus). sont désormais très complexes et prennent en compte de nombreux facteurs. De plus, pour les corriger, on utilise des sites d'évaluation manuels, ce qui permet d'ajuster le fonctionnement de l'algorithme dans son ensemble.

En général, force est de constater que l’affaire est obscure. Nous pouvons en parler pendant longtemps, mais il est déjà clair que la satisfaction des utilisateurs avec un système de recherche est obtenue, oh, comme c'est difficile. Et il y aura toujours ceux qui n’aimeront pas quelque chose, comme vous et moi, chers lecteurs.

Bonne chance à toi! A bientôt sur les pages du site blog

Vous pouvez regarder plus de vidéos en allant sur
");">

Vous pourriez être intéressé

Yandex People - comment rechercher des personnes sur les réseaux sociaux Apomètre - service gratuit pour suivre les changements dans les résultats de recherche et les mises à jour des moteurs de recherche DuckDuckGo – un moteur de recherche qui ne vous suit pas
Comment vérifier la vitesse d'Internet - test en ligne connexions sur ordinateur et téléphone, SpeedTest, Yandex et autres compteurs
Images Yandex et Google, ainsi que recherche par fichier image dans Tineye (tinai) et Google

Qu'est-ce que c'est

DuckDuckGo est un moteur de recherche open source assez connu. code source. Les serveurs sont situés aux États-Unis. En plus de son propre robot, le moteur de recherche utilise les résultats provenant d'autres sources : Yahoo, Bing, Wikipedia.

Le meilleur

DuckDuckGo se positionne comme un moteur de recherche offrant une confidentialité et une confidentialité maximales. Le système ne collecte aucune donnée sur l'utilisateur, ne stocke pas de journaux (pas d'historique de recherche), utilise biscuits aussi limité que possible.

DuckDuckGo ne collecte pas informations personnelles utilisateurs et ne le partage pas. Ceci est notre politique de confidentialité.

Gabriel Weinberg, fondateur de DuckDuckGo

Pourquoi as-tu besoin de ça

Tous les principaux moteurs de recherche tentent de personnaliser les résultats de recherche en fonction des données relatives à la personne devant le moniteur. Ce phénomène est appelé « bulle de filtre » : l'utilisateur ne voit que les résultats qui correspondent à ses préférences ou que le système considère comme tels.

Forme une image objective qui ne dépend pas de votre comportement passé sur Internet et élimine les publicités thématiques Google et Yandex basées sur vos requêtes. Avec DuckDuckGo, il est facile de rechercher des informations dans des langues étrangères, tandis que Google et Yandex privilégient par défaut les sites en langue russe, même si la requête est saisie dans une autre langue.


Qu'est-ce que c'est

pas le Mal - un système qui recherche par réseau anonyme Tor. Pour l'utiliser, il faut se rendre sur ce réseau, par exemple en lançant un .

not Evil n'est pas le seul moteur de recherche de ce type. Il y a LOOK (recherche par défaut dans le navigateur Tor, accessible depuis Internet régulier) ou TORCH (l'un des moteurs de recherche les plus anciens du réseau Tor) et autres. Nous avons opté pour Not Evil en raison de l'indication claire de Google (il suffit de regarder la page de démarrage).

Le meilleur

Il recherche là où Google, Yandex et d'autres moteurs de recherche sont généralement fermés.

Pourquoi as-tu besoin de ça

Le réseau Tor contient de nombreuses ressources introuvables sur un Internet respectueux des lois. Et leur nombre va augmenter à mesure que le contrôle gouvernemental sur le contenu d’Internet se resserre. Tor est une sorte de réseau au sein d'Internet avec ses propres réseaux sociaux, trackers torrent, médias, plateformes de trading, blogs, bibliothèques, etc.

3. YaCy

Qu'est-ce que c'est

YaCy est un moteur de recherche décentralisé qui fonctionne sur le principe des réseaux P2P. Chaque ordinateur sur lequel le principal est installé module logiciel, analyse Internet de manière indépendante, c'est-à-dire qu'il s'agit d'un analogue robot de recherche. Les résultats obtenus sont rassemblés dans base commune, qui est utilisé par tous les membres YaCy.

Le meilleur

Il est difficile de dire si c'est mieux ou pire, car YaCy est une approche complètement différente de l'organisation de la recherche. L'absence d'un serveur unique et d'une société propriétaire rend les résultats totalement indépendants des préférences de chacun. L'autonomie de chaque nœud élimine la censure. YaCy est capable de rechercher sur le Web profond et les réseaux publics non indexés.

Pourquoi as-tu besoin de ça

Si vous êtes partisan des logiciels open source et d'un Internet libre, non soumis à l'influence des agences gouvernementales et des grandes entreprises, alors YaCy est votre choix. Il peut également être utilisé pour organiser une recherche au sein d’un réseau d’entreprise ou autre réseau autonome. Et même si YaCy n’est pas très utile dans la vie de tous les jours, il constitue une alternative intéressante à Google en termes de processus de recherche.

4. Pipl

Qu'est-ce que c'est

Pipl est un système conçu pour rechercher des informations sur une personne spécifique.

Le meilleur

Les auteurs de Pipl affirment que leurs algorithmes spécialisés effectuent des recherches plus efficaces que les moteurs de recherche « classiques ». La priorité est notamment donnée aux profils des réseaux sociaux, aux commentaires, aux listes de membres et aux diverses bases de données publiant des informations sur les personnes, telles que les bases de données de décisions de justice. Le leadership de Pipl dans ce domaine est confirmé par les évaluations de Lifehacker.com, TechCrunch et d'autres publications.

Pourquoi as-tu besoin de ça

Si vous avez besoin de trouver des informations sur une personne vivant aux États-Unis, Pipl vous sera beaucoup plus utile. plus efficace que Google. Les bases de données des tribunaux russes seraient apparemment inaccessibles au moteur de recherche. Par conséquent, il ne s’entend pas très bien avec les citoyens russes.

Qu'est-ce que c'est

FindSounds est un autre moteur de recherche spécialisé. Regarder dans sources ouvertes divers sons : maison, nature, voitures, gens, etc. Le service ne prend pas en charge les requêtes en russe, mais il existe une liste impressionnante de balises en russe que vous pouvez utiliser pour effectuer une recherche.

Le meilleur

La sortie ne contient que des sons et rien de plus. Dans les paramètres, vous pouvez définir le format et la qualité sonore souhaités. Tous les sons trouvés sont disponibles en téléchargement. Il y a une recherche par modèle.

Pourquoi as-tu besoin de ça

Si vous avez besoin de retrouver rapidement le son d'un coup de mousquet, les coups d'un pic allaitant ou le cri d'Homer Simpson, alors ce service est fait pour vous. Et nous l'avons choisi uniquement parmi les requêtes disponibles en russe. En anglais, le spectre est encore plus large.

Sérieusement, un service spécialisé nécessite un public spécialisé. Mais et si cela était également utile pour vous ?

Qu'est-ce que c'est

Wolfram|Alpha est un moteur de recherche informatique. Au lieu de liens vers des articles contenant mots clés, il apporte une réponse toute faite à la demande de l’utilisateur. Par exemple, si vous saisissez « comparer les populations de New York et de San Francisco » dans le formulaire de recherche en anglais, Wolfram|Alpha affichera immédiatement des tableaux et des graphiques avec la comparaison.

Le meilleur

Ce service est meilleur que d’autres pour trouver des faits et calculer des données. Wolfram|Alpha collecte et organise les connaissances disponibles sur le Web dans divers domaines, notamment la science, la culture et le divertissement. Si cette base de données contient une réponse toute faite à une requête de recherche, le système l'affiche ; sinon, il calcule et affiche le résultat. Dans ce cas, l'utilisateur ne voit rien de superflu.

Pourquoi as-tu besoin de ça

Si vous êtes étudiant, analyste, journaliste ou chercheur, par exemple, vous pouvez utiliser Wolfram|Alpha pour rechercher et calculer des données liées à votre travail. Le service ne comprend pas toutes les demandes, mais il évolue et devient constamment plus intelligent.

Qu'est-ce que c'est

Le métamoteur de recherche Dogpile affiche une liste combinée de résultats des moteurs de recherche Résultats Google, Yahoo et d'autres systèmes populaires.

Le meilleur

Premièrement, Dogpile affiche moins de publicités. Deuxièmement, le service utilise un algorithme spécial pour rechercher et afficher les meilleurs résultats de différents moteurs de recherche. Selon les développeurs de Dogpile, leurs systèmes génèrent les résultats de recherche les plus complets sur tout Internet.

Pourquoi as-tu besoin de ça

Si vous ne trouvez pas d'informations sur Google ou un autre moteur de recherche standard, recherchez-les simultanément dans plusieurs moteurs de recherche à l'aide de Dogpile.

Qu'est-ce que c'est

BoardReader est un système de recherche de texte dans les forums, les services de questions et réponses et d'autres communautés.

Le meilleur

Le service vous permet de restreindre votre champ de recherche aux plateformes sociales. Grâce à des filtres spéciaux, vous pouvez trouver rapidement les articles et commentaires correspondant à vos critères : langue, date de publication et nom du site.

Pourquoi as-tu besoin de ça

BoardReader peut être utile aux spécialistes des relations publiques et autres spécialistes des médias qui s'intéressent à l'opinion des masses sur certaines questions.

Enfin

La vie des moteurs de recherche alternatifs est souvent éphémère. Lifehacker a interrogé l'ancien directeur général de la branche ukrainienne de Yandex, Sergei Petrenko, sur les perspectives à long terme de tels projets.


Sergueï Petrenko

Ancien PDG"Yandex.Ukraine".

Quant au sort des moteurs de recherche alternatifs, il est simple : être des projets très niches avec une audience restreinte, donc sans perspectives commerciales claires ou, à l'inverse, avec une totale clarté sur leur absence.

Si vous regardez les exemples donnés dans l'article, vous constaterez que ces moteurs de recherche soit se spécialisent dans un créneau étroit mais populaire, qui, peut-être, n'a pas encore suffisamment grandi pour être visible sur les radars de Google ou de Yandex, soit ils testent une hypothèse originale en matière de classement, qui n'est pas encore applicable en recherche régulière.

Par exemple, si une recherche sur Tor s'avère soudainement demandée, c'est-à-dire que les résultats sont nécessaires à au moins un pourcentage de l'audience de Google, alors, bien sûr, les moteurs de recherche ordinaires commenceront à résoudre le problème de savoir comment trouvez-les et montrez-les à l’utilisateur. Si le comportement de l'audience montre que pour une proportion importante d'utilisateurs dans un nombre important de requêtes, les résultats donnés sans tenir compte des facteurs dépendant de l'utilisateur semblent plus pertinents, alors Yandex ou Google commenceront à produire de tels résultats.

« Être meilleur » dans le contexte de cet article ne signifie pas « être meilleur en tout ». Oui, à bien des égards, nos héros sont loin de Yandex (même loin de Bing). Mais chacun de ces services offre à l’utilisateur quelque chose que les géants de l’industrie de la recherche ne peuvent pas offrir. Vous connaissez sûrement aussi des projets similaires. Partagez avec nous - discutons-en.

Un moteur de recherche est une base de données de certaines informations sur Internet. De nombreux utilisateurs pensent que dès qu'ils saisissent une requête dans un moteur de recherche, l'ensemble d'Internet est immédiatement exploré, mais ce n'est pas du tout vrai. Internet est analysé en permanence par de nombreux programmes, les données sur les sites sont saisies dans une base de données, où certain critère tous les sites et toutes leurs pages sont répartis dans différents types de listes et de bases de données. C'est-à-dire qu'il s'agit d'une sorte de classeur de données, et la recherche n'a pas lieu sur Internet, mais sur ce classeur.

Google est le moteur de recherche le plus populaire au monde.

En plus du moteur de recherche, Google propose de nombreux services, programmes et matériel, dont un service de messagerie, le navigateur Google Chrome, la plus grande bibliothèque de vidéos YouTube et bien d'autres projets. Google achète en toute confiance de nombreux projets qui génèrent d'importants bénéfices. La plupart des services ne sont pas destinés à l'utilisateur direct, mais à gagner de l'argent sur Internet et sont intégrés en mettant l'accent sur les intérêts des utilisateurs européens et américains.

Mail est un moteur de recherche populaire principalement en raison de son service de messagerie.

Il existe de nombreux services supplémentaires, dont la clé est Mail, sur ce moment La société de messagerie possède le réseau social Odnoklassniki, propre réseau« My World », service Money-mail, de nombreux jeux en ligne, trois navigateurs presque identiques avec des noms différents. Toutes les applications et services contiennent de nombreux contenus publicitaires. Le réseau social VKonatkte bloque les transitions directes vers Services de messagerie, aggravant gros montant virus.

Wikipédia.

Wikipédia est un système de référence de recherche.

Le moteur de recherche à but non lucratif, qui fonctionne grâce à des dons privés, ne remplit donc pas ses pages de publicité. Un projet multilingue dont le but est de créer une encyclopédie complète de référence dans toutes les langues du monde. Il n'a pas d'auteurs spécifiques et est alimenté et géré par des bénévoles du monde entier. Chaque utilisateur peut à la fois rédiger et modifier un article.

Page Officielle- www.wikipedia.org.

Youtube est la plus grande bibliothèque de fichiers vidéo.

Hébergement vidéo avec des éléments d'un réseau social, où chaque utilisateur peut ajouter une vidéo. Dès l'achat par Google Ink, une inscription séparée pour YouTube n'est pas requise, il suffit de vous inscrire dans le service de messagerie Google.

Page officielle - youtube.com.

Yahoo! est le deuxième moteur de recherche le plus important au monde.

Disponible des services supplémentaires, dont le plus célèbre est Yahoo Mail. Dans le cadre de l'amélioration de la qualité du moteur de recherche, Yahoo transfère les données sur les utilisateurs et leurs requêtes à Microsoft. À partir de ces données, une idée des intérêts des utilisateurs se forme et un marché du contenu publicitaire se forme. Le moteur de recherche Yahoo, comme , est engagé dans l'acquisition d'autres sociétés, par exemple Yahoo appartient à service de recherche Altavista et site internet commerce électronique Alibaba.

Page officielle - www.yahoo.com.

WDL est une bibliothèque numérique.

La bibliothèque rassemble des livres de valeur culturelle dans forme numérique. L'objectif principal est d'augmenter le niveau de contenu culturel d'Internet. L'accès à la bibliothèque est gratuit.

Page officielle - www.wdl.org/ru/.

Bing est un moteur de recherche de Microsoft.

Page officielle - www.baidu.com.

Moteurs de recherche en Russie

Rambler est un moteur de recherche « pro-américain ».

Initialement, il a été créé comme un portail multimédia Internet. Comme beaucoup d'autres moteurs de recherche, il propose des services de recherche d'images, de fichiers vidéo, de cartes, de prévisions météorologiques, une section d'actualités et bien plus encore. Les éditeurs proposent également un navigateur gratuit, Rambler-Nichrome.

Page officielle - www.rambler.ru.

Nigma est un moteur de recherche intelligent.

Un moteur de recherche plus pratique grâce à la présence de nombreux filtres et paramètres. L'interface vous permet d'inclure ou d'exclure les valeurs similaires suggérées dans la recherche pour obtenir de meilleurs résultats. De plus, lorsque vous recevez un résultat de recherche, cela vous permet d'utiliser des informations provenant d'autres moteurs de recherche majeurs.

Page officielle - www.nigma.ru.

Aport - catalogue de produits en ligne.

Dans le passé, c'était un moteur de recherche, mais après l'arrêt du développement et de l'innovation, il a rapidement perdu du terrain et . DANS actuellement L'aéroport est Plateforme d'échanges, où sont présentés les produits de plus de 1 500 entreprises.

Page officielle - www.aport.ru.

Spoutnik est un moteur de recherche national et un portail Internet.

Créé par Rostelecom. Actuellement en phase de test.

Page officielle - www.sputnik.ru.

Metabot est un moteur de recherche en pleine croissance.

Les tâches de Metabot consistent à créer un moteur de recherche pour tous les autres moteurs de recherche, en créant des positions de résultats en tenant compte des données de la liste complète des moteurs de recherche. Autrement dit, c'est un moteur de recherche pour les moteurs de recherche.

Page officielle - www.metabot.ru.

Le moteur de recherche a été suspendu.

Page officielle - www.turtle.ru.

KM est un multiportail.

Initialement, le site était un multiportail avec l'introduction ultérieure d'un moteur de recherche. La recherche peut être effectuée à la fois au sein du site et sur tous les sites RuNet surveillés.

Page officielle - www.km.ru.

Gogo - ne fonctionne pas, redirige vers un moteur de recherche.

Page officielle - www.gogo.ru.

Le multiportail russe, peu populaire, demande à être amélioré. Le moteur de recherche comprend des actualités, de la télévision, des jeux et une carte.

Page officielle - www.zoneru.org.

Le moteur de recherche ne fonctionne pas, les développeurs suggèrent d'utiliser le moteur de recherche.

Ils font depuis longtemps partie intégrante Internet russe. Les moteurs de recherche sont désormais des mécanismes énormes et complexes qui représentent non seulement un outil de recherche d'informations, mais aussi des domaines d'activité tentants.

La plupart des utilisateurs des moteurs de recherche n'ont jamais réfléchi (ou n'y ont pensé, mais n'ont pas trouvé de réponse) au principe de fonctionnement des moteurs de recherche, au schéma de traitement des demandes des utilisateurs, en quoi consistent ces systèmes et comment ils fonctionnent...

Cette master class est conçue pour répondre à la question du fonctionnement des moteurs de recherche. Cependant, vous ne trouverez pas ici de facteurs qui influencent le classement des documents. Et plus encore, il ne faut pas compter sur explication détaillée Algorithme Yandex. Selon Ilya Segalovich, directeur de la technologie et du développement du moteur de recherche Yandex, il ne peut être reconnu "sous la torture" que par Ilya Segalovich lui-même...

2. Concept et fonctions d'un moteur de recherche

Un système de recherche est un complexe logiciel et matériel conçu pour effectuer des recherches sur Internet et répondre à une demande d'utilisateur, spécifiée sous la forme d'une phrase textuelle (requête de recherche), en produisant une liste de liens vers des sources d'informations, par ordre de pertinence ( conformément à la demande). Les plus grands moteurs de recherche internationaux : "Google", Yahoo , MSN . Sur Internet russe, il s'agit de Yandex, Rambler, Aport.

Examinons de plus près le concept de requête de recherche en utilisant le moteur de recherche Yandex comme exemple. La requête de recherche doit être formulée par l'utilisateur en fonction de ce qu'il souhaite trouver, de la manière la plus brève et la plus simple possible. Disons que nous voulons trouver des informations dans Yandex sur la façon de choisir une voiture. Pour ce faire, ouvrez la page principale de Yandex et saisissez le texte de la requête de recherche « comment choisir une voiture ». Ensuite, notre tâche consiste à ouvrir les liens fournis à notre demande vers des sources d'informations sur Internet. Cependant, il est fort possible que nous ne trouvions pas les informations dont nous avons besoin. Si cela se produit, soit vous devez reformuler votre demande, soit la base de données du moteur de recherche ne dispose vraiment d'aucune information pertinente sur notre demande (cela peut arriver lorsque vous posez des requêtes très « étroites », comme par exemple « comment choisir une voiture à Arkhangelsk »)

L’objectif principal de tout moteur de recherche est de fournir aux internautes exactement les informations qu’ils recherchent. Et apprendre aux utilisateurs à faire des requêtes « correctes » au système, c'est-à-dire les requêtes respectant les principes de fonctionnement des moteurs de recherche sont impossibles. Par conséquent, les développeurs créent des algorithmes et des principes de fonctionnement pour les moteurs de recherche qui permettraient aux utilisateurs de trouver les informations qu'ils recherchent.

Cela signifie que le moteur de recherche doit « penser » de la même manière que l’utilisateur pense lorsqu’il recherche des informations. Lorsqu'un utilisateur fait une requête à un moteur de recherche, il souhaite trouver ce dont il a besoin le plus rapidement et le plus facilement possible. En recevant le résultat, il évalue les performances du système, guidé par plusieurs paramètres de base. A-t-il trouvé ce qu'il cherchait ? S’il ne l’a pas trouvé, combien de fois a-t-il dû reformuler la requête pour trouver ce qu’il cherchait ? Quelle quantité d’informations pertinentes pourrait-il trouver ? À quelle vitesse le moteur de recherche a-t-il traité la demande ? Dans quelle mesure les résultats de recherche ont-ils été présentés ? Le résultat que vous recherchiez était-il le premier ou le centième ? Combien déchets inutiles a été trouvé à égalité avec informations utiles? Les informations nécessaires seront-elles trouvées en accédant à un moteur de recherche, disons, dans une semaine ou dans un mois ?

Afin de répondre à toutes ces questions avec des réponses, les développeurs moteurs de recherche Ils améliorent constamment les algorithmes et les principes de recherche, ajoutent de nouvelles fonctions et capacités et tentent par tous les moyens d'accélérer le fonctionnement du système.

3. Principales caractéristiques d'un moteur de recherche

Décrivons les principales caractéristiques des moteurs de recherche :

  • exhaustivité

    L'exhaustivité est l'une des principales caractéristiques d'un système de recherche, c'est-à-dire le rapport entre le nombre de documents trouvés sur demande et le nombre total de documents sur Internet qui satisfont cette demande. Par exemple, s'il y a 100 pages sur Internet contenant l'expression « comment choisir une voiture » et que seulement 60 d'entre elles ont été trouvées pour la requête correspondante, alors l'exhaustivité de la recherche sera de 0,6. Évidemment, quoi recherche plus complète, moins il est probable que l'utilisateur ne trouve pas le document dont il a besoin, à condition qu'il existe sur Internet.

  • Précision

    La précision est une autre caractéristique principale d'un moteur de recherche, qui est déterminée par le degré avec lequel les documents trouvés correspondent à la requête de l'utilisateur. Par exemple, si la requête « comment choisir une voiture » contient 100 documents, 50 d'entre eux contiennent l'expression « comment choisir une voiture », et le reste contient simplement ces mots (« comment choisir la bonne radio et l'installer dans une voiture »), alors la précision de la recherche est considérée comme égale à 50/100 (=0,5). Comment recherche plus précise, ceux utilisateur plus rapide trouvera les documents dont il a besoin, moins on trouvera parmi eux de « déchets » divers, moins souvent les documents trouvés ne correspondront pas à la demande.

  • Pertinence

    La pertinence est un élément tout aussi important de la recherche, qui se caractérise par le temps qui s'écoule entre le moment où les documents sont publiés sur Internet jusqu'à leur saisie dans la base de données d'index du moteur de recherche. Par exemple, le lendemain de l’apparition d’une nouvelle intéressante, un grand nombre d’utilisateurs se sont tournés vers les moteurs de recherche avec des requêtes pertinentes. Objectivement, moins d'un jour s'est écoulé depuis la publication d'informations d'actualité sur ce sujet, mais les principaux documents ont déjà été indexés et disponibles pour la recherche, grâce à l'existence de la « base de données rapide » des grands moteurs de recherche, qui est mis à jour plusieurs fois par jour.

  • Vitesse de recherche

    La vitesse de recherche est étroitement liée à sa résistance à la charge. Par exemple, selon Rambler Internet Holding LLC, aujourd'hui, pendant les heures de bureau, le moteur de recherche Rambler reçoit environ 60 requêtes par seconde. Une telle charge de travail nécessite de réduire le temps de traitement d'une demande individuelle. Ici, les intérêts de l'utilisateur et du moteur de recherche coïncident : le visiteur souhaite obtenir des résultats le plus rapidement possible, et le moteur de recherche doit traiter la demande le plus rapidement possible, afin de ne pas ralentir le calcul des requêtes ultérieures.

  • Visibilité

4. Histoire courte développement de moteur de recherche

Au cours de la période initiale de développement d'Internet, le nombre de ses utilisateurs était faible et le volume informations disponibles relativement petit. Pour la plupart, seul le personnel de recherche avait accès à Internet. À cette époque, la tâche de recherche d’informations sur Internet n’était pas aussi urgente qu’aujourd’hui.

L'un des premiers moyens d'organiser l'accès à ressources d'informations Le réseau a commencé à créer des répertoires ouverts de sites, des liens vers des ressources dans lesquels étaient regroupés par sujet. Le premier projet de ce type était le site Web Yahoo.com, ouvert au printemps 1994. Après que le nombre de sites dans l'annuaire ait considérablement augmenté, une fonction de recherche a été ajoutée information nécessaire selon le catalogue. Au sens plein, il ne s'agissait pas encore d'un moteur de recherche, puisque la zone de recherche se limitait aux seules ressources présentes dans le catalogue, et non à toutes les ressources Internet.

Les répertoires de liens étaient largement utilisés dans le passé, mais ils ont presque complètement perdu de leur popularité à l'heure actuelle. Étant donné que même les catalogues modernes, au volume énorme, ne contiennent des informations que sur une partie négligeable d'Internet. Le plus grand répertoire du réseau DMOZ (également appelé Open Directory Project) contient des informations sur 5 millions de ressources, tandis que la base de données de recherche Systèmes Google se compose de plus de 8 milliards de documents.

En 1995, apparaissent les moteurs de recherche Lycos et AltaVista. Ce dernier est leader dans le domaine de la recherche d’informations sur Internet depuis de nombreuses années.

En 1997, Sergey Brin et Larry Page créent le moteur de recherche Google dans le cadre de projet de rechercheà l'Université de Stanford. Dans le présent Instant Google- le moteur de recherche le plus populaire au monde !

En septembre 1997, le moteur de recherche Yandex, le plus populaire sur Internet en langue russe, a été officiellement annoncé.

Actuellement, il existe trois principaux moteurs de recherche (internationaux) - Google, Yahoo et, qui disposent de leurs propres bases de données et algorithmes de recherche. La plupart des autres moteurs de recherche (qui sont très nombreux) utilisent sous une forme ou une autre les résultats des trois répertoriés. Par exemple, la recherche AOL (search.aol.com) utilise la base de données Google, tandis qu'AltaVista, Lycos et AllTheWeb utilisent la base de données Yahoo.

5. Composition et principes de fonctionnement du système de recherche

En Russie, le principal moteur de recherche est Yandex, suivi de Rambler.ru, Google.ru, Aport.ru, Mail.ru. De plus, Mail.ru utilise actuellement le moteur de recherche et la base de données Yandex.

Presque tous les principaux moteurs de recherche ont leur propre structure, différente des autres. Il est cependant possible d’identifier les principales composantes communes à tous les moteurs de recherche. Les différences de structure ne peuvent prendre la forme que de la mise en œuvre des mécanismes d'interaction de ces composants.

Module d'indexation

Le module d'indexation se compose de trois programmes auxiliaires (robots) :

Spider est un programme conçu pour télécharger des pages Web. L'araignée télécharge la page et récupère tous les liens internes de cette page. Le code html de chaque page est téléchargé. Les robots utilisent pour télécharger des pages Protocoles HTTP. L'araignée fonctionne comme suit. Le robot envoie la requête « get/path/document » et quelques autres commandes de requête HTTP au serveur. En réponse, le robot reçoit un flux de texte contenant des informations sur le service et le document lui-même.

  • L'URL de la page
  • date à laquelle la page a été téléchargée
  • En-tête http de réponse du serveur
  • corps de la page (code html)

Crawler (« araignée voyageuse ») est un programme qui suit automatiquement tous les liens trouvés sur la page. Sélectionne tous les liens présents sur la page. Son travail consiste à déterminer où l'araignée doit aller ensuite, sur la base de liens ou d'une liste d'adresses prédéterminée. Crawler, en suivant les liens trouvés, recherche de nouveaux documents encore inconnus du moteur de recherche.

Indexer (robot indexeur) est un programme qui analyse les pages Web téléchargées par les araignées. L'indexeur analyse la page en ses composants et les analyse à l'aide de ses propres algorithmes lexicaux et morphologiques. Sont soumis à analyse divers éléments pages, telles que le texte, les titres, les liens, les caractéristiques structurelles et de style, les balises HTML de service spécial, etc.

Ainsi, le module d'indexation permet d'explorer un ensemble donné de ressources à l'aide de liens, de télécharger les pages rencontrées, d'extraire des liens vers de nouvelles pages à partir des documents reçus et d'effectuer une analyse complète de ces documents.

Base de données

Une base de données, ou index d'un moteur de recherche, est un système de stockage de données, un tableau d'informations dans lequel sont stockés les paramètres spécialement convertis de tous les documents téléchargés et traités par le module d'indexation.

Serveur de recherche

Le serveur de recherche est l'élément le plus important l'ensemble du système, puisque la qualité et la rapidité de la recherche dépendent directement des algorithmes qui sous-tendent son fonctionnement.

Le serveur de recherche fonctionne comme suit :

  • La demande reçue de l'utilisateur est soumise à une analyse morphologique. Généré environnement informationnel chaque document contenu dans la base de données (qui sera ensuite affiché sous la forme, c'est-à-dire correspondant à la demande informations textuelles sur la page des résultats de recherche).
  • Les données reçues sont transmises comme paramètres d'entrée à un module de classement spécial. Les données sont traitées pour tous les documents, de sorte que chaque document dispose de sa propre notation qui caractérise la pertinence de la requête saisie par l'utilisateur et les différents éléments de ce document stockés dans l'index du moteur de recherche.
  • Selon le choix de l'utilisateur, cette note pourra être ajustée conditions additionnelles(par exemple, ce qu'on appelle la « recherche avancée »).
  • Ensuite, un extrait est généré, c'est-à-dire que pour chaque document trouvé, le titre, un court résumé qui correspond le mieux à la requête et un lien vers le document lui-même sont extraits de la table des documents, et les mots trouvés sont mis en surbrillance.
  • Les résultats de recherche résultants sont transmis à l’utilisateur sous la forme d’une SERP (Search Engine Result Page) – une page de résultats de recherche.

Comme vous pouvez le constater, tous ces composants sont étroitement liés les uns aux autres et fonctionnent en interaction, formant un mécanisme clair et plutôt complexe pour le fonctionnement du système de recherche, qui nécessite d'énormes quantités de ressources.

6. Conclusion

Résumons maintenant tout ce qui précède.

  • L’objectif principal de tout moteur de recherche est de fournir aux internautes exactement les informations qu’ils recherchent.
  • Principales caractéristiques des moteurs de recherche :
    1. exhaustivité
    2. Précision
    3. Pertinence
    4. Vitesse de recherche
    5. Visibilité
  • Le premier moteur de recherche à part entière fut le projet WebCrawler, publié en 1994.
  • Le système de recherche comprend les composants suivants :
    1. Module d'indexation
    2. Base de données
    3. Serveur de recherche

Nous espérons que notre master class vous permettra de vous familiariser davantage avec le concept de moteur de recherche et de mieux comprendre les principales fonctions, caractéristiques et principes de fonctionnement des moteurs de recherche.