Serveurs de recherche Internet. Moteurs de recherche

Les meilleurs moteurs de recherche Internet. Moteur de recherche Internet Il s'agit de programmes de recherche spéciaux installés sur toute une gamme de machines spécialisées. En termes simples, il s'agit du même site Web avec un ensemble de programmes, uniquement sur un moteur de recherche spécial (serveur). C'est à l'aide des moteurs de recherche que vous trouvez toutes les informations dont vous avez besoin. Il existe de nombreux moteurs de recherche.

1. Qu'est-ce qu'un moteur de recherche Internet

2. Moteurs de recherche populaires dans notre pays

3. Moteurs de recherche populaires à l’étranger

4. Moteurs de recherche inhabituels

5. Comment rechercher correctement des informations sur Internet

Le plus meilleur psystèmes de recherche dans notre pays:

http://www.yandex.ru

http://www.google.com

http://www.aport.ru

http://www.rambler.ru/

http://go.mail.ru

http://www.webalta.ru/

Le moteur de recherche le plus mal-aimé et le plus intrusif de tous.

Moteurs de recherche populaires à l’étranger

http://www.altavista.com

http://www.alltheweb.com

http://www. bing.com

http://www.google.com
http://www.excite.com
http://www.lycos.com
http://www.mamma.com

http://www.yahoo.com

http://www.dmoz.com
http://www.hotbot.com
http://www.dogpile.com
http://www.netscape.com
http://www.msn.com
http://www.webcrawler.com
http://www.jayde.com
http://www.aol.com
http://www.euroseek.com
http://www.teoma.com
http://www.about.com
http://www.ixquick.com
http://www.lookle.com
http://www.metaeureka.com
http://www.searchspot.com
http://www.slider.com
http://www.allthesites.com
http://www.clickey.com
http://www.galaxy.com
http://brainysearch.com
http://www.orura.com

Chaque pays possède ses propres moteurs de recherche populaires.

Des moteurs de recherche inhabituels

  • CanardCanardAller (https://duckduckgo.com/) - un moteur de recherche hybride avec une politique de confidentialité pour l'utilisateur et ses requêtes de recherche.

  • Oeil d'étain (http://tineye.com/) est un moteur de recherche spécialisé dans la recherche d'images sur Internet. Il a récemment perdu de sa pertinence après que Google ait introduit la même fonction dans sa recherche d'images.

  • Guenon (http://www.genon.ru/) est un moteur de recherche qui collecte et crée du contenu sur son site Web.

Dans presque tous les moteurs de recherche, en plus du champ de recherche, il existe liens aux sites d'information les plus populaires et aux sites sur certains sujets.

Comment rechercher correctement des informations sur Internet

Chaque moteur de recherche possède ses propres algorithmes (règles) pour rechercher des informations.

Afin de trouver des informations sur Internet via un moteur de recherche, vous devez saisir dans le champ de recherche demande. Si vous saisissez un mot, alors cette requête vous donnera des milliers de liens vers des sites où ce mot est mentionné.

Par conséquent, il est nécessaire de saisir une requête aussi précise que possible, composée de deux, trois phrases ou plus.

Regardons un exemple de requête sur un moteur de recherche Yandex.

Disons que vous souhaitez trouver des informations sur l'achat d'un ordinateur. Si vous écrivez un mot dans le champ de recherche « Ordinateur", alors vous obtiendrez 133 millions de réponses

Vous devez poser une demande plus précise. Il est préférable d'indiquer quel ordinateur vous souhaitez acheter et où (dans quelle ville).

Le moteur de recherche vous donnera alors beaucoup moins de réponses à votre requête.

Le moteur de recherche ne se soucie pas du tout de savoir si vous saisissez votre requête en majuscules ou en minuscules.

Yandex fait la distinction entre les noms et les adjectifs, mais ignore complètement les terminaisons.

Il est également complètement indifférent aux cas, aux pluriels, etc.

Pour rendre la recherche plus précise, vous devez mettre la requête entre guillemets ou mettre un point d'exclamation devant le mot.

Regardez maintenant la même requête, mais sans les points d'exclamation.

Voyez-vous la différence? Avec des points d'exclamation, le nombre de réponses n'est pas de 2 millions, mais de 186 mille.

Si vous placez un point d'exclamation devant un mot avec une majuscule, vous recevrez des réponses dans lesquelles ce mot particulier avec une majuscule apparaît.

Si le mot est au nominatif et que vous avez besoin d'informations sur exactement un tel mot, et exactement tel que vous l'avez écrit, placez deux points d'exclamation devant ce mot. Par exemple: !!Balle .

La recherche vous donnera des réponses pour exactement ce mot " Balle" comme tu l'as écrit. Pas " balle", Pas " des balles", et avec une majuscule.

Si vous écrivez une phrase avec le mot " sur", alors Yandex ignorera " sur" Par exemple: " sur l'étagère" La recherche s'effectuera uniquement à l'aide du mot " étagère ».

Pour qu’il en tienne compte et ne l’ignore pas, il faut devant le mot « sur» mettez un signe plus – « +sur ».

Chaque moteur de recherche possède son propre algorithme de recherche, donc si vous utilisez un moteur de recherche spécifique et souhaitez apprendre à rédiger correctement des requêtes, il vous suffit alors de taper « règles de recherche dansGoogle " ou " règles de recherche dans Yandex ", suivez le lien vers la réponse à votre demande et lisez les informations nécessaires.

La recherche professionnelle sur Internet nécessite des logiciels spécialisés, ainsi que des moteurs et des services de recherche spécialisés.

PROGRAMMES

http://dr-watson.wix.com/home – le programme est conçu pour étudier des tableaux d'informations textuelles afin d'identifier les entités et les connexions entre elles. Le résultat des travaux est un rapport sur l'objet étudié.

http://www.fmsasg.com/ - l'un des meilleurs programmes au monde pour visualiser les connexions et les relations Sentinel Vizualizer. L'entreprise a complètement russifié ses produits et connecté une hotline en russe.

http://www.newprosoft.com/ – « Web Content Extractor » est le logiciel le plus puissant et le plus facile à utiliser pour extraire des données de sites Web. Il dispose également d’une araignée Visual Web efficace.

SiteSputnik un progiciel sans équivalent dans le monde, permettant de rechercher et de traiter ses résultats sur l'Internet Visible et Invisible, en utilisant tous les moteurs de recherche nécessaires à l'utilisateur.

WebSite-Watcher – vous permet de surveiller les pages Web, y compris celles protégées par mot de passe, de surveiller les forums, les flux RSS, les groupes de discussion et les fichiers locaux. Dispose d'un système de filtrage puissant. La surveillance est effectuée automatiquement et est fournie sous une forme conviviale. Un programme avec des fonctions avancées coûte 50 euros. Constamment mis à jour.

http://www.scribd.com/ est la plateforme la plus populaire au monde et de plus en plus utilisée en Russie pour publier divers types de documents, livres, etc. en accès libre avec un moteur de recherche très pratique de titres, sujets, etc.

http://www.atlasti.com/ est l'outil le plus puissant et le plus efficace d'analyse d'informations qualitatives disponible pour les utilisateurs individuels, les petites et même les moyennes entreprises. Le programme est multifonctionnel et donc utile. Il combine la capacité de créer un environnement d'information unifié pour travailler avec divers fichiers texte, tabulaires, audio et vidéo dans un tout, ainsi que des outils d'analyse qualitative et de visualisation.

Ashampoo ClipFinder HD – une part toujours croissante du flux d'informations provient de la vidéo. Les agents de veille concurrentielle ont donc besoin d’outils leur permettant de travailler avec ce format. L'un de ces produits est l'utilitaire gratuit que nous présentons. Il vous permet de rechercher des vidéos en fonction de critères spécifiés sur des sites de stockage de fichiers vidéo tels que YouTube. Le programme est facile à utiliser, affiche tous les résultats de recherche sur une seule page avec des informations détaillées, les titres, la durée, l'heure à laquelle la vidéo a été téléchargée sur le stockage, etc. Il existe une interface russe.

http://www.advego.ru/plagiatus/ – le programme a été créé par des optimiseurs de référencement, mais il convient tout à fait comme outil d'intelligence Internet. Le plagiat montre le degré d'unicité du texte, les sources du texte et le pourcentage de correspondance du texte. Le programme vérifie également le caractère unique de l'URL spécifiée. Le programme est gratuit.

http://neiron.ru/toolbar/ – comprend un module complémentaire pour combiner la recherche Google et Yandex, et permet également une analyse concurrentielle basée sur l'évaluation de l'efficacité des sites et de la publicité contextuelle. Implémenté en tant que plugin pour FF et GC.

http://web-data-extractor.net/ est une solution universelle pour obtenir toutes les données disponibles sur Internet. La configuration des données de découpe à partir de n’importe quelle page se fait en quelques clics de souris. Il vous suffit de sélectionner la zone de données que vous souhaitez enregistrer et Datacol sélectionnera automatiquement une formule pour découper ce bloc.

CaptureSaver est un outil de recherche Internet professionnel. Simplement un programme de travail indispensable qui vous permet de capturer, stocker et exporter n'importe quelle information Internet, y compris non seulement des pages Web, des blogs, mais aussi des actualités RSS, des e-mails, des images et bien plus encore. Il possède les fonctionnalités les plus larges, une interface intuitive et un prix ridicule.

http://www.orbiscope.net/en/software.html – système de surveillance Web à des prix plus qu'abordables.

http://www.kbcrawl.co.uk/ – logiciel pour travailler, y compris sur « l'Internet invisible ».

http://www.copernic.com/en/products/agent/index.html – le programme vous permet d'effectuer des recherches en utilisant plus de 90 moteurs de recherche, en utilisant plus de 10 paramètres. Vous permet de combiner les résultats, d'éliminer les doublons, de bloquer les liens rompus et d'afficher les résultats les plus pertinents. Existe en versions gratuites, personnelles et professionnelles. Utilisé par plus de 20 millions d'utilisateurs.

Maltego est un logiciel fondamentalement nouveau qui vous permet d'établir des relations entre des sujets, des événements et des objets dans la vie réelle et sur Internet.

PRESTATIONS DE SERVICE

nouveau https://hunter.io/ – un service efficace pour détecter et vérifier les e-mails.

https://www.whatruns.com/ est un scanner facile à utiliser mais efficace pour découvrir ce qui fonctionne et ne fonctionne pas sur un site Web et quelles sont ses failles de sécurité. Également implémenté en tant que plugin pour Chrom.

https://www.crayon.co/ est une plateforme budgétaire américaine de veille commerciale et concurrentielle sur Internet.

http://www.cs.cornell.edu/~bwong/octant/ – identifiant de l'hôte.

https://iplogger.ru/ – un service simple et pratique pour déterminer l’adresse IP de quelqu’un d’autre.

http://linkurio.us/ est un nouveau produit puissant destiné aux agents de sécurité économique et aux enquêteurs en matière de corruption. Traite et visualise d’énormes quantités d’informations non structurées provenant de sources financières.

http://www.intelsuite.com/en – Plateforme en ligne anglophone de veille et de veille concurrentielle.

http://yewno.com/about/ est le premier système d'exploitation permettant de traduire des informations en connaissances et de visualiser des informations non structurées. Prend actuellement en charge l'anglais, le français, l'allemand, l'espagnol et le portugais.

https://start.avalancheonline.ru/landing/?next=%2F – services de prévision et d'analyse par Andrey Masalovich.

https://www.outwit.com/products/hub/ – un ensemble complet de programmes autonomes pour le travail professionnel sur le Web 1.

https://github.com/search?q=user%3Acmlh+maltego – extensions pour Maltego.

http://www.whoishostingthis.com/ – moteur de recherche d'hébergement, d'adresses IP, etc.

http://appfollow.ru/ – analyse des applications basée sur les avis, l'optimisation ASO, les positions dans les tops et les résultats de recherche pour l'App Store, Google Play et Windows Phone Store.

http://spiraldb.com/ est un service implémenté sous forme de plugin pour Chrom, qui vous permet d'obtenir de nombreuses informations précieuses sur n'importe quelle ressource électronique.

https://millie.northernlight.com/dashboard.php?id=93 - un service gratuit qui collecte et structure les informations clés sur les industries et les entreprises. Il est possible d'utiliser des panneaux d'information basés sur l'analyse de texte.

http://byratino.info/ – collecte de données factuelles à partir de sources accessibles au public sur Internet.

http://www.datafox.co/ – La plateforme CI collecte et analyse des informations sur les entreprises qui intéressent les clients. Il y a une démo.

https://unwiredlabs.com/home - une application spécialisée avec une API pour la recherche par géolocalisation de tout appareil connecté à Internet.

http://visualping.io/ – un service de surveillance des sites et, en premier lieu, des photographies et images disponibles sur ceux-ci. Même si la photo n'apparaît qu'une seconde, elle sera dans l'email de l'abonné. Possède un plugin pour Google Chrome.

http://spyonweb.com/ est un outil de recherche qui permet une analyse approfondie de n'importe quelle ressource Internet.

http://bigvisor.ru/ – le service vous permet de suivre les campagnes publicitaires pour certains segments de biens et services, ou pour des organisations spécifiques.

http://www.itsec.pro/2013/09/microsoft-word.html – instructions d'Artem Ageev sur l'utilisation des programmes Windows pour les besoins de veille concurrentielle.

http://granoproject.org/ est un outil open source destiné aux chercheurs qui suivent les réseaux de connexions entre individus et organisations dans les domaines de la politique, de l'économie, de la criminalité, etc. Vous permet de connecter, d'analyser et de visualiser des informations obtenues à partir de diverses sources, ainsi que d'afficher des connexions significatives.

http://imgops.com/ – un service permettant d'extraire des métadonnées de fichiers graphiques et de travailler avec eux.

http://sergeybelove.ru/tools/one-button-scan/ – un petit scanner en ligne pour vérifier les failles de sécurité des sites Web et autres ressources.

http://isce-library.net/epi.aspx – service de recherche de sources primaires à partir d'un fragment de texte en anglais

https://www.rivaliq.com/ est un outil efficace pour réaliser une veille concurrentielle sur les marchés occidentaux, principalement européens et américains, des biens et services.

http://watchthatpage.com/ est un service qui vous permet de collecter automatiquement de nouvelles informations à partir de ressources Internet surveillées. Le service est gratuit.

http://falcon.io/ est une sorte de Rapportive pour le Web. Il ne remplace pas Rapportive, mais fournit des outils supplémentaires. En revanche, Rapportive fournit un profil général d'une personne, comme s'il était collé à partir de données provenant de réseaux sociaux et de mentions sur le Web. http://watchthatpage.com/ - un service qui vous permet de collecter automatiquement de nouvelles informations à partir de ressources surveillées sur l'Internet. Le service est gratuit.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ – module complémentaire pour Firefox. Surveille les mises à jour des pages Web. Utile pour les sites Web qui ne disposent pas de flux d'actualités (Atom ou RSS).

http://agregator.pro/ – agrégateur de portails d'actualités et de médias. Utilisé par les spécialistes du marketing, les analystes, etc. pour analyser les flux d'actualité sur certains sujets.

http://price.apishops.com/ – service Web automatisé permettant de surveiller les prix de groupes de produits sélectionnés, de boutiques en ligne spécifiques et d'autres paramètres.

http://www.la0.ru/ est un service pratique et pertinent pour analyser les liens et les backlinks vers une ressource Internet.

www.recordedfuture.com est un outil puissant d'analyse et de visualisation de données, mis en œuvre sous la forme d'un service en ligne basé sur le cloud computing.

http://advse.ru/ est un service dont le slogan est « Découvrez tout sur vos concurrents ». Vous permet d'obtenir les sites Web des concurrents en fonction des requêtes de recherche et d'analyser les campagnes publicitaires des concurrents dans Google et Yandex.

http://spyonweb.com/ – le service vous permet d'identifier les sites présentant les mêmes caractéristiques, y compris ceux utilisant les mêmes identifiants du service de statistiques Google Analytics, adresses IP, etc.

http://www.connotate.com/solutions – une gamme de produits pour la veille concurrentielle, la gestion des flux d'informations et la conversion des informations en actifs informationnels. Il comprend à la fois des plates-formes complexes et des services simples et bon marché qui permettent une surveillance efficace ainsi qu'une compression des informations et l'obtention uniquement des résultats nécessaires.

http://www.clearci.com/ - plateforme de veille concurrentielle pour les entreprises de différentes tailles, des start-ups et petites entreprises aux entreprises Fortune 500. Résolu en mode Saas.

http://startingpage.com/ est un module complémentaire Google qui vous permet d'effectuer une recherche sur Google sans enregistrer votre adresse IP. Prend entièrement en charge toutes les fonctionnalités de recherche de Google, y compris en russe.

http://newspapermap.com/ est un service unique très utile pour un responsable de la veille concurrentielle. Connecte la géolocalisation à un moteur de recherche de médias en ligne. Ceux. vous sélectionnez la région qui vous intéresse, voire une ville, ou une langue, voyez le lieu sur la carte et une liste des versions en ligne de journaux et magazines, cliquez sur le bouton approprié et lisez. Prend en charge la langue russe, interface très conviviale.

http://infostream.com.ua/ est un système de surveillance de l'actualité très pratique « Infostream », qui se distingue par une sélection de première classe et tout à fait accessible à n'importe quel portefeuille, à partir de l'un des classiques de la recherche sur Internet, D.V. Lande.

http://www.instapaper.com/ est un outil très simple et efficace pour sauvegarder les pages Web nécessaires. Peut être utilisé sur les ordinateurs, iPhones, iPads, etc.

http://screen-scraper.com/ – vous permet d'extraire automatiquement toutes les informations des pages Web, de télécharger la grande majorité des formats de fichiers et de saisir automatiquement les données dans divers formulaires. Il enregistre les fichiers et les pages téléchargés dans des bases de données et exécute de nombreuses autres fonctions extrêmement utiles. Fonctionne sur toutes les principales plates-formes, dispose de versions professionnelles gratuites et très puissantes entièrement fonctionnelles.

http://www.mozenda.com/ - propose plusieurs plans tarifaires et est accessible même aux petites entreprises, un service Web pour une surveillance Web multifonctionnelle et la fourniture des informations nécessaires à l'utilisateur à partir de sites sélectionnés.

http://www.recipdonor.com/ - le service vous permet de surveiller automatiquement tout ce qui se passe sur les sites Web des concurrents.

http://www.spyfu.com/ – et ce, si vos concurrents sont étrangers.

www.webground.su est un service de surveillance de Runet créé par des professionnels de la recherche sur Internet, qui comprend tous les principaux fournisseurs d'informations, d'actualités, etc., et est capable de définir des paramètres de surveillance individuels pour répondre aux besoins de l'utilisateur.

MOTEURS DE RECHERCHE

https://www.idmarch.org/ est le meilleur moteur de recherche d'archives mondiales de documents pdf en termes de qualité. Actuellement, plus de 18 millions de documents PDF ont été indexés, allant des livres aux rapports secrets.

http://www.marketvisual.com/ est un moteur de recherche unique qui vous permet de rechercher des propriétaires et des cadres supérieurs par nom complet, nom de société, poste ou une combinaison de ceux-ci. Les résultats de la recherche contiennent non seulement les objets que vous recherchez, mais également leurs connexions. Conçu principalement pour les pays anglophones.

http://worldc.am/ est un moteur de recherche de photographies en accès libre lié à la géolocalisation.

https://app.echosec.net/ est un moteur de recherche public qui se décrit comme l'outil d'analyse le plus avancé pour les professionnels de l'application de la loi, de la sécurité et du renseignement. Permet de rechercher des photos publiées sur divers sites, plateformes sociales et réseaux sociaux en relation avec des coordonnées de géolocalisation précises. Il existe actuellement sept sources de données connectées. D'ici la fin de l'année, leur nombre dépassera les 450. Merci à Dementy pour le conseil.

http://www.quandl.com/ est un moteur de recherche de sept millions de bases de données financières, économiques et sociales.

http://bitzakaz.ru/ – moteur de recherche d'appels d'offres et de commandes gouvernementales avec des fonctions payantes supplémentaires

Website-Finder - permet de trouver des sites que Google n'indexe pas bien. La seule limitation est qu’il ne recherche que 30 sites Web pour chaque mot-clé. Le programme est simple à utiliser.

http://www.dtsearch.com/ est un moteur de recherche puissant qui vous permet de traiter des téraoctets de texte. Fonctionne sur ordinateur, Web et intranet. Prend en charge les données statiques et dynamiques. Vous permet de rechercher dans tous les programmes MS Office. La recherche s'effectue à l'aide d'expressions, de mots, de balises, d'index et bien plus encore. Le seul moteur de recherche fédéré disponible. Il existe des versions payantes et gratuites.

http://www.strategator.com/ – recherche, filtre et regroupe des informations sur l'entreprise à partir de dizaines de milliers de sources Web. Recherches aux USA, en Grande-Bretagne, dans les principaux pays de la CEE. Il est très pertinent, convivial et propose des options gratuites et payantes (14 $ par mois).

http://www.shodanhq.com/ est un moteur de recherche inhabituel. Immédiatement après son apparition, il a reçu le surnom de « Google pour les hackers ». Il ne recherche pas de pages, mais détermine les adresses IP, les types de routeurs, les ordinateurs, serveurs et postes de travail situés à une adresse particulière, trace les chaînes de serveurs DNS et permet de mettre en œuvre de nombreuses autres fonctions intéressantes pour la veille concurrentielle.

http://search.usa.gov/ est un moteur de recherche de sites Web et de bases de données ouvertes de toutes les agences gouvernementales américaines. Les bases de données contiennent de nombreuses informations pratiques et utiles, notamment utiles dans notre pays.

http://visual.ly/ – aujourd'hui, la visualisation est de plus en plus utilisée pour présenter des données. Il s'agit du premier moteur de recherche infographique sur le Web. Outre le moteur de recherche, le portail dispose de puissants outils de visualisation de données qui ne nécessitent pas de compétences en programmation.

http://go.mail.ru/realtime – recherchez des discussions sur des sujets, des événements, des objets, des sujets en temps réel ou personnalisable. La recherche précédemment très critiquée dans Mail.ru fonctionne très efficacement et fournit des résultats intéressants et pertinents.

Zanran vient d'être lancé, mais fonctionne déjà très bien, le premier et le seul moteur de recherche de données qui extrait des données de fichiers PDF, de tableaux EXCEL et de données sur des pages HTML.

http://www.ciradar.com/Competitive-Analysis.aspx est l'un des meilleurs systèmes de recherche d'informations au monde pour la veille concurrentielle sur le Web profond. Récupère presque tous les types de fichiers dans tous les formats sur le sujet qui vous intéresse. Implémenté en tant que service Web. Les prix sont plus que raisonnables.

http://public.ru/ – Recherche efficace et analyse professionnelle de l'information, archives médiatiques depuis 1990. La médiathèque en ligne offre une large gamme de services d'information : de l'accès aux archives électroniques des publications médiatiques en langue russe et aux revues de presse thématiques prêtes à l'emploi jusqu'au suivi individuel et à la recherche analytique exclusive basée sur des documents de presse.

Cluuz est un jeune moteur de recherche offrant de nombreuses possibilités de veille concurrentielle, notamment sur l'Internet anglophone. Permet non seulement de rechercher, mais aussi de visualiser et d'établir des connexions entre des personnes, des entreprises, des domaines, des e-mails, des adresses, etc.

www.wolframalpha.com – le moteur de recherche de demain. En réponse à une requête de recherche, il fournit des informations statistiques et factuelles disponibles sur l'objet de la requête, y compris des informations visualisées.

www.ist-budget.ru – recherche universelle dans les bases de données des marchés publics, des appels d'offres, des enchères, etc.

À première vue, il peut sembler que seul Yandex peut être meilleur que Google, et même ce n'est pas un fait. Ces entreprises investissent d’énormes sommes d’argent dans l’innovation et le développement. Quelqu'un a-t-il vraiment une chance non seulement de rivaliser avec les leaders, mais aussi de gagner ? Réponse du Lifehacker : « Oui ! » Il existe plusieurs moteurs de recherche qui ont réussi. Regardons nos héros.

Qu'est-ce que c'est

Il s'agit d'un moteur de recherche open source assez connu. Les serveurs sont situés aux États-Unis. En plus de son propre robot, le moteur de recherche utilise les résultats provenant d'autres sources : Yahoo! Recherchez BOSS, Wikipédia, Wolfram|Alpha.

Le meilleur

DuckDuckGo se positionne comme un moteur de recherche offrant une confidentialité et une confidentialité maximales. Le système ne collecte aucune donnée sur l'utilisateur, ne stocke pas de journaux (pas d'historique de recherche) et l'utilisation de cookies est aussi limitée que possible.

DuckDuckGo ne collecte ni ne partage les informations personnelles des utilisateurs. Ceci est notre politique de confidentialité.
Gabriel Weinberg, fondateur de DuckDuckGo

Pourquoi as-tu besoin de ça

Tous les principaux moteurs de recherche tentent de personnaliser les résultats de recherche en fonction des données relatives à la personne devant le moniteur. Ce phénomène est appelé « bulle de filtre » : l'utilisateur ne voit que les résultats qui correspondent à ses préférences ou que le système considère comme tels.

DuckDuckGo crée une image objective qui ne dépend pas de votre comportement passé sur Internet et élimine les publicités thématiques de Google et Yandex en fonction de vos requêtes. Avec DuckDuckGo, il est facile de rechercher des informations dans des langues étrangères : Google et Yandex privilégient par défaut les sites en langue russe, même si la requête est saisie dans une autre langue.

Qu'est-ce que c'est

"" est un système de métarecherche russe développé par Viktor Lavrenko et Vladimir Chernyshov, diplômés de l'Université d'État de Moscou. Il recherche dans les index de Google, Bing, Yandex et autres, et dispose également de son propre algorithme de recherche.

Le meilleur

La recherche dans les index de tous les principaux moteurs de recherche vous permet de générer des résultats pertinents. De plus, Nigma divise les résultats en plusieurs groupes thématiques (clusters) et invite l'utilisateur à affiner le champ de recherche, en supprimant ceux qui sont inutiles ou en mettant en évidence les prioritaires. Grâce aux modules Mathématiques et Chimie, vous pouvez résoudre des problèmes mathématiques et demander les résultats de réactions chimiques directement dans la barre de recherche.

Pourquoi as-tu besoin de ça

Élimine le besoin de rechercher la même requête dans différents moteurs de recherche. Le système de cluster facilite la manipulation des résultats de recherche. Par exemple, Nigma collecte les résultats des boutiques en ligne dans un cluster distinct. Si vous n'avez pas l'intention d'acheter quoi que ce soit, excluez simplement ce groupe. En sélectionnant le cluster « Sites anglophones », vous recevrez des résultats uniquement en anglais. Les modules Mathématiques et Chimie aideront les écoliers.

Malheureusement, le projet n'est pas encore développé, les développeurs ayant transféré leur activité sur le marché vietnamien. Néanmoins, « Nigma » non seulement n'est pas encore obsolète, mais dans certains domaines, il donne encore une longueur d'avance à Google. Espérons que le développement reprenne.

Qu'est-ce que c'est

not Evil est un système qui recherche le réseau anonyme Tor. Pour l'utiliser, il faut se rendre sur ce réseau, par exemple en lançant un navigateur spécialisé du même nom. not Evil n'est pas le seul moteur de recherche de ce type. Il existe LOOK (la recherche par défaut dans le navigateur Tor, accessible depuis Internet classique) ou TORCH (l'un des moteurs de recherche les plus anciens du réseau Tor) et d'autres. Nous avons opté pour Not Evil en raison de l'allusion claire à Google lui-même (il suffit de regarder la page d'accueil).

Le meilleur

Il recherche là où Google, Yandex et d'autres moteurs de recherche sont généralement fermés.

Pourquoi as-tu besoin de ça

Le réseau Tor contient de nombreuses ressources introuvables sur un Internet respectueux des lois. Et à mesure que le contrôle gouvernemental sur le contenu d’Internet se resserre, leur nombre va augmenter. Tor est une sorte de réseau au sein du réseau : avec ses propres réseaux sociaux, trackers torrent, médias, plateformes de trading, blogs, bibliothèques, etc.

YaCy

Qu'est-ce que c'est

YaCy est un moteur de recherche décentralisé qui fonctionne sur le principe des réseaux P2P. Chaque ordinateur sur lequel est installé le module logiciel principal analyse Internet de manière indépendante, c'est-à-dire qu'il est analogue à un robot de recherche. Les résultats obtenus sont collectés dans une base de données commune utilisée par tous les participants YaCy.

Le meilleur

Il est difficile de dire si c'est mieux ou pire, car YaCy est une approche complètement différente de l'organisation de la recherche. L'absence d'un serveur unique et d'une société propriétaire rend les résultats totalement indépendants des préférences de chacun. L'autonomie de chaque nœud élimine la censure. YaCy est capable de rechercher sur le Web profond et les réseaux publics non indexés.

Pourquoi as-tu besoin de ça

Si vous êtes partisan des logiciels open source et d'un Internet libre, non influencé par les agences gouvernementales et les grandes entreprises, alors YaCy est votre choix. Il peut également être utilisé pour organiser une recherche au sein d’un réseau d’entreprise ou autre réseau autonome. Et même si YaCy n’est pas très utile dans la vie de tous les jours, il constitue une alternative intéressante à Google en termes de processus de recherche.

Pipl

Qu'est-ce que c'est

Pipl est un système conçu pour rechercher des informations sur une personne spécifique.

Le meilleur

Les auteurs de Pipl affirment que leurs algorithmes spécialisés effectuent des recherches plus efficaces que les moteurs de recherche « classiques ». Les sources d’information prioritaires comprennent notamment les profils de réseaux sociaux, les commentaires, les listes de membres et diverses bases de données qui publient des informations sur les personnes, comme les décisions de justice. Le leadership de Pipl dans ce domaine est confirmé par les évaluations de Lifehacker.com, TechCrunch et d'autres publications.

Pourquoi as-tu besoin de ça

Si vous avez besoin de trouver des informations sur une personne vivant aux États-Unis, Pipl sera bien plus efficace que Google. Les bases de données des tribunaux russes seraient apparemment inaccessibles au moteur de recherche. Par conséquent, il ne s’entend pas très bien avec les citoyens russes.

Qu'est-ce que c'est

Un autre moteur de recherche spécialisé. Recherches divers sons (maison, nature, voitures, personnes, etc.) dans des sources ouvertes. Le service ne prend pas en charge les requêtes en russe, mais il existe une liste impressionnante de balises en russe que vous pouvez rechercher.

Le meilleur

La sortie ne contient que des sons et rien de plus. Dans les paramètres de recherche, vous pouvez définir le format et la qualité sonore souhaités. Tous les sons trouvés sont disponibles en téléchargement. Il y a une recherche de sons par motif.

Pourquoi as-tu besoin de ça

Si vous avez besoin de retrouver rapidement le son d'un coup de mousquet, les coups d'un pic allaitant ou le cri d'Homer Simpson, alors ce service est fait pour vous. Et je l'ai choisi uniquement parmi les requêtes disponibles en russe. En anglais, le spectre est encore plus large. Mais sérieusement, un service spécialisé nécessite un public spécialisé. Mais et si cela était également utile pour vous ?

La vie des moteurs de recherche alternatifs est souvent éphémère. Lifehacker a interrogé l'ancien directeur général de la branche ukrainienne de Yandex, Sergei Petrenko, sur les perspectives à long terme de tels projets.

Quant au sort des moteurs de recherche alternatifs, il est simple : être des projets très niches avec une audience restreinte, donc sans perspectives commerciales claires ou, à l'inverse, avec une totale clarté sur leur absence.

Si vous regardez les exemples donnés dans l'article, vous constaterez que ces moteurs de recherche soit se spécialisent dans un créneau étroit mais populaire, qui, peut-être, n'a pas encore suffisamment grandi pour être visible sur les radars de Google ou de Yandex, soit ils testent une hypothèse originale en matière de classement, qui n'est pas encore applicable en recherche régulière.

Par exemple, si une recherche sur Tor s'avère soudainement demandée, c'est-à-dire que les résultats sont nécessaires à au moins un pourcentage de l'audience de Google, alors, bien sûr, les moteurs de recherche ordinaires commenceront à résoudre le problème de savoir comment trouvez-les et montrez-les à l’utilisateur. Si le comportement de l'audience montre que pour une proportion importante d'utilisateurs dans un nombre important de requêtes, les résultats donnés sans tenir compte des facteurs dépendant de l'utilisateur semblent plus pertinents, alors Yandex ou Google commenceront à produire de tels résultats.

« Être meilleur » dans le contexte de cet article ne signifie pas « être meilleur en tout ». Oui, à bien des égards, nos héros sont loin de Google et de Yandex (même loin de Bing). Mais chacun de ces services offre à l’utilisateur quelque chose que les géants de l’industrie de la recherche ne peuvent pas offrir.

Les moteurs de recherche (SE) constituent un élément essentiel d’Internet depuis un certain temps. Aujourd'hui, il s'agit de mécanismes énormes et complexes qui constituent non seulement un outil permettant de trouver toutes les informations nécessaires, mais également des domaines très intéressants pour les entreprises.


De nombreux utilisateurs de recherche n'ont jamais réfléchi aux principes de leur fonctionnement, à la manière de traiter les demandes des utilisateurs ou à la manière dont ces systèmes sont construits et fonctionnent. Ce matériel aidera les personnes impliquées dans l'optimisation et à comprendre la structure et les principales fonctions des moteurs de recherche.

Fonctions et concept du PS

Système de recherche est un complexe matériel et logiciel conçu pour exécuter la fonction de recherche sur Internet et qui répond à une demande de l'utilisateur, généralement spécifiée sous la forme d'une phrase textuelle (ou plus précisément d'une requête de recherche), en émettant une référence liste des sources d’information, en fonction de leur pertinence. Les moteurs de recherche les plus courants et les plus importants : Google, Bing, Yahoo, Baidu. Dans RuNet - Yandex, Mail.Ru, Rambler.

Examinons de plus près la signification de la requête de recherche, en prenant le système Yandex comme exemple.

La demande doit être formulée par l'utilisateur en parfaite adéquation avec l'objet de sa recherche, de la manière la plus simple et brève possible. Par exemple, nous souhaitons trouver des informations dans ce moteur de recherche : « comment choisir une voiture pour soi-même ». Pour ce faire, ouvrez la page principale et saisissez la requête de recherche « comment choisir une voiture ». Nos fonctions se réduisent alors à suivre les liens fournis vers des sources d'informations sur le réseau.




Mais même en agissant de cette manière, nous n’obtiendrons peut-être pas les informations dont nous avons besoin. Si nous recevons un résultat aussi négatif, il nous suffit de reformater notre requête, ou bien la base de recherche ne dispose vraiment d'aucune information utile sur ce type de requête (cela est tout à fait possible compte tenu des paramètres « étroits » de la requête, tels que, par exemple, « comment choisir une voiture à Anadyr ").

La tâche la plus fondamentale de tout moteur de recherche est de fournir aux internautes exactement le type d’informations dont ils ont besoin. Et il est pratiquement impossible d'apprendre aux utilisateurs à créer le type « correct » de requêtes auprès des moteurs de recherche, c'est-à-dire des expressions qui correspondront à leurs principes de fonctionnement.

C'est pourquoi les développeurs de moteurs de recherche spécialisés créent pour leur travail des principes et des algorithmes qui permettront aux utilisateurs de trouver les informations qui les intéressent. Cela signifie que le système doit « penser » de la même manière qu'une personne pense lorsqu'elle recherche les informations nécessaires sur Internet.

Lorsqu'il saisit sa requête dans un moteur de recherche, il souhaite trouver ce dont il a besoin le plus facilement et le plus rapidement possible. Après avoir reçu le résultat, l’utilisateur fait son évaluation des performances du système, guidé par plusieurs critères. A-t-il pu trouver les informations dont il avait besoin ? Si non, combien de fois a-t-il dû reformater le texte de la requête pour le trouver ? Dans quelle mesure les informations qu’ils ont reçues étaient-elles à jour ? Avec quelle rapidité le moteur de recherche a-t-il traité sa demande ? Dans quelle mesure les résultats de recherche fournis étaient-ils conviviaux ? Le résultat souhaité était-il en premier, ou était-il à la 30ème place ? Quelle quantité de « déchets » (informations inutiles) a été trouvée avec des informations utiles ? Les informations pertinentes seront-elles trouvées pour lui, lors de l'utilisation du PS, dans une semaine ou dans un mois ?




Afin d'obtenir les bonnes réponses à ces questions, les développeurs de recherche améliorent constamment les principes de classement et leurs algorithmes, en leur ajoutant de nouvelles caractéristiques et fonctions et en essayant par tous les moyens d'accélérer le fonctionnement du système.

Principales caractéristiques des moteurs de recherche

Indiquons les principales caractéristiques de la recherche :

Complétude.

L'exhaustivité est l'une des caractéristiques les plus importantes d'une recherche ; elle représente le rapport entre le nombre de documents d'information trouvés sur demande et leur nombre total sur Internet lié à une demande donnée. Par exemple, il y a 100 pages sur Internet avec l'expression « comment choisir une voiture », et pour la même requête, seules 60 du total ont été sélectionnées, alors dans ce cas, l'exhaustivité de la recherche sera de 0,6. Il est clair que plus la recherche elle-même est complète, plus grande est la probabilité que l'utilisateur trouve exactement le document dont il a besoin, bien entendu, s'il existe.

Précision.

Une autre fonction principale d’un moteur de recherche est la précision. Il détermine dans quelle mesure les pages trouvées sur Internet correspondent à la demande de l’utilisateur. Par exemple, si pour la phrase clé « comment choisir une voiture » il y a une centaine de documents, la moitié d'entre eux contiennent cette phrase, et le reste contient simplement les mots suivants (comment choisir correctement un autoradio et l'installer dans une voiture ), alors la précision de la recherche est égale à 50/100 = 0,5.

Plus la recherche est précise, plus l'utilisateur trouvera vite les informations dont il a besoin, moins il y aura de « déchets » divers parmi les résultats, moins les documents trouvés ne correspondront pas au sens de la demande.

Pertinence.

Il s’agit d’une composante importante de la recherche, caractérisée par le temps qui s’écoule entre le moment où l’information est publiée sur Internet jusqu’à son entrée dans la base d’index du moteur de recherche.

Par exemple, le lendemain de l'apparition des informations sur la sortie d'un nouvel iPad, de nombreux utilisateurs se sont tournés vers la recherche avec des types de requêtes pertinents. Dans la plupart des cas, les informations sur cette actualité sont déjà disponibles dans la recherche, même si très peu de temps s'est écoulé depuis son apparition. Cela est dû au fait que les grands moteurs de recherche disposent d’une « base de données rapide » mise à jour plusieurs fois par jour.

Vitesse de recherche.

Une fonction telle que la vitesse de recherche est étroitement liée à ce qu'on appelle la « résistance à la charge ». Un grand nombre de personnes accèdent à la recherche chaque seconde ; une telle charge de travail nécessite une réduction significative du temps de traitement d'une demande. Ici, les intérêts du moteur de recherche et de l'utilisateur coïncident complètement : le visiteur souhaite obtenir des résultats le plus rapidement possible, et le moteur de recherche doit traiter sa demande le plus rapidement possible, afin de ne pas ralentir le traitement des demandes ultérieures.

Visibilité.

La présentation visuelle des résultats est l’élément le plus important pour faciliter la recherche. Sur la base de nombreuses requêtes, le moteur de recherche trouve des milliers, voire des millions de documents différents. En raison du flou dans la compilation des phrases clés pour la recherche ou de son inexactitude, même les tout premiers résultats de la requête ne contiennent pas toujours uniquement les informations nécessaires.

Cela signifie qu'une personne doit souvent effectuer sa propre recherche parmi les résultats fournis. Divers composants des pages de résultats de recherche vous aident à naviguer dans les résultats de recherche.

Histoire du développement des moteurs de recherche

Lorsque l’Internet a commencé à se développer, le nombre de ses utilisateurs réguliers était faible et la quantité d’informations accessibles était relativement faible. En principe, seuls les spécialistes des domaines de recherche avaient accès à ce réseau. À cette époque, la recherche d’informations n’était pas aussi urgente qu’elle l’est aujourd’hui.

L'une des toutes premières méthodes d'organisation d'un large accès aux ressources d'information a été la création d'annuaires de sites, et les liens vers ceux-ci ont commencé à être regroupés par sujet. Le premier projet était la ressource Yahoo.com, ouverte au printemps 1994. Par la suite, lorsque le nombre de sites dans l'annuaire Yahoo a considérablement augmenté, la possibilité de rechercher les informations nécessaires dans l'annuaire a été ajoutée. Il ne s'agissait pas encore d'un système de recherche à part entière, puisque la portée d'une telle recherche se limitait uniquement aux sites inclus dans ce répertoire, et pas absolument à toutes les ressources sur Internet. Les répertoires de liens étaient largement utilisés dans le passé, mais ils ont aujourd’hui presque complètement perdu de leur popularité.

Après tout, même les catalogues actuels, qui sont énormes, ne contiennent des informations que sur une petite partie des sites Internet. L'annuaire le plus célèbre et le plus vaste au monde contient des informations sur cinq millions de sites, tandis que la base de données de Google contient des informations sur plus de 25 milliards de pages.




Le tout premier véritable moteur de recherche était WebCrawler, apparu en 1994.

L'année suivante, AltaVista et Lycos apparaissent. D’ailleurs, le premier a été pendant très longtemps le leader de la recherche d’informations.




En 1997, Sergey Brin et Larry Page ont créé le moteur de recherche Google dans le cadre d'un projet de recherche à l'Université de Stanford. Il s’agit aujourd’hui de Google, le moteur de recherche le plus populaire et le plus utilisé au monde.




En septembre 1997, Yandex PS a été annoncé (officiellement), qui est actuellement le système de recherche le plus populaire sur RuNet.




Selon septembre 2015, les parts des moteurs de recherche dans le monde se répartissent comme suit :
  • Google - 69,24 % ;
  • Bing - 12,26 % ;
  • Yahoo! - 9,19% ;
  • Baidu - 6,48 % ;
  • AOL-1,11% ;
  • Demandez - 0,23% ;
  • Exciter - 0,00%


Selon décembre 2016, partages de moteurs de recherche dans Runet :

  • Yandex - 48,40%
  • Google - 45,10 %
  • Search.Mail.ru - 5,70%
  • Randonneur - 0,40%
  • Bing-0,30%
  • Yahoo - 0,10%

Comment fonctionne un moteur de recherche

En Russie, le principal moteur de recherche est Yandex, puis Google, puis [email protected]. Tous les grands moteurs de recherche ont leur propre structure, qui est assez différente des autres. Mais il est encore possible d’identifier les éléments de base communs à tous les moteurs de recherche.

Module d'indexation.

Ce composant se compose de trois programmes robotiques :

Araignée(en anglais spider) est un programme conçu pour télécharger des pages Web. L'araignée télécharge une page spécifique, en extrayant simultanément tous les liens. Le code HTML est téléchargé à partir de presque toutes les pages. Pour cela, les robots utilisent les protocoles HTTP.




"Spider" fonctionne comme suit. Le robot envoie une requête au serveur « get/path/document » et d'autres commandes de requête HTTP. En réponse, le programme du robot reçoit un flux de texte contenant des informations sur le type de service et, bien sûr, le document lui-même.
  • URL de la page téléchargée ;
  • date à laquelle la page a été téléchargée ;
  • en-tête de réponse http du serveur ;
  • code html, « corps » de la page.
Chenille(araignée « voyageuse »). Ce programme accède automatiquement à tous les liens trouvés sur la page et les met également en évidence. Sa tâche est de décider où l'araignée doit aller ensuite, sur la base de ces liens ou d'une liste d'adresses donnée.

Indexeur(robot indexer) est un programme qui analyse les pages téléchargées par les robots.



L'indexeur analyse complètement la page dans ses éléments constitutifs et les analyse à l'aide de ses propres types d'algorithmes morphologiques et lexicaux.

L'analyse est effectuée sur différentes parties de la page, telles que les titres, le texte, les liens, les caractéristiques de style et structurelles, les balises html, etc.

Ainsi, le module d'indexation permet de suivre les liens d'un nombre donné de ressources, de télécharger des pages, d'extraire des liens vers de nouvelles pages à partir de documents reçus et d'en effectuer une analyse détaillée.

Base de données

Base de données(ou index du moteur de recherche) est un complexe de stockage de données, un ensemble d'informations dans lequel les paramètres modifiés de chaque document traité par le module d'indexation et téléchargé sont stockés d'une certaine manière.

Serveur de recherche

C'est l'élément le plus important de l'ensemble du système, car la rapidité et, bien sûr, la qualité de la recherche dépendent directement des algorithmes qui sous-tendent sa fonctionnalité.

Le serveur de recherche fonctionne comme suit :

  • La demande émanant de l'utilisateur fait l'objet d'une analyse morphologique. L'environnement informationnel de tout document disponible dans la base de données est généré (il sera ensuite affiché sous forme de snippet, c'est-à-dire un champ d'information de texte correspondant à une requête donnée).
  • Les données reçues sont transmises comme paramètres d'entrée à un module de classement spécialisé. Ils sont traités pour tous les documents et, par conséquent, pour chacun de ces documents, sa propre note est calculée, qui caractérise la pertinence d'un tel document par rapport à la demande de l'utilisateur et à d'autres composants.
  • En fonction des conditions précisées par l'utilisateur, cette note pourra très bien être ajustée par des notes supplémentaires.
  • Ensuite, l'extrait lui-même est généré, c'est-à-dire Pour tout document trouvé, le titre, le résumé qui correspond le mieux à la requête et un lien vers ce document sont extraits du tableau correspondant, et les formes de mots et les mots trouvés sont mis en évidence.
  • Les résultats de la recherche résultante sont transmis à la personne qui l'a effectuée sous la forme d'une page sur laquelle sont affichés les résultats de la recherche (SERP).
Tous ces éléments sont étroitement liés les uns aux autres et fonctionnent, interagissent, formant un mécanisme distinct mais assez complexe pour le fonctionnement du PS, nécessitant d'énormes dépenses de ressources.

Ils font depuis longtemps partie intégrante de l’Internet russe. Les moteurs de recherche sont désormais des mécanismes énormes et complexes qui représentent non seulement un outil de recherche d'informations, mais aussi des domaines d'activité tentants.

La plupart des utilisateurs des moteurs de recherche n'ont jamais réfléchi (ou n'y ont pensé, mais n'ont pas trouvé de réponse) au principe de fonctionnement des moteurs de recherche, au schéma de traitement des demandes des utilisateurs, à quoi consistent ces systèmes et comment ils fonctionnent...

Cette master class est conçue pour répondre à la question du fonctionnement des moteurs de recherche. Cependant, vous ne trouverez pas ici de facteurs qui influencent le classement des documents. De plus, il ne faut pas compter sur une explication détaillée de l'algorithme Yandex. Selon Ilya Segalovich, directeur de la technologie et du développement du moteur de recherche Yandex, il ne peut être reconnu "sous la torture" que par Ilya Segalovich lui-même...

2. Concept et fonctions d'un moteur de recherche

Un système de recherche est un complexe logiciel et matériel conçu pour effectuer des recherches sur Internet et répondre à une demande d'utilisateur, spécifiée sous la forme d'une phrase textuelle (requête de recherche), en produisant une liste de liens vers des sources d'informations, par ordre de pertinence ( conformément à la demande). Les plus grands moteurs de recherche internationaux : "Google", Yahoo , MSN . Sur Internet russe, il s'agit de Yandex, Rambler, Aport.

Examinons de plus près le concept de requête de recherche en utilisant le moteur de recherche Yandex comme exemple. La requête de recherche doit être formulée par l'utilisateur en fonction de ce qu'il souhaite trouver, de la manière la plus brève et la plus simple possible. Disons que nous voulons trouver des informations dans Yandex sur la façon de choisir une voiture. Pour ce faire, ouvrez la page principale de Yandex et saisissez le texte de la requête de recherche « comment choisir une voiture ». Ensuite, notre tâche consiste à ouvrir les liens fournis à notre demande vers des sources d'informations sur Internet. Cependant, il est fort possible que nous ne trouvions pas les informations dont nous avons besoin. Si cela se produit, soit vous devez reformuler votre demande, soit la base de données du moteur de recherche ne dispose vraiment d'aucune information pertinente sur notre demande (cela peut arriver lorsque vous posez des requêtes très « étroites », comme par exemple « comment choisir une voiture à Arkhangelsk »)

L’objectif principal de tout moteur de recherche est de fournir aux internautes exactement les informations qu’ils recherchent. Et apprendre aux utilisateurs à faire des requêtes « correctes » au système, c'est-à-dire les requêtes respectant les principes de fonctionnement des moteurs de recherche sont impossibles. Par conséquent, les développeurs créent des algorithmes et des principes de fonctionnement pour les moteurs de recherche qui permettraient aux utilisateurs de trouver les informations qu'ils recherchent.

Cela signifie que le moteur de recherche doit « penser » de la même manière que l’utilisateur pense lorsqu’il recherche des informations. Lorsqu'un utilisateur fait une requête à un moteur de recherche, il souhaite trouver ce dont il a besoin le plus rapidement et le plus facilement possible. En recevant le résultat, il évalue les performances du système, guidé par plusieurs paramètres de base. A-t-il trouvé ce qu'il cherchait ? S’il ne l’a pas trouvé, combien de fois a-t-il dû reformuler la requête pour trouver ce qu’il cherchait ? Quelle quantité d’informations pertinentes pourrait-il trouver ? À quelle vitesse le moteur de recherche a-t-il traité la requête ? Dans quelle mesure les résultats de recherche ont-ils été présentés ? Le résultat que vous recherchiez était-il le premier ou le centième ? Combien de déchets inutiles ont été trouvés ainsi que des informations utiles ? Les informations nécessaires seront-elles trouvées en accédant à un moteur de recherche, disons, dans une semaine ou dans un mois ?

Afin de répondre à toutes ces questions, les développeurs de moteurs de recherche améliorent constamment les algorithmes et les principes de recherche, ajoutent de nouvelles fonctions et capacités et essaient par tous les moyens d'accélérer le fonctionnement du système.

3. Principales caractéristiques d'un moteur de recherche

Décrivons les principales caractéristiques des moteurs de recherche :

  • exhaustivité

    L'exhaustivité est l'une des principales caractéristiques d'un système de recherche, qui est le rapport entre le nombre de documents trouvés par requête et le nombre total de documents sur Internet qui satisfont à la requête donnée. Par exemple, s'il y a 100 pages sur Internet contenant l'expression « comment choisir une voiture » et que seulement 60 d'entre elles ont été trouvées pour la requête correspondante, alors l'exhaustivité de la recherche sera de 0,6. Évidemment, plus la recherche est complète, moins il est probable que l'utilisateur ne trouve pas le document dont il a besoin, à condition qu'il existe sur Internet.

  • Précision

    La précision est une autre caractéristique principale d'un moteur de recherche, qui est déterminée par le degré avec lequel les documents trouvés correspondent à la requête de l'utilisateur. Par exemple, si la requête « comment choisir une voiture » contient 100 documents, 50 d'entre eux contiennent l'expression « comment choisir une voiture », et le reste contient simplement ces mots (« comment choisir la bonne radio et l'installer dans une voiture »), alors la précision de la recherche est considérée comme égale à 50/100 (=0,5). Plus la recherche est précise, plus l'utilisateur trouvera rapidement les documents dont il a besoin, moins il y aura de « déchets » divers parmi eux, moins souvent les documents trouvés ne correspondront pas à la demande.

  • Pertinence

    La pertinence est un élément tout aussi important de la recherche, qui se caractérise par le temps qui s'écoule entre le moment où les documents sont publiés sur Internet jusqu'à leur saisie dans la base de données d'index du moteur de recherche. Par exemple, le lendemain de l’apparition d’une nouvelle intéressante, un grand nombre d’utilisateurs se sont tournés vers les moteurs de recherche avec des requêtes pertinentes. Objectivement, moins d'un jour s'est écoulé depuis la publication d'informations d'actualité sur ce sujet, mais les principaux documents ont déjà été indexés et disponibles pour la recherche, grâce à l'existence de la « base de données rapide » des grands moteurs de recherche, qui est mis à jour plusieurs fois par jour.

  • Vitesse de recherche

    La vitesse de recherche est étroitement liée à sa résistance à la charge. Par exemple, selon Rambler Internet Holding LLC, aujourd'hui, pendant les heures de bureau, le moteur de recherche Rambler reçoit environ 60 requêtes par seconde. Une telle charge de travail nécessite de réduire le temps de traitement d'une demande individuelle. Ici, les intérêts de l'utilisateur et du moteur de recherche coïncident : le visiteur souhaite obtenir des résultats le plus rapidement possible, et le moteur de recherche doit traiter la demande le plus rapidement possible, afin de ne pas ralentir le calcul des requêtes ultérieures.

  • Visibilité

4. Bref historique du développement des moteurs de recherche

Au cours de la période initiale de développement d’Internet, le nombre d’utilisateurs était faible et la quantité d’informations disponibles relativement faible. Pour la plupart, seul le personnel de recherche avait accès à Internet. À cette époque, la tâche de recherche d’informations sur Internet n’était pas aussi urgente qu’aujourd’hui.

L'un des premiers moyens d'organiser l'accès aux ressources d'information du réseau a été la création d'annuaires ouverts de sites, dans lesquels des liens vers des ressources étaient regroupés par thème. Le premier projet de ce type était le site Web Yahoo.com, ouvert au printemps 1994. Après que le nombre de sites dans le catalogue ait considérablement augmenté, la possibilité de rechercher les informations nécessaires dans le catalogue a été ajoutée. Au sens plein, il ne s'agissait pas encore d'un moteur de recherche, puisque la zone de recherche se limitait aux seules ressources présentes dans le catalogue, et non à toutes les ressources Internet.

Les répertoires de liens étaient largement utilisés dans le passé, mais ils ont presque complètement perdu de leur popularité à l'heure actuelle. Étant donné que même les catalogues modernes, au volume énorme, ne contiennent des informations que sur une partie négligeable d'Internet. Le plus grand répertoire du réseau DMOZ (également appelé Open Directory Project) contient des informations sur 5 millions de ressources, tandis que la base de données du moteur de recherche Google comprend plus de 8 milliards de documents.

En 1995, apparaissent les moteurs de recherche Lycos et AltaVista. Ce dernier est leader dans le domaine de la recherche d’informations sur Internet depuis de nombreuses années.

En 1997, Sergey Brin et Larry Page ont créé le moteur de recherche Google dans le cadre d'un projet de recherche à l'Université de Stanford. Google est actuellement le moteur de recherche le plus populaire au monde !

En septembre 1997, le moteur de recherche Yandex, le plus populaire sur Internet en langue russe, a été officiellement annoncé.

Actuellement, il existe trois principaux moteurs de recherche (internationaux) - Google, Yahoo et, qui disposent de leurs propres bases de données et algorithmes de recherche. La plupart des autres moteurs de recherche (qui sont très nombreux) utilisent sous une forme ou une autre les résultats des trois répertoriés. Par exemple, la recherche AOL (search.aol.com) utilise la base de données Google, tandis qu'AltaVista, Lycos et AllTheWeb utilisent la base de données Yahoo.

5. Composition et principes de fonctionnement du système de recherche

En Russie, le principal moteur de recherche est Yandex, suivi de Rambler.ru, Google.ru, Aport.ru, Mail.ru. De plus, Mail.ru utilise actuellement le moteur de recherche et la base de données Yandex.

Presque tous les principaux moteurs de recherche ont leur propre structure, différente des autres. Il est cependant possible d’identifier les principales composantes communes à tous les moteurs de recherche. Les différences de structure ne peuvent prendre la forme que de la mise en œuvre des mécanismes d'interaction de ces composants.

Module d'indexation

Le module d'indexation se compose de trois programmes auxiliaires (robots) :

Spider est un programme conçu pour télécharger des pages Web. L'araignée télécharge la page et récupère tous les liens internes de cette page. Le code html de chaque page est téléchargé. Les robots utilisent les protocoles HTTP pour télécharger des pages. L'araignée fonctionne comme suit. Le robot envoie la requête « get/path/document » et quelques autres commandes de requête HTTP au serveur. En réponse, le robot reçoit un flux de texte contenant des informations sur le service et le document lui-même.

  • L'URL de la page
  • date à laquelle la page a été téléchargée
  • En-tête http de réponse du serveur
  • corps de la page (code html)

Crawler (« araignée voyageuse ») est un programme qui suit automatiquement tous les liens trouvés sur la page. Sélectionne tous les liens présents sur la page. Son travail consiste à déterminer où l'araignée doit aller ensuite, sur la base de liens ou d'une liste d'adresses prédéterminée. Crawler, en suivant les liens trouvés, recherche de nouveaux documents encore inconnus du moteur de recherche.

Indexer (robot indexeur) est un programme qui analyse les pages Web téléchargées par les araignées. L'indexeur analyse la page en ses composants et les analyse à l'aide de ses propres algorithmes lexicaux et morphologiques. Divers éléments de la page sont analysés, tels que le texte, les titres, les liens, les caractéristiques structurelles et stylistiques, les balises HTML de services spéciaux, etc.

Ainsi, le module d'indexation permet d'explorer un ensemble donné de ressources à l'aide de liens, de télécharger les pages rencontrées, d'extraire des liens vers de nouvelles pages à partir des documents reçus et d'effectuer une analyse complète de ces documents.

Base de données

Une base de données, ou index d'un moteur de recherche, est un système de stockage de données, un tableau d'informations dans lequel sont stockés les paramètres spécialement convertis de tous les documents téléchargés et traités par le module d'indexation.

Serveur de recherche

Le serveur de recherche est l'élément le plus important de l'ensemble du système, puisque la qualité et la rapidité de la recherche dépendent directement des algorithmes qui sous-tendent son fonctionnement.

Le serveur de recherche fonctionne comme suit :

  • La demande reçue de l'utilisateur est soumise à une analyse morphologique. L'environnement informationnel de chaque document contenu dans la base de données est généré (qui sera ensuite affiché sous la forme, c'est-à-dire des informations textuelles correspondant à la requête sur la page des résultats de recherche).
  • Les données reçues sont transmises comme paramètres d'entrée à un module de classement spécial. Les données sont traitées pour tous les documents, de sorte que chaque document dispose de sa propre notation qui caractérise la pertinence de la requête saisie par l'utilisateur et les différents éléments de ce document stockés dans l'index du moteur de recherche.
  • Selon le choix de l'utilisateur, cette note peut être ajustée par des conditions supplémentaires (par exemple, ce que l'on appelle la « recherche avancée »).
  • Ensuite, un extrait est généré, c'est-à-dire que pour chaque document trouvé, le titre, un court résumé qui correspond le mieux à la requête et un lien vers le document lui-même sont extraits de la table des documents, et les mots trouvés sont mis en surbrillance.
  • Les résultats de recherche résultants sont transmis à l’utilisateur sous la forme d’une SERP (Search Engine Result Page) – une page de résultats de recherche.

Comme vous pouvez le constater, tous ces composants sont étroitement liés les uns aux autres et fonctionnent en interaction, formant un mécanisme clair et plutôt complexe pour le fonctionnement du système de recherche, qui nécessite d'énormes quantités de ressources.

6. Conclusion

Résumons maintenant tout ce qui précède.

  • L’objectif principal de tout moteur de recherche est de fournir aux internautes exactement les informations qu’ils recherchent.
  • Principales caractéristiques des moteurs de recherche :
    1. exhaustivité
    2. Précision
    3. Pertinence
    4. Vitesse de recherche
    5. Visibilité
  • Le premier moteur de recherche à part entière fut le projet WebCrawler, publié en 1994.
  • Le système de recherche comprend les composants suivants :
    1. Module d'indexation
    2. Base de données
    3. Serveur de recherche

Nous espérons que notre master class vous permettra de vous familiariser davantage avec le concept de moteur de recherche et de mieux comprendre les principales fonctions, caractéristiques et principes de fonctionnement des moteurs de recherche.