Base de données. Création et inscription. Collecte d'informations à partir de sources ouvertes Collecte d'informations à partir de sources ouvertes

Analyseur est un programme permettant d'automatiser le processus d'analyse, c'est-à-dire le traitement des informations selon un algorithme spécifique. Dans cet article, je vais donner plusieurs exemples de programmes d'analyseur et décrire brièvement leur objectif et leurs principales fonctions.

Analyseur de contenu X-Parser

Les fonctions principales du programme se composent également de plusieurs blocs de programme.

  • L'analyseur recherche dans tous les moteurs de recherche des requêtes clés
  • Analyser le contenu de n'importe quel site
  • Analyseur de contenu pour les requêtes clés provenant de n'importe quel résultat de moteur de recherche
  • Analyseur de contenu basé sur une liste d'URL
  • Analyseur de liens internes
  • Analyseur de liens externes

Programme WebParser

L'analyseur WebParser est un programme universel. dont la fonction principale est d'analyser les moteurs de recherche. Fonctionne avec PS Google, Yandex, Rambler, Yahoo et quelques autres. analyse les moteurs de sites Web (CMS). Compatible avec toutes les versions de Windows à partir de W2000. Informations plus complètes.

Plugin WP Uniparser

Il ne faut pas oublier plugin pour WordPress WP Uniparser. Vous pouvez en apprendre davantage en suivant ce lien.

Analyseur "Magadan"

L'analyseur de mots-clés portant le nom romantique « Magadan » a été créé spécifiquement pour le traitement ciblé des mots-clés Yandex.Direct. Utile pour constituer un noyau sémantique, préparer des campagnes publicitaires et collecter et analyser des informations.

En conclusion, il convient de mentionner langage de programmation pour créer des sites Web Parser, créé dans le studio d’Artemy Lebedev et utilisé pour le développement de sites Web. Ce langage sera un peu plus complexe que le HTML ordinaire, mais ne nécessitera pas une préparation aussi approfondie que, par exemple, le langage PHP.

Lorsque nous avons besoin de trouver l’information dont nous avons besoin sur Internet, nous disposons de plusieurs manières pour y parvenir. La plupart des gens utilisent des moteurs de recherche, saisissent la requête requise et étudient les résultats de recherche fournis. À certaines fins, il est impossible de se passer du recours à des bases de données spécialisées (DB) ou à des sites d'annuaire.

La manière dont vous recherchez les informations nécessaires dépend uniquement de votre désir et détermine la quantité d'informations que vous devrez traiter avant de trouver ce que vous recherchez, ainsi que le temps que cela prendra.

Considérons brièvement plusieurs méthodes de recherche :

1. Si vous décidez d'utiliser un moteur de recherche pour obtenir des informations générales sur quelque chose, alors les résultats de millions de pages et de nombreux clics sur des liens ne devraient pas vous effrayer. Mais si votre objectif est de rechercher des informations spécifiques, des problèmes peuvent survenir. Cette méthode ne garantit pas l'exactitude des informations et prend du temps.

D'un autre côté, la plupart des moteurs de recherche, tels que Yandex et Google, vous permettent d'affiner la portée de votre recherche. Tout d’abord, vous pouvez utiliser des filtres de recherche avancés. À l'aide de ces filtres, vous pouvez sélectionner la région dont vous avez besoin, limiter les résultats de recherche par date de mise à jour du document, déterminer la langue du document et bien plus encore. Deuxièmement, dans le même Yandex, il existe un « langage de requête ». Son essence est que pour limiter la zone de recherche, vous pouvez utiliser des opérateurs spéciaux qui vous permettent de :

Récupérer uniquement les documents contenant le mot demandé sous la forme spécifiée

Clarifier la présence et la position relative des mots demandés dans le document

Limiter la recherche par type de fichier, hôte, etc.

2. Si vous avez besoin de trouver des informations sur un sujet spécifique, une recherche dans l'annuaire convient. Sur ces sites, les informations sont systématisées et structurées, divisées en thèmes et sous-thèmes, ce qui facilite la recherche de la rubrique dont vous avez besoin. Ces sites sont édités par de vraies personnes, de sorte que le plus souvent les liens qui y sont fournis sont fiables. Bien sûr, cette méthode de recherche n'est pas particulièrement efficace si vous avez besoin de trouver un document spécifique, mais elle fonctionne bien dans les cas où vous avez besoin de trouver autant d'informations que possible sur un sujet vaste.

Il existe un grand nombre de catalogues sur Internet, à la fois spécialisés, dédiés à un vaste sujet, et multidisciplinaires.

A titre d'exemple, nous pouvons considérer deux grands catalogues multidisciplinaires. DMOZ est l'un des plus grands catalogues de ressources Internet. Si l'on considère les annuaires purement en langue russe, on peut mettre en évidence list.mail.ru. Nous vous en dirons ensuite un peu plus sur ces ressources.

3. La recherche dans la base de données est efficace pour la recherche thématique. La collecte des informations dont nous avons besoin à partir d'informations, de ressources éducatives et scientifiques en langue étrangère et russe nécessite très souvent beaucoup d'efforts et peut coûter beaucoup de temps et d'argent.

Il existe un grand nombre de bases de données sur Internet - factuelles, bibliographiques, en texte intégral, objectographiques, etc., qui, en fonction du contenu des informations qui y sont stockées, peuvent être divisées en universelles, sectorielles et thématiques. Par exemple, les bases de données bibliographiques sont essentiellement des analogues électroniques des publications bibliographiques imprimées traditionnelles. En règle générale, les bases de données bibliographiques prennent en charge un algorithme clair et défini une fois pour décrire les documents selon certains critères. Cela permet de trouver les informations nécessaires, surtout si la tâche consiste à trouver une publication spécifique publiée dans un périodique.


Exemple. Catalogues.

Un annuaire de sites Internet, ou un annuaire de ressources Internet, ou simplement un annuaire Internet (anglais : webdirectory) est un ensemble structuré de liens vers des sites avec une brève description de ceux-ci. Les sites du répertoire sont divisés par sujet.

1. OpenDirectoryProject (ODP), également connu sous le nom de DMOZ (de l'un de ses noms de domaine d'origine directory.mozilla.org) est un répertoire multilingue et gratuit de liens vers des sites du World Wide Web maintenu par une communauté en ligne d'éditeurs bénévoles.

Actuellement sur le site vous pouvez trouver :

3 884 779 sites

Les informations sont disponibles en 90 langues, dont le russe, l'allemand, l'anglais, le grec, le français, le japonais, le coréen, l'italien, etc.

Le site compte 91 790 éditeurs.

Principales catégories : art, commerce, informatique, jeux, santé, maison, actualités, loisirs, annuaires, régions, sciences, shopping, société, sports, catalogue enfants et adolescents. Chacune de ces catégories principales est subdivisée en un grand nombre de sous-thèmes.

DMOZ est exploité par AOL Inc. (Conglomérat médiatique américain, fournisseur de services en ligne et de tableaux d'affichage électroniques). Il est géré par une petite équipe de spécialistes responsables de la politique éditoriale et de la gouvernance, de la gestion et du développement de la communauté, ainsi que de l'ingénierie des systèmes.

Cependant, DMOZ est avant tout une communauté autorégulée. Grâce à un système d'autogestion, des rédacteurs bénévoles gèrent la croissance et le développement du catalogue, tandis que des freins et contrepoids garantissent un contenu de haute qualité.

DMOZ est une initiative open source basée sur le volontariat. AOL Inc. Le gère davantage comme une organisation à but non lucratif et s'efforce de maintenir son atmosphère de ressource ouverte et gratuite.

2. Si nous parlons de catalogues en langue russe, nous pouvons alors mettre en évidence [email protected]. Semblable à DMOZ, il existe des sujets principaux qui sont ensuite divisés en sujets plus petits. Il existe 18 catégories principales au total : voitures, Internet, médecine et santé, actualités et médias, industrie manufacturière, affaires et finance, ordinateurs, science et éducation, sports, etc.

Pour la commodité des utilisateurs, à l'intérieur de chaque section, vous pouvez voir une répartition de tous les liens disponibles sur ce sujet par :

Types de sites (informatifs, corporatifs, personnels, sites de services, privés, informations et services)

Vous pouvez également trier les résultats par alphabet, date et popularité.

Chaque jour, [email protected] fournit les sites les plus visités de la journée parmi ceux du catalogue.


Exemple. Base de données.

Espacenet (anciennement appelé esp@cenet) est un service en ligne gratuit permettant de rechercher des brevets et des demandes de brevet. Espacenet a été développé par l'Office européen des brevets (OEB) en collaboration avec les États membres de l'Organisation européenne des brevets. La plupart des États membres peuvent utiliser Espacenet dans leur langue nationale et ont accès à la base de données mondiale de l'OEB, dont la plupart sont en anglais. En 2015, Espacenet prétendait détenir plus de 90 millions de publications de brevets.

Espacenet a été lancé pour la première fois en 1998, révolutionnant l'information internationale sur les brevets en la rendant publique et en changeant à jamais la manière dont les brevets sont distribués, examinés et recherchés.

En 2012, l'OEB a lancé le projet PatentTranslate, un service en ligne gratuit de traduction automatique de brevets. Le service a été créé en partenariat avec Google et a été « spécialement conçu pour gérer un langage de brevet complexe ». PatentTranslate couvre 31 langues.

Depuis mars 2016, Espacenet propose une recherche en texte intégral de documents brevets anglais, français et allemands.

Exemple. Moteur de recherche.

Un moteur de recherche est un système informatique conçu pour rechercher des informations. L'une des applications les plus connues des moteurs de recherche sont les services Web permettant de rechercher des informations textuelles ou graphiques sur le World Wide Web.

Pour rechercher des informations à l'aide d'un moteur de recherche, l'utilisateur formule une requête de recherche. Le travail d'un moteur de recherche consiste à répondre à la demande d'un utilisateur en recherchant des documents contenant soit des mots-clés spécifiés, soit des mots liés d'une manière ou d'une autre aux mots-clés.

L'architecture des moteurs de recherche comprend généralement :

Un robot de recherche qui collecte des informations sur des sites Internet ou d'autres documents,

Un indexeur qui permet une recherche rapide dans les informations accumulées, et

Le moteur de recherche est une interface graphique pour l'utilisateur.

À l'heure actuelle, les utilisateurs ont un large choix quant au moteur de recherche qu'ils souhaitent utiliser pour trouver les informations dont ils ont besoin : Google, Bing, Yahoo !, Yandex, Rambler, etc.

À titre d'exemple, nous examinerons le moteur de recherche Bing. Bing est un service de recherche relativement nouveau, qui a annoncé son existence pour la première fois en 2009 et a été introduit par le PDG de Microsoft, Steve Ballmer. Cependant, malgré sa jeunesse, ce moteur de recherche est aujourd'hui deuxième en popularité dans certains pays européens, ainsi que dans les pays d'Amérique du Nord, derrière le géant de la recherche Google.

Bing est le plus populaire dans des pays comme les États-Unis, la Chine, l’Allemagne, l’Inde et le Royaume-Uni.

Le moteur de recherche a une apparence laconique, et pour trouver des informations vous pouvez également utiliser les catégories « Images », « Vidéos », « Cartes », « Actualités ». De plus, Bing dispose de son propre traducteur basé sur Microsoft Translator. Les fonctionnalités de ce moteur de recherche incluent le fait que vous pouvez utiliser les produits Microsoft Office sous licence directement dans le moteur de recherche, sans les installer sur votre ordinateur.

Si vous évaluez ce site en tant que source d'informations, vous risquez de rencontrer une fonctionnalité qui complique une recherche rapide et précise. La particularité de l’algorithme de recherche Bing est son rapport à la densité des mots clés. Si pour une promotion réussie dans d'autres moteurs de recherche, les textes du site doivent contenir de 5 à 8 % de mots-clés, alors Bing considère que la densité naturelle des clés est de 3 %. Ainsi, la probabilité que votre demande fournisse des liens vers des sites qui ne contiennent pas les informations nécessaires augmente.

Comme ses concurrents, Bing a la possibilité de filtrer les résultats par période, langue et région.


CONCLUSION

Internet constitue un gigantesque référentiel de données sur toutes les branches de la connaissance humaine. Les bibliothèques virtuelles, les archives et les fils d'actualité contiennent un grand nombre de fichiers texte, graphiques, audio et vidéo - le réseau informatique mondial nous fournit une énorme quantité d'informations ouvertes. Et naviguer dans ce flux d'informations et trouver ce dont vous avez besoin est très important pour une personne du 21e siècle.

Nous nous sommes familiarisés avec des types de sources d'information ouvertes sur Internet telles que des annuaires, des bases de données et des moteurs de recherche à l'aide d'exemples spécifiques et avons examiné comment les informations sont recherchées dans ces ressources.

Sources

1) Article « Collecte d'informations à partir de sources ouvertes » [Ressource électronique] // Vsepoisk, 2015, URL : http://www.vsepoisk.ru/2009/03/blog-post_27.html (Date d'accès : 12/13 /2016)

2) Site officiel de DMOZ [Ressource électronique] // DMOZ, 2016, URL : http://www.dmoz.org/ (Date d'accès : 13/12/2016)

3) Site officiel Catalog@Mail [Ressource électronique] // Mail.ru, 2016, URL : http://list.mail.ru/ (Date d'accès : 13/12/2016)

4) Site officiel d'Espacenet [Ressource électronique] // Espacenet, 2015 URL : http://www.epo.org/index.html (Date d'accès : 13/12/2016)

5) Article « Recherche dans les bases de données » [Ressource électronique] // Vsepoisk, 2015, URL : http://www.vsepoisk.ru/2009/04/blog-post_08.html (Date d'accès : 13/12/2016)

Les méthodes de collecte de données utilisées varient selon le type de recherche menée – primaire ou secondaire.

Dans le cas des études de marketing secondaires, les méthodes de recherche sur Internet des informations nécessaires sont mises en avant. Les principaux outils de recherche aujourd'hui sont les moteurs de recherche et les catalogues. Dans certains cas, lorsque leur utilisation ne produit pas un effet suffisant, une recherche « manuelle » est utilisée sur des sites thématiques, des « pages jaunes » et un certain nombre d'autres ressources. Les méthodes de recherche sont abordées plus en détail dans une section ultérieure de ce chapitre.

Dans le cas de la collecte d'informations primaires, les principales méthodes de collecte de données sont les enquêtes en ligne, l'observation et les expériences.

Enquêtes sur Internet - la méthode la plus utilisée pour les réaliser est le questionnaire. Un questionnaire est un ensemble de questions auxquelles les réponses doivent être obtenues auprès des répondants, c'est-à-dire des personnes sélectionnées pour l'enquête. En raison de sa grande flexibilité et polyvalence, cet outil est le moyen le plus courant de collecte de données primaires ;

En figue. La figure 3 montre un fragment d'un questionnaire que les utilisateurs qui décident d'utiliser le service de messagerie gratuit du site sont invités à remplir.

Riz. 3.

Tout comme lors de la réalisation de types de questionnaires traditionnels, avant chaque étude sur Internet, il est nécessaire de développer et de tester soigneusement les questionnaires utilisés. Une approche non professionnelle de leur compilation conduit inévitablement à une distorsion de l'image réelle, ou les résultats obtenus ne se prêtent pas à une interprétation raisonnable.

L'une des autres sections de ce chapitre, intitulée « Réaliser des enquêtes sur Internet », est consacrée à ce type de recherche.

L'observation est une forme d'étude marketing, à l'aide de laquelle une étude systématique et systématique du comportement d'un objet ou d'un sujet est réalisée. L'observation, contrairement au questionnement, ne dépend pas de la volonté de l'objet observé de fournir des informations et est un processus de collecte et d'enregistrement ouvert ou secret d'événements ou de moments particuliers associés à son comportement. Le sujet d'observation peut être, par exemple, les caractéristiques et le comportement des acheteurs ;

Cette méthode inclut les études marketing menées par les entreprises si elles disposent de leur propre serveur Web. Ils consistent à collecter puis à analyser des données obtenues à partir des fichiers journaux du serveur Web ou via l'utilisation de technologies de cookies. Ces données peuvent concerner le comportement des visiteurs, l'ordre dans lequel ils cliquent sur les pages ou les statistiques de visite du serveur Web. Si elles sont placées sur un site Web de moteur de recherche, les requêtes saisies par les utilisateurs peuvent en outre être collectées et analysées.

La possibilité d’analyser les statistiques de visites du serveur est l’un des outils marketing efficaces. Contrairement aux enquêtes, qui nécessitent la participation active des répondants, l'analyse statistique vous permet de collecter des informations précieuses sans impliquer les visiteurs dans des actions actives.

Expérience - la plus rigoureuse d'un point de vue scientifique est une étude expérimentale visant à établir des relations de cause à effet. Les sujets expérimentaux doivent être spécifiquement sélectionnés et soumis à des stimuli planifiés dans des conditions environnementales contrôlées pour révéler des différences statistiquement significatives dans leur réponse. Dans la mesure où les chercheurs sont capables de « supprimer » ou de contrôler les facteurs externes non pertinents, les effets observés peuvent être corrélés aux influences des expérimentateurs sur le sujet. Les liens entre les événements ainsi établis après leur analyse critique peuvent être considérés comme des causes et des effets, et les objectifs de l'expérience peuvent être considérés comme atteints.

INTRODUCTION

Internet est comme une immense bibliothèque mondiale, qui n'a qu'une seule différence, mais significative : pour rechercher un livre dans la bibliothèque, il existe un catalogue ; dans les cas extrêmes, vous pouvez contacter un bibliothécaire expérimenté. Il n'existe pas de catalogue Internet complet. Néanmoins, la recherche sur le réseau informatique mondial est possible, et c'est peut-être l'un de ses aspects les plus importants. Pour rechercher des données sur le réseau, des serveurs spéciaux sont utilisés, dont les informations sont conservées et mises à jour presque automatiquement.

Aujourd’hui, alors qu’Internet est devenu l’une des principales sources d’information, la recherche sur Internet devient de plus en plus pratique. Mais avec l’augmentation rapide du volume de données disponibles, la procédure de recherche elle-même devient de plus en plus complexe.

Internet est un réseau informatique mondial qui connecte à la fois les utilisateurs de réseaux informatiques et les utilisateurs de PC. Internet devient lentement mais sûrement le principal moyen de communication des entreprises, laissant pour l’instant la place au téléphone.

Il existe une énorme quantité de ressources d'information sur Internet. Selon certaines estimations, le nombre de documents a dépassé les 65 millions et continue de croître rapidement. Un tel volume d'informations nécessite une bonne organisation du processus de recherche et l'utilisation de moyens techniques spéciaux, tels que les moteurs de recherche. Une simple recherche d’un mot-clé assez courant donne généralement des dizaines de milliers à plusieurs millions de liens. Il est évident qu'il est pratiquement impossible de travailler avec un si grand nombre de documents, d'autant plus que la grande majorité d'entre eux contiennent des informations qui ne sont pas pertinentes pour l'affaire.

Les sources d'information sur Internet varient dans la manière dont elles présentent l'information, et donc dans la manière dont elles sont accessibles.

1 OUTILS DE RECHERCHE

1.1 Outils de recherche de fichiers

La recherche manuelle d'un fichier dans la structure de répertoires complexe d'un serveur FTP peut prendre beaucoup de temps. Pour simplifier et accélérer la recherche, le service de recherche Internet Archie a été développé, qui est un serveur Archie spécial qui stocke le contenu des répertoires de serveurs FTP anonymes. Lorsque vous soumettez une demande de recherche au serveur Archie, le résultat de la recherche est une liste d'adresses de serveurs FTP anonymes contenant le fichier souhaité.

Mais la tâche se pose de trouver celui souhaité parmi les nombreux fichiers de ce serveur, ce qui est assez difficile en raison des noms peu impressionnants et incompréhensibles des fichiers et des répertoires. Pour résoudre ce problème, le système Gopher est utilisé, qui vous permet de naviguer dans un système de menus contextuels qui affichent le contenu des fichiers à l'aide de notations compréhensibles. Il existe de nombreux serveurs Gopher qui contiennent des archives de données sous la forme de répertoires structurés hiérarchiquement, organisés par contenu. Travailler avec eux est très simple et correspond à travailler avec un affichage normal du système de fichiers.

Il existe une extension de ce système - Veronica, qui contient dans sa base de données les répertoires de tous les serveurs Gopher. Après avoir saisi une requête de recherche, Veronica analyse automatiquement tous les répertoires Gopher à la recherche des informations que vous recherchez, éliminant ainsi le besoin de longues recherches manuelles sur de nombreux serveurs Gopher.

Avec ce mode de navigation, Gopher était, dans une certaine mesure, un précurseur du WWW. Actuellement, l’utilisation de Gopher diminue proportionnellement à la croissance de l’utilisation du WWW.

1.2 Outils WWW - WorldWideWeb (World Wide Web)

En 1993, le système de recherche d'informations WWW a été développé et, grâce à la facilité de navigation et d'accessibilité, a ouvert les sources d'informations Internet aux utilisateurs non préparés. Le WWW a déclenché un boom d'Internet qui se poursuit encore aujourd'hui, la quantité d'informations disponibles sur Internet doublant chaque année.

WWW repose sur le principe de l'hypertexte (déjà familier au lecteur), c'est-à-dire sur un système de documents reliés par des hyperliens. L'hypertexte est constitué de mots-clés spécialement extraits du texte normal. Les liens hypertextes renvoient l'utilisateur vers d'autres documents sur le même serveur ou vers d'autres serveurs pouvant être situés n'importe où sur Internet. Si ce document texte est également hypertexte, alors ses liens permettent d'aller plus loin vers les documents correspondants. Chaque redirection s'effectue inaperçue pour l'utilisateur, ce qui lui permet de visualiser la composition des informations d'Internet de manière significative, sans se soucier de s'adresser à des ordinateurs spécifiques.

Avec le développement des applications multimédias, les documents initialement purement hypertextes deviennent de plus en plus hypermédias. Ainsi, les documents WWW peuvent exister dans n'importe quel format de données : texte, graphiques, son/musique ou clip vidéo. L'orientation et la navigation sur le World Wide Web s'effectuent à l'aide de programmes spéciaux appelés navigateurs WWW qui fournissent une interface utilisateur, tels que NetscapeNavigator ou MicrosoftInternetExplorer.

Le point de départ de la recherche d'informations est, en règle générale, la page (site) principale (base, accueil) d'une ressource d'information, accessible en saisissant l'adresse appropriée dans le navigateur (par exemple, http://ncpi .gov.by ou www.iparegistr.com). Les sites WWW sont créés et mis à jour par des sociétés ou des organisations spéciales qui publient des informations et surveillent le contenu de leurs pages WWW. L'utilisation du WWW n'est donc pas passive et chaque internaute, à l'aide de programmes d'édition hypertexte spéciaux, peut créer indépendamment ses propres pages WWW interactives. Cela a ouvert la voie à la commercialisation et à l’expansion croissantes d’Internet.

De nos jours, les informations nouvellement créées ont tendance à être construites en tenant compte de l'accès au Web, et les documents plus anciens sont progressivement convertis pour s'y adapter, mais il existe encore des millions de fichiers dans le monde sous des formes autres que celles requises par le WWW. Pour utiliser ces informations via le WWW, les navigateurs incluent les services Internet décrits ci-dessus qui permettent d'y accéder (telnet, ftp, Archie, Gopher). Grâce au WWW, vous pouvez également utiliser d'autres services Internet destinés à la communication (eMail, NetNews). Le navigateur WWW est donc devenu le programme de communication universel sur Internet.

Avec l'avènement du service WWW, un boom d'Internet a commencé. Cet environnement utilisateur unifié et facile à utiliser pour tous les services a fait qu'Internet intéresse de nombreuses personnes et organisations. Il s’est soudain avéré qu’il n’est pas nécessaire d’être un spécialiste d’Internet pour utiliser les services réseau. Cela peut être comparé au succès de Microsoft avec la sortie de Microsoft Windows en tant qu'interface utilisateur graphique. Avant Windows, chaque application DOS possédait son propre manuel d'utilisation, ce qui exigeait que chaque application soit apprise séparément.

2 TECHNIQUES DE BASE POUR RECHERCHER DES INFORMATIONS SUR INTERNET

2.1 Exigences de base en matière de recherche

Les résultats de la recherche sont soumis aux exigences de couverture complète des ressources, de fiabilité des informations reçues, de temps minimal passé et de vitesse de recherche maximale.

L'exigence d'une couverture complète des ressources ne nécessite pas d'explications supplémentaires, à l'exception de la nécessité d'utiliser des ressources non seulement du WWW, mais également d'autres services Internet lors de la recherche.

Compte tenu de la nature d’Internet, la fiabilité de l’information devient une exigence extrêmement importante. L'évaluation de la fiabilité peut être réalisée aussi bien par des méthodes traditionnelles (vérification de la légalité des publications sur papier, obtention d'informations sur les organisations et les auteurs, vérification de la validité de leurs ressources électroniques, etc.) qu'en utilisant Internet (familiarisation avec des sources alternatives de informations, vérification des éléments factuels, établissement de la fréquence de leur utilisation par d'autres sources; détermination du statut d'un document et de la notation de la source à l'aide de moteurs de recherche, obtention d'informations sur la compétence et le statut de l'auteur du matériel à l'aide d'une recherche Internet spéciale services ; analyse des éléments individuels de l'organisation du chantier afin d'évaluer les qualifications des spécialistes qui l'accompagnent, etc.).

Le temps de recherche, sans compter le temps associé aux caractéristiques techniques de la connexion, dépend principalement de la planification de la recherche et des compétences du spécialiste de la recherche disposant de la ressource du type sélectionné. La planification de la recherche consiste à déterminer les services de recherche requis pour résoudre le besoin de recherche et l'ordre de leur utilisation. En outre, tout dépend des compétences et de l’expérience de chaque spécialiste de la recherche.

Comme indiqué, les informations sur Internet sont disponibles à partir de différents types de sources. Il s'agit tout d'abord des ressources du WWW (système hypertexte, annuaires de ressources, moteurs de recherche). De plus, il s'agit du courrier électronique, des robots de messagerie, d'Usenet et d'autres téléconférences déjà connues du lecteur, ainsi que des systèmes et archives FTP (utilisant Gopher et Veronica). WWW vous permet de rechercher les ressources requises en fonction de ses hyperpropriétés, c'est-à-dire que les moteurs de recherche existants fonctionnent automatiquement en utilisant des hyperliens, sans exclure la possibilité d'une navigation manuelle. Le WWW propose un certain nombre de services de recherche à des fins générales et spécialisées.

INTRODUCTION

Internet est comme une immense bibliothèque mondiale, qui n'a qu'une seule différence, mais significative : pour rechercher un livre dans la bibliothèque, il existe un catalogue ; dans les cas extrêmes, vous pouvez contacter un bibliothécaire expérimenté. Il n'existe pas de catalogue Internet complet. Néanmoins, la recherche sur le réseau informatique mondial est possible, et c'est peut-être l'un de ses aspects les plus importants. Pour rechercher des données sur le réseau, des serveurs spéciaux sont utilisés, dont les informations sont conservées et mises à jour presque automatiquement.

Aujourd’hui, alors qu’Internet est devenu l’une des principales sources d’information, la recherche sur Internet devient de plus en plus pratique. Mais avec l’augmentation rapide du volume de données disponibles, la procédure de recherche elle-même devient de plus en plus complexe.

Internet est un réseau informatique mondial qui connecte à la fois les utilisateurs de réseaux informatiques et les utilisateurs de PC. Internet devient lentement mais sûrement le principal moyen de communication des entreprises, laissant pour l’instant la place au téléphone.

Il existe une énorme quantité de ressources d'information sur Internet. Selon certaines estimations, le nombre de documents a dépassé les 65 millions et continue de croître rapidement. Un tel volume d'informations nécessite une bonne organisation du processus de recherche et l'utilisation de moyens techniques spéciaux, tels que les moteurs de recherche. Une simple recherche d’un mot-clé assez courant donne généralement des dizaines de milliers à plusieurs millions de liens. Il est évident qu'il est pratiquement impossible de travailler avec un si grand nombre de documents, d'autant plus que la grande majorité d'entre eux contiennent des informations qui ne sont pas pertinentes pour l'affaire.

Les sources d'information sur Internet varient dans la manière dont elles présentent l'information, et donc dans la manière dont elles sont accessibles.

1 OUTILS DE RECHERCHE

1.1 Outils de recherche de fichiers

La recherche manuelle d'un fichier dans la structure de répertoires complexe d'un serveur FTP peut prendre beaucoup de temps. Pour simplifier et accélérer la recherche, le service de recherche Internet Archie a été développé, qui est un serveur Archie spécial qui stocke le contenu des répertoires de serveurs FTP anonymes. Lorsque vous soumettez une demande de recherche au serveur Archie, le résultat de la recherche est une liste d'adresses de serveurs FTP anonymes contenant le fichier souhaité.

Mais la tâche se pose de trouver celui souhaité parmi les nombreux fichiers de ce serveur, ce qui est assez difficile en raison des noms peu impressionnants et incompréhensibles des fichiers et des répertoires. Pour résoudre ce problème, le système Gopher est utilisé, qui vous permet de naviguer dans un système de menus contextuels qui affichent le contenu des fichiers à l'aide de notations compréhensibles. Il existe de nombreux serveurs Gopher qui contiennent des archives de données sous la forme de répertoires structurés hiérarchiquement, organisés par contenu. Travailler avec eux est très simple et correspond à travailler avec un affichage normal du système de fichiers.

Il existe une extension de ce système - Veronica, qui contient dans sa base de données les répertoires de tous les serveurs Gopher. Après avoir saisi une requête de recherche, Veronica analyse automatiquement tous les répertoires Gopher à la recherche des informations que vous recherchez, éliminant ainsi le besoin de longues recherches manuelles sur de nombreux serveurs Gopher.

Avec ce mode de navigation, Gopher était, dans une certaine mesure, un précurseur du WWW. Actuellement, l’utilisation de Gopher diminue proportionnellement à la croissance de l’utilisation du WWW.

1.2 Outils WWW - WorldWideWeb (World Wide Web)

En 1993, le système de recherche d'informations WWW a été développé et, grâce à la facilité de navigation et d'accessibilité, a ouvert les sources d'informations Internet aux utilisateurs non préparés. Le WWW a déclenché un boom d'Internet qui se poursuit encore aujourd'hui, la quantité d'informations disponibles sur Internet doublant chaque année.

WWW repose sur le principe de l'hypertexte (déjà familier au lecteur), c'est-à-dire sur un système de documents reliés par des hyperliens. L'hypertexte est constitué de mots-clés spécialement extraits du texte normal. Les liens hypertextes renvoient l'utilisateur vers d'autres documents sur le même serveur ou vers d'autres serveurs pouvant être situés n'importe où sur Internet. Si ce document texte est également hypertexte, alors ses liens permettent d'aller plus loin vers les documents correspondants. Chaque redirection s'effectue inaperçue pour l'utilisateur, ce qui lui permet de visualiser la composition des informations d'Internet de manière significative, sans se soucier de s'adresser à des ordinateurs spécifiques.

Avec le développement des applications multimédias, les documents initialement purement hypertextes deviennent de plus en plus hypermédias. Ainsi, les documents WWW peuvent exister dans n'importe quel format de données : texte, graphiques, son/musique ou clip vidéo. L'orientation et la navigation sur le World Wide Web s'effectuent à l'aide de programmes spéciaux appelés navigateurs WWW qui fournissent une interface utilisateur, tels que NetscapeNavigator ou MicrosoftInternetExplorer.

Le point de départ de la recherche d'informations est, en règle générale, la page (site) principale (base, accueil) d'une ressource d'information, accessible en saisissant l'adresse appropriée dans le navigateur (par exemple, http://ncpi .gov.by ou www.iparegistr.com). Les sites WWW sont créés et mis à jour par des sociétés ou des organisations spéciales qui publient des informations et surveillent le contenu de leurs pages WWW. L'utilisation du WWW n'est donc pas passive et chaque internaute, à l'aide de programmes d'édition hypertexte spéciaux, peut créer indépendamment ses propres pages WWW interactives. Cela a ouvert la voie à la commercialisation et à l’expansion croissantes d’Internet.

De nos jours, les informations nouvellement créées ont tendance à être construites en tenant compte de l'accès au Web, et les documents plus anciens sont progressivement convertis pour s'y adapter, mais il existe encore des millions de fichiers dans le monde sous des formes autres que celles requises par le WWW. Pour utiliser ces informations via le WWW, les navigateurs incluent les services Internet décrits ci-dessus qui permettent d'y accéder (telnet, ftp, Archie, Gopher). Grâce au WWW, vous pouvez également utiliser d'autres services Internet destinés à la communication (eMail, NetNews). Le navigateur WWW est donc devenu le programme de communication universel sur Internet.

Avec l'avènement du service WWW, un boom d'Internet a commencé. Cet environnement utilisateur unifié et facile à utiliser pour tous les services a fait qu'Internet intéresse de nombreuses personnes et organisations. Il s’est soudain avéré qu’il n’est pas nécessaire d’être un spécialiste d’Internet pour utiliser les services réseau. Cela peut être comparé au succès de Microsoft avec la sortie de Microsoft Windows en tant qu'interface utilisateur graphique. Avant Windows, chaque application DOS possédait son propre manuel d'utilisation, ce qui exigeait que chaque application soit apprise séparément.

2 TECHNIQUES DE BASE POUR RECHERCHER DES INFORMATIONS SUR INTERNET

2.1 Exigences de base en matière de recherche

Les résultats de la recherche sont soumis aux exigences de couverture complète des ressources, de fiabilité des informations reçues, de temps minimal passé et de vitesse de recherche maximale.

L'exigence d'une couverture complète des ressources ne nécessite pas d'explications supplémentaires, à l'exception de la nécessité d'utiliser des ressources non seulement du WWW, mais également d'autres services Internet lors de la recherche.

Compte tenu de la nature d’Internet, la fiabilité de l’information devient une exigence extrêmement importante. L'évaluation de la fiabilité peut être réalisée aussi bien par des méthodes traditionnelles (vérification de la légalité des publications sur papier, obtention d'informations sur les organisations et les auteurs, vérification de la validité de leurs ressources électroniques, etc.) qu'en utilisant Internet (familiarisation avec des sources alternatives de informations, vérification des éléments factuels, établissement de la fréquence de leur utilisation par d'autres sources; détermination du statut d'un document et de la notation de la source à l'aide de moteurs de recherche, obtention d'informations sur la compétence et le statut de l'auteur du matériel à l'aide d'une recherche Internet spéciale services ; analyse des éléments individuels de l'organisation du chantier afin d'évaluer les qualifications des spécialistes qui l'accompagnent, etc.).

Le temps de recherche, sans compter le temps associé aux caractéristiques techniques de la connexion, dépend principalement de la planification de la recherche et des compétences du spécialiste de la recherche disposant de la ressource du type sélectionné. La planification de la recherche consiste à déterminer les services de recherche requis pour résoudre le besoin de recherche et l'ordre de leur utilisation. En outre, tout dépend des compétences et de l’expérience de chaque spécialiste de la recherche.

Comme indiqué, les informations sur Internet sont disponibles à partir de différents types de sources. Il s'agit tout d'abord des ressources du WWW (système hypertexte, annuaires de ressources, moteurs de recherche). De plus, il s'agit du courrier électronique, des robots de messagerie, d'Usenet et d'autres téléconférences déjà connues du lecteur, ainsi que des systèmes et archives FTP (utilisant Gopher et Veronica). WWW vous permet de rechercher les ressources requises en fonction de ses hyperpropriétés, c'est-à-dire que les moteurs de recherche existants fonctionnent automatiquement en utilisant des hyperliens, sans exclure la possibilité d'une navigation manuelle. Le WWW propose un certain nombre de services de recherche à des fins générales et spécialisées.

Les répertoires de ressources sont des bases de données contenant des adresses de ressources Internet et une grande variété de sujets. Ils ont généralement une structure hiérarchique familière à l'utilisateur et des moyens de recherche à travers celle-ci. Ces catalogues sont pour la plupart tenus par des spécialistes de la classification, c'est-à-dire qu'une certaine approche subjective de la sélection des informations est prédéterminée, ce qui, d'une part, garantit dans une certaine mesure la fiabilité de l'information, mais d'autre part, prédétermine la possibilité de l'absence (omission) d'une partie de l'information, ainsi que de son placement tardif dans le catalogue.

Les moteurs de recherche sont un mécanisme permettant de créer automatiquement des liens (index) vers diverses ressources. Les moteurs de recherche peuvent se concentrer sur des ressources mondiales, spécialisées ou locales. Il s’agit essentiellement de puissants systèmes de recherche d’informations qui, à l’aide de programmes robotiques spéciaux (appelés « araignées »), recherchent automatiquement et en permanence les informations requises sur Internet. Des bases de données spécialisées créées sur cette base permettent une recherche d'informations basée sur les demandes des utilisateurs basées sur des PN spéciaux. Certes, la couverture des informations consultées dépend des algorithmes utilisés et même pour des moteurs de recherche puissants laisse beaucoup à désirer.

Le courrier électronique est utilisé sur Internet et sur WWW. Les adresses finissent ensuite dans les moteurs de recherche et sont disponibles pour les moteurs de recherche.

Les robots de messagerie sont des programmes spéciaux capables de répondre par certaines actions aux commandes qu'ils reçoivent par courrier électronique. Leur objectif principal est d'envoyer des données sur demande lorsqu'elles ne sont pas disponibles d'une autre manière, et également comme alternative au travail en ligne avec l'une des ressources connues, par exemple les archives FTP. L'adresse du robot mail est au format email. Lors de la recherche, les robots de messagerie ne sont généralement utilisés que comme intermédiaires pour obtenir des informations. Parfois, il faut se rendre à l’évidence : ils s’avèrent être le seul moyen d’obtenir les informations nécessaires.

Usenet et d'autres groupes de discussion régionaux et spécialisés sont des « tableaux d'affichage » électroniques sur lesquels l'utilisateur publie ses informations dans l'un des groupes de discussion thématiques, transmises aux abonnés sur le sujet concerné. Cette ressource est la plus importante pour accumuler rapidement des informations sur une question précise et, lors de la recherche, plus souvent pour obtenir des informations privées et non officielles.

Les ressources disponibles via telnet représentent, dans certains cas, des informations tout à fait uniques, principalement sur les catalogues des bibliothèques des universités européennes et américaines, ainsi que des agences gouvernementales.

Comme nous l'avons déjà noté, le système d'archives de fichiers FTP dispose de ressources assez étendues d'informations précieuses qui n'ont pas encore été traduites sur le WWW. Les archives FTP sont avant tout des sources d'obtention de logiciels. Leur recherche peut présenter un certain intérêt si vous connaissez la structure des archives ; créer des systèmes de fichiers, des noms de fichiers et des répertoires contenant les ressources requises.

2.2 Méthodologie de recherche d'informations sur Internet

La recherche des informations nécessaires sur Internet peut se faire de différentes manières :

· Rechercher à l'aide des moteurs de recherche par mot-clé

· Recherche à l'aide des classificateurs des moteurs de recherche

· Répertoires et collections de liens (concepts plus généraux)

· Conférences, chats

· Pages de liens (« Liens ») sur des sites thématiques (articles rares, spécialisés)

· Méthodes hors réseau (conseils d'amis, de connaissances ; publicité dans la presse écrite)

Au début de la recherche d'une information, il est nécessaire de déterminer son type. Classiquement, 4 types d’informations peuvent être distingués.

Type 1 - général (par exemple : histoire de l'Empire russe),

Type 2 - moins général (par exemple : empereur Alexandre II),

Type 3 - spécifique (par exemple : réformes d'Alexandre II),

Type 4 - plus spécifique (par exemple : abolition du servage).

En fonction du type d'informations, des chemins de recherche sont déterminés.

Les informations de type 1 sont recherchées à l'aide des classificateurs des moteurs de recherche (depuis les classificateurs russes - Yandex www.Yandex.ru est recommandé). Si les sites contenant les informations requises ne sont pas immédiatement trouvés, vous devez alors parcourir les répertoires et les pages de liens (« Liens ») trouvés à l'aide du classificateur, qui se trouvent sur des sites sur des sujets similaires. Ces sites sont répertoriés dans un classificateur par thèmes et répertoires trouvés.

Les informations de type 2 sont recherchées de la même manière que la recherche de type 1, mais avec l'avantage de rechercher dans des répertoires et des pages de liens.

Informations de type 3 - par mots-clés saisis dans la barre de recherche des moteurs de recherche, annuaires, pages de liens

Informations de type 4 - basées sur des données détaillées saisies dans la barre de recherche. Les données sont trouvées selon les méthodes de recherche décrites pour les types 2 et 3.

Recherche par 1 type. Informations requises : « Histoire de l'Empire russe ».

Accédez à Yandex - Science et éducation / Sciences sociales / Histoire. Sur la base de la description du sujet, nous trouvons le site http://rus-hist.on.ufanet.ru.. S'il ne contient pas les informations nécessaires, rendez-vous sur la page des liens de ce site. Il contient des liens vers des catalogues de ressources : www.history.ru, http://www.lants.tellur.ru/history/index.htm. Ils trouveront très probablement des sites sur un sujet donné.

Recherche par type 2. Informations requises : « Empereur Alexandre II ».

La recherche est effectuée de la même manière que la précédente, mais une plus grande attention est accordée au travail avec les catalogues www.history.ru, http://www.lants.tellur.ru/history/index.htm.

Recherche par type 3. Informations requises : « Réformes d'Alexandre II »

Voici une nouvelle façon de rechercher : en utilisant des mots-clés. Nous écrivons dans la barre de recherche Yandex « Réformes d'Alexandre II ». Le résultat de la visualisation est de 1 790 pages, réparties sur 170 sites, dont des catalogues. Pour affiner les informations, vous pouvez ajouter de nouveaux mots-clés - des faits supplémentaires dans la sélection de sites déjà trouvée, par exemple : « 1860-1870 ». etc. Dans d'autres moteurs de recherche, l'intégralité des « Réformes d'Alexandre II en 1860-1870 » est saisie. Pour rechercher des informations spécifiées, vous pouvez également utiliser les « Liens » fournis sur les sites trouvés

2.3 Développement d'une ressource d'information

Comme les autres technologies de l'information, Internet est créé par des développeurs, mais dans ce cas, ce sont principalement des créateurs de ressources (à commencer par des spécialistes du matériel et des logiciels, des concepteurs, des artistes, des éditeurs et, surtout, des auteurs de ressources d'information). Naturellement, la création de ressources n'est pas une fin en soi : les ressources seront demandées par les utilisateurs du réseau, c'est-à-dire par les mêmes spécialistes et consommateurs de ressources, parmi lesquels, comme déjà noté, une nouvelle couche apparaît - les spécialistes de l'exploration de données et récupération de l'information. Les ressources d'information d'Internet, ainsi que d'autres, y compris les ressources d'information non électroniques (en particulier les médias), sont caractérisées par certains états de leur activité (Fig. 9.3).

La ressource est générée en fonction des besoins de la société et de ses capacités (notamment liées au niveau de condition technique et sociale de la société).

Dans la mesure du possible, la ressource « grandit », s'établit (ou disparaît en l'absence totale de demande, c'est-à-dire qu'elle disparaît, peut-être pas au sens physique - le site peut exister, mais au sens de la demande).

À un certain niveau de demande et (y compris grâce aux efforts des auteurs du site), son catalogage a lieu, c'est-à-dire que les informations sur la ressource apparaissent dans différents répertoires correspondant au type de ressource.

L'indexation, c'est-à-dire l'apparition d'une ressource dans les index des moteurs de recherche, se produit lorsque certains volumes de contenu et de demande d'informations sont atteints.

S'il y a une augmentation constante de la demande, il y a un développement constant de la ressource, sinon la ressource s'efface et disparaît progressivement des index et des catalogues.

2.4 Exigences relatives aux outils de recherche

Comme indiqué précédemment, les caractéristiques inhérentes à une recherche professionnelle sont son exhaustivité, sa fiabilité et sa rapidité. Le facteur le plus sérieux et non trivial déterminant la rapidité avec laquelle l'objectif de recherche est atteint est la planification de la procédure de recherche. Cela nécessite, d'une part, la sélection du type de ressources potentiellement capables de véhiculer des informations pertinentes pour la tâche de recherche, et d'autre part, la sélection d'outils de recherche qui servent le champ d'information correspondant, en fonction de leur attente. efficacité. Si nous parlons de l'espace WWW le plus vaste aujourd'hui en termes de contenu informatif, alors l'abondance relative de ses outils de recherche rend la solution à la plupart des problèmes pratiques multivariée. Construire une séquence optimale d'utilisation de certains outils à chaque étape de la recherche détermine son efficacité. Une compréhension claire des types, des objectifs et des caractéristiques de fonctionnement des systèmes de recherche d'informations sur Internet (IRS) peut aider à résoudre le problème du choix.

Les véritables vecteurs d'informations sur les ressources disponibles sur Internet sont les moteurs de recherche et les annuaires. Les systèmes de recherche d'informations sur Internet diffèrent, mais dans le principe de sélection des informations, qui à un degré ou à un autre est présent à la fois dans le programme de numérisation du moteur de recherche et dans les activités des spécialistes effectuant le catalogage. En règle générale, on distingue deux indicateurs principaux : l'échelle spatiale du système et sa spécialisation.

Lors de la formation d'un tableau d'informations, le système de recherche peut surveiller la mise à jour d'un ensemble prédéterminé de documents, de répertoires ou d'un nombre fini de nœuds sélectionnés selon un certain principe. De tels systèmes mis en œuvre sur Internet peuvent être appelés de manière quelque peu classique local et. Les moteurs de recherche mondiaux, contrairement aux moteurs locaux, résolvent une tâche plus laborieuse : la couverture la plus complète possible des ressources de l'ensemble du champ d'information d'Internet (WWW ou autre) qu'ils desservent. La conséquence en est le rôle croissant du mécanisme utilisé par un tel système pour augmenter constamment le nombre de sites consultés.

La construction de services de recherche régionaux et spécialisés implique un filtrage actif de l'information. La spécialisation d'un système de recherche basé sur n'importe quel profil OU sujet, qu'il soit juridique, recherche de personnalités ou de fichiers multimédias au format MP3, peut se produire aussi bien à l'échelle globale que locale. Bien entendu, il est plus facile de construire et de maintenir un système sur un espace limité de sites mis à jour, ce qui est généralement mis en œuvre dans la pratique.

Les services de recherche régionaux filtrent les informations principalement en fonction du nom de domaine de premier niveau du serveur, par exemple by pour la Biélorussie, ru pour la Russie. Un inconvénient majeur de ces systèmes est le manque de prise en compte du grand nombre de ressources placées par les auteurs de ressources régionales directement dans le domaine des communications.

La prise en compte des caractéristiques régionales est souvent présente dans les services de recherche mondiaux. Le système Lycos, par exemple, classe les réponses par région de la demande.

Internet, de par sa nature, s'accompagne d'un chaos informationnel. Et seuls les moyens modernes d'indexation automatique des documents sont capables, compte tenu des algorithmes utilisés et des capacités des moyens techniques, de trouver un grain rationnel dans ce chaos. L'utiliser lors de la recherche de ressources sans recherche par mots-clés rappelle le surf plutôt qu'un travail sérieux avec l'information.

2.6 Moteurs de recherche mondiaux sur le Web

Après s'être familiarisé avec plusieurs moteurs de recherche mondiaux, l'utilisateur choisit généralement un ou deux avec lesquels il préfère travailler à l'avenir. Dans le même temps, le choix d'un service de recherche se fait souvent de manière totalement arbitraire, non pas sur la base d'une analyse des capacités réelles des systèmes, mais sur leur popularité. L'un des plus grands et des plus populaires est AltaVista. Le système AltaVista dispose d'un langage de requête flexible, qui nécessite cependant une étude particulière. AltaVista dispose d'un support multilingue pour un index de recherche et de la possibilité de traduire en ligne (c'est-à-dire directement pendant une session de travail) le texte d'une page Web des langues européennes communes vers l'anglais.

Un autre système bien connu est NorthernLight, qui possède un ensemble de fonctions assez standard. Le système permet en outre de travailler avec une collection unique de liens (plus de 6 000), principalement vers des articles de périodiques. La prise en charge de l'index pour l'alphabet cyrillique (y compris la langue russe) en fait, avec AltaVista, un bon complément aux moteurs de recherche régionaux russes Rambler, Yndex et Aport pour les recherches en langue russe.

La recherche et la collecte d'informations sur Internet nécessitent une planification. Logique erronée dans la construction d'une requête, séquence non optimisée d'utilisation des outils de recherche, tentatives d'accélération de la recherche - tout cela non seulement retarde l'obtention d'un résultat, mais peut également compromettre le sens du travail de recherche.

Arrêtons-nous sur plusieurs points importants liés à la planification et aux premières étapes d'un tel travail.

Vous devez commencer par une analyse lexicale complète des informations que vous recherchez. Toute description suffisamment fiable et détaillée de la question étudiée doit être utilisée pour obtenir des informations primaires. Une telle source pourrait très bien être soit un ouvrage de référence hautement spécialisé, soit une encyclopédie électronique générale. Sur la base du matériel étudié, il est nécessaire de constituer l'ensemble de mots-clés le plus large possible sous forme de termes individuels, d'expressions, de vocabulaire professionnel, d'argot, de mots clichés et de clichés verbaux stables, si nécessaire en plusieurs langues. Les éventuelles clarifications de la requête de recherche doivent être déterminées à l'avance - mots rares, synonymes et antonymes. noms et prénoms étroitement liés à la question recherchée. Il est également conseillé de prévoir d'éventuelles réponses non pertinentes aux requêtes, c'est-à-dire les caractéristiques possibles du bruit de recherche. Après avoir accumulé ces données préliminaires, vous pouvez passer à l'obtention d'informations primaires sur Internet.

La tâche principale de cette étape est de prendre en compte les particularités d'Internet, qui est non seulement porteur de technologie, mais aussi de traditions et de sa propre éthique. Le vocabulaire, l'argot et l'orthographe en ligne des mots couramment utilisés ici peuvent différer de ceux acceptés.

Il est préférable de rechercher des informations sur la disponibilité des données nécessaires sur Internet dans un catalogue préalablement connu prenant en charge les recherches par mots clés. Lors de la résolution, par exemple, de tâches simples telles que « Obtenir le texte de la Constitution de la République de Biélorussie » ou « Dans quels actes juridiques le nom de la ville natale est-il utilisé », un site Web ou un catalogue bien connu peut être un moyen plus rapide de résoudre obtenir des informations qu’un index automatique et offrira une plus grande fiabilité.

Après l'analyse lexicale de l'information, l'étape technologique commence. La sélection du domaine d'information sur Internet et des outils de recherche est effectuée sur la base des approches ci-dessus.

Des requêtes de test d'un ou deux mots-clés ou expressions sont utilisées, puis la réponse quantitative est analysée. L'analyse du contenu des données permet d'ajuster les requêtes, mais pas la pertinence de la réponse. À la suite des tests, les sources d'informations les plus représentatives sont identifiées, après quoi la séquence d'utilisation des outils de recherche doit être clarifiée. Ceci termine la phase de planification.

En conclusion, nous notons que lors de la résolution du problème de la collecte d'informations sur Internet, les services de recherche régionaux et spécialisés jouent un rôle important. L'utilisation d'index globaux non pas pour la recherche directe des informations nécessaires, mais pour la localisation de ces outils de recherche permet souvent de réduire le temps nécessaire à la résolution du problème de recherche.

CONCLUSION

Compte tenu de tout ce qui précède, nous pouvons essayer de définir en un mot l’essence d’Internet : c’est la communication, la communication entre des individus et des nations entières sans l’intervention des autorités gouvernementales. Cette nouvelle technologie change le visage de la civilisation à une vitesse fulgurante, modifiant radicalement la compréhension que l'humanité a du monde et d'elle-même. Internet a déjà absorbé des dizaines de millions de personnes, plus d'une centaine de pays, il a complètement changé les processus de diffusion et de perception de l'information. À l’ère des technologies de l’information, la réalité virtuelle sur Internet contribue à effacer les frontières nationales, à réduire les distances géographiques et à éliminer les barrières entre les cultures. , ne devient pas moins clair que le monde matériel qui nous entoure.

Avec le développement d'INTERNET, il est devenu possible de rechercher rapidement et facilement les informations documentaires nécessaires. Désormais, vous n’avez plus besoin de sélectionner et d’étudier une énorme quantité de littérature dans les librairies et les bibliothèques. Les informations peuvent être obtenues sans quitter votre domicile ou votre bureau. Pour ce faire, vous n'avez besoin que de l'ordinateur lui-même, connecté à INTERNET avec un programme spécial installé - un navigateur conçu pour visualiser le contenu des pages Web.

Grâce à la variété des moteurs de recherche spécialement conçus pour l'utilisateur moyen, chacun peut facilement couper le flux d'informations manifestement inutile, uniquement en formulant correctement le but de la recherche.

LISTE DES RÉFÉRENCES UTILISÉES

1. Grinberg A.S., Kashinsky Yu.I., Slavin B.S. Introduction à l'informatique juridique. Mn. : NO LLC BIP-S, 2002. P. 303.

2. Gusev contre. Google : recherche efficace. Guide rapide. M., 2006.

3. Informatique pour les avocats et les économistes./ Edité par S. V. Simonovich. Saint-Pétersbourg : Peter, 2001.

4. Informatique. Cours de base. Manuel pour les universités, Saint-Pétersbourg, 2001

5. Les technologies informatiques dans les activités juridiques./Edité par le professeur N. Polevoy. M. : Maison d'édition BEK, 1994.

6. Rassolov M.M. Droit de l'information. – M.M. : Avocat, 1999.-321 p.

7. Encyclopédie Internet, Saint-Pétersbourg, 2001

8. Comment les navigateurs se comparent//http://www.microsoft.com