Technologie Big Data (analyse Big Data). Big Data et blockchain - une percée dans le domaine de l'analyse des données

Chronique d'enseignants HSE sur les mythes et les cas de travail avec le Big Data

Vers les favoris

Les enseignants de l'École des nouveaux médias de l'École supérieure d'économie de l'Université nationale de recherche Konstantin Romanov et Alexander Pyatigorsky, qui est également directeur de la transformation numérique chez Beeline, ont écrit une chronique pour le site sur les principales idées fausses sur le Big Data - exemples d'utilisation la technologie et les outils. Les auteurs suggèrent que la publication aidera les dirigeants d'entreprise à comprendre ce concept.

Mythes et idées fausses sur le Big Data

Le Big Data n'est pas du marketing

Terme Big Data est devenu très à la mode - il est utilisé dans des millions de situations et dans des centaines d'interprétations différentes, souvent sans rapport avec ce dont il s'agit. Les concepts sont souvent substitués dans la tête des gens et le Big Data est confondu avec un produit marketing. De plus, dans certaines entreprises, le Big Data fait partie du service marketing. Le résultat de l’analyse du big data peut en effet être une source d’activité marketing, mais rien de plus. Voyons voir comment ça fonctionne.

Si nous avons identifié une liste de ceux qui ont acheté des produits d'une valeur de plus de trois mille roubles dans notre magasin il y a deux mois, puis envoyé à ces utilisateurs une sorte d'offre, il s'agit alors d'un marketing typique. Nous obtenons une tendance claire à partir des données structurelles et l'utilisons pour augmenter les ventes.

Cependant, si nous combinons les données CRM avec des informations en streaming provenant, par exemple, d'Instagram et que nous les analysons, nous trouvons une tendance : une personne qui a réduit son activité mercredi soir et dont la dernière photo montre des chatons devrait faire une certaine offre. Ce sera déjà du Big Data. Nous avons trouvé un déclencheur, l'avons transmis aux spécialistes du marketing et ils l'ont utilisé à leurs propres fins.

Il s'ensuit que la technologie fonctionne généralement avec des données non structurées, et même si les données sont structurées, le système continue d'y rechercher des modèles cachés, ce que le marketing ne fait pas.

Le Big Data n'est pas de l'informatique

Deuxième extrême de cette histoire : le Big Data est souvent confondu avec l’informatique. Cela est dû au fait que dans les entreprises russes, en règle générale, les informaticiens sont les moteurs de toutes les technologies, y compris le Big Data. Par conséquent, si tout se passe dans ce département, l'entreprise dans son ensemble a l'impression qu'il s'agit d'une sorte d'activité informatique.

En fait, il y a ici une différence fondamentale : le Big Data est une activité visant à obtenir un produit spécifique, qui n'a rien à voir avec l'informatique, même si la technologie ne peut exister sans elle.

Le Big Data n'est pas toujours la collecte et l'analyse d'informations

Il existe une autre idée fausse à propos du Big Data. Tout le monde comprend que cette technologie implique de grandes quantités de données, mais de quel type de données il s’agit n’est pas toujours clair. N'importe qui peut collecter et utiliser des informations ; cela est désormais possible non seulement dans les films, mais aussi dans n'importe quelle entreprise, même la plus petite. La seule question est de savoir quoi collecter exactement et comment l’utiliser à votre avantage.

Mais il faut comprendre que la technologie Big Data ne consistera pas à collecter et à analyser absolument n'importe quelle information. Par exemple, si vous collectez des données sur les réseaux sociaux concernant personne spécifique, ce ne sera pas du Big Data.

Qu’est-ce que le Big Data réellement ?

Le Big Data se compose de trois éléments :

  • données;
  • analytique;
  • les technologies.

Le Big Data n’est pas seulement l’un de ces composants, mais une combinaison des trois éléments. Les gens substituent souvent des concepts : certains pensent que le Big Data n’est que des données, d’autres pensent qu’il s’agit de technologie. Mais en réalité, quelle que soit la quantité de données que vous collectez, vous ne pouvez rien en faire sans technologies nécessaires et les analystes. S’il existe de bonnes analyses, mais pas de données, c’est encore pire.

Si nous parlons de données, il ne s'agit pas seulement de textes, mais aussi de toutes les photos publiées sur Instagram, et en général de tout ce qui peut être analysé et utilisé à différentes fins et tâches. En d’autres termes, les Données font référence à d’énormes volumes de données internes et externes de diverses structures.

L'analyse est également nécessaire, car la tâche du Big Data est de créer des modèles. Autrement dit, l'analyse est l'identification des dépendances cachées et la recherche de nouvelles questions et réponses basées sur l'analyse de l'ensemble du volume de données hétérogènes. De plus, le Big Data pose des questions qui ne peuvent être directement dérivées de ces données.

Côté images, le fait que vous postiez une photo de vous portant un T-shirt bleu ne veut rien dire. Mais si vous utilisez la photographie pour la modélisation du Big Data, il se peut que vous deviez proposer un prêt dès maintenant, car dans votre groupe social, un tel comportement indique un certain phénomène en action. Par conséquent, des données « nues » sans analyse, sans identification de dépendances cachées et non évidentes ne constituent pas du Big Data.

Nous avons donc du Big Data. Leur éventail est immense. Nous avons également un analyste. Mais comment pouvons-nous être sûrs qu’à partir de ces données brutes, nous trouverons une solution spécifique ? Pour ce faire, nous avons besoin de technologies qui nous permettent non seulement de les stocker (ce qui était impossible auparavant), mais aussi de les analyser.

En termes simples, si vous disposez de beaucoup de données, vous aurez besoin de technologies, par exemple Hadoop, qui permettent de stocker toutes les informations sous leur forme originale pour une analyse ultérieure. Ce type de technologie est apparu chez les géants de l'Internet, car ils ont été les premiers à être confrontés au problème du stockage d'une grande quantité de données et de leur analyse en vue d'une monétisation ultérieure.

En plus des outils de stockage de données optimisés et bon marché, vous avez besoin d'outils analytiques, ainsi que de modules complémentaires à la plateforme utilisée. Par exemple, tout un écosystème de projets et de technologies connexes s'est déjà formé autour de Hadoop. En voici quelques uns:

  • Pig est un langage d'analyse de données déclaratif.
  • Hive - analyse de données à l'aide d'un langage similaire à SQL.
  • Oozie - Flux de travail Hadoop.
  • Hbase - base de données (non relationnelle), analogue de Google Grande table.
  • Mahout - apprentissage automatique.
  • Sqoop - transfert de données de RSDB vers Hadoop et vice versa.
  • Flume - transfert des journaux vers HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS et ainsi de suite.

Tous ces outils sont accessibles à tous gratuitement, mais il existe également un certain nombre de modules complémentaires payants.

De plus, des spécialistes sont nécessaires : un développeur et un analyste (le soi-disant Data Scientist). Il faut également un manager capable de comprendre comment appliquer ces analyses pour résoudre tâche spécifique, car en soi, cela n’a aucun sens s’il n’est pas intégré aux processus métier.

Les trois employés doivent travailler en équipe. Un manager qui confie à un spécialiste de la Data Science la tâche de trouver un certain modèle doit comprendre qu'il ne trouvera pas toujours exactement ce dont il a besoin. Dans ce cas, le manager doit écouter attentivement ce que le Data Scientist a trouvé, car ses conclusions s'avèrent souvent plus intéressantes et utiles pour l'entreprise. Votre travail consiste à appliquer cela à une entreprise et à en faire un produit.

Même s'il existe aujourd'hui de nombreux types de machines et de technologies, la décision finale appartient toujours à la personne. Pour ce faire, les informations doivent être visualisées d’une manière ou d’une autre. Il existe de nombreux outils pour cela.

L’exemple le plus parlant est celui des rapports géoanalytiques. La société Beeline travaille beaucoup avec les gouvernements de différentes villes et régions. Très souvent, ces organisations commandent des rapports tels que « Congestion du trafic à un certain endroit ».

Il est clair qu'un tel rapport devrait parvenir aux agences gouvernementales sous une forme simple et compréhensible. Si nous leur fournissons un tableau énorme et complètement incompréhensible (c'est-à-dire des informations telles que nous les recevons), il est peu probable qu'ils achètent un tel rapport - il sera complètement inutile, ils n'en tireront pas la connaissance que ils voulaient recevoir.

Par conséquent, quelle que soit la qualité des data scientists et quels que soient les modèles qu’ils trouvent, vous ne pourrez pas travailler avec ces données sans de bons outils de visualisation.

Les sources de données

La gamme de données obtenues est très large et peut donc être divisée en plusieurs groupes.

Données internes de l'entreprise

Même si 80 % des données collectées appartiennent à ce groupe, cette source n’est pas toujours utilisée. Il s’agit souvent de données dont personne n’a apparemment besoin, par exemple des journaux. Mais si vous les regardez sous un angle différent, vous pouvez parfois y découvrir des motifs inattendus.

Sources de sharewares

Cela inclut les données réseaux sociaux, Internet et tout ce que vous pouvez accéder gratuitement. Pourquoi le shareware est-il gratuit ? D'une part, ces données sont accessibles à tous, mais si vous êtes une grande entreprise, alors les recevoir à hauteur d'une base d'abonnés de dizaines de milliers, de centaines ou de millions de clients est déjà pas une tâche facile. Il y a donc services payants pour fournir ces données.

Sources payantes

Cela inclut les entreprises qui vendent des données contre de l’argent. Il peut s'agir de sociétés de télécommunications, de DMP, de sociétés Internet, de bureaux de crédit et d'agrégateurs. En Russie, les télécoms ne vendent pas de données. Premièrement, cela n’est pas rentable du point de vue économique et, deuxièmement, cela est interdit par la loi. Ils vendent donc les résultats de leur traitement, par exemple des rapports géoanalytiques.

Données ouvertes

L’État est accommodant avec les entreprises et leur donne la possibilité d’utiliser les données qu’elles collectent. Ceci est davantage développé en Occident, mais la Russie, à cet égard, reste également dans l’air du temps. Par exemple, il existe un portail de données ouvertes du gouvernement de Moscou, où sont publiées des informations sur diverses infrastructures urbaines.

Pour les résidents et les invités de Moscou, les données sont présentées sous forme tabulaire et cartographique, et pour les développeurs - dans des formats spéciaux lisibles par machine. Bien que le projet fonctionne de manière limitée, il se développe, ce qui signifie qu'il constitue également une source de données que vous pouvez utiliser pour vos tâches commerciales.

Recherche

Comme nous l'avons déjà indiqué, la tâche du Big Data est de trouver un modèle. Souvent, les recherches menées dans le monde entier peuvent devenir un point d'appui pour trouver un modèle particulier - vous pouvez obtenir un résultat spécifique et essayer d'appliquer une logique similaire à vos propres objectifs.

Le Big Data est un domaine dans lequel toutes les lois des mathématiques ne s’appliquent pas. Par exemple, « 1 » + « 1 » ne signifie pas « 2 », mais bien plus, car en mélangeant les sources de données, l'effet peut être considérablement amélioré.

Exemples de produits

De nombreuses personnes connaissent le service de sélection musicale Spotify. C’est génial car il ne demande pas aux utilisateurs quelle est leur humeur du jour, mais la calcule plutôt en fonction des sources dont il dispose. Il sait toujours ce dont vous avez besoin maintenant : du jazz ou du hard rock. C'est quoi différence clé, ce qui lui fournit des fans et le distingue des autres services.

Ces produits sont généralement appelés produits sensoriels - ceux que ressentent leurs clients.

La technologie Big Data est également utilisée dans l’industrie automobile. Par exemple, Tesla fait cela : son dernier modèle est doté d'un pilote automatique. L'entreprise s'efforce de créer une voiture qui emmènera elle-même le passager là où il doit aller. Sans Big Data, cela est impossible, car si nous utilisons uniquement les données que nous recevons directement, comme le fait une personne, alors la voiture ne pourra pas s'améliorer.

Lorsque nous conduisons nous-mêmes une voiture, nous utilisons nos neurones pour prendre des décisions basées sur de nombreux facteurs que nous ne remarquons même pas. Par exemple, nous ne comprenons peut-être pas pourquoi nous avons décidé de ne pas accélérer immédiatement au feu vert, mais il s'avère ensuite que la décision était la bonne - une voiture vous a dépassé à une vitesse vertigineuse et vous avez évité un accident.

Vous pouvez également donner un exemple d'utilisation du Big Data dans le sport. En 2002, le directeur général de l'équipe de baseball des Oakland Athletics, Billy Beane, a décidé de briser le paradigme du recrutement des athlètes : il a sélectionné et entraîné les joueurs « en fonction des chiffres ».

Habituellement, les managers examinent le succès des joueurs, mais dans ce cas, tout était différent - pour obtenir des résultats, le manager étudiait les combinaisons d'athlètes dont il avait besoin, en prêtant attention aux caractéristiques individuelles. De plus, il a choisi des athlètes qui n'avaient pas beaucoup de potentiel en eux-mêmes, mais l'équipe dans son ensemble s'est avérée si performante qu'elle a remporté vingt matches d'affilée.

Le réalisateur Bennett Miller a ensuite réalisé un film consacré à cette histoire : « L'homme qui a tout changé », avec Brad Pitt.

La technologie Big Data est également utile dans le secteur financier. Pas une seule personne au monde ne peut déterminer de manière indépendante et précise s’il vaut la peine d’accorder un prêt à quelqu’un. Afin de prendre une décision, une notation est effectuée, c'est-à-dire qu'un modèle probabiliste est construit, à partir duquel on peut comprendre si cette personne restituera l'argent ou non. De plus, le scoring s'applique à toutes les étapes : vous pouvez, par exemple, calculer qu'à un certain moment une personne cessera de payer.

Le Big Data permet non seulement de gagner de l’argent, mais aussi de l’économiser. Cette technologie a notamment aidé le ministère allemand du Travail à réduire le coût des allocations de chômage de 10 milliards d'euros, puisqu'après analyse des informations, il est devenu clair que 20 % des allocations étaient versées à tort.

Les technologies sont également utilisées en médecine (c'est particulièrement typique d'Israël). Avec l’aide du Big Data, vous pouvez effectuer une analyse beaucoup plus précise qu’un médecin ayant trente ans d’expérience.

Tout médecin, lorsqu'il pose un diagnostic, ne s'appuie que sur lui-même expérience personnelle. Lorsque la machine fait cela, elle s’appuie sur l’expérience de milliers de médecins et sur toutes les histoires de cas existantes. Il prend en compte le matériau dont est faite la maison du patient, la région dans laquelle vit la victime, le type de fumée qui s’y dégage, etc. Autrement dit, il prend en compte de nombreux facteurs que les médecins ne prennent pas en compte.

Un exemple d’utilisation du Big Data dans le domaine de la santé est Projet Projet Artemis, qui a été mis en œuvre par l'Hôpital pour enfants de Toronto. Ce Système d'Information, qui collecte et analyse les données sur les bébés en temps réel. La machine permet d'analyser 1260 indicateurs de santé de chaque enfant chaque seconde. Ce projet vise à prédire l'état instable d'un enfant et à prévenir les maladies chez les enfants.

Le Big Data commence également à être utilisé en Russie : par exemple, Yandex possède une division Big Data. La société, en collaboration avec AstraZeneca et la Société russe d'oncologie clinique RUSSCO, a lancé la plateforme RAY, destinée aux généticiens et biologistes moléculaires. Le projet nous permet d'améliorer les méthodes de diagnostic du cancer et d'identification des prédispositions au cancer. La plateforme sera lancée en décembre 2016.

À un moment donné, j'ai entendu le terme « Big Data » de la part de German Gref (directeur de la Sberbank). Ils disent qu'ils travaillent désormais activement sur la mise en œuvre, car cela les aidera à réduire le temps passé à travailler avec chaque client.

La deuxième fois que j’ai découvert ce concept, c’était dans la boutique en ligne d’un client, sur laquelle nous travaillions et augmentions l’assortiment de quelques milliers à quelques dizaines de milliers de produits.

La troisième fois, j'ai vu que Yandex avait besoin d'un analyste Big Data. Ensuite, j'ai décidé d'approfondir ce sujet et en même temps d'écrire un article qui expliquera quel genre de terme passionne l'esprit des TOP managers et de l'espace Internet.

VVV ou VVVVV

Je commence généralement n’importe lequel de mes articles par une explication de quel type de terme il s’agit. Cet article ne fera pas exception.

Cependant, cela n'est pas principalement dû au désir de montrer à quel point je suis intelligent, mais au fait que le sujet est vraiment complexe et nécessite une explication minutieuse.

Par exemple, vous pouvez lire ce qu'est le Big Data sur Wikipédia, sans rien comprendre, puis revenir à cet article pour toujours comprendre la définition et l'applicabilité aux entreprises. Commençons donc par une description, puis par des exemples commerciaux.

Les mégadonnées sont des mégadonnées. Incroyable, non ? En fait, cela se traduit de l’anglais par « big data ». Mais cette définition, pourrait-on dire, est pour les nuls.

Important. La technologie Big Data est une approche/méthode de traitement plus données pour obtenir de nouvelles informations difficiles à traiter de manière conventionnelle.

Les données peuvent être soit traitées (structurées), soit dispersées (c'est-à-dire non structurées).

Le terme lui-même est apparu relativement récemment. En 2008, une revue scientifique prédisait que cette approche était nécessaire pour traiter de grandes quantités d’informations en croissance exponentielle.

Par exemple, chaque année, les informations sur Internet qui doivent être stockées et, bien sûr, traitées augmentent de 40 %. Encore. +40% De nouvelles informations apparaissent chaque année sur Internet.

Si les documents imprimés sont clairs et les modalités de leur traitement le sont également (transfert à vue électronique, coudre dans un dossier, numéro), alors que faire des informations présentées dans des « supports » et autres volumes complètement différents :

  • Documents Internet ;
  • blogs et réseaux sociaux ;
  • sources audio/vidéo ;
  • instruments de mesure;

Certaines caractéristiques permettent de classer les informations et les données comme Big Data.

Autrement dit, toutes les données ne conviennent pas nécessairement à l’analyse. Ces caractéristiques contiennent justement le concept clé du big data. Ils s’inscrivent tous dans trois V.

  1. Volume (du volume anglais). Les données sont mesurées en termes de volume physique du « document » à analyser ;
  2. Vitesse (de l'anglais Velocity). Les données ne s'arrêtent pas dans leur développement, mais grandissent constamment, c'est pourquoi leur traitement rapide est nécessaire pour obtenir des résultats ;
  3. Variété (de la variété anglaise). Les données peuvent ne pas être du même format. Autrement dit, ils peuvent être dispersés, structurés ou partiellement structurés.

Cependant, de temps en temps, un quatrième V (véracité) et même un cinquième V sont ajoutés à VVV (dans certains cas, c'est la viabilité, dans d'autres, c'est la valeur).

Quelque part, j'ai même vu 7V, qui caractérise les données liées au big data. Mais à mon avis, il s'agit d'une série (où des P sont périodiquement ajoutés, bien que les 4 initiaux suffisent à la compréhension).

Qui a besoin de ça ?

Une question logique se pose : comment pouvez-vous utiliser les informations (le big data représente des centaines, voire des milliers de téraoctets) ? Même pas ça.

Voici les informations. Alors pourquoi le grand rendez-vous a-t-il été inventé alors ? Quelle est l’utilité du big data en marketing et en business ?

  1. Les bases de données conventionnelles ne peuvent pas stocker et traiter (je ne parle même pas d’analyse maintenant, mais simplement de stockage et de traitement) d’énormes quantités d’informations.

    Le Big Data résout ce problème principal. Stocke et gère avec succès de grands volumes d’informations ;

  2. Structure les informations provenant de diverses sources (vidéo, images, audio et documents texte), sous une forme unique, compréhensible et digeste ;
  3. Générer des analyses et créer des prévisions précises basées sur des informations structurées et traitées.

C'est compliqué. Pour faire simple, tout marketeur qui comprend que si vous étudiez une grande quantité d'informations (sur vous, votre entreprise, vos concurrents, votre secteur), vous pouvez obtenir des résultats très corrects :

  • Compréhension complète de votre entreprise et de votre activité du point de vue des chiffres ;
  • Étudiez vos concurrents. Et cela, à son tour, permettra d’avancer en les dominant ;
  • Découvrez de nouvelles informations sur vos clients.

Et c’est précisément parce que la technologie Big Data donne les résultats suivants que tout le monde s’y précipite.

Ils tentent d'intégrer cette activité dans leur entreprise afin d'augmenter les ventes et de réduire les coûts. Et si spécifiquement, alors :

  1. Augmentation des ventes croisées et des ventes supplémentaires grâce à meilleure connaissance les préférences des clients ;
  2. Rechercher des produits populaires et les raisons pour lesquelles les gens les achètent (et vice versa) ;
  3. Amélioration d'un produit ou d'un service ;
  4. Améliorer le niveau de service ;
  5. Augmenter la fidélité et l'orientation client ;
  6. Prévention de la fraude (plus pertinente pour le secteur bancaire) ;
  7. Réduire les coûts inutiles.

L’exemple le plus courant, cité dans toutes les sources, est bien entendu celui de la société Apple, qui collecte des données sur ses utilisateurs (téléphone, montre, ordinateur).

C’est grâce à la présence d’un écosystème que l’entreprise en sait autant sur ses utilisateurs et l’utilise ensuite pour réaliser des bénéfices.

Vous pouvez lire ces exemples d’utilisation et d’autres dans n’importe quel autre article sauf celui-ci.

Allons vers le futur

Je vais vous parler d'un autre projet. Ou plutôt, celui d’une personne qui construit l’avenir à l’aide de solutions Big Data.

Il s'agit d'Elon Musk et de sa société Tesla. Son rêve principal est de rendre les voitures autonomes, c'est-à-dire que vous prenez le volant, allumez le pilote automatique de Moscou à Vladivostok et... vous endormez, car vous n'avez pas du tout besoin de conduire la voiture, car cela fera l'affaire. tout lui-même.

Cela semblerait fantastique ? Mais non! C’est juste qu’Elon a agi beaucoup plus sagement que Google, qui contrôle les voitures à l’aide de dizaines de satellites. Et il est allé dans l'autre sens :

  1. Chaque voiture vendue est équipée d'un ordinateur qui collecte toutes les informations.

    Tout - cela signifie tout. A propos du conducteur, de son style de conduite, des routes qui l'entourent, du mouvement des autres voitures. Le volume de ces données atteint 20 à 30 Go par heure ;

  2. Complétez ces informations sur communications par satellite transféré à ordinateur central qui traite ces données ;
  3. Sur la base des mégadonnées traitées par cet ordinateur, un modèle de véhicule sans pilote est construit.

À propos, si Google se porte plutôt mal et que ses voitures ont tout le temps des accidents, alors Musk, du fait qu'il travaille avec le Big Data, s'en sort bien mieux, car les modèles de test montrent de très bons résultats.

https://youtu.be/lc2ZVUZ6kno

Mais... Tout est question d'économie. Que parlons-nous de profit, sinon de profit ? Une grande partie de ce qu'un grand rendez-vous peut décider n'a aucun rapport avec les revenus et l'argent.

Les statistiques de Google, basées sur le big data, montrent une chose intéressante.

Avant que les médecins n'annoncent le début d'une épidémie dans une région donnée, le nombre de requêtes de recherche sur le traitement de cette maladie dans cette région augmente considérablement.

Ainsi, une étude appropriée des données et leur analyse peuvent former des prévisions et prédire l'apparition d'une épidémie (et, par conséquent, sa prévention) beaucoup plus rapidement que la conclusion des organismes officiels et leurs actions.

Application en Russie

Cependant, la Russie, comme toujours, « ralentit » un peu. Ainsi, la définition même du big data en Russie est apparue il y a à peine 5 ans (je parle maintenant des entreprises ordinaires).

Et ce malgré le fait qu'il s'agit de l'un des marchés à la croissance la plus rapide au monde (les drogues et les armes fument nerveusement en marge), car chaque année, le marché des logiciels de collecte et d'analyse du Big Data augmente de 32 %.

Pour caractériser le marché du Big Data en Russie, je me souviens d'une vieille blague. Un grand rendez-vous, c'est comme avoir des relations sexuelles avant d'avoir 18 ans.

Tout le monde en parle, il y a beaucoup de battage médiatique autour de ce sujet et peu de action réelle, et tout le monde a honte d'admettre qu'il ne le fait pas lui-même. En effet, il y a beaucoup de battage médiatique à ce sujet, mais peu de mesures concrètes.

Bien que la célèbre société de recherche Gartner ait déjà annoncé en 2015 que le Big Data n'était plus une tendance croissante (comme l'intelligence artificielle d'ailleurs), mais des outils totalement indépendants pour l'analyse et le développement de technologies avancées.

Les niches les plus actives où le Big Data est utilisé en Russie sont les banques/assurances (ce n'est pas pour rien que j'ai commencé l'article avec le patron de la Sberbank), le secteur des télécommunications, le commerce de détail, l'immobilier et... le secteur public.

À titre d’exemple, je vais vous parler plus en détail de quelques secteurs économiques qui utilisent des algorithmes de Big Data.

Banques

Commençons par les banques et les informations qu'elles collectent sur nous et nos actions. A titre d'exemple, j'ai pris le TOP 5 des banques russes qui investissent activement dans le big data :

  1. Banque d'épargne ;
  2. Gazprombank ;
  3. VTB 24 ;
  4. Banque Alfa ;
  5. Banque Tinkoff.

Il est particulièrement agréable de voir Alfa Bank parmi les dirigeants russes. Au minimum, il est bon de savoir que la banque, dont vous êtes partenaire officiel, comprend la nécessité d’introduire de nouveaux outils marketing dans son entreprise.

Mais je souhaite montrer des exemples d'utilisation et de mise en œuvre réussie du big data dans une banque que j'apprécie pour le point de vue et les actions non conventionnelles de son fondateur.

Je parle de la banque Tinkoff. Leur Tâche principale Il était nécessaire de développer un système d'analyse du Big Data en temps réel en raison d'une base de clients élargie.

Résultats : le temps des processus internes a été réduit d'au moins 10 fois, et pour certains – de plus de 100 fois.

Eh bien, une petite distraction. Savez-vous pourquoi j'ai commencé à parler des pitreries et des actions inhabituelles d'Oleg Tinkov ?

C’est juste que, à mon avis, ce sont eux qui l’ont aidé à passer d’un homme d’affaires médiocre, il y en a des milliers en Russie, à l’un des entrepreneurs les plus célèbres et les plus reconnaissables. Pour le confirmer, regardez cette vidéo insolite et intéressante :

https://youtu.be/XHMaD5HAvfk

Immobilier

Dans l’immobilier, tout est beaucoup plus compliqué. Et c’est exactement l’exemple que je veux vous donner pour comprendre les grands rendez-vous des affaires ordinaires. Donnée initiale:

  1. Grand volume de documentation textuelle ;
  2. Sources ouvertes (satellites privés transmettant des données sur les changements terrestres) ;
  3. Une énorme quantité d'informations incontrôlées sur Internet ;
  4. Changements constants dans les sources et les données.

Et sur cette base, il est nécessaire de préparer et d'évaluer la valeur d'un terrain, par exemple près d'un village de l'Oural. Il faudra une semaine à un professionnel pour le faire.

La Société russe des évaluateurs et ROSEKO, qui a effectivement mis en œuvre l'analyse du Big Data à l'aide d'un logiciel, ne prendra pas plus de 30 minutes de travail tranquille. Comparez, une semaine et 30 minutes. Une énorme différence.

Eh bien, pour une collation

Bien entendu, d’énormes quantités d’informations ne peuvent pas être stockées et traitées de manière simple. disques durs.

UN logiciel, qui structure et analyse les données - il s'agit généralement de la propriété intellectuelle et à chaque fois du développement de l'auteur. Cependant, il existe des outils sur la base desquels toute cette beauté est créée :

  • Hadoop et MapReduce ;
  • Bases de données NoSQL ;
  • Outils de classe de découverte de données.

Pour être honnête, je ne pourrai pas vous expliquer clairement en quoi ils diffèrent les uns des autres, puisque la connaissance et le travail avec ces choses sont enseignés dans les instituts de physique et de mathématiques.

Pourquoi alors ai-je parlé de cela si je ne pouvais pas l’expliquer ? Vous vous souvenez que dans tous les films, les voleurs entrent dans n'importe quelle banque et voient un grand nombre de pièces de matériel de toutes sortes connectées à des fils ?

C'est pareil lors d'un grand rendez-vous. Par exemple, voici un modèle qui se trouve sur ce moment l'un des leaders du marché.

Outil de grande date

Le coût de la configuration maximale atteint 27 millions de roubles par rack. Il s'agit bien entendu de la version de luxe. Je souhaite que vous essayiez au préalable la création de Big Data dans votre entreprise.

En bref sur l'essentiel

Vous vous demandez peut-être pourquoi vous, petite et moyenne entreprise, devez travailler avec le Big Data ?

À cela, je vous répondrai par une citation d'une personne : « Dans un avenir proche, les clients seront en demande d'entreprises qui comprennent mieux leur comportement et leurs habitudes et qui leur conviennent le mieux. »

Mais soyons réalistes. Pour mettre en œuvre le Big Data dans une petite entreprise, vous devez disposer non seulement de budgets importants pour le développement et la mise en œuvre de logiciels, mais également pour la maintenance de spécialistes, au moins comme un analyste Big Data et un administrateur système.

Et maintenant, je garde le silence sur le fait que vous devez disposer de ces données pour les traiter.

D'ACCORD. Le sujet n’est presque pas applicable aux petites entreprises. Mais cela ne signifie pas que vous devez oublier tout ce que vous avez lu ci-dessus.

Étudiez simplement non pas vos données, mais les résultats des analyses de données d'entreprises étrangères et russes bien connues.

Par exemple, la chaîne de vente au détail Target, utilisant l'analyse du Big Data, a découvert que les femmes enceintes avant le deuxième trimestre de la grossesse (de la 1ère à la 12ème semaine de grossesse) achètent activement des produits parfumés par l'ONU.

Grâce à ces données, ils leur envoient des coupons offrant des réductions à durée limitée sur des produits non parfumés.

Et si vous n’étiez qu’un tout petit café, par exemple ? Oui, très simple. Utilisez une application de fidélité.

Et après un certain temps et grâce aux informations accumulées, vous pourrez non seulement proposer aux clients des plats adaptés à leurs besoins, mais aussi voir les plats les plus invendus et avec les marges les plus élevées en quelques clics de souris.

D'où la conclusion. Il est peu probable qu’une petite entreprise mette en œuvre le Big Data, mais il est impératif d’utiliser les résultats et les développements d’autres entreprises.

L’accélération constante de la croissance des données fait partie intégrante des réalités modernes. Les réseaux sociaux, les appareils mobiles, les données des appareils de mesure, les informations commerciales ne sont que quelques types de sources pouvant générer des quantités gigantesques de données.

Actuellement, le terme Big Data est devenu assez courant. Tout le monde n’est pas encore conscient de la rapidité et de l’ampleur avec laquelle les technologies de traitement de grandes quantités de données modifient les aspects les plus divers de la société. Des changements ont lieu dans divers domaines, donnant lieu à de nouveaux problèmes et défis, y compris dans le domaine de la sécurité de l'information, où ses aspects les plus importants tels que la confidentialité, l'intégrité, la disponibilité, etc. devraient être au premier plan.

Malheureusement, beaucoup entreprises modernes recourir à la technologie Big Data sans créer pour cela l’infrastructure appropriée qui pourrait fournir stockage sécurisé les énormes quantités de données qu’ils collectent et stockent. D’un autre côté, la technologie blockchain se développe actuellement rapidement, conçue pour résoudre ce problème et bien d’autres.

Qu’est-ce que le Big Data ?

En fait, la définition du terme est simple : « big data » désigne la gestion de très gros volumes de données, ainsi que leur analyse. Si l’on regarde plus largement, il s’agit d’informations qui ne peuvent pas être traitées par les méthodes classiques en raison de leurs volumes importants.

Le terme Big Data lui-même est apparu relativement récemment. Selon Google Trends, la croissance active de la popularité du terme s'est produite fin 2011 :

En 2010, les premiers produits et solutions directement liés au traitement du Big Data ont commencé à apparaître. En 2011, la plupart des plus grandes sociétés informatiques, dont IBM, Oracle, Microsoft et Hewlett-Packard, utilisent activement le terme Big Data dans leurs stratégies commerciales. Progressivement, les analystes du marché des technologies de l'information commencent des recherches actives sur ce concept.

Actuellement, ce terme a gagné en popularité et est activement utilisé dans divers domaines. Cependant, on ne peut pas affirmer avec certitude que le Big Data est un phénomène fondamentalement nouveau - au contraire, les sources de Big Data existent depuis de nombreuses années. En marketing, il s'agit notamment de bases de données d'achats de clients, d'historiques de crédit, de modes de vie, etc. Au fil des années, les analystes ont utilisé ces données pour aider les entreprises à prédire les besoins futurs des clients, à évaluer les risques, à façonner les préférences des consommateurs, etc.

Actuellement, la situation a changé sous deux aspects :

— des outils et des méthodes plus sophistiqués sont apparus pour analyser et comparer différents ensembles de données ;
— les outils d'analyse ont été complétés par de nombreuses nouvelles sources de données, en raison de la transition généralisée vers les technologies numériques, ainsi que par de nouvelles méthodes de collecte et de mesure des données.

Les chercheurs prédisent que les technologies Big Data seront plus activement utilisées dans l’industrie manufacturière, les soins de santé, le commerce, l’administration gouvernementale et dans d’autres domaines et industries divers.

Le Big Data n’est pas un ensemble spécifique de données, mais un ensemble de méthodes permettant de les traiter. La caractéristique déterminante du Big Data n’est pas seulement son volume, mais également d’autres catégories qui caractérisent les processus de traitement et d’analyse des données à forte intensité de main-d’œuvre.

Les données initiales à traiter peuvent être par exemple :

— les journaux du comportement des utilisateurs d'Internet ;
— Internet des objets ;
- réseaux sociaux;
— les données météorologiques ;
— les livres numérisés des grandes bibliothèques ;
— Signaux GPS des véhicules ;
— des informations sur les transactions des clients bancaires ;
— données sur la localisation des abonnés les réseaux mobiles;
— des informations sur les achats dans les grandes chaînes de vente au détail, etc.

Au fil du temps, le volume de données et le nombre de leurs sources ne cessent de croître, et dans ce contexte, de nouvelles méthodes de traitement de l'information apparaissent et celles existantes sont améliorées.

Principes de base du Big Data :

— Évolutivité horizontale – les tableaux de données peuvent être énormes, ce qui signifie que le système de traitement du Big Data doit se développer de manière dynamique à mesure que leurs volumes augmentent.
— Tolérance aux pannes – même si certains éléments de l'équipement tombent en panne, l'ensemble du système doit rester opérationnel.
— Localité des données. En grand systèmes distribués les données sont généralement réparties sur un nombre important de machines. Cependant, dans la mesure du possible et pour économiser les ressources, les données sont souvent traitées sur le même serveur où elles sont stockées.

Pour un fonctionnement stable des trois principes et, par conséquent, une efficacité élevée dans le stockage et le traitement des mégadonnées, de nouvelles technologies révolutionnaires sont nécessaires, comme par exemple la blockchain.

Pourquoi avons-nous besoin du Big Data ?

La portée du Big Data est en constante expansion :

— Les mégadonnées peuvent être utilisées en médecine. Ainsi, un diagnostic peut être posé pour un patient non seulement sur la base des données issues d'une analyse des antécédents médicaux du patient, mais également en tenant compte de l'expérience d'autres médecins, des informations sur la situation environnementale de la zone de résidence du patient, et bien d'autres facteurs.
— Les technologies Big Data peuvent être utilisées pour organiser le mouvement des véhicules sans pilote.
— En traitant de grandes quantités de données, vous pouvez reconnaître des visages sur des photos et des vidéos.
— Les technologies Big Data peuvent être utilisées par les détaillants - les sociétés commerciales peuvent utiliser activement les ensembles de données des réseaux sociaux pour personnaliser efficacement leurs campagnes publicitaires, qui peuvent être ciblées au maximum sur un segment de consommateurs particulier.
Cette technologie est activement utilisé dans l'organisation de campagnes électorales, notamment pour analyser les préférences politiques de la société.
— L'utilisation des technologies Big Data est pertinente pour les solutions de la classe d'assurance des revenus (RA), qui comprennent des outils de détection des incohérences et une analyse approfondie des données, permettant d'identifier en temps opportun les pertes ou distorsions probables d'informations qui pourraient conduire à une diminution des résultats financiers.
— Les fournisseurs de télécommunications peuvent regrouper le Big Data, y compris la géolocalisation ; à leur tour, ces informations peuvent présenter un intérêt commercial pour les agences de publicité, qui peuvent les utiliser pour afficher des publicités ciblées et locales, ainsi que pour les détaillants et les banques.
— Le Big Data peut jouer un rôle important dans la décision d'ouvrir un point de vente dans un endroit donné, sur la base de données sur la présence d'un puissant flux de personnes ciblé.

Ainsi, l’application pratique la plus évidente de la technologie Big Data réside dans le domaine du marketing. Grâce au développement d'Internet et à la prolifération de tous types d'appareils de communication, les données comportementales (telles que le nombre d'appels, les habitudes d'achat et d'achat) deviennent disponibles en temps réel.

Les technologies du Big Data peuvent également être utilisées efficacement en finance, pour la recherche sociologique et dans de nombreux autres domaines. Les experts affirment que toutes ces possibilités d'utilisation du Big Data ne sont que la partie visible de l'iceberg, puisque ces technologies sont utilisées dans des volumes beaucoup plus importants dans le renseignement et le contre-espionnage, dans les affaires militaires, ainsi que dans tout ce qu'on appelle communément la guerre de l'information.

De manière générale, la séquence de travail avec le Big Data consiste à collecter des données, à structurer les informations reçues à l'aide de rapports et de tableaux de bord, puis à formuler des recommandations d'action.

Examinons brièvement les possibilités d'utilisation des technologies Big Data en marketing. Comme vous le savez, pour un spécialiste du marketing, l'information est le principal outil de prévision et d'élaboration de stratégie. L’analyse des mégadonnées est utilisée depuis longtemps avec succès pour déterminer public cible, intérêts, demande et activité des consommateurs. L'analyse du Big Data, en particulier, permet d'afficher de la publicité (basée sur le modèle d'enchères RTB - Real Time Bidding) uniquement aux consommateurs intéressés par un produit ou un service.

L'utilisation du Big Data en marketing permet aux hommes d'affaires de :

— mieux connaître vos consommateurs, attirer une audience similaire sur Internet ;
— évaluer le degré de satisfaction des clients;
— comprendre si le service proposé répond aux attentes et aux besoins;
— trouver et mettre en œuvre de nouvelles façons d'accroître la confiance des clients ;
— créer des projets demandés, etc.

Par exemple, le service Google.trends peut indiquer à un spécialiste du marketing une prévision de l'activité saisonnière de la demande pour un produit spécifique, des fluctuations et de la géographie des clics. Si vous comparez ces informations avec les données statistiques collectées par le plugin correspondant sur votre propre site Internet, vous pouvez établir un plan de répartition du budget publicitaire, indiquant le mois, la région et d'autres paramètres.

Selon de nombreux chercheurs, le succès de la campagne électorale Trump réside dans la segmentation et l’utilisation du Big Data. L'équipe du futur président américain a su diviser correctement le public, comprendre ses désirs et montrer exactement le message que les électeurs veulent voir et entendre. Ainsi, selon Irina Belysheva de la Data-Centric Alliance, la victoire de Trump a été largement possible grâce à une approche non standard du marketing Internet, basée sur le Big Data, l’analyse psychologique et comportementale et la publicité personnalisée.

Les stratèges politiques et les spécialistes du marketing de Trump ont utilisé un outil spécialement conçu pour modèle mathématique, qui a permis d'analyser en profondeur les données de tous les électeurs américains et de les systématiser, réalisant un ciblage ultra-précis non seulement par caractéristiques géographiques, mais aussi par les intentions, les intérêts des électeurs, leur psychotype, leurs caractéristiques comportementales, etc. les spécialistes du marketing ont organisé une communication personnalisée avec chacun des groupes de citoyens en fonction de leurs besoins, de leur humeur, de leurs opinions politiques, de leurs caractéristiques psychologiques et même de la couleur de leur peau, en utilisant un message différent pour presque chaque électeur.

Quant à Hillary Clinton, elle a utilisé dans sa campagne des méthodes « éprouvées » basées sur des données sociologiques et un marketing standard, divisant l'électorat uniquement en groupes formellement homogènes (hommes, femmes, Afro-Américains, Latino-Américains, pauvres, riches, etc.) .

En conséquence, le gagnant était celui qui appréciait le potentiel des nouvelles technologies et méthodes d'analyse. Il est à noter que les dépenses de campagne d'Hillary Clinton étaient deux fois plus élevées que celles de son adversaire :

Données : Pew Research

Principaux problèmes liés à l'utilisation du Big Data

En plus coût élevé, l'un des principaux facteurs qui ralentissent la mise en œuvre du Big Data dans divers domaines est le problème de la sélection des données à traiter : c'est-à-dire déterminer quelles données doivent être récupérées, stockées et analysées, et lesquelles ne doivent pas être prises en compte. .

Un autre problème du Big Data est d’ordre éthique. En d’autres termes, une question logique se pose : une telle collecte de données (notamment à l’insu de l’utilisateur) peut-elle être considérée comme une violation de la vie privée ?

Ce n'est un secret pour personne que les informations stockées dans moteurs de recherche Google et Yandex permettent aux géants de l'informatique d'améliorer constamment leurs services, de les rendre conviviaux et de créer de nouvelles applications interactives. Pour ce faire, les moteurs de recherche collectent des données utilisateur sur l'activité des utilisateurs sur Internet, les adresses IP, les données de géolocalisation, les centres d'intérêt et les achats en ligne, les données personnelles, messages électroniques etc. Tout cela permet d'afficher des publicités contextuelles en fonction du comportement des utilisateurs sur Internet. Dans ce cas, le consentement des utilisateurs n’est généralement pas demandé et la possibilité de choisir les informations les concernant à fournir n’est pas donnée. Autrement dit, par défaut, tout est collecté en Big Data, qui sera ensuite stocké sur les serveurs de données des sites.

Cela nous amène au prochain problème important concernant la sécurité du stockage et de l’utilisation des données. Par exemple, une plateforme analytique particulière vers laquelle les consommateurs transfèrent automatiquement leurs données est-elle sécurisée ? En outre, de nombreux représentants d'entreprises constatent un manque d'analystes et de spécialistes du marketing hautement qualifiés, capables de gérer efficacement de gros volumes de données et de résoudre des problèmes commerciaux spécifiques avec leur aide.

Malgré toutes les difficultés liées à la mise en œuvre du Big Data, l'entreprise entend accroître ses investissements dans ce domaine. Selon une étude de Gartner, les leaders des secteurs qui investissent dans le Big Data sont les sociétés de médias, de vente au détail, de télécommunications, de banque et de services.

Perspectives d'interaction entre les technologies blockchain et Big Data

L'intégration avec le Big Data a un effet synergique et ouvre un large éventail de nouvelles opportunités pour les entreprises, notamment en permettant :

— accéder à des informations détaillées sur les préférences des consommateurs, sur la base desquelles vous pouvez créer des profils analytiques détaillés pour des fournisseurs, des produits et des composants de produits spécifiques ;
— intégrer des données détaillées sur les transactions et les statistiques de consommation de certains groupes de biens par diverses catégories d'utilisateurs;
— recevoir des données analytiques détaillées sur les chaînes d'approvisionnement et de consommation, contrôler les pertes de produits pendant le transport (par exemple, perte de poids due au séchage et à l'évaporation de certains types de marchandises) ;
— lutter contre la contrefaçon des produits, accroître l'efficacité de la lutte contre le blanchiment d'argent et la fraude, etc.

L'accès à des données détaillées sur l'utilisation et la consommation des biens révélera de manière significative le potentiel de la technologie Big Data pour optimiser les processus commerciaux clés, réduire les risques réglementaires, révéler de nouvelles opportunités de monétisation et créer des produits qui répondront au mieux aux préférences actuelles des consommateurs.

Comme on le sait, les représentants des plus grandes institutions financières manifestent déjà un intérêt considérable pour la technologie blockchain, notamment, etc. Selon Oliver Bussmann, responsable informatique de la holding financière suisse UBS, la technologie blockchain peut « réduire le temps de traitement des transactions de plusieurs jours à plusieurs jours ». minutes" .

Le potentiel d’analyse de la blockchain à l’aide de la technologie Big Data est énorme. La technologie du grand livre distribué garantit l'intégrité des informations, ainsi qu'un stockage fiable et transparent de l'ensemble de l'historique des transactions. Le Big Data, à son tour, fournit de nouveaux outils pour une analyse, des prévisions et une modélisation économique efficaces et, par conséquent, ouvre de nouvelles opportunités pour prendre des décisions de gestion plus éclairées.

Le tandem blockchain et Big Data peut être utilisé avec succès dans le domaine de la santé. Comme on le sait, des données imparfaites et incomplètes sur la santé d’un patient augmentent considérablement le risque d’un diagnostic erroné et d’un traitement mal prescrit. Les données critiques sur la santé des clients des établissements médicaux doivent être protégées au maximum, avoir des propriétés immuables, être vérifiables et ne doivent être soumises à aucune manipulation.

Les informations contenues dans la blockchain répondent à toutes les exigences ci-dessus et peuvent servir de données sources fiables et de haute qualité pour une analyse approfondie à l’aide des nouvelles technologies Big Data. De plus, grâce à la blockchain, les établissements médicaux pourraient échanger des données fiables avec les compagnies d’assurance, les autorités judiciaires, les employeurs, les institutions scientifiques et d’autres organisations ayant besoin d’informations médicales.

Big Data et sécurité de l’information

Au sens large, la sécurité de l'information est la protection des informations et des infrastructures de soutien contre les impacts négatifs accidentels ou intentionnels de nature naturelle ou artificielle.

Dans le domaine de la sécurité de l’information, le Big Data est confronté aux défis suivants :

— les problèmes de protection des données et de garantie de leur intégrité;
— risque d'altération et de fuite information confidentielle;
— stockage inapproprié d'informations confidentielles ;
— le risque de perte d’informations, par exemple en raison d’actions malveillantes de quelqu’un ;
— risque d'utilisation abusive des données personnelles par des tiers, etc.

L’un des principaux problèmes du Big Data que la blockchain est censée résoudre réside dans le domaine de la sécurité de l’information. En garantissant le respect de tous ses principes de base, la technologie des registres distribués peut garantir l'intégrité et la fiabilité des données, et en raison de l'absence de point de défaillance unique, la blockchain rend travail stable systèmes d’information. La technologie des registres distribués peut aider à résoudre le problème de la confiance dans les données et permettre un partage universel des données.

L’information est un atout précieux, ce qui signifie que garantir les aspects fondamentaux de la sécurité de l’information doit être au premier plan. Afin de résister concours, les entreprises doivent rester dans l’air du temps, ce qui signifie qu’elles ne peuvent ignorer les opportunités et les avantages potentiels que contiennent la technologie blockchain et les outils Big Data.

Le Big Data, ou big data, est un concept utilisé dans les technologies de l'information et le marketing. Le terme « big data » est utilisé pour définir l’analyse et la gestion de gros volumes. Ainsi, le big data est une information qui, en raison de ses volumes importants, ne peut être traitée par les méthodes traditionnelles.

Vie moderne impossible à imaginer sans le numérique. Les entrepôts de données mondiaux sont constamment reconstitués et il est donc également nécessaire de modifier continuellement les conditions de stockage de l'information et de rechercher de nouvelles façons d'augmenter le volume de ses supports. D'après l'opinion des experts, l'augmentation Big Data et les taux de croissance croissants sont des réalités actuelles. Comme déjà mentionné, les informations apparaissent en permanence. D'énormes quantités sont générées par les sites d'information, diverses prestations partage de fichiers et réseaux sociaux, mais cela ne représente qu'une petite partie du volume total produit.

IDC Digital Universe, après avoir mené une étude, a déclaré que d'ici 5 ans, le volume de données sur la Terre entière atteindra quarante zettaoctets. Cela signifie que pour chaque personne sur la planète, il y aura 5 200 Go d'informations.

Meilleur article du mois

Le premier semestre 2018 se termine, il est temps de le résumer sous-totaux. Même si les performances commerciales de l'entreprise ont augmenté par rapport à la période précédente, assurez-vous qu'il n'y a pas de difficultés cachées dans le travail de l'entreprise qui pourraient causer des problèmes.

Pour diagnostiquer les problèmes, remplissez les listes de contrôle de notre article et découvrez à quel côté de l'entreprise prêter attention.

Il est de notoriété publique que les individus ne sont pas les principaux producteurs d’informations. La principale source d’informations qui apporte des données sont les robots qui interagissent en permanence. Ceux-ci inclus système opérateur ordinateurs, tablettes et téléphones mobiles, systèmes intelligents, outils de surveillance, systèmes de surveillance, etc. Ensemble, ils entraînent un taux d'augmentation rapide de la quantité de données, ce qui signifie que le besoin de créer à la fois des serveurs réels et virtuels augmente. Ensemble, cela conduit à l’expansion et à la mise en œuvre de nouveaux centres de données.

Le plus souvent, les mégadonnées sont définies comme des informations qui dépassent le volume du disque dur d'un PC et ne peuvent pas être traitées par les méthodes traditionnelles utilisées pour traiter et analyser des informations avec un volume plus petit.

Pour résumer, la technologie de traitement du Big Data se résume finalement à 3 domaines principaux, qui, à leur tour, résolvent 3 types de problèmes :

  1. Stockage et gestion d'énormes volumes de données - leurs tailles atteignent des centaines de téraoctets et pétaoctets - qui bases de données relationnelles les données ne peuvent pas être utilisées efficacement.
  2. Organisation d'informations non structurées - textes, images, vidéos et autres types de données.
  3. Analyse des mégadonnées (analyse des mégadonnées) - cela couvre les façons de travailler avec des informations non structurées, de créer des rapports de données analytiques et d'introduire des modèles prédictifs.

Marché de projetsgranddonnées est étroitement interconnecté avec le marché VA - l'analyse commerciale, dont le volume en 2012 s'élevait à environ 100 milliards de dollars, et comprend les technologies de réseau, les logiciels, les services techniques et les serveurs.

L’automatisation des activités des entreprises, en particulier les solutions d’assurance des revenus (RA), est également inextricablement liée à l’utilisation des technologies Big Data. Aujourd'hui, les systèmes dans ce domaine contiennent des outils utilisés pour détecter les incohérences et pour une analyse approfondie des données, et aident également à identifier d'éventuelles pertes ou inexactitudes d'informations qui pourraient conduire à une diminution des résultats du secteur.

Les entreprises russes confirment qu'il existe une demande pour les technologies du Big Data ; elles notent séparément que les principaux facteurs influençant le développement du Big Data en Russie sont l'augmentation du volume de données, l'adoption rapide des décisions de gestion et l'augmentation de leur qualité.

Quel rôle le Big Data joue-t-il dans le marketing ?

Ce n'est un secret pour personne que l'information est l'un des principaux éléments d'une prévision et d'un développement réussis d'une stratégie marketing, si vous savez comment l'utiliser.

L'analyse du Big Data est indispensable pour déterminer le public cible, ses intérêts et son activité. En d’autres termes, l’utilisation judicieuse du big data permet de prédire avec précision le développement d’une entreprise.

En utilisant, par exemple, le célèbre modèle d'enchères RTB, à l'aide de l'analyse du Big Data, il est facile de s'assurer que la publicité est affichée uniquement auprès des acheteurs potentiels intéressés par l'achat d'un service ou d'un produit.

Application le big data en marketing :

  1. Vous permet de reconnaître les acheteurs potentiels et d'attirer le public approprié sur Internet.
  2. Aide à évaluer la satisfaction.
  3. Aide à adapter le service offert aux besoins de l’acheteur.
  4. Facilite la recherche et la mise en œuvre de nouvelles méthodes pour fidéliser la clientèle.
  5. Simplifie la création de projets qui seront par la suite demandés.

Un exemple particulier est le service Google.trends. Avec son aide, un spécialiste du marketing pourra identifier les prévisions pour la saison concernant un produit particulier, la géographie des clics et les fluctuations. Ainsi, en comparant les informations reçues avec les statistiques de votre propre site Internet, il est assez simple d'établir un budget publicitaire indiquant la région et le mois.

  • Répartition du budget publicitaire : sur quoi vaut-il la peine d'investir
  • l>

    Comment et où stocker le Big Data Big Data

    Système de fichiers- c'est ici que le Big Data est organisé et stocké. Toutes les informations se trouvent sur un grand nombre de disques durs du PC.

    "Carte"- carte - garde une trace de l'endroit où chaque élément d'information est directement stocké.

    Afin de se prémunir contre des circonstances imprévues, il est d'usage de sauvegarder chaque information plusieurs fois - il est recommandé de le faire trois fois.

    Par exemple, après avoir collecté des transactions individuelles dans une chaîne de vente au détail, toutes les informations sur chaque transaction individuelle seraient stockées sur plusieurs serveurs et disques durs, et une « carte » indexerait l'emplacement du fichier pour chaque transaction spécifique.

    Afin d'organiser le stockage de données en gros volumes, vous pouvez utiliser des équipements techniques et des logiciels standards situés dans accès libre(par exemple, Hadoop).

    Big data et business analytique : la différence entre les concepts

    Aujourd’hui, l’analyse commerciale est un processus descriptif des résultats obtenus sur une période de temps spécifique. La vitesse actuelle de traitement du Big Data rend l’analyse prédictive. Vous pouvez compter sur ses recommandations à l'avenir. Les technologies du Big Data permettent d’analyser un plus grand nombre de types de données par rapport aux outils et outils utilisés en business analytique. Cela vous permet non seulement de vous concentrer sur les entrepôts où les données sont structurées, mais également d'utiliser des ressources beaucoup plus larges.

    L'analyse commerciale et le Big Data sont similaires à bien des égards, mais il existe les différences suivantes :

    • Le Big Data permet de traiter un volume d’informations bien plus important que l’analyse commerciale, qui définit le concept même du Big Data.
    • Avec l'aide du Big Data, vous pouvez traiter rapidement les données reçues et modifiées, ce qui conduit à l'interactivité, c'est-à-dire que dans la plupart des cas, la vitesse de chargement d'une page Web est inférieure à la vitesse de génération des résultats.
    • Le Big Data peut être utilisé lors du traitement de données qui n'ont pas de structure, dont le travail ne doit commencer qu'après avoir assuré leur stockage et leur collecte. De plus, il est nécessaire d'appliquer des algorithmes capables d'identifier les principaux modèles dans les tableaux créés.

    Le processus d’analyse commerciale n’est pas très similaire au travail du Big Data. En règle générale, l'analyse commerciale tend à obtenir des résultats en ajoutant des valeurs spécifiques : un exemple est le volume des ventes annuelles, calculé comme la somme de toutes les factures payées. Dans le processus de travail avec le Big Data, les calculs sont effectués en construisant un modèle étape par étape :

    • émettre une hypothèse ;
    • construire un modèle statique, visuel et sémantique ;
    • tester la validité de l'hypothèse basée sur les modèles spécifiés ;
    • avançant l’hypothèse suivante.

    Afin de compléter le cycle de recherche, il est nécessaire d’interpréter des significations visuelles (requêtes interactives basées sur les connaissances). Un algorithme d’apprentissage automatique adaptatif peut également être développé.

    Opinion d'expert

    Vous ne pouvez pas vous fier aveuglément uniquement aux opinions des analystes

    Viatcheslav Nazarov,

    Directeur général du bureau de représentation russe d'Archos, Moscou

    Il y a environ un an, sur la base de l'avis d'experts, nous avons lancé sur le marché une toute nouvelle tablette, console de jeu. La compacité et la puissance technique suffisante ont été reconnues par les fans jeux d'ordinateur. Il convient de noter que ce groupe, malgré son « étroitesse », disposait d'un pouvoir d'achat assez élevé. Au début, le nouveau produit collectait beaucoup commentaire positif dans les médias et a reçu l'approbation de nos partenaires. Cependant, il est vite devenu évident que les ventes de tablettes étaient assez faibles. La solution n’a jamais trouvé sa popularité massive.

    Erreur. Notre défaut était que les intérêts du public cible n’étaient pas entièrement étudiés. Les utilisateurs qui préfèrent jouer sur une tablette n’ont pas besoin de super graphismes car ils jouent principalement à des jeux simples. Les joueurs sérieux sont déjà habitués à jouer sur ordinateur sur des plateformes plus avancées. Il n'y a pas eu de publicité massive pour notre produit, la campagne marketing a également été faible et, finalement, la tablette n'a trouvé son acheteur dans aucun des groupes spécifiés.

    Conséquences. La production du produit a dû être réduite de près de 40 % par rapport aux volumes initialement prévus. Bien sûr, il n’y a pas eu de grosses pertes ni de bénéfices prévus. Cependant, cela nous a obligé à ajuster certains objectifs stratégiques. La chose la plus précieuse que nous avons irrémédiablement perdue est notre temps.

    Conseil. Vous devez penser à l’avenir. Les gammes de produits doivent être pensées avec deux ou trois longueurs d’avance. Qu'est-ce que ça veut dire? Lorsque vous exécutez certains gamme de modèles aujourd'hui, il est souhaitable de comprendre son sort demain et d'avoir au moins une idée approximative de ce qui lui arrivera dans un an et demi. Bien entendu, il est peu probable qu’il soit possible d’obtenir des détails complets, mais un plan de base doit tout de même être élaboré.

    Et vous ne devriez pas faire entièrement confiance aux analystes. Les évaluations des experts doivent être comparées à leurs propres données statistiques ainsi qu’à la situation opérationnelle du marché. Si votre produit n'est pas entièrement développé, vous ne devez pas le commercialiser, car pour l'acheteur, la première impression est la plus importante, et ensuite le convaincre ne sera pas une tâche facile.

    Très conseil important en cas d'échec - rapidité de prise de décision. Vous ne pouvez absolument pas simplement regarder et attendre. Résoudre un problème sans délai est toujours beaucoup plus facile et moins coûteux que de résoudre un problème négligé.

    Quels problèmes le système Big Data crée-t-il ?

    Il existe trois groupes principaux de problèmes des systèmes Big Data, qui dans la littérature étrangère sont combinés en 3V - Volume, Vitesse et Variété, c'est-à-dire :

  1. Volume.
  2. Vitesse de traitement.
  3. Manque de structure.

La question du stockage de gros volumes d'informations est associée à la nécessité d'organiser certaines conditions, c'est-à-dire à la création d'espace et d'opportunités. Quant à la vitesse, elle n'est pas tant associée aux ralentissements et aux freinages lors de l'utilisation de méthodes de traitement obsolètes, mais à l'interactivité : plus le processus de traitement de l'information est rapide, plus le résultat est productif.

  1. Le problème de la déstructuration vient de la séparation des sources, de leur format et de leur qualité. Une intégration et un traitement réussis du big data nécessitent à la fois un travail sur sa préparation et des outils ou systèmes d’analyse.
  2. La limite de la « grandeur » des données a également une grande influence. Il est assez difficile de déterminer la valeur et, sur cette base, il est problématique de calculer quels investissements financiers seront nécessaires et quelles technologies seront nécessaires. Cependant, pour certaines quantités, par exemple les téraoctets, de nouvelles méthodes de traitement sont aujourd'hui utilisées avec succès, qui sont constamment améliorées.
  3. L'absence de principes généralement acceptés pour travailler avec le Big Data est un autre problème, compliqué par l'hétérogénéité des flux susmentionnée. Pour résoudre ce problème, de nouvelles méthodes d'analyse du Big Data sont créées. D'après les déclarations des représentants des universités de New York, de Washington et de Californie, la création d'une discipline distincte et même de la science du Big Data n'est pas loin. C'est ce que c'est raison principale que les entreprises ne sont pas pressées d'introduire des projets liés au big data. Un autre facteur est le coût élevé.
  4. Des difficultés surviennent également dans la sélection des données à analyser et dans l'algorithme des actions. À ce jour, on ne comprend pas quelles données contiennent des informations précieuses et nécessitent une analyse Big Data, ni quelles données peuvent être ignorées. Dans cette situation, une chose devient claire : il n'y a pas assez de professionnels de l'industrie sur le marché qui peuvent effectuer une analyse approfondie, rédiger un rapport sur la résolution du problème et, par conséquent, générer des bénéfices.
  5. La question présente également un aspect moral : la collecte de données à l’insu de l’utilisateur est-elle différente d’une grave atteinte à la vie privée ? Il convient de noter que la collecte de données améliore la qualité de vie : par exemple, la collecte continue de données dans Systèmes Google et Yandex aide les entreprises à améliorer leurs services en fonction des besoins des consommateurs. Les systèmes de ces services notent chaque clic de l'utilisateur, sa localisation et les sites visités, tous les messages et achats - et tout cela permet d'afficher des publicités basées sur le comportement de l'utilisateur. L'utilisateur n'a pas consenti à la collecte de données : aucun choix de ce type n'a été proposé. Donc prochain problème: Dans quelle mesure les informations sont-elles stockées en toute sécurité ? Par exemple, les informations sur les acheteurs potentiels, l'historique de leurs achats et les transitions vers divers sites peuvent aider à résoudre de nombreux problèmes commerciaux, mais la sécurité de la plate-forme utilisée par les acheteurs est une question très controversée. De nombreuses personnes soulignent qu'aujourd'hui, aucune installation de stockage de données - même les serveurs des services militaires - n'est suffisamment protégée contre les attaques de pirates informatiques.
  • Secrets d'affaires : protection et sanctions en cas de divulgation

Utilisation étape par étape du Big Data

Étape 1. Implémentation technologique de l'entreprise dans un projet stratégique.

Les tâches des spécialistes techniques comprennent l'élaboration préliminaire du concept de développement : analyse des voies de développement dans les domaines qui en ont le plus besoin.

Pour déterminer la composition et les tâches, une conversation est tenue avec les clients, à la suite de laquelle les ressources requises sont analysées. Dans le même temps, l'organisation décide d'externaliser complètement toutes les tâches ou de créer une équipe hybride composée de spécialistes de cette organisation et de toute autre organisation.

Selon les statistiques, un grand nombre d'entreprises utilisent exactement ce schéma : disposer d'une équipe d'experts à l'intérieur, surveiller la qualité du travail et former un mouvement, et à l'extérieur, tester directement les hypothèses sur le développement de n'importe quelle direction.

Étape 2 : Trouver un data scientist.

Le manager rassemble collectivement le personnel des ouvriers. Il est également responsable du développement du projet. Les collaborateurs RH jouent un rôle direct dans la création de l’équipe interne.

Tout d’abord, une telle équipe a besoin d’un ingénieur analyste de données, également appelé scientifique des données, qui aura pour tâche de formuler des hypothèses et d’analyser un ensemble d’informations. Les corrélations qu'il identifie seront utilisées à l'avenir pour établir de nouveaux produits et services.

Surtout au début, il est important tâche du service RH. Ses employés décident qui fera exactement le travail visant à développer le projet, où l'obtenir et comment le motiver. Il n'est pas si facile de trouver un ingénieur analyste de données, il s'agit donc d'un « produit à la pièce ».

Toute entreprise sérieuse doit disposer d'un spécialiste de ce profil, en sinon le focus du projet est perdu. Ingénieur analytique combiné : développeur, analyste et business analyst. De plus, il doit avoir des compétences en communication pour démontrer les résultats de ses activités et une richesse de connaissances et de compétences pour expliquer ses pensées en détail.

  • 24 pensées qui déclenchent de grands changements dans la vie

Exemples de recherche

1. Une compagnie de taxi « Big Data » a été créée à Moscou. Tout au long du parcours, les passagers ont répondu à des tâches dans le domaine de l'analyse professionnelle. Si le passager répondait correctement à la plupart des questions, l'entreprise lui proposait un emploi. Le principal inconvénient de ce type de technique de sélection du personnel est la réticence de la majorité à participer à ce type de projet. Seules quelques personnes ont accepté l’entretien.

2. Organiser un concours spécial d'analyse commerciale avec une sorte de prix. Une grande banque russe a utilisé cette méthode. En conséquence, plus de 1 000 personnes ont participé au concours hackathon. Ceux qui ont obtenu le plus grand succès au concours se sont vu proposer un emploi. Malheureusement, la plupart des gagnants n'ont pas exprimé le désir de recevoir le poste, car leur motivation n'était que le prix. Mais néanmoins, plusieurs personnes ont accepté de travailler dans l'équipe.

3. Recherchez parmi des spécialistes des données qui comprennent l'analyse commerciale et sont capables de rétablir l'ordre en construisant algorithme correct Actions. Les compétences nécessaires d'un analyste spécialisé comprennent : la programmation, la connaissance de Python, R, Statistica, Rapidminer et d'autres connaissances non moins importantes pour un analyste commercial.

Étape 3. Création d'une équipe de développement.

Une équipe bien coordonnée est nécessaire. Lorsqu’il envisage des analyses avancées, telles que l’innovation d’une entreprise, un responsable devra créer et développer une intelligence d’affaires.

Ingénieur de recherche est engagé dans la construction et le test d'hypothèses pour le développement réussi du vecteur choisi.

À la tête il faut organiser le développement du secteur d'activité choisi, créer de nouveaux produits et les coordonner avec les clients. Ses responsabilités incluent également le calcul des analyses de rentabilisation.

Un responsable du développement doit travailler en étroite collaboration avec tout le monde. L'ingénieur analytique et le responsable du développement des affaires identifient les besoins et les opportunités en matière d'analyse Big Data grâce à des rencontres avec les employés responsables des différents domaines du projet. Après avoir analysé la situation, le manager crée des cas qui aideront l'entreprise à prendre des décisions concernant la poursuite du développement directions, services ou produits.

  • Responsable du développement : exigences et description de poste

3 principes de travail avec bigdà

Nous pouvons souligner les principales méthodes de travail avec le big data :

  1. Évolutivité horizontale.Étant donné qu’il doit y avoir une énorme quantité de données, tout système traitant une grande quantité d’informations sera extensible. Par exemple, si le volume de données a augmenté plusieurs fois, le volume de matériel dans le cluster a augmenté en conséquence du même montant.
  2. Tolérance aux pannes. Sur la base du principe d'évolutivité horizontale, nous pouvons conclure qu'il existe un grand nombre de machines dans le cluster. Par exemple, le cluster Hadoop de Yahoo en compte plus de 42 000. Toutes les méthodes de travail avec le Big Data doivent prendre en compte d'éventuels dysfonctionnements et rechercher des moyens de résoudre les problèmes sans conséquences.
  3. Localité des données. Les données stockées dans les grands systèmes sont réparties sur un assez grand nombre de machines. Ainsi, dans une situation où les données sont stockées sur le serveur n°1 et traitées sur le serveur n°2, on ne peut exclure la possibilité que leur transfert coûte plus cher que le traitement. C'est pourquoi, lors de la conception, une grande attention est accordée à ce que les données soient stockées et traitées sur un seul ordinateur.

Toutes les méthodes de travail avec le Big Data, d'une manière ou d'une autre, adhèrent à ces trois principes.

Comment utiliser le système Big Data

Des solutions Big Data efficaces pour une grande variété de domaines d’activité sont obtenues grâce aux nombreuses combinaisons de logiciels et de matériels qui existent actuellement.

Dignité importantegranddonnées- la possibilité d'utiliser de nouveaux outils avec ceux déjà utilisés dans ce domaine. Cela joue un rôle particulièrement important dans les situations impliquant des projets interdisciplinaires. Un exemple est les ventes multicanaux et le support client.

Pour travailler avec du big data, une certaine séquence est importante :

  • Premièrement, les données sont collectées ;
  • alors l’information est structurée. A cet effet, des tableaux de bord sont utilisés ( Tableaux de bord - outils de structuration ;
  • à l'étape suivante, des idées et des contextes sont créés, sur la base desquels des recommandations pour la prise de décision sont formulées. En raison des coûts élevés de la collecte de données, la tâche principale est de déterminer le but de l'utilisation des informations obtenues.

Exemple. Agences de publicité peut utiliser des informations de localisation regroupées auprès d’entreprises de télécommunications. Cette approche fournira une publicité ciblée. Les mêmes informations sont applicables dans d'autres domaines liés à la fourniture et à la vente de services et de biens.

Les informations ainsi obtenues peuvent être essentielles pour décider d'ouvrir ou non un magasin dans une zone particulière.

Si l'on considère le cas de l'utilisation de panneaux d'affichage extérieurs à Londres, il ne fait aucun doute qu'aujourd'hui une telle expérience n'est possible que si un appareil de mesure. Dans le même temps, les opérateurs mobiles connaissent toujours les informations de base sur leurs abonnés : leur localisation, Situation familiale et ainsi de suite.

Un autre domaine d'application potentiel du Big Data est la collecte d'informations sur le nombre de visiteurs de divers événements.

Exemple. Les organisateurs de matchs de football ne peuvent pas le savoir nombre exact qui est venu au match en avance. Cependant, ils auraient reçu de telles informations s'ils avaient utilisé les informations des opérateurs communications mobiles: où se trouvent les visiteurs potentiels certaine période heure - mois, semaine, jour - avant le match. Il s'avère que les organisateurs auraient la possibilité de planifier le lieu de l'événement en fonction des préférences du public cible.

Le Big Data apporte également des avantages incomparables au secteur bancaire, qui peut utiliser les données traitées pour identifier les titulaires de cartes peu scrupuleux.

Exemple. Lorsqu’un titulaire de carte signale sa perte ou son vol, la banque a la possibilité de suivre la localisation de la carte utilisée pour le paiement et le téléphone portable du titulaire pour vérifier la véracité des informations. Ainsi, le représentant de la banque a la possibilité de constater que la carte de paiement et téléphone mobile les titulaires sont dans la même zone. Cela signifie que le propriétaire utilise la carte.

Grâce aux avantages de ce type d’informations, l’utilisation de l’information offre aux entreprises de nombreuses nouvelles opportunités et le marché du big data continue de se développer.

La principale difficulté de la mise en œuvre du Big Data est la complexité du calcul du cas. Ce processus est compliqué par la présence d'un grand nombre d'inconnues.

Il est assez difficile de faire des prévisions pour l’avenir, alors que les données sur le passé ne sont pas toujours accessibles. Dans cette situation, le plus important est planifier vos premières actions:

  1. Définir un problème spécifique pour déterminer quelle technologie de traitement du Big Data sera appliquée aidera à déterminer le concept et à définir le vecteur actions supplémentaires. Après s’être concentré sur la collecte d’informations spécifiquement sur cette question, il convient également d’utiliser tous les outils et méthodes disponibles pour obtenir une image plus claire. De plus, cette approche facilitera grandement le processus de prise de décision à l'avenir.
  2. La probabilité qu'un projet Big Data soit mis en œuvre par une équipe sans certaines compétences et expériences est extrêmement faible. Les connaissances nécessaires à une recherche aussi complexe s'acquièrent généralement au terme d'un long travail, c'est pourquoi l'expérience préalable est si importante dans ce domaine. Il est difficile de surestimer l’influence d’une culture d’utilisation des informations obtenues grâce à de telles recherches. Ils offrent diverses opportunités, notamment l'abus des matériaux reçus. Pour utiliser les informations à bon escient, vous devez respecter les règles de base d’un traitement correct des données.
  3. Les informations sont la valeur fondamentale de la technologie. Le marché connaît encore une grave pénurie de spécialistes compétents qui comprennent les lois de la conduite des affaires, l'importance de l'information et la portée de son application. On ne peut ignorer le fait que l'analyse des données est un moyen clé pour atteindre les objectifs fixés et développer l'entreprise ; il faut s'efforcer de développer modèle spécifique comportement et perception. Dans ce cas, le big data sera bénéfique et jouera un rôle positif dans la résolution des problèmes de gestion d'entreprise.

Cas réussis de mise en œuvre du Big Data

Certains des cas énumérés ci-dessous ont eu plus de succès dans la collecte de données, d'autres dans l'analyse du Big Data et dans la manière d'appliquer les données obtenues au cours de l'étude.

  1. « Systèmes de crédit Tinkoff» a utilisé la plateforme EMC2 Greenplum pour le calcul massivement parallèle. En raison de l'augmentation continue du flux d'utilisateurs de cartes dans la banque, il était nécessaire d'accélérer le traitement des données. Il a été décidé d'utiliser le Big Data et de travailler avec des informations non structurées, ainsi qu'avec des informations d'entreprise obtenues à partir de sources disparates. Il n'a pas échappé à l'attention de leurs spécialistes que la couche analytique de l'entrepôt de données fédéral est en cours d'introduction sur le site Internet du Service fédéral des impôts de Russie. Par la suite, sur cette base, il est prévu d'aménager un espace donnant accès aux données du système fiscal pour un traitement ultérieur et l'obtention de données statistiques.
  2. La startup russe mérite d'être considérée séparément Synqéra, s'est engagé dans l'analyse en ligne du Big Data et a développé la plateforme Simplate. L'essentiel est qu'une grande quantité de données est traitée, les données sur les consommateurs, leurs achats, leur âge, leur humeur et leur état d'esprit sont analysées. Une chaîne de magasins de cosmétiques a installé aux caisses des capteurs capables de reconnaître les émotions des clients. Après avoir déterminé l'ambiance, les informations sur l'acheteur et le moment de l'achat sont analysées. L’acheteur reçoit ensuite des informations ciblées sur les remises et promotions. Cette solution a fidélisé les consommateurs et a pu augmenter les revenus du vendeur.
  3. Il faudrait aussi parler d'une étude de cas sur l'utilisation des technologies big data dans une entreprise Dunkin Donuts, qui, comme dans l’exemple précédent, utilisait l’analyse en ligne pour augmenter ses bénéfices. Alors, dans points de vente les écrans affichaient des offres spéciales dont le contenu changeait toutes les minutes. La base des substitutions dans le texte était à la fois l'heure de la journée et le produit en stock. À partir des reçus de caisse, l'entreprise a reçu des informations sur les articles les plus demandés. Cette méthode nous a permis d'augmenter les revenus et la rotation des stocks.

Ainsi, le traitement du Big Data a un effet positif sur la résolution des problèmes commerciaux. Un facteur important, bien entendu, est le choix de la stratégie et de l’utilisation. les derniers développements dans le domaine du big data.

Informations sur l'entreprise

Archos. Domaine d'activité : production et vente d'équipements électroniques. Territoire : des bureaux commerciaux sont ouverts dans neuf pays (Espagne, Chine, Russie, USA, France…). Nombre d'employés de la succursale : 5 (dans le bureau de représentation russe).

Chronique d'enseignants HSE sur les mythes et les cas de travail avec le Big Data

Vers les favoris

Les enseignants de l'École des nouveaux médias de l'École supérieure d'économie de l'Université nationale de recherche Konstantin Romanov et Alexander Pyatigorsky, qui est également directeur de la transformation numérique chez Beeline, ont écrit une chronique pour le site sur les principales idées fausses sur le Big Data - exemples d'utilisation la technologie et les outils. Les auteurs suggèrent que la publication aidera les dirigeants d'entreprise à comprendre ce concept.

Mythes et idées fausses sur le Big Data

Le Big Data n'est pas du marketing

Le terme Big Data est devenu très à la mode : il est utilisé dans des millions de situations et avec des centaines d'interprétations différentes, souvent sans rapport avec ce dont il s'agit. Les concepts sont souvent substitués dans la tête des gens et le Big Data est confondu avec un produit marketing. De plus, dans certaines entreprises, le Big Data fait partie du service marketing. Le résultat de l’analyse du big data peut en effet être une source d’activité marketing, mais rien de plus. Voyons voir comment ça fonctionne.

Si nous avons identifié une liste de ceux qui ont acheté des produits d'une valeur de plus de trois mille roubles dans notre magasin il y a deux mois, puis envoyé à ces utilisateurs une sorte d'offre, il s'agit alors d'un marketing typique. Nous obtenons une tendance claire à partir des données structurelles et l'utilisons pour augmenter les ventes.

Cependant, si nous combinons les données CRM avec des informations en streaming provenant, par exemple, d'Instagram et que nous les analysons, nous trouvons une tendance : une personne qui a réduit son activité mercredi soir et dont la dernière photo montre des chatons devrait faire une certaine offre. Ce sera déjà du Big Data. Nous avons trouvé un déclencheur, l'avons transmis aux spécialistes du marketing et ils l'ont utilisé à leurs propres fins.

Il s'ensuit que la technologie fonctionne généralement avec des données non structurées, et même si les données sont structurées, le système continue d'y rechercher des modèles cachés, ce que le marketing ne fait pas.

Le Big Data n'est pas de l'informatique

Deuxième extrême de cette histoire : le Big Data est souvent confondu avec l’informatique. Cela est dû au fait que dans les entreprises russes, en règle générale, les informaticiens sont les moteurs de toutes les technologies, y compris le Big Data. Par conséquent, si tout se passe dans ce département, l'entreprise dans son ensemble a l'impression qu'il s'agit d'une sorte d'activité informatique.

En fait, il y a ici une différence fondamentale : le Big Data est une activité visant à obtenir un produit spécifique, qui n'a rien à voir avec l'informatique, même si la technologie ne peut exister sans elle.

Le Big Data n'est pas toujours la collecte et l'analyse d'informations

Il existe une autre idée fausse à propos du Big Data. Tout le monde comprend que cette technologie implique de grandes quantités de données, mais de quel type de données il s’agit n’est pas toujours clair. N'importe qui peut collecter et utiliser des informations ; cela est désormais possible non seulement dans les films, mais aussi dans n'importe quelle entreprise, même la plus petite. La seule question est de savoir quoi collecter exactement et comment l’utiliser à votre avantage.

Mais il faut comprendre que la technologie Big Data ne consistera pas à collecter et à analyser absolument n'importe quelle information. Par exemple, si vous collectez des données sur une personne précise sur les réseaux sociaux, ce ne sera pas du Big Data.

Qu’est-ce que le Big Data réellement ?

Le Big Data se compose de trois éléments :

  • données;
  • analytique;
  • les technologies.

Le Big Data n’est pas seulement l’un de ces composants, mais une combinaison des trois éléments. Les gens substituent souvent des concepts : certains pensent que le Big Data n’est que des données, d’autres pensent qu’il s’agit de technologie. Mais en réalité, quelle que soit la quantité de données que vous collectez, vous ne pourrez rien en faire sans la technologie et les analyses appropriées. S’il existe de bonnes analyses, mais pas de données, c’est encore pire.

Si nous parlons de données, il ne s'agit pas seulement de textes, mais aussi de toutes les photos publiées sur Instagram, et en général de tout ce qui peut être analysé et utilisé à différentes fins et tâches. En d’autres termes, les Données font référence à d’énormes volumes de données internes et externes de diverses structures.

L'analyse est également nécessaire, car la tâche du Big Data est de créer des modèles. Autrement dit, l'analyse est l'identification des dépendances cachées et la recherche de nouvelles questions et réponses basées sur l'analyse de l'ensemble du volume de données hétérogènes. De plus, le Big Data pose des questions qui ne peuvent être directement dérivées de ces données.

Côté images, le fait que vous postiez une photo de vous portant un T-shirt bleu ne veut rien dire. Mais si vous utilisez la photographie pour la modélisation du Big Data, il se peut que vous deviez proposer un prêt dès maintenant, car dans votre groupe social, un tel comportement indique un certain phénomène en action. Par conséquent, des données « nues » sans analyse, sans identification de dépendances cachées et non évidentes ne constituent pas du Big Data.

Nous avons donc du Big Data. Leur éventail est immense. Nous avons également un analyste. Mais comment pouvons-nous être sûrs qu’à partir de ces données brutes, nous trouverons une solution spécifique ? Pour ce faire, nous avons besoin de technologies qui nous permettent non seulement de les stocker (ce qui était impossible auparavant), mais aussi de les analyser.

En termes simples, si vous disposez de beaucoup de données, vous aurez besoin de technologies, par exemple Hadoop, qui permettent de stocker toutes les informations sous leur forme originale pour une analyse ultérieure. Ce type de technologie est apparu chez les géants de l'Internet, car ils ont été les premiers à être confrontés au problème du stockage d'une grande quantité de données et de leur analyse en vue d'une monétisation ultérieure.

En plus des outils de stockage de données optimisés et bon marché, vous avez besoin d'outils analytiques, ainsi que de modules complémentaires à la plateforme utilisée. Par exemple, tout un écosystème de projets et de technologies connexes s'est déjà formé autour de Hadoop. En voici quelques uns:

  • Pig est un langage d'analyse de données déclaratif.
  • Hive - analyse de données à l'aide d'un langage similaire à SQL.
  • Oozie - Flux de travail Hadoop.
  • Hbase est une base de données (non relationnelle), similaire à Google Big Table.
  • Mahout - apprentissage automatique.
  • Sqoop - transfert de données de RSDB vers Hadoop et vice versa.
  • Flume - transfert des journaux vers HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS et ainsi de suite.

Tous ces outils sont accessibles à tous gratuitement, mais il existe également un certain nombre de modules complémentaires payants.

De plus, des spécialistes sont nécessaires : un développeur et un analyste (le soi-disant Data Scientist). Il faut également un manager capable de comprendre comment appliquer ces analyses pour résoudre un problème spécifique, car en soi, elles n'ont aucun sens si elles ne sont pas intégrées aux processus métier.

Les trois employés doivent travailler en équipe. Un manager qui confie à un spécialiste de la Data Science la tâche de trouver un certain modèle doit comprendre qu'il ne trouvera pas toujours exactement ce dont il a besoin. Dans ce cas, le manager doit écouter attentivement ce que le Data Scientist a trouvé, car ses conclusions s'avèrent souvent plus intéressantes et utiles pour l'entreprise. Votre travail consiste à appliquer cela à une entreprise et à en faire un produit.

Même s'il existe aujourd'hui de nombreux types de machines et de technologies, la décision finale appartient toujours à la personne. Pour ce faire, les informations doivent être visualisées d’une manière ou d’une autre. Il existe de nombreux outils pour cela.

L’exemple le plus parlant est celui des rapports géoanalytiques. La société Beeline travaille beaucoup avec les gouvernements de différentes villes et régions. Très souvent, ces organisations commandent des rapports tels que « Congestion du trafic à un certain endroit ».

Il est clair qu'un tel rapport devrait parvenir aux agences gouvernementales sous une forme simple et compréhensible. Si nous leur fournissons un tableau énorme et complètement incompréhensible (c'est-à-dire des informations telles que nous les recevons), il est peu probable qu'ils achètent un tel rapport - il sera complètement inutile, ils n'en tireront pas la connaissance que ils voulaient recevoir.

Par conséquent, quelle que soit la qualité des data scientists et quels que soient les modèles qu’ils trouvent, vous ne pourrez pas travailler avec ces données sans de bons outils de visualisation.

Les sources de données

La gamme de données obtenues est très large et peut donc être divisée en plusieurs groupes.

Données internes de l'entreprise

Même si 80 % des données collectées appartiennent à ce groupe, cette source n’est pas toujours utilisée. Il s’agit souvent de données dont personne n’a apparemment besoin, par exemple des journaux. Mais si vous les regardez sous un angle différent, vous pouvez parfois y découvrir des motifs inattendus.

Sources de sharewares

Cela inclut les données des réseaux sociaux, d’Internet et tout ce qui est accessible gratuitement. Pourquoi le shareware est-il gratuit ? D'une part, ces données sont accessibles à tous, mais si vous êtes une grande entreprise, alors les obtenir à l'échelle d'une base d'abonnés de dizaines de milliers, de centaines ou de millions de clients n'est plus une tâche facile. Il existe donc des services payants sur le marché pour fournir ces données.

Sources payantes

Cela inclut les entreprises qui vendent des données contre de l’argent. Il peut s'agir de sociétés de télécommunications, de DMP, de sociétés Internet, de bureaux de crédit et d'agrégateurs. En Russie, les télécoms ne vendent pas de données. Premièrement, cela n’est pas rentable du point de vue économique et, deuxièmement, cela est interdit par la loi. Ils vendent donc les résultats de leur traitement, par exemple des rapports géoanalytiques.

Données ouvertes

L’État est accommodant avec les entreprises et leur donne la possibilité d’utiliser les données qu’elles collectent. Ceci est davantage développé en Occident, mais la Russie, à cet égard, reste également dans l’air du temps. Par exemple, il existe un portail de données ouvertes du gouvernement de Moscou, où sont publiées des informations sur diverses infrastructures urbaines.

Pour les résidents et les invités de Moscou, les données sont présentées sous forme tabulaire et cartographique, et pour les développeurs - dans des formats spéciaux lisibles par machine. Bien que le projet fonctionne de manière limitée, il se développe, ce qui signifie qu'il constitue également une source de données que vous pouvez utiliser pour vos tâches commerciales.

Recherche

Comme nous l'avons déjà indiqué, la tâche du Big Data est de trouver un modèle. Souvent, les recherches menées dans le monde entier peuvent devenir un point d'appui pour trouver un modèle particulier - vous pouvez obtenir un résultat spécifique et essayer d'appliquer une logique similaire à vos propres objectifs.

Le Big Data est un domaine dans lequel toutes les lois des mathématiques ne s’appliquent pas. Par exemple, « 1 » + « 1 » ne signifie pas « 2 », mais bien plus, car en mélangeant les sources de données, l'effet peut être considérablement amélioré.

Exemples de produits

De nombreuses personnes connaissent le service de sélection musicale Spotify. C’est génial car il ne demande pas aux utilisateurs quelle est leur humeur du jour, mais la calcule plutôt en fonction des sources dont il dispose. Il sait toujours ce dont vous avez besoin maintenant : du jazz ou du hard rock. C’est la principale différence qui lui confère des fans et le distingue des autres services.

Ces produits sont généralement appelés produits sensoriels - ceux que ressentent leurs clients.

La technologie Big Data est également utilisée dans l’industrie automobile. Par exemple, Tesla fait cela : son dernier modèle est doté d'un pilote automatique. L'entreprise s'efforce de créer une voiture qui emmènera elle-même le passager là où il doit aller. Sans Big Data, cela est impossible, car si nous utilisons uniquement les données que nous recevons directement, comme le fait une personne, alors la voiture ne pourra pas s'améliorer.

Lorsque nous conduisons nous-mêmes une voiture, nous utilisons nos neurones pour prendre des décisions basées sur de nombreux facteurs que nous ne remarquons même pas. Par exemple, nous ne comprenons peut-être pas pourquoi nous avons décidé de ne pas accélérer immédiatement au feu vert, mais il s'avère ensuite que la décision était la bonne - une voiture vous a dépassé à une vitesse vertigineuse et vous avez évité un accident.

Vous pouvez également donner un exemple d'utilisation du Big Data dans le sport. En 2002, le directeur général de l'équipe de baseball des Oakland Athletics, Billy Beane, a décidé de briser le paradigme du recrutement des athlètes : il a sélectionné et entraîné les joueurs « en fonction des chiffres ».

Habituellement, les managers examinent le succès des joueurs, mais dans ce cas, tout était différent - pour obtenir des résultats, le manager étudiait les combinaisons d'athlètes dont il avait besoin, en prêtant attention aux caractéristiques individuelles. De plus, il a choisi des athlètes qui n'avaient pas beaucoup de potentiel en eux-mêmes, mais l'équipe dans son ensemble s'est avérée si performante qu'elle a remporté vingt matches d'affilée.

Le réalisateur Bennett Miller a ensuite réalisé un film consacré à cette histoire : « L'homme qui a tout changé », avec Brad Pitt.

La technologie Big Data est également utile dans le secteur financier. Pas une seule personne au monde ne peut déterminer de manière indépendante et précise s’il vaut la peine d’accorder un prêt à quelqu’un. Afin de prendre une décision, une notation est effectuée, c'est-à-dire qu'un modèle probabiliste est construit, à partir duquel on peut comprendre si cette personne restituera l'argent ou non. De plus, le scoring s'applique à toutes les étapes : vous pouvez, par exemple, calculer qu'à un certain moment une personne cessera de payer.

Le Big Data permet non seulement de gagner de l’argent, mais aussi de l’économiser. Cette technologie a notamment aidé le ministère allemand du Travail à réduire le coût des allocations de chômage de 10 milliards d'euros, puisqu'après analyse des informations, il est devenu clair que 20 % des allocations étaient versées à tort.

Les technologies sont également utilisées en médecine (c'est particulièrement typique d'Israël). Avec l’aide du Big Data, vous pouvez effectuer une analyse beaucoup plus précise qu’un médecin ayant trente ans d’expérience.

Tout médecin, lorsqu'il pose un diagnostic, s'appuie uniquement sur sa propre expérience. Lorsque la machine fait cela, elle s’appuie sur l’expérience de milliers de médecins et sur toutes les histoires de cas existantes. Il prend en compte le matériau dont est faite la maison du patient, la région dans laquelle vit la victime, le type de fumée qui s’y dégage, etc. Autrement dit, il prend en compte de nombreux facteurs que les médecins ne prennent pas en compte.

Un exemple d'utilisation du Big Data dans le domaine des soins de santé est le projet Artemis, mis en œuvre par l'Hôpital pour enfants de Toronto. Il s'agit d'un système d'information qui collecte et analyse les données sur les bébés en temps réel. La machine permet d'analyser 1260 indicateurs de santé de chaque enfant chaque seconde. Ce projet vise à prédire l'état instable d'un enfant et à prévenir les maladies chez les enfants.

Le Big Data commence également à être utilisé en Russie : par exemple, Yandex possède une division Big Data. La société, en collaboration avec AstraZeneca et la Société russe d'oncologie clinique RUSSCO, a lancé la plateforme RAY, destinée aux généticiens et biologistes moléculaires. Le projet nous permet d'améliorer les méthodes de diagnostic du cancer et d'identification des prédispositions au cancer. La plateforme sera lancée en décembre 2016.