En statistique et en informatique, le terme big data - "grandes masses de données" - désigne de manière générique une collection de données d'information dont le volume, la vélocité et la variété sont si importants qu'ils nécessitent des technologies et des méthodes d'analyse spécifiques pour en extraire de la valeur ou des connaissances. La littérature explique donc ce qu'est le big data et à quoi il sert, en utilisant des termes qui peuvent sembler trop techniques pour les non-initiés. En fait, il s'agit de l'une des évolutions les plus profondes et omniprésentes du monde numérique, destinée à durer dans le temps et à affecter profondément notre vie quotidienne et les activités productives des entreprises.
C'est une influence que l'on peut ressentir tous les jours, et qui a pratiquement changé radicalement de nombreuses activités de base de notre existence. Comme le monde qui nous entoure. C'est pourquoi, surtout au cours des vingt dernières années, nous entendons de plus en plus parler des mégadonnées dans la presse écrite et en ligne, et plus encore dans les pages consacrées au marketing et à l'informatique. Dans ce guide, nous allons découvrir ensemble leur valeur, à quoi elles servent et d'où peuvent venir les big data.
Big Data : ce qu'elles sont et à quoi elles servent
Les big data sont une tendance non seulement puissante mais, comme nous l'avons déjà mentionné, également destinée à durer dans le temps. En outre, il s'améliore constamment du point de vue des applications. Le terme, vous l'aurez compris, est utilisé en référence à la capacité - propre à la science des données - d'analyser, d'extrapoler et de mettre en relation une très grande quantité de données hétérogènes, structurées et non structurées. Tout cela grâce à des méthodes sophistiquées de traitement statistique et informatique, dans le but de découvrir des liens et des corrélations entre différents phénomènes et par conséquent de prédire ceux à venir.
Pour donner quelques exemples, d'un point de vue commercial, le big data peut être utilisé à diverses fins, notamment pour mesurer les performances d'une organisation ou d'un processus commercial. Dans la vie de tous les jours, cependant, pour bien comprendre ce que sont les big data, nous pouvons penser au moment où nous interagissons sur les réseaux sociaux, à la navigation sur n'importe quel site web, ou aux smartphones les plus modernes qui sont pratiquement toujours interconnectés, sans oublier les cartes de crédit utilisées pour les achats, la télévision, le stockage nécessaire aux applications informatiques, les infrastructures des villes intelligentes et les capteurs montés sur les bâtiments et les transports publics et privés.
Dans tous ces cas, nous sommes confrontés à une quantité sérieusement impressionnante de données générées, et évidemment beaucoup plus élevée que celle d'il y a quelques décennies. Aujourd'hui, les big data peuvent être analysées en temps réel. En outre, les êtres humains sont également devenus des sources de données au fil du temps, tout comme une quantité non négligeable de données est créée le long de la chaîne de valeur de toute industrie. En 2011, Teradata a déclaré qu'" un système de big data dépasse/excède les systèmes matériels et logiciels couramment utilisés pour capturer, gérer et traiter les données dans un délai raisonnable pour une communauté/population d'utilisateurs, même massive ".
Une autre proposition pour caractériser le big data a été donnée par le McKinsey Global Institute : " Un système de big data fait référence à des ensembles de données dont la taille/le volume est si important qu'il dépasse la capacité des systèmes de bases de données relationnelles à capturer, stocker, gérer et analyser ". En réalité, la simple définition du big data ne suffit pas à offrir une image complète et optimale d'un phénomène aussi pertinent. En effet, il ne s'agit pas de se limiter à parler de grandes quantités de données : le processus de collecte et de gestion des données a également changé, et les technologies soutenant le cycle de vie des données et leur exploitation ont évolué.
La grande révolution à laquelle nous faisons référence en parlant de big data est donc avant tout la capacité à utiliser toutes ces informations pour traiter, analyser et trouver des preuves objectives sur diverses questions. Cela se traduit par ce que l'on peut faire avec toute cette quantité de données, c'est-à-dire des algorithmes capables de traiter autant de variables en peu de temps et, qui plus est, avec peu de ressources informatiques disponibles - peut-être même un simple ordinateur portable pour accéder à la plateforme analysée. Le big data, pour le dire plus simplement, présuppose des capacités nouvelles et plus raffinées de relier les informations entre elles pour fournir une approche véritablement visuelle des données, suggérant des schémas et des modèles d'interprétation qui, jusqu'à présent, ne pouvaient même pas être imaginés.
Le big data, donc, est généralement défini par trois V. La première, qui concerne les très grosses données, est le volume, c'est-à-dire la quantité de données (structurées ou non) générées chaque seconde à partir de sources hétérogènes - pour n'en citer que quelques-unes, on peut penser aux capteurs, aux journaux, aux courriels, aux GPS, aux médias sociaux et aux bases de données traditionnelles. Il y a aussi la variété, qui fait référence aux différents types de données générées, accumulées et utilisées, et enfin la vélocité, puisque le big data est produit en temps réel. Au fil du temps, un quatrième V a été introduit, celui de la véracité, puis un cinquième, celui de la valeur.
Les différentes utilisations du Big Data
L'analyse de grandes quantités de données nous permet de générer de nouvelles connaissances utiles pour prendre des décisions plus éclairées, et pas seulement dans le domaine des affaires. Maintenant que nous savons ce qu'est le big data et à quoi il sert, il est tout aussi nécessaire de savoir comment il est utilisé dans différents secteurs. Tout cela est rendu possible et tout à fait abordable par les technologies qui permettent la gestion des données non structurées et le traitement de grands volumes de données en temps réel, mais aussi par la diffusion d'algorithmes plus sophistiqués et de méthodologies d'analyse largement innovantes.
Ces outils peuvent et doivent extrapoler de manière autonome les informations cachées dans les données. En fait, elles se traduisent par des applications potentiellement infinies, visibles chaque jour dans le monde moderne. C'est avant tout dans le marketing que les mégadonnées trouvent leur utilisation la plus utile et la plus répandue, étant largement employées dans la construction de méthodes dites de recommandation, telles que celles utilisées par les géants du divertissement et du commerce électronique - Netflix et Amazon, pour n'en citer que quelques-uns - pour faire des propositions d'achat basées sur les intérêts d'un client spécifique par rapport à ceux de millions d'autres. La perception et la réduction subséquente de la fraude est un autre exemple de la façon dont le big data peut être utilisé au quotidien pour créer une valeur productive et améliorer tout type d'expérience pour les utilisateurs d'un service ou d'une plateforme. Les principales sociétés de cartes de crédit, telles que Visa ou American Express, analysent sans surprise chaque jour des milliards de transactions en provenance du monde entier pour identifier les mouvements et les schémas inhabituels, de manière à réduire considérablement le nombre et l'incidence des fraudes en temps réel.
Elle n'est pas non plus sans utilité dans la maintenance dite prédictive. Ce terme désigne les entreprises qui utilisent les données collectées sur les opérations pour analyser les performances et prévoir l'existence éventuelle de problèmes futurs avant qu'ils ne se produisent. Les experts ont observé que les entreprises leaders en matière de big data sont capables de générer en moyenne 12 % de bénéfices supplémentaires par rapport aux entreprises qui n'exploitent pas la valeur de ces stars des données de notre époque.
Dans la sphère publique, il existe de nombreux autres types d'applications pour le big data : ces dernières années, les forces de police ont utilisé de grandes quantités de données en temps réel pour prédire où et combien de crimes sont susceptibles de se produire ; des études plus précises ont été menées par les associations responsables de la corrélation entre la santé et la qualité de l'air que nous respirons ; il est également possible de réaliser des analyses génomiques pour améliorer la résistance à la sécheresse des cultures de riz ; ou encore la création de modèles pour analyser les données des êtres vivants dans les sciences biologiques et dans la recherche médicale, tant diagnostique que pharmacologique.
Bien sûr, dans tous ces domaines, il est absolument vital que l'utilisation légitime du big data soit réglementée en raison de son incroyable valeur. L'utilisation illégale ou trop intrusive des données peut, dans des cas moins graves, saper la confiance des clients dans les entreprises. Dans des cas plus graves, cependant, elle peut causer des dommages aux citoyens - qui peuvent être des patients, des électeurs et des consommateurs - ce qui est défini comme le maillon le plus faible de la chaîne de valeur. Comme le soulignent la littérature commerciale et la législation, les protections des individus incluent le droit à la vie privée et les libertés individuelles : afin de garantir ces protections, les activités de contrôle et de sanction des agences gouvernementales concernées doivent être renforcées et adaptées avec des outils réglementaires et financiers plus avancés.