Les données se réfèrent à des éléments d'information distincts, généralement formatés et stockés d'une manière concordante avec un objectif spécifique. Les données peuvent exister sous diverses formes: sous forme de nombres ou de texte enregistré sur papier, de bits ou d'octets stockés dans la mémoire électronique ou de faits vivant dans l'esprit d'une personne. Cependant, depuis l'avènement de l'informatique au milieu des années 1900, les données se réfèrent le plus souvent à des informations transmises ou stockées électroniquement.
Grammaticalement, les données sont la forme plurielle de la donnée singulière, mais dans la pratique, les données sont largement utilisées comme nom de masse, comme le sable ou l'eau. Par exemple, on pourrait dire que les données prouvent que quelque chose est vrai dans ce cas, «données» fait référence à de nombreux éléments d'information qui sont utilisés collectivement pour valider une revendication. Cependant, tous les écrivains n'acceptent pas l'usage populaire des noms de masse. Certains éditeurs universitaires et techniques sont catégoriques sur la distinction latine plurielle et singulière («l'ensemble des données prouve» et «une donnée prouve»).
Données lisibles par machine vs données lisibles par l'homme
Toutes les données peuvent être classées comme lisibles par machine, lisibles par l'homme ou les deux. Les données lisibles par l'homme utilisent des formats de langage naturel (comme un fichier texte contenant des codes ASCII ou un document PDF), tandis que les données lisibles par machine utilisent des langages informatiques formellement structurés (Parquet, Avro, etc.) pour être lus par des systèmes informatiques ou des logiciels. Certaines données sont lisibles à la fois par des machines et des humains, comme dans le cas de CSV, HTML ou JSON.
La frontière entre les données lisibles par machine et par l'homme est de plus en plus floue parce que tant de formats qui prévalent aujourd'hui sont suffisamment accessibles pour être parcourus par un humain mais suffisamment structurés pour être traités par une machine. C'est en grande partie le résultat de l'intelligence artificielle, de l'apprentissage automatique et de l'automatisation, qui rationalisent les tâches et les flux de travail afin que la saisie et l'analyse manuelles des données soient effectuées par une machine plutôt que par un humain. Cependant, ces processus doivent conserver leur lisibilité humaine au cas où la programmation doit être ajustée. La plupart des données dans ces cas existent également dans le vide et n'ont pas beaucoup de sens sans contexte d'un point de vue humain.
Phrases de données en technologie
Les données sont devenues au premier plan de nombreuses conversations grand public sur la technologie. Les nouvelles innovations attirent constamment des commentaires sur les données, la façon dont nous les utilisons et les analysons, et des implications plus larges de ces effets. En conséquence, la langue vernaculaire informatique populaire en est venue à inclure un certain nombre de phrases nouvelles et anciennes:
-
Big data: un volume massif de données structurées et non structurées trop volumineuses pour être traitées à l'aide de bases de données et de technologies logicielles traditionnelles.
-
Analyse des mégadonnées: processus de collecte, d'organisation et de synthèse de grands ensembles de données pour découvrir des modèles ou d'autres informations utiles.
-
Centre de données: infrastructure physique ou virtuelle utilisée par les entreprises pour héberger des systèmes et des composants informatiques, de stockage et de réseau pour les besoins informatiques de l'entreprise.
-
Intégrité des données: la validité des données, qui peut être compromise de plusieurs façons, y compris des erreurs humaines ou des erreurs de transfert.
-
Explorateur de données: application logicielle qui surveille et / ou analyse les activités d'un ordinateur, et par la suite de son utilisateur, pour collecter des informations.
-
Exploration de données: classe d'applications de base de données qui recherchent des modèles cachés dans un groupe de données pouvant être utilisées pour prédire / anticiper le comportement futur.
-
Entrepôt de données: un système de gestion de données qui utilise des données provenant de plusieurs sources pour promouvoir l'intelligence d'affaires.
-
Base de données: ensemble de points de données organisés de manière à être facilement manœuvrés par un système informatique.
-
Métadonnées: informations récapitulatives sur un ensemble de données.
-
Données brutes: informations collectées mais non formatées ou analysées.
-
Données structurées: toutes les données qui résident dans un champ fixe dans un enregistrement ou un fichier, y compris les données contenues dans des bases de données relationnelles et des feuilles de calcul.
-
Données non structurées: informations qui ne résident pas dans une base de données de lignes de colonnes traditionnelle comme les données structurées.