Définition – Que signifie Dirty Data?
Les données sales font référence aux données qui contiennent des informations erronées. Il peut également être utilisé pour faire référence à des données en mémoire et non encore chargées dans une base de données. La suppression complète des données sales d’une source est peu pratique ou pratiquement impossible.
Les données suivantes peuvent être considérées comme des données sales:
- Données trompeuses
- Dupliquer les données
- Données incorrectes
- Données inexactes
- Données non intégrées
- Données qui enfreignent les règles métier
- Données sans mise en forme généralisée
- Données mal ponctuées ou orthographiées
Definir Tech explique Dirty Data
En plus d’une saisie de données incorrecte, des données sales peuvent être générées en raison de méthodes inappropriées de gestion et de stockage des données. Certains types de données sales sont expliqués ci-dessous:
- Données incorrectes – Pour garantir que les données sont valides ou correctes, la valeur saisie doit être conforme aux valeurs valides du champ. Par exemple, la valeur saisie dans le champ du mois doit être comprise entre 1 et 12, ou l’âge d’un individu doit être inférieur à 130. L’exactitude de la valeur des données peut être appliquée par programme au moyen de tables de recherche ou de contrôles d’édition.
- Données inexactes – Il est possible qu’une valeur de données puisse être correcte, mais pas exacte. Parfois, il est pratique d’examiner par rapport à d’autres fichiers ou champs pour savoir si la valeur des données est exacte en fonction du contexte dans lequel elles sont utilisées. Pourtant, la précision ne peut souvent être validée que par une vérification manuelle.
- Violations de règles métier – Les données qui enfreignent la règle métier constituent un autre type de données sales. Par exemple, une date d’entrée en vigueur doit toujours précéder une date d’expiration. Un autre exemple de violation des règles commerciales peut être la réclamation d’assurance-maladie d’un patient où le patient peut être encore en dessous de l’âge de la retraite et n’a pas droit à Medicare.
- Données incohérentes – La redondance des données non vérifiée entraîne des incohérences dans les données. Chaque organisation est affectée par des données incohérentes et répétitives. Ceci est particulièrement courant avec les données clients.
- Données incomplètes – Les données avec des valeurs manquantes sont le principal type de données incomplètes.
- Données en double – Des données en double peuvent se produire en raison de soumissions répétées, d’une mauvaise connexion des données ou d’une erreur de l’utilisateur.
Afin d’améliorer la qualité des données et d’éviter les données sales, les organisations doivent intégrer des méthodologies pour garantir l’exhaustivité, la validité, la cohérence et l’exactitude des données.