Comprendre les trois éléments constitutifs de Hadoop

Quels sont les trois éléments constitutifs de Hadoop ?
Hadoop estHDFSHadoopMapReduce


Le framework Hadoop de base se compose des modules suivants :

  • Hadoop Common ;
  • Hadoop Distributed File System (HDFS), système de fichiers ;
  • Hadoop YARN ;
  • Hadoop MapReduce ;
En savoir plus sur fr.wikipedia.org

Apache Hadoop est un cadre open-source utilisé pour stocker et traiter de grands ensembles de données sur un cluster de matériel de base. Les trois principaux composants de Hadoop sont le système de fichiers distribués Hadoop (HDFS), MapReduce et YARN. Ces éléments fonctionnent ensemble pour fournir une plateforme évolutive et tolérante aux pannes pour le traitement des données volumineuses.


HDFS est un système de fichiers distribués qui fournit un accès à haut débit aux données. Il est conçu pour stocker des fichiers volumineux (de l’ordre du gigaoctet au pétaoctet) sur plusieurs machines d’une grappe. HDFS assure la tolérance aux pannes en répliquant les données sur plusieurs machines, de sorte que si une machine tombe en panne, les données restent accessibles à partir des autres machines de la grappe. HDFS est optimisé pour le traitement par lots plutôt que pour l’accès en temps réel, ce qui le rend idéal pour les applications de big data qui nécessitent l’analyse de grandes quantités de données.


MapReduce est un modèle de programmation utilisé pour traiter en parallèle de grands ensembles de données dans un cluster Hadoop. Il se compose de deux parties principales : une fonction Map qui traite les données et génère des paires clé-valeur intermédiaires, et une fonction Reduce qui agrège les résultats intermédiaires en une sortie finale. MapReduce est évolutif et tolérant aux pannes, ce qui le rend idéal pour le traitement de grands ensembles de données qui ne peuvent pas être traités sur une seule machine.


YARN (Yet Another Resource Negotiator) est un cadre de gestion des ressources dans un cluster Hadoop. Il permet à différents cadres de traitement des big data de fonctionner sur le même cluster Hadoop, ce qui le rend plus flexible et plus efficace. YARN fournit un gestionnaire de ressources central qui alloue des ressources aux différentes applications en fonction de leurs besoins, garantissant ainsi que chaque application obtient les ressources dont elle a besoin pour fonctionner efficacement.

La détermination de la taille d’un cluster pour un déploiement Hadoop dépend de la quantité de données à stocker et à traiter, ainsi que de la puissance de traitement nécessaire pour effectuer les calculs requis. Un cluster Hadoop typique se compose de plusieurs nœuds (généralement entre 10 et 1000), chacun disposant de plusieurs cœurs de CPU et de plusieurs gigaoctets de RAM. La taille du cluster peut être augmentée ou réduite en fonction des besoins de l’application.

Pour le stockage des messages d’erreur d’une grappe de serveurs, Hadoop peut s’adapter à différents types de stockage, notamment HDFS, Amazon S3 ou Azure Blob Storage. Hadoop fournit une variété d’outils pour gérer les données dans ces systèmes de stockage, y compris l’interface de ligne de commande Hadoop (CLI) et l’outil Hadoop Distributed Copy (DistCP).

La taille de cluster par défaut lors du formatage d’une partition Windows NTFS sur un disque dur de plus de 2 Go dépend de la version de Windows utilisée. Pour Windows Server 2012 et les versions ultérieures, la taille de cluster par défaut est de 4 Ko. Pour les versions antérieures de Windows, la taille de cluster par défaut est de 512 octets pour les disques durs d’une taille inférieure ou égale à 2 Go, et de 4 Ko pour les disques durs d’une taille supérieure à 2 Go.

Nous utilisons Hadoop car il s’agit d’une plateforme évolutive et tolérante aux pannes pour le traitement de grands ensembles de données. Hadoop permet aux organisations de stocker et de traiter des quantités massives de données qui seraient autrement trop coûteuses ou trop longues à traiter à l’aide de systèmes de base de données traditionnels. Hadoop est également flexible et peut être utilisé avec une variété de cadres de traitement de données volumineuses, ce qui en fait un choix populaire pour les applications à forte intensité de données.

Dans un cluster de basculement, plusieurs serveurs travaillent ensemble pour assurer une haute disponibilité et une tolérance aux pannes pour les applications et les services. Si un serveur tombe en panne, un autre serveur du cluster reprend automatiquement sa charge de travail, garantissant ainsi la disponibilité de l’application ou du service. Hadoop est conçu pour être tolérant aux pannes, ce qui en fait un bon choix pour le déploiement sur des grappes de basculement. Si un nœud de la grappe Hadoop tombe en panne, les données restent accessibles à partir d’autres nœuds de la grappe, ce qui garantit que le traitement de grands ensembles de données n’est pas interrompu.

FAQ

Laisser un commentaire