Tutoriel HDFS: Introduction à HDFS et à ses fonctionnalités

Ce blog du didacticiel HDFS vous aidera à comprendre HDFS ou Hadoop Distributed File System et ses fonctionnalités. Vous explorerez également ses composants de base en bref.

Tutoriel HDFS

Avant d'aller de l'avant dans ce blog de didacticiel HDFS, laissez-moi vous présenter certaines des statistiques insensées liées à HDFS:



différence entre la surcharge de méthode et le remplacement en java
  • En 2010, Facebook prétend avoir l'un des plus grands stockages de clusters HDFS 21 pétaoctets de données.
  • En 2012, Facebook ont déclaré avoir le plus grand cluster HDFS unique avec plus de 100 Po de données .
  • Et Yahoo ! a plus que 100 000 CPU en plus de 40000 serveurs exécutant Hadoop, avec son plus gros cluster Hadoop en cours d'exécution 4500 nœuds . Tout compte fait, Yahoo! magasins 455 pétaoctets de données en HDFS.
  • En fait, en 2013, la plupart des grands noms du Fortune 50 ont commencé à utiliser Hadoop.

Trop difficile à digérer? Droite. Comme discuté dans , Hadoop a deux unités fondamentales - S s'emporter et En traitement . Quand je dis que le stockage fait partie de Hadoop, je fais référence à HDFS Qui veut dire Système de fichiers distribués Hadoop . Donc, dans ce blog, je vais vous présenter HDFS .



Ici, je vais parler de:

  • Qu'est-ce que HDFS?
  • Avantages de HDFS
  • Caractéristiques de HDFS

Avant de parler de HDFS, laissez-moi vous dire, qu'est-ce qu'un système de fichiers distribué?



DFS ou système de fichiers distribué:

Le système de fichiers distribués parle de gérant Les données , c'est à dire. fichiers ou dossiers sur plusieurs ordinateurs ou serveurs. En d'autres termes, DFS est un système de fichiers qui nous permet de stocker des données sur plusieurs nœuds ou machines dans un cluster et permet à plusieurs utilisateurs d'accéder aux données. Donc, fondamentalement, il sert le même objectif que le système de fichiers disponible sur votre machine, comme pour Windows, vous avez NTFS (New Technology File System) ou pour Mac, vous avez HFS (Hierarchical File System). La seule différence est que, dans le cas du système de fichiers distribués, vous stockez les données sur plusieurs machines plutôt que sur une seule machine. Même si les fichiers sont stockés sur le réseau, DFS organise et affiche les données de telle manière qu'un utilisateur assis sur une machine aura l'impression que toutes les données sont stockées sur cette même machine.

Qu'est-ce que HDFS?

Le système de fichiers distribué Hadoop ou HDFS est un système de fichiers distribué basé sur Java qui vous permet de stocker des données volumineuses sur plusieurs nœuds dans un cluster Hadoop. Ainsi, si vous installez Hadoop, vous obtenez HDFS comme système de stockage sous-jacent pour stocker les données dans l'environnement distribué.

Prenons un exemple pour le comprendre. Imaginez que vous ayez dix machines ou dix ordinateurs avec un disque dur de 1 To sur chaque machine. Maintenant, HDFS dit que si vous installez Hadoop en tant que plate-forme au-dessus de ces dix machines, vous obtiendrez HDFS en tant que service de stockage. Le système de fichiers distribués Hadoop est distribué de telle manière que chaque machine apporte son stockage individuel pour stocker tout type de données.



Tutoriel HDFS: avantages de HDFS

1. Stockage distribué:

Stockage distribué - Tutoriel HDFS - Edureka

Lorsque vous accédez au système de fichiers distribué Hadoop à partir de l'une des dix machines du cluster Hadoop, vous vous sentirez comme si vous vous étiez connecté à une seule grande machine d'une capacité de stockage de 10 To (stockage total sur dix machines). Qu'est-ce que ça veut dire? Cela signifie que vous pouvez stocker un seul gros fichier de 10 To qui sera distribué sur les dix machines (1 To chacune).Donc c'est pas limité aux limites physiques de chaque machine individuelle.

2. Calcul distribué et parallèle:

Parce que les données sont réparties entre les machines, cela nous permet de profiter Calcul distribué et parallèle . Comprenons ce concept par l'exemple ci-dessus. Supposons qu'il faut 43 minutes pour traiter un fichier de 1 To sur une seule machine. Alors, dites-moi maintenant, combien de temps faudra-t-il pour traiter le même fichier de 1 To lorsque vous avez 10 machines dans un cluster Hadoop avec une configuration similaire - 43 minutes ou 4,3 minutes? 4,3 minutes, c'est vrai! Que s'est-il passé ici? Chacun des nœuds travaille avec une partie du fichier de 1 To en parallèle. Par conséquent, le travail qui prenait 43 minutes auparavant, se termine en seulement 4,3 minutes maintenant que le travail a été divisé sur dix machines.

3. Évolutivité horizontale:

Dernier point mais non le moindre, parlons de la mise à l'échelle horizontale ou mise à l'échelle à Hadoop. Il existe deux types de mise à l'échelle: verticale et horizontal . Dans la mise à l'échelle verticale (scale up), vous augmentez la capacité matérielle de votre système. En d'autres termes, vous obtenez plus de RAM ou de CPU et vous l'ajoutez à votre système existant pour le rendre plus robuste et plus puissant. Mais il existe des défis associés à la mise à l'échelle verticale ou à la mise à l'échelle:

  • Il y a toujours une limite à laquelle vous pouvez augmenter la capacité de votre matériel. Ainsi, vous ne pouvez pas continuer à augmenter la RAM ou le processeur de la machine.
  • Dans la mise à l'échelle verticale, vous arrêtez d'abord votre machine. Ensuite, vous augmentez la RAM ou le processeur pour en faire une pile matérielle plus robuste. Après avoir augmenté la capacité de votre matériel, vous redémarrez la machine. Ce temps d'arrêt lorsque vous arrêtez votre système devient un défi.

En cas de mise à l'échelle horizontale (mise à l'échelle) , vous ajoutez plus de nœuds au cluster existant au lieu d'augmenter la capacité matérielle des machines individuelles. Et surtout, vous pouvez ajoutez plus de machines en déplacement c'est-à-dire sans arrêter le système . Par conséquent, lors de la mise à l'échelle, nous n'avons pas de temps d'arrêt ou de zone verte, rien de tel. À la fin de la journée, vous aurez plus de machines travaillant en parallèle pour répondre à vos besoins.

Vidéo du didacticiel HDFS:

Vous pouvez consulter la vidéo ci-dessous où tous les concepts liés à HDFS ont été discutés en détail:

Tutoriel HDFS: Caractéristiques de HDFS

Nous comprendrons ces fonctionnalités en détail lorsque nous explorerons l'architecture HDFS dans notre prochain blog de didacticiel HDFS. Mais, pour l'instant, voyons un aperçu des fonctionnalités de HDFS:

  • Coût: Le HDFS, en général, est déployé sur un matériel de base comme votre ordinateur de bureau / ordinateur portable que vous utilisez tous les jours. Donc, c'est très économique en termes de coût de possession du projet. Étant donné que nous utilisons du matériel standard à faible coût, vous n’avez pas besoin de dépenser énormément d’argent pour faire évoluer votre cluster Hadoop. En d'autres termes, ajouter plus de nœuds à votre HDFS est rentable.
  • Variété et volume de données: Lorsque nous parlons de HDFS, nous parlons de stocker d'énormes données, c'est-à-dire des téraoctets et pétaoctets de données et différents types de données. Ainsi, vous pouvez stocker tout type de données dans HDFS, qu'elles soient structurées, non structurées ou semi-structurées.
  • Fiabilité et tolérance aux pannes: Lorsque vous stockez des données sur HDFS, il divise en interne les données données en blocs de données et les stocke de manière distribuée dans votre cluster Hadoop. Les informations concernant le bloc de données situé sur lequel des nœuds de données sont enregistrées dans les métadonnées. NomNœud gère les métadonnées et le DataNodes sont responsables du stockage des données.
    Le nœud de nom réplique également les données, c'est-à-dire conserve plusieurs copies des données. Cette réplication des données rend HDFS très fiable et tolérant aux pannes. Ainsi, même si l'un des nœuds échoue, nous pouvons récupérer les données des réplicas résidant sur d'autres nœuds de données. Par défaut, le facteur de réplication est 3. Par conséquent, si vous stockez 1 Go de fichier dans HDFS, il occupera finalement 3 Go d'espace. Le nœud de nom met à jour périodiquement les métadonnées et maintient le facteur de réplication cohérent.
  • Intégrité des données: L'intégrité des données indique si les données stockées dans mon HDFS sont correctes ou non. HDFS vérifie en permanence l'intégrité des données stockées par rapport à sa somme de contrôle. S'il trouve un défaut, il en informe le nœud de nom. Ensuite, le nœud de nom crée de nouvelles répliques supplémentaires et supprime donc les copies endommagées.
  • Haut débit: Le débit est la quantité de travail effectué dans une unité de temps. Il parle de la vitesse à laquelle vous pouvez accéder aux données à partir du système de fichiers. Fondamentalement, cela vous donne un aperçu des performances du système. Comme vous l'avez vu dans l'exemple ci-dessus, nous avons utilisé dix machines collectivement pour améliorer le calcul. Là, nous avons pu réduire le temps de traitement de 43 minutes à un simple 4,3 minutes car toutes les machines fonctionnaient en parallèle. Par conséquent, en traitant les données en parallèle, nous avons considérablement réduit le temps de traitement et ainsi obtenu un débit élevé.
  • Localité de données: La localité de données parle de déplacer l'unité de traitement vers les données plutôt que les données vers l'unité de traitement. Dans notre système traditionnel, nous avions l'habitude d'apporter les données à la couche application, puis de les traiter. Mais maintenant, en raison de l'architecture et du volume énorme de données, amener les données à la couche applicationréduire les performances du réseau dans une mesure notable.Ainsi, dans HDFS, nous apportons la partie calcul aux nœuds de données où résident les données. Par conséquent, vous ne déplacez pas les données, vous apportez le programme ou le processuspartie des données.

Alors maintenant, vous avez une brève idée de HDFS et de ses fonctionnalités. Mais croyez-moi les gars, ce n'est que la pointe de l'iceberg. Dans mon prochain , Je vais plonger dans le Architecture HDFS et je dévoilerai les secrets du succès de HDFS. Ensemble, nous répondrons à toutes ces questions qui se posent dans votre tête telles que:

  • Que se passe-t-il dans les coulisses lorsque vous lisez ou écrivez des données dans Hadoop Distributed File System?
  • Quels sont les algorithmes tels que la détection de rack qui rendent HDFS si tolérant aux pannes?
  • Comment Hadoop Distributed File System gère et crée une réplique?
  • Que sont les opérations de bloc?

Maintenant que vous avez compris HDFS et ses fonctionnalités, consultez le par Edureka, une entreprise d'apprentissage en ligne de confiance avec un réseau de plus de 250 000 apprenants satisfaits répartis dans le monde entier. Le cours de formation à la certification Edureka Big Data Hadoop aide les apprenants à devenir des experts dans les domaines HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume et Sqoop en utilisant des cas d'utilisation en temps réel sur le commerce de détail, les médias sociaux, l'aviation, le tourisme et la finance.

Vous avez une question pour nous? Veuillez le mentionner dans la section commentaires et nous vous recontacterons.