Outils Hadoop essentiels pour l'analyse du Big Data

Hadoop est le mot à la mode dans le monde informatique aujourd'hui, et cet article décrit les outils Hadoop essentiels qui traitent le Big Data.

Aujourd'hui, le terme le plus répandu dans le monde informatique est «Hadoop». Dans un court laps de temps, Hadoop s'est développé massivement et s'est avéré utile pour une grande collection de projets divers. La communauté Hadoop évolue rapidement et joue un rôle de premier plan dans son écosystème.





Voici un aperçu des outils Hadoop essentiels utilisés pour gérer le Big Data.

sauter en c ++

ambari



Ambari est un projet Apache soutenu par Hortonworks. Il offre une GUI (interface utilisateur graphique) basée sur le Web avec des scripts d'assistant pour la configuration de clusters avec la plupart des composants standard. Ambari provisionne, gère et surveille tous les clusters de jobs Hadoop.

hdfs-logo

La HDFS , distribué sous licence Apache offre un cadre de base pour répartir les collections de données entre plusieurs nœuds. Dans HDFS, les gros fichiers sont divisés en blocs, où plusieurs nœuds contiennent tous les blocs d'un fichier. Le système de fichiers est conçu de manière à mélanger la tolérance aux pannes avec un débit élevé. Les blocs de HDFS sont chargés pour maintenir une diffusion régulière. Ils ne sont généralement pas mis en cache pour minimiser la latence.



hbaselogo

HBase est un système de gestion de base de données orienté colonnes qui s'exécute sur HDFS. Les applications HBase sont écrites en Java, tout comme l'application MapReduce. Il comprend un ensemble de tables, où chaque table contient des lignes et des colonnes comme une base de données traditionnelle. Lorsque les données tombent dans la grande table, HBase stocke les données, les recherche et partage automatiquement la table sur plusieurs nœuds afin que les travaux MapReduce puissent l'exécuter localement. HBase offre une garantie limitée pour certains changements locaux. Les modifications qui se produisent dans une seule ligne peuvent réussir ou échouer en même temps.

hive

Si vous maîtrisez déjà SQL, vous pouvez utiliser Hadoop en utilisant Ruche . Hive a été développé par des personnes de Facebook. Apache Hive régule le processus d'extraction de bits de tous les fichiers dans HBase. Il prend en charge l’analyse de grands ensembles de données stockés dans le HDFS de Hadoop et les systèmes de fichiers compatibles. Il fournit également un langage de type SQL appelé HSQL (HiveSQL) qui pénètre dans les fichiers et extrait les extraits de code requis pour le code.

sqoop

Apache Sqoop est spécialement conçu pour transférer efficacement les données en vrac des bases de données traditionnelles vers Hive ou HBase. Il peut également être utilisé pour extraire des données de Hadoop et les exporter vers des magasins de données structurés externes tels que des bases de données relationnelles et des entrepôts de données d'entreprise. Sqoop est un outil de ligne de commande, mappant entre les tables et la couche de stockage de données, traduisant les tables en une combinaison configurable de HDFS, HBase ou Hive.

Pig1

Lorsque les données stockées sont visibles par Hadoop, Apache Pig plonge dans les données et exécute le code qui est écrit dans sa propre langue, appelée Pig Latin. Pig Latin est rempli d'abstractions pour gérer les données. Pig est livré avec des fonctions standard pour les tâches courantes telles que la moyenne des données, l'utilisation de dates ou la recherche de différences entre les chaînes. Pig permet également à l'utilisateur d'écrire lui-même des langues, appelées UDF (User Defined Function), lorsque les fonctions standard sont insuffisantes.

zookeper

Gardien de zoo est un service centralisé qui gère, configure les informations, donne un nom et fournit une synchronisation distribuée sur un cluster. Il impose une hiérarchie de type système de fichiers sur le cluster et stocke toutes les métadonnées des machines, afin que nous puissions synchroniser le travail des différentes machines.

NoSQL

Certains clusters Hadoop s'intègrent à NoSQL des magasins de données dotés de leurs propres mécanismes de stockage de données sur un cluster de nœuds. Cela leur permet de stocker et de récupérer des données avec toutes les fonctionnalités de la base de données NoSQL, après quoi Hadoop peut être utilisé pour planifier des tâches d'analyse de données sur le même cluster.

mahoutlogo

Cornac est conçu pour implémenter un grand nombre d'algorithmes, de classifications et de filtrage de l'analyse de données vers le cluster Hadoop. De nombreux algorithmes standard tels que K-means, Dirichelet, modèle parallèle et classifications bayésiennes sont prêts à fonctionner sur les données avec une carte de style Hadoop et à réduire.

Lucène, écrit en Java et intégré facilement à Hadoop, est un compagnon naturel pour Hadoop. C'est un outil destiné à indexer de gros blocs de texte non structuré. Lucene gère l'indexation, tandis que Hadoop gère les requêtes distribuées dans le cluster. Les fonctionnalités de Lucene-Hadoop évoluent rapidement à mesure que de nouveaux projets sont en cours de développement.

Avro

euro est un système de sérialisation qui regroupe les données avec un schéma pour les comprendre. Chaque paquet est livré avec une structure de données JSON. JSON explique comment les données peuvent être analysées. L'en-tête de JSON spécifie la structure des données, où le besoin d'écrire des balises supplémentaires dans les données pour marquer les champs peut être évité. La sortie est considérablement plus compacte que les formats traditionnels comme XML.

Un travail peut être simplifié en le divisant en étapes. Lors du fractionnement du projet en plusieurs tâches Hadoop, Oozie commence à les traiter dans le bon ordre. Il gère le flux de travail comme spécifié par DAG (Directed Acyclic Graph) et il n'est pas nécessaire de surveiller en temps opportun.

Outils SIG

Travailler avec des cartes géographiques est un gros travail pour les clusters exécutant Hadoop. Le SIG ( Système d'information géographique ) pour les projets Hadoop ont adapté les meilleurs outils basés sur Java pour comprendre les informations géographiques à exécuter avec Hadoop. Les bases de données peuvent désormais gérer les requêtes géographiques à l'aide de coordonnées et les codes peuvent déployer les outils SIG.

Rassembler toutes les données équivaut à les stocker et les analyser. Apache Flume envoie des «agents spéciaux» pour recueillir des informations qui seront stockées dans HDFS. Les informations recueillies peuvent être des fichiers journaux, une API Twitter ou des notes de sites Web. Ces données peuvent être chaînées et soumises à des analyses.

Spark

Étincelle est la prochaine génération qui fonctionne à peu près comme Hadoop qui traite les données mises en cache dans la mémoire. Son objectif est de rendre l'analyse des données rapide à exécuter et à écrire avec un modèle d'exécution général. Cela peut optimiser les graphiques d'opérateurs arbitraires et prendre en charge le calcul en mémoire, ce qui lui permet d'interroger les données plus rapidement que les moteurs basés sur disque comme Hadoop.

SQL sur Hadoop

Lorsqu'il est nécessaire d'exécuter une requête ad hoc rapide de toutes les données du cluster, une nouvelle tâche Hadoop peut être écrite, mais cela prend un certain temps. Lorsque les programmeurs ont commencé à faire cela plus souvent, ils ont mis au point des outils écrits dans le langage simple de SQL. Ces outils offrent un accès rapide aux résultats.

Forage Apache

Apache Drill fournit des requêtes ad hoc à faible latence à de nombreuses sources de données variées, y compris des données imbriquées. Drill, inspiré de Dremel de Google, est conçu pour évoluer jusqu'à 10 000 serveurs et interroger des pétaoctets de données en quelques secondes.

Ce sont les outils Hadoop essentiels pour analyser le Big Data!

Vous avez une question pour nous? Veuillez les mentionner dans la section commentaires et nous vous recontacterons.

Articles Similaires:

Raisons pratiques d'apprendre Hadoop 2.0