Hadoop 2.0 - Questions fréquemment posées

L'intérêt pour Hadoop a été multiplié par plusieurs ces dernières années. Cet article répond à vos questions et dissipe de nombreux doutes sur Hadoop 2.0 et son utilisation.

Ceci est un post de suivi avec une réponse à une question fréquemment posée lors du webinaire public par edureka! sur .



Foire aux questions à propos de Hadoop

Deepak:



Qu'est-ce que Hadoop?
Apache Hadoop est une infrastructure logicielle Open Source pour le stockage et le traitement à grande échelle d'ensembles de données sur des grappes de matériel de base. Il s'agit d'une infrastructure logicielle Open source de gestion de données avec stockage évolutif et traitement distribué. Il est construit et utilisé par une communauté mondiale de contributeurs et d'utilisateurs.

En savoir plus sur notre article de blog Hadoop et .



Chercher:

Quels sont les cas d'utilisation des mégadonnées dans l'industrie des voyages, des transports et des compagnies aériennes?

Ensoleillé:



Pouvez-vous nous indiquer un exemple concret d'implémentation Hadoop que nous pouvons étudier?
Nous sommes livideà une époque de congestion croissante aux heures de pointe. Les transporteurs cherchent constamment à trouver des moyens rentables de fournir leurs services tout en maintenant leur flotte de transport dans de bonnes conditions. L'utilisation de Big Data Analytics dans ce domaine peut aider l'organisation à:

  • Optimisation des itinéraires
  • Analyse géospatiale
  • Modèles de trafic et congestion
  • Maintenance des actifs
  • Gestion des revenus (c.-à-d. Compagnie aérienne)
  • Gestion de l'inventaire
  • Économie de carburant
  • Marketing ciblé
  • Fidélité du consommateur
  • Prévisions de capacité
  • Performances et optimisation du réseau

Peu de cas d'utilisation du monde réel sont:
à) Déterminer les coûts de vol
b) Modélisation des prévisions pour la logistique des stocks
c) Orbitz Worldwide - Modèles d'achat des clients
ré) Six déploiements Hadoop à grande échelle
est) Hadoop - Plus que des ajouts
F) Hadoop en entreprise

Vous pouvez en savoir plus sur les implémentations Hadoop Real-world sur:

Hirdesh:

Hadoop concerne-t-il uniquement la gestion et le traitement des données? Comment allons-nous pour les rapports et l'analyse visuelle. Qlikview, Tableau peut-il être utilisé au-dessus de Hadoop?
Les composants Hadoop de base HDFS et MapReduce concernent tous le stockage et le traitement des données. HDFS pour le stockage et MapReduce pour le traitement. Mais les composants principaux de Hadoop tels que Pig et Hive sont utilisés pour l'analyse. Pour Visual Reports Tableau, QlikView peut être connecté à Hadoop pour Visual Reporting.

Amit:

Hadoop contre. mongoDB
MongoDB est utilisé comme magasin de données en temps réel «opérationnel» tandis que Hadoop est utilisé pour le traitement et l'analyse de données par lots hors ligne.
mongoDB est un magasin de données sans schéma orienté document que vous pouvez utiliser dans une application Web en tant que backend au lieu d'un SGBDR comme MySQL, alors que Hadoop est principalement utilisé comme stockage évolutif et traitement distribué pour une grande quantité de données.

En savoir plus sur notre Article de blog mongoDB et Hadoop .

Ici:

Apache Spark fait-il partie de Hadoop ?
Apache Spark est un moteur rapide et général pour le traitement de données à grande échelle. Spark est plus rapide et prend en charge le traitement en mémoire. Le moteur d'exécution Spark élargit le type de charges de travail informatiques que Hadoop peut gérer et peut exécuter sur un cluster Hadoop 2.0 YARN. C'est un système de cadre de traitement qui permet de stocker des objets en mémoire (RDD) avec la possibilité de traiter ces objets à l'aide de fermetures Scala. Il prend en charge le traitement des graphiques, des entrepôts de données, de l'apprentissage automatique et des flux.

Si vous disposez d'un cluster Hadoop 2, vous pouvez exécuter Spark sans aucune installation nécessaire. Sinon, Spark est facile à exécuter de manière autonome ou sur EC2 ou Mesos. Il peut lire à partir de HDFS, HBase, Cassandra et n'importe quelle source de données Hadoop.

En savoir plus sur Spark Ici .

Prasad:

Qu'est-ce qu'Apache Flume?
Apache Flume est un système distribué, fiable et disponible pour collecter, agréger et déplacer efficacement de grandes quantités de données de journaux de nombreuses sources différentes vers une source de données centralisée.

Amit:

Bases de données SQL vs NO-SQL
Les bases de données NoSQL sont des bases de données de nouvelle génération et traitent principalement certains des points

quelle est la méthode tostring en java
  • non relationnel
  • distribué
  • Open source
  • évolutif horizontalement

Souvent, plus de caractéristiques s'appliquent, telles que la prise en charge de la réplication simple et sans schéma, une API simple, éventuellement cohérente / BASE (pas ACID), une énorme quantité de données et plus encore. Par exemple, peu de facteurs de différenciation sont:

  • Les bases de données NoSQL évoluent horizontalement, ajoutant plus de serveurs pour gérer des charges plus importantes. Les bases de données SQL, en revanche, évoluent généralement verticalement, ajoutant de plus en plus de ressources à un seul serveur à mesure que le trafic augmente.
  • Les bases de données SQL vous obligeaient à définir vos schémas avant d'ajouter des informations et des données, mais les bases de données NoSQL sont sans schéma et ne nécessitent pas de définition de schéma à l'avance.
  • Les bases de données SQL sont basées sur des tables avec des lignes et des colonnes suivant les principes du SGBDR, tandis que les bases de données NoSQL sont des stockages de documents, de paires clé-valeur, de graphiques ou de colonnes larges.
  • Les bases de données SQL utilisent SQL (langage de requête structuré) pour définir et manipuler les données. Dans la base de données NoSQL, les requêtes varient d'une base de données à l'autre.

Bases de données SQL populaires: MySQL, Oracle, Postgres et MS-SQL
Populaire Bases de données NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j et CouchDB

Consultez nos blogs sur Hadoop et NoSQL bases de données et avantages d'une telle base de données:

Koteswararao:

Hadoop dispose-t-il d'une technologie de cluster intégrée?
Un cluster Hadoop utilise une architecture maître-esclave. Il se compose d'un seul maître (NameNode) et d'un cluster d'esclaves (DataNodes) pour stocker et traiter les données. Hadoop est conçu pour fonctionner sur un grand nombre de machines qui ne partagent aucune mémoire ou disque. Ces DataNodes sont configurés en tant que cluster à l'aide de . Hadoop utilise un concept de réplication pour garantir qu'au moins une copie des données est disponible dans le cluster à tout moment. Comme il existe plusieurs copies de données, les données stockées sur un serveur qui se déconnecte ou meurent peuvent être automatiquement répliquées à partir d'une bonne copie connue.

Dinesh:

Qu'est-ce qu'un emploi dans Hadoop? Qu'est-ce que tout peut être accompli via un Job?
Dans Hadoop, un Job est un programme MapReduce pour traiter / analyser les données. Le terme MapReduce fait en fait référence à deux tâches séparées et distinctes effectuées par les programmes Hadoop. Le premier est la tâche Map, qui prend un ensemble de données et le convertit en un autre ensemble de données intermédiaires, où les éléments individuels sont décomposés en paires clé-valeur. La deuxième partie d'un Job MapReduce, la tâche Réduire, prend la sortie d'une carte comme entrée et combine les paires clé-valeur en un plus petit ensemble de paires clé-valeur agrégées. Comme la séquence du nom MapReduce l'implique, la tâche Réduire est toujours exécutée après l'achèvement des tâches Map. En savoir plus sur MapReduce Job .

Sukruth:

Quelle est la particularité de NameNode ?
Le NameNode est le cœur d'un système de fichiers HDFS. Il conserve les métadonnées telles que l'arborescence de répertoires de tous les fichiers du système de fichiers et suit où dans le cluster les données de fichier sont conservées. Les données réelles sont stockées sur DataNodes sous forme de blocs HDFS.
Les applications clientes parlent au NameNode chaque fois qu'elles souhaitent localiser un fichier ou chaque fois qu'elles souhaitent ajouter / copier / déplacer / supprimer un fichier. Le NameNode répond aux demandes réussies en renvoyant une liste de serveurs DataNodes pertinents où résident les données. En savoir plus sur l'architecture HDFS .

Dinesh:

Quand Hadoop 2.0 a-t-il été lancé sur le marché?
Apache Software Foundation (ASF), le groupe open source qui gère le développement Hadoop a annoncé dans son blog du 15 octobre 2013 que Hadoop 2.0 est désormais disponible en général (GA). Cette annonce signifie qu'après une longue attente, Apache Hadoop 2.0 et YARN sont maintenant prêts pour le déploiement en production. Plus sur Blog.

Dinesh:

Quels sont les quelques exemples d'application Big Data non MapReduce?
MapReduce est idéal pour de nombreuses applications pour résoudre des problèmes de Big Data, mais pas pour tous les autres modèles de programmation qui répondent mieux aux exigences telles que le traitement de graphes (par exemple, Google Pregel / Apache Giraph) et la modélisation itérative avec Message Passing Interface (MPI).

Marish:

Comment les données sont-elles organisées et indexées dans HDFS?
Les données sont divisées en blocs de 64 Mo (configurables par un paramètre) et sont stockées dans HDFS. NameNode stocke les informations de stockage de ces blocs sous forme d'ID de bloc dans sa RAM (NameNode Metadata). Les travaux MapReduce peuvent accéder à ces blocs à l'aide des métadonnées stockées dans la RAM NameNode.

Shashwat:

def __init __ (soi) python

Pouvons-nous utiliser à la fois MapReduce (MRv1) et MRv2 (avec YARN) sur le même cluster?
Hadoop 2.0 a introduit un nouveau framework YARN pour écrire et exécuter différentes applications sur Hadoop. Ainsi, YARN et MapReduce sont deux concepts différents dans Hadoop 2.0 et ne doivent pas être mélangés et utilisés de manière interchangeable. La bonne question est 'Est-il possible d'exécuter à la fois MRv1 et MRv2 sur un cluster Hadoop 2.0 activé par YARN?' La réponse à cette question est un 'Non' comme même si un cluster Hadoop peut être configuré pour exécuter à la fois MRv1 et MRv2 mais ne peut exécuter qu'un seul ensemble de démons à tout moment. Ces deux frameworks utilisent finalement les mêmes fichiers de configuration ( yarn-site.xml et mapred-site.xml ) pour exécuter les démons, par conséquent, une seule des deux configurations peut être activée sur un cluster Hadoop.

Poupée:

Quelle est la différence entre MapReduce de nouvelle génération (MRv2) et YARN?
YARN et Next Generation MapReduce (MRv2) sont deux concepts et technologies différents dans Hadoop 2.0. YARN est un framework logiciel qui peut être utilisé pour exécuter non seulement MRv2 mais aussi d'autres applications. MRv2 est un framework d'application écrit à l'aide de l'API YARN et il s'exécute dans YARN.

Bharat:

Hadoop 2.0 fournit-il une rétrocompatibilité pour les applications Hadoop 1.x?
Neha:

La migration Hadoop 1.0 vers 2.0 nécessite-t-elle un code d'application lourd? migration?
Non, la plupart des applications développées à l'aide des API «org.apache.hadoop.mapred» peuvent fonctionner sur YARN sans aucune recompilation. YARN est compatible binaire avec les applications MRv1 et «bin / hadoop» peut être utilisé pour soumettre ces applications sur YARN. En savoir plus à ce sujet Ici .

Sherin:

Que se passe-t-il si le nœud Resource Manager échoue dans Hadoop 2.0?
À partir de la version 2.4.0 de Hadoop, la prise en charge de la haute disponibilité pour Resource Manager est également disponible. ResourceManager utilise Apache ZooKeeper pour le basculement. Lorsque le nœud Resource Manager échoue, un nœud secondaire peut rapidement récupérer via l'état du cluster enregistré dans ZooKeeper. ResourceManager, en cas de basculement, redémarre toutes les applications en attente et en cours d'exécution.

Sabbirali:

Le framework Hadoop d'Apache fonctionne-t-il sur Cloudera Hadoop?
Apache Hadoop a été introduit en 2005 avec le moteur de traitement principal MapReduce pour prendre en charge le traitement distribué des charges de travail de données à grande échelle stockées dans HDFS. Il s'agit d'un projet Open Source et a plusieurs distributions (similaires à Linux). Cloudera Hadoop (CDH) est l'une de ces distributions de Cloudera. D'autres distributions similaires sont HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights, etc.

Arulvadivel:

Un moyen simple d'installer Hadoop sur mon ordinateur portable et d'essayer la migration de la base de données Oracle vers Hadoop?
Vous pouvez début avec un HortonWorks Sandbox ou Cloudera Quick VM sur votre ordinateur portable (avec au moins 4 Go de RAM et un processeur i3 ou supérieur). Utilisez SQOOP pour déplacer des données d'Oracle vers Hadoop comme expliqué Ici .

Bhabani:

Quels sont les meilleurs livres disponibles pour apprendre Hadoop?
Commencer avec Hadoop: le guide définitif par Tom White et Opérations Hadoop par Eric Sammer.

Mahendra:

Existe-t-il des lectures disponibles pour Hadoop 2.0, tout comme Hadoop le guide définitif?
Revoir le dernière arrivée sur des étagères écrites par quelques-uns des créateurs de Hadoop 2.0.

Restez à l'écoute pour plus de questions dans cette série.