MongoDB avec Hadoop et les technologies Big Data associées

MongoDB avec Hadoop et les technologies Big Data associées est une combinaison puissante pour fournir une solution à une situation complexe dans l'analyse.

Les bases de données relationnelles ont longtemps été suffisantes pour gérer des ensembles de données petits ou moyens. Mais la vitesse colossale de croissance des données rend l'approche traditionnelle du stockage et de la récupération des données irréalisable. Ce problème est résolu par de nouvelles technologies capables de gérer le Big Data. Hadoop, Hive et Hbase sont les plates-formes populaires pour exploiter ce type de grands ensembles de données. Les bases de données NoSQL ou Not Only SQL telles que MongoDB fournissent un mécanisme pour stocker et récupérer des données dans un modèle de cohérence perdant avec des avantages tels que:



  • Mise à l'échelle horizontale
  • Disponibilité plus élevée
  • Accès plus rapide

L'équipe d'ingénierie de MongoDB a récemment mis à jour le connecteur MongoDB pour Hadoop afin d'avoir une meilleure intégration. Cela permet aux utilisateurs de Hadoop de:



qu'est-ce qu'un objet immuable en java
  • Intégrez les données en temps réel de MongoDB à Hadoop pour des analyses approfondies hors ligne.
  • Le connecteur expose la puissance analytique de MapReduce de Hadoop aux données d'application en direct de MongoDB, générant ainsi plus rapidement et plus efficacement la valeur du Big Data.
  • Le connecteur présente MongoDB comme un système de fichiers compatible Hadoop permettant à un travail MapReduce de lire directement à partir de MongoDB sans le copier au préalable sur HDFS (système de fichiers Hadoop), supprimant ainsi le besoin de déplacer des téraoctets de données sur le réseau.
  • Les tâches MapReduce peuvent transmettre des requêtes en tant que filtres, évitant ainsi de devoir analyser des collections entières, et peuvent également tirer parti des riches capacités d'indexation de MongoDB, notamment les index géospatiaux, de recherche de texte, de tableau, composés et épars.
  • En lisant à partir de MongoDB, les résultats des travaux Hadoop peuvent également être réécrits sur MongoDB, pour prendre en charge les processus opérationnels en temps réel et les requêtes ad hoc.

Cas d'utilisation de Hadoop et MongoDB:

Examinons une description de haut niveau de la façon dont MongoDB et Hadoop peuvent s'intégrer dans une pile Big Data typique. Nous avons principalement:

  • MongoDB utilisé comme Stockage de données en temps réel «opérationnel»
  • Hadoop pour traitement et analyse des données par lots hors ligne

Lisez la suite pour savoir pourquoi et comment MongoDB a été utilisé par des entreprises et des organisations telles que Aadhar, Shutterfly, Metlife et eBay .



Application de MongoDB avec Hadoop dans l'agrégation par lots:

Dans la plupart des scénarios, la fonctionnalité d'agrégation intégrée fournie par MongoDB est suffisante pour analyser les données. Cependant, dans certains cas, une agrégation de données beaucoup plus complexe peut être nécessaire. C'est là que Hadoop peut fournir un cadre puissant pour des analyses complexes.

Dans ce scénario:

  • Les données sont extraites de MongoDB et traitées dans Hadoop via une ou plusieurs tâches MapReduce. Les données peuvent également provenir d'autres endroits au sein de ces tâches MapReduce pour développer une solution multi-sources de données.
  • La sortie de ces travaux MapReduce peut ensuite être réécrite dans MongoDB pour interrogation à un stade ultérieur et pour toute analyse ad hoc.
  • Les applications construites sur MongoDB peuvent donc utiliser les informations de l'analyse par lots pour les présenter au client final ou pour activer d'autres fonctionnalités en aval.

Agrégation de bases de données Hadoop Mongo



Application dans l'entreposage de données:

Dans une configuration de production classique, les données de l’application peuvent résider dans plusieurs magasins de données, chacun avec son propre langage de requête et ses propres fonctionnalités. Pour réduire la complexité de ces scénarios, Hadoop peut être utilisé comme un entrepôt de données et agir comme un référentiel centralisé pour les données provenant des différentes sources.

Dans ce genre de scénario:

importation sqoop depuis oracle vers hdfs
  • Les tâches MapReduce périodiques chargent les données de MongoDB dans Hadoop.
  • Une fois que les données de MongoDB et d'autres sources sont disponibles dans Hadoop, le plus grand ensemble de données peut être interrogé.
  • Les analystes de données ont désormais la possibilité d'utiliser MapReduce ou Pig pour créer des tâches qui interrogent les ensembles de données plus volumineux qui incorporent les données de MongoDB.

L'équipe qui travaille derrière MongoDB a veillé à ce que, grâce à sa riche intégration avec les technologies Big Data comme Hadoop, il puisse bien s'intégrer dans la pile Big Data et aider à résoudre certains problèmes architecturaux complexes en matière de stockage, de récupération, de traitement, d'agrégation et d'entreposage de données. . Restez à l'écoute pour notre prochain article sur les perspectives de carrière pour ceux qui utilisent Hadoop avec MongoDB. Si vous travaillez déjà avec Hadoop ou si vous choisissez simplement MongoDB, consultez les cours que nous proposons pour MongoDB