4 façons d'utiliser R et Hadoop ensemble

R et Hadoop se complètent assez bien en termes de visualisation et d'analyse du Big Data. Cet article de blog parle de 4 façons de les utiliser ensemble.

Hadoop est un cadre de programmation basé sur Java qui prend en charge le traitement de grands ensembles de données dans un environnement informatique distribué, tandis que R est un langage de programmation et un environnement logiciel pour le calcul statistique et les graphiques. Le langage R est largement utilisé parmi les statisticiens et les mineurs de données pour développer des logiciels statistiques et effectuer des analyses de données. Dans les domaines de l'analyse de données interactive, des statistiques générales et de la modélisation prédictive, R a gagné en popularité grâce à ses capacités de classification, de regroupement et de classement.



KM



Hadoop et R se complètent assez bien en termes de visualisation et d'analyse du Big Data.

Utilisation de R et Hadoop

Il existe quatre manières différentes d'utiliser Hadoop et R ensemble:



1. RHadoop

RHadoop est une collection de trois packages R: rmr, rhdfs et rhbase. Le package rmr fournit la fonctionnalité Hadoop MapReduce dans R, rhdfs fournit la gestion des fichiers HDFS dans R et rhbase fournit la gestion de la base de données HBase à partir de R. Chacun de ces packages principaux peut être utilisé pour mieux analyser et gérer les données du framework Hadoop.

comment inverser des chaînes en python

2. ORCHE



ORCH signifie Oracle R Connector for Hadoop. Il s'agit d'un ensemble de packages R qui fournissent les interfaces appropriées pour travailler avec les tables Hive, l'infrastructure de calcul Apache Hadoop, l'environnement R local et les tables de base de données Oracle. De plus, ORCH fournit également des techniques d'analyse prédictive qui peuvent être appliquées aux données des fichiers HDFS.

3. RHIPE

RHIPE est un package R qui fournit une API pour utiliser Hadoop. RHIPE signifie R et Hadoop Integrated Programming Environment, et est essentiellement RHadoop avec une API différente.

Quatre. Diffusion Hadoop

Hadoop Streaming est un utilitaire qui permet aux utilisateurs de créer et d'exécuter des travaux avec n'importe quel exécutable en tant que mappeur et / ou réducteur. En utilisant le système de streaming, on peut développer des travaux Hadoop fonctionnels avec juste assez de connaissances en Java pour écrire deux scripts shell qui fonctionnent en tandem.

La combinaison de R et Hadoop est en train de devenir une boîte à outils incontournable pour les personnes travaillant avec des statistiques et de grands ensembles de données. Cependant, certains passionnés de Hadoop ont soulevé un drapeau rouge en traitant de fragments de Big Data extrêmement volumineux. Ils affirment que l'avantage de R n'est pas sa syntaxe mais la bibliothèque exhaustive de primitives pour la visualisation et les statistiques. Ces bibliothèques sont fondamentalement non distribuées, ce qui fait de la récupération des données une affaire de longue haleine. C'est une faille inhérente à R, et si vous choisissez de l'ignorer, R et Hadoop en tandem peuvent toujours faire des merveilles.

Voyons maintenant une démo:

java qu'est-ce qu'un scanner

tableau d'objets en java

Vous avez une question pour nous? Veuillez les mentionner dans la section commentaires et nous vous recontacterons.

Articles Similaires: