Appliquer Hadoop avec la science des données

Avec Hadoop servant à la fois de plateforme de données évolutive et de moteur de calcul, la science des données réémerge comme un élément central de l'innovation d'entreprise. Hadoop est désormais une aubaine pour les data scientists.

Apache Hadoop devient rapidement la technologie de choix pour les entreprises qui investissent dans le Big Data, alimentant leur architecture de données de nouvelle génération. Avec Hadoop servant à la fois de plate-forme de données évolutive et de moteur de calcul, la science des données réémerge comme une pièce maîtresse de l'innovation d'entreprise, avec des solutions de données appliquées telles que la recommandation de produits en ligne, la détection automatisée des fraudes et l'analyse des sentiments des clients.



Dans cet article, nous fournissons un aperçu de la science des données et comment tirer parti de Hadoop pour des projets de science des données à grande échelle.



En quoi Hadoop est-il utile aux data scientists?

Hadoop est une aubaine pour les scientifiques des données. Voyons comment Hadoop contribue à augmenter la productivité des Data Scientists. Hadoop a une capacité unique où toutes les données peuvent être stockées et récupérées à partir d'un seul endroit. De cette manière, les éléments suivants peuvent être atteints:

  • Possibilité de stocker toutes les données au format RAW
  • Convergence du silo de données
  • Les scientifiques des données trouveront des utilisations innovantes des actifs de données combinés.

Hadoop-with-ds11



Clé de la puissance de Hadoop:

  • Réduction du temps et des coûts - Hadoop aide à réduire considérablement le temps et le coût de création de produits de données à grande échelle.
  • Le calcul est co-localisé avec Data - Le système de données et de calcul est codé pour fonctionner ensemble.
  • Abordable à grande échelle - Peut utiliser des nœuds matériels «de base», est auto-réparateur, excellent pour le traitement par lots de grands ensembles de données.
  • Conçu pour une écriture et plusieurs lectures - Il n'y a pas d'écritures aléatoires et estOptimisé pour une recherche minimale sur les disques durs

Pourquoi Hadoop avec Data Science?

Raison n ° 1: Explorez les grands ensembles de données

La première et la plus importante raison étant qu'on peut Explorer de grands ensembles de données directement avec Hadoop par intégration de Hadoop dans le Flux d'analyse des données .

java à la puissance de

Ceci est réalisé en utilisant des statistiques simples comme:



  • Signifier
  • Médian
  • Quantile
  • Pré-traitement: grep, regex

On peut également utiliser l'échantillonnage / filtrage ad-hoc pour réaliser Aléatoire: avec ou sans remplacement, échantillon par clé unique et validation croisée K-fold.

Raison n ° 2: capacité à extraire de grands ensembles de données

L'apprentissage d'algorithmes avec de grands ensembles de données a ses propres défis. Les défis étant:

  • Les données ne rentrent pas dans la mémoire.
  • L'apprentissage prend beaucoup plus de temps.

Lorsque vous utilisez Hadoop, vous pouvez exécuter des fonctions telles que la distribution de données sur les nœuds du cluster Hadoop et implémenter un algorithme distribué / parallèle. Pour les recommandations, on peut alterner l'algorithme des moindres carrés et pour le clustering K-Means peut être utilisé.

comment transformer double en int

Raison n ° 3: Préparation des données à grande échelle

Nous savons tous que 80% du travail en science des données implique la «préparation des données». Hadoop est idéal pour la préparation par lots et le nettoyage de grands ensembles de données.

Raison n ° 4: Accélérer l'innovation basée sur les données:

Les architectures de données traditionnelles ont des barrières à la vitesse. SGBDR utilise schéma en écriture et donc le changement coûte cher. C’est aussi un barrière élevée pour une innovation basée sur les données.

Hadoop utilise 'Schéma en lecture' ce qui signifie temps d'innovation plus rapide et ajoute ainsi un barrière basse sur l'innovation guidée par les données.

Par conséquent, pour résumer les quatre principales raisons pour lesquelles nous avons besoin de Hadoop avec Data Science serait:

  1. Mine de grands ensembles de données
  2. Exploration de données avec des ensembles de données complets
  3. Prétraitement à grande échelle
  4. Cycles basés sur les données plus rapides

Nous voyons donc que les organisations peuvent tirer parti de Hadoop pour extraire des données et en recueillir des résultats utiles.

Vous avez une question pour nous?? Veuillez les mentionner dans la section commentaires et nous vous recontacterons.

installer php sur windows 8

Articles Similaires:

Importance de la science des données avec Cassandra