Maîtrisé Hadoop? Il est temps de démarrer avec Apache Spark

Cet article de blog explique pourquoi vous devez commencer avec Apache Spark après Hadoop et pourquoi apprendre Spark après avoir maîtrisé hadoop peut faire des merveilles pour votre carrière!



comment utiliser Visual Studio

Hadoop, comme nous le savons tous, est l'affiche du big data. En tant que cadre logiciel capable de traiter des proportions éléphantines de données, Hadoop a fait son chemin en haut de la liste des mots à la mode du CIO.



Cependant, la montée en puissance sans précédent de la pile en mémoire a introduit l'écosystème du Big Data vers une nouvelle alternative pour l'analyse. La méthode d'analyse MapReduce est remplacée par une nouvelle approche qui permet l'analyse à la fois dans le cadre Hadoop et en dehors de celui-ci. Apache Spark est le nouveau visage de l'analyse du Big Data.

Les passionnés de Big Data ont certifié Apache Spark comme le moteur de calcul de données le plus en vogue au monde pour le Big Data. Il éjecte rapidement MapReduce et Java de leurs positions, et les tendances de l'emploi reflètent ce changement. Selon une enquête de TypeSafe, 71% des développeurs Java mondiaux évaluent actuellement ou effectuent des recherches autour de Spark, et 35% d'entre eux ont déjà commencé à l'utiliser. Les experts Spark sont actuellement en demande, et dans les semaines à venir, le nombre d'offres d'emploi liées à Spark ne devrait qu'augmenter.



Alors, qu'en est-il d'Apache Spark qui le fait apparaître en haut de la liste de tâches des DSI?

Voici quelques-unes des fonctionnalités intéressantes d'Apache Spark:

  • Intégration Hadoop - Spark peut fonctionner avec des fichiers stockés dans HDFS.
  • Shell interactif de Spark - Spark est écrit en Scala et possède sa propre version de l'interpréteur Scala.
  • Suite analytique de Spark - Spark est livré avec des outils pour l'analyse interactive des requêtes, le traitement et l'analyse de graphiques à grande échelle et l'analyse en temps réel.
  • Ensembles de données distribués résilients (RDD) - Les RDD sont des objets distribués qui peuvent être mis en cache en mémoire, sur un cluster de nœuds de calcul. Ce sont les principaux objets de données utilisés dans Spark.
  • Opérateurs distribués - Outre MapReduce, il existe de nombreux autres opérateurs que l’on peut utiliser sur les RDD.

Des organisations comme la NASA, Yahoo et Adobe se sont engagées dans Spark. C'est ce que dit John Tripier, responsable des alliances et de l'écosystème chez Databricks: «L'adoption d'Apache Spark par les entreprises, grandes et petites, se développe à un rythme incroyable dans un large éventail d'industries, et la demande de développeurs possédant une expertise certifiée est rapidement suite ». Il n'y a jamais eu de meilleur moment pour apprendre Spark si vous avez une expérience dans Hadoop.



Edureka a spécialement organisé un cours sur Apache Spark et Scala, co-créé par des praticiens du secteur. Pour une expérience d'apprentissage en ligne différenciée et des projets pertinents pour l'industrie, consultez notre cours. De nouveaux lots commencent bientôt, alors consultez le cours ici: .

Vous avez une question pour nous? Veuillez le mentionner dans la section commentaires et nous vous recontacterons.

Articles Similaires:

Apache Spark contre Hadoop MapReduce