Installation d'Apache Pig sur Linux

Ce blog est un guide étape par étape pour l'installation d'Apache Pig sur un environnement Linux. Nous installerons Apache Pig 0.16.0 et l'exécuterons dans différents modes.

Dans cet article, je parlerai de Installation d'Apache Pig sur Linux . Commençons par la définition de base d'Apache Pig et Pig Latin.



Apache Pig est un outil / plate-forme pour créer et exécuter le programme Map Reduce utilisé avec Hadoop. C'est un outil / une plate-forme pour analyser de grands ensembles de données. Vous pouvez dire, Apache Pig est une abstraction sur MapReduce. Les programmeurs qui ne sont pas très bons en Java avaient du mal à travailler sur Hadoop, principalement lors de l'écriture de tâches MapReduce.C'est donc un sujet important à apprendre et à maîtriser .Apache Pig a son propre langage Cochon latin ce qui est une aubaine pour les programmeurs pauvres.



Une introduction de base à Pig Latin vous aidera à mieux comprendre:

Le langage procédural de haut niveau utilisé dans la plate-forme Apache Pig est appelé Cochon latin . Apache Pig comporte «Pig Latin», un langage relativement plus simple qui peut s’exécuter sur des ensembles de données distribués sur Hadoop File System (HDFS). Dans Apache Pig, vous devez écrire des scripts Pig en utilisant le langage Pig Latin, qui est converti en travail MapReduce lorsque vous exécutez votre script Pig. Apache Pig a divers opérateurs qui sont utilisés pour effectuer des tâches telles que la lecture, l'écriture, le traitement des données. Pour en savoir plus sur les opérateurs Apache Pig, accédez à notre blog ' Opérateurs dans Apache Pig: Partie 1 - Opérateurs relationnels ».

Maintenant que vous avez une compréhension de base d'Apache Pig, commençons par l'installation d'Apache Pig sur Linux.



Installation d'Apache Pig sur Linux:

Vous trouverez ci-dessous les étapes d'installation d'Apache Pig sur Linux (ubuntu / centos / windows avec Linux VM). J'utilise Ubuntu 16.04 dans la configuration ci-dessous.

Étape 1: Télécharger Porc le goudron fichier.

Commander: wget http://www-us.apache.org/dist/pig/pig-0.16.0/pig-0.16.0.tar.gz



Télécharger Pig - Pig Installation - Edureka

Étape 2: Extraire le le goudron fichier en utilisant la commande tar. Dans la commande ci-dessous tar, X signifie extraire un fichier d'archive, avec signifie filtrer une archive via gzip, F signifie le nom de fichier d'un fichier d'archive.

comment créer une alerte en javascript

Commander: tar -xzf pig-0.16.0.tar.gz

Commander: ls

Étape 3: Modifiez le ' .bashrc ”Pour mettre à jour les variables d'environnement d'Apache Pig. Nous le configurons pour pouvoir accéder à pig depuis n'importe quel répertoire, nous n'avons pas besoin d'aller dans le répertoire pig pour exécuter les commandes pig. De plus, si une autre application recherche Pig, elle connaîtra le chemin d'Apache Pig à partir de ce fichier.

Commander: sudo gedit .bashrc

Ajoutez ce qui suit à la fin du fichier:

# Définir PIG_HOME

export PIG_HOME = / home / edureka / pig-0.16.0
export PATH = $ PATH: /home/edureka/pig-0.16.0/bin
export PIG_CLASSPATH = $ HADOOP_CONF_DIR

Assurez-vous également que le chemin hadoop est également défini.

Exécutez la commande ci-dessous pour que les modifications soient mises à jour dans le même terminal.

Commander: source .bashrc

Étape 4: Vérifiez la version porcine. Ceci permet de vérifier qu'Apache Pig a été correctement installé. Si vous n'obtenez pas la version Apache Pig, vous devez vérifier si vous avez correctement suivi les étapes ci-dessus.

convertir de double en int

Commander: version porcine

Étape 5 :Vérifiez l'aide de porc pour voir toutes les options de commande de porc.

Commander: cochon-aide

Étape 6 :Exécutez Pig pour démarrer le shell grunt. Le shell Grunt est utilisé pour exécuter des scripts Pig Latin.

Commander: porc

implémentation de liste chaînée en c

Si vous regardez correctement l'image ci-dessus, Apache Pig a deux modes dans lesquels il peut s'exécuter, par défaut, il choisit le mode MapReduce. L'autre mode dans lequel vous pouvez exécuter Pig est le mode Local. Laissez-moi vous en dire plus.

Modes d'exécution dans Apache Pig:

  • Mode MapReduce - Il s'agit du mode par défaut, qui nécessite l'accès à un cluster Hadoop et à une installation HDFS. Comme il s'agit d'un mode par défaut, il n'est pas nécessaire de spécifier l'option -x (vous pouvez exécuter porc OU cochon -x mapreduce ). L'entrée et la sortie dans ce mode sont présentes sur HDFS.
  • Mode local - Avec l'accès à une seule machine, tous les fichiers sont installés et exécutés à l'aide d'un hôte local et d'un système de fichiers. Ici, le mode local est spécifié à l’aide de ‘-x flag’ ( porc -x local ). L'entrée et la sortie dans ce mode sont présentes sur le système de fichiers local.

Commander: porc -x local

Vous pouvez parcourir la vidéo ci-dessous pour regarder l'installation d'Apache Pig sur Linux:

Installation d'Apache Pig | Installation de Pig sur Linux | Edureka

Maintenant que vous avez terminé l'installation d'Apache Pig sur Linux, la prochaine étape consiste à essayer quelques opérateurs Pig relationnels sur le shell Pig Grunt. Par conséquent, le prochain blog ' Opérateurs dans Apache Pig: Partie 1 - Opérateurs relationnels »Vous aidera à maîtriser les opérateurs Pig.

Maintenant que vous avez installé Apache Pig sur Linux, consultez le par Edureka, une entreprise d'apprentissage en ligne de confiance avec un réseau de plus de 250 000 apprenants satisfaits répartis dans le monde entier. Le cours de formation à la certification Edureka Big Data Hadoop aide les apprenants à devenir des experts dans les domaines HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume et Sqoop en utilisant des cas d'utilisation en temps réel sur le commerce de détail, les médias sociaux, l'aviation, le tourisme et la finance.

Vous avez une question pour nous? Veuillez le mentionner dans la section commentaires et nous vous recontacterons.