Installation d'Apache Hive sur Ubuntu

Dans ce blog, nous en apprendrons davantage sur l'installation d'Apache Hive sur Ubuntu et les concepts autour de Hadoop Hive, Hive sql, de la base de données Hive, du serveur Hive et de l'installation de Hive.

Apache Hive est l'un des frameworks les plus importants de l'écosystème Hadoop, ce qui le rend très crucial pour . Dans ce blog, nous découvrirons l'installation d'Apache Hive et Hive sur Ubuntu.



Qu'est-ce qu'Apache Hive?

Apache Hive est une infrastructure d'entrepôt de données qui facilite l'interrogation et la gestion de grands ensembles de données résidant dans un système de stockage distribué. Il est construit sur Hadoop et développé par Facebook. Ruche fournit un moyen d'interroger les données à l'aide d'un langage de requête de type SQL appelé HiveQL (langage de requête Hive).



En interne, un compilateur traduit HiveQL déclarations dans MapReduce emplois, qui sont ensuite soumis à Cadre Hadoop pour exécution.

Différence entre Hive et SQL:

Ruche ressemble beaucoup à la base de données traditionnelle avec SQL accès. Cependant, parce que Ruche est basé sur Hadoop et MapReduce opérations, il existe plusieurs différences clés:



Comme Hadoop est conçu pour de longues analyses séquentielles et Ruche est basé sur Hadoop , vous vous attendez à ce que les requêtes aient une latence très élevée. Cela signifie que Ruche ne conviendrait pas aux applications qui nécessitent des temps de réponse très rapides, comme on peut s'y attendre avec une base de données SGBDR traditionnelle.

Finalement, Ruche est basé sur la lecture et n'est donc pas approprié pour le traitement des transactions qui implique généralement un pourcentage élevé d'opérations d'écriture.

comment utiliser les sprites css

Installation de Hive sur Ubuntu:

Veuillez suivre les étapes ci-dessous pour installer Apache Hive sur Ubuntu:



Étape 1: Télécharger Goudron de ruche.

Commander: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

Étape 2: Extraire le le goudron fichier.

Commander: tar -xzf apache-hive-2.1.0-bin.tar.gz

Commander: ls

Spread Hive File - Installation de Hive - Edureka

Étape 3: Modifier le «.Bashrc» fichier pour mettre à jour les variables d'environnement pour l'utilisateur.

Commander: sudo gedit .bashrc

Ajoutez ce qui suit à la fin du fichier:

# Définir HIVE_HOME

export HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
export PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin

Assurez-vous également que le chemin hadoop est également défini.

Exécutez la commande ci-dessous pour que les modifications fonctionnent dans le même terminal.

Commander: source .bashrc

Étape 4: Vérifiez la version de la ruche.

java tri arraylist des entiers

Étape 5: Créer Ruche répertoires dans HDFS . Le répertoire 'entrepôt' est l'emplacement où stocker la table ou les données relatives à la ruche.

Commander:

  • hdfs dfs -mkdir -p / utilisateur / ruche / entrepôt
  • hdfs dfs -mkdir / tmp

Étape 6: Définissez les autorisations de lecture / écriture pour la table.

Commander:

Dans cette commande, nous accordons une autorisation d'écriture au groupe:

  • hdfs dfs -chmod g + w / utilisateur / ruche / entrepôt
  • hdfs dfs -chmod g + w / tmp

Étape 7: Ensemble Hadoop chemin dans h ive-env.sh

Commander: cd apache-hive-2.1.0-bin /

Commander: gedit conf / hive-env.sh

Définissez les paramètres comme indiqué dans l'instantané ci-dessous.

Étape 8: Éditer hive-site.xml

Commander: gedit conf / hive-site.xml

javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = true Chaîne de connexion JDBC pour un métastore JDBC. Pour utiliser SSL pour crypter / authentifier la connexion, indiquez l'indicateur SSL spécifique à la base de données dans l'URL de connexion. Par exemple, jdbc: postgresql: // myhost / db? Ssl = true pour la base de données postgres. hive.metastore.warehouse.dir / user / hive / entrepôt emplacement de la base de données par défaut pour l'entrepôt hive.metastore.uris URI Thrift pour le métastore distant. Utilisé par le client Metastore pour se connecter au metastore distant. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EmbeddedDriver Nom de classe du pilote pour un métastore JDBC javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory classe implémentation de la persistance jdo

Étape 9: Par défaut, Hive utilise Derby base de données. Initialisez la base de données Derby.

Commander: bin / schematool -initSchema -dbType derby

Étape 10 :lancement Ruche.

Commander: ruche

Étape 11 :Exécutez quelques requêtes dans le shell Hive.

Commander: afficher les bases de données

Commander: créer des champs délimités au format de ligne pour les employés de la table (chaîne d’identification, chaîne de nom, chaîne de profondeur) terminés par «» stockés sous forme de fichier texte

Commander: afficher les tables

table html dans une table

Étape 12: Pour sortir de Ruche:

Commander: sortie

Maintenant que vous avez terminé l'installation de Hive, la prochaine étape consiste à essayer les commandes Hive sur le shell Hive. D'où notre prochain blog ' Principales commandes Hive avec des exemples en HQL »Vous aidera à maîtriser les commandes Hive.

Articles Similaires:

Comment exécuter des scripts Hive?

Commandes Hive

Introduction à Apache Hive