Introduction à Apache Hive

Apache Hive est un package d'entreposage de données construit sur Hadoop et utilisé pour l'analyse des données. Hive s'adresse aux utilisateurs à l'aise avec SQL.

Apache Hive est un package d'entreposage de données construit sur Hadoop et utilisé pour l'analyse des données. Hive s'adresse aux utilisateurs à l'aise avec SQL. Il est similaire à SQL et appelé HiveQL, utilisé pour gérer et interroger des données structurées. Apache Hive est utilisé pour résumer la complexité de Hadoop. Ce langage permet également aux programmeurs traditionnels de cartographie / réduction de brancher leurs mappeurs et réducteurs personnalisés. La caractéristique populaire de Hive est qu'il n'est pas nécessaire d'apprendre Java.





Hive, un cadre d'entreposage de dates à l'échelle de péta-octets open source basé sur Hadoop, a été développé par l'équipe d'infrastructure de données de Facebook. Hive est également l'une des technologies utilisées pour répondre aux exigences de Facebook. Hive est très populaire auprès de tous les utilisateurs en interne de Facebook et est utilisé pour exécuter des milliers de tâches sur le cluster avec des centaines d'utilisateurs, pour une grande variété d'applications. Le cluster Hive-Hadoop de Facebook stocke plus de 2 Po de données brutes et charge régulièrement 15 To de données quotidiennement.

Examinons certaines de ses fonctionnalités qui le rendent populaire et convivial:



que fait .format en python
  • Permet aux programmeurs de brancher des mappeurs et des réducteurs personnalisés.
  • Dispose d'une infrastructure d'entrepôt de données.
  • Fournit des outils pour activer l'ETL de données facile.
  • Définit un langage de requête de type SQL appelé QL.

Cas d'utilisation d'Apache Hive - Facebook:

Cas d

Avant de mettre en œuvre Hive, Facebook a dû faire face à de nombreux défis, car la taille des données générées augmentait ou plutôt explosait, ce qui rendait leur gestion très difficile. Le SGBDR traditionnel ne pouvait pas gérer la pression et, par conséquent, Facebook recherchait de meilleures options. Pour résoudre ce problème imminent, Facebook a d'abord essayé d'utiliser Hadoop MapReduce, mais avec des difficultés de programmation et des connaissances obligatoires en SQL, cela en a fait une solution peu pratique. Hive leur a permis de surmonter les défis auxquels ils étaient confrontés.

Avec Hive, ils peuvent désormais effectuer les opérations suivantes:



  • Les tables peuvent être portionnées et groupées
  • Flexibilité et évolution du schéma
  • Les pilotes JDBC / ODBC sont disponibles
  • Les tables Hive peuvent être définies directement dans HDFS
  • Extensible - Types, formats, fonctions et scripts

Cas d'utilisation de Hive dans le secteur de la santé:

Où utiliser Hive?

Apache Hive peut être utilisé aux endroits suivants:

  • Exploration de données
  • Traitement des journaux
  • Indexation des documents
  • Intelligence d'affaires orientée client
  • Modélisation prédictive
  • Tests d'hypothèses

Architecture de la ruche:

Hive comprend les principaux composants suivants:

  • Metastore - Pour stocker les métadonnées.
  • JDBC / ODBC - Compilateur de requêtes et moteur d'exécution pour convertir les requêtes SQL en une séquence de MapReduce.
  • SerDe et ObjectInspectors - Pour les formats et types de données.
  • UDF / UDAF - Pour les fonctions définies par l'utilisateur.
  • Clients - Similaire à la ligne de commande MySQL et à une interface utilisateur Web.

Composants de Hive:

Metastore:

Le Metastore stocke les informations sur les tables, les partitions, les colonnes dans les tables. Il existe 3 façons de stocker dans Metastore: Metastore intégré, Metastore local et Metastore distant. La plupart du temps, Remote Metastore sera utilisé en mode production.

Limitations de Hive:

qu'est-ce que ide en java

Hive présente les limitations suivantes et ne peut pas être utilisé dans de telles circonstances:

  • Non conçu pour le traitement des transactions en ligne.
  • Fournit une latence acceptable pour la navigation interactive des données.
  • N'offre pas de requêtes en temps réel et de mises à jour au niveau des lignes.
  • La latence des requêtes Hive est généralement très élevée.

Vous avez une question pour nous? Mentionnez-les dans la section commentaires et nous vous recontacterons.

Articles Similaires:

Commandes Hive