Exploration d'Apache Drill, le moteur de requêtes new-age

Ce didacticiel Apache Drill vous donne toutes les informations dont vous avez besoin pour démarrer avec le moteur de requêtes Apache Drill, l'utilisation avec Hadoop, Big Data et Apache Spark.

Apache Drill est le premier moteur SQL sans schéma du secteur. Drill n’est pas le premier moteur de requêtes au monde, mais c’est le premier à trouver le juste équilibre entre flexibilité et vitesse. Drill est conçu pour évoluer vers plusieurs milliers de nœuds et interroger des pétaoctets de données à des vitesses interactives requises par les environnements BI / Analytics.





Il peut s'intégrer à plusieurs sources de données comme Hive, HBase, MongoDB, système de fichiers, RDBMS. En outre, les formats d'entrée tels que Avro, CSV, TSV, PSV, Parquet, les fichiers de séquence Hadoop et bien d'autres peuvent être utilisés facilement dans Drill.

Pourquoi Apache Drill?

Le plus grand avantage d'Apache Drill est qu'il peut découvrir le schéma à la volée lorsque vous interrogez des données. De plus, il peut fonctionner avec vos outils BI tels que Tableau, Qlikview, MicroStrategy, etc. pour une meilleure analyse.



Voici une citation d'un analyste du secteur qui résume la valeur d'Apache Drill:

«Drill ne concerne pas seulement SQL-on-Hadoop. Il s'agit de SQL sur à peu près tout, immédiatement et sans formalité. »

- Andrew Burst, Gigaom Research, janvier 2015



Drillbit est le démon d'Apache Drill qui s'exécute sur chaque nœud du cluster. Il utilise ZooKeeper pour toutes les communications dans le cluster et l'appartenance au cluster de maintenance. Il est responsable de l'acceptation des demandes du client, du traitement des requêtes et du renvoi des résultats au client. Le foret qui reçoit la demande du client est appelé «contremaître». Il génère le plan d'exécution, les fragments d'exécution sont envoyés à d'autres bits de forage s'exécutant dans le cluster.

Drillbits-Apache-Drill

Un autre avantage est que l'installation et la configuration de la perceuse sont assez simples. Apprenons à installer Apache Drill.

La première étape consiste à télécharger le package de forage.

chaîne en java util date

Commander: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Commander: tar -xvf apache-drill-1.5.0.tar.gz

Commander: ls

Ensuite, définissez les variables d'environnement dans le fichier .bashrc.

Commander: sudo gedit .bashrc

export DRILL_HOME = / home / edureka / apache-drill-1.5.0

export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Cette commande mettra à jour les modifications:

Commander: source .bashrc

Maintenant, allez dans le répertoire drill conf et éditez le fichier drill-override.conf avec l'ID du cluster et l'hôte et le port du gardien de zoo, nous l'exécuterons sur un cluster local.

Commander: cd apache-drill-1.5.0

Commander: sudo gedit conf / drill-override.conf

Par défaut, DRILL_MAX_DIRECT_MEMORY sera de 8 Go dans drill-env.sh, et nous devons le conserver en fonction de la mémoire dont nous disposons.

Commander: sudo gedit conf / drill-env.sh

Pour installer drill uniquement sur un seul nœud, vous pouvez utiliser le mode intégré, où il s'exécutera localement. Il démarrera automatiquement le service drillbit lorsque vous exécuterez cette commande.

Commander: ./bin/drill-embedded

Vous pouvez exécuter une simple requête pour vérifier l'installation.

Commander: sélectionnez * dans sys.options WHERE type = ‘SYSTEM’ et un nom comme ‘security%’

Pour vérifier la console Web d'Apache Drill, nous devons accéder à localhost: 8047 dans le navigateur Web.

Vous pouvez également exécuter votre requête à partir de l'onglet Requête.

Pour exécuter l'exploration en mode distribué, vous devez modifier l'ID de cluster et ajouter des informations ZooKeeper dans drill-override.conf comme ci-dessous.

Ensuite, nous devons démarrer le service ZooKeeper sur chaque nœud. Après cela, vous devez démarrer le service drillbit sur chaque nœud avec cette commande.

Commander: ./bin/drillbit.sh démarrer

Commander: jps

Maintenant, nous utilisons la commande ci-dessous pour démarrer le shell de forage.

Maintenant, nous pouvons exécuter nos requêtes sur le cluster en mode distribué.

Ceci est le premier article de blog d'une série de blogs Apache Drill en deux parties. Le deuxième blog de la série arrive bientôt.

Vous avez une question pour nous? Mentionnez-les dans la section commentaires et nous vous répondrons.

Articles Similaires:

marionnette vs chef vs jenkins

Explorer Apache Drill, partie 2

Apache Spark contre Hadoop MapReduce