Mengebor Apache Drill, Mesin Kueri Era Baru



Tutorial Apache Drill ini memberi Anda semua informasi yang Anda butuhkan untuk memulai dengan mesin kueri Apache Drill, penggunaan dengan Hadoop, Big Data & Apache Spark.

Apache Drill adalah Mesin SQL bebas skema pertama di industri. Bor bukanlah mesin kueri pertama di dunia, tetapi merupakan yang pertama yang memberikan keseimbangan yang baik antara fleksibilitas dan kecepatan. Bor dirancang untuk menskalakan ke beberapa ribu node dan mengkueri petabyte data dengan kecepatan interaktif yang dibutuhkan oleh lingkungan BI / Analytics.





Itu dapat berintegrasi dengan beberapa sumber data seperti Hive, HBase, MongoDB, sistem file, RDBMS. Selain itu, format input seperti Avro, CSV, TSV, PSV, Parquet, file Urutan Hadoop, dan banyak lainnya dapat digunakan dalam Bor dengan mudah.

Mengapa Apache Drill?

Keuntungan terbesar Apache Drill adalah dapat menemukan skema dengan cepat saat Anda membuat kueri data apa pun. Selain itu, ini dapat bekerja dengan alat BI Anda seperti Tableau, Qlikview, MicroStrategy dll untuk analitik yang lebih baik.



Berikut kutipan dari analis industri yang merangkum nilai Apache Drill:

“Pelajaran bukan hanya tentang SQL-on-Hadoop. Ini tentang SQL-on-pretty-much-everything, segera, dan tanpa formalitas. ”

- Andrew Burst, Penelitian Gigaom, Januari 2015



Drillbit adalah daemon Apache Drill yang berjalan pada setiap node di cluster. Ini menggunakan Zookeeper untuk semua komunikasi di cluster dan keanggotaan cluster maintaisn. Ini bertanggung jawab untuk menerima permintaan dari klien, memproses kueri, dan mengembalikan hasil ke klien. Drillbit yang menerima permintaan dari klien disebut 'mandor'. Ini menghasilkan rencana eksekusi, fragmen eksekusi dikirim ke drillbits lain yang berjalan di cluster.

Drillbits-Apache-Drill

Satu keuntungan lagi adalah pemasangan dan pemasangan bor cukup sederhana. Mari kita pelajari cara menginstal Apache Drill.

Langkah pertama adalah mengunduh paket bor.

argumen baris perintah dalam kode contoh java

Perintah: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Perintah: tar -xvf apache-drill-1.5.0.tar.gz

Perintah: ls

Selanjutnya, setel variabel lingkungan dalam file .bashrc.

Perintah: sudo gedit .bashrc

ekspor DRILL_HOME = / home / edureka / apache-drill-1.5.0

ekspor PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Perintah ini akan memperbarui perubahan:

Perintah: sumber .bashrc

Sekarang masuk ke direktori drill conf dan edit file drill-override.conf dengan id cluster dan zookeeper host & port, kita akan menjalankannya di cluster lokal.

Perintah: cd apache-drill-1.5.0

Perintah: sudo gedit conf / drill-override.conf

Secara default, DRILL_MAX_DIRECT_MEMORY akan menjadi 8 GB di drill-env.sh, dan kita perlu menyimpannya sesuai dengan memori yang kita miliki.

Perintah: sudo gedit conf / drill-env.sh

Untuk memasang bor hanya di satu node, Anda dapat menggunakan mode tersemat, yang akan dijalankan secara lokal. Ini akan secara otomatis memulai layanan drillbit ketika Anda menjalankan perintah ini.

Perintah: ./bin/drill-embedded

Anda dapat menjalankan kueri sederhana untuk memeriksa penginstalan.

Perintah: pilih * dari sys.options WHERE type = 'SYSTEM' dan beri nama seperti 'security%'

kode contoh python regresi logistik

Untuk memeriksa konsol web Apache Drill, kita perlu pergi ke localhost: 8047 di browser web.

Anda juga dapat menjalankan kueri Anda dari tab Kueri.

Untuk menjalankan latihan dalam mode terdistribusi, Anda perlu mengedit ID cluster dan menambahkan informasi Zookeeper di drill-override.conf seperti di bawah ini.

Kemudian kita perlu memulai layanan Zookeeper di setiap node. Setelah itu Anda harus memulai layanan drillbit pada setiap node dengan perintah ini.

Perintah: ./bin/drillbit.sh mulai

Perintah: jps

Sekarang, kami menggunakan perintah di bawah ini untuk memulai shell bor.

Sekarang, kami dapat menjalankan kueri kami di cluster dalam mode terdistribusi.

Ini adalah entri blog pertama dalam seri blog Apache Drill dua bagian. Blog kedua dalam seri ini akan segera hadir.

Ada pertanyaan untuk kami? Sebutkan mereka di bagian komentar dan kami akan menghubungi Anda kembali.

Posting terkait:

Mengebor Apache Drill Bagian 2

Apache Spark Vs Hadoop MapReduce