Pengantar Apache Hive



Apache Hive adalah paket Data Warehousing yang dibangun di atas Hadoop dan digunakan untuk analisis data. Hive ditargetkan untuk pengguna yang terbiasa dengan SQL.

instal php di windows 10

Apache Hive adalah paket Data Warehousing yang dibangun di atas Hadoop dan digunakan untuk analisis data. Hive ditargetkan untuk pengguna yang terbiasa dengan SQL. Ini mirip dengan SQL dan disebut HiveQL, digunakan untuk mengelola dan membuat kueri data terstruktur. Apache Hive digunakan untuk mengabstraksikan kompleksitas Hadoop. Bahasa ini juga memungkinkan pemrogram peta / pengurangan tradisional untuk memasang pembuat peta dan pereduksi khusus mereka. Fitur populer dari Hive adalah tidak perlu mempelajari Java.





Hive, kerangka kerja tanggal skala peta-byte open source berdasarkan Hadoop, dikembangkan oleh Tim Infrastruktur Data di Facebook. Hive juga merupakan salah satu teknologi yang digunakan untuk memenuhi kebutuhan di Facebook. Hive sangat populer dengan semua pengguna secara internal di Facebook dan digunakan untuk menjalankan ribuan pekerjaan di cluster dengan ratusan pengguna, untuk berbagai macam aplikasi. Kluster Hive-Hadoop di Facebook menyimpan lebih dari 2PB data mentah dan secara teratur memuat 15 TB data setiap hari.

Mari kita lihat beberapa fiturnya yang membuatnya populer dan ramah pengguna:



  • Izinkan pemrogram untuk memasang Pemetaan dan Pengurang kustom.
  • Memiliki infrastruktur Data Warehouse.
  • Menyediakan alat untuk mengaktifkan ETL data dengan mudah.
  • Mendefinisikan bahasa query seperti SQL yang disebut QL.

Kasus Penggunaan Apache Hive - Facebook:

Kasus Penggunaan Sarang - Facebook

Sebelum menerapkan Hive, Facebook menghadapi banyak tantangan karena ukuran data yang dihasilkan meningkat atau lebih tepatnya meledak, sehingga sangat sulit untuk menanganinya. RDBMS tradisional tidak dapat menangani tekanan dan sebagai hasilnya Facebook mencari opsi yang lebih baik. Untuk mengatasi masalah yang akan datang ini, Facebook awalnya mencoba menggunakan Hadoop MapReduce, tetapi dengan kesulitan dalam pemrograman dan pengetahuan wajib dalam SQL, menjadikannya solusi yang tidak praktis. Hive memungkinkan mereka mengatasi tantangan yang mereka hadapi.

Dengan Hive, mereka sekarang dapat melakukan hal berikut:



  • Tabel dapat dibagi dan dikelompokkan
  • Fleksibilitas skema dan evolusi
  • Driver JDBC / ODBC tersedia
  • Tabel sarang dapat ditentukan langsung di HDFS
  • Dapat Diperluas - Jenis, Format, Fungsi, dan skrip

Kasus Penggunaan Sarang di Perawatan Kesehatan:

Dimana Menggunakan Sarang?

Apache Hive dapat digunakan di tempat-tempat berikut:

  • Penambangan Data
  • Pemrosesan Log
  • Pengindeksan Dokumen
  • Customer Facing Business Intelligence
  • Pemodelan Prediktif
  • Pengujian Hipotesis

Arsitektur Sarang:

Sarang terdiri dari komponen utama berikut:

persamaan antara java dan javascript
  • Metastore - Untuk menyimpan metadata.
  • JDBC / ODBC - Query Compiler and Execution Engine untuk mengonversi kueri SQL ke urutan MapReduce.
  • SerDe dan ObjectInspectors - Untuk format dan tipe data.
  • UDF / UDAF - Untuk Fungsi Yang Ditentukan Pengguna.
  • Klien - Mirip dengan baris perintah MySQL dan UI web.

Komponen Sarang:

Metastore:

Metastore menyimpan informasi tentang tabel, partisi, kolom di dalam tabel. Ada 3 cara penyimpanan di Metastore: Metastore Tertanam, Metastore Lokal, dan Metastore Jarak Jauh. Sebagian besar, Metastore Jarak Jauh akan digunakan dalam mode produksi.

Batasan Sarang:

Sarang memiliki batasan berikut dan tidak dapat digunakan dalam keadaan seperti itu:

  • Tidak dirancang untuk pemrosesan transaksi online.
  • Memberikan latensi yang dapat diterima untuk penjelajahan data interaktif.
  • Tidak menawarkan kueri waktu nyata dan pembaruan tingkat baris.
  • Latensi untuk kueri Hive umumnya sangat tinggi.

Ada pertanyaan untuk kami? Sebutkan mereka di bagian komentar dan kami akan menghubungi Anda kembali.

Posting terkait:

Perintah sarang