Perintah Sarang Teratas dengan Contoh di HQL



Blog ini membahas Perintah Hive dengan contoh-contoh di HQL. BUAT, LEPAS, POTONG, ALTER, TAMPILKAN, DESCRIBE, GUNAKAN, LOAD, INSERT, GABUNG dan banyak lagi Perintah Sarang

Dalam postingan blog ini, mari kita bahas perintah Hive teratas dengan contoh. Perintah Hive ini sangat penting untuk menyiapkan fondasinya .

Panduan Karir Teknologi Edureka 2019 sudah keluar! Peran pekerjaan terpanas, jalur pembelajaran yang tepat, pandangan industri & lainnya dalam panduan. Unduh sekarang.

Apa itu Hive?

Apache Hive adalah sistem gudang data yang dibangun untuk bekerja di Hadoop. Ini digunakan untuk menanyakan dan mengelola kumpulan data besar yang berada di penyimpanan terdistribusi. Sebelum menjadi proyek open source Apache Hadoop, Hive berasal dari Facebook. Ini menyediakan mekanisme untuk memproyeksikan struktur ke data di Hadoop dan untuk membuat kueri data tersebut menggunakan bahasa mirip SQL yang disebut HiveQL (HQL).





Hive digunakan karena tabel di Hive mirip dengan tabel dalam database relasional. Jika Anda terbiasa dengan SQL, itu adalah cakewalk. Banyak pengguna dapat secara bersamaan melakukan kueri data menggunakan Hive-QL.

Apa itu HQL?

Hive mendefinisikan bahasa kueri seperti SQL sederhana untuk membuat kueri dan mengelola kumpulan data besar yang disebut Hive-QL (HQL). Mudah digunakan jika Anda sudah terbiasa dengan Bahasa SQL. Hive memungkinkan pemrogram yang terbiasa dengan bahasa tersebut untuk menulis kerangka kerja MapReduce khusus untuk melakukan analisis yang lebih canggih.



Kegunaan Sarang:

1. Penyimpanan terdistribusi Apache Hive.

2. Hive menyediakan alat untuk memungkinkan ekstraksi / transformasi / pemuatan data (ETL) dengan mudah

3. Ini memberikan struktur pada berbagai format data.



4. Dengan menggunakan Hive, kita dapat mengakses file yang disimpan di Hadoop Distributed File System (HDFS digunakan untuk menanyakan dan mengelola kumpulan data besar yang berada di) atau di sistem penyimpanan data lain seperti Apache HBase.

Keterbatasan Sarang:

& bull Hive tidak dirancang untuk pemrosesan transaksi Online (OLTP), ini hanya digunakan untuk Pemrosesan Analitik Online.

& bull Hive mendukung penimpaan atau penangkapan data, tetapi tidak untuk memperbarui dan menghapus.

& banteng Di Hive, kueri sub tidak didukung.

Mengapa Sarang digunakan selain Pig?

Berikut ini adalah alasan mengapa Sarang digunakan meskipun Babi tersedia:

  • Hive-QL adalah baris bahasa deklaratif SQL, PigLatin adalah bahasa aliran data.
  • Pig: bahasa dan lingkungan aliran data untuk menjelajahi kumpulan data yang sangat besar.
  • Sarang: gudang data terdistribusi.

Komponen Sarang:

Metastore:

Hive menyimpan skema tabel Hive di Hive Metastore. Metastore digunakan untuk menampung semua informasi tentang tabel dan partisi yang ada di gudang. Secara default, metastore dijalankan dalam proses yang sama seperti layanan Hive dan Metastore default adalah DerBy Database.

bagaimana menghentikan program java dalam kode

SerDe:

Serializer, Deserializer memberikan instruksi kepada sarang tentang cara memproses rekaman.

Perintah sarang:

Bahasa Definisi Data (DDL)

Pernyataan DDL digunakan untuk membangun dan memodifikasi tabel dan objek lain dalam database.

Perintah DDL Fungsi
MEMBUAT Ini digunakan untuk membuat tabel atau Database
MENUNJUKKAN Ini digunakan untuk menunjukkan Database, Tabel, Properti, dll
USIA Ini digunakan untuk membuat perubahan pada tabel yang ada
MENGGAMBARKAN Ini menggambarkan kolom tabel
MEMOTONG Digunakan untuk memotong dan menghapus baris tabel secara permanen
MENGHAPUS Menghapus data tabel, tapi, bisa dipulihkan

Masuk ke Hive shell dengan memberi perintah sudo hive dan masukkan perintahnya 'membuat database nama> ' untuk membuat database baru di Hive.

Buat database sarang menggunakan Perintah Hive

Untuk mendaftar database di gudang Sarang, masukkan perintah ' tampilkan database '.

Database membuat di lokasi default gudang sarang. Di Cloudera, penyimpanan database Hive di / user / hive / warehouse.

Perintah untuk menggunakan database adalah MENGGUNAKAN

Salin data masukan ke HDFS dari lokal dengan menggunakan perintah salin Dari Lokal.

Saat kita membuat tabel di sarang, itu dibuat di lokasi default gudang sarang. - “/ user / hive / warehouse”, setelah tabel dibuat, kita dapat memindahkan data dari HDFS ke tabel hive.

Perintah berikut membuat tabel dengan di lokasi '/user/hive/warehouse/retail.db'

Catatan : retail.db adalah database yang dibuat di gudang Hive.

Menggambarkan memberikan informasi tentang skema tabel.

Bahasa Manipulasi Data (DML)

Pernyataan DML digunakan untuk mengambil, menyimpan, mengubah, menghapus, menyisipkan, dan memperbarui data dalam database.

Contoh:

LOAD, INSERT Statements.

Sintaks:

LOAD data inpath ke dalam tabel [tablename]

Operasi Load digunakan untuk memindahkan data ke tabel Hive yang sesuai. Jika kata kunci lokal ditentukan, maka dalam perintah muat akan memberikan jalur sistem file lokal. Jika kata kunci lokal tidak ditentukan, kita harus menggunakan jalur HDFS dari file tersebut.

Berikut beberapa contoh untuk perintah LOAD data LOCAL

Setelah memuat data ke dalam tabel Hive, kita dapat menerapkan Pernyataan Manipulasi Data atau fungsi agregat untuk mengambil data.

Contoh untuk menghitung jumlah record:

Fungsi hitung agregat digunakan menghitung jumlah total catatan dalam tabel.

Tabel ‘buat eksternal’:

Itu buat eksternal kata kunci digunakan untuk membuat tabel dan menyediakan lokasi tempat tabel akan dibuat, sehingga Hive tidak menggunakan lokasi default untuk tabel ini. Sebuah LUAR tabel menunjuk ke lokasi HDFS mana pun untuk penyimpanannya, bukan penyimpanan default.

Sisipkan Perintah:

Itu memasukkan Perintah tersebut digunakan untuk memuat tabel data Hive. Sisipan dapat dilakukan ke tabel atau partisi.

& bull INSERT OVERWRITE digunakan untuk menimpa data yang ada di tabel atau partisi.

& bull INSERT INTO digunakan untuk menambahkan data ke dalam data yang ada di tabel. (Catatan: sintaks INSERT INTO bekerja dari versi 0.8)

Contoh untuk Perintah 'Dipartisi Oleh' dan 'Dikelompokkan Oleh':

'Dipartisi oleh 'Digunakan untuk membagi tabel menjadi Partisi dan dapat dibagi menjadi beberapa keranjang dengan menggunakan' Dikelompokkan Oleh 'Perintah.

Ketika kami memasukkan kesalahan lemparan data Hive, mode partisi dinamis ketat dan partisi dinamis tidak diaktifkan (oleh Jeff di situs web rias ). Jadi kita perlu mengatur parameter berikut di shell Hive.

setel hive.exec.dynamic.partition = true

Untuk mengaktifkan partisi dinamis, secara default, itu salah

setel hive.exec.dynamic.partition.mode = nonstrict

Partisi dilakukan berdasarkan kategori dan dapat dibagi ke dalam beberapa keranjang dengan menggunakan perintah 'Clustered By'.

Pernyataan 'Drop Table' menghapus data dan metadata untuk sebuah tabel. Dalam kasus tabel eksternal, hanya metadata yang dihapus.

Pernyataan 'Drop Table' menghapus data dan metadata untuk sebuah tabel. Dalam kasus tabel eksternal, hanya metadata yang dihapus.

Muat data local inpath 'aru.txt' ke dalam table tablename kemudian kita cek tabel employee1 dengan menggunakan perintah Select * from table name

Untuk menghitung jumlah record dalam tabel dengan menggunakan Select menghitung(*) dari txnrecords

Agregasi:

Pilih hitungan (kategori berbeda) dari tablename

Perintah ini akan menghitung kategori berbeda dari tabel 'cate'. Di sini ada 3 kategori berbeda.

Misalkan ada kategori tabel lain dimana f1 adalah nama field kategori.

Pengelompokan:

Perintah grup digunakan untuk mengelompokkan hasil-set dengan satu atau lebih kolom.

Pilih kategori, jumlah (jumlah) dari kelompok catatan txt berdasarkan kategori

Ini menghitung jumlah kategori yang sama.

Hasil satu tabel disimpan ke tabel lain.

Buat table newtablename as select * from oldtablename

Bergabunglah dengan Command:

Di sini satu tabel lagi dibuat dalam nama 'Email'

Bergabunglah dengan Operasi :

Operasi gabungan dilakukan untuk menggabungkan bidang dari dua tabel dengan menggunakan nilai yang sama untuk masing-masing.

Gabung Luar Kiri :

Hasil dari gabungan luar kiri (atau hanya gabungan kiri) untuk tabel A dan B selalu berisi semua rekaman dari tabel 'kiri' (A), bahkan jika kondisi gabungan tidak menemukan rekaman yang cocok dalam tabel 'kanan' (B).

Gabung Luar Kanan :

Gabungan luar kanan (atau gabungan kanan) sangat mirip dengan gabungan luar kiri, kecuali dengan perlakuan tabel yang dibalik. Setiap baris dari tabel 'kanan' (B) akan muncul dalam tabel yang digabungkan setidaknya sekali.

program round robin di c

Bergabung Penuh :

Tabel yang digabungkan akan berisi semua record dari kedua tabel, dan mengisi NULL untuk kecocokan yang hilang di kedua sisi.

Setelah selesai dengan sarang kita dapat menggunakan perintah keluar untuk keluar dari shell sarang.

Keluar dari Hive

Hive hanyalah bagian dari teka-teki besar yang disebut Big Data dan Hadoop. Hadoop lebih dari sekedar sarang. Klik di bawah untuk melihat keahlian lain yang harus Anda kuasai di Hadoop.

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dan kami akan menghubungi Anda kembali.

Posting terkait:

7 Cara Pelatihan Big Data Dapat Mengubah Organisasi Anda

Model Data Sarang