Menyelam Mendalam Ke Babi



Posting blog ini membahas lebih dalam tentang Pig dan fungsinya. Anda akan menemukan demo bagaimana Anda dapat bekerja di Hadoop menggunakan Pig tanpa ketergantungan pada Java.

Salah satu alasan terbesar mengapa popularitas Hadoop meroket belakangan ini adalah kenyataan bahwa fitur seperti Pig dan Hive berjalan di atasnya yang memungkinkan non-programmer dengan fungsionalitas yang sebelumnya eksklusif untuk programmer Java. Fitur-fitur ini merupakan konsekuensi dari meningkatnya permintaan akan profesional Hadoop. Fitur lain yang digunakan oleh profesional Hadoop dari latar belakang non-Java adalah Flume, Sqoop, HBase, dan Oozie.





Untuk memahami mengapa Anda tidak membutuhkan Java untuk mempelajari Hadoop, silakan lihat blog ini .

1 Sejarah Babi



Mari kita pahami cara kerja fitur ini.

Kita semua tahu bahwa pengetahuan pemrograman adalah kebutuhan untuk menulis kode MapReduce. Tetapi bagaimana jika saya memiliki alat yang dapat melakukan pengkodean jika saya hanya memberikan detailnya? Di situlah Babi menunjukkan kekuatan ototnya. Pig menggunakan platform yang disebut Pig Latin yang mengabstraksikan pemrograman dari idiom Java MapReduce menjadi sebuah notasi yang membuat pemrograman MapReduce tingkat tinggi, mirip dengan SQL untuk sistem RDBMS. Kode yang ditulis dalam Pig Latin MapReduce secara otomatis dikonversi ke fungsi MapReduce yang setara. Bukankah itu luar biasa? Fakta Mind-Blowing lainnya adalah bahwa hanya 10 Garis Babi yang dibutuhkan untuk menggantikan 200 Garis Jawa.



10 baris Pig = 200 baris Jawa

Ini tidak hanya berarti bahwa para profesional non-Java menggunakan Hadoop tetapi juga membuktikan fakta yang menggarisbawahi bahwa Pig digunakan oleh sejumlah pengembang teknis yang sama.

Selain itu, jika Anda ingin menulis kode MapReduce Anda sendiri, Anda dapat melakukannya di salah satu bahasa seperti Perl, Python, Ruby atau C.Beberapa operasi dasar yang dapat kita lakukan pada Dataset menggunakan Pig adalah Group, Join, Filter dan Sort. . Operasi ini dapat dilakukan pada data terstruktur, tidak terstruktur, dan juga semi terstruktur. Mereka menyediakan cara ad-hoc untuk membuat dan menjalankan pekerjaan MapReduce pada kumpulan data yang sangat besar.

Selanjutnya, mari kita pahami Hive. Ini adalah kerangka kerja data warehousing berskala peta-byte yang open source berdasarkan Hadoop untuk peringkasan, kueri, dan analisis data. Hive menyediakan antarmuka mirip SQL untuk Hadoop. Anda dapat menggunakan Hive untuk membaca dan menulis file di Hadoop dan menjalankan laporan Anda dari alat BI. Beberapa fungsi khas Hadoop adalah:

Izinkan saya menunjukkan demo menggunakan kumpulan data Pig on Clickstream
Kami akan menggunakan data Clickstream ini dan melakukan Transformasi, Gabungan, dan Pengelompokan.

ClickStream adalah rangkaian klik mouse yang dilakukan oleh pengguna saat mengakses Internet terutama saat dipantau untuk menilai minat seseorang untuk tujuan pemasaran. Ini terutama digunakan oleh situs web ritel online seperti Flipkart dan Amazon yang melacak aktivitas Anda untuk menghasilkan rekomendasi. Kumpulan data Clickstream yang telah kami gunakan memiliki bidang berikut:

1. Jenis bahasa yang didukung oleh aplikasi web

2. Jenis browser

3. Jenis koneksi

4. ID Negara

5. Stempel Waktu

6. URL

7. Status pengguna

8. Jenis Pengguna

Ini akan terlihat seperti ini dengan bidang yang sesuai.

Di bawah ini adalah daftar jenis browser yang telah digunakan oleh berbagai orang saat berselancar di situs web tertentu. Di antara daftarnya adalah browser seperti Internet Explorer, Google Chrome, Lynx, dan sebagainya.

Jenis koneksi internet bisa Lan / Modem / Wifi. Lihat gambar di bawah untuk daftar lengkapnya:

Pada gambar berikutnya, Anda akan menemukan daftar negara dari mana situs web tersebut telah menarik audiens bersama dengan ID mereka.

Setelah kami mengumpulkan semua kumpulan data, kami harus meluncurkan shell Pig's Grunt, yang diluncurkan untuk menjalankan perintah Pig.

Hal pertama yang harus kita lakukan saat meluncurkan shell Grunt adalah memuat data Clickstream ke dalam relasi Pig. Relasi tidak lain adalah tabel. Di bawah ini adalah perintah yang kami gunakan untuk memuat file yang berada di HDFS ke relasi Pig.

Kita dapat memverifikasi skema relasi dengan perintah yang menjelaskan click_stream.

Sekarang kita perlu menambahkan file referensi yang akan berisi detail tentang daftar negara dengan ID mereka dan jenis browser yang berbeda bersama dengan ID mereka.

Kami sekarang memiliki dua file referensi, tetapi mereka harus dihubungkan untuk membentuk relasi.
Kami menjalankan perintah connection_ref untuk menunjukkan jenis koneksi.

Sekarang setelah kami memiliki koneksi yang berfungsi dan hubungan yang mapan, kami akan menunjukkan kepada Anda bagaimana kami dapat mengubah data itu.
Untuk setiap catatan di Clickstream, kami akan menghasilkan catatan baru dalam format yang berbeda, yaitu data yang diubah. Format baru akan menyertakan kolom seperti TimeStamp, jenis Browser, ID Negara, dan beberapa lainnya.

Kita dapat melakukan operasi Filter untuk memangkas Big Data. Jenis pengguna yang berbeda adalah Administrator, Tamu atau Bot. Dalam demo kami, saya telah memfilter daftar untuk Tamu.

Jika Anda ingat, ID Negara ada di Clickstream dan kami memuat file country_ref yang berisi nama negara bersama dengan ID-nya. Dengan demikian, kita dapat melakukan operasi Gabungan antara dua file dan menggabungkan data untuk memperoleh wawasan.

sas tutorial pemrograman untuk pemula

Jika kami telah menggabungkan data, maka kami dapat mengetahui berbagai negara dari mana pengguna berada dengan Pengelompokan. Setelah kami memiliki data ini, kami dapat melakukan operasi Hitung untuk mengidentifikasi jumlah pengguna dari negara tertentu.

Bukan ilmu roket untuk mendapatkan wawasan dari Big Data. Ini hanyalah beberapa dari banyak fitur yang telah saya terapkan dan dengan alat seperti Hive, Hbase, Oozie, Sqoop dan Flume ada banyak sekali data yang belum dieksplorasi. Jadi bagi Anda yang menahan diri dari mempelajari Hadoop, inilah waktunya untuk berubah.

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dan kami akan menghubungi Anda kembali.

Posting terkait:

4 Cara Menggunakan R dan Hadoop Bersama

Segala Sesuatu Tentang Pengembang Bersertifikat Cloudera untuk Apache Hadoop