Tutorial Apache Flume: Streaming Data Twitter



Blog tutorial Apache Flume ini menjelaskan dasar-dasar Apache Flume dan fitur-fiturnya. Ini juga akan menampilkan streaming Twitter menggunakan Apache Flume.

Dalam blog tutorial Apache Flume ini, kita akan memahami bagaimana Flume membantu mengalirkan data dari berbagai sumber. Namun sebelum itu mari kita pahami pentingnya penyerapan data. Penyerapan data adalah langkah awal & penting untuk memproses & menganalisis data, dan kemudian memperoleh nilai bisnis darinya. Ada banyak sumber dari mana data dikumpulkan dalam suatu organisasi.

Mari kita bicara tentang alasan penting lainnya mengapa Flume menjadi begitu populer. Saya harap Anda sudah mengenalnya , yang banyak digunakan dalam industri karena dapat menyimpan semua jenis data. Flume dapat dengan mudah berintegrasi dengan Hadoop dan membuang data tidak terstruktur serta semi-terstruktur di HDFS, yang memuji kekuatan Hadoop. Inilah mengapa Apache Flume menjadi bagian penting dari Ekosistem Hadoop.





Di blog tutorial Apache Flume ini, kami akan membahas:



Kami akan memulai tutorial Flume ini dengan membahas tentang apa itu Apache Flume. Selanjutnya, kita akan memahami keuntungan menggunakan Flume.

Tutorial Apache Flume: Pengantar Apache Flume

Logo Apache Flume - Tutorial Apache Flume - EdurekaApache Flume adalah alat untuk penyerapan data di HDFS. Ini mengumpulkan, mengumpulkan, dan mengangkut data streaming dalam jumlah besar seperti file log, peristiwa dari berbagai sumber seperti lalu lintas jaringan, media sosial, pesan email, dll. Ke HDFS.Flume sangat andal & terdistribusi.

Ide utama di balik desain Flume adalah menangkap data streaming dari berbagai server web ke HDFS. Ini memiliki arsitektur yang sederhana dan fleksibel berdasarkan aliran data streaming. Ini toleran terhadap kesalahan dan menyediakan mekanisme keandalan untuk toleransi Kesalahan & pemulihan kegagalan.



Setelah memahami apa itu Flume, sekarang mari kita lanjutkan di blog Tutorial Flume ini dan pahami manfaat dari Apache Flume. Selanjutnya, kita akan melihat arsitektur Flume dan mencoba memahami cara kerjanya secara fundamental.

ruby pada aplikasi web rel

Tutorial Apache Flume: Keuntungan Apache Flume

Ada beberapa keunggulan Apache Flume yang menjadikannya pilihan yang lebih baik dibandingkan yang lain. Keunggulannya adalah:

  • Flume dapat diskalakan, andal, toleran terhadap kesalahan, dan dapat disesuaikan untuk berbagai sumber dan sink.
  • Apache Flume dapat menyimpan data di penyimpanan terpusat (yaitu data dipasok dari satu penyimpanan) seperti HBase & HDFS.
  • Flume dapat diskalakan secara horizontal.
  • Jika kecepatan baca melebihi kecepatan tulis, Flume menyediakan aliran data yang stabil antara operasi baca dan tulis.
  • Flume menyediakan pengiriman pesan yang andal. Transaksi di Flume berbasis saluran di mana dua transaksi (satu pengirim & satu penerima) dipertahankan untuk setiap pesan.
  • Menggunakan Flume, kami dapat menyerap data dari beberapa server ke Hadoop.
  • Ini memberi kami solusi yang dapat diandalkan dan didistribusikan serta membantu kami dalam mengumpulkan, menggabungkan, dan memindahkan sejumlah besar kumpulan data seperti Facebook, Twitter, dan situs web e-niaga.
  • Ini membantu kami untuk menyerap data streaming online dari berbagai sumber seperti lalu lintas jaringan, media sosial, pesan email, file log, dll. Di HDFS.
  • Ini mendukung serangkaian besar sumber dan jenis tujuan.

Arsitekturnya adalah salah satu yang memberdayakan Apache Flume dengan manfaat ini. Sekarang, seperti yang kita ketahui tentang keunggulan Apache Flume, mari kita lanjutkan dan pahami arsitektur Apache Flume.

Tutorial Apache Flume: Arsitektur Flume

Sekarang, mari kita pahami arsitektur Flume dari diagram di bawah ini:

Ada agen Flume yang mencerna data streaming dari berbagai sumber data ke HDFS. Dari diagram tersebut, Anda dapat dengan mudah memahami bahwa web server menunjukkan sumber data. Twitter adalah salah satu sumber yang terkenal untuk data streaming.

Agen flume memiliki 3 komponen: source, sink dan channel.

    1. Sumber : Ini menerima data dari arus masuk dan menyimpan data di saluran.
    2. Saluran : Secara umum kecepatan membaca lebih cepat dari kecepatan menulis. Jadi, kita membutuhkan beberapa buffer untuk menyesuaikan dengan perbedaan kecepatan baca & tulis. Pada dasarnya, buffer bertindak sebagai penyimpanan perantara yang menyimpan data yang ditransfer sementara dan karenanya mencegah kehilangan data. Demikian pula, saluran bertindak sebagai penyimpanan lokal atau penyimpanan sementara antara sumber data dan data persisten di HDFS.
    3. Wastafel : Kemudian, komponen terakhir kami yaitu Tenggelam, mengumpulkan data dari saluran dan melakukan atau menulis data di HDFS secara permanen.

Sekarang karena kita tahu cara kerja Apache Flume, mari kita lihat praktik di mana kita akan menyimpan data Twitter dan menyimpannya di HDFS.

Tutorial Apache Flume: Streaming Data Twitter

Dalam praktik ini, kami akan mengalirkan data dari Twitter menggunakan Flume dan kemudian menyimpan data dalam HDFS seperti yang ditunjukkan pada gambar di bawah ini.

Langkah pertama adalah membuat aplikasi Twitter. Untuk ini, pertama-tama Anda harus membuka url ini: https://apps.twitter.com/ dan masuk ke akun Twitter Anda. Pergi ke buat tab aplikasi seperti yang ditunjukkan pada gambar di bawah ini.

Kemudian buat aplikasi seperti yang ditunjukkan pada gambar di bawah ini.

Setelah membuat aplikasi ini, Anda akan menemukan Key & Access token. Salin kunci dan token akses. Kami akan meneruskan token ini di file konfigurasi Flume kami untuk terhubung ke aplikasi ini.

Sekarang buat file flume.conf di direktori root flume seperti yang ditunjukkan pada gambar di bawah ini. Seperti yang telah kita diskusikan, dalam Arsitektur Flume, kita akan mengkonfigurasi Sumber, Tenggelam, dan Saluran kita. Sumber kami adalah Twitter, tempat kami mengalirkan data dan Sink kami adalah HDFS, tempat kami menulis data.

Dalam konfigurasi sumber kami meneruskan jenis sumber Twitter sebagai org.apache.flume.source.twitter.TwitterSource. Kemudian, kami meneruskan keempat token yang kami terima dari Twitter. Terakhir dalam konfigurasi sumber kami meneruskan kata kunci yang akan kami gunakan untuk mengambil tweet.

Dalam konfigurasi Sink kita akan mengkonfigurasi properti HDFS. Kami akan mengatur jalur HDFS, format tulis, jenis file, ukuran batch dll. Terakhir kami akan mengatur saluran memori seperti yang ditunjukkan pada gambar di bawah ini.

Sekarang kita siap untuk dieksekusi. Mari kita lanjutkan dan jalankan perintah ini:

$ FLUME_HOME / bin / flume-ng agent --conf ./conf/ -f $ FLUME_HOME / flume.conf

Setelah menjalankan perintah ini beberapa saat, kemudian Anda dapat keluar dari terminal menggunakan CTRL + C. Kemudian Anda dapat melanjutkan di direktori Hadoop Anda dan memeriksa jalur yang disebutkan, apakah file tersebut dibuat atau tidak.

java membuat larik objek

Unduh file dan buka. Anda akan mendapatkan sesuatu seperti yang ditunjukkan pada gambar di bawah ini.

Semoga blog ini informatif dan menjadi nilai tambah bagi Anda. Jika Anda tertarik untuk mempelajari lebih lanjut, Anda bisa melalui ini yang memberi tahu Anda tentang Big Data dan bagaimana Hadoop memecahkan tantangan terkait Big Data.

Sekarang Anda telah memahami Apache Flume, lihat file oleh Edureka, perusahaan pembelajaran online tepercaya dengan jaringan lebih dari 250.000 pelajar yang puas dan tersebar di seluruh dunia. Kursus Pelatihan Sertifikasi Edureka Big Data Hadoop membantu peserta didik menjadi ahli dalam domain HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume, dan Sqoop menggunakan kasus penggunaan waktu nyata pada Ritel, Media Sosial, Penerbangan, Pariwisata, domain Keuangan.

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dan kami akan menghubungi Anda kembali.