Apache Flink: Kerangka Kerja Analisis Big Data Generasi Berikutnya Untuk Aliran Dan Pemrosesan Data Batch



Pelajari semua tentang Apache Flink & menyiapkan cluster Flink di blog ini. Flink mendukung pemrosesan waktu-nyata & batch & merupakan teknologi Big Data yang harus diperhatikan untuk Big Data Analytics.

Apache Flink adalah platform open source untuk aliran terdistribusi dan pemrosesan data batch. Ini dapat berjalan di Windows, Mac OS dan Linux OS. Dalam postingan blog ini, mari kita bahas cara menyiapkan cluster Flink secara lokal. Ini mirip dengan Spark dalam banyak hal - ia memiliki API untuk pemrosesan Graph dan Machine learning seperti Apache Spark - tetapi Apache Flink dan Apache Spark tidak persis sama.





Untuk mengatur cluster Flink, Anda harus menginstal java 7.x atau yang lebih tinggi di sistem Anda. Karena saya telah menginstal Hadoop-2.2.0 di akhir saya di CentOS (Linux), saya telah mendownload paket Flink yang kompatibel dengan Hadoop 2.x. Jalankan perintah di bawah ini untuk mengunduh paket Flink.

Perintah: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Untar file tersebut untuk mendapatkan direktori flink.

Perintah: tar -xvf Unduhan / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Perintah: ls

Tambahkan variabel lingkungan Flink di file .bashrc.

Perintah: sudo gedit .bashrc

Anda perlu menjalankan perintah di bawah ini agar perubahan pada file .bashrc diaktifkan

Perintah: sumber .bashrc

Sekarang masuk ke direktori flink dan mulai cluster secara lokal.

Perintah: cd hefty-1.0.0

Perintah: bin / start-local.sh

Setelah Anda memulai cluster, Anda akan dapat melihat daemon baru JobManager sedang berjalan.

Perintah: jps

Buka browser dan buka http: // localhost: 8081 untuk melihat UI web Apache Flink.

ruby di pasar kerja rel

Mari kita jalankan contoh wordcount sederhana menggunakan Apache Flink.

Sebelum menjalankan contoh instal netcat di sistem Anda (sudo yum install nc).

Sekarang di terminal baru jalankan perintah di bawah ini.

Perintah: nc -lk 9000

Jalankan perintah yang diberikan di bawah ini di terminal flink. Perintah ini menjalankan program yang mengambil data yang dialirkan sebagai input dan melakukan operasi penghitungan kata pada data yang dialirkan tersebut.

Perintah: contoh bin / flink run / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Di antarmuka web, Anda akan dapat melihat pekerjaan dalam status berjalan.

Jalankan perintah di bawah ini di terminal baru, ini akan mencetak data yang dialirkan dan diproses.

Perintah: tail -f log / flink - * - jobmanager - *. out

Sekarang pergi ke terminal tempat Anda memulai netcat dan ketik sesuatu.

Saat Anda menekan tombol enter pada kata kunci Anda setelah Anda mengetik beberapa data di terminal netcat, operasi wordcount akan diterapkan pada data itu dan hasilnya akan dicetak di sini (log pengelola pekerjaan flink) dalam milidetik!

Dalam rentang waktu yang sangat singkat, data akan dialirkan, diproses, dan dicetak.

Masih banyak lagi yang bisa dipelajari tentang Apache Flink. Kami akan menyentuh topik Flink lainnya di blog kami yang akan datang.

Ada pertanyaan untuk kami? Sebutkan mereka di bagian komentar dan kami akan menghubungi Anda kembali.

Posting terkait:

Apache Falcon: Platform Manajemen Data Baru untuk Ekosistem Hadoop