Alat Hadoop Penting untuk Menghancurkan Big Data



Hadoop adalah kata populer di dunia TI saat ini, dan posting ini menjelaskan alat penting Hadoop yang mengolah Big Data.

Saat ini, istilah paling populer di dunia IT adalah 'Hadoop'. Dalam kurun waktu singkat, Hadoop telah berkembang pesat dan terbukti berguna untuk banyak koleksi proyek yang beragam. Komunitas Hadoop berkembang pesat dan memiliki peran penting dalam ekosistemnya.





Berikut ini tampilan alat-alat penting Hadoop yang digunakan untuk menangani Big Data.

apa abstraksi di java dengan contoh

ambari



Ambari adalah proyek Apache yang didukung oleh Hortonworks. Ia menawarkan GUI berbasis web (Graphical User Interface) dengan skrip wizard untuk menyiapkan cluster dengan sebagian besar komponen standar. Ambari menyediakan, mengelola dan memantau semua cluster pekerjaan Hadoop.

hdfs-logo

Itu HDFS , didistribusikan di bawah lisensi Apache menawarkan kerangka kerja dasar untuk membagi koleksi data antara beberapa node. Dalam HDFS, file besar dipecah menjadi blok, di mana beberapa node menampung semua blok dari sebuah file. Sistem file dirancang sedemikian rupa untuk memadukan toleransi kesalahan dengan throughput yang tinggi. Blok HDFS dimuat untuk menjaga streaming tetap stabil. Mereka biasanya tidak di-cache untuk meminimalkan latensi.



hbaselogo

HBase adalah sistem manajemen basis data berorientasi kolom yang berjalan di atas HDFS. Aplikasi HBase ditulis di Java, sangat mirip dengan aplikasi MapReduce. Ini terdiri dari satu set tabel, di mana setiap tabel berisi baris dan kolom seperti database tradisional. Ketika data masuk ke dalam tabel besar, HBase akan menyimpan data, mencarinya dan secara otomatis membagikan tabel ke beberapa node sehingga pekerjaan MapReduce dapat menjalankannya secara lokal. HBase menawarkan jaminan terbatas untuk beberapa perubahan lokal. Perubahan yang terjadi dalam satu baris dapat berhasil atau gagal pada saat yang bersamaan.

hive

Jika Anda sudah fasih dengan SQL, maka Anda dapat memanfaatkan Hadoop menggunakan Sarang lebah . Sarang dikembangkan oleh beberapa orang di Facebook. Apache Hive mengatur proses mengekstrak bit dari semua file di HBase. Ini mendukung analisis kumpulan data besar yang disimpan di HDFS Hadoop dan sistem file yang kompatibel. Ini juga menyediakan bahasa seperti SQL yang disebut HSQL (HiveSQL) yang masuk ke file dan mengekstrak cuplikan yang diperlukan untuk kode.

sqoop

Apache Sqoop dirancang khusus untuk mentransfer data massal secara efisien dari database tradisional ke Hive atau HBase. Ini juga dapat digunakan untuk mengekstrak data dari Hadoop dan mengekspornya ke penyimpanan data terstruktur eksternal seperti database relasional dan gudang data perusahaan. Sqoop adalah alat baris perintah, memetakan antara tabel dan lapisan penyimpanan data, menerjemahkan tabel ke dalam kombinasi yang dapat dikonfigurasi dari HDFS, HBase atau Hive.

Pig1

Saat data yang disimpan dapat dilihat oleh Hadoop, Apache Pig menyelami data dan menjalankan kode yang ditulis dalam bahasanya sendiri, yang disebut Pig Latin. Pig Latin diisi dengan abstraksi untuk menangani data. Pig hadir dengan fungsi standar untuk tugas umum seperti rata-rata data, bekerja dengan tanggal, atau untuk menemukan perbedaan antar string. Pig juga memungkinkan pengguna untuk menulis bahasa mereka sendiri, yang disebut UDF (User Defined Function), ketika fungsi standar gagal.

zookeper

Penjaga kebun binatang adalah layanan terpusat yang memelihara, mengonfigurasi informasi, memberi nama, dan menyediakan sinkronisasi terdistribusi di seluruh kluster. Ini memberlakukan hierarki seperti sistem file pada cluster dan menyimpan semua metadata untuk mesin, sehingga kami dapat menyinkronkan pekerjaan berbagai mesin.

NoSQL

Beberapa cluster Hadoop terintegrasi dengan NoSQL penyimpanan data yang datang dengan mekanismenya sendiri untuk menyimpan data di sekumpulan node. Ini memungkinkan mereka untuk menyimpan dan mengambil data dengan semua fitur database NoSQL, setelah itu Hadoop dapat digunakan untuk menjadwalkan pekerjaan analisis data di cluster yang sama.

mahoutlogo

Sais gajah dirancang untuk mengimplementasikan sejumlah besar algoritme, klasifikasi, dan pemfilteran analisis data ke cluster Hadoop. Banyak dari algoritme standar seperti K-means, Dirichelet, pola paralel, dan klasifikasi Bayesian siap dijalankan pada data dengan Peta gaya Hadoop dan reduksi.

Lucene, ditulis dalam bahasa Jawa dan mudah diintegrasikan dengan Hadoop, merupakan pendamping alami untuk Hadoop. Ini adalah alat yang dimaksudkan untuk mengindeks blok besar teks tidak terstruktur. Lucene menangani pengindeksan, sementara Hadoop menangani kueri terdistribusi di seluruh cluster. Fitur Lucene-Hadoop berkembang pesat seiring dengan pengembangan proyek baru.

Avro

Euro adalah sistem serialisasi yang menggabungkan data bersama dengan skema untuk memahaminya. Setiap paket dilengkapi dengan struktur data JSON. JSON menjelaskan bagaimana data dapat diurai. Header JSON menentukan struktur untuk data, di mana kebutuhan untuk menulis tag tambahan dalam data untuk menandai bidang dapat dihindari. Outputnya jauh lebih ringkas daripada format tradisional seperti XML.

Sebuah pekerjaan dapat disederhanakan dengan memecahnya menjadi beberapa langkah. Saat memecah proyek menjadi beberapa pekerjaan Hadoop, Oozie mulai memprosesnya dalam urutan yang benar. Ini mengelola alur kerja seperti yang ditentukan oleh DAG (Directed Acyclic Graph) dan tidak perlu monitor tepat waktu.

Alat GIS

Bekerja dengan peta geografis adalah pekerjaan besar untuk cluster yang menjalankan Hadoop. GIS ( Sistem Informasi Geografis ) untuk proyek Hadoop telah mengadaptasi alat berbasis Java terbaik untuk memahami informasi geografis untuk dijalankan dengan Hadoop. Basis data sekarang dapat menangani kueri geografis menggunakan koordinat dan kode dapat menggunakan alat GIS.

Mengumpulkan semua data sama dengan menyimpan dan menganalisisnya. Apache Flume mengirim 'agen khusus' untuk mengumpulkan informasi yang akan disimpan di HDFS. Informasi yang dikumpulkan dapat berupa file log, API Twitter, atau sisa situs web. Data-data ini dapat dirangkai dan dianalisis.

Spark

Percikan adalah generasi berikutnya yang bekerja seperti Hadoop yang memproses data yang disimpan dalam cache di memori. Tujuannya adalah membuat analisis data cepat dijalankan dan ditulis dengan model eksekusi umum. Ini dapat mengoptimalkan grafik operator arbitrer dan mendukung komputasi dalam memori, yang memungkinkannya melakukan kueri data lebih cepat daripada mesin berbasis disk seperti Hadoop.

SQL di Hadoop

Jika diperlukan untuk menjalankan kueri ad-hoc cepat dari semua data dalam cluster, tugas Hadoop baru dapat ditulis, tetapi ini membutuhkan waktu. Ketika programmer mulai melakukan ini lebih sering, mereka menemukan alat yang ditulis dalam bahasa SQL sederhana. Alat ini menawarkan akses cepat ke hasil.

Apache Drill

Apache Drill menyediakan kueri ad-hoc latensi rendah ke berbagai sumber data, termasuk data bertingkat. Drill, terinspirasi oleh Dremel Google, dirancang untuk menskalakan hingga 10.000 server dan membuat kueri petabyte data dalam hitungan detik.

Ini adalah alat penting Hadoop untuk mengolah Big Data!

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dan kami akan menghubungi Anda kembali.

Posting terkait:

Alasan Praktis untuk Mempelajari Hadoop 2.0