Apache Spark dengan Hadoop - Mengapa Penting?



Penerapan Apache Spark dengan Hadoop dalam skala besar oleh perusahaan-perusahaan terkemuka menunjukkan keberhasilan dan potensinya dalam hal pemrosesan waktu nyata.

Hadoop, kerangka pemrosesan data yang menjadi platform tersendiri, menjadi lebih baik ketika komponen yang baik dihubungkan dengannya. Beberapa kekurangan Hadoop, seperti komponen MapReduce dari Hadoop memiliki reputasi lambat dalam analisis data real-time.





Masukkan Apache Spark, mesin pemroses data berbasis Hadoop yang dirancang untuk beban kerja batch dan streaming, sekarang dalam versi 1.0 dan dilengkapi dengan fitur yang menunjukkan jenis pekerjaan yang didorong untuk disertakan oleh Hadoop. Spark berjalan di atas cluster Hadoop yang ada untuk memberikan fungsionalitas tambahan dan disempurnakan.

Mari kita lihat fitur utama spark dan cara kerjanya bersama Hadoop dan .



Manfaat Apache Spark Key:

img2-R

Fitur Luar Biasa Spark:

  • Integrasi Hadoop - Spark dapat bekerja dengan file yang disimpan di HDFS.
  • Shell Interaktif Spark - Spark ditulis dalam Scala, dan memiliki versi penerjemah Scala sendiri.
  • Suite Analitik Spark - Spark hadir dengan alat untuk analisis kueri interaktif, pemrosesan dan analisis grafik skala besar, serta analisis waktu nyata.
  • Set Data Terdistribusi Tangguh (RDD) - RDD adalah objek terdistribusi yang dapat disimpan dalam cache dalam memori, di seluruh cluster node komputasi. Mereka adalah objek data utama yang digunakan di Spark.
  • Operator Terdistribusi - Selain MapReduce, ada banyak operator lain yang dapat digunakan di RDD.

Keuntungan Menggunakan Apache Spark dengan Hadoop:

java just in time compiler
  • Apache Spark cocok dengan komunitas sumber terbuka Hadoop, membangun di atas Hadoop Distributed File System (HDFS). Namun, Spark tidak terikat dengan paradigma MapReduce dua tahap, dan menjanjikan kinerja hingga 100 kali lebih cepat daripada Hadoop MapReduce untuk aplikasi tertentu.



  • Sangat cocok untuk algoritme pembelajaran mesin - Spark menyediakan primitif untuk komputasi cluster dalam memori yang memungkinkan program pengguna memuat data ke dalam memori cluster dan menanyakannya berulang kali.

  • Jalankan 100 kali lebih cepat - Spark, perangkat lunak analisis juga dapat mempercepat pekerjaan yang berjalan di platform pemrosesan data Hadoop. Dijuluki 'Pisau Hadoop Swiss Army', Apache Spark memberikan kemampuan untuk membuat pekerjaan analisis data yang dapat berjalan 100 kali lebih cepat daripada yang berjalan pada Apache Hadoop MapReduce standar. MapReduce telah banyak dikritik sebagai penghambat dalam cluster Hadoop karena menjalankan pekerjaan dalam mode batch, yang berarti analisis data secara real-time tidak dimungkinkan.

    bagaimana mendeklarasikan array objek di java
  • Alternatif untuk MapReduce - Spark memberikan alternatif untuk MapReduce. Ini mengeksekusi pekerjaan dalam ledakan singkat mikro-batch yang berjarak lima detik atau kurang. Ini juga menyediakan lebih banyak stabilitas daripada kerangka kerja Hadoop real-time berorientasi aliran seperti Twitter Storm. Perangkat lunak ini dapat digunakan untuk berbagai pekerjaan, seperti analisis data langsung yang berkelanjutan dan berkat perpustakaan perangkat lunak, pekerjaan yang lebih mendalam secara komputasi yang melibatkan pembelajaran mesin dan pemrosesan grafik.

  • Dukungan untuk Berbagai Bahasa - Menggunakan Spark, pengembang dapat menulis pekerjaan analisis data di Java, Scala, atau Python, menggunakan lebih dari 80 operator tingkat tinggi.

  • Dukungan Perpustakaan - Pustaka Spark dirancang untuk melengkapi jenis pekerjaan pemrosesan yang sedang dieksplorasi lebih agresif dengan penerapan Hadoop terbaru yang didukung secara komersial. MLlib mengimplementasikan banyak algoritma pembelajaran mesin umum, seperti klasifikasi Bayesian naif atau pengelompokan Spark Streaming memungkinkan pemrosesan data berkecepatan tinggi yang diserap dari berbagai sumber dan GraphX ​​memungkinkan untuk komputasi pada data grafik.

  • API Stabil - Dengan versi 1.0, Apache Spark menawarkan API yang stabil (antarmuka pemrograman aplikasi), yang dapat digunakan pengembang untuk berinteraksi dengan Spark melalui aplikasi mereka sendiri. Ini membantu dalam menggunakan Storm lebih mudah dalam penerapan berbasis Hadoop.

  • Komponen SPARK SQL - Komponen Spark SQL untuk mengakses data terstruktur, memungkinkan data untuk diinterogasi bersama dengan data tidak terstruktur dalam pekerjaan analisis. Spark SQL, yang saat ini hanya dalam alfa, memungkinkan kueri seperti SQL dijalankan terhadap data yang disimpan di Apache Hive. Mengekstrak data dari Hadoop melalui kueri SQL adalah varian lain dari fungsi kueri waktu nyata yang bermunculan di sekitar Hadoop.

  • Kompatibilitas Apache Spark dengan Hadoop [HDFS, HBASE, dan YARN] - Apache Spark sepenuhnya kompatibel dengan Sistem File Terdistribusi (HDFS) Hadoop, serta dengan komponen Hadoop lainnya seperti YARN (Yet Another Resource Negotiator) dan database terdistribusi HBase.

Pengadopsi Industri:

Perusahaan IT seperti Cloudera, Pivotal, IBM, Intel dan MapR semuanya telah memasukkan Spark ke dalam tumpukan Hadoop mereka. Databricks, sebuah perusahaan yang didirikan oleh beberapa pengembang Spark, menawarkan dukungan komersial untuk perangkat lunak tersebut. Baik Yahoo dan NASA, antara lain, menggunakan perangkat lunak untuk operasi data harian.

Kesimpulan:

Apa yang ditawarkan Spark pasti akan menjadi daya tarik besar bagi pengguna dan vendor komersial Hadoop. Pengguna yang ingin menerapkan Hadoop dan yang telah membangun banyak sistem analitik mereka di sekitar Hadoop tertarik pada gagasan untuk dapat menggunakan Hadoop sebagai sistem pemrosesan waktu nyata.

Spark 1.0 memberi mereka berbagai fungsi lain untuk mendukung atau membangun item berpemilik. Faktanya, salah satu dari tiga vendor Hadoop besar, Cloudera, telah memberikan dukungan komersial untuk Spark melalui penawaran Cloudera Enterprise-nya. Hortonworks juga telah menawarkan Spark sebagai komponen distribusi Hadoop-nya. Penerapan Spark dalam skala besar oleh perusahaan-perusahaan papan atas menunjukkan keberhasilan dan potensinya dalam hal pemrosesan waktu nyata.

implementasi hashmap dalam contoh java

Ada pertanyaan untuk kami? Sebutkan mereka di bagian komentar dan kami akan menghubungi Anda kembali.

Posting terkait: