Tutorial Hadoop YARN - Pelajari Dasar-dasar Arsitektur YARN



Blog ini berfokus pada Apache Hadoop YARN yang diperkenalkan di Hadoop versi 2.0 untuk manajemen sumber daya dan Penjadwalan Pekerjaan. Ini menjelaskan arsitektur YARN dengan komponennya dan tugas yang dilakukan oleh masing-masing. Ini menjelaskan pengiriman aplikasi dan alur kerja di Apache Hadoop YARN.

Hadoop YARN merajut unit penyimpanan Hadoop yaitu HDFS (Hadoop Distributed File System) dengan berbagai alat pemrosesan. Bagi Anda yang benar-benar baru dengan topik ini, YARN adalah singkatan dari “ Y dan UNTUK nother R esource N egotiator ”. Saya juga menyarankan agar Anda membaca dan sebelum Anda melanjutkan mempelajari Apache Hadoop YARN. Saya akan menjelaskan topik berikut di sini untuk memastikan bahwa di akhir blog ini pemahaman Anda tentang Hadoop YARN jelas.

Mengapa YARN?

Dalam Hadoop versi 1.0 yang juga disebut sebagai MRV1 (MapReduce Versi 1), MapReduce melakukan fungsi pemrosesan dan pengelolaan sumber daya. Ini terdiri dari Pelacak Pekerjaan yang merupakan master tunggal. Pelacak Pekerjaan mengalokasikan sumber daya, melakukan penjadwalan dan memantau pekerjaan pemrosesan. Ini menetapkan peta dan mengurangi tugas pada sejumlah proses bawahan yang disebut Pelacak Tugas. Pelacak Tugas secara berkala melaporkan kemajuan mereka ke Pelacak Pekerjaan.





MapReduce Versi 1.0 - Hadoop YARN - Edureka

Desain ini menghasilkan hambatan skalabilitas karena satu Job Tracker.IBM menyebutkan dalam artikelnya bahwa menurut Yahoo !, batas praktis dari desain seperti itu tercapai dengan klaster 5000 node dan 40.000 tugas yang berjalan secara bersamaan.Terlepas dari batasan ini, pemanfaatan sumber daya komputasi tidak efisien di MRV1. Juga, kerangka kerja Hadoop menjadi terbatas hanya pada paradigma pemrosesan MapReduce.



Untuk mengatasi semua masalah ini, YARN diperkenalkan di Hadoop versi 2.0 pada tahun 2012 oleh Yahoo dan Hortonworks. Ide dasar di balik YARN adalah untuk meringankan MapReduce dengan mengambil alih tanggung jawab Manajemen Sumber Daya dan Penjadwalan Pekerjaan. YARN mulai memberi Hadoop kemampuan untuk menjalankan pekerjaan non-MapReduce dalam kerangka kerja Hadoop.

Anda juga dapat menonton video di bawah ini di mana kami pakar sedang mendiskusikan konsep YARN & arsitekturnya secara mendetail.

menggabungkan contoh sort c ++

Tutorial Benang Hadoop | Arsitektur Benang Hadoop | Edureka

Dengan diperkenalkannya YARN, file benar-benar direvolusi. Ini menjadi jauh lebih fleksibel, efisien, dan dapat diskalakan. Ketika Yahoo mulai menggunakan YARN pada kuartal pertama tahun 2013, hal itu membantu perusahaan untuk memperkecil ukuran klaster Hadoop dari 40.000 node menjadi 32.000 node. Tetapi jumlah pekerjaan berlipat ganda menjadi 26 juta per bulan.



Pengantar Hadoop YARN

Sekarang saya telah mencerahkan Anda dengan kebutuhan akan YARN, izinkan saya memperkenalkan Anda ke komponen inti Hadoop v2.0, BENANG . YARN memungkinkan berbagai metode pemrosesan data seperti pemrosesan grafik, pemrosesan interaktif, pemrosesan aliran, serta pemrosesan batch untuk menjalankan dan memproses data yang disimpan dalam HDFS. Oleh karena itu YARN membuka Hadoop untuk jenis aplikasi terdistribusi lain di luar MapReduce.

YARN memungkinkan pengguna untuk melakukan operasi sesuai kebutuhan dengan menggunakan berbagai alat seperti untuk pemrosesan waktu nyata, Sarang lebah untuk SQL, HBase untuk NoSQL dan lainnya.

Selain Manajemen Sumber Daya, YARN juga melakukan Penjadwalan Pekerjaan. YARN melakukan semua aktivitas pemrosesan Anda dengan mengalokasikan sumber daya dan menjadwalkan tugas. Arsitektur Apache Hadoop YARN terdiri dari komponen utama berikut:

  1. Manajer Sumber Daya : Berjalan di daemon master dan mengelola alokasi sumber daya di cluster.
  2. Manajer Node: Mereka berjalan di daemon slave dan bertanggung jawab atas eksekusi tugas di setiap Node Data.
  3. Master Aplikasi: Mengelola siklus hidup pekerjaan pengguna dan kebutuhan sumber daya aplikasi individual. Ia bekerja bersama dengan Node Manager dan memonitor pelaksanaan tugas.
  4. Wadah: Paket sumber daya termasuk RAM, CPU, Jaringan, HDD dll pada satu node.

Komponen BENANG

Anda dapat menganggap YARN sebagai otak Ekosistem Hadoop Anda. Gambar di bawah ini mewakili Arsitektur YARN.

Itu komponen pertama Arsitektur YARN adalah,

Manajer Sumber Daya

  • Ini adalah otoritas tertinggi dalam alokasi sumber daya .
  • Saat menerima permintaan pemrosesan, ia meneruskan bagian permintaan ke manajer node yang sesuai, di mana pemrosesan sebenarnya berlangsung.
  • Ini adalah arbitrator sumber daya cluster dan memutuskan alokasi sumber daya yang tersedia untuk aplikasi yang bersaing.
  • Mengoptimalkan pemanfaatan cluster seperti menjaga semua sumber daya yang digunakan sepanjang waktu terhadap berbagai kendala seperti jaminan kapasitas, keadilan, dan SLA.
  • Ini memiliki dua komponen utama:a) Penjadwalb)Manajer Aplikasi

a) Penjadwal

  • Penjadwal bertanggung jawab untuk mengalokasikan sumber daya ke berbagai aplikasi yang sedang berjalan dengan batasan kapasitas, antrian, dll.
  • Ini disebut penjadwal murni di ResourceManager, yang berarti ia tidak melakukan pemantauan atau pelacakan status untuk aplikasi.
  • Jika ada kegagalan aplikasi atau kegagalan perangkat keras, Penjadwal tidak menjamin untuk memulai ulang tugas yang gagal.
  • Melakukan penjadwalan berdasarkan kebutuhan sumber daya aplikasi.
  • Ia memiliki plug-in kebijakan yang dapat dicolokkan, yang bertanggung jawab untuk mempartisi sumber daya cluster di antara berbagai aplikasi. Ada dua plugin seperti itu: Penjadwal Kapasitas dan Penjadwal yang Adil , yang saat ini digunakan sebagai Penjadwal di ResourceManager.

b) Manajer Aplikasi

  • Ini bertanggung jawab untuk menerima pengajuan pekerjaan.
  • Menegosiasikan penampung pertama dari Manajer Sumber Daya untuk menjalankan Master Aplikasi khusus aplikasi.
  • Mengelola menjalankan Master Aplikasi dalam sebuah cluster dan menyediakan layanan untuk memulai ulang kontainer Master Aplikasi jika gagal.

Datang ke komponen kedua yang mana:

Manajer Node

  • Ini menangani node individu dalam cluster Hadoop danmengelola pekerjaan pengguna dan alur kerja pada node yang diberikan.
  • Ini mendaftar dengan Resource Manager dan mengirimkan detak jantung dengan status kesehatan node.
  • Tujuan utamanya adalah untuk mengelola wadah aplikasi yang ditugaskan oleh pengelola sumber daya.
  • Itu selalu up-to-date dengan Resource Manager.
  • Application Master meminta container yang ditetapkan dari Node Manager dengan mengirimkan Container Launch Context (CLC) yang mencakup semua yang dibutuhkan aplikasi untuk berjalan. Manajer Node membuat proses penampung yang diminta dan memulainya.
  • Memantau penggunaan sumber daya (memori, CPU) dari wadah individu.
  • Melakukan manajemen Log.
  • Ini juga membunuh wadah seperti yang diarahkan oleh Manajer Sumber Daya.

Itu komponen ketiga Apache Hadoop YARN adalah,

Master Aplikasi
  • Lamaran adalah pekerjaan tunggal yang dikirimkan ke kerangka kerja. Setiap aplikasi tersebut memiliki Master Aplikasi unik yang terkait dengannya yang merupakan entitas kerangka kerja tertentu.
  • Ini adalah proses yang mengoordinasikan eksekusi aplikasi di cluster dan juga mengelola kesalahan.
  • Tugasnya adalah menegosiasikan sumber daya dari Resource Manager dan bekerja dengan Node Manager untuk menjalankan dan memantau tugas komponen.
  • Ini bertanggung jawab untuk menegosiasikan penampung sumber daya yang sesuai dari ResourceManager, melacak statusnya dan memantau kemajuannya.
  • Setelah dimulai, secara berkala mengirimkan detak jantung ke Manajer Sumber Daya untuk memastikan kesehatannya dan untuk memperbarui catatan permintaan sumber dayanya.

Itu komponen keempat aku s:

Wadah
  • Ini adalah kumpulan sumber daya fisik seperti RAM, inti CPU, dan disk pada satu node.
  • Kontainer YARN dikelola oleh konteks peluncuran kontainer yang merupakan siklus hidup kontainer (CLC). Catatan ini berisi peta variabel lingkungan, dependensi yang disimpan dalam penyimpanan yang dapat diakses dari jarak jauh, token keamanan, muatan untuk layanan Node Manager, dan perintah yang diperlukan untuk membuat proses.
  • Ini memberikan hak kepada aplikasi untuk menggunakan sejumlah sumber daya tertentu (memori, CPU, dll.) Pada host tertentu.

Pengajuan Aplikasi di YARN

Lihat gambar dan lihat langkah-langkah yang terlibat dalam pengajuan aplikasi Hadoop YARN:

1) Kirimkan pekerjaan

2)Dapatkan ID Aplikasi

3) Konteks Pengajuan Aplikasi

4 a) Mulai KontainerMeluncurkan

b) Luncurkan Master Aplikasi

5) Alokasikan Sumber Daya

6 a) Wadah

b) Luncurkan

kasus saklar dalam program contoh java

7) Jalankan

Alur Kerja Aplikasi di Hadoop YARN

Lihat gambar yang diberikan dan lihat langkah-langkah berikut yang terlibat dalam alur kerja Aplikasi Apache Hadoop YARN:

  1. Klien mengajukan aplikasi
  2. Resource Manager mengalokasikan sebuah wadah untuk memulai Manajer Aplikasi
  3. Manajer Aplikasi mendaftar dengan Manajer Sumber Daya
  4. Manajer Aplikasi meminta kontainer dari Manajer Sumber Daya
  5. Manajer Aplikasi memberi tahu Node Manager untuk meluncurkan kontainer
  6. Kode aplikasi dijalankan di penampung
  7. Klien menghubungi Manajer Sumber Daya / Manajer Aplikasi untuk memantau status aplikasi
  8. Manajer Aplikasi membatalkan pendaftaran dengan Manajer Sumber Daya

Sekarang setelah Anda mengetahui Apache Hadoop YARN, lihat oleh Edureka, perusahaan pembelajaran online tepercaya dengan jaringan lebih dari 250.000 pelajar yang puas dan tersebar di seluruh dunia. Kursus Pelatihan Sertifikasi Edureka Big Data Hadoop membantu peserta didik menjadi ahli dalam domain HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume, dan Sqoop menggunakan kasus penggunaan waktu nyata pada Ritel, Media Sosial, Penerbangan, Pariwisata, domain Keuangan.

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dan kami akan menghubungi Anda kembali.