Tinjauan Federasi Arsitektur Kluster Hadoop 2.0



Apache Hadoop 2.x terdiri dari peningkatan signifikan atas Hadoop 1.x. Blog ini membahas tentang Federasi Arsitektur Cluster Hadoop 2.0 dan komponennya.

Federasi Arsitektur Cluster Hadoop 2.0

Pengantar:

Di blog ini, saya akan mendalami Hadoop 2.0 Cluster Architecture Federation. Apache Hadoop telah berkembang pesat sejak rilis Apache Hadoop 1.x. Seperti yang anda ketahui dari blog saya sebelumnya bahwa mengikuti Topologi Master / Slave di mana NameNode bertindak sebagai daemon master dan bertanggung jawab untuk mengelola node slave lain yang disebut DataNodes. Dalam ekosistem ini, Master Daemon atau NameNode tunggal ini menjadi penghambat dan sebaliknya, perusahaan harus memiliki NameNode yang sangat tersedia. Alasan inilah yang menjadi dasar Arsitektur Federasi HDFS dan Arsitektur HA (Ketersediaan Tinggi) .

Topik-topik yang telah saya bahas di blog ini adalah sebagai berikut:





  • Arsitektur HDFS saat ini
  • Batasan Arsitektur HDFS saat ini
  • Arsitektur Federasi HDFS

Tinjauan Arsitektur HDFS Saat Ini:

Arsitektur Single Namespace HDFS - Tinjauan Umum Hadoop 2.0 Cluster Architecture Federation - Edureka

Seperti yang Anda lihat pada gambar di atas, HDFS saat ini memiliki dua lapisan:



  • HDFS Namespace (NS): Lapisan ini bertanggung jawab untuk mengelola direktori, file, dan blok. Ini menyediakan semua operasi Sistem File yang terkait dengan Namespace seperti membuat, menghapus atau memodifikasi file atau direktori file.
  • Lapisan Penyimpanan: Ini terdiri dari dua komponen dasar.
    1. Manajemen Blok : Ini melakukan operasi berikut:
      • Memeriksa detak jantung DataNodes secara berkala dan mengelola keanggotaan DataNode ke cluster.
      • Mengelola laporan blok dan mempertahankan lokasi blok.
      • Mendukung operasi blok seperti pembuatan, modifikasi, penghapusan dan alokasi lokasi blok.
      • Mempertahankan faktor replikasi yang konsisten di seluruh cluster.

2. Penyimpanan Fisik : Dikelola oleh DataNodes yang bertanggung jawab untuk menyimpan data dan dengan demikian menyediakan akses Baca / Tulis ke data yang disimpan dalam HDFS.

Jadi, Arsitektur HDFS saat ini memungkinkan Anda memiliki satu namespace untuk sebuah cluster. Dalam arsitektur ini, satu NameNode bertanggung jawab untuk mengelola namespace. Arsitektur ini sangat nyaman dan mudah diimplementasikan. Selain itu, ia memberikan kemampuan yang cukup untuk memenuhi kebutuhan klaster produksi kecil.

perbedaan antara extends dan implement

Batasan HDFS Saat Ini:

Seperti dibahas sebelumnya, HDFS saat ini memang cukup untuk kebutuhan dan kasus penggunaan cluster produksi kecil. Tetapi, organisasi besar seperti Yahoo, Facebook menemukan beberapa batasan karena cluster HDFS tumbuh secara eksponensial. Mari kita lihat sekilas beberapa batasan:



  1. Namanya adalah tidak terukur seperti DataNodes. Oleh karena itu, kita hanya dapat memiliki sejumlah DataNodes di cluster yang dapat ditangani oleh satu NameNode.
  2. Dua lapisan tersebut, yaitu lapisan ruang nama dan lapisan penyimpanan berpasangan erat yang membuat implementasi alternatif NameNode menjadi sangat sulit.
  3. Kinerja seluruh Sistem Hadoop bergantung pada hasil dari NameNode. Oleh karena itu, seluruh kinerja semua operasi HDFS bergantung pada berapa banyak tugas yang dapat ditangani NameNode pada waktu tertentu.
  4. NameNode menyimpan seluruh namespace dalam RAM untuk akses cepat. Ini mengarah pada batasan dalam hal ukuran memori yaitu jumlah objek namespace (file dan blok) yang dapat ditangani oleh satu server namespace.
  5. Banyak organisasi (vendor) yang memiliki penerapan HDFS, memungkinkan banyak organisasi (penyewa) untuk menggunakan namespace cluster mereka. Jadi, tidak ada pemisahan namespace dan oleh karena itu, ada tidak ada isolasi di antara organisasi penyewa yang menggunakan cluster.

Arsitektur Federasi HDFS:

  • Dalam Arsitektur Federasi HDFS, kami memiliki skalabilitas horizontal layanan nama. Oleh karena itu, kami memiliki beberapa NameNodes yang merupakan federasi, yaitu Independen satu sama lain.
  • DataNodes ada di bagian bawah, yaitu lapisan penyimpanan yang mendasari.
  • Setiap DataNode mendaftar dengan semua NameNodes di cluster.
  • DataNodes mengirimkan detak jantung berkala, memblokir laporan dan menangani perintah dari NameNodes.

Representasi bergambar Arsitektur Federasi HDFS diberikan di bawah ini:

Sebelum melanjutkan, izinkan saya berbicara secara singkat tentang gambar arsitektur di atas:

  • Ada beberapa namespace (NS1, NS2,…, NSn) dan masing-masing dikelola oleh NameNode masing-masing.
  • Setiap namespace memiliki kumpulan bloknya sendiri (NS1 memiliki Pool 1, NSk memiliki Pool k, dan seterusnya).
  • Seperti yang ditunjukkan pada gambar, blok dari pool 1 (biru langit) disimpan di DataNode 1, DataNode 2 dan seterusnya. Demikian pula, semua blok dari setiap kumpulan blok akan berada di semua DataNodes.

Sekarang, mari kita pahami komponen Arsitektur Federasi HDFS secara mendetail:

Block Pool:

Kumpulan blok tidak lain adalah kumpulan blok milik Namespace tertentu. Jadi, kami memiliki kumpulan kumpulan blok di mana setiap kumpulan blok dikelola secara independen dari yang lain. Independensi di mana setiap kumpulan blok dikelola secara independen memungkinkan namespace untuk membuat ID Blok untuk blok baru tanpa koordinasi dengan namespace lain. Blok data yang ada di semua kumpulan blok disimpan di semua DataNodes. Pada dasarnya, kumpulan blok menyediakan abstraksi sehingga blok data yang berada di DataNodes (seperti dalam Arsitektur Ruang Nama Tunggal) dapat dikelompokkan sesuai dengan ruang nama tertentu.

Volume Ruangnama:

Volume namespace tidak lain adalah namespace bersama dengan kumpulan bloknya. Oleh karena itu, di Federasi HDFS kami memiliki beberapa volume namespace. Ini adalah unit manajemen mandiri, yaitu Setiap volume namespace dapat berfungsi secara independen. Jika NameNode atau namespace dihapus, kumpulan blok terkait yang berada di DataNodes juga akan dihapus.

Demo Tentang Federasi Arsitektur Cluster Hadoop 2.0 | Edureka

Sekarang, saya rasa Anda memiliki ide yang cukup bagus tentang Arsitektur Federasi HDFS. Ini lebih merupakan konsep teoritis dan orang tidak menggunakannya dalam sistem produksi praktis secara umum. Ada beberapa masalah implementasi dengan Federasi HDFS yang membuatnya sulit untuk diterapkan. Oleh karena itu, Arsitektur HA (Ketersediaan Tinggi) lebih disukai untuk memecahkan masalah Titik Kegagalan Tunggal. Saya telah menutupi Arsitektur HDFS HA di blog saya berikutnya.

php mysql_fetch_

Sekarang setelah Anda memahami Arsitektur Federasi Hadoop HDFS, lihat oleh Edureka, perusahaan pembelajaran online tepercaya dengan jaringan lebih dari 250.000 pelajar yang puas dan tersebar di seluruh dunia. Kursus Pelatihan Sertifikasi Edureka Big Data Hadoop membantu peserta didik menjadi ahli dalam domain HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume, dan Sqoop menggunakan kasus penggunaan waktu nyata pada Ritel, Media Sosial, Penerbangan, Pariwisata, domain Keuangan.

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dan kami akan menghubungi Anda kembali.