Tutorial HDFS: Pengantar HDFS & Fitur-fiturnya



Blog Tutorial HDFS ini akan membantu Anda memahami Sistem File Terdistribusi HDFS atau Hadoop & fitur-fiturnya. Anda juga akan mempelajari komponen intinya secara singkat.

Tutorial HDFS

Sebelum melanjutkan ke blog tutorial HDFS ini, izinkan saya membawa Anda melalui beberapa statistik gila yang terkait dengan HDFS:

  • Pada tahun 2010, Facebook diklaim memiliki salah satu penyimpanan cluster HDFS terbesar 21 Petabyte data.
  • Tahun 2012, Facebook menyatakan bahwa mereka memiliki cluster HDFS tunggal terbesar dengan lebih dari 100 PB data .
  • Dan Yahoo ! memiliki lebih dari 100.000 CPU di atas 40.000 server menjalankan Hadoop, dengan cluster Hadoop terbesarnya sedang berjalan 4.500 node . Semuanya, Yahoo! toko 455 petabyte data di HDFS.
  • Faktanya, pada 2013, sebagian besar nama besar di Fortune 50 mulai menggunakan Hadoop.

Terlalu sulit dicerna? Baik. Seperti yang dibahas di , Hadoop memiliki dua unit dasar - S marah dan Pengolahan . Saat saya mengatakan bagian penyimpanan Hadoop, yang saya maksud adalah HDFS yang berarti Sistem File Terdistribusi Hadoop . Jadi, di blog ini, saya akan memperkenalkan Anda kepada HDFS .





Di sini, saya akan berbicara tentang:

  • Apakah HDFS itu?
  • Keuntungan dari HDFS
  • Fitur HDFS

Sebelum berbicara tentang HDFS, izinkan saya memberi tahu Anda, apa itu Sistem File Terdistribusi?



DFS atau Sistem File Terdistribusi:

Sistem File Terdistribusi berbicara tentang mengelola data , yaitu file atau folder di beberapa komputer atau server. Dengan kata lain, DFS adalah sistem file yang memungkinkan kita menyimpan data melalui beberapa node atau mesin dalam sebuah cluster dan memungkinkan banyak pengguna untuk mengakses data. Jadi pada dasarnya, ini melayani tujuan yang sama dengan sistem file yang tersedia di mesin Anda, seperti untuk windows Anda memiliki NTFS (New Technology File System) atau untuk Mac Anda memiliki HFS (Hierarchical File System). Satu-satunya perbedaan adalah, dalam kasus Sistem File Terdistribusi, Anda menyimpan data di beberapa mesin daripada satu mesin. Meskipun file disimpan di seluruh jaringan, DFS mengatur, dan menampilkan data sedemikian rupa sehingga pengguna yang duduk di mesin akan merasa seperti semua data disimpan di mesin itu.

Apakah HDFS itu?

Hadoop Distributed file system atau HDFS adalah sistem file terdistribusi berbasis Java yang memungkinkan Anda menyimpan data besar di beberapa node dalam cluster Hadoop. Jadi, jika Anda menginstal Hadoop, Anda mendapatkan HDFS sebagai sistem penyimpanan yang mendasari untuk menyimpan data di lingkungan terdistribusi.

Mari kita ambil contoh untuk memahaminya. Bayangkan Anda memiliki sepuluh mesin atau sepuluh komputer dengan hard drive 1 TB di setiap mesin. Sekarang, HDFS mengatakan bahwa jika Anda menginstal Hadoop sebagai platform di atas sepuluh mesin ini, Anda akan mendapatkan HDFS sebagai layanan penyimpanan. Sistem File Terdistribusi Hadoop didistribusikan sedemikian rupa sehingga setiap mesin menyumbangkan penyimpanan masing-masing untuk menyimpan segala jenis data.



perbedaan antara c c # dan c ++

Tutorial HDFS: Keuntungan Dari HDFS

1. Penyimpanan Terdistribusi:

Penyimpanan Terdistribusi - Tutorial HDFS - Edureka

Saat Anda mengakses sistem file Hadoop Distributed dari salah satu dari sepuluh mesin di cluster Hadoop, Anda akan merasa seolah-olah Anda telah masuk ke satu mesin besar yang memiliki kapasitas penyimpanan 10 TB (penyimpanan total lebih dari sepuluh mesin). Apa artinya? Ini berarti Anda dapat menyimpan satu file besar berukuran 10 TB yang akan didistribusikan ke sepuluh mesin (masing-masing 1 TB).Begitulah tidak terbatas pada batasan fisik dari setiap mesin individu.

2. Komputasi Terdistribusi & Paralel:

Karena data dibagi di seluruh mesin, ini memungkinkan kami untuk memanfaatkannya Komputasi Terdistribusi dan Paralel . Mari kita pahami konsep ini dengan contoh di atas. Misalkan, butuh 43 menit untuk memproses file 1 TB di satu mesin. Jadi, sekarang beri tahu saya, berapa lama waktu yang diperlukan untuk memproses file 1 TB yang sama jika Anda memiliki 10 mesin dalam cluster Hadoop dengan konfigurasi serupa - 43 menit atau 4,3 menit? 4.3 menit, Benar! Apa yang terjadi disini? Setiap node bekerja dengan bagian dari file 1 TB secara paralel. Oleh karena itu, pekerjaan yang sebelumnya memakan waktu 43 menit, sekarang selesai hanya dalam 4,3 menit karena pekerjaan tersebut dibagi menjadi sepuluh mesin.

3. Skalabilitas Horizontal:

Terakhir, mari kita bahas penskalaan horizontal atau scaling out di Hadoop. Ada dua jenis penskalaan: vertikal dan horisontal . Dalam penskalaan vertikal (peningkatan skala), Anda meningkatkan kapasitas perangkat keras sistem Anda. Dengan kata lain, Anda mendapatkan lebih banyak RAM atau CPU dan menambahkannya ke sistem yang ada untuk membuatnya lebih kuat dan bertenaga. Namun ada tantangan yang terkait dengan penskalaan atau penskalaan vertikal:

  • Selalu ada batasan untuk meningkatkan kapasitas perangkat keras Anda. Jadi, Anda tidak dapat terus meningkatkan RAM atau CPU mesin.
  • Dalam penskalaan vertikal, hentikan mesin Anda terlebih dahulu. Kemudian Anda meningkatkan RAM atau CPU untuk membuatnya menjadi tumpukan perangkat keras yang lebih kuat. Setelah Anda meningkatkan kapasitas perangkat keras Anda, Anda menghidupkan ulang mesin. Waktu henti ini ketika Anda menghentikan sistem Anda menjadi tantangan.

Dalam kasus skala horizontal (skala keluar) , Anda menambahkan lebih banyak node ke kluster yang ada, bukan meningkatkan kapasitas perangkat keras mesin individual. Dan yang terpenting, Anda bisa tambahkan lebih banyak mesin saat bepergian yaitu Tanpa menghentikan sistem . Oleh karena itu, saat melakukan penskalaan, kami tidak memiliki waktu istirahat atau zona hijau, tidak ada hal semacam itu. Pada akhirnya, Anda akan memiliki lebih banyak alat berat yang bekerja secara paralel untuk memenuhi kebutuhan Anda.

Video Tutorial HDFS:

Anda dapat melihat video yang diberikan di bawah ini di mana semua konsep yang terkait dengan HDFS telah dibahas secara rinci:

Tutorial HDFS: Fitur HDFS

Kami akan memahami fitur-fitur ini secara detail ketika kami akan menjelajahi Arsitektur HDFS di blog tutorial HDFS kami berikutnya. Namun, untuk saat ini, mari kita lihat gambaran umum tentang fitur HDFS:

  • Biaya: HDFS, secara umum, digunakan pada perangkat keras komoditas seperti desktop / laptop yang Anda gunakan setiap hari. Jadi, sangat ekonomis dari segi biaya kepemilikan proyek. Karena, kami menggunakan perangkat keras komoditas berbiaya rendah, Anda tidak perlu mengeluarkan banyak uang untuk menskalakan kelompok Hadoop Anda. Dengan kata lain, menambahkan lebih banyak node ke HDFS Anda hemat biaya.
  • Ragam dan Volume Data: Ketika kita berbicara tentang HDFS maka kita berbicara tentang menyimpan data besar yaitu data Terabyte & petabyte dan berbagai jenis data. Jadi, Anda dapat menyimpan semua jenis data ke dalam HDFS, baik itu terstruktur, tidak terstruktur, atau semi terstruktur.
  • Keandalan dan Toleransi Kesalahan: Saat Anda menyimpan data di HDFS, ini secara internal membagi data yang diberikan ke dalam blok data dan menyimpannya secara terdistribusi di seluruh cluster Hadoop Anda. Informasi mengenai blok data mana yang terletak di mana dari simpul data yang dicatat dalam metadata. NameNode mengelola meta data dan DataNodes bertanggung jawab untuk menyimpan data.
    Node nama juga mereplikasi data yaitu mempertahankan banyak salinan data. Replikasi data ini membuat HDFS sangat andal dan toleran terhadap kesalahan. Jadi, meskipun salah satu node gagal, kami dapat mengambil data dari replika yang berada di node data lain. Secara default, faktor replikasi adalah 3. Oleh karena itu, jika Anda menyimpan file 1 GB dalam HDFS, akhirnya akan menempati ruang 3 GB. Node nama memperbarui metadata secara berkala dan mempertahankan faktor replikasi secara konsisten.
  • Integritas data: Integritas Data berbicara tentang apakah data yang disimpan di HDFS saya benar atau tidak. HDFS secara konstan memeriksa integritas data yang disimpan terhadap checksumnya. Jika menemukan kesalahan apa pun, ia melaporkan ke node nama tentang hal itu. Kemudian, node nama membuat replika baru tambahan dan karenanya menghapus salinan yang rusak.
  • Throughput Tinggi: Throughput adalah jumlah pekerjaan yang dilakukan dalam satu unit waktu. Ini berbicara tentang seberapa cepat Anda dapat mengakses data dari sistem file. Pada dasarnya, ini memberi Anda wawasan tentang kinerja sistem. Seperti yang telah Anda lihat pada contoh di atas di mana kami menggunakan sepuluh mesin secara kolektif untuk meningkatkan komputasi. Di sana kami dapat mengurangi waktu pemrosesan dari 43 menit menjadi belaka 4.3 menit karena semua mesin bekerja secara paralel. Oleh karena itu, dengan memproses data secara paralel, kami sangat mengurangi waktu pemrosesan dan dengan demikian, throughput yang tinggi tercapai.
  • Lokalitas Data: Lokalitas data berbicara tentang pemindahan unit pemrosesan ke data daripada data ke unit pemrosesan. Dalam sistem tradisional kami, kami biasa membawa data ke lapisan aplikasi dan kemudian memprosesnya. Tapi sekarang, karena arsitektur dan volume data yang besar, membawa data ke lapisan aplikasi akanmengurangi kinerja jaringan sampai batas tertentu.Jadi, di HDFS, kami membawa bagian komputasi ke node data tempat data berada. Karenanya, Anda tidak memindahkan data, Anda membawa program atau prosesbagian dari data.

Jadi sekarang, Anda memiliki gambaran singkat tentang HDFS dan fitur-fiturnya. Tapi percayalah, ini hanyalah puncak gunung es. Berikutnya saya , Saya akan mendalami Arsitektur HDFS dan saya akan mengungkap rahasia di balik kesuksesan HDFS. Bersama-sama kami akan menjawab semua pertanyaan yang ada di kepala Anda seperti:

  • Apa yang terjadi di balik layar ketika Anda membaca atau menulis data di Hadoop Distributed File System?
  • Apa algoritma seperti kesadaran rak yang membuat HDFS begitu toleran terhadap kesalahan?
  • Bagaimana Hadoop Distributed File System mengelola dan membuat replika?
  • Apa itu operasi blok?

Sekarang Anda telah memahami HDFS dan fitur-fiturnya, lihat oleh Edureka, perusahaan pembelajaran online tepercaya dengan jaringan lebih dari 250.000 pelajar yang puas dan tersebar di seluruh dunia. Kursus Pelatihan Sertifikasi Edureka Big Data Hadoop membantu peserta didik menjadi ahli dalam domain HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume, dan Sqoop menggunakan kasus penggunaan waktu nyata pada Ritel, Media Sosial, Penerbangan, Pariwisata, domain Keuangan.

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dan kami akan menghubungi Anda kembali.