Instal Hadoop: Menyiapkan Cluster Hadoop Node Tunggal



Tutorial ini adalah panduan langkah demi langkah untuk menginstal cluster Hadoop dan mengkonfigurasinya pada satu node. Semua langkah instalasi Hadoop adalah untuk mesin CentOS.

Instal Hadoop: Menyiapkan Cluster Hadoop Node Tunggal

Dari blog kami sebelumnya di , Anda pasti sudah mendapat gambaran teoritis tentang Hadoop, HDFS dan arsitekturnya.Tapi untuk mendapatkan Anda membutuhkan pengetahuan langsung yang baik.Saya harap Anda menyukai blog kami sebelumnya di , sekarang saya akan membawa Anda melalui pengetahuan praktis tentang Hadoop dan HDFS. Langkah maju pertama adalah menginstal Hadoop.

Ada dua cara untuk memasang Hadoop, yaitu Node tunggal dan Multi node .





cara membuat array objek

Kluster node tunggal berarti hanya satu DataNode yang berjalan dan menyiapkan semua NameNode, DataNode, ResourceManager, dan NodeManager pada satu mesin. Ini digunakan untuk tujuan pembelajaran dan pengujian. Misalnya, mari kita pertimbangkan kumpulan data sampel di dalam industri perawatan kesehatan. Jadi, untuk menguji apakah pekerjaan Oozie telah menjadwalkan semua proses seperti mengumpulkan, menggabungkan, menyimpan, dan memproses data dalam urutan yang tepat, kami menggunakan cluster node tunggal. Ini dapat dengan mudah dan efisien menguji alur kerja sekuensial di lingkungan yang lebih kecil dibandingkan dengan lingkungan besar yang berisi terabyte data yang didistribusikan ke ratusan mesin.

Saat berada di Kluster multi node , ada lebih dari satu DataNode yang berjalan dan setiap DataNode dijalankan pada mesin yang berbeda. Cluster multi node secara praktis digunakan dalam organisasi untuk menganalisis Big Data. Mempertimbangkan contoh di atas, dalam waktu nyata saat kita menangani data berukuran petabyte, data perlu didistribusikan ke ratusan mesin untuk diproses. Jadi, disini kami menggunakan cluster multi node.



Di blog ini, saya akan menunjukkan cara menginstal Hadoop pada cluster node tunggal.

Prasyarat

  • KOTAK VIRTUAL : digunakan untuk menginstal sistem operasi di atasnya.
  • SISTEM OPERASI : Anda dapat menginstal Hadoop di sistem operasi berbasis Linux. Ubuntu dan CentOS sangat umum digunakan. Dalam tutorial ini, kami menggunakan CentOS.
  • JAWA : Anda perlu menginstal paket Java 8 di sistem Anda.
  • HADOOP : Anda membutuhkan paket Hadoop 2.7.3.

Pasang Hadoop

Langkah 1: Klik disini untuk mengunduh Paket Java 8. Simpan file ini di direktori home Anda.

Langkah 2: Ekstrak File Tar Java.

Perintah : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Instal Hadoop - Edureka



Gambar: Instalasi Hadoop - Mengekstrak File Java

Langkah 3: Unduh Paket Hadoop 2.7.3.

Perintah : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Gambar: Instalasi Hadoop - Mengunduh Hadoop

Langkah 4: Ekstrak File tar Hadoop.

Perintah : tar -xvf hadoop-2.7.3.tar.gz

Gambar: Instalasi Hadoop - Mengekstrak File Hadoop

Langkah 5: Tambahkan jalur Hadoop dan Java di file bash (.bashrc).

Buka . bashrc mengajukan. Sekarang, tambahkan Hadoop dan Java Path seperti yang ditunjukkan di bawah ini.

Perintah : vi .bashrc

Gambar: Instalasi Hadoop - Mengatur Variabel Lingkungan

Kemudian, simpan file bash dan tutup.

Untuk menerapkan semua perubahan ini ke Terminal saat ini, jalankan perintah sumber.

Perintah : sumber .bashrc

Gbr: Instalasi Hadoop - Menyegarkan variabel lingkungan

Untuk memastikan bahwa Java dan Hadoop telah diinstal dengan benar di sistem Anda dan dapat diakses melalui Terminal, execute perintah versi java -version dan hadoop.

Perintah : Jawa-Versi: kapan

Gambar: Instalasi Hadoop - Memeriksa Versi Java

Perintah : hadoopVersi: kapan

Gambar: Instalasi Hadoop - Memeriksa Versi Hadoop

LANGKAH 6 : Edit .

Perintah: cd hadoop-2.7.3 / etc / hadoop /

Perintah: ls

Semua file konfigurasi Hadoop berada di hadoop-2.7.3 / etc / hadoop direktori seperti yang Anda lihat pada snapshot di bawah ini:

Gambar: Instalasi Hadoop - File Konfigurasi Hadoop

LANGKAH 7 : Buka core-site.xml dan edit properti yang disebutkan di bawah ini di dalam tag konfigurasi:

core-site.xml menginformasikan daemon Hadoop tempat NameNode dijalankan di cluster. Ini berisi pengaturan konfigurasi inti Hadoop seperti pengaturan I / O yang umum untuk HDFS & MapReduce.

Perintah : vi core-site.xml

Gambar: Instalasi Hadoop - Konfigurasi core-site.xml

fs.default.name hdfs: // localhost: 9000

Langkah 8: Edit hdfs-site.xml dan edit properti yang disebutkan di bawah ini di dalam tag konfigurasi:

hdfs-site.xml berisi pengaturan konfigurasi daemon HDFS (yaitu NameNode, DataNode, Secondary NameNode). Ini juga mencakup faktor replikasi dan ukuran blok HDFS.

Perintah : vi hdfs-site.xml

Gambar: Instalasi Hadoop - Konfigurasi hdfs-site.xml

dfs.replication 1 dfs.permission false

LANGKAH 9 : Edit mapred-site.xml file dan edit properti yang disebutkan di bawah ini di dalam tag konfigurasi:

mapred-site.xml berisi pengaturan konfigurasi aplikasi MapReduce seperti jumlah JVM yang dapat berjalan secara paralel, ukuran mapper dan proses reducer, inti CPU yang tersedia untuk suatu proses, dll.

Dalam beberapa kasus, file mapred-site.xml tidak tersedia. Jadi, kita harus membuat file mapred-site.xmlmenggunakan template mapred-site.xml.

Perintah : cp mapred-site.xml.template mapred-site.xml

Perintah : kita mapred-situs.xml.

Gambar: Instalasi Hadoop - Konfigurasi mapred-site.xml

benang mapreduce.framework.name

Langkah 10: Edit benang-situs.xml dan edit properti yang disebutkan di bawah ini di dalam tag konfigurasi:

benang-situs.xml berisi pengaturan konfigurasi ResourceManager dan NodeManager seperti ukuran manajemen memori aplikasi, operasi yang diperlukan pada program & algoritma, dll.

Perintah : vi benang-situs.xml

Gbr: Instalasi Hadoop - Konfigurasi yarn-site.xml

bagaimana menggunakan python spyder
yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Langkah 11: Edit hadoop-env.sh dan tambahkan Path Java seperti yang disebutkan di bawah ini:

hadoop-env.sh berisi variabel lingkungan yang digunakan dalam skrip untuk menjalankan Hadoop seperti jalur utama Java, dll.

Perintah : kita hadoop-env.SH

Gambar: Instalasi Hadoop - Konfigurasi hadoop-env.sh

Langkah 12: Buka direktori home Hadoop dan format NameNode.

Perintah : CD

Perintah : cd hadoop-2.7.3

Perintah : bin / hadoop-format tujuan

Gambar: Instalasi Hadoop - Memformat NameNode

Ini memformat HDFS melalui NameNode. Perintah ini hanya dijalankan pertama kali. Memformat sistem file berarti menginisialisasi direktori yang ditentukan oleh variabel dfs.name.dir.

Jangan pernah memformat, menjalankan dan menjalankan sistem file Hadoop. Anda akan kehilangan semua data Anda yang disimpan di HDFS.

Langkah 13: Setelah NameNode diformat, masuk ke direktori hadoop-2.7.3 / sbin dan mulai semua daemon.

Perintah: cd hadoop-2.7.3 / sbin

Anda dapat memulai semua daemon dengan satu perintah atau melakukannya satu per satu.

Perintah: ./ start-all.sh

Perintah di atas adalah kombinasi dari start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Atau Anda dapat menjalankan semua layanan satu per satu seperti di bawah ini:

Mulai NameNode:

NameNode adalah bagian tengah dari sistem file HDFS. Itu membuat pohon direktori dari semua file yang disimpan di HDFS dan melacak semua file yang disimpan di seluruh cluster.

Perintah: ./hadoop-daemon.sh memulai tujuan

Gambar: Instalasi Hadoop - Memulai NameNode

Mulai DataNode:

Saat startup, DataNode terhubung ke Namenode dan menanggapi permintaan dari Namenode untuk operasi yang berbeda.

Perintah: ./hadoop-daemon.sh mulai datanode

Fig: Instalasi Hadoop - Memulai DataNode

Mulai ResourceManager:

ResourceManager adalah master yang mengatur semua sumber daya cluster yang tersedia dan dengan demikian membantu dalam mengelola aplikasi terdistribusi yang berjalan di sistem YARN. Tugasnya adalah mengelola setiap NodeManagers dan setiap ApplicationMaster aplikasi.

Perintah: ./benang-daemon.sh mulai pengelola sumber daya

Gambar: Instalasi Hadoop - Memulai ResourceManager

Mulai NodeManager:

NodeManager di setiap framework mesin adalah agen yang bertanggung jawab untuk mengelola container, memantau penggunaan resource-nya, dan melaporkan hal yang sama ke ResourceManager.

Perintah: ./benang-daemon.sh mulai nodemanager

Gambar: Instalasi Hadoop - Memulai NodeManager

Mulai JobHistoryServer:

JobHistoryServer bertanggung jawab untuk melayani semua permintaan terkait riwayat pekerjaan dari klien.

Perintah : ./mr-jobhistory-daemon.sh memulai server riwayat

Langkah 14: Untuk memeriksa apakah semua layanan Hadoop aktif dan berjalan, jalankan perintah di bawah ini.

Perintah: jps

Gambar: Instalasi Hadoop - Memeriksa Daemon

Langkah 15: Sekarang buka browser Mozilla dan buka localhost : 50070 / dfshealth.html untuk memeriksa antarmuka NameNode.

Gambar: Instalasi Hadoop - Memulai WebUI

Selamat, Anda telah berhasil menginstal cluster Hadoop node tunggal sekaligus.Di blog kami berikutnya dari , kami juga akan membahas cara menginstal Hadoop pada cluster multi node.

Sekarang Anda telah memahami cara memasang Hadoop, lihat oleh Edureka, perusahaan pembelajaran online tepercaya dengan jaringan lebih dari 250.000 pelajar yang puas dan tersebar di seluruh dunia. Kursus Pelatihan Sertifikasi Edureka Big Data Hadoop membantu peserta didik menjadi ahli dalam domain HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume, dan Sqoop menggunakan kasus penggunaan waktu nyata pada Ritel, Media Sosial, Penerbangan, Pariwisata, domain Keuangan.

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dan kami akan menghubungi Anda kembali.