Instal Hadoop: Menyiapkan Cluster Hadoop Node Tunggal
Dari blog kami sebelumnya di , Anda pasti sudah mendapat gambaran teoritis tentang Hadoop, HDFS dan arsitekturnya.Tapi untuk mendapatkan Anda membutuhkan pengetahuan langsung yang baik.Saya harap Anda menyukai blog kami sebelumnya di , sekarang saya akan membawa Anda melalui pengetahuan praktis tentang Hadoop dan HDFS. Langkah maju pertama adalah menginstal Hadoop.
Ada dua cara untuk memasang Hadoop, yaitu Node tunggal dan Multi node .
cara membuat array objek
Kluster node tunggal berarti hanya satu DataNode yang berjalan dan menyiapkan semua NameNode, DataNode, ResourceManager, dan NodeManager pada satu mesin. Ini digunakan untuk tujuan pembelajaran dan pengujian. Misalnya, mari kita pertimbangkan kumpulan data sampel di dalam industri perawatan kesehatan. Jadi, untuk menguji apakah pekerjaan Oozie telah menjadwalkan semua proses seperti mengumpulkan, menggabungkan, menyimpan, dan memproses data dalam urutan yang tepat, kami menggunakan cluster node tunggal. Ini dapat dengan mudah dan efisien menguji alur kerja sekuensial di lingkungan yang lebih kecil dibandingkan dengan lingkungan besar yang berisi terabyte data yang didistribusikan ke ratusan mesin.
Saat berada di Kluster multi node , ada lebih dari satu DataNode yang berjalan dan setiap DataNode dijalankan pada mesin yang berbeda. Cluster multi node secara praktis digunakan dalam organisasi untuk menganalisis Big Data. Mempertimbangkan contoh di atas, dalam waktu nyata saat kita menangani data berukuran petabyte, data perlu didistribusikan ke ratusan mesin untuk diproses. Jadi, disini kami menggunakan cluster multi node.
Di blog ini, saya akan menunjukkan cara menginstal Hadoop pada cluster node tunggal.
Prasyarat
- KOTAK VIRTUAL : digunakan untuk menginstal sistem operasi di atasnya.
- SISTEM OPERASI : Anda dapat menginstal Hadoop di sistem operasi berbasis Linux. Ubuntu dan CentOS sangat umum digunakan. Dalam tutorial ini, kami menggunakan CentOS.
- JAWA : Anda perlu menginstal paket Java 8 di sistem Anda.
- HADOOP : Anda membutuhkan paket Hadoop 2.7.3.
Pasang Hadoop
Langkah 1: Klik disini untuk mengunduh Paket Java 8. Simpan file ini di direktori home Anda.
Langkah 2: Ekstrak File Tar Java.
Perintah : tar -xvf jdk-8u101-linux-i586.tar.gz
Gambar: Instalasi Hadoop - Mengekstrak File Java
Langkah 3: Unduh Paket Hadoop 2.7.3.
Perintah : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Gambar: Instalasi Hadoop - Mengunduh Hadoop
Langkah 4: Ekstrak File tar Hadoop.
Perintah : tar -xvf hadoop-2.7.3.tar.gz
Gambar: Instalasi Hadoop - Mengekstrak File Hadoop
Langkah 5: Tambahkan jalur Hadoop dan Java di file bash (.bashrc).
Buka . bashrc mengajukan. Sekarang, tambahkan Hadoop dan Java Path seperti yang ditunjukkan di bawah ini.
Perintah : vi .bashrc
Gambar: Instalasi Hadoop - Mengatur Variabel Lingkungan
Kemudian, simpan file bash dan tutup.
Untuk menerapkan semua perubahan ini ke Terminal saat ini, jalankan perintah sumber.
Perintah : sumber .bashrc
Gbr: Instalasi Hadoop - Menyegarkan variabel lingkungan
Untuk memastikan bahwa Java dan Hadoop telah diinstal dengan benar di sistem Anda dan dapat diakses melalui Terminal, execute perintah versi java -version dan hadoop.
Perintah : Jawa-Versi: kapan
Gambar: Instalasi Hadoop - Memeriksa Versi Java
Perintah : hadoopVersi: kapan
Gambar: Instalasi Hadoop - Memeriksa Versi Hadoop
LANGKAH 6 : Edit .
Perintah: cd hadoop-2.7.3 / etc / hadoop /
Perintah: ls
Semua file konfigurasi Hadoop berada di hadoop-2.7.3 / etc / hadoop direktori seperti yang Anda lihat pada snapshot di bawah ini:
Gambar: Instalasi Hadoop - File Konfigurasi Hadoop
LANGKAH 7 : Buka core-site.xml dan edit properti yang disebutkan di bawah ini di dalam tag konfigurasi:
core-site.xml menginformasikan daemon Hadoop tempat NameNode dijalankan di cluster. Ini berisi pengaturan konfigurasi inti Hadoop seperti pengaturan I / O yang umum untuk HDFS & MapReduce.
Perintah : vi core-site.xml
Gambar: Instalasi Hadoop - Konfigurasi core-site.xml
fs.default.name hdfs: // localhost: 9000
Langkah 8: Edit hdfs-site.xml dan edit properti yang disebutkan di bawah ini di dalam tag konfigurasi:
hdfs-site.xml berisi pengaturan konfigurasi daemon HDFS (yaitu NameNode, DataNode, Secondary NameNode). Ini juga mencakup faktor replikasi dan ukuran blok HDFS.
Perintah : vi hdfs-site.xml
Gambar: Instalasi Hadoop - Konfigurasi hdfs-site.xml
dfs.replication 1 dfs.permission false
LANGKAH 9 : Edit mapred-site.xml file dan edit properti yang disebutkan di bawah ini di dalam tag konfigurasi:
mapred-site.xml berisi pengaturan konfigurasi aplikasi MapReduce seperti jumlah JVM yang dapat berjalan secara paralel, ukuran mapper dan proses reducer, inti CPU yang tersedia untuk suatu proses, dll.
Dalam beberapa kasus, file mapred-site.xml tidak tersedia. Jadi, kita harus membuat file mapred-site.xmlmenggunakan template mapred-site.xml.
Perintah : cp mapred-site.xml.template mapred-site.xml
Perintah : kita mapred-situs.xml.
Gambar: Instalasi Hadoop - Konfigurasi mapred-site.xml
benang mapreduce.framework.name
Langkah 10: Edit benang-situs.xml dan edit properti yang disebutkan di bawah ini di dalam tag konfigurasi:
benang-situs.xml berisi pengaturan konfigurasi ResourceManager dan NodeManager seperti ukuran manajemen memori aplikasi, operasi yang diperlukan pada program & algoritma, dll.
Perintah : vi benang-situs.xml
Gbr: Instalasi Hadoop - Konfigurasi yarn-site.xml
bagaimana menggunakan python spyder
yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
Langkah 11: Edit hadoop-env.sh dan tambahkan Path Java seperti yang disebutkan di bawah ini:
hadoop-env.sh berisi variabel lingkungan yang digunakan dalam skrip untuk menjalankan Hadoop seperti jalur utama Java, dll.
Perintah : kita hadoop-env.SH
Gambar: Instalasi Hadoop - Konfigurasi hadoop-env.sh
Langkah 12: Buka direktori home Hadoop dan format NameNode.
Perintah : CD
Perintah : cd hadoop-2.7.3
Perintah : bin / hadoop-format tujuan
Gambar: Instalasi Hadoop - Memformat NameNode
Ini memformat HDFS melalui NameNode. Perintah ini hanya dijalankan pertama kali. Memformat sistem file berarti menginisialisasi direktori yang ditentukan oleh variabel dfs.name.dir.
Jangan pernah memformat, menjalankan dan menjalankan sistem file Hadoop. Anda akan kehilangan semua data Anda yang disimpan di HDFS.
Langkah 13: Setelah NameNode diformat, masuk ke direktori hadoop-2.7.3 / sbin dan mulai semua daemon.
Perintah: cd hadoop-2.7.3 / sbin
Anda dapat memulai semua daemon dengan satu perintah atau melakukannya satu per satu.
Perintah: ./ start-all.sh
Perintah di atas adalah kombinasi dari start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh
Atau Anda dapat menjalankan semua layanan satu per satu seperti di bawah ini:
Mulai NameNode:
NameNode adalah bagian tengah dari sistem file HDFS. Itu membuat pohon direktori dari semua file yang disimpan di HDFS dan melacak semua file yang disimpan di seluruh cluster.
Perintah: ./hadoop-daemon.sh memulai tujuan
Gambar: Instalasi Hadoop - Memulai NameNode
Mulai DataNode:
Saat startup, DataNode terhubung ke Namenode dan menanggapi permintaan dari Namenode untuk operasi yang berbeda.
Perintah: ./hadoop-daemon.sh mulai datanode
Fig: Instalasi Hadoop - Memulai DataNode
Mulai ResourceManager:
ResourceManager adalah master yang mengatur semua sumber daya cluster yang tersedia dan dengan demikian membantu dalam mengelola aplikasi terdistribusi yang berjalan di sistem YARN. Tugasnya adalah mengelola setiap NodeManagers dan setiap ApplicationMaster aplikasi.
Perintah: ./benang-daemon.sh mulai pengelola sumber daya
Gambar: Instalasi Hadoop - Memulai ResourceManager
Mulai NodeManager:
NodeManager di setiap framework mesin adalah agen yang bertanggung jawab untuk mengelola container, memantau penggunaan resource-nya, dan melaporkan hal yang sama ke ResourceManager.
Perintah: ./benang-daemon.sh mulai nodemanager
Gambar: Instalasi Hadoop - Memulai NodeManager
Mulai JobHistoryServer:
JobHistoryServer bertanggung jawab untuk melayani semua permintaan terkait riwayat pekerjaan dari klien.
Perintah : ./mr-jobhistory-daemon.sh memulai server riwayat
Langkah 14: Untuk memeriksa apakah semua layanan Hadoop aktif dan berjalan, jalankan perintah di bawah ini.
Perintah: jps
Gambar: Instalasi Hadoop - Memeriksa Daemon
Langkah 15: Sekarang buka browser Mozilla dan buka localhost : 50070 / dfshealth.html untuk memeriksa antarmuka NameNode.
Gambar: Instalasi Hadoop - Memulai WebUI
Selamat, Anda telah berhasil menginstal cluster Hadoop node tunggal sekaligus.Di blog kami berikutnya dari , kami juga akan membahas cara menginstal Hadoop pada cluster multi node.
Sekarang Anda telah memahami cara memasang Hadoop, lihat oleh Edureka, perusahaan pembelajaran online tepercaya dengan jaringan lebih dari 250.000 pelajar yang puas dan tersebar di seluruh dunia. Kursus Pelatihan Sertifikasi Edureka Big Data Hadoop membantu peserta didik menjadi ahli dalam domain HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume, dan Sqoop menggunakan kasus penggunaan waktu nyata pada Ritel, Media Sosial, Penerbangan, Pariwisata, domain Keuangan.
Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dan kami akan menghubungi Anda kembali.