Bagaimana Cara Membuat Cluster Hadoop Dengan Amazon EMR?



Pada artikel ini kita akan menjelajahi Layanan AWS EMR dan dalam prosesnya kita akan mempelajari Cara Membuat Cluster Hadoop Dengan Amazon EMR?

Dalam artikel ini tentang Cara Membuat Cluster Dengan Amazon EMR kita akan melihat bagaimana menjalankan dan menskalakan aplikasi Hadoop dan Big Data dengan mudah. Petunjuk berikut akan dibahas dalam artikel ini,

Pindah dengan ini Bagaimana Membuat Cluster Hadoop Dengan Amazon EMR?





Bagaimana Cara Membuat Cluster Hadoop Dengan Amazon EMR?

Saat kami mencari sesuatu di Google atau Yahoo, kami mendapatkan respons dalam sepersekian detik. Bagaimana mungkin Google, Yahoo dan mesin pencari lainnya memberikan hasil yang begitu cepat dari web yang terus berkembang? Mesin pencari merayapi internet, mengunduh halaman web dan membuat indeks seperti yang ditunjukkan di bawah ini. Untuk setiap pertanyaan dari kami, mereka menggunakan indeks untuk mencari tahu apa saja halaman web yang berisi teks yang kami cari. Dengan melihat indeks di bawah ini di sisi kanan, kita dapat dengan jelas mengetahui bahwa Hadoop itu ada halaman web 1, 2 dan 3.

Gambar - Cara Membuat Cluster Hadoop Dengan Amazon EMR - EdurekaKemudian, Algoritme PageRanking digunakan yang didasarkan pada bagaimana halaman-halaman terhubung untuk mengetahui halaman mana yang akan ditampilkan di bagian atas dan mana di bagian bawah. Dalam skenario di bawah, W1 adalah yang 'paling populer' karena semua orang menautkannya dan W4 adalah 'paling tidak populer' karena tidak ada yang menautkannya. Jadi, W1 ditampilkan di bagian atas dan W4 di bagian bawah dalam hasil pencarian.



Dengan ledakan halaman web, mesin pencari ini menemukan tantangan untuk membuat indeks dan melakukan perhitungan PageRanking. Di sinilah lahirnya Hadoop di Yahoo dan kemudian menjadi FOSS (Free and Open Source Software) di bawah ASF (Apache Software Foundation). Setelah berada di bawah ASF, banyak perusahaan mulai tertarik pada Hadoop dan mulai berkontribusi untuk memperbaikinya. Hadoop adalah yang memulai revolusi Big Data, tetapi banyak perangkat lunak lain seperti Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume mulai berkembang untuk mengatasi keterbatasan dan celah di Hadoop.

Mesin pencari web adalah yang pertama menggunakan Hadoop, tetapi kemudian banyak kasus penggunaan mulai berkembang karena semakin banyak data yang dihasilkan. Mari kita ambil contoh aplikasi eCommerce yang digunakan untuk merekomendasikan buku kepada pengguna. Sesuai diagram di bawah ini, pengguna1 membeli buku1, buku2 dan buku3, pengguna2 membeli beberapa buku dan seterusnya. Melihat lebih dekat, kita dapat mengamati bahwa pengguna1 dan pengguna2 memiliki selera yang sama seperti mereka membeli book1 dan book2. Jadi, book3 bisa direkomendasikan ke pengguna2 dan book4 bisa direkomendasikan ke pengguna1. Ini disebut Pemfilteran Kolaboratif, sejenis algoritme Pembelajaran Mesin. Kita dapat membalik diagram di bawah ini dan mendapatkan buku serupa.

Dalam kasus di atas kami telah membuat indeks, PageRanked dan merekomendasikan kepada pengguna, ukuran datanya kecil sehingga kami dapat memvisualisasikan data dan menyimpulkan beberapa hasil darinya. Karena ukuran data semakin besar dari hari ke hari dan di luar kendali, di sinilah alat Big Data seperti Hadoop muncul.



Hadoop memecahkan banyak masalah, tetapi menginstal Hadoop dan perangkat lunak Big Data lainnya bukanlah tugas yang mudah. Ada banyak parameter konfigurasi yang perlu diubah, seperti integrasi, penginstalan, dan masalah konfigurasi untuk dikerjakan. Di sinilah perusahaan seperti Cloudera, dan bantuan Databricks. Mereka membuat penginstalan perangkat lunak Big Data lebih mudah dan memberikan dukungan komersial, misalnya sesuatu terjadi dalam produksi. Amazon EMR (Elastic MapReduce) membuat penggunaan Hadoop dll jauh lebih mudah. Nama Elastic MapReduce sedikit keliru karena EMR juga mendukung model komputasi terdistribusi lainnya seperti Resilient Distributed Datasets dan bukan hanya MapReduce.

Dalam tutorial ini, kami akan menjelajahi cara menyiapkan klaster EMR di AWS Cloud dan dalam tutorial mendatang, kami akan menjelajahi cara menjalankan Spark, Hive, dan program lain di atasnya.

Pindah dengan ini Bagaimana Membuat Cluster Hadoop Dengan Amazon EMR?

Demo: Membuat Kluster EMR di AWS

Langkah 1: Buka Konsol Pengelolaan EMR dan klik 'Buat cluster'. Di konsol, metadata untuk cluster dihentikan juga disimpan selama dua bulan secara gratis. Ini memungkinkan cluster yang dihentikan untuk dikloning dan dibuat lagi.

r pembelajaran mesin dengan contoh

Langkah 2 : Dari layar opsi cepat, klik 'Buka opsi lanjutan' untuk menentukan lebih banyak detail tentang cluster.

Langkah 3: Pada tab Advanced Options, kita dapat memilih software yang berbeda untuk diinstal pada cluster EMR. Untuk antarmuka SQL, Hive dapat dipilih. Untuk antarmuka bahasa aliran data, Pig dapat dipilih. Untuk koordinasi aplikasi terdistribusi ZooKeeper dapat dipilih dan seterusnya. Tab ini juga memungkinkan kita menambahkan langkah, yang merupakan tugas opsional. Langkah-langkahnya adalah pekerjaan pemrosesan Big Data menggunakan MapReduce, Pig, Hive, dll. Mereka dapat ditambahkan di tab ini atau nanti setelah cluster dibuat. Klik 'Next' untuk memilih Hardware yang dibutuhkan untuk cluster EMR.

Langkah 4: Hadoop mengikuti arsitektur master-worker di mana master melakukan semua koordinasi seperti penjadwalan dan penugasan pekerjaan dan memeriksa kemajuan mereka, sementara pekerja melakukan pekerjaan aktual untuk memproses dan menyimpan data. Master tunggal adalah Single-Point-Of-Failure (SPOF). Amazon EMR mendukung multi-master untuk Ketersediaan Tinggi (HA). Langkah sebelumnya memungkinkan untuk menyiapkan cluster multi-master di EMR.

EMR memungkinkan dua jenis node, Core dan Task. Node inti digunakan untuk memproses dan menyimpan data, simpul tugas digunakan hanya untuk memproses data. Untuk tutorial ini, kita hanya dapat memilih satu inti dan tanpa simpul Tugas karena ini melibatkan lebih sedikit biaya bagi kita. Juga, pilih Contoh spot lebih Sesuai Permintaan karena instans Spot lebih murah. Masalah dengan instans Spot adalah bahwa mereka dapat diakhiri oleh AWS secara otomatis dengan a pemberitahuan dua menit . Ini bagus untuk latihan dan juga dalam beberapa skenario aktual. Instans spot dihentikan secara otomatis karena memiliki prioritas rendah di atas jenis instans lainnya. Klik 'Berikutnya'.

Langkah 5: Tentukan nama Cluster. dan klik 'Berikutnya'. Perhatikan bahwa 'Perlindungan penghentian' diaktifkan secara default, ini memastikan bahwa cluster EMR tidak terhapus secara tidak sengaja dengan memasukkan beberapa langkah saat menghentikan cluster.

Langkah 6: Di tab, opsi keamanan yang berbeda untuk cluster EMR ditentukan. KeyPair harus dipilih untuk masuk ke instans EC2. EMR secara otomatis akan membuat peran dan Grup Keamanan yang sesuai dan melampirkannya ke master dan node EC2 pekerja. Klik 'Buat cluster'.

Pembuatan kluster membutuhkan waktu beberapa menit karena instans EC2 harus dibeli dan perangkat lunak Big Data yang berbeda harus diinstal dan dikonfigurasi. Awalnya, status cluster akan berada dalam status 'Mulai' dan beralih ke status 'Menunggu'. Dalam status 'Menunggu', cluster EMR hanya menunggu kami mengirimkan tugas pemrosesan Big Data yang berbeda seperti MR, Spark, Hive, dll.

Selain itu, pemberitahuan dari EC2 Management Console dan perhatikan bahwa instans EC2 master dan pekerja harus dalam keadaan berjalan. Ini adalah instance Spot yang telah dibuat sebagai bagian dari pembuatan cluster EMR. EC2 yang sama juga dapat diamati dari tab Hardware di EMR Management Console. Perhatikan bahwa di tab Perangkat Keras harga untuk instans Spot EC2 disebutkan sebagai $ 0,032 / jam. Harga instans Spot terus berubah seiring waktu dan jauh lebih rendah daripada harga EC2 Sesuai Permintaan.

Langkah 7: Sekarang cluster EMR telah berhasil ditambahkan, Langkah-langkah atau pekerjaan pemrosesan Big Data dapat ditambahkan. Pergi ke tab Steps dan klik 'Add Step' dan pilih jenis Step (MR, Hive, Spark dll). Kami akan mengeksplorasi hal yang sama dalam tutorial mendatang. Untuk saat ini, klik Batal.

kelas bisa berubah dalam contoh java

Langkah 8: Sekarang kita telah melihat bagaimana memulai EMR, mari kita lihat bagaimana menghentikannya.

adalah hubungan di java

Langkah 8.1: Klik Hentikan.

Langkah 8.2: Seperti yang disebutkan di langkah sebelumnya, 'Perlindungan pemutusan' adalah On untuk EMR cluster dan tombol Terminate telah dinonaktifkan. Klik Ubah.

Langkah 8.3: Pilih radio button 'Off' dan klik pada tanda centang. Sekarang tombol Hentikan harus diaktifkan. Ini adalah langkah tambahan yang diperkenalkan EMR, hanya untuk memastikan bahwa kami tidak menghapus cluster EMR secara tidak sengaja.

Perhatikan bahwa cluster EMR akan berada dalam status Terminating dan EC2s akan dihentikan. Terakhir, klaster EMR akan dipindahkan ke status Dihentikan, dari sini penagihan kami dengan AWS berhenti. Pastikan untuk menghentikan klaster, agar tidak menimbulkan biaya AWS tambahan.

Kesimpulan

Dalam tutorial ini kita telah melihat bagaimana memulai cluster EMR dalam beberapa menit dari konsol web (browser), hal yang sama dapat dilakukan secara otomatis menggunakan , AWS SDK atau dengan menggunakan AWS CloudFormation . Seperti diketahui, menyiapkan cluster EMR dapat dilakukan hanya dalam hitungan menit dan pemrosesan Big Data dapat segera dimulai, setelah pemrosesan selesai, output dapat disimpan di S3 atau DynamoDB dan penutupan cluster untuk menghentikan penagihan. Karena model penetapan harga dan kemudahan penggunaan ini, EMR sangat populer bagi mereka yang melakukan pemrosesan Big Data. Tidak perlu membeli server dalam jumlah besar, dapatkan lisensi untuk perangkat lunak Big Data dan pertahankan. '

Jadi ini dia guys, ini membawa kita ke akhir artikel tentang Cara Membuat Cluster Hadoop Dengan Amazon EMR?Jika Anda ingin mendapatkan keahlian dalam bidang ini, Edureka telah membuat kurikulum yang mencakup dengan tepat, apa yang Anda perlukan untuk memecahkan Ujian Arsitek Solusi! Anda dapat melihat detail kursus untuk latihan.

Jika ada pertanyaan yang berhubungan dengan blog ini, silakan ajukan pertanyaan di bagian komentar di bawah dan kami akan dengan senang hati membalas Anda secepatnya.