Cloudera Hadoop: Memulai Distribusi CDH



Blog Edureka tentang Tutorial Cloudera Hadoop ini akan memberi Anda wawasan lengkap tentang berbagai komponen Cloudera seperti Cloudera Manager, Parcels, Hue, dll.

Dengan meningkatnya permintaan untuk Big Data, dan Apache Hadoopdijantung revolusi, telah mengubah cara kami mengatur dan menghitung data. Kebutuhan organisasi untuk menyelaraskan Hadoop dengan kebutuhan bisnis mereka telah memicu munculnya distribusi komersial. Distribusi Hadoop Komersial biasanya dikemas dengan fitur-fitur, yang dirancang untuk menyederhanakan penerapan Hadoop. Cloudera Hadoop Distribution menyediakan platform terukur, fleksibel, dan terintegrasi yang memudahkan pengelolaan volume dan variasi data yang meningkat pesat di perusahaan Anda.

Di blog ini di Cloudera Hadoop Distribution, kami akan membahas topik-topik berikut:





Cloudera Hadoop: Pengantar Hadoop

Hadoop adalah kerangka kerja sumber terbuka Apache yang menyimpan dan memproses Big Data dalam lingkungan terdistribusimelintasicluster menggunakan model pemrograman sederhana. Hadoop menyediakan komputasi paralel di atas penyimpanan terdistribusi.Untuk mempelajari lebih lanjut tentang Hadoop secara mendetail dari Anda bisa merujuk ke ini

Setelah pengantar singkat tentang Hadoop ini, izinkan saya sekarang menjelaskan berbagai jenis Distribusi Hadoop.



Cloudera Hadoop: Distribusi Hadoop

Karena Apache Hadoop adalah open source, banyak perusahaan telah mengembangkan distribusi yang melampaui kode sumber terbuka aslinya. Ini sangat mirip dengan distribusi Linux seperti RedHat, Fedora, dan Ubuntu. Setiap distribusi Linux mendukung fungsionalitas dan fiturnya sendiri seperti GUI yang ramah pengguna di Ubuntu. Demikian pula, topi merah populer di dalam perusahaan karena menawarkan dukungan dan juga menyediakan ideologi untuk membuat perubahan pada bagian mana pun dari sistem sesuka hati. Red Hat membebaskan Anda dari masalah kompatibilitas perangkat lunak. Ini biasanya menjadi masalah besar bagi penggunayang beralih dari Windows.

Demikian pula, ada 3 tipe utama distribusi Hadoop yang memiliki sekumpulan fungsi dan fiturnya sendiri dan dibangun di bawah basis HDFS.

Cloudera vs MapR vs Hortonworks

Gambar: MapR vs Hortonworks vs Cloudera

Gambar: MapR vs Hortonworks vs Cloudera



Distribusi Cloudera Hadoop

Cloudera adalah tren pasar di luar angkasa Hadoop dan merupakan yang pertama merilis distribusi Hadoop komersial. Ia menawarkan layanan konsultasi untuk menjembatani kesenjangan antara - 'apa yang disediakan Apache Hadoop' dan 'apa yang dibutuhkan organisasi'.

Distribusi Cloudera adalah:

  • Cepat untuk bisnis : Dari analitik hingga ilmu data dan segala sesuatu di antaranya, Cloudera memberikan kinerja yang Anda butuhkan untuk membuka potensi data tak terbatas.
  • Membuat Hadoop mudah dikelola : Dengan Cloudera Manager, wizard otomatis memungkinkan Anda menerapkan kluster dengan cepat, terlepas dari skala atau lingkungan penerapan.
  • Aman tanpa kompromi: Memenuhi keamanan data yang ketat dan kebutuhan kepatuhan tanpa mengorbankan ketangkasan bisnis. Cloudera menyediakan pendekatan terintegrasi untuk keamanan dan tata kelola data.

Horton-Works Distribusi

Horton-Works Data Platform (HDP) sepenuhnya merupakan platform sumber terbuka yang dirancang untuk melakukan manuver data dari banyak sumber dan format. Platform ini mencakup berbagai alat Hadoop seperti Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive, dan komponen tambahan.

Ini juga mendukung fitur seperti:

  • HDP membuat Hive lebih cepat melalui proyek Stinger barunya.
  • HDP menghindari penguncian vendor dengan berjanji ke versi bercabang dari Hadoop.
  • HDP difokuskan untuk meningkatkan kegunaan dari platform Hadoop.

Distribusi MapR

MapR adalah penyedia solusi Hadoop yang berfokus pada platform, seperti HortonWorks dan Cloudera. MapR mengintegrasikan sistem basis datanya sendiri, yang dikenal sebagai MapR-DB sambil menawarkan layanan distribusi Hadoop. MapR-DB diklaim empat hingga tujuh kali lebih cepat daripada database stok Hadoop, yaitu HBase, yang dijalankan pada distribusi lain.

Ini memiliki fitur menarik seperti:

  • Ini adalah satu-satunya distribusi Hadoop yang menyertakan Pig, Hive, dan Sqoop tanpa dependensi Java - karena bergantung pada MapR-File System.
  • MapR adalah distribusi Hadoop yang paling siap produksi dengan banyak peningkatan yang membuatnya lebih ramah pengguna, lebih cepat, dan dapat diandalkan.

Sekarang mari kita bahas Distribusi Cloudera Hadoop secara mendalam.

Berlangganan saluran YouTube kami untuk mendapatkan pembaruan baru ...

Cloudera Hadoop: Distribusi Cloudera

Cloudera adalah pemain paling terkenal di ruang Hadoop yang merilis distribusi Hadoop komersial pertama.

Gambar: Distribusi Cloudera Hadoop

Cloudera Hadoop Distribution mendukung serangkaian fitur berikut:

  1. CDH Cloudera terdiri dari semua komponen sumber terbuka, menargetkan penerapan kelas perusahaan, dan merupakan salah satu distribusi Hadoop komersial yang paling populer.
  2. Dikenal dengan inovasinya, Cloudera adalah yang pertama menawarkan SQL-untuk-Hadoop dengan nya Impala mesin kueri.
  3. Konsol manajemen - Manajer Cloudera , mudah digunakan dan diimplementasikan dengan antarmuka pengguna yang kaya yang menampilkan semua informasi cluster dengan cara yang terorganisir dan bersih.
  4. Di CDH Anda dapat menambahkan layanan ke cluster yang aktif dan sedang berjalan tanpa gangguan apa pun.
  5. Penambahan Cloudera lainnya termasuk keamanan, antarmuka pengguna, dan antarmuka untuk integrasi dengan aplikasi pihak ketiga.
  6. CDH menyediakan Template Node yaitu memungkinkan pembuatan sekelompok node dalam cluster Hadoop dengan konfigurasi yang bervariasi. Ini menghapus penggunaan konfigurasi yang sama di seluruh cluster Hadoop.
  7. Ini juga mendukung:
    • Keandalan
      Vendor Hadoop segera bertindak sebagai tanggapan setiap kali bug terdeteksi. Dengan maksud untuk membuat solusi komersial lebih stabil, tambalan dan perbaikan segera diterapkan.
    • Dukung
      Vendor Cloudera Hadoop memberikan panduan dan bantuan teknis yang memudahkan pelanggan untuk mengadopsi Hadoop untuk tugas tingkat perusahaan dan aplikasi penting.

    • Kelengkapan
      Vendor Hadoop memasangkan distribusi mereka dengan berbagai alat tambahan lainnya yang membantu pelanggan menyesuaikan aplikasi Hadoop untuk menangani tugas spesifik mereka.

Distribusi Cloudera hadir dengan 2 jenis edisi.

  1. Edisi Cloudera Express
  2. Cloudera Enterprise Edition

Sekarang mari kita lihat perbedaan di antara keduanya.

fitur Cloudera-Express Cloudera-Enterprise
Manajemen Cluster
1. Manajemen Multi-ClusterIyaIya
2. Manajemen Sumber DayaIyaIya
Penyebaran
1. Dukungan untuk CDH 4 dan 5IyaIya
2. Upgrade berkelanjutan dari CDHTidakIya
Manajemen Layanan dan Konfigurasi
1. Kelola layanan HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark, dan AccumuloIyaIya
2. Rolling restart layananTidakIya
Keamanan
1. Otentikasi LDAPTidakIya
2. Otentikasi SAMLTidakIya
Pemantauan dan Diagnostik
1. Riwayat KesehatanIyaIya
Manajemen Peringatan
1. Waspada melalui emailIyaIya
2. Waspada melalui SNMPTidakIya
Fitur Manajemen Lanjutan
1. Pencadangan dan pemulihan otomatisTidakIya
2. Penelusuran dan pencarian fileTidakIya
3. Laporan penggunaan MapReduce, Impala, HBase, BenangTidakIya

Cloudera Hadoop: Manajer Cloudera

Menurut Cloudera, Cloudera Manager adalah cara terbaik untuk melakukannya Install , konfigurasi , mengelola , dan monitor tumpukan Hadoop.

Ini menyediakan:

  1. Penerapan dan konfigurasi otomatis
  2. Pemantauan dan pelaporan yang dapat disesuaikan
  3. Pemecahan masalah yang tangguh dan mudah
  4. Zero - Pemeliharaan waktu henti

Dapatkan Pengetahuan mendalam tentang Cloudera Hadoop dan berbagai alatnya

Demonstrasi Manajer Cloudera

Mari kita jelajahi Cloudera Manager.

1. Gambar di bawah ini menunjukkan jumlah layanan yang saat ini berjalan di Cloudera Manager. Anda juga dapat melihat grafik tentang penggunaan CPU cluster, penggunaan Disk IO, dll.

Gambar: Beranda Cloudera Manager

algoritma semacam c ++

2. Gambar di bawah ini menunjukkan cluster HBase. Ini memberi Anda bagan dan grafik tentang kondisi kesehatan server REST HBase yang sedang berjalan.

Gambar: Kondisi Kesehatan server HBase

3. Sekarang, mari kita lihat tab Instances dari cluster HBase di mana Anda dapat memeriksa status dan konfigurasi IP.

Gambar: Status dan alamat IP dari Server Host cluster HBase

4. Selanjutnya, Anda memiliki tab Konfigurasi. Di sini Anda dapat melihat semua parameter konfigurasi dan mengubah nilainya.

Gambar: Konfigurasi cluster HBase

Sekarang, mari kita pahami apa itu Paket di Cloudera.

Cloudera Hadoop: Paket

Paket adalah format distribusi biner yang berisi file program, bersama dengan metadata tambahan yang digunakan oleh Cloudera Manager.

Paket berdiri sendiri dan diinstal di direktori berversi, yang berarti bahwa beberapa versi dari layanan tertentu dapat diinstal secara berdampingan.

Di bawah ini adalah keuntungan menggunakan Parcel:

  • Ini menyediakan distribusi CDH sebagai satu objek yaitu alih-alih memiliki paket terpisah untuk setiap bagian CDH, paket hanya memiliki satu objek untuk dipasang.

  • Ini menawarkan konsistensi internal (karena CDH lengkap didistribusikan sebagai satu paket, semua komponen CDH dicocokkan dan tidak akan ada risiko bagian yang berbeda datang dari versi CDH yang berbeda).

  • Anda dapat menginstal, meningkatkan, menurunkan, mendistribusikan, dan mengaktifkan paket dalam CDH dengan beberapa klik.

Sekarang, mari kita lihat bagaimana cara menginstal dan mengaktifkan layanan Kafka di CDH menggunakan Paket.

  1. Buka beranda manajer Cloudera >> Host >> Paket seperti yang ditunjukkan di bawah ini

    Gambar: Memilih parsel dari host

2. Jika Anda tidak melihat Kafka dalam daftar parsel, Anda dapat menambahkan parsel ke daftar.

  1. Temukan paket versi Kafka yang ingin Anda gunakan. Jika Anda tidak melihatnya, Anda dapat menambahkan repositori parsel ke daftar.
  2. Temukan paket untuk versi Kafka yang ingin Anda instal - Distribusi Cloudera Versi Apache Kafka .
    Gambar di bawah ini menunjukkan hal yang sama.

Gambar: Jalur repositori untuk parsel.

3. Salin tautan seperti yang ditunjukkan pada gambar di atas dan tambahkan ke Remote Parcel Repository seperti yang ditunjukkan di bawah ini.

Gambar: Penambahan jalur Kafka dari repositori

Empat.Setelah menambahkan jalur, Kafka akan siap untuk diunduh. Anda tinggal mengklik tombol unduh dan mengunduh Kafka.

Gambar: Mengunduh Kafka

5. Setelah Kafka diunduh, yang perlu Anda lakukan hanyalah mendistribusikan dan mengaktifkannya.

Gambar: Mengaktifkan Kafka

Setelah diaktifkan, Anda dapat melanjutkan dan melihat Kafka di tab layanan di manajer Cloudera.

Gambar: Layanan Kafka

Cloudera Hadoop: Membuat Alur Kerja Oozie

Membuat alur kerja dengan menulis kode XML secara manual dan kemudian menjalankannya, itu rumit. Anda bisa merujuk ini Menjadwalkan pekerjaan Oozie blog, untuk mengetahui tentang pendekatan tradisional.

Anda dapat melihat gambar di bawah ini, di mana kami telah menulis file XML untuk membuat alur kerja Oozie sederhana. Gambar: Membuat alur kerja Oozie menggunakan pendekatan Tradisional

Seperti yang Anda lihat, bahkan untuk membuat penjadwal Oozie sederhana, kami harus menulis kode XML yang sangat besar yang memakan waktu, dan men-debug setiap baris menjadi tidak praktis. Untuk mengatasinya, Cloudera Manager memperkenalkan fitur baru bernama Warna yang menyediakan GUI dan fitur seret dan lepas sederhana untuk membuat dan menjalankan alur kerja Oozie.

Sekarang mari kita lihat bagaimana Hue melakukan tugas yang sama dengan cara yang disederhanakan.

Sebelum membuat alur kerja, pertama-tama buat file input, yaitu clickstream.txt dan user.txt.
Di file user.txt, kami memiliki User Id, Nama, Usia, Negara, Jenis Kelamin seperti yang ditunjukkan di bawah ini. Kami membutuhkan file pengguna ini untuk mengetahui jumlah pengguna dan klik pada URL (disebutkan dalam file clickstream) berdasarkan User Id.

Gambar: Membuat file teks

Untuk mengetahui jumlah klik oleh pengguna di setiap URL, kami memiliki clickstream yang berisi User Id dan URL.

Gambar: File clickstream

Mari tulis kueri di file skrip.

Gambar: File skrip

Setelah membuat file pengguna, file clickstream, dan file script selanjutnya, kita dapat melanjutkan dan membuat alur kerja Oozie.

1. Anda cukup menarik dan melepas alur kerja Oozie seperti yang ditunjukkan pada gambar.

Gambar: Fitur drag and drop untuk membuat alur kerja Oozie

2. Segera setelah menghentikan tindakan Anda, Anda harus menentukan jalur ke file skrip dan menambahkan parameter yang disebutkan di file skrip. Di sini Anda perlu menambahkan parameter OUTPUT, CLICKSTREAM, dan PENGGUNA dan menentukan jalur ke setiap parameter.

Gambar: Menambahkan file skrip dan Parameter yang diperlukan untuk menjalankan tindakan

3. Setelah Anda menentukan jalur dan menambahkan parameter, sekarang cukup simpan dan kirimkan alur kerja seperti yang ditunjukkan pada gambar di bawah ini.

Gambar: Menyimpan dan mengirimkan tindakan Oozie

4. Setelah Anda mengirimkan tugas, pekerjaan Anda selesai. Eksekusi dan langkah-langkah lainnya ditangani oleh Hue.

Gambar: Status eksekusi pekerjaan Oozie

__init__ python 3

5.Sekarang kita telah menjalankan tugas Oozie, mari kita lihat tab tindakan. Ini berisi ID pengguna dan status alur kerja. Ini juga menunjukkan kode kesalahan jika ada, waktu mulai dan akhir dari item tindakan.

Gambar: Elemen yang ada di tab tindakan alur kerja Oozie

6. Di sebelah tab tindakan adalah tab rincian. Dalam hal ini, kita dapat melihat waktu mulai dan waktu modifikasi terakhir dari pekerjaan tersebut.

Gambar: Detail alur kerja Oozie.

7. Di samping tab Detail, kami memiliki tab Konfigurasi alur kerja.

Gambar: Pengaturan konfigurasi alur kerja Oozie

7. Saat menjalankan item tindakan, jika ada kesalahan, itu akan dicantumkan di tab Log. Anda dapat merujuk ke pernyataan kesalahan dan men-debugnya.

Gambar: File log yang berisi kode kesalahan dan pernyataan kesalahan

8. Berikut adalah kode XML dari alur kerja yang secara otomatis dihasilkan oleh Hue.

Gambar: Kode XML alur kerja Oozie

9.1. Karena Anda telah menentukan jalur untuk direktori keluaran pada langkah 2, di sini Anda memiliki direktori keluaran di Browser HDFS seperti yang ditunjukkan di bawah ini.

Gambar: Direktori keluaran Browser HDFS

9.2 Setelah Anda mengklik direktori output, Anda akan menemukan file teks bernama output.txt dan file teks tersebut berisi output aktual seperti yang ditunjukkan pada gambar di bawah.

Gambar: Teks keluaran akhir

Beginilah cara Hue membuat pekerjaan kami sederhana dengan menyediakan opsi seret dan lepas untuk membuat alur kerja Oozie.

Saya harap blog ini berguna untuk memahami Distribusi Cloudera dan Komponen Cloudera yang berbeda.

Ingin ambil bagian dalam revolusi Big Data?

Sekarang Anda telah memahami Distribusi Cloudera Hadoop, periksa oleh Edureka, perusahaan pembelajaran online tepercaya dengan jaringan lebih dari 250.000 pelajar yang puas dan tersebar di seluruh dunia. Kursus Pelatihan Sertifikasi Edureka Big Data Hadoop membantu peserta didik menjadi ahli dalam domain HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume, dan Sqoop menggunakan kasus penggunaan waktu nyata pada Ritel, Media Sosial, Penerbangan, Pariwisata, domain Keuangan.

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dan kami akan menghubungi Anda kembali.