Big Data Di AWS - Solusi Cerdas Untuk Big Data



Artikel ini membantu Anda memahami bagaimana AWS menangani Big Data dengan cerdas. Ini juga menunjukkan bagaimana AWS dapat menyelesaikan tantangan Big Data dengan mudah.

Ide Big Data bukanlah hal baru, ia ada di mana-mana. Efek Big Data ada di mana-mana, dari bisnis hingga sains, dari pemerintah hingga seni, dan sebagainya. Tidak ada teman yang lebih baik daripada untuk memproses dan menganalisis Big Data. Dalam artikel ini, saya akan menunjukkan bagaimana AWS mengatasi tantangan Big Data dan petunjuk yang akan saya bahas adalah sebagai berikut:

Apa itu Big Data?

karakteristik data besar





Anda dapat menganggap Big data sebagai aset informasi bervolume tinggi, berkecepatan tinggi, dan / atau beragam yang menuntut bentuk pemrosesan informasi inovatif yang hemat biaya yang memungkinkan peningkatan wawasan, pengambilan keputusan, dan otomatisasi proses.

Big Data terdiri dari 5 V penting yang mendefinisikan karakteristik Big Data. Mari kita bahas yang berikut ini sebelum pindah ke AWS.



Apa itu AWS?

terdiri dari berbagai produk dan layanan komputasi awan. Divisi Amazon yang sangat menguntungkan menyediakan server, penyimpanan, jaringan, komputasi jarak jauh, email, pengembangan seluler bersama dengan keamanan. Selanjutnya. AWS terdiri dari dua produk utama: EC2, layanan mesin virtual Amazon, dan S3, sistem penyimpanan oleh Amazon. Ini sangat besar dan hadir di dunia komputasi sehingga sekarang setidaknya 10 kali lebih besar dari pesaing terdekatnya dan menjadi tuan rumah situs web populer seperti Netflix dan Instagram.

.

AWS dibagi menjadi 12 wilayah global di seluruh dunia, yang masing-masing memiliki beberapa zona ketersediaan tempat servernya berada.Wilayah yang dilayani ini dibagi untuk memungkinkan pengguna menetapkan batas geografis pada layanan mereka, tetapi juga untuk memberikan keamanan dengan mendiversifikasi lokasi fisik tempat data disimpan.



Mengapa Big Data di AWS?

Ilmuwan, pengembang, dan penggemar teknologi lainnya dari banyak domain yang berbeda memanfaatkan AWS untuk melakukan analitik data besar dan memenuhi tantangan kritis dari meningkatnya V informasi digital. AWS menawarkan kepada Anda portofolio layanan komputasi awan untuk membantu mengelola data besar dengan mengurangi biaya secara signifikan, menskalakan untuk memenuhi permintaan, dan meningkatkan kecepatan inovasi.

Amazon Web Services menyediakan portofolio yang terintegrasi penuh layanan komputasi awan. Selain itu, ini membantu Anda membangun, mengamankan, dan menerapkan aplikasi data besar Anda. Selain itu, dengan AWS, Anda tidak memerlukan perangkat keras untuk pengadaan dan infrastruktur untuk memelihara dan menskalakan. Oleh karena itu, Anda dapat memfokuskan sumber daya untuk mengungkap wawasan baru.Karena fitur baru terus ditambahkan, Anda akan selalu dapat memanfaatkan teknologi terbaru tanpa perlu membuat komitmen investasi jangka panjang.

Bagaimana AWS dapat mengatasi Tantangan Big Data?

Solusi AWS untuk Big Data

AWS memiliki banyak solusi untuk semua tujuan pengembangan dan penerapan. Selain itu, di bidang Ilmu Data dan Big Data, AWS telah menghadirkan perkembangan terkini dalam berbagai aspek penanganan Big Data. Sebelum beralih ke alat, mari kita pahami berbagai aspek Big Data yang solusinya dapat diberikan oleh AWS.

  1. Penyerapan Data
    Mengumpulkan data mentah - transaksi, log, perangkat seluler, dan lainnya - adalah tantangan pertama yang dihadapi banyak organisasi saat berurusan dengan data besar. Platform big data yang baik membuat langkah ini lebih mudah, memungkinkan developer menyerap berbagai macam data - dari yang terstruktur hingga tidak terstruktur - dengan kecepatan apa pun - dari waktu nyata hingga batch.

  2. Penyimpanan Data
    Semua platform data besar memerlukan repositori yang aman, dapat diskalakan, dan tahan lama untuk menyimpan data sebelum atau bahkan setelah tugas pemrosesan. Bergantung pada kebutuhan spesifik Anda, Anda mungkin juga memerlukan penyimpanan sementara untuk data-in-transit.

  3. Pengolahan data
    Ini adalah langkah di mana transformasi data terjadi dari keadaan mentahnya menjadi format yang dapat dikonsumsi - biasanya dengan cara menyortir, menggabungkan, menggabungkan, dan bahkan menjalankan fungsi dan algoritme yang lebih canggih. Kumpulan data yang dihasilkan menjalani penyimpanan untuk diproses lebih lanjut atau tersedia untuk konsumsi melalui kecerdasan bisnis dan alat visualisasi data.

  4. Visualisasi

    Big data adalah tentang mendapatkan wawasan bernilai tinggi dan dapat ditindaklanjuti dari aset data Anda. Idealnya, data tersedia untuk pemangku kepentingan melalui kecerdasan bisnis swalayan dan alat visualisasi data tangkas yang memungkinkan eksplorasi kumpulan data dengan cepat dan mudah.

Alat AWS untuk Big Data

Di bagian sebelumnya, kami melihat bidang di Big Data tempat AWS dapat memberikan solusi. Selain itu, AWS memiliki banyak alat dan layanan di gudang senjatanya untuk memungkinkan pelanggan dengan kemampuan Big Data.

Mari kita lihat berbagai solusi yang disediakan oleh AWS untuk menangani berbagai tahapan yang terlibat dalam menangani Big Data

adalah git dan github sama

Proses menelan

  1. Kinesis

    Amazon Kinesis Firehose adalah layanan yang dikelola sepenuhnya untuk mengirimkan data streaming waktu nyata langsung ke Amazon S3. Kinesis Firehose secara otomatis menskalakan untuk menyesuaikan volume dan throughput data streaming dan tidak memerlukan administrasi berkelanjutan. Anda dapat mengonfigurasi Kinesis Firehose untuk mengubah data streaming sebelum Anda menyimpannya di Amazon S3.

  2. Semakin bertambah
    Kamu bisa memakai Bola Salju AWS untuk memigrasi data massal dengan aman dan efisien dari platform penyimpanan di lokasi dan kluster Hadoop ke bucket S3. Setelah Anda membuat pekerjaan di AWS Management Console, Anda secara otomatis mendapatkan alat Bola Salju. Setelah Snowball tiba, hubungkan ke jaringan lokal Anda, instal klien Snowball di sumber data lokal Anda, lalu gunakan klien Snowball untuk memilih dan mentransfer direktori file ke perangkat Snowball.

Penyimpanan

  1. Amazon S3

Amazon S3 adalah penyimpanan objek yang aman, sangat skalabel, dan tahan lama dengan latensi milidetik untuk akses data. S3 dapat menyimpan semua jenis data dari mana saja - situs web dan aplikasi seluler, aplikasi perusahaan, dan data dari sensor atau perangkat IoT. Itu juga dapat menyimpan dan mengambil data dalam jumlah berapa pun, dengan ketersediaan yang tak tertandingi, dan dibangun dari bawah ke atas untuk memberikan 99.999999999% (11 sembilan) daya tahan.

2. AWS Glue

Glue adalah layanan terkelola sepenuhnya yang menyediakan katalog data untuk membuat data di data lake dapat ditemukan. Selain itu, ia memiliki kemampuan untuk mengekstrak, mentransformasikan, dan memuat (ETL) untuk menyiapkan data untuk analisis. Selain itu, katalog data bawaan seperti penyimpanan metadata yang persisten untuk semua aset data, membuat semua data dapat dicari, dan dapat dikueri dalam satu tampilan.

Pengolahan

  1. EMR
    Untuk pemrosesan data besar menggunakan Spark dan Hadoop, Amazon EMR menyediakan layanan terkelola yang memudahkan, cepat, dan hemat biaya untuk memproses data dalam jumlah besar. Selain itu, EMR mendukung 19 proyek sumber terbuka yang berbeda termasuk Hadoop , Percikan , dan Juga dilengkapi dengan Notebook EMR terkelola untuk rekayasa data, pengembangan ilmu data, dan kolaborasi.

  2. Redshift
    Untuk data warehousing, Amazon Redshift memberikan kemampuan untuk menjalankan kueri analitik yang kompleks terhadap petabyte data terstruktur. Juga termasuk Redshift Spectrum yang menjalankan kueri SQL secara langsung terhadap Exabyte data terstruktur atau tidak terstruktur di S3 tanpa perlu perpindahan data yang tidak perlu.

Visualisasi

  1. Amazon QuickSight

    Untuk dasbor dan visualisasi, Amazon Quicksight memberi Anda layanan analitik bisnis yang cepat dan bertenaga cloud. Itu membuatnya mudah untuk membangun visualisasi yang menakjubkan dan dasbor yang kaya. Selain itu, Anda dapat mengaksesnya dari browser atau perangkat seluler apa pun.

Demo - Menganalisis Data Spesies Tumbuhan dan Hewan yang Terancam Punah di Australia.

Dalam Demo ini, kami akan menggunakan data sampel spesies tumbuhan dan hewan yang terancam punah dari negara bagian dan teritori Australia. Di sini kita akan membuat cluster EMR dan mengkonfigurasinya untuk menjalankan pekerjaan Apache Hive multi-langkah. Cluster EMR akan menginstal Apache Hive di dalamnya. Kluster ini akan menggunakan EMRFS sebagai sistem file, sehingga lokasi input dan output datanya dipetakan ke bucket S3. Kluster juga akan menggunakan bucket S3 yang sama untuk menyimpan file log.

Kami sekarang akan membuat sejumlah langkah EMR di cluster untuk memproses kumpulan sampel data. Di sini, setiap langkah ini akan menjalankan skrip Hive, dan hasil akhir akan disimpan ke bucket S3. Langkah-langkah ini akan menghasilkan log MapReduce dan itu karena perintah Hive diterjemahkan ke pekerjaan MapReduce pada saat dijalankan. File log untuk setiap langkah dikumpulkan dari penampung yang dimunculkan.

Contoh data

Kumpulan data sampel untuk kasus penggunaan ini tersedia untuk umum dari Situs data terbuka pemerintah Australia . Kumpulan data ini tentang spesies tumbuhan dan hewan terancam dari berbagai negara bagian dan teritori di Australia. Deskripsi bidang kumpulan data ini dan file CSV dapat dilihat dan diunduh sini .

Langkah Pengolahan

Langkah pekerjaan EMR pertama di sini melibatkan pembuatan tabel Hive sebagai skema untuk file sumber yang mendasari di S3. Pada langkah pekerjaan kedua, sekarang kita akan menjalankan kueri yang berhasil terhadap data. Demikian pula, kami kemudian akan menjalankan kueri ketiga dan keempat.

Kami akan mengulangi keempat langkah ini beberapa kali dalam satu jam, menyimulasikan proses multi-langkah pekerjaan yang berjalan berurutan. Namun, dalam skenario kehidupan nyata, perbedaan waktu antara setiap batch yang dijalankan biasanya bisa jauh lebih tinggi. Kesenjangan waktu kecil antara operasi berturut-turut dimaksudkan untuk mempercepat pengujian kami.

S3 Bucket dan Folder

Sebelum membuat cluster EMR kami, di sini kami harus membuat bucket S3 untuk menampung file-filenya. Dalam contoh kami, kami memberi nama bucket ini 'arvind1-bucket'. Folder di bawah bucket ini ditunjukkan di bawah ini di AWS Console untuk S3:

tabel periodik alat devops

  • Folder masukan menyimpan data sampel

  • Folder skrip berisi file skrip sarang untuk langkah-langkah pekerjaan EMR

  • Folder keluaran jelas akan menampung keluaran program Hive

  • Kluster EMR menggunakan folder log untuk menyimpan file lognya.

Hive Scripts untuk EMR Job Steps

1. Langkah pekerjaan ini menjalankan skrip Hiveuntuk membuat tabel Hive eksternal. Tabel ini menjelaskan skema tabel dari file data CSV yang mendasarinya. Skrip untuk ini adalah sebagai berikut:

BUAT TABEL EKSTERNAL `spesies_ terancam` (string` nama ilmiah`, string `nama umum`, string` nama ilmiah saat ini, string `status terancam`, string` tindakan`, string `nsw`, string` nt`, `qld` string, string `sa`, string` tas`, string `vic`, string` wa`, string `aci`, string` cki`, string `ci`, string` csi`, string `jbt`,` nfi` string, string `hmi`, string` aat`, string `cma`,` terdaftar sprat taxonid` bigint, `current sprat taxonid` bigint, string` kingdom`, string `class`, string` profile`, `tanggal diekstrak` string, string `nsl name`, string` family`, string `genus`, string` species`, string `infraspecific rank`, string` infraspecies`, string `species author`, string` infraspecies author`) ROW FORMAT DELIMITED FIELDS DIHENTIKAN OLEH ',' DISIMPAN SEBAGAI INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script /'

2. Langkah pekerjaan ini menjalankan kueri untuk menghitung lima spesies yang terancam punah di negara bagian New South Wales (NSW). Nama file kueri sarang adalah endangeredSpeciesNSW.q dan itu ditunjukkan di bawah ini:

PILIH spesies, JUMLAH (nsw) AS number_of_endangered_species FROMancam_spesies DIMANA (nsw = 'Ya' OR nsw = 'Terancam Punah') DAN 'status terancam' = 'Terancam Punah' KELOMPOK OLEH spesies HAVING COUNT (nsw)> 1 ORDER BY number_of_endangered_species DESC LIMIT 5

3.Langkah pekerjaan ini menjalankan kueri untuk menghitung jumlah total spesies tanaman yang terancam punah untuk setiap keluarga tanaman di Australia. Nama file kueri sarang adalahendangeredPlantSpecies.qdan ditampilkan di bawah

PILIH famili, JUMLAH (spesies) AS number_of_endangered_species FROMancam_species2 WHERE kingdom = 'Plantae' DAN 'status terancam' = 'Endangered' GROUP BY family

4. Langkah ini mencantumkan nama ilmiah spesies hewan yang punah di negara bagian Queensland Australia. File skrip dipanggil extinctAnimalsQLD.q dan ditunjukkan di bawah ini:

apa prosedur di sql
PILIH 'nama umum', 'nama ilmiah' FROM terancam_species WHERE kingdom = 'Animalia' AND (qld = 'Yes' OR qld = 'Extinct') AND 'status terancam' = 'Punah'

Agregasi Log

Di sini kami juga telah mengunggah file JSON bernama logAggregation.json di folder skrip bucket S3. Kami menggunakan file ini untuk menggabungkan file log YARN. Agregasi log dikonfigurasi di file konfigurasi yarn-site.xml saat cluster dimulai. Isi dari file logAggregation.json adalah sebagai berikut:

[{'Klasifikasi': 'yarn-site', 'Properties': {'yarn.log-aggregation-enable': 'true', 'yarn.log-aggregation.retain-seconds': '-1', 'yarn .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / logs ”}}]

Setelah Anda membuat bucket S3 dan menyalin file data dan skrip ke foldernya masing-masing, sekarang saatnya menyiapkan cluster EMR. Snapshot berikut menjelaskan proses saat kami membuat cluster dengan sebagian besar pengaturan default.

Penyiapan Kluster EMR

Pada gambar pertama, untuk mengonfigurasi klaster di konsol AWS, kami telah menyimpan semua aplikasi yang direkomendasikan oleh EMR, termasuk Hive. Kami tidak perlu menggunakan AWS Glue untuk menyimpan metadata Hive, kami juga tidak menambahkan langkah pekerjaan apa pun untuk saat ini. Namun, kami perlu menambahkan pengaturan perangkat lunak untuk Hive. Di sini Anda harus mengamati dengan cermat bagaimana kami menentukan jalur ke file JSON agregasi log di bidang ini.

Pada langkah selanjutnya, kami menyimpan semua pengaturan default. Demi pengujian kami, cluster akan memiliki satu node master dan dua node inti. Setiap node di sini adalah instance m3.xlarge dan memiliki volume root 10 GB. Kami memberi nama cluster arvind1-cluster di langkah berikutnya, dan menentukan lokasi s3 kustom untuk file log-nya.

Terakhir, kami menetapkan pasangan kunci EC2 untuk tujuan mengakses node master cluster. Tidak ada perubahan dalam peran IAM default untuk EMR, profil instans EC2, dan opsi skala otomatis. Selain itu, node master dan inti menggunakan grup keamanan default yang tersedia. Biasanya, ini adalah pengaturan default untuk cluster EMR. Setelah semuanya siap, cluster berada dalam status 'menunggu' seperti yang ditunjukkan di bawah ini:

Kirimkan Langkah-Langkah Pekerjaan Hive

Setelah ini, kami perlu mengizinkan akses SSH.

  1. Buka konsol Amazon EMR di https://console.aws.amazon.com/elasticmapreduce/ .
  2. Memilih Kluster .
  3. Memilih Nama dari cluster.
  4. Dibawah Keamanan dan akses memilih Grup keamanan untuk Master tautan.
  5. Memilih ElasticMapReduce-master dari daftar.
  6. Memilih Masuk , Edit .
  7. Temukan aturan dengan pengaturan berikut dan pilih x ikon untuk menghapusnya:
    • Tipe SSH
    • Pelabuhan 22
    • Sumber Kustom 0.0.0.0/0
  8. Gulir ke bagian bawah daftar aturan dan pilih Tambahkan Aturan .
  9. Untuk Tipe , Pilih SSH Ini secara otomatis masuk TCP untuk Protokol dan 22 untuk Rentang Port .
  10. Untuk sumber, pilih IP ku Ini secara otomatis menambahkan alamat IP komputer klien Anda sebagai alamat sumber. Atau, Anda dapat menambahkan berbagai Adat alamat IP klien tepercaya dan pilih untuk tambahkan aturannya untuk membuat aturan tambahan untuk klien lain. Di banyak lingkungan jaringan, Anda mengalokasikan alamat IP secara dinamis, jadi Anda mungkin perlu mengedit aturan grup keamanan secara berkala untuk memperbarui alamat IP klien tepercaya.
  11. Memilih Menyimpan .
  12. Secara opsional, pilih ElasticMapReduce-slave dari daftar dan ulangi langkah-langkah di atas untuk mengizinkan akses klien SSH ke node inti dan tugas dari klien tepercaya.

Sejak cluster EMR aktif dan berjalan, kami telah menambahkan empat langkah pekerjaan. Ini adalah langkah-langkah EMR berjalan satu demi satu. Gambar berikut menunjukkan langkah-langkah dari konsol AWS EMR:

Setelah kami menambahkan empat langkah, kami dapat memeriksa status langkah-langkah tersebut sebagai selesai. Bahkan jika ada masalah dengan pelaksanaan langkah-langkah ini, maka dalam kasus seperti itu dapat diselesaikan dengan menggunakan file log dari langkah-langkah ini.

Jadi ini dari sisi saya di artikel ini tentang Big Data di AWS. Saya harap Anda memahami semua yang telah saya jelaskan di sini.

Jika Anda merasa Big Data di AWS ini relevan, Anda dapat melihat kursus langsung Edureka dan kursus yang dipandu instruktur , diciptakan bersama oleh praktisi industri.

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar dari Cara Menerapkan Aplikasi Web Java di AWS dan kami akan menghubungi Anda kembali.