Informatica ETL: Panduan Pemula Untuk Memahami ETL Menggunakan Informatica PowerCenter



Memahami konsep Informatica ETL dan berbagai tahapan proses ETL dan mempraktikkan kasus penggunaan yang melibatkan database Karyawan.

Tujuan dari Informatica ETL adalah untuk menyediakan pengguna, tidak hanya proses mengekstraksi data dari sistem sumber dan membawanya ke gudang data, tetapi juga menyediakan pengguna dengan platform umum untuk mengintegrasikan data mereka dari berbagai platform dan aplikasi.Hal ini menyebabkan peningkatan permintaan .Sebelum kita berbicara tentang Informatica ETL, mari kita pahami dulu mengapa kita membutuhkan ETL.

Mengapa Kita Membutuhkan ETL?

Setiap perusahaanhari-hari ini harus memproses kumpulan data yang besar dari berbagai sumber. Data ini perlu diolah untuk memberikan informasi yang berguna untuk pengambilan keputusan bisnis. Namun, seringkali data semacam itu memiliki tantangan berikut:





  • Perusahaan besar menghasilkan banyak data dan potongan data yang sangat besar dapat dalam format apa pun. Mereka akan tersedia dalam banyak database dan banyak file tidak terstruktur.
  • Data ini harus disusun, digabungkan, dibandingkan, dan dibuat agar berfungsi sebagai satu kesatuan yang mulus. Tetapi database yang berbeda tidak berkomunikasi dengan baik!
  • Banyak organisasi telah mengimplementasikan antarmuka antara database ini, tetapi mereka menghadapi tantangan berikut:
    • Setiap pasang database membutuhkan antarmuka yang unik.
    • Jika Anda mengubah satu database, banyak antarmuka mungkin harus diupgrade.

Di bawah ini Anda dapat melihat berbagai database organisasi dan interaksinya:

Berbagai Dataset Organisasi - Informatica - ETL - Edureka

Berbagai Basis Data digunakan oleh berbagai departemen dalam suatu organisasi



Interaksi Berbeda dari Basis Data dalam Organisasi

Seperti yang terlihat di atas, organisasi mungkin memiliki berbagai database di berbagai departemennya dan interaksi di antara mereka menjadi sulit untuk diterapkan karena berbagai antarmuka interaksi harus dibuat untuk mereka. Untuk mengatasi tantangan tersebut, solusi terbaik yang mungkin dilakukan adalah dengan menggunakan konsep Integrasi data yang memungkinkan data dari database dan format berbeda untuk berkomunikasi satu sama lain. Gambar di bawah membantu kita memahami, bagaimana alat Integrasi Data menjadi antarmuka umum untuk komunikasi antara berbagai database.

Berbagai Database terhubung melalui Integrasi Data



Tetapi ada proses berbeda yang tersedia untuk melakukan Integrasi Data. Di antara proses-proses tersebut, ETL adalah proses yang paling optimal, efisien, dan andal. Melalui ETL, pengguna tidak hanya dapat membawa data dari berbagai sumber, tetapi mereka dapat melakukan berbagai operasi pada data sebelum menyimpan data ini ke target akhir.

Di antara berbagai alat ETL yang tersedia di pasar, Informatica PowerCenter adalah platform integrasi data terkemuka di pasar. Setelah menguji hampir 500.000 kombinasi platform dan aplikasi, Informatica PowerCenter inter beroperasi dengan jangkauan seluas mungkin dari standar, sistem, dan aplikasi yang berbeda. Mari kita sekarang memahami langkah-langkah yang terlibat dalam proses ETL Informatica.

ETL Informatika | Arsitektur Informatica | Tutorial Informatica PowerCenter | Edureka

Tutorial Edureka Informatica ini membantu Anda memahami dasar-dasar ETL menggunakan Informatica Powercenter secara detail.

Langkah-langkah dalam Proses ETL Informatica:

Sebelum kita beralih ke berbagai langkah yang terlibat dalam Informatica ETL, Mari kita memiliki gambaran umum tentang ETL. Dalam ETL, Ekstraksi adalah tempat data diekstraksi dari sumber data homogen atau heterogen, Transformasi di mana data diubah untuk disimpan dalam format atau struktur yang tepat untuk keperluan kueri dan analisis dan Memuat di mana data dimuat ke dalam database target akhir, penyimpanan data operasional, data mart, atau gudang data. Gambar di bawah ini akan membantu Anda memahami bagaimana proses ETL Informatica berlangsung.

Ikhtisar Proses ETL

Seperti yang terlihat di atas, Informatica PowerCenter dapat memuat data dari berbagai sumber dan menyimpannya ke dalam satu gudang data. Sekarang, mari kita lihat langkah-langkah yang terlibat dalam proses ETL Informatica.

Terutama ada 4 langkah dalam proses ETL Informatica, mari kita sekarang memahaminya secara mendalam:

  1. Ekstrak atau Tangkap
  2. Gosok atau Bersihkan
  3. Mengubah
  4. Beban dan Indeks

1. Ekstrak atau Tangkap: Seperti yang terlihat pada gambar di bawah, Capture atau Extract adalah langkah pertama dari proses ETL Informatica.Ini adalah proses untuk mendapatkan cuplikan dari subset data yang dipilih dari sumber, yang harus dimuat ke dalam gudang data. Snapshot adalah tampilan statis hanya-baca dari data dalam database. Proses Ekstrak dapat terdiri dari dua jenis:

  • Ekstrak lengkap: Data diekstrak sepenuhnya dari sistem sumber dan tidak perlu melacak perubahan pada sumber data sejak ekstraksi terakhir yang berhasil.
  • Ekstrak tambahan: Ini hanya akan menangkap perubahan yang telah terjadi sejak ekstraksi penuh terakhir.

Tahap 1: Ekstrak atau Tangkap

2. Gosok atau Bersihkan: Ini adalah proses pembersihan data yang berasal dari sumbernya dengan menggunakan berbagai pengenalan pola dan teknik AI untuk meningkatkan kualitas data yang diambil. Biasanya, kesalahan seperti salah eja, tanggal yang salah, penggunaan bidang yang salah, alamat yang tidak cocok, data yang hilang, data duplikat, inkonsistensi adalahdisorot dan kemudian dikoreksi atau dihapusdi langkah ini. Selain itu, operasi seperti decoding, format ulang, cap waktu, konversi, pembuatan kunci, penggabungan, deteksi kesalahan / logging, mencari data yang hilang dilakukan pada langkah ini. Seperti yang terlihat pada gambar di bawah ini, ini adalah langkah kedua dari proses ETL Informatica.

Tahap 2: Menggosok atau Membersihkan data

3. Transformasi: Seperti yang terlihat pada gambar di bawah ini, ini adalah langkah ketiga dan terpenting dari proses ETL Informatica. Transformasi adalah operasi pengubahan data dari format sistem sumber ke kerangka Data Warehouse. Transformasi pada dasarnya digunakan untuk merepresentasikan seperangkat aturan, yang menentukan aliran data dan bagaimana data dimuat ke dalam target. Untuk mengetahui lebih banyak tentang Transformasi, lihat Transformasi di Informatica Blog.

Tahap 3: Transformasi

apa arti __init__ dengan python

4. Beban dan Indeks: Ini adalah langkah terakhir dari proses ETL Informatica seperti yang terlihat pada gambar di bawah ini. Pada tahap ini, kami menempatkan data yang telah diubah ke dalam gudang dan membuat indeks untuk data tersebut. Ada dua jenis beban data utama yang tersedia berdasarkan proses pemuatan:

  • Beban Penuh atau Beban Massal :Proses pemuatan data saat kami melakukannya pertama kali. Pekerjaan mengekstrak seluruh volume data dari tabel sumber dan memuat ke gudang data target setelah menerapkan transformasi yang diperlukan. Ini akan menjadi pekerjaan satu kali yang dijalankan setelah itu perubahan saja akan diambil sebagai bagian dari ekstrak tambahan.
  • Beban tambahan atau Segarkan beban : Data yang dimodifikasi sendiri akan diperbarui sesuai target diikuti dengan muatan penuh. Perubahan akan diambil dengan membandingkan tanggal dibuat atau diubah dengan tanggal terakhir pekerjaan dijalankan.Data yang dimodifikasi sendiri diekstrak dari sumber dan akan diperbarui di target tanpa memengaruhi data yang ada.

Tahap 4: Beban dan Indeks

Jika Anda telah memahami proses ETL Informatica, kami sekarang berada dalam posisi yang lebih baik untuk memahami mengapa Informatica adalah solusi terbaik dalam kasus seperti itu.

Fitur Informatica ETL:

Untuk semua integrasi Data dan operasi ETL, Informatica telah memberi kami Informatica PowerCenter . Sekarang, mari kita lihat beberapa fitur utama Informatica ETL:

  • Menyediakan fasilitas untuk menentukan sejumlah besar aturan transformasi dengan GUI.
  • Hasilkan program untuk mengubah data.
  • Tangani berbagai sumber data.
  • Mendukung ekstraksi data, pembersihan, agregasi, reorganisasi, transformasi, dan operasi pemuatan.
  • Secara otomatis menghasilkan program untuk ekstraksi data.
  • Pemuatan gudang data target berkecepatan tinggi.

Di bawah ini adalah beberapa skenario umum di mana Informatica PowerCenter digunakan:

  1. Migrasi data:

Sebuah perusahaan telah membeli Aplikasi Hutang Usaha baru untuk departemen akunnya. PowerCenter dapat memindahkan data akun yang ada ke aplikasi baru. Gambar di bawah ini akan membantu Anda memahami bagaimana Anda dapat menggunakan Informatica PowerCenter untuk migrasi Data. Informatica PowerCenter dapat dengan mudah mempertahankan garis keturunan data untuk pajak, akuntansi, dan tujuan lain yang diamanatkan secara hukum selama proses migrasi data.

Migrasi Data dari aplikasi Akuntansi Lama ke Aplikasi baru

  1. Integrasi Aplikasi:

Misalkan Perusahaan-A membeli Perusahaan-B. Jadi, untuk mencapai manfaat konsolidasi, sistem billing Perusahaan-B harus diintegrasikan ke dalam sistem billing Perusahaan-A yang dapat dilakukan dengan mudah menggunakan Informatica PowerCenter. Gambar di bawah ini akan membantu Anda memahami bagaimana Anda dapat menggunakan Informatica PowerCenter untuk integrasi aplikasi antara perusahaan.

Mengintegrasikan Aplikasi antar Perusahaan

  1. Data pergudangan

Tindakan khas yang diperlukan di gudang data adalah:

  • Menggabungkan informasi dari banyak sumber bersama untuk analisis.
  • Memindahkan data dari banyak database ke Data warehouse.

Semua kasus tipikal di atas dapat dengan mudah dilakukan menggunakan Informatica PowerCenter. Di bawah ini, Anda dapat melihat Informatica PowerCenter digunakan untuk menggabungkan data dari berbagai jenis database seperti Oracle, SalesForce, dll. Dan membawanya ke gudang data umum yang dibuat oleh Informatica PowerCenter.

Data Dari berbagai database yang terintegrasi ke gudang Data umum

  1. Middleware

Katakanlah sebuah organisasi ritel menggunakan SAP R3 untuk aplikasi Ritelnya dan SAP BW sebagai gudang datanya. Komunikasi langsung antara dua aplikasi ini tidak dimungkinkan karena kurangnya antarmuka komunikasi. Namun, Informatica PowerCenter dapat digunakan sebagai Middleware antara dua aplikasi ini. Pada gambar di bawah ini Anda dapat melihat arsitektur bagaimana Informatica PowerCenter digunakan sebagai middleware antara SAP R / 3 dan SAP BW. Aplikasi dari SAP R / 3 mentransfer datanya ke kerangka kerja ABAP yang kemudian mentransfernya keSAP Point of Sale (POS) dan SAPTagihan Layanan (BOS). Informatica PowerCenter membantu transfer data dari layanan ini ke SAP Business Warehouse (BW).

Informatica PowerCenter sebagai Middleware dalam Arsitektur Ritel SAP

Meskipun Anda telah melihat beberapa fitur utama dan skenario tipikal Informatica ETL, saya harap Anda mengerti mengapa Informatica PowerCenter adalah alat terbaik untuk proses ETL. Sekarang mari kita lihat kasus penggunaan Informatica ETL.

Kasus Penggunaan: Menggabungkan Dua tabel untuk mendapatkan Tabel detail Tunggal

Katakanlah Anda ingin menyediakan transportasi yang bijaksana departemen kepada karyawan Anda karena departemen tersebut berada di berbagai lokasi. Untuk melakukan ini, pertama-tama Anda perlu mengetahui Departemen mana yang dimiliki setiap karyawan dan lokasi departemen tersebut. Namun, detail karyawan disimpan di tabel yang berbeda dan Anda perlu menggabungkan detail Departemen ke database yang ada dengan detail semua Karyawan. Untuk melakukan ini, pertama-tama kita akan memuat kedua tabel ke Informatica PowerCenter, melakukan Transformasi Kualifikasi Sumber pada data dan terakhir memuat detailnya ke Target Database.Mari kita mulai:

Langkah 1 : Buka PowerCenter Designer.

Di bawah ini adalah halaman Beranda dari Informatica PowerCenter Designer.

Sekarang mari kita terhubung ke repositori. Jika Anda belum mengonfigurasi repositori Anda atau menghadapi masalah apa pun, Anda dapat memeriksa kami Blog.

Langkah 2: Klik kanan pada repositori Anda dan pilih opsi hubungkan.

Saat mengklik opsi hubungkan, Anda akan diminta dengan layar di bawah ini, meminta nama pengguna dan kata sandi repositori Anda.

Setelah Anda terhubung ke repositori Anda, Anda harus membuka folder kerja Anda seperti yang terlihat di bawah ini:

Anda akan diminta menanyakan nama pemetaan Anda. Tentukan nama pemetaan Anda dan klik OK (Saya menamakannya sebagai m-KARYAWAN ).

Langkah 3: Mari kita sekarang memuat Tabel dari Database, Mulailah dengan menghubungkan ke Database. Untuk melakukan ini, pilih tab Sumber dan Impor dari opsi Database seperti yang terlihat di bawah ini:

Saat mengklik Impor dari Database, Anda akan diminta layar seperti di bawah ini menanyakan rincian Database Anda dan Nama Pengguna dan Kata Sandi untuk koneksi (Saya menggunakan database oracle dan pengguna SDM).

Klik Connect untuk terhubung ke database Anda.

Langkah 4: Karena saya ingin bergabung dengan PARA KARYAWAN dan DEPARTEMEN tabel, saya akan memilihnya dan klik OK.
Sumber akan terlihat di ruang kerja desainer pemetaan Anda seperti yang terlihat di bawah ini.

Langkah 5: Demikian pula Muat Tabel Target ke Pemetaan.

Langkah 6: Sekarang mari kita tautkan kualifikasi Sumber dan tabel target. Klik kanan di sembarang tempat kosong di ruang kerja dan pilih Tautan Otomatis seperti yang terlihat di bawah ini:

Di bawah ini adalah pemetaan yang ditautkan oleh Tautan Otomatis.

Langkah 7: Karena kita perlu menghubungkan kedua tabel ke Source Qualifier, pilih kolom dari tabel Department dan letakkan di Source Qualifier seperti yang terlihat di bawah ini:

Jatuhkan nilai kolom ke Source Qualifier SQ_EMPLOYEES .

Di bawah ini adalah Source Qualifier yang diperbarui.

Langkah 8: Klik dua kali pada Source Qualifier untuk mengedit transformasi.

Anda akan mendapatkan pop up Edit Transformation seperti yang terlihat di bawah ini. Klik pada tab Properties.

Langkah 9: Di bawah tab Properties, Klik pada field Value dari baris UserDefined Join.

Anda akan mendapatkan Editor SQL berikut:

Langkah 10: Memasukkan EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID sebagai syarat untuk menggabungkan kedua tabel di kolom SQL dan klik OK.

Langkah 11: Sekarang klik pada baris SQL Query untuk menghasilkan SQL untuk digabungkan seperti yang terlihat di bawah ini:

Anda akan mendapatkan SQL Editor berikut, Klik pada opsi Generate SQL.

SQL berikut akan dibuat untuk kondisi yang telah kita tentukan di langkah sebelumnya. Klik OK.

Langkah 12: Klik Apply dan OK.

Di bawah ini adalah pemetaan yang telah selesai.

Kami telah menyelesaikan perancangan bagaimana data harus ditransfer dari sumber ke target. Namun, transfer data yang sebenarnya masih belum terjadi dan untuk itu kita perlu menggunakan Desain Alur Kerja PowerCenter. Eksekusi alur kerja akan mengarah pada transfer data dari sumber ke target. Untuk mengetahui lebih banyak tentang alur kerja, periksa Tutorial Informatica: Alur Kerja Blog

Langkah 13: Let us sekarang luncurkan Workflow Manager dengan Mengklik ikon W seperti yang terlihat di bawah ini:

Di bawah ini adalah halaman beranda desainer alur kerja.

Langkah 14: Sekarang mari kita buat Alur Kerja baru untuk pemetaan kita. Klik pada tab Workflow dan pilih Create Option.

Anda akan mendapatkan pop-up di bawah ini. Tentukan nama alur kerja Anda dan klik OK.

LANGKAH 15 : Setelah alur kerja dibuat, kita mendapatkan Ikon Mulai di ruang kerja Manajer Alur Kerja.

Sekarang mari kita tambahkan Sesi baru ke ruang kerja seperti yang terlihat di bawah ini dengan mengklik ikon sesi dan mengklik ruang kerja:

Klik pada ruang kerja untuk menempatkan ikon Sesi.

Langkah 16: Saat menambahkan sesi, Anda harus memilih Pemetaan yang telah Anda buat dan simpan di langkah-langkah di atas. (Saya telah menyimpannya sebagai m-EMPLOYEE).

Di bawah ini adalah ruang kerja setelah menambahkan ikon sesi.

LANGKAH 17 : Sekarang Anda telah membuat Sesi baru, kita perlu menautkannya ke tugas mulai. Kita bisa melakukannya dengan mengklik ikon Link Task seperti yang terlihat di bawah ini:

Klik pada ikon Mulai terlebih dahulu dan kemudian pada ikon Sesi untuk membuat tautan.

Di bawah ini adalah alur kerja yang terhubung.

Langkah 18: Sekarang setelah kita menyelesaikan desainnya, mari kita mulai alur kerja. Klik pada tab Workflow dan pilih opsi Start Workflow.

Manajer alur kerja memulai Monitor Alur Kerja.

LANGKAH 19 : Setelah kita memulai alur kerja, Manajer Alur Kerja secara otomatis diluncurkandanmemungkinkan Anda untuk memantau pelaksanaan alur kerja Anda. Di bawah ini Anda dapat melihat Monitor Alur Kerja memperlihatkan status alur kerja Anda.

Langkah 20: Untuk memeriksa status alur kerja, klik kanan pada alur kerja dan pilih Get Run Properties seperti yang terlihat di bawah ini:

Pilih tab Sumber / Target Statistik.

Di bawah ini Anda dapat melihat jumlah baris yang telah ditransfer antara sumber dan target setelah transformasi.

Anda juga dapat memverifikasi hasil Anda dengan memeriksa tabel target Anda seperti yang terlihat di bawah ini.

Saya berharap blog ETL Informatica ini bermanfaat untuk membangun pemahaman Anda tentang konsep ETL menggunakan Informatica dan telah cukup menarik bagi Anda untuk mempelajari lebih lanjut tentang Informatica.

Jika Anda merasa blog ini bermanfaat, Anda juga dapat melihat seri blog Tutorial Informatica kami , Tutorial Informatica: Memahami Informatica 'Inside Out' dan Transformasi Informatica: Hati dan Jiwa dari Informatica PowerCenter . Jika Anda mencari detail tentang Sertifikasi Informatica, Anda dapat memeriksa blog kami Sertifikasi Informatica: Semua yang perlu diketahui .

Jika Anda telah memutuskan untuk mengambil Informatica sebagai karier, saya akan merekomendasikan Anda untuk melihat kami halaman kursus. Pelatihan Sertifikasi Informatica di Edureka akan menjadikan Anda ahli dalam Informatica melalui sesi yang dipimpin instruktur langsung dan pelatihan langsung menggunakan kasus penggunaan kehidupan nyata.