Tutorial Python Pandas: Pelajari Pandas untuk Analisis Data



Dalam tutorial Python Pandas ini, Anda akan mempelajari berbagai operasi Pandas. Ini juga mencakup kasus penggunaan, di mana Anda dapat menganalisis data menggunakan Pandas.

Di blog ini, kita akan membahas analisis data menggunakan Pandas dengan Python.Hari ini, adalah keterampilan panas di industri yang melampaui PHP pada tahun 2017 dan C # pada tahun 2018 dalam hal popularitas dan penggunaan secara keseluruhan.Sebelum berbicara tentang Panda, orang harus memahami konsep array Numpy. Mengapa? Karena Pandas adalah pustaka perangkat lunak sumber terbuka yang dibangun di atasnya . Dalam Tutorial Python Pandas ini, saya akan membawa Anda melalui topik-topik berikut, yang akan menjadi dasar untuk blog yang akan datang:

Mari kita mulai. :-)





Apa itu Python Pandas?

Panda digunakan untuk manipulasi, analisis, dan pembersihan data. Panda Python sangat cocok untuk berbagai jenis data, seperti:

  • Data tabel dengan kolom yang diketik secara heterogen
  • Data deret waktu yang teratur dan tidak berurutan
  • Data matriks arbitrer dengan label baris & kolom
  • Data tidak berlabel
  • Bentuk lain dari kumpulan data observasi atau statistik

Bagaimana cara menginstal Pandas?

Untuk menginstal Python Pandas, buka baris perintah / terminal Anda dan ketik 'pip install pandas' atau yang lain, jika Anda memiliki anaconda terinstal di sistem Anda, cukup ketik 'conda install pandas'. Setelah penginstalan selesai, buka IDE Anda (Jupyter, PyCharm, dll.) Dan cukup impor dengan mengetik: “import pandas as pd”



Melanjutkan tutorial Python pandas, mari kita lihat beberapa operasinya:

Operasi Python Pandas

Menggunakan Python pandas, Anda dapat melakukan banyak operasi dengan rangkaian, bingkai data, data yang hilang, mengelompokkan menurut dll. Beberapa operasi umum untuk manipulasi data tercantum di bawah ini:



PandasOperations - Tutorial Python Pandas - Edureka

Sekarang, mari kita pahami semua operasi ini satu per satu.

Mengiris Bingkai Data

Untuk melakukan pemotongan pada data, Anda membutuhkan kerangka data. Jangan khawatir, bingkai data adalah struktur data 2 dimensi dan objek panda yang paling umum. Jadi pertama-tama, mari buat bingkai data.

Lihat kode di bawah ini untuk implementasinya di PyCharm:

impor panda sebagai pd XYZ_web = {'Hari': [1,2,3,4,5,6], 'Pengunjung': [1000, 700.6000.1000.400.350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) cetak (df)

Keluaran :

Bounce_Rate Day Pengunjung 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

Kode di atas akan mengubah kamus menjadi Data Frame pandas bersama dengan indeks di sebelah kiri. Sekarang, mari kita potong kolom tertentu dari bingkai data ini. Lihat gambar di bawah ini:

cetak (df.head (2))

Keluaran:

Bounce_Rate Day Pengunjung 0 20 1 1000 1 20 2 700

Demikian pula, jika Anda menginginkan dua baris terakhir dari data, ketik perintah di bawah ini:

cetak (df.tail (2))

Keluaran:

Bounce_Rate Day Pengunjung 4 10 5 400 5 34 6 350

Selanjutnya dalam tutorial Python Pandas, mari kita lakukan penggabungan dan penggabungan.

Penggabungan & Bergabung

Dalam penggabungan, Anda dapat menggabungkan dua bingkai data untuk membentuk satu bingkai data. Anda juga dapat memutuskan kolom mana yang ingin Anda umumkan. Izinkan saya mengimplementasikannya secara praktis, pertama saya akan membuat tiga bingkai data, yang memiliki beberapa pasangan nilai kunci dan kemudian menggabungkan bingkai data tersebut. Lihat kode di bawah ini:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Keluaran:

impor panda sebagai pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) digabung = pd.merge (df1, df2) print (digabung)

Seperti yang Anda lihat di atas, kedua frame data telah digabungkan menjadi satu frame data. Sekarang, Anda juga dapat menentukan kolom yang ingin Anda buat umum. Misalnya, saya ingin kolom 'HPI' menjadi umum dan untuk yang lainnya, saya ingin kolom terpisah. Jadi, izinkan saya menerapkannya secara praktis:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) digabung = pd.merge (df1, df2, on = 'HPI') print (digabung)

Keluaran:

IND_GDP Int_Rate Low_Tier_HPI Pengangguran 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Selanjutnya, mari kita pahami bergabung dalam tutorial python pandas. Ini adalah metode lain yang mudah untuk menggabungkan dua kerangka data yang diindeks berbeda menjadi satu kerangka data hasil. Ini sangat mirip dengan operasi 'penggabungan', kecuali operasi penggabungan akan berada di 'indeks' bukan di 'kolom'. Mari kita terapkan secara praktis.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Unemployment': [1,3,5,6]}, index = [2001, 2003,2004,2004]) bergabung = df1. bergabung (df2) cetak (bergabung)

Keluaran:

IND_GDP Int_Rate Low_Tier_HPI Pengangguran 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Seperti yang terlihat pada output di atas, pada tahun 2002 (indeks) tidak ada nilai yang dilampirkan pada kolom “low_tier_HPI” dan “pengangguran”, sehingga tercetak NaN (Bukan Angka). Kemudian pada tahun 2004, kedua nilai tersebut tersedia, oleh karena itu telah dicetak nilainya masing-masing.

Anda dapat mengikuti rekaman tutorial Python Pandas ini di mana instruktur kami telah menjelaskan topik secara rinci dengan contoh yang akan membantu Anda memahami konsep ini dengan lebih baik.

kerangka kerja yang didorong kata kunci di selenium

Python Untuk Analisis Data | Tutorial Python Pandas | Pelatihan Python | Edureka


Melanjutkan tutorial Python pandas, mari kita pahami cara menggabungkan dua frame data data.

Rangkaian

Rangkaian pada dasarnya merekatkan kerangka data menjadi satu. Anda dapat memilih dimensi yang ingin Anda gabungkan. Untuk itu, cukup gunakan 'pd.concat' dan teruskan daftar kerangka data untuk digabungkan bersama. Perhatikan contoh di bawah ini.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Keluaran:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Seperti yang Anda lihat di atas, dua kerangka data direkatkan menjadi satu kerangka data, di mana indeks dimulai dari 2001 hingga 2008. Selanjutnya, Anda juga dapat menentukan sumbu = 1 untuk menggabungkan, menggabungkan, atau membatalkan sepanjang kolom. Lihat kode di bawah ini:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

Keluaran:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005 NaN NaN NaN 80.0 50.0 2.0 2006 NaN NaN NaN 90.0 45.0 1.0 2007 NaN NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0

Seperti yang Anda bisa di atas, ada banyak nilai yang hilang. Ini terjadi karena kerangka data tidak memiliki nilai untuk semua indeks yang ingin Anda gabungkan. Oleh karena itu, Anda harus memastikan bahwa Anda memiliki semua informasi yang berbaris dengan benar saat Anda menggabungkan atau menggabungkan pada sumbu.

perintah java untuk mengakhiri program

Ubah indeks

Selanjutnya dalam tutorial python pandas, kita akan memahami cara mengubah nilai indeks dalam kerangka data. Misalnya, mari kita membuat kerangka data dengan beberapa pasangan nilai kunci dalam kamus dan mengubah nilai indeks. Perhatikan contoh di bawah ini:

Mari kita lihat bagaimana itu sebenarnya terjadi:

impor panda sebagai pd df = pd.DataFrame ({'Hari': [1,2,3,4], 'Pengunjung': [200, 100.230.300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Hari', inplace = True) print (df)

Keluaran:

Bounce_Rate Pengunjung Hari 1 20200 2 45100 3 60 230 4 10300

Seperti yang Anda lihat pada keluaran di atas, nilai indeks telah diubah sehubungan dengan kolom 'Hari'.

Ubah Judul Kolom

Sekarang mari kita ubah header kolom dalam tutorial python pandas ini. Mari kita ambil contoh yang sama, di mana saya akan mengubah tajuk kolom dari 'Pengunjung' menjadi 'Pengguna'. Jadi, izinkan saya menerapkannya secara praktis.

impor panda sebagai pd df = pd.DataFrame ({'Hari': [1,2,3,4], 'Pengunjung': [200, 100.230.300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (kolom = {'Pengunjung': 'Pengguna'}) cetak (df)

Keluaran:

Bounce_Rate Day Users 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4300

Seperti yang Anda lihat di atas, tajuk kolom 'Pengunjung' telah diubah menjadi 'Pengguna'. Selanjutnya dalam tutorial python pandas, mari kita lakukan data munging.

Data Munging

Di Data munging, Anda dapat mengonversi data tertentu ke dalam format yang berbeda. Misalnya, jika Anda memiliki file .csv, Anda dapat mengubahnya menjadi .html atau format data lainnya juga. Jadi, izinkan saya menerapkan ini secara praktis.

import panda sebagai pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-pengangguranAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Setelah Anda menjalankan kode ini, file HTML akan dibuat dengan nama 'edu.html'. Anda dapat langsung menyalin jalur file dan menempelkannya di browser Anda yang menampilkan data dalam format HTML. Lihat tangkapan layar di bawah ini:


Berikutnya dalam tutorial python pandas, mari kita lihat kasus penggunaan yang membahas tentang pengangguran kaum muda global.

Tutorial Python Pandas: Kasus Penggunaan untuk Menganalisis Data Pengangguran Remaja

Pernyataan masalah :Anda diberi kumpulan data yang terdiri dari persentase pemuda yang menganggur secara global dari 2010 hingga 2014. Anda harus menggunakan kumpulan data ini dan menemukan perubahan persentase kaum muda untuk setiap negara dari 2010-2011.

Pertama, mari kita pahami dataset yang berisi kolom sebagai Nama Negara, Kode Negara dan tahun dari 2010 hingga 2014. Sekarang menggunakan pandas, kita akan menggunakan “pd.read_csv” untuk membaca file berformat .csv.
Lihat tangkapan layar di bawah ini:

Mari kita lanjutkan dan lakukan analisis data di mana kita akan mengetahui perubahan persentase pengangguran muda antara tahun 2010 hingga 2011. Kemudian kita akan memvisualisasikannya menggunakan perpustakaan, yang merupakan perpustakaan yang kuat untuk visualisasi dengan Python. Ini dapat digunakan dalam skrip Python, shell, server aplikasi web dan toolkit GUI lainnya. Anda dapat menggunakan baca lebih lanjut di sini:

Sekarang, mari kita terapkan kode di PyCharm:

impor panda sebagai pd impor matplotlib.pyplot sebagai plt dari matplotlib import style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-pengangguranAPI_ILO_country_YU.csv', index_col = 0) df = country. head (5) df = df.set_index (['Country Code']) sd = sd.reindex (kolom = ['2010', '2011']) db = sd.diff (axis = 1) db.plot (kind = 'bar') plt.show ()

Seperti yang Anda lihat di atas, saya telah melakukan analisis pada 5 baris teratas dari kerangka data negara. Selanjutnya, saya telah menetapkan nilai indeks menjadi 'Kode Negara' dan kemudian mengindeks ulang kolom tersebut ke 2010 dan 2011. Kemudian, kami memiliki satu lagi kerangka data db, yang mencetak perbedaan antara dua kolom atau persentase perubahan pemuda yang menganggur dari 2010 hingga 2011. Akhirnya, saya telah memplot sebuah barplot menggunakan pustaka Matplotlib dengan Python.


Sekarang jika Anda perhatikan pada plot di atas, di Afghanistan (AFG) antara 2010 hingga 2011, telah terjadi peningkatan pengangguran muda sekitar. 0,25%. Kemudian di Angola (Kejaksaan Agung) terjadi tren negatif yang artinya persentase pengangguran muda berkurang. Demikian pula, Anda dapat melakukan analisis pada kumpulan data yang berbeda.

Saya harap blog saya tentang 'Tutorial Python Pandas' relevan untuk Anda. Untuk mendapatkan pengetahuan mendalam tentang python beserta berbagai aplikasinya, Anda dapat mendaftar secara langsung oleh Edureka dengan dukungan 24/7 dan akses seumur hidup.

Ada pertanyaan untuk kami? Harap sebutkan di bagian komentar di blog 'tutorial Python Pandas' ini dan kami akan menghubungi Anda kembali secepatnya.