Statistik untuk Pembelajaran Mesin: Panduan Pemula



Artikel tentang Statistics for Machine Learning ini adalah panduan komprehensif tentang berbagai konsep statistik os dengan contoh.

Memahami data dan mampu menciptakan nilai darinya adalah keahlian dekade ini. Pembelajaran Mesin adalah salah satu keterampilan inti yang membantu perusahaan memenuhinya. Namun, untuk memulai, Anda perlu membangun fondasi dengan benar. Jadi, dalam artikel ini, saya akan membahas beberapa konsep dasar dan memberi Anda panduan untuk memulai perjalanan Anda dalam Machine Learning. Jadi, dalam artikel statistik untuk pembelajaran mesin ini, topik berikut akan dibahas:

  1. Kemungkinan
  2. Statistik
  3. Aljabar linier

Probabilitas dan Statistik Untuk Pembelajaran Mesin:





Apa itu Probabilitas?

Probabilitas mengukur kemungkinan suatu peristiwa terjadi. Misalnya, jika Anda melempar dadu yang adil dan tidak bias, maka kemungkinannya satu muncul 1/6 . Sekarang, jika Anda bertanya-tanya why? Maka jawabannya cukup sederhana!

Ini karena ada enam kemungkinan dan semua kemungkinannya sama (mati adil). Oleh karena itu kita bisa menambahkan 1 + 1 + 1 + 1 + 1 + 1 = 6. Tapi, karena kami tertarik dengan acara dimana 1 muncul . Ada hanya satu cara agar peristiwa itu terjadi. Karena itu,



Kemungkinan 1 muncul = 1/6

Serupa halnya dengan semua nomor lain karena semua peristiwa kemungkinannya sama. Sederhana bukan?

Nah, definisi probabilitas frequentist untuk contoh ini akan terdengar seperti - probabilitas 1 muncul adalah rasio dari berapa kali 1 muncul dengan jumlah total berapa kali dadu digulung jika dadu digulung dalam jumlah tak terbatas waktu.Bagaimana ini masuk akal?



Jadikan lebih menarik. Pertimbangkan dua kasus - Anda melempar dadu yang adil 5 kali. Dalam satu kasus, urutan angka yang muncul adalah - [1,4,2,6,4,3]. Dalam kasus lain, kami mendapatkan - [2,2,2,2,2,2]. Mana yang menurut Anda lebih mungkin?

Keduanya sama-sama mungkin. Tampak aneh bukan?

Sekarang, pertimbangkan kasus lain di mana semua 5 gulungan di setiap kotak berada independen . Artinya, satu gulungan tidak memengaruhi gulungan lainnya. Dalam kasus pertama, ketika 6 muncul, tidak ada ide bahwa 2 muncul sebelumnya. Oleh karena itu, semua 5 gulungan memiliki kemungkinan yang sama.

Demikian pula, angka 2 lurus dalam kasus kedua dapat dipahami sebagai urutan peristiwa independen. Dan semua kejadian ini kemungkinannya sama. Secara keseluruhan, karena kita memiliki dadu yang sama, probabilitas angka tertentu muncul dalam kasus satu sama dengan kasus dua. Selanjutnya, dalam artikel statistik untuk pembelajaran mesin ini, mari kita pahami istilah tersebut Kemerdekaan.

Kemerdekaan

Dua peristiwa A dan B dikatakan independen jika kemunculan A tidak mempengaruhi peristiwa B. . Misalnya, jika Anda melempar koin dan melempar dadu, hasil dadu tidak berpengaruh pada apakah koin tersebut menunjukkan kepala atau ekor. Juga untuk dua acara independen A dan B , itu probabilitas bahwa A dan B dapat terjadi bersamaan . Jadi misalnya, jika Anda ingin probabilitas koin menunjukkan kepala dan dadu menunjukkan 3.

P (A dan B) = P (A) * P (B)

Oleh karena itu P = & frac12 (kemungkinan kepala muncul) * ⅙ (kemungkinan 3 muncul) = 1/12

Dalam contoh sebelumnya, untuk kedua kasus, P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Sekarang mari kita bicara tentang acara yang tidak independen. Perhatikan tabel berikut:

Gendut Tidak Obesitas
Masalah jantungEmpat Limalimabelas
Tidak ada masalah jantung1030

Survei terhadap 100 orang diambil. 60 memiliki masalah jantung dan 40 tidak. Dari 60 orang yang memiliki masalah jantung, 45 diantaranya mengalami obesitas. Dari 40 orang yang tidak memiliki masalah jantung, 10 diantaranya mengalami obesitas. Jika seseorang bertanya kepada Anda -

  1. Berapa kemungkinan memiliki masalah jantung?
  2. Berapa kemungkinan mengalami masalah jantung dan tidak menjadi gemuk?

Jawaban atas pertanyaan pertama mudah - 60/100. Untuk yang kedua, itu akan menjadi 15/100. Sekarang pertimbangkan pertanyaan ketiga - Seseorang dipilih secara acak. Ia ditemukan mengidap penyakit jantung. Berapa kemungkinan dia mengalami obesitas?

Sekarang pikirkan tentang informasi yang diberikan kepada Anda - Diketahui bahwa dia mengidap penyakit jantung. Oleh karena itu, dia tidak mungkin dari 40 tahun yang tidak memiliki penyakit jantung. Hanya ada 60 opsi yang memungkinkan (baris atas di tabel). Sekarang, di antara kemungkinan yang berkurang ini, kemungkinan dia mengalami obesitas adalah 45/60. Nah, setelah Anda tahu, apa itu peristiwa independen, selanjutnya di artikel statistik untuk pembelajaran mesin ini, mari kita pahami Probabilitas Bersyarat.

Probabilitas Bersyarat

Untuk memahami probabilitas bersyarat, mari lanjutkan pembahasan kita dengan contoh di atas. Status obesitas dan status menderita gangguan jantung tidak berdiri sendiri. Jika obesitas tidak mempengaruhi masalah jantung, maka jumlah kasus obesitas dan non-obesitas untuk orang yang mengalami gangguan jantung akan sama.

Juga, kami diberi tahu bahwa orang tersebut memiliki masalah jantung dan kami harus mencari tahu kemungkinan dia mengalami obesitas. Jadi, probabilitas, dalam hal ini, dikatakan dikondisikan pada fakta bahwa dia memiliki masalah jantung. Jika probabilitas peristiwa A terjadi dikondisikan pada peristiwa B, kami menyatakannya sebagai

java menemukan nomor terbesar dalam array

P (A | B)

Sekarang, ada teorema yang membantu kita menghitung probabilitas bersyarat ini. Ini disebut Aturan Bayes .

P (A | B) = P (A dan B) / P (B)

Anda dapat memeriksa teorema ini dengan memasukkan contoh yang baru saja kita diskusikan. Jika Anda sudah memahami sejauh ini, Anda dapat memulai dengan yang berikut ini - Naive Bayes . Ini menggunakan probabilitas bersyarat untuk mengklasifikasikan apakah email adalah spam atau bukan. Itu dapat melakukan banyak tugas klasifikasi lainnya. Tetapi pada dasarnya, probabilitas bersyarat adalah inti dari .

Statistik:

Statistik adalah digunakan untuk meringkas dan membuat kesimpulan tentang sejumlah besar poin data. Dalam Ilmu Data dan Pembelajaran Mesin, Anda akan sering menemukan terminologi berikut

  • Pengukuran sentralitas
  • Distribusi (terutama normal)

Pengukuran sentralitas dan ukuran spread

Berarti:

Berarti hanyalah sebuah rata-rata angka . Untuk mengetahui mean, Anda harus menjumlahkan angka-angka dan membaginya dengan jumlah angka-angka. Misalnya, mean dari [1,2,3,4,5] adalah 15/5 = 3.

mean-statistics-for-machine-learning

Median:

Median adalah elemen tengah dari satu set angka ketika mereka disusun dalam urutan menaik. Misalnya, angka [1,2,4,3,5] disusun dalam urutan naik [1,2,3,4,5]. Yang di tengah adalah 3. Oleh karena itu mediannya adalah 3. Tetapi bagaimana jika bilangannya genap dan karena itu tidak memiliki bilangan tengah? Dalam kasus ini, Anda mengambil rata-rata dari dua angka paling tengah. Untuk urutan angka 2n dalam urutan menaik, ratakan rata-rata ke-n dan (n + 1)thnomor untuk mendapatkan median. Contoh - [1,2,3,4,5,6] memiliki median (3 + 4) / 2 = 3,5

Mode:

Modusnya adalah angka paling sering dalam satu set angka . Misalnya, mode [1,2,3,3,4,5,5,5] adalah 5.

Perbedaan:

Varians bukanlah ukuran sentralitas. Itu mengukur bagaimana data Anda tersebar di sekitar mean . Ini dikuantifikasi sebagai

xadalah rata-rata angka N. Anda ambil satu poin, kurangi meannya, ambil kuadrat dari perbedaan ini. Lakukan ini untuk semua angka N dan ratakan. Akar kuadrat dari varians disebut simpangan baku. Selanjutnya, dalam artikel statistik untuk pembelajaran mesin ini, mari kita pahami Distribusi Normal.

Distribusi normal

Distribusi membantu kami memahami bagaimana data kami tersebar . Misalnya, dalam sampel usia, kita mungkin memiliki orang muda lebih banyak daripada orang dewasa yang lebih tua dan karenanya nilai usia yang lebih kecil lebih dari nilai yang lebih besar. Tapi bagaimana kita mendefinisikan distribusi? Perhatikan contoh di bawah ini

Sumbu y melambangkan kepadatan. Cara distribusi ini adalah 30 karena merupakan puncak dan karenanya paling sering. Kami juga dapat menemukan mediannya. Median terletak pada titik sumbu x di mana separuh area di bawah kurva tertutup. Area di bawah sembarang distribusi normal adalah 1 karena jumlah probabilitas dari semua kejadian adalah 1. Misalnya,

Median pada kasus di atas adalah sekitar 4. Ini berarti area di bawah kurva sebelum 4 sama dengan setelah 4. Perhatikan contoh lain

Kami melihat tiga distribusi normal. Warna biru dan merah memiliki arti yang sama. Yang merah memiliki varian yang lebih besar. Karenanya, itu lebih menyebar daripada yang biru. Tetapi karena luasnya harus 1, puncak kurva merah lebih pendek dari kurva biru, agar luas tetap konstan.

Harap Anda memahami statistik dasar dan distribusi normal. Selanjutnya, di artikel statistik untuk machine learning ini, mari kita pelajari Aljabar Linear.

Aljabar linier

AI modern tidak akan mungkin tanpa Aljabar Linear. Ini membentuk inti dari Pembelajaran Mendalam dan telah digunakan bahkan dalam algoritme sederhana seperti . Tanpa penundaan lebih lanjut, mari kita mulai.

apa perbedaan antara overriding dan overloading

Anda pasti sudah familiar dengan vektor. Mereka adalah semacam representasi geometris dalam ruang. Misalnya, sebuah vektor [3,4] memiliki 3 unit di sepanjang sumbu x dan 4 unit di sepanjang sumbu y. Perhatikan gambar berikut -

Vektor d1 memiliki 0,707 unit di sepanjang sumbu x dan 0,707 unit di sepanjang sumbu y. Sebuah vektor memiliki 1 dimensi. Itu harus memiliki besaran dan arah. Sebagai contoh,

Gambar di atas memiliki vektor (4,3). Besarannya 5 dan membuatnya menjadi 36,9 derajat dengan sumbu x.

Sekarang, apa itu matriks? Matriks adalah deretan angka multi-dimensi. Untuk apa itu digunakan? Kita lihat ke depan. Tapi pertama-tama, mari kita lihat cara penggunaannya.

Matriks

Matriks bisa memiliki banyak dimensi. Mari kita pertimbangkan matriks 2 dimensi. Ini memiliki baris (m) dan kolom (n). Oleh karena itu ia memiliki elemen m * n.

Sebagai contoh,

Matriks ini memiliki 5 baris dan 5 kolom. Sebut saja A. Oleh karena itu A (2,3) adalah entri pada baris kedua dan kolom ketiga yaitu 8.

Sekarang, setelah Anda mengetahui apa itu matriks, mari kita lihat operasi matriks yang berbeda.

__init__ python 3

Operasi Matriks

Penambahan Matriks

Dua matriks dari sama dimensi dapat ditambahkan. Penambahan terjadi berdasarkan elemen.

Perkalian Skalar

Sebuah matriks dapat dikalikan dengan besaran skalar. Perkalian seperti itu menyebabkan setiap entri dalam matriks dikalikan dengan skalar. Skalar hanyalah angka

Matriks Transpose

Transpos matriks sederhana. Untuk matriks A (m, n), misalkan A 'menjadi transposisinya. Kemudian

A '(i, j) = A (j, i)

Sebagai contoh,

Perkalian Matriks

Ini mungkin sedikit rumit daripada operasi lainnya. Sebelum kita menyelami lebih dalam, mari kita tentukan perkalian titik antara dua vektor.

Pertimbangkan vektor X = [1,4,6,0] dan vektor Y = [2,3,4,5]. Kemudian perkalian titik antara X dan Y didefinisikan sebagai

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Jadi, ini adalah perkalian dan penjumlahan berdasarkan elemen. Sekarang,mari kita pertimbangkan dua matriks A (m, n) dan B (n, k), di mana m, n, k adalah dimensi dan karenanya bilangan bulat. Kami mendefinisikan perkalian matriks sebagai

Dalam contoh di atas, elemen pertama dari hasil perkalian (44) diperoleh dari hasil perkalian titik dari baris pertama matriks kiri dengan kolom pertama dari matriks kanan. Demikian pula, 72 diperoleh dari perkalian titik dari baris pertama matriks kiri dengan kolom kedua dari matriks kanan.

Perhatikan bahwa untuk matriks kiri, jumlah kolom harus sama dengan jumlah baris di kolom kanan. Dalam kasus kami, produk AB ada tetapi tidak BA karena m tidak sama dengan k. Untuk dua matriks A (m, n) dan B (n, k), produk AB ditentukan dan dimensi produknya adalah (m, k) (dimensi terluar (m, n), (n, k) )). Tetapi BA tidak ditentukan kecuali m = k.

Dengan ini, kami mengakhiri artikel ini tentang Statistik untuk Pembelajaran Mesin. Saya harap Anda sudah memahami beberapa Jargon Machine Learning. Ini tidak berakhir di sini. Untuk memastikan Anda siap industri, Anda dapat melihat kursus Edureka tentang Ilmu Data dan AI. Mereka bisa ditemukan