30. Algoritma Supervised Learning – Klasifikasi

WAHYU SETIO AJI

Algoritma Supervised

Pembelajaran supervised (supervised learning) adalah salah satu teknik dalam pembelajaran mesin (machine learning) di mana model dilatih menggunakan data yang telah diberi label. Ini berarti bahwa setiap contoh dalam data pelatihan memiliki input (fitur) dan output yang benar (label). Tujuan dari algoritma supervised adalah mempelajari peta dari input ke output sehingga dapat membuat prediksi yang akurat pada data baru yang tidak diberi label.

Jenis-jenis Algoritma Supervised

1. Regresi: Digunakan untuk memprediksi nilai kontinu.

2. Klasifikasi: Digunakan untuk memprediksi kategori atau kelas.

Berikut adalah 30 algoritma klasifikasi beserta pengertiannya:

1. Logistic Regression: Algoritma ini digunakan untuk memprediksi probabilitas dari kelas biner. Logistic Regression menggunakan fungsi logit untuk mengubah output ke nilai probabilitas antara 0 dan 1.

2. K-Nearest Neighbors (KNN): Algoritma ini mengklasifikasikan data baru berdasarkan kedekatannya dengan data yang sudah ada. Kelas dari data baru ditentukan oleh mayoritas kelas dari k-tetangga terdekatnya.

3. Support Vector Machine (SVM): Algoritma ini mencari hyperplane terbaik yang memisahkan data dari dua kelas. Hyperplane dipilih untuk memaksimalkan margin antara kelas-kelas tersebut.

4. Decision Tree: Algoritma ini menggunakan struktur pohon untuk membuat keputusan berdasarkan fitur dari data. Setiap node internal mewakili tes pada fitur, setiap cabang mewakili hasil dari tes, dan setiap daun mewakili label kelas.

5. Random Forest: Algoritma ini membangun beberapa pohon keputusan selama pelatihan dan outputnya adalah mode dari kelas (klasifikasi) atau rata-rata prediksi (regresi) dari masing-masing pohon.

6. Naive Bayes: Algoritma ini didasarkan pada teorema Bayes dengan asumsi independensi antar fitur. Meskipun asumsi ini jarang benar dalam kenyataan, Naive Bayes sering bekerja dengan baik dalam banyak aplikasi.

7. Gradient Boosting Machines (GBM): Algoritma ini membangun model prediktif yang kuat dengan menggabungkan beberapa model prediktif yang lemah, biasanya pohon keputusan, secara berurutan.

8. AdaBoost: Algoritma boosting yang menambahkan model baru yang berfokus pada data yang salah diklasifikasikan oleh model sebelumnya.

9. XGBoost: Implementasi dari gradient boosting yang dioptimalkan untuk kecepatan dan kinerja. Sering digunakan dalam kompetisi data science.

10. LightGBM: Algoritma boosting yang menggunakan teknik leaf-wise dan histogram untuk mempercepat proses pelatihan dan meningkatkan efisiensi.

11. CatBoost: Algoritma boosting yang menangani fitur kategori dengan lebih efisien dan menghindari overfitting.

12. Neural Network: Model yang terinspirasi oleh otak manusia dan terdiri dari neuron yang diatur dalam lapisan. Neural Network sangat kuat dalam menangkap pola kompleks dalam data.

13. Convolutional Neural Network (CNN): Jenis neural network yang dirancang khusus untuk memproses data grid-like, seperti gambar. CNN menggunakan lapisan konvolusi untuk menangkap fitur spasial.

14. Recurrent Neural Network (RNN): Jenis neural network yang memiliki koneksi berulang, memungkinkan mereka untuk menangkap dependensi temporal dalam data sekuensial, seperti teks dan time series.

15. Long Short-Term Memory (LSTM): Jenis khusus dari RNN yang dirancang untuk menangani masalah vanishing gradient, memungkinkan mereka untuk belajar dari urutan yang panjang.

16. Gated Recurrent Unit (GRU): Varian dari LSTM yang lebih sederhana dan komputasi lebih efisien, digunakan untuk memproses data sekuensial.

17. Multilayer Perceptron (MLP): Neural network klasik yang terdiri dari beberapa lapisan perseptron (neuron). Digunakan untuk berbagai tugas klasifikasi dan regresi.

18. Linear Discriminant Analysis (LDA): Algoritma yang mencari kombinasi linier dari fitur yang memisahkan dua atau lebih kelas data.

19. Quadratic Discriminant Analysis (QDA): Varian dari LDA yang mengasumsikan bahwa masing-masing kelas memiliki kovarians berbeda dan menggunakan kombinasi kuadrat untuk pemisahan.

20. k-Means Clustering: Algoritma pengelompokan yang membagi data menjadi k-kluster berdasarkan jarak terdekat ke pusat kluster. Digunakan untuk segmentasi data sebelum klasifikasi.

21. Gaussian Mixture Models (GMM): Algoritma probabilistik yang mengasumsikan bahwa data berasal dari campuran distribusi Gaussian, digunakan untuk menemukan kluster dalam data.

22. Bayesian Network: Model grafis yang mewakili probabilitas kondisi antar variabel, digunakan untuk memodelkan ketergantungan antar variabel.

23. Hidden Markov Model (HMM): Model statistik yang digunakan untuk memodelkan sistem yang berubah-ubah secara temporal, seperti pengenalan suara dan penandaan urutan.

24. Maximum Entropy (MaxEnt): Model klasifikasi yang menggunakan prinsip entropi maksimum untuk memodelkan distribusi probabilitas kelas.

25. Ridge Classifier: Algoritma klasifikasi yang menggunakan regularisasi L2 untuk mencegah overfitting dengan menambahkan penalti pada koefisien besar.

26. Lasso Classifier: Algoritma klasifikasi yang menggunakan regularisasi L1 untuk mencegah overfitting dengan memaksa beberapa koefisien menjadi nol.

27. Elastic Net: Kombinasi dari Ridge dan Lasso yang menggunakan kedua jenis regularisasi untuk meningkatkan kinerja model.

28. Stochastic Gradient Descent (SGD): Metode optimisasi yang menggunakan subset acak dari data untuk memperbarui parameter model, digunakan untuk melatih berbagai model klasifikasi.

29. Perceptron: Algoritma pembelajaran terawasi yang menggunakan model linear binary classifier dan memperbarui bobot berdasarkan kesalahan prediksi.

30. Voting Classifier: Algoritma ensemble yang menggabungkan beberapa model klasifikasi dengan cara voting untuk membuat prediksi akhir, meningkatkan akurasi dibandingkan model individual.