Algoritma Supervised
Pembelajaran supervised (supervised learning) adalah salah
satu teknik dalam pembelajaran mesin (machine learning) di mana model dilatih
menggunakan data yang telah diberi label. Ini berarti bahwa setiap contoh dalam
data pelatihan memiliki input (fitur) dan output yang benar (label). Tujuan
dari algoritma supervised adalah mempelajari peta dari input ke output sehingga
dapat membuat prediksi yang akurat pada data baru yang tidak diberi label.
Jenis-jenis Algoritma Supervised
1. Regresi: Digunakan untuk memprediksi nilai kontinu.
2. Klasifikasi: Digunakan untuk memprediksi kategori atau
kelas.
Berikut adalah 30 algoritma klasifikasi beserta
pengertiannya:
1. Logistic Regression: Algoritma ini digunakan untuk
memprediksi probabilitas dari kelas biner. Logistic Regression menggunakan
fungsi logit untuk mengubah output ke nilai probabilitas antara 0 dan 1.
2. K-Nearest Neighbors (KNN): Algoritma ini
mengklasifikasikan data baru berdasarkan kedekatannya dengan data yang sudah
ada. Kelas dari data baru ditentukan oleh mayoritas kelas dari k-tetangga
terdekatnya.
3. Support Vector Machine (SVM): Algoritma ini mencari
hyperplane terbaik yang memisahkan data dari dua kelas. Hyperplane dipilih
untuk memaksimalkan margin antara kelas-kelas tersebut.
4. Decision Tree: Algoritma ini menggunakan struktur pohon
untuk membuat keputusan berdasarkan fitur dari data. Setiap node internal
mewakili tes pada fitur, setiap cabang mewakili hasil dari tes, dan setiap daun
mewakili label kelas.
5. Random Forest: Algoritma ini membangun beberapa pohon
keputusan selama pelatihan dan outputnya adalah mode dari kelas (klasifikasi)
atau rata-rata prediksi (regresi) dari masing-masing pohon.
6. Naive Bayes: Algoritma ini didasarkan pada teorema Bayes
dengan asumsi independensi antar fitur. Meskipun asumsi ini jarang benar dalam
kenyataan, Naive Bayes sering bekerja dengan baik dalam banyak aplikasi.
7. Gradient Boosting Machines (GBM): Algoritma ini membangun
model prediktif yang kuat dengan menggabungkan beberapa model prediktif yang
lemah, biasanya pohon keputusan, secara berurutan.
8. AdaBoost: Algoritma boosting yang menambahkan model baru
yang berfokus pada data yang salah diklasifikasikan oleh model sebelumnya.
9. XGBoost: Implementasi dari gradient boosting yang
dioptimalkan untuk kecepatan dan kinerja. Sering digunakan dalam kompetisi data
science.
10. LightGBM: Algoritma boosting yang menggunakan teknik
leaf-wise dan histogram untuk mempercepat proses pelatihan dan meningkatkan
efisiensi.
11. CatBoost: Algoritma boosting yang menangani fitur
kategori dengan lebih efisien dan menghindari overfitting.
12. Neural Network: Model yang terinspirasi oleh otak
manusia dan terdiri dari neuron yang diatur dalam lapisan. Neural Network
sangat kuat dalam menangkap pola kompleks dalam data.
13. Convolutional Neural Network (CNN): Jenis neural network
yang dirancang khusus untuk memproses data grid-like, seperti gambar. CNN
menggunakan lapisan konvolusi untuk menangkap fitur spasial.
14. Recurrent Neural Network (RNN): Jenis neural network
yang memiliki koneksi berulang, memungkinkan mereka untuk menangkap dependensi
temporal dalam data sekuensial, seperti teks dan time series.
15. Long Short-Term Memory (LSTM): Jenis khusus dari RNN
yang dirancang untuk menangani masalah vanishing gradient, memungkinkan mereka
untuk belajar dari urutan yang panjang.
16. Gated Recurrent Unit (GRU): Varian dari LSTM yang lebih
sederhana dan komputasi lebih efisien, digunakan untuk memproses data
sekuensial.
17. Multilayer Perceptron (MLP): Neural network klasik yang
terdiri dari beberapa lapisan perseptron (neuron). Digunakan untuk berbagai
tugas klasifikasi dan regresi.
18. Linear Discriminant Analysis (LDA): Algoritma yang
mencari kombinasi linier dari fitur yang memisahkan dua atau lebih kelas data.
19. Quadratic Discriminant Analysis (QDA): Varian dari LDA
yang mengasumsikan bahwa masing-masing kelas memiliki kovarians berbeda dan
menggunakan kombinasi kuadrat untuk pemisahan.
20. k-Means Clustering: Algoritma pengelompokan yang membagi
data menjadi k-kluster berdasarkan jarak terdekat ke pusat kluster. Digunakan
untuk segmentasi data sebelum klasifikasi.
21. Gaussian Mixture Models (GMM): Algoritma probabilistik
yang mengasumsikan bahwa data berasal dari campuran distribusi Gaussian,
digunakan untuk menemukan kluster dalam data.
22. Bayesian Network: Model grafis yang mewakili
probabilitas kondisi antar variabel, digunakan untuk memodelkan ketergantungan
antar variabel.
23. Hidden Markov Model (HMM): Model statistik yang
digunakan untuk memodelkan sistem yang berubah-ubah secara temporal, seperti
pengenalan suara dan penandaan urutan.
24. Maximum Entropy (MaxEnt): Model klasifikasi yang
menggunakan prinsip entropi maksimum untuk memodelkan distribusi probabilitas
kelas.
25. Ridge Classifier: Algoritma klasifikasi yang menggunakan
regularisasi L2 untuk mencegah overfitting dengan menambahkan penalti pada
koefisien besar.
26. Lasso Classifier: Algoritma klasifikasi yang menggunakan
regularisasi L1 untuk mencegah overfitting dengan memaksa beberapa koefisien
menjadi nol.
27. Elastic Net: Kombinasi dari Ridge dan Lasso yang
menggunakan kedua jenis regularisasi untuk meningkatkan kinerja model.
28. Stochastic Gradient Descent (SGD): Metode optimisasi
yang menggunakan subset acak dari data untuk memperbarui parameter model,
digunakan untuk melatih berbagai model klasifikasi.
29. Perceptron: Algoritma pembelajaran terawasi yang
menggunakan model linear binary classifier dan memperbarui bobot berdasarkan
kesalahan prediksi.
30. Voting Classifier: Algoritma ensemble yang menggabungkan
beberapa model klasifikasi dengan cara voting untuk membuat prediksi akhir,
meningkatkan akurasi dibandingkan model individual.