30. Algoritma Supervised Learning – Prediksi

30. Algoritma Supervised Learning – Prediksi

 


Lanjutan Algoritma Supervised Learning – Prediksi

 

1. Linear Regression: Algoritma ini memodelkan hubungan antara variabel independen dan dependen dengan menyesuaikan garis lurus ke data. Prediksi dibuat berdasarkan persamaan linear \( y = mx + c \).

 

2. Polynomial Regression: Ekstensi dari regresi linear yang cocok untuk data yang memiliki hubungan non-linear antara variabel independen dan dependen dengan menggunakan polinomial derajat tinggi.

 

3. Ridge Regression: Varian dari regresi linear yang menggunakan regularisasi L2 untuk mencegah overfitting dengan menambahkan penalti pada besar koefisien.

 

4. Lasso Regression: Varian dari regresi linear yang menggunakan regularisasi L1 untuk mencegah overfitting dengan memaksa beberapa koefisien menjadi nol.

 

5. Elastic Net Regression: Kombinasi dari Ridge dan Lasso yang menggunakan kedua jenis regularisasi untuk meningkatkan kinerja model.

 

6. Logistic Regression: Meski sering digunakan untuk klasifikasi, logistic regression juga dapat digunakan untuk prediksi probabilitas kejadian dari suatu peristiwa biner.

 

7. Support Vector Regression (SVR): Varian dari SVM untuk masalah regresi, yang berusaha meminimalkan kesalahan dalam margin tertentu yang disebut epsilon.

 

8. Decision Tree Regression: Algoritma ini menggunakan struktur pohon untuk memprediksi nilai dari variabel dependen berdasarkan fitur dari data.

 

9. Random Forest Regression: Menggunakan beberapa pohon keputusan untuk memprediksi nilai dengan mengkombinasikan prediksi dari setiap pohon untuk mengurangi overfitting dan meningkatkan akurasi.

 

10. Gradient Boosting Regression: Membangun model prediktif yang kuat dengan menggabungkan beberapa model prediktif yang lemah, biasanya pohon keputusan, secara berurutan.

 

11. AdaBoost Regression: Algoritma boosting yang menambahkan model baru yang berfokus pada data yang salah diprediksi oleh model sebelumnya.

 

12. XGBoost Regression: Implementasi dari gradient boosting yang dioptimalkan untuk kecepatan dan kinerja. Sering digunakan dalam kompetisi data science.

 

13. LightGBM Regression: Algoritma boosting yang menggunakan teknik leaf-wise dan histogram untuk mempercepat proses pelatihan dan meningkatkan efisiensi.

 

14. CatBoost Regression: Algoritma boosting yang menangani fitur kategori dengan lebih efisien dan menghindari overfitting.

 

15. Neural Network Regression: Model yang terinspirasi oleh otak manusia dan terdiri dari neuron yang diatur dalam lapisan. Neural Network sangat kuat dalam menangkap pola kompleks dalam data untuk prediksi.

 

16. Convolutional Neural Network (CNN) Regression: Jenis neural network yang dirancang khusus untuk memproses data grid-like, seperti gambar, yang juga dapat digunakan untuk tugas regresi seperti deteksi objek.

 

17. Recurrent Neural Network (RNN) Regression: Jenis neural network yang memiliki koneksi berulang, memungkinkan mereka untuk menangkap dependensi temporal dalam data sekuensial, seperti time series.

 

18. Long Short-Term Memory (LSTM) Regression: Jenis khusus dari RNN yang dirancang untuk menangani masalah vanishing gradient, memungkinkan mereka untuk belajar dari urutan yang panjang untuk prediksi time series.

 

19. Gated Recurrent Unit (GRU) Regression: Varian dari LSTM yang lebih sederhana dan komputasi lebih efisien, digunakan untuk memproses data sekuensial.

 

20. Bayesian Regression: Menggunakan statistik Bayesian untuk memprediksi distribusi dari variabel dependen, memberikan rentang nilai prediksi yang mungkin.

 

21. Kernel Ridge Regression: Menggabungkan ridge regression dengan kernel trick untuk menangani data non-linear.

 

22. Quantile Regression: Memperkirakan quantiles atau persentil dari distribusi data dependen, memberikan prediksi interval bukan hanya nilai rata-rata.

 

23. Ordinary Least Squares (OLS) Regression: Teknik regresi dasar yang meminimalkan jumlah kuadrat dari residual antara nilai yang diamati dan nilai yang diprediksi.

 

24. Principal Component Regression (PCR): Menggunakan analisis komponen utama (PCA) untuk mengurangi dimensi data sebelum melakukan regresi.

 

25. Partial Least Squares (PLS) Regression: Teknik yang mirip dengan PCR, tetapi juga mempertimbangkan hubungan antara variabel independen dan dependen selama reduksi dimensi.

 

26. Huber Regression: Varian dari regresi yang lebih robust terhadap outliers dengan menggunakan fungsi loss Huber.

 

27. Theil-Sen Estimator: Algoritma regresi yang robust terhadap outliers dengan menggunakan median dari slopes dari semua pasangan titik data.

 

28. RANSAC Regression: Algoritma yang robust terhadap outliers dengan secara iteratif memilih subset data yang acak untuk memfit model dan mengevaluasi inlier.

 

29. Gaussian Process Regression: Menggunakan proses Gaussian untuk memodelkan distribusi probabilitas dari fungsi yang memetakan input ke output.

 

30. Multivariate Adaptive Regression Splines (MARS): Algoritma yang memperluas regresi linear dengan secara otomatis membangun model yang memetakan hubungan non-linear antara variabel dependen dan independen.

 

Semoga penjelasan ini membantu Anda memahami berbagai algoritma prediksi yang dapat digunakan dalam analisis data!

30. Algoritma Supervised Learning – Klasifikasi

30. Algoritma Supervised Learning – Klasifikasi

 



Algoritma Supervised

Pembelajaran supervised (supervised learning) adalah salah satu teknik dalam pembelajaran mesin (machine learning) di mana model dilatih menggunakan data yang telah diberi label. Ini berarti bahwa setiap contoh dalam data pelatihan memiliki input (fitur) dan output yang benar (label). Tujuan dari algoritma supervised adalah mempelajari peta dari input ke output sehingga dapat membuat prediksi yang akurat pada data baru yang tidak diberi label.

 

Jenis-jenis Algoritma Supervised

1. Regresi: Digunakan untuk memprediksi nilai kontinu.

2. Klasifikasi: Digunakan untuk memprediksi kategori atau kelas.

 

Berikut adalah 30 algoritma klasifikasi beserta pengertiannya:

 

1. Logistic Regression: Algoritma ini digunakan untuk memprediksi probabilitas dari kelas biner. Logistic Regression menggunakan fungsi logit untuk mengubah output ke nilai probabilitas antara 0 dan 1.

 

2. K-Nearest Neighbors (KNN): Algoritma ini mengklasifikasikan data baru berdasarkan kedekatannya dengan data yang sudah ada. Kelas dari data baru ditentukan oleh mayoritas kelas dari k-tetangga terdekatnya.

 

3. Support Vector Machine (SVM): Algoritma ini mencari hyperplane terbaik yang memisahkan data dari dua kelas. Hyperplane dipilih untuk memaksimalkan margin antara kelas-kelas tersebut.

 

4. Decision Tree: Algoritma ini menggunakan struktur pohon untuk membuat keputusan berdasarkan fitur dari data. Setiap node internal mewakili tes pada fitur, setiap cabang mewakili hasil dari tes, dan setiap daun mewakili label kelas.

 

5. Random Forest: Algoritma ini membangun beberapa pohon keputusan selama pelatihan dan outputnya adalah mode dari kelas (klasifikasi) atau rata-rata prediksi (regresi) dari masing-masing pohon.

 

6. Naive Bayes: Algoritma ini didasarkan pada teorema Bayes dengan asumsi independensi antar fitur. Meskipun asumsi ini jarang benar dalam kenyataan, Naive Bayes sering bekerja dengan baik dalam banyak aplikasi.

 

7. Gradient Boosting Machines (GBM): Algoritma ini membangun model prediktif yang kuat dengan menggabungkan beberapa model prediktif yang lemah, biasanya pohon keputusan, secara berurutan.

 

8. AdaBoost: Algoritma boosting yang menambahkan model baru yang berfokus pada data yang salah diklasifikasikan oleh model sebelumnya.

 

9. XGBoost: Implementasi dari gradient boosting yang dioptimalkan untuk kecepatan dan kinerja. Sering digunakan dalam kompetisi data science.

 

10. LightGBM: Algoritma boosting yang menggunakan teknik leaf-wise dan histogram untuk mempercepat proses pelatihan dan meningkatkan efisiensi.

 

11. CatBoost: Algoritma boosting yang menangani fitur kategori dengan lebih efisien dan menghindari overfitting.

 

12. Neural Network: Model yang terinspirasi oleh otak manusia dan terdiri dari neuron yang diatur dalam lapisan. Neural Network sangat kuat dalam menangkap pola kompleks dalam data.

 

13. Convolutional Neural Network (CNN): Jenis neural network yang dirancang khusus untuk memproses data grid-like, seperti gambar. CNN menggunakan lapisan konvolusi untuk menangkap fitur spasial.

 

14. Recurrent Neural Network (RNN): Jenis neural network yang memiliki koneksi berulang, memungkinkan mereka untuk menangkap dependensi temporal dalam data sekuensial, seperti teks dan time series.

 

15. Long Short-Term Memory (LSTM): Jenis khusus dari RNN yang dirancang untuk menangani masalah vanishing gradient, memungkinkan mereka untuk belajar dari urutan yang panjang.

 

16. Gated Recurrent Unit (GRU): Varian dari LSTM yang lebih sederhana dan komputasi lebih efisien, digunakan untuk memproses data sekuensial.

 

17. Multilayer Perceptron (MLP): Neural network klasik yang terdiri dari beberapa lapisan perseptron (neuron). Digunakan untuk berbagai tugas klasifikasi dan regresi.

 

18. Linear Discriminant Analysis (LDA): Algoritma yang mencari kombinasi linier dari fitur yang memisahkan dua atau lebih kelas data.

 

19. Quadratic Discriminant Analysis (QDA): Varian dari LDA yang mengasumsikan bahwa masing-masing kelas memiliki kovarians berbeda dan menggunakan kombinasi kuadrat untuk pemisahan.

 

20. k-Means Clustering: Algoritma pengelompokan yang membagi data menjadi k-kluster berdasarkan jarak terdekat ke pusat kluster. Digunakan untuk segmentasi data sebelum klasifikasi.

 

21. Gaussian Mixture Models (GMM): Algoritma probabilistik yang mengasumsikan bahwa data berasal dari campuran distribusi Gaussian, digunakan untuk menemukan kluster dalam data.

 

22. Bayesian Network: Model grafis yang mewakili probabilitas kondisi antar variabel, digunakan untuk memodelkan ketergantungan antar variabel.

 

23. Hidden Markov Model (HMM): Model statistik yang digunakan untuk memodelkan sistem yang berubah-ubah secara temporal, seperti pengenalan suara dan penandaan urutan.

 

24. Maximum Entropy (MaxEnt): Model klasifikasi yang menggunakan prinsip entropi maksimum untuk memodelkan distribusi probabilitas kelas.

 

25. Ridge Classifier: Algoritma klasifikasi yang menggunakan regularisasi L2 untuk mencegah overfitting dengan menambahkan penalti pada koefisien besar.

 

26. Lasso Classifier: Algoritma klasifikasi yang menggunakan regularisasi L1 untuk mencegah overfitting dengan memaksa beberapa koefisien menjadi nol.

 

27. Elastic Net: Kombinasi dari Ridge dan Lasso yang menggunakan kedua jenis regularisasi untuk meningkatkan kinerja model.

 

28. Stochastic Gradient Descent (SGD): Metode optimisasi yang menggunakan subset acak dari data untuk memperbarui parameter model, digunakan untuk melatih berbagai model klasifikasi.

 

29. Perceptron: Algoritma pembelajaran terawasi yang menggunakan model linear binary classifier dan memperbarui bobot berdasarkan kesalahan prediksi.

 

30. Voting Classifier: Algoritma ensemble yang menggabungkan beberapa model klasifikasi dengan cara voting untuk membuat prediksi akhir, meningkatkan akurasi dibandingkan model individual.

Laporan Analisis Data Kelulusan Mahasiswa Universitas Buana Perjuangan Karawang

Laporan Analisis Data Kelulusan Mahasiswa Universitas Buana Perjuangan Karawang



Laporan Analisis Data Kelulusan Mahasiswa Universitas Buana Perjuangan Karawang

        

Laporan ini akan membahas hasil analisis terkait data lulusan universitas buana perjuanagan karawang dengan tujuan untuk mengeksplorasi faktor-faktor yang memengaruhi kesuksesan lulusan, termasuk nilai akademik, lamanya studi, jenis kelamin, dan aspek lainnya. Data di ambil dari https://documenter.getpostman.com/view/6355959/2sA35HY1XM. Data tersebut berisikan tabel ms_mahasiswa dan transkip nilai. Pada tahap ini akan dilakukan dilakukan intergrasi data dan analisa data.

1.      Intergrasi dan Pembersihan Data

Langkah-langkah Intergrasi dan Pembersihan Data yang dilakukan adalah sebagai berikut:

a.       Mencari data Indeks Prestasi Semester (IPS) setiap semester untuk setiap mahasiswa. Hal ini dapat memudahkan normalisasi data dan memberikan gambaran yang lebih terperinci tentang kinerja akademik mahasiswa.

b.      Menggabungkan data IPS mahasiswa dengan dataset "ms_lulusan" berdasarkan Nomor Induk Mahasiswa (NIM). Ini memungkinkan untuk menambahkan informasi tambahan dari dataset lain yang berkaitan dengan setiap mahasiswa.

c.       Menambahkan hasil dari durasi studi masing-masing mahasiswa ke dalam dataset. Durasi studi ini dapat memberikan wawasan tentang lamanya waktu yang dibutuhkan oleh mahasiswa untuk menyelesaikan program studi mereka.

d.      Melakukan pembersihan data dengan mengidentifikasi dan mengatasi nilai yang hilang atau tidak konsisten dalam data. Selain itu, mahasiswa pindahan juga dihapus dari dataset untuk memastikan analisis berfokus pada mahasiswa yang menyelesaikan studi di universitas tersebut.

e.       Standarisasi format tanggal dan jenis kelamin dalam dataset untuk mempermudah analisis lebih lanjut. Ini termasuk mengubah format tanggal menjadi format yang seragam dan mengonversi jenis kelamin ke format standar yang digunakan dalam analisis data.

Langkah-langkah ini dilakukan untuk mempersiapkan data yang bersih, konsisten, dan siap untuk dilakukan analisis lebih lanjut terkait kinerja akademik mahasiswa dan faktor-faktor yang mempengaruhinya.

 

2.      Analisis

Dalam analisis ini, dicari pola atau tren yang mempengaruhi lulusan tepat waktu atau lamanya masa studi. Beberapa analisis yang akan dilakukan sebagai berikut :

a.       Hubungan antara Nilai Rata-rata Mata Kuliah atau IPS dengan Lulusan Tepat Waktu

b.      Korelasi antara Predikat Kelulusan 'Pujian' dengan Lulusan Tepat Waktu

c.       Hubungan Durasi Studi yang Lebih Pendek dengan Predikat Kelulusan yang Lebih Baik

d.      Perbandingan Rata-rata Nilai Total berdasarkan Jenis Kelamin

Analisis ini akan memberikan pemahaman tentang faktor-faktor yang memengaruhi lulusan untuk menyelesaikan studi tepat waktu atau menghabiskan waktu yang lebih lama dalam masa studi mereka.

 

3.      Hasil Analisis

Analisis ini bertujuan untuk menemukan pola atau tren yang berpengaruh terhadap kesuksesan lulusan dalam menyelesaikan studi tepat waktu atau memperpanjang durasi studi

a.      Hubungan antara nilai rata-rata mata kuliah atau IPS dengan lulusan tepat waktu.

Korelasi antara rata-rata IPS dengan lulusan tepat waktu yang diperoleh sebesar -0.147224 atau -0.15 mengindikasikan adanya hubungan yang lemah dan negatif antara kedua variabel tersebut. Artinya, tidak ada korelasi yang signifikan antara rata-rata IPS dan kemungkinan lulus tepat waktu. Ini berarti bahwa kinerja akademik mahasiswa, yang diukur melalui IPS, tidak secara langsung mempengaruhi kemampuan mereka untuk menyelesaikan studi tepat waktu.

b.      Korelasi positif antara predikat kelulusan 'Pujian' dengan lulusan tepat waktu.

Berdasarkan analisis presentase mahasiswa dengan predikat 'Pujian', ditemukan bahwa 27.3% dari mereka lulus tidak tepat waktu, sedangkan 72.7% lulus tepat waktu. Hal ini menunjukkan adanya kecenderungan yang positif antara predikat kelulusan 'Pujian' dengan kemungkinan lulus tepat waktu. Meskipun korelasi persisnya tidak dihitung dalam bentuk koefisien korelasi.

 

c.      Hubungan antara durasi studi yang lebih pendek dengan predikat kelulusan yang lebih baik.


Nilai korelasi sebesar 0.63 antara durasi studi yang lebih pendek dengan predikat kelulusan yang lebih baik mengindikasikan adanya hubungan yang moderat dan positif antara kedua variabel tersebut. Hal ini menunjukkan bahwa terdapat kecenderungan bahwa mahasiswa yang menyelesaikan studi dalam durasi yang lebih singkat cenderung memiliki predikat kelulusan yang lebih baik.

d.      Perbandingan rata-rata nilai total berdasarkan jenis kelamin untuk melihat adanya perbedaan signifikan dalam prestasi akademik.

Dari perbandingan rata-rata nilai total berdasarkan jenis kelamin, ditemukan bahwa rata-rata nilai total untuk perempuan (3.598131) sedikit lebih tinggi dibandingkan dengan laki-laki (3.503625). Meskipun perbedaan ini tidak terlalu besar, namun dapat menunjukkan adanya kecenderungan bahwa perempuan memiliki prestasi akademik yang sedikit lebih baik dibandingkan dengan laki-laki dalam konteks data yang dianalisis.

 

5.      Kesimpulan

a.       Tidak ada korelasi yang signifikan antara IPS dan lulusan tepat waktu.

b.      Terdapat kecenderungan positif antara predikat 'Pujian' dengan lulusan tepat waktu.

c.       Durasi studi yang lebih pendek cenderung berkorelasi dengan predikat kelulusan yang lebih baik.

d.      Perempuan memiliki rata-rata nilai total sedikit lebih tinggi daripada laki-laki, menunjukkan kemungkinan perbedaan dalam prestasi akademik berdasarkan jenis kelamin.

6.      Link Source Code

https://colab.research.google.com/drive/1csU_jbyPND6TRRA4eFs3KEiHAJQVecie?usp=sharing

7.      Link Laporan Pdf

https://drive.google.com/file/d/1P3zXnvRnfF6peNFGmvmoU7D2ebXD6ikm/view

DATA PREPARATION & VISUALIZATION

DATA PREPARATION & VISUALIZATION

 

DATA PREPARATION

        Data preparation (persiapan data) adalah proses mengumpulkan, membersihkan, mentransformasi, dan memformat data agar dapat digunakan dengan efektif dalam analisis atau pemodelan. Tujuannya adalah untuk menghilangkan noise, menormalisasi data, dan mengubah format data agar sesuai dengan kebutuhan analisis yang akan dilakukan.

Berikut adalah contoh langkah-langkah data preparation menggunakan Python :

1. Pengumpulan Data

        Misalkan kita ingin menganalisis data penjualan suatu toko. Pertama-tama, kita perlu mengumpulkan data penjualan dari berbagai sumber seperti database, file Excel, atau API.

    



2. Pembersihan Data

        Setelah mengumpulkan data, langkah berikutnya adalah membersihkan data dari nilai yang hilang (missing values), outlier, atau data yang tidak valid.



3. Transformasi Data

      Proses ini melibatkan pengubahan format atau struktur data agar lebih mudah diproses atau diinterpretasi. Contohnya, mengubah tipe data kolom, menambah kolom baru, atau menggabungkan beberapa kolom.



4. Normalisasi Data

        Normalisasi data digunakan untuk mengubah skala data agar variabel-variabel memiliki skala yang serupa atau dalam rentang yang diinginkan.



Dengan melakukan langkah-langkah tersebut, data telah dipersiapkan dengan baik dan siap digunakan untuk analisis lebih lanjut.


Visualisasi Data

Visualisasi data adalah seni dan ilmu untuk mengubah data mentah menjadi informasi yang dapat dimengerti oleh manusia. Dengan visualisasi yang tepat, data yang kompleks dapat dipahami dengan mudah dan cepat, membantu kita membuat keputusan yang lebih baik dan lebih tepat waktu. Dalam artikel ini, kita akan membahas konsep dasar visualisasi data, jenis-jenis visualisasi, alat yang digunakan, serta tips dan trik untuk membuat visualisasi yang efektif.

 

 Mengapa Visualisasi Data Penting?

 

1. Mempermudah Pemahaman: Visualisasi membantu menyederhanakan data kompleks, membuatnya lebih mudah dipahami.

2. Mengidentifikasi Pola: Memungkinkan untuk melihat pola, tren, dan outlier yang mungkin tidak terlihat dalam tabel data.

3. Meningkatkan Komunikasi: Membantu menyampaikan informasi dengan cara yang lebih menarik dan mudah dipahami.

4. Mendukung Pengambilan Keputusan: Memberikan wawasan yang mendalam yang dapat digunakan untuk membuat keputusan yang lebih baik.

 

 Jenis-jenis Visualisasi Data

1. Grafik Batang (Bar Chart):

   - Kegunaan: Membandingkan data antar kategori.

   - Contoh: Membandingkan penjualan produk A dengan produk B.

 

2. Grafik Garis (Line Chart):


   - Kegunaan: Menunjukkan tren dari waktu ke waktu.

   - Contoh: Memantau pertumbuhan pengguna aplikasi setiap bulan.

 

3. Grafik Lingkaran (Pie Chart):


   - Kegunaan: Menunjukkan proporsi bagian-bagian dari keseluruhan.

   - Contoh: Distribusi pangsa pasar oleh berbagai perusahaan.

 

4. Diagram Pencar (Scatter Plot):


   - Kegunaan: Menunjukkan hubungan antara dua variabel.

   - Contoh: Hubungan antara iklan dan penjualan.

 

5. Histogram:

   - Kegunaan: Menampilkan distribusi frekuensi dari satu set data.

   - Contoh: Distribusi umur pelanggan.

 

6. Peta Panas (Heatmap):


   - Kegunaan: Menunjukkan intensitas data pada area tertentu.

   - Contoh: Frekuensi kunjungan halaman di situs web.

 

7. Box Plot:


   - Kegunaan: Menampilkan distribusi data berdasarkan kuartil dan mendeteksi outlier.

   - Contoh: Analisis nilai ujian siswa.

 

 Alat-alat Visualisasi Data

 1. Tableau:

   - Fitur: Alat BI yang kuat dengan kemampuan drag-and-drop.

   - Kelebihan: Mudah digunakan, mendukung berbagai sumber data.

 2. Power BI:

   - Fitur: Alat visualisasi dari Microsoft dengan integrasi yang kuat dengan produk Microsoft lainnya.

   - Kelebihan: Terjangkau, mudah diintegrasikan dengan Excel dan Azure.

 3. Matplotlib dan Seaborn (Python):

   - Fitur: Perpustakaan visualisasi yang kuat untuk Python.

   - Kelebihan: Sangat dapat disesuaikan, mendukung visualisasi yang kompleks.

 4. D3.js:

   - Fitur: Perpustakaan JavaScript untuk membuat visualisasi data yang interaktif.

   - Kelebihan: Fleksibilitas tinggi, mendukung visualisasi interaktif.

 5. Google Data Studio:

   - Fitur: Alat gratis dari Google untuk membuat dashboard yang interaktif.

   - Kelebihan: Integrasi mudah dengan produk Google lainnya seperti Google Analytics.

 

 Tips dan Trik untuk Visualisasi Data yang Efektif

1. Pilih Visualisasi yang Tepat: Pastikan jenis visualisasi yang Anda pilih sesuai dengan data yang ingin Anda sampaikan.

2. Sederhanakan: Hindari elemen visual yang tidak perlu. Fokus pada informasi utama.

3. Gunakan Warna dengan Bijak: Warna dapat membantu membedakan data, tetapi jangan gunakan terlalu banyak warna.

4. Berikan Konteks: Tambahkan label, judul, dan catatan kaki untuk membantu penonton memahami visualisasi.

5. Interaktif: Jika memungkinkan, buat visualisasi interaktif untuk memungkinkan eksplorasi data yang lebih mendalam.

6. Validasi Data: Pastikan data yang Anda visualisasikan akurat dan bersih.


PROSES ATAU TAHAPAN DATA MINING

PROSES ATAU TAHAPAN DATA MINING

PROSES ATAU TAHAPAN DATA MINING     


      Data mining adalah suatu metode yang memanfaatkan teknik statistik, ilmu matematika, kecerdasan buatan, dan pembelajaran mesin untuk mengekstraksi serta mengidentifikasi informasi berharga dan pengetahuan yang terkait dari berbagai sumber basis data besar atau gudang data (Data Warehouse) (Turban, dkk. 2005).
 
        Secara substansial, data mining berfokus pada eksplorasi data dan pemanfaatan perangkat lunak untuk mengidentifikasi pola serta kesamaan dalam set data tertentu. Konsep pokoknya adalah menggali sumber daya berharga dari tempat yang tidak terduga. Perangkat lunak data mining mampu mengeksplorasi pola yang sebelumnya tidak terlihat atau kurang jelas, seringkali tidak diperhatikan oleh manusia sebelumnya.

    Analisis data mining efektif dalam menghadapi data yang terus berkembang dan memanfaatkan teknik yang terbaik, terutama saat berurusan dengan data berskala besar untuk menghasilkan kesimpulan dan keputusan yang optimal. Beberapa sinonim untuk data mining meliputi Knowledge discovery (mining) in databases (KDD), ekstraksi pengetahuan (knowledge extraction), analisis pola/data, kecerdasan bisnis (business intelligence), dan sebagainya.

Proses Data Mining
    Proses data mining melibatkan sejumlah tahap yang tergambar dalam diagram di bawah. Dimulai dari data sumber, setiap langkah berurutan membawa kita ke tahap selanjutnya, hingga akhirnya menghasilkan informasi yang signifikan.


Langkah-langkah dalam proses Data Mining dapat diuraikan sebagai berikut:

1. Pemilihan Data
   Sebelum dimulainya eksplorasi informasi dalam Knowledge Discovery in Databases (KDD), tahap awal dilakukan dengan memilih data dari sekumpulan data operasional. Data yang telah dipilih akan diisolasi dalam sebuah berkas terpisah dari basis data operasional.

2. Pre-processing/Cleaning Data
   Sebelum melanjutkan ke tahap Data Mining, perlu dilakukan pembersihan data yang menjadi fokus KDD. Proses pembersihan melibatkan tindakan seperti penghapusan duplikasi, pengecekan konsistensi data, dan koreksi kesalahan seperti kesalahan tipografi. Enrichment data juga dilakukan untuk memperkaya informasi dengan data eksternal yang relevan.

3. Transformasi Data
   Coding adalah langkah transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses Data Mining. Proses coding merupakan aspek kreatif yang sangat tergantung pada jenis atau pola informasi yang diinginkan dalam basis data.

4. Data Mining
   Proses Data Mining adalah pencarian pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Berbagai teknik, metode, atau algoritma dapat digunakan dalam Data Mining, dan pemilihan yang tepat tergantung pada tujuan dan proses KDD secara keseluruhan.

5. Evaluasi/Intepretasi
    Evaluasi atau interpretasi tahapan data mining adalah proses penilaian dan analisis hasil dari kegiatan data mining untuk memastikan bahwa informasi yang dihasilkan relevan, akurat, dan dapat diandalkan. Tahapan evaluasi ini penting untuk memastikan bahwa model atau pola yang ditemukan dapat memberikan nilai tambah bagi organisasi atau tujuan tertentu.

CRISP-DM (Cross-Industry Standard Process for Data Mining)

    CRISP-DM, atau Cross-Industry Standard Process for Data Mining, adalah metodologi yang digunakan secara umum untuk mengelola proyek data mining. Metodologi ini memberikan panduan langkah-demi-langkah untuk menyusun dan melaksanakan proyek data mining secara efektif. Berikut adalah ringkasan singkat tentang CRISP-DM.
  1. Bisnis Understanding (Pemahaman Bisnis)
  2. Data Understanding (Pemahaman Data)
  3. Data Preparation (Persiapan Data)
  4. Modeling (Modeling)
  5. Evaluation (Evaluasi)
  6. Deployment (Implementasi)
  7. Feedback (Umpan Balik)
    CRISP-DM bersifat siklik, dan seringkali proyek data mining melibatkan iterasi melalui langkah-langkah ini untuk meningkatkan model dan hasilnya. Metodologi ini telah menjadi standar industri untuk proyek data mining dan memfasilitasi kolaborasi tim serta pemahaman menyeluruh terhadap proses yang dilibatkan dalam mengekstrak pengetahuan dari data.


SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA adalah metodologi yang digunakan dalam analisis data untuk mengatasi tahapan-tahapan utama dalam proses analisis data. Metodologi ini terdiri dari lima langkah utama: Sample, Explore, Modify, Model, dan Assess. Mari kita jelaskan setiap langkahnya untuk memahami bagaimana SEMMA digunakan dalam analisis data.

1. Sample (Sampel)

        Langkah pertama dalam SEMMA adalah Sampel (Sample), di mana kita mengambil sampel representatif dari data yang tersedia. Tujuan dari langkah ini adalah untuk mengurangi kompleksitas data dan mempercepat proses analisis. Sampel yang baik harus mewakili populasi dengan baik sehingga hasil analisis dapat diterapkan secara luas.

2. Explore (Eksplorasi)

        Setelah mendapatkan sampel data, langkah berikutnya adalah Eksplorasi (Explore). Dalam langkah ini, kita menjelajahi data untuk memahami karakteristiknya, seperti distribusi variabel, korelasi antar variabel, dan pola-pola menarik lainnya. Eksplorasi data membantu kita merumuskan hipotesis dan strategi analisis yang lebih lanjut.

3. Modify (Modifikasi)

        Setelah memahami karakteristik data, langkah selanjutnya adalah Modifikasi (Modify). Dalam langkah ini, kita melakukan pre-processing data, seperti penghapusan nilai-nilai yang hilang, transformasi variabel, atau normalisasi data. Tujuan dari modifikasi data adalah untuk meningkatkan kualitas data sebelum digunakan dalam model analisis.

4. Model (Model)

        Setelah data dimodifikasi, langkah berikutnya adalah Model (Modeling). Dalam langkah ini, kita membangun model analisis data, seperti regresi, klasifikasi, atau klastering, berdasarkan tujuan analisis yang ingin dicapai. Model yang dibangun harus sesuai dengan tujuan analisis dan data yang tersedia.

5. Assess (Penilaian)

        Langkah terakhir dalam SEMMA adalah Penilaian (Assess), di mana kita mengevaluasi kinerja model atau hasil analisis data. Penilaian dilakukan dengan menggunakan metrik-metrik yang relevan sesuai dengan tujuan analisis, seperti akurasi, presisi, atau recall. Hasil penilaian ini membantu kita memahami seberapa baik model atau analisis yang telah dibuat.

Dengan mengikuti metodologi SEMMA (Sample, Explore, Modify, Model, Assess), kita dapat mengelola proses analisis data secara sistematis dan mendapatkan wawasan yang berharga dari data yang tersedia. Metodologi ini membantu dalam mengambil keputusan yang lebih baik berdasarkan pemahaman yang lebih baik tentang data.


CCC (Computational, Cognitive, and Communication) 


CCC (Computational, Cognitive, and Communication) adalah pendekatan yang digunakan dalam pemrosesan informasi dan analisis data. Pendekatan ini mengintegrasikan komputasi (Computational), kognisi (Cognitive), dan komunikasi (Communication) untuk menghasilkan pemahaman yang lebih baik dan pengambilan keputusan yang lebih efektif dalam konteks analisis data. Mari kita jelaskan setiap aspek CCC secara lebih rinci:

1. Computational (Komputasi)
        Aspek komputasi dalam CCC mengacu pada penggunaan teknologi komputasi untuk mengelola, memproses, dan menganalisis data secara efisien. Ini melibatkan penggunaan perangkat lunak, algoritma, dan infrastruktur komputasi yang kuat untuk menangani volume data yang besar dan kompleks. Contoh dari aspek komputasi ini dalam analisis data adalah penggunaan algoritma machine learning, pengolahan paralel, dan penggunaan cloud computing.
2. Cognitive (Kognitif)
        Aspek kognitif dalam CCC mengacu pada pemahaman dan interpretasi manusia terhadap data. Ini melibatkan penerapan pengetahuan, pemahaman konsep, dan analisis berbasis pengetahuan untuk mengambil keputusan yang lebih baik dari data yang ada. Aspek kognitif juga mencakup pemahaman terhadap psikologi manusia, seperti persepsi, pemecahan masalah, dan pengambilan keputusan.
3. Communication (Komunikasi)
        Aspek komunikasi dalam CCC mengacu pada kemampuan untuk menyampaikan informasi dan wawasan yang diperoleh dari data kepada pemangku kepentingan yang relevan secara efektif. Ini melibatkan penggunaan visualisasi data, narasi yang kuat, dan komunikasi yang jelas untuk mengkomunikasikan temuan dan rekomendasi kepada orang lain. Aspek komunikasi juga mencakup kemampuan untuk berkolaborasi dan bekerja dalam tim untuk mencapai tujuan analisis data.

Dalam konteks analisis data, pendekatan CCC memungkinkan integrasi antara teknologi komputasi yang canggih, pemahaman manusia yang mendalam, dan komunikasi yang efektif untuk menghasilkan hasil analisis yang lebih bermakna dan aplikatif. Hal ini penting dalam mengambil keputusan yang lebih baik, mengembangkan strategi bisnis yang lebih efektif, dan meningkatkan pemahaman terhadap fenomena yang diamati melalui data.

MENENTUKAN KARDINALITAS DAN OPSIONALITAS

MENENTUKAN KARDINALITAS DAN OPSIONALITAS




Studi Kasus Yang Akan di Selesaikan.

Dalam sistem akademik selesaikan relasi antara.

    1. Prodi diketuai oleh dosen.

    2. Dosen plotting program studi.

    3. Mahasiswa dibimbing dosen.

    4. Dosen memilki prodi.

    5. Dosen mengampu matakuliah.

    6. Prodi memiliki kelas.

    7. Mahasiswa memilih matakuliah.

    8. Mahasiswa plotting kelas.

    9. Fakultas memiliki prodi.

    10. Mahasiswa di bimbing dosen.


Pembahasan

    1. Prodi di Ketuai oleh Dosen

        - Relasi = Mandatory
        - Kardinalitas = One to One
          Karena program studi hanya bisa diketuai oleh satu dosen dan seorang dosen hanya bisa menjadi ketua di satu prodi.


    2. Dosen Plotting Program Studi

        - Relasi = Mandatory

        - Kardinalitas = Many to Many
             Karena dosen bisa mengajar di beberapa program studi dan program studi tidak hanya memiliki satu dosen.


    3. Mahasiswa Dibimbing Dosen.

        - Relasi = Mandatory
        - Kardinalitas = Many to Many
            Karena mahasiswa bisa dibimbing oleh beberapa dosen dan dosen bisa membimbing banyak mahasiswa.

    4. Dosen Memilki Prodi.

        - Relasi = Mandatory 
        - Kardinalitas = Many to One
           Karena dosen wajib mempunyai program studi. Dan program studi dapat memiliki banyak dosen


    5.  Dosen Mengampu Matakuliah.

        - Relasi = Mandatory      
        - Kardinalitas = Many to One
          Karena dosen bisa mengampu beberapa mata kuliah dan satu mata kuliah hanya bisa diampu oleh satu dosen.


      6. Prodi Memiliki Kelas.

            - Relasi = Mandatory        
            - Kardinalitas = One to Many

       Karena  prodi memiliki banyak kelas dan kelas hanya boleh memiliki satu program studi.



7. Mahasiswa Memilih Matakuliah.

    

    - Relasi = Mandatory        
            - Kardinalitas = Many to Many

      Karena mahasiswa wajib memilih beberapa mata kuliah dan satu mata kuliah boleh dipilih oleh banyak mahasiswa.



8. Mahasiswa Plotting Kelas.

    

    - Relasi = Mandatory
            - Kardinalitas = Many to One
             Karena satu mahasiswa hanya boleh memiliki satu kelas, sedangkan satu kelas boleh memiliki banyak mahasiswa.


        9. Fakultas memiliki prodi.

             - Relasi = Mandatory
             - Kardinalitas = One to Many
           Karena fakultas bisa memiliki beberapa program studi dan satu program studi hanya boleh memiliki satu fakultas.

        10.  Mahasiswa di bimbing dosen.

                - Relasi = Mandatory
                - Kardinalitas = Many to Many
                  Karena mahasiswa bisa dibimbing oleh beberapa dosen dan dosen bisa membimbing banyak mahasiswa.



Terimakasih.