PROSES ATAU TAHAPAN DATA MINING

PROSES ATAU TAHAPAN DATA MINING     


      Data mining adalah suatu metode yang memanfaatkan teknik statistik, ilmu matematika, kecerdasan buatan, dan pembelajaran mesin untuk mengekstraksi serta mengidentifikasi informasi berharga dan pengetahuan yang terkait dari berbagai sumber basis data besar atau gudang data (Data Warehouse) (Turban, dkk. 2005).
 
        Secara substansial, data mining berfokus pada eksplorasi data dan pemanfaatan perangkat lunak untuk mengidentifikasi pola serta kesamaan dalam set data tertentu. Konsep pokoknya adalah menggali sumber daya berharga dari tempat yang tidak terduga. Perangkat lunak data mining mampu mengeksplorasi pola yang sebelumnya tidak terlihat atau kurang jelas, seringkali tidak diperhatikan oleh manusia sebelumnya.

    Analisis data mining efektif dalam menghadapi data yang terus berkembang dan memanfaatkan teknik yang terbaik, terutama saat berurusan dengan data berskala besar untuk menghasilkan kesimpulan dan keputusan yang optimal. Beberapa sinonim untuk data mining meliputi Knowledge discovery (mining) in databases (KDD), ekstraksi pengetahuan (knowledge extraction), analisis pola/data, kecerdasan bisnis (business intelligence), dan sebagainya.

Proses Data Mining
    Proses data mining melibatkan sejumlah tahap yang tergambar dalam diagram di bawah. Dimulai dari data sumber, setiap langkah berurutan membawa kita ke tahap selanjutnya, hingga akhirnya menghasilkan informasi yang signifikan.


Langkah-langkah dalam proses Data Mining dapat diuraikan sebagai berikut:

1. Pemilihan Data
   Sebelum dimulainya eksplorasi informasi dalam Knowledge Discovery in Databases (KDD), tahap awal dilakukan dengan memilih data dari sekumpulan data operasional. Data yang telah dipilih akan diisolasi dalam sebuah berkas terpisah dari basis data operasional.

2. Pre-processing/Cleaning Data
   Sebelum melanjutkan ke tahap Data Mining, perlu dilakukan pembersihan data yang menjadi fokus KDD. Proses pembersihan melibatkan tindakan seperti penghapusan duplikasi, pengecekan konsistensi data, dan koreksi kesalahan seperti kesalahan tipografi. Enrichment data juga dilakukan untuk memperkaya informasi dengan data eksternal yang relevan.

3. Transformasi Data
   Coding adalah langkah transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses Data Mining. Proses coding merupakan aspek kreatif yang sangat tergantung pada jenis atau pola informasi yang diinginkan dalam basis data.

4. Data Mining
   Proses Data Mining adalah pencarian pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Berbagai teknik, metode, atau algoritma dapat digunakan dalam Data Mining, dan pemilihan yang tepat tergantung pada tujuan dan proses KDD secara keseluruhan.

5. Evaluasi/Intepretasi
    Evaluasi atau interpretasi tahapan data mining adalah proses penilaian dan analisis hasil dari kegiatan data mining untuk memastikan bahwa informasi yang dihasilkan relevan, akurat, dan dapat diandalkan. Tahapan evaluasi ini penting untuk memastikan bahwa model atau pola yang ditemukan dapat memberikan nilai tambah bagi organisasi atau tujuan tertentu.

CRISP-DM (Cross-Industry Standard Process for Data Mining)

    CRISP-DM, atau Cross-Industry Standard Process for Data Mining, adalah metodologi yang digunakan secara umum untuk mengelola proyek data mining. Metodologi ini memberikan panduan langkah-demi-langkah untuk menyusun dan melaksanakan proyek data mining secara efektif. Berikut adalah ringkasan singkat tentang CRISP-DM.
  1. Bisnis Understanding (Pemahaman Bisnis)
  2. Data Understanding (Pemahaman Data)
  3. Data Preparation (Persiapan Data)
  4. Modeling (Modeling)
  5. Evaluation (Evaluasi)
  6. Deployment (Implementasi)
  7. Feedback (Umpan Balik)
    CRISP-DM bersifat siklik, dan seringkali proyek data mining melibatkan iterasi melalui langkah-langkah ini untuk meningkatkan model dan hasilnya. Metodologi ini telah menjadi standar industri untuk proyek data mining dan memfasilitasi kolaborasi tim serta pemahaman menyeluruh terhadap proses yang dilibatkan dalam mengekstrak pengetahuan dari data.


SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA adalah metodologi yang digunakan dalam analisis data untuk mengatasi tahapan-tahapan utama dalam proses analisis data. Metodologi ini terdiri dari lima langkah utama: Sample, Explore, Modify, Model, dan Assess. Mari kita jelaskan setiap langkahnya untuk memahami bagaimana SEMMA digunakan dalam analisis data.

1. Sample (Sampel)

        Langkah pertama dalam SEMMA adalah Sampel (Sample), di mana kita mengambil sampel representatif dari data yang tersedia. Tujuan dari langkah ini adalah untuk mengurangi kompleksitas data dan mempercepat proses analisis. Sampel yang baik harus mewakili populasi dengan baik sehingga hasil analisis dapat diterapkan secara luas.

2. Explore (Eksplorasi)

        Setelah mendapatkan sampel data, langkah berikutnya adalah Eksplorasi (Explore). Dalam langkah ini, kita menjelajahi data untuk memahami karakteristiknya, seperti distribusi variabel, korelasi antar variabel, dan pola-pola menarik lainnya. Eksplorasi data membantu kita merumuskan hipotesis dan strategi analisis yang lebih lanjut.

3. Modify (Modifikasi)

        Setelah memahami karakteristik data, langkah selanjutnya adalah Modifikasi (Modify). Dalam langkah ini, kita melakukan pre-processing data, seperti penghapusan nilai-nilai yang hilang, transformasi variabel, atau normalisasi data. Tujuan dari modifikasi data adalah untuk meningkatkan kualitas data sebelum digunakan dalam model analisis.

4. Model (Model)

        Setelah data dimodifikasi, langkah berikutnya adalah Model (Modeling). Dalam langkah ini, kita membangun model analisis data, seperti regresi, klasifikasi, atau klastering, berdasarkan tujuan analisis yang ingin dicapai. Model yang dibangun harus sesuai dengan tujuan analisis dan data yang tersedia.

5. Assess (Penilaian)

        Langkah terakhir dalam SEMMA adalah Penilaian (Assess), di mana kita mengevaluasi kinerja model atau hasil analisis data. Penilaian dilakukan dengan menggunakan metrik-metrik yang relevan sesuai dengan tujuan analisis, seperti akurasi, presisi, atau recall. Hasil penilaian ini membantu kita memahami seberapa baik model atau analisis yang telah dibuat.

Dengan mengikuti metodologi SEMMA (Sample, Explore, Modify, Model, Assess), kita dapat mengelola proses analisis data secara sistematis dan mendapatkan wawasan yang berharga dari data yang tersedia. Metodologi ini membantu dalam mengambil keputusan yang lebih baik berdasarkan pemahaman yang lebih baik tentang data.


CCC (Computational, Cognitive, and Communication) 


CCC (Computational, Cognitive, and Communication) adalah pendekatan yang digunakan dalam pemrosesan informasi dan analisis data. Pendekatan ini mengintegrasikan komputasi (Computational), kognisi (Cognitive), dan komunikasi (Communication) untuk menghasilkan pemahaman yang lebih baik dan pengambilan keputusan yang lebih efektif dalam konteks analisis data. Mari kita jelaskan setiap aspek CCC secara lebih rinci:

1. Computational (Komputasi)
        Aspek komputasi dalam CCC mengacu pada penggunaan teknologi komputasi untuk mengelola, memproses, dan menganalisis data secara efisien. Ini melibatkan penggunaan perangkat lunak, algoritma, dan infrastruktur komputasi yang kuat untuk menangani volume data yang besar dan kompleks. Contoh dari aspek komputasi ini dalam analisis data adalah penggunaan algoritma machine learning, pengolahan paralel, dan penggunaan cloud computing.
2. Cognitive (Kognitif)
        Aspek kognitif dalam CCC mengacu pada pemahaman dan interpretasi manusia terhadap data. Ini melibatkan penerapan pengetahuan, pemahaman konsep, dan analisis berbasis pengetahuan untuk mengambil keputusan yang lebih baik dari data yang ada. Aspek kognitif juga mencakup pemahaman terhadap psikologi manusia, seperti persepsi, pemecahan masalah, dan pengambilan keputusan.
3. Communication (Komunikasi)
        Aspek komunikasi dalam CCC mengacu pada kemampuan untuk menyampaikan informasi dan wawasan yang diperoleh dari data kepada pemangku kepentingan yang relevan secara efektif. Ini melibatkan penggunaan visualisasi data, narasi yang kuat, dan komunikasi yang jelas untuk mengkomunikasikan temuan dan rekomendasi kepada orang lain. Aspek komunikasi juga mencakup kemampuan untuk berkolaborasi dan bekerja dalam tim untuk mencapai tujuan analisis data.

Dalam konteks analisis data, pendekatan CCC memungkinkan integrasi antara teknologi komputasi yang canggih, pemahaman manusia yang mendalam, dan komunikasi yang efektif untuk menghasilkan hasil analisis yang lebih bermakna dan aplikatif. Hal ini penting dalam mengambil keputusan yang lebih baik, mengembangkan strategi bisnis yang lebih efektif, dan meningkatkan pemahaman terhadap fenomena yang diamati melalui data.

:)
:(
hihi
:-)
:D
=D
:-d
;(
;-(
@-)
:P
:o
:>)
(o)
:p
(p)
:-s
(m)
8-)
:-t
:-b
b-(
:-#
=p~
x-)
(k)