Thursday, January 5, 2017

Pengertian Data Mining / Penggalian Data

pengertian-data-mining
Apa itu Data Mining? Data Mining atau biasa disebut sebagai penggalian data adalah proses menganalisa data yang berjumlah besar untuk menemukan suatu pola yang akan digunakan untuk pengambilan keputusan. Bisa dikatakan juga data mining merupakan bahan-bahan sebelum menjadi knowledge/pengetahuan 

Karakteristik Data Mining :

  • Data seringnya terpendam dalam dalam database yang sangat besar yang kadang-kadang datanya sudah bertahun-tahun.
  • Lingkungan data mining biasanya berupa arsitektur client-server atau arsitektur system informasi berbasis web.
  • Tool baru yang canggih, termasuk tool visualisasi tambahan, membantu mennghilangkan lapisan informasi yang terpendam dalam file-file yang berhubungan atau record-record arsip public.
  • Karena besarnya jumlah data dan usaha pencarian yang besar-besaran, kadang-kadang diperlukan penggunaan proses paralel untuk data mining.

Baca Juga: Teknik Pengumpulan Data

Bagaimana menghasilkan knowledge dari data mining? berikut tahapan yang biasa orang lakukan dalam menggali informasi dari data agar menjadi pengetahuan/knowledge yang berguna:

  1. Data Cleaning. Memperbaiki data yang salah, menghapus data yang rusak dan tidak konsisten
  2. Data Integration. Mengintegrasi data dari berbagai macam sumber dan menyatukan agar mudah dipilih dan diproses nantinya
  3. Data Selection. Memilih data yang dibutuhkan pada database dan digunakan untuk proses analisis
  4. Data Transformation. Mengubah dan menggabungkan data dari berbagai macam bentuk menjadi satu bentuk yang sama agar mudah diproses.
  5. Data Mining. Tahap untuk menerapkan metode dalam proses modeling data yang akan digunakan pada proses Data mining.
  6. Pattern Evaluation. Melakukan evaluasi akan patern yang telah diproses, aspek-aspek yang dievaluasi adalah hasil output yang didapat setelah proses data mining dilakukan
  7. Knowledge Presentation. Melakukan penyajian hasil dari proses data mining yang sudah diproses.

Dalam penggalian data harus memiliki teknik-teknik yang harus dilakukan agar penggalian data lebih cepat,efisien dan sesuai tujuan, berikut teknik-teknik dalam data mining

Association Rule Mining / Frequent Pattern / Market Basket Analsysis

Frequent patterns adalah pola yang sering muncul dalam kumpulan data. Misalnya, satu set item seperti susu dan roti yang sering muncul bersama-sama dalam satu set data transaksai adalah frequent item set. Sebuah subsequence, seperti membeli pertama kali PC, lalu kamera digital dan kemudian memory card, jika sequence tersebut sering terjadi dalam history pada database belanja, maka pola tersebut adalah frequent pattern. Menemukan frequent pattern adalah peranan penting dalam mining assocications, correlations, dan hubungan menarik lainnya antara data. Selain itu, membantu dalam klasifikasi data, clustering, dan lainnya. Frequent itemset mining memungkinan untuk menemukan asosiasi dan korelasi dari banyak item dari banyak data transaksi. Dengan banyaknya data yang terus terkumpul, banyak industri yang mulai tertarik pada pola mining tersebut dari database mereka. Penemuan hubungan korelasi yang menarik antara jumlah besar catatatn transaksi bisnis dapat membantu dalam bisnis seperti dalam proses pengambilan keputusan untuk desain katalog, lintas pemasaran, dan analisis tingkah laku pelanggan. Association rule mining yang biasanya disebut juga market basket anlysis adalah teknik mining untuk menemukan aturan asosiatif antara suatu kombinasi item. Contoh dari aturan asosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut, pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tersebut dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan asosiatif.

Classification

Classification adalah satu bentuk analisis data yang menghasilkan model untuk mendeskripsikan kelas data yang penting. Klasifikasi memprediksi kategori (diskrit, unorderd) ke dalam label kelas. Klasifikasi merupakan proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.

Decision tree

Decision Tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Decision tree menggunakan model seperti struktur pohon.

Pembangunan decision tree tidak memerlukan pengaturan domain knowledge atau parameter, karena itu cocok untuk eksplorasi penemuan pengetahuan. Pohon keputusan dapat menangani data multidimensi. Perwakilan dari pengetahuan yang diproleh dalam bentuk pohon memudahkan untuk dipelajarai dan dipahami. Decision tree memiliki akurasi yang baik. Namun, keberhasilan penggunaannya tergantung pada data yang ada.

Clustering

Clustering adalah proses pengelompokan kumpulan data menjadi beberapa kelompok sehingga objek di dalam satu kelompok memiliki banyak kesamaan dan memiliki banyak perbedaan dengan objek di kelompok lain. Perbedaan dan persamaannya biasanya berdasarkan nilai atribut dari objek tersebut dan dapat juga berupa perhitungan jarak. Clustering sendiri juga disebut Unsupervised classification, karena clustering lebih bersifat untuk dipelajari dengan diperhatikan. Cluster analysis merupakan proses partisi satu set objek data ke dalam himpunan bagian. Setiap himpunan bagian adalah cluster, sehingga objek yang di dalam cluster mirip satu sama dengan lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain. Partisi tidak dilakukan dengan manual tetapi dengan algoritma clustering. Oleh karena itu, clustering sangat berguna dan bisa menemukan group yang tidak dikenal dalam data.

Baca Juga: Tahapan Analisis Sistem


EmoticonEmoticon