Pengantar Data Mining dan Knowledge Discovery in Databases
Oleh: Romeo, ST & Betty Yulistiowati S.Kom
"Komputerisasi menjanjikan banyak kebajikan, namun menyediakan data yang tak terhingga banyaknya untuk dianalisa."
Romeo.
Di era informasi digital, dunia IT menghadapi masalah lubernya jumlah data. Terjadi gap antara kemampuan manusia dalam menganalisa dan memahami sekumpulan data, dengan kemampuan manusia dalam mengumpulkan dan menyimpan data. Dan pada saat yang bersamaan, berkembang suatu realita dan harapan terhadap data-data tersebut untuk dapat dianalisa dan dihadirkan dalam suatu bentuk informasi yang berguna atau dapat
memberikan keuntungan dalam berkompetisi.
Metode tradisional untuk mengubah data menjadi pengetahuan bergantung pada analisa dan interpretasi manual. Pada suatu organisasi, umumnya dibutuhkan spesialis yang secara periodik menganalisa kecenderungan dan perubahan pola distribusi data terkini. Spesialis memberikan suatu laporan hasil analisa kepada pihak manajemen dan eksekutif organisasi, dan laporan ini akan menjadi dasar pertimbangan dalam
merencanakan dan menetapkan keputusan-keputusan atau kebijakan-kebijakan organisasi. Dalam penerapannya, proses ini berjalan dengan lambat, mahal, dan sangat subyektif.
Volume data tumbuh berkembang secara dramatis, sehingga analisa data secara manual menjadi tidak praktis lagi. Peningkatan ukuran database terjadi dalam 2 hal, yaitu
(1) jumlah data atau obyek tersimpan dalam database, secara umum dapat mencapai 109 obyek (misal data astronomi), dan
(2) jumlah kolom atau atribut suatu obyek data, secara umum dapat mencapai 102 atau
bahkan 103 (misal pada aplikasi diagnosa medis).
Estimasi jumlah informasi di dunia akan meningkat 2 kali setiap 20 bulan. Sedangkan ukuran dan jumlah database akan meningkat lebih cepat. Di tahun 1989, estimasi jumlah total database di dunia telah mencapai 5 miliar, dan sebagian besar adalah database kecil, seperti DBASE III (Frawley, dkk, 1992).
Otomatisasi aktifitas bisnis menghasilkan peningkatan yang tajam terhadap jumlah data. Karena otomatisasi yang dilakukan mencakup semua transaksi, bahkan yang sederhana sekalipun, seperti panggilan telepon, penggunaan kartu kredit, tes medis, dan lain sebagainya.
Database keilmuan dan pemerintahan juga berkembang dengan sangat cepat. Sebagai contoh, The National Aeronautics and Space Administration memiliki data yang amat besar untuk dapat dianalisa.
Satelit untuk observasi Bumi, yang dirancang di tahun 1990-an, diharapkan dapat menghasilkan 1 terabyte data tiap hari. Dengan berdasarkan pada kecepatan rata-rata gambar yang dihasilkan tiap detik, akan membutuhkan waktu kerja beberapa tahun, siang dan malam, termasuk pada hari libur, bagi 1 orang, hanya untuk melihat semua
gambar yang dihasilkan dalam 1 hari.
Apa yang seharusnya dilakukan terhadap lubernya data ini? Nilai dari data yang disimpan tergantung pada kemampuan manusia dalam mengekstraksi laporan-laporan yang berguna, menyoroti kecenderungan dan kejadian yang menarik, mendukung keputusan dan kebijakan berdasarkan pada analisa dan inferensi statistik, serta mengeksploitasi data untuk mencapai tujuan bisnis dan organisasi. Sedangkan kemampuan manusia sangatlah terbatas. Karenanya dibutuhkan suatu teknik dan alat bantu komputasi generasi baru dalam mendukung ekstraksi pengetahuan yang berguna dari perkembangan volume data yang sangat cepat.
Pengembangan teknik dan alat bantu ini merupakan subyek dalam bidang penggalian data (DM - Data Mining) dan penemuan pengetahuan dalam database (KDD – Knowledge Discovery in Databases). Artikel ini memberikan pengantar terhadap perkembangan DM dan KDD, termasuk keterkaitan antara keduanya dan dengan bidang yang lain (seperti mesin belajar, statistik, dan database), definisi dari proses penemuan pengetahuan.
Penerapan DM dan KDD di Dunia Nyata
DM dan KDD telah banyak diterapkan sebagai solusi terhadap permasalahan pada dunia nyata dalam bidang keilmuan dan bisnis. Dalam bidang keilmuan, dapat dilihat pada area astronomi. Keberhasilan yang dicapai oleh SKICAT, suatu sistem yang digunakan oleh para ahli astronomi untuk melakukan analisa gambar (image), klasifikasi, dan membuat katalog obyek angkasa dari gambar survei angkasa (Fayyad, Djorgovski, dan Weir, 1996). Dalam bidang bisnis, area utama aplikasi KDD, antara lain, pemasaran, keuangan (khususnya investasi), deteksi kecurangan, manufaktur, telekomunikasi, dan agen internet.
Pemasaran:
Di area ini DM dan KDD banyak digunakan untuk menganalisa database pelanggan guna mengidentifikasikan dan mengklasifikasikan grup-grup pengguna, serta memprediksikan tingkah laku mereka.
Business Week (Berry, 1994) mengestimasi lebih dari separuh dari keseluruhan retailer sedang menggunakan atau merencanakan untuk memakai database pemasaran. Dan mereka yang menggunakannya, telah mendapatkan hasil sebagaimana yang diharapkan, misalnya American Express yang menyatakan bahwa sistem manajemen pelanggan mereka telah berhasil memberikan kenaikan 10% hingga 15% dalam penggunaan kartu kredit. Penerapan pada aplikasi pemasaran lainnya adalah pada sistem analisa market-basket (Agrawal, dkk, 1996), digunakan untuk menemukan pola-pola tertentu yang berguna bagi retailer ataupun pelanggan, misal pada Amazon.com, bila pelanggan membeli atau mencari suatu buku, maka sistem akan juga memberikan suatu informasi tambahan, seperti "Pelanggan yang membeli barang X, biasanya juga akan membeli barang Y dan Z."
Investasi:
Beberapa perusahaan menggunakan DM untuk membantu dalam pengambilan keputusan berinvestasi. Manajemen pendanaan LBS, menggunakan sistem pakar, jaringan syaraf tiruan, dan algoritma genetika untuk mengelola portofolio, dengan total 600 milyar US
Dolar, sejak tahun 1993 (Hall, Mani, dan Barr, 1996).
Deteksi kecurangan:
Terdapat sistem PRISM, yang dikembangkan oleh HNC Falcon and Nestor digunakan untuk memonitor kecurangan yang terjadi pada kartu kredit dengan jutaan akun. Sistem FAIS (Senator, dkk, 1995), dari the U.S. Treasury Financial Crimes Enforcement Network, digunakan untuk identifikasi transaksi finansial yang mungkin termasuk dalam aktivitas pembersihan keuangan (money laundering).
Manufaktur:
Terdapat sistem penemuan masalah CASSIOPEE, dikembangkan sebagai bagian dari kerja sama antara General Electric dan SNECMA. Telah diterapkan oleh 3 maskapai penerbangan besar Eropa untuk mendiagnosa dan memprediksi masalah-masalah pada Boeing 737, dengan menggunakan metode clustering (Manago dan Auriol, 1996).
Telekomunikasi:
The telecommunications alarm-sequence analyzer (TASA) yang dikembangkan dengan menggunakan kerangka kerja novel, digunakan untuk lokalisasi episode-episode alarm dari suatu jaringan alarm, dan menampilkannya dalam bentuk aturan-aturan. Sekumpulan besar aturan-aturan yang ditemukan dapat dieksplorasi dengan alat bantu
penerima informasi yang fleksibel, interaktif, dan mendukung aktifitas iterasi. Sehingga TASA dapat menjadi alat bantu yang dapat mengoptimalkan proses pencarian aturan-aturan.
Pembersihan data (Data cleaning):
Sistem MERGE-PURGE yang diaplikasikan untuk identifikasi duplikasi klaim kesejahteraan (Hernandez dan Stolfo, 1995), telah berhasil diimplementasikan pada
Departemen Kesejahteraan Amerika Serikat. Di area lain, sistem ADVANCED SCOUT yang dikembangkan oleh IBM, suatu sistem DM khusus yang membantu National Basketball Association (NBA) dalam mengorganisasikan dan menginterpretasikan data pertandingan NBA (U.S. News, 1995). ADVANCED SCOUT digunakan oleh beberapa tim NBA di tahun 1996, termasuk Seattle Supersonics, yang berhasil membawanya ke final.
Agen Internet:
Terdapat suatu tipe penemuan yang berdasarkan pada penggunaan agen intelijen untuk melakukan navigasi dalam lingkungan yang memiliki banyak sekali informasi, seperti halnya lingkungan internet. Sistem ini menerima masukan spesifikasi suatu profil ketertarikan dari pengguna dan mencari informasi yang berhubungan di berbagai domain publik dan sumber-sumber tertentu yang jumlahnya sangatlah banyak. Sebagai contoh, FIREFLY adalah agen yang berfungsi memberikan rekomendasi musik secara personal. Ia membutuhkan masukan opini dari pengguna terhadap beberapa jenis musik dan kemudian menyarankan musik lain yang disukai pengguna (http://www.ffly.com/). CRAYON (http://crayon.net/) memungkinkan pengguna dalam membuat sendiri korannya (didukung iklan). NEWSHOUND (http://www/sjmercury.com/hound/) dari San Jose Mercury News dan FARCAST (http://www.farcast.com/) yang berfungsi untuk mencari informasi dari sumber-sumber yang sangat banyak dan tersebar, termasuk berita dan dokumen-dokumen e-mail yang berkaitan, secara langsung terhadap permintaan pengguna.
Demikianlah sedikit contoh nyata sistem-sistem yang menggunakan teknik KDD untuk menghasilkan informasi yang berguna secara otomatis dari sekumpulan besar data. Pengantar terhadap hal-hal yang berkaitan dengan pengembangan aplikasi KDD di industri dapat dilihat pada artikel Piatetsky-Saphiro, dan kawan-kawan (1996).
DM dan KDD
Dalam sejarahnya, penemuan pola yang berguna dalam data memiliki berbagai nama, termasuk data mining, knowledge extraction, information discovery, information harvesting, data archaeology, dan data pattern processing. Istilah data mining telah banyak digunakan dalam komunitas statistik, analis data, dan manajemen sistem informasi (MIS). Frase KDD diperkenalkan pertama kali dalam workshop KDD di tahun 1989 (piatetsky-Saphiro, 1991), yang menekankan pada pengetahuan sebagai produk akhir dari proses penemuan yang berdasarkan pada data. KDD lebih populer di area artificial intelligent (AI) dan mesin belajar (machine learning).
KDD merupakan suatu proses penemuan pengetahuan secara utuh dari data, dan DM merupakan suatu bagian tahapan dari proses ini. DM adalah suatu penerapan algoritma tertentu untuk melakukan ekstraksi pola-pola dari data. Tahapan tambahan dalam proses KDD, seperti persiapan data (data preparation), penyeleksian data (data selection), dan pembersihan data (data cleaning), adalah tahapan yang esensial untuk memastikan dihasilkannya pengetahuan yang berguna dari data, dan mencegah penemuan pola yang salah dan tidak berarti.
KDD terus berevolusi dari interseksi area penelitian, seperti mesin belajar, pengenalan pola, database, statistik, AI, akusisi pengetahuan untuk sistem pakar, visualisasi data dan komputasi dengan kinerja tinggi. Hal yang menjadi pengikat adalah tujuan utama dalam mengekstraksi pengetahuan tingkat tinggi dari data tingkat rendah dalam kontek kumpulan data yang amat besar. DM sebagai komponen dari KDD sangat bergantung pada penerapan teknik-teknik dari mesin belajar, pengenalan pola, dan statistik untuk menemukan pola-pola dari data dalam penggalian data, yang merupakan salah satu tahapan proses KDD.
Permasalahan utama dari penerapan KDD adalah pengelolaan sumber daya komputasi (seperti memori, hard disk, dll) dalam proses DM dan KDD untuk sekumpulan data yang sangat besar. Bidang yang berkaitan dengan evolusi database adalah DataWarehouse (DW), yang berhubungan dengan pengumpulan dan pembersihan data transaksional untuk dapat digunakan dalam OnLine Analytical Processing (OLAP) dan Decision Support System (DSS). DW memberikan sekumpulan tahapan bagi KDD dengan 2 cara yang penting, yaitu
(1) pembersihan data (data cleaning), dan
(2) akses data (data access).
Pembersihan data (Data cleaning):
Organisasi dipaksa untuk memandang data yang amat besar dan tersebar dalam berbagai database sebagai satu kesatuan yang utuh. Organisasi harus memetakan data ke dalam satu konvensi penamaan, secara seragam merepresentasikan dan menangani data yang hilang, dan menangani gangguan dan kesalahan yang mungkin ada.
Akses data (Data access):
Metode yang seragam dan terdefinisi dengan baik harus diciptakan untuk pengaksesan data, dan penyediaan akses jalur-jalur penghubung ke data yang secara historis sulit untuk didapatkan (misal, penyimpanan secara offline).
Definisi Dasar
KDD merupakan bukan proses nontrivial dalam mengekstraksi data yang implisit, belum diketahui sebelumnya, dan berpotensi menjadi informasi yang berguna (Fayyad, Piatetsky-Shapiro, dan Smyth, 1996).
Data adalah sekumpulan fakta, dan pola adalah suatu ekspresi dalam beberapa bahasa, yang menggambarkan suatu kumpulan data atau suatu model yang dapat diaplikasikan pada suatu kumpulan data.
Nontrivial karena beberapa pencarian atau inferensi yang dilibatkan bukan merupakan hasil komputasi secara langsung terhadap kuantitas yang telah didefinisikan sebelumnya, seperti komputasi nilai rata-rata sekumpulan bilangan. Pola yang ditemukan harus valid terhadap data baru pada suatu tingkat kepastian tertentu. Pola-pola tersebut harus dapat menjadi suatu deskripsi atau gambaran tentang suatu pengetahuan yang secara potensial berguna dan menguntungkan bagi pengguna atau tugas tertentu. Akhirnya, pola-pola tersebut juga harus dapat dipahami dan dimengerti, walaupun terdapat kemungkinan tidak dapat secara langsung dan harus melewati beberapa proses dahulu.
DM adalah suatu tahapan dalam proses KDD yang terdiri dari penerapan analisa data dan algoritma penemuan, yang dapat diterima dalam batasan efisiensi komputasi, menghasilkan suatu enumerasi pola tertentu (atau model) dari data. Proses KDD melibatkan penggunaan database selama seleksi, proses awal, subsampling dan transformasi yang dibutuhkan. Termasuk juga penerapan metode (algortima) DM dalam
mengenumerasi pola dan evaluasi hasil DM untuk mengidentifikasi suatu kumpulan pola yang telah dienumerasi dan dipercayai merupakan suatu pengetahuan. Secara keseluruhan proses KDD meliputi evaluasi dan interpretasi yang memungkinkan dari
penggalian pola-pola untuk menentukan pola-pola mana yang dapat dipertimbangkan menjadi pengetahuan baru.
Proses KDD
Proses KDD adalah interaktif dan iteratif, meliputi beberapa tahapan dan membutuhkan banyak keputusan-keputusan dari pengguna. Brachman dan Anand (1996) memberikan pandangan praktis terhadap proses KDD, yang menekankan pada interaktif natural dari proses. Berikut ini adalah 9 tahapan dasar yang umum:
• Pertama adalah pengembangan suatu pemahaman domain aplikasi dan relevansinya terhadap pengetahuan tertentu dan pengidentifikasian tujuan dari proses KDD dari sudut pandang pelanggan.
• Kedua adalah pembuatan sekumpulan data target. Pemilihan sekumpulan data, atau fokus pada sekumpulan variabel atau sampel data, di mana penemuan akan dilaksanakan.
• Ketiga adalah pembersihan dan pemrosesan awal terhadap data. Operasi dasar termasuk penghilangan gangguan jika dibutuhkan, pengumpulan informasi yang dibutuhkan sebagai model atau perhitungan bagi gangguan, penetapan strategi dalam menangani kolom data yang hilang, dan perhitungan informasi sekuensial waktu dan perubahan yang diketahui.
• Keempat adalah reduksi dan proyeksi data. Penemuan fitur yang berguna untuk merepresentasikan data tergantung pada tujuan akhir dari tugas. Dengan metode-metode reduksi atau transformasi secara dimensional, sejumlah variabel efektif yang diperhitungkan dapat direduksi, atau representasi alternatif dari data dapat ditemukan.
• Kelima adalah menyesuaikan dengan tujuan proses KDD (tahap 1) dengan metode DM tertentu. Misalnya, penjumlahan, klasifikasi, regresi, klustering, dan lainnya.
• Keenam adalah eksplorasi analisa dan model dan pemilihan hipotesa. Pemilihan algoritma DM dan pemilihan metode yang digunakan untuk pencarian pola-pola data. Proses ini meliputi penetapan model-model dan parameter-parameter yang tepat (misal, model-model data kategorikal berbeda dengan model-model vektor real) dan menyesuaikan suatu metode DM tertentu dengan keseluruhan kriteria proses KDD (misal, pengguna akhir akan lebih tertarik dalam memahami model daripada kemampuan prediksinya).
• Ketujuh adalah penggalian data. Pencarian pola yang menarik dalam suatu bentuk representasi tertentu atau sekumpulan representasi tertentu, meliputi aturan klasifikasi, regresi, dan klustering.
• Kedelapan adalah pengintepretasian pola-pola yang telah digali, berkemungkinan membutuhkan untuk kembali ke tiap langkah sebelumnya (langkah 1 sampai 7) untuk iterasi lebih lanjut. Tahap ini juga meliputi visualisasi pola-pola, dan model-model yang diekstraksi, atau visualisasi data yang dihasilkan oleh model-model yang diekstraksi.
• Kesembilan adalah mengolah pengetahuan yang ditemukan, seperti menggunakan pengetahuan yang didapat secara langsung, menghubungkan pengetahuan ke sistem lain untuk diolah lebih lanjut, atau mendokumentasikannya dan melaporkannya pada pihak yang berkepentingan. Pada proses ini juga meliputi pengecekan dan pemecahan konflik yang berpotensi dengan pengetahuan yang telah didapatkan sebelumnya dan diyakini benar.
Kebanyakan penilitian KDD berfokus pada langkah ke 7, DM. Namun, bagaimanapun juga, langkah yang lain tak kalah pentingnya (bahkan mungkin lebih) untuk dipertimbangkan bagi kesuksesan penerapan KDD secara praktis.
Walaupun beberapa aspek penemuan dalam database, seperti pencarian formula sederhana untuk suatu data, atau penerapan pohon keputusan (decision trees) untuk klasifikasi, secara relatif telah dapat dipahami, namun masih banyak aspek yang membutuhkan penelitian lebih lanjut di area KDD ini. Penelitian ini hendaknya tidak hanya dilakukan oleh para akademisi saja, namun juga membutuhkan keikutsertaan para praktisi untuk dapat lebih menganalisa data yang lebih komplek daripada sebelumnya, termasuk database berorientasi obyek, CAD-CAM, tekstual, dan multimedia.
Kompleksitas data akan membuat KDD lebih berguna dalam proses penemuan pengetahuan. Database yang besar akan membutuhkan algoritma yang efisien. Demikian pula dalam menghadapi masalah lingkungan yang berubah dengan cepat, akan menuntut peningkatan kinerja dari metode-metode yang ada. Masalah komplek, seperti pengendalian jaringan akan membutuhkan integrasi dari berbagai pendekatan penemuan. Yang pada akhirnya, hasil proses penemuan pengetahuan ini harus dapat dipresentasikan pada pengguna dalam beberapa cara yang dapat dimengerti, menggunakan pendekatan iteraktif.
1 komentar:
artikel anda bagus dan menarik, artikel anda:
http://datamining.infogue.com/
http://datamining.infogue.com/data_mining_knowledge_discovery_in_databases
anda bisa promosikan artikel anda di www.infogue.com yang akan berguna untuk semua pembaca. Telah tersedia plugin/ widget vote & kirim berita yang ter-integrasi dengan sekali instalasi mudah bagi pengguna. Salam!
Posting Komentar