paper web database

35
MAKALAH WEB DATABASE DATA MINING DESIGN METHOD OLEH : Adithya Nugraha 1200988623 06 PGT 1

Upload: adith-torres

Post on 03-Jul-2015

268 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Paper Web Database

MAKALAH WEB DATABASE

DATA MINING DESIGN METHOD

OLEH :

Adithya Nugraha

1200988623

06 PGT

Jakarta

2011

1

Page 2: Paper Web Database

Kata PengantarPuji syukur yang tak terhingga saya panjatkan kepada Tuhan Yang Maha Esa,

karena berkat rahmat-NYA maka paper ini dapat saya selesaikan sesuai yang dengan yang saya harapkan dan tepat pada waktunya. Pada kesempatan kali ini saya mencoba membawakan bahasan tentang “Data Mining”. Saya tertarik untuk membahas topik ini karena data mining merupakan suatu teknologi baru yang memiliki banyak manfaat dan kegunaan dalam berbagai bidang.

Tugas paper ini dibuat untuk memenuhi persyaratan mendapatkan Nilai Mata Kuliah Web Database pada jurusan Teknologi Informasi, Universitas Bina Nusantara.

Dalam menyelesaikan Proyek Akhir, saya melaksanakan berdasarkan teori-teori yang telah saya peroleh dalam perkuliahan,e-book, e-learning , literatur dan bimbingan dari dosen mata kuliah Web Database, Ibu Junita Juwita Siregar serta pihak-pihak lain yang telah banyak memberikan semangat dan bantuan. Saya sadar bahwa didalama tulisan ini masih banyak kesalahan-kesalahan dan berbagai kekurangan dalam penyusunan paper ini, untuk itu saya mohon maaf dan mengharapkan kritik dan saran yang membangun dari para pembaca sekalian. Semoga paper ini memberikan manfaat dalam sebagai referensi bagi orang-orang yang ingin mencoba menghasilkan suatu teknologi baru yang akan bermanfaat bagi kepentingan orang banyak.

Terima kasih atas dorongan semangat dan kerjasamanya, sehingga dapat menyelesaikan paper ini. Besar harapan saya agar paper ini dapat berguna pada akhirnya, dan apabila ada kritik dan saran, dapat disampaikan demi perbaikan di masa yang akan datang.

Jakarta, 23 maret 2011

Penyusun

2

Page 3: Paper Web Database

AbstractSeiring kemajuan jaman dan teknologi pada saat ini,

persaingan di dalam dunia bisnis yang selalu dinamis juga semakin sengit. Oleh sebab itu, setiap pelakunya harus dapat memikirkan strategi-strategi inovasi baru yang dapat menjamin kelangsungan bisnis mereka dan bila mungkin untuk mengembangkan skala bisnis mereka. Setiap perusahaan atau usaha pasti memiliki banyak sekali data yang berhubungan dengan bisnis mereka untuk menunjang kebutuhan bisnisnya. Teknologi Data Mining hadir sebagai suatu terobosan baru untuk membantu dalam pengaturan strategi dari para pelaku dalam dunia bisnis. Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna. Makalah ini akan membahas sedikit mengenai konsep dari Data Mining itu sendiri serta dasar-dasar data mining melalui bahasan kegunaan, cara kerja dan metodologi-metodologi populer pada teknologi ini.

Data mining meramalkan tren dan sifat-sifat perilaku bisnis yang sangat berguna untuk mendukung pengambilan keputusan penting. Analisis yang diotomatisasi yang dilakukan oleh data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data mining dapat menjawab pertanyaan-pertanyaan bisnis yang bila menggunakan cara tradisional akan memerlukan banyak waktu untuk menjawabnya. Data mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi prediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.

Data Mining merupakan salah satu cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang masih memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena data mining menyangkut database, kecerdasan buatan (artificial intelligence), statistik, dsb. Ada pihak yang berpendapat bahwa data mining tidak lebih dari machine learning

3

Page 4: Paper Web Database

atau analisa statistik yang berjalan di atas database. Namun pihak lain berpendapat bahwa database berperanan penting di data mining karena data mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan disini terlihat peran penting database terutama dalam optimisasi query-nya. Definisi sederhana dari data mining adalah ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database dalam jumlah yang besar. Dalam jurnal ilmiah, data mining juga dikenal dengan nama Knowledge Discovery in Databases (KDD).

Kehadiran data mining dilatar belakangi dengan problema data explosion yang dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb.). Hampir semua data tersebut dimasukkan dengan menggunakan aplikasi komputer yang digunakan untuk menangani transaksi sehari-hari yang kebanyakan adalah OLTP (On Line Transaction Processing). Bayangkan berapa transaksi yang dimasukkan oleh hypermarket semacam Giant atau transaksi kartu kredit dari sebuah bank dalam seharinya dan bayangkan betapa besarnya ukuran data mereka jika nanti telah berjalan beberapa tahun. Pertanyaannya sekarang, apakah data tersebut akan dibiarkan menggunung, tidak berguna lalu dibuang, ataukah kita dapat me-‘nambang’-nya untuk mencari ‘emas’, ‘berlian’ yaitu informasi yang berguna untuk organisasi kita. Banyak diantara kita yang mengalami ‘’kebanjiran’’ data tapi seolah ‘‘miskin’’ informasi.

Beda data mining dengan datawarehouse dan OLAP (On-line Analytical Processing)

Secara singkat bisa dijawab bahwa teknologi yang ada di data warehouse dan OLAP dimanfaatkan penuh untuk melakukan data mining. Gambar di bawah menunjukkan posisi masing-masing teknologi:

4

Page 5: Paper Web Database

Dari gambar di atas terlihat bahwa teknologi data warehouse digunakan untuk melakukan OLAP, sedangkan data mining digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst (dengan ditambah visualisasi tentunya). Dalam prakteknya, data mining juga mengambil data dari data warehouse. Hanya saja aplikasi dari data mining lebih khusus dan lebih spesifik dibandingkan OLAP mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi data mining, banyak lagi bidang ilmu yang turut memperkaya data mining seperti: information science (ilmu informasi), high performance computing, visualisasi, machine learning, statistik, neural networks (jaringan syaraf tiruan), pemodelan matematika, information retrieval dan information extraction serta pengenalan pola. Bahkan pengolahan citra (image processing) juga digunakan dalam rangka melakukan data mining terhadap data image/spatial.

Dengan memadukan teknologi OLAP dengan data mining diharapkan pengguna dapat melakukan hal-hal yang biasa dilakukan di OLAP seperti drilling/rolling untuk melihat data lebih dalam atau lebih umum, pivoting, slicing dan dicing. Semua hal

5

Page 6: Paper Web Database

tersebut diharapkan nantinya dapat dilakukan secara interaktif dan dilengkapi dengan visualisasi

6

Page 7: Paper Web Database

Daftar Isi

Kata Pengantar......................................................2

Abstract.................................................................3

Daftar Isi................................................................6

Pendahuluan..........................................................7

Definisi..................................................................9

Permasalahan......................................................13

Solusi...................................................................15

Penerapan Data Mining.......................................21

Kesimpulan dan Saran........................................25

Daftar Pustaka.....................................................26

7

Page 8: Paper Web Database

PendahuluanKetersediaan data yang melimpah, kebutuhan akan informasi (pengetahuan)

sebagai pendukung pengambilan keputusan untuk membuat solusi bisnis, dan dukungan infrastruktur di bidang teknologi informasi merupakan cikal-bakal dari lahirnya teknologi data mining. Bidang-bidang industri yang memiliki data transaksi dalam volume besar ini misalnya jaringan ritel, telekomunikasi, perbankan, kartu kredit, dll. Sistem manajemen transaksi pada industri tersebut merekord informasi-informasi rinci yang diperlukan dalam bisnis mereka. Informasi sebagai aset perusahaan yang penting. Kebutuhan terhadap informasi telah melahirkan gudang data yang mengintegrasikan informasi dari sistem-sistem yang tersebar untuk mendukung pengambilan keputusan. Seringkali gudang data ini juga dilengkapi dengan data demografis kustomer dan informasi mengenai rumah-tangga. Ketersediaan teknologi informasi dalam skala yang terjangkau.

Faktor-faktor tersebut di atas dikombinasikan dengan konsep solusi bisnis yang telah diuraikan sebelumnya, telah melahirkan teknologi data mining. Data mining dimaksudkan untuk memberikan solusi nyata bagi para pengambil keputusan di dunia bisnis, untuk mengembangkan bisnis mereka.

Data mining tidak hanya melakukan mining terhadap data transaksi saja. Penelitian di bidang data mining saat ini sudah merambah ke sistem database lanjut seperti object oriented database, image/spatial database, time-series data/temporal database, teks (dikenal dengan nama text mining), web (dikenal dengan nama web mining) dan multimedia database. Meskipun gaungnya mungkin tidak seramai seperti ketika Client/Server Database muncul, tetapi industri-industri seperti IBM, Microsoft, SAS, SGI, dan SPSS terus gencar melakukan penelitian-penelitian di bidang data mining dan telah menghasilkan berbagai software untuk melakukan data mining:

ESTARD Data Miner 3.0

ESTARD Data Miner dapat melakukan analisis data otomatis. Untuk bekerja dengan alat ini data mining Anda tidak perlu pengetahuan SQL atau pelatihan khusus yang lama. Perangkat ini adalah solusi analitis kuat end-to-end: menggunakannya dalam beberapa klik Anda akan dapat menemukan hubungan tersembunyi pada data dan menerapkan pengetahuan untuk menemukan WHAT-IF dan mencari pola-pola data. Program ini meliputi modul untuk analisis statistik, untuk pembuatan profil (aturan if-then), untuk pembuatan pohon

8

Page 9: Paper Web Database

keputusan dan untuk implementasi pengetahuan mudah menemukan: apa-jika analisis dan menemukan pola-pola data.

SAS® Enterprise MinerTM

SAS Enterprise Miner membuat model prediksi yang sangat akurat dan deskriptif berdasarkan analisis data dalam jumlah besar dari seluruh perusahaan. Dewasa ini, perusahaan menggunakan SAS data mining software untuk mendeteksi penipuan, meminimalkan risiko kredit, mengantisipasi kebutuhan user, meningkatkan tingkat response untuk kampanye pemasaran dan menekan erosi pelanggan.

Intelligent Miner dari IBM.

Berjalan di atas sistem operasi AIX, OS/390, OS/400, Solaris dan Windows NT. Dijual dengan harga sekitar US$60.000. Selain untuk data IBM juga mengeluarkan produk Intelligent Miner untuk teks. Web site: www.software.ibm.com/data/iminer/fortext www-4.inm.com/software/data/iminer/fordata/index.html

Microsoft juga telah menambahkan fasilitas data mining di Microsoft SQL Server 2000. Web site: www.microsoft.com/sql/productinfo/feaover.htm

Enterprise Miner dari SAS. Berjalan di atas sistem operasi AIX/6000, CMS, Compaq Tru64 UNIX, HP-UX, IRIX, Intel ABI, MVS, OS/2, Open VMS Alpha, Open VMS Vax, Solaris, dan Windows. Web site: www.sas.com

MineSet dari Silicon Graphics. Berjalan di atas sistem operasi Windows 9x/NT dan IRIX. Dijual per seat seharga US$995, server (Windows NT) seharga US$35.000 dan untuk IRIX dijual US$50.000. Web site: www.sgi.com/software/mineset

Clementine dari SPSS. Berjalan di atas sistem operasi UNIX dan Windows NT. Web site: www.spss.com/software/clementine

Beberapa penelitian sekarang ini sedang dilakukan untuk memajukan data mining diantaranya adalah peningkatan kinerja jika berurusan dengan data berukuran terabyte, visualisasi yang lebih menarik untuk user, pengembangan bahasa query untuk data mining yang sedapat mungkin mirip dengan SQL. Tujuannya tidak lain

9

Page 10: Paper Web Database

adalah agar end-user dapat melakukan data mining dengan mudah dan cepat serta mendapatkan hasil yang akurat.

Definisi

Data mining adalah kombinasi secara logis antara pengetahuan data, dan analisa statistik yang dikembangkan dalam pengetahuan bisnis atau suatu proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, tiruan dan machine-learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat bagi pengetahuan yang terkait dari berbagai database besar (Therling K., 2006). Data mining juga merupakan kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan. Data mining meliputi tugas-tugas yang dikenal sebagai ekstraksi pengetahuan, arkeologi data, eksplorasi dalam pemrosesan pola data dan memanen informasi. Semua aktifitas ini dilakukan secara otomatis dan mengizinkan adanya penemuan cepat bahkan oleh non programmer. Data mining cerdas menemukan informasi di dalam data warehouse dimana laporan dan query tidak bisa diungkapkan secara efektif. Piranti data miningmenemukan pola-pola di dalam data dan bahkan menyimpulkan aturan dari data tersebut (Therling K., 2006).

Ada tiga tipe metode yang digunakan untuk mengidentifikasi pola-pola di dalam data:1. Model sederhana (query berbasis SQL, OLAP, pertimbangan manusia)2. Model sedang (regresi, pohon keputusan, clustering)3. Model kompleks (jaringan syaraf, induksi aturan lain)

Pola dan aturan ini dapat digunakan untuk memandu pengambilan keputusan dan meramalkan efek keputusan. Data mining dapat mempercepat analisis dengan memusatkan perhatian pada variabel yang paling penting.

Langkah-langkah untuk melakukan data mining adalah sebagai berikut :

10

Page 11: Paper Web Database

Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration (di mana sumber data yang terpecah dapat disatukan) Data selection (di mana data yang relevan dengan tugas analisis

dikembalikan ke dalam database) Data transformation (di mana data berubah atau bersatu menjadi bentuk

yang tepat untuk menambang dengan ringkasan performa atau operasi agresi)

Data mining (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data)

Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)

Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).

Tahap-tahap tersebut diatas bersifat interaktif di mana pemakai terlibat langsung atau denganperantaraan knowledge base.

Data-data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data-data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses

11

Page 12: Paper Web Database

persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam data mining. Adapun tahapan-tahapan yang harus dilalui dalam proses data mining antara lain:

1. Basis Data RelasionalDewasa ini, hampir semua Data bisnis disimpan dalam basis data relasional. Sebuah model basis data relasional dibangun dari serangkaian tabel, setiap tabel disimpan sebagai sebuah file. Sebuah tabel relasional terdiri dari baris dan kolom. Kebanyakan model basis data relasional saat ini dibangun diatas lingkungan OLTP. OLTP (Online Transaction Processing ) adalah tipe akses yang digunakan oleh bisnis yang membutuhkan transaksi konkuren dalam jumlah besar. Bentuk data yang tersimpan dalam basis data relasional inilah yang dapat diolah oleh sistem data mining.

2. Ekstraksi DataData-data yang dikumpulkan dalam proses transaksi seringkali ditempatkan pada lokasi yang berbeda-beds. Maka dari itu dibutuhkan kemampuan dari sistem utuk dapat mengumpulkan data dengan cepat. Jika data tersebut disimpan dalam kantor regional, seringkali data tersebut di upload ke sebuah server yang lebih terpusat. Ini bisa dilakukan secara harian, mingguan, atau bulanan tergantung jumlah .data, keamanan dan biaya. Data dapat diringkas dulu sebelum dikirimkan ke tempat penyimpanan pusat. Sebagai contoh, sebuah toko perangkat keras mungkin mengirim data yang menunjukan bahwa 10 rol kabel telah terjual pada hari ini oleh karyawan nomer 10 dibanding pengiriman data detail transaksi.

3. Transformasi DataTransformasi data melakukan peringkasan data dengan mengasumsikan bahwa data telah tersimpan dalam tempat penyimpanan tunggal. Pada langkah terakhir, data telah di ekstrak dari banyak basis data ke dalam basis data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini mirip dengan peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa perusahaan memilih untuk menngkas data dalam sebuah tempat penyimpanan tunggal. Fungsi fungsi Agregate yang sering digunakan antara lain: summarizations, averages, minimum, maximum, dan count.

4. Pembersihan DataData-data yang telah terkumpul selanjutnya akan mengalami proses pembersihan. Proses pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan attribut-attribut, merasionalisasi struktur data, dan mengendalikan data yang hilang. Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak akurat. Adalah sangat penting untuk membuat data konsisten dan seiagam. Pembersihan data juga dapat membantu perusahaan untuk mengkonsolidasikan record. ini sangat berguna ketika sebuah perusahaan mempunyai banyak record untuk seorang pelanggan.Setiap record atau file

12

Page 13: Paper Web Database

pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam tiap filenya berbeda.

5. Bentuk StandarSelanjutnya setelah data mengalami proses pembersihan maka data ditranfer kedalam bentuk standar. Bentuk standar adalah adalah bentuk data yang akan diakses oleh algoritma data mining. Bentuk standar ini biasanya dalam bentuk spreadsheet like. Bentuk spreadsheet bekerja dengan baik karena baris merepresentasikan kasus dan kolom merepresentasikan feature.

6. Reduksi Data dan FeatureSetelah data berada dalam bentuk standar spreadsheet perlu dipertimbangkan untuk mereduksi jumlah feature. Ada beberapa alasan untuk mengurangi jumlah feature dalam spreadsheet kita. Sebuah bank mungkin mempunyai ratusan feature ketika hendak memprediksi resiko kredit. Hal ini berarti perusahaan mempunyai data dalam jumlah yang sangat besar. Bekerja dengan data sebanyak ini membuat algoritma prediksi menurun kinerjanya.

7. Menjalankan AlgoritmaSetelah semua proses diatas dikerjakan, maka algoritma data mining sudah siap untuk dijalankan.

Arsitektur dari data mining yang khas memiliki beberapa komponen utama yaitu :

Database, data warehouse, atau tempat penyimpanan informasi lainnya Server database atau data warehouse Knowledge base Data mining engine Pattern evolution module Graphical user interface.

Ada beberapa jenis data dalam data mining yaitu :

Relation Database : Sebuah sistem database, atau disebut juga database management system (DBMS), mengandung sekumpulan data yang saling berhubungan, dikenal sebagai sebuah database, dan satu set program perangkat lunak untuk mengatur dan mengakses data tersebut.

Data Warehouse : Sebuah data warehouse merupakan sebuah ruang penyimpaan informasi yang terkumpul dari beraneka macam sumber, disimpan dalam skema yang menyatu, dan biasanya terletak pada sebuah site.

13

Page 14: Paper Web Database

Permasalahan

Pola seperti apa yang dapat ditambang ?

Kegunaan data mining adalah untuk menspesifikasikan pola yang harus ditemukan dalam tugas data mining. Secara umum tugas data mining dapat diklasifikasikan ke dalam dua kategori: deskriptif dan prediktif. Tugas menambang secara deskriptif adalah untuk mengklasifikasikan sifat umum suatu data di dalam database. Tugas data mining secara prediktif adalah untuk mengambil kesimpulan terhadap data terakhir untuk membuat prediksi.

Konsep/Class Description

Data dapat diasosiasikan dengan pembagian class atau konsep. Untuk contohnya, ditoko All Electronics, pembagian class untuk barang yang akan dijual termasuk komputer dan printer, dan konsep untuk konsumen adalah big Spenders dan budget Spender. Hal tersebut sangat berguna untuk menggambarkan pembagian class secara individual dan konsep secara ringkas, laporan ringkas, dan juga pengaturan harga. Deskripsi suatu class atau konsep seperti itu disebut class/concept descripition.

Association Analysis

Association analysis adalah penemuan association rules yang menunjukkan nilai kondisi suatu attribute yang terjadi bersama-sama secara terus-menerus dalam memmberikan set data. Association analysis secara luas dipakai untuk market basket atau analisa data transaksi.

Klasifikasi dan Predikasi

Klasifikasi dan prediksi mungkin perlu diproses oleh analisis relevan, yang berusaha untuk mengidentifikasi atribut-atribut yang tidak ditambahkan pada proses klasifikasi dan prediksi. Atribut-atribut ini kemudian dapat di keluarkan.

Cluster Analysis

Tidak seperti klasifikasi dan prediksi, yang menganalisis objek data dengan kelas yang terlabeli, clustering menganalisis objek data tanpa mencari keterangan pada label kelas yang diketahui. Pada umumnya, label kelas tidak ditampilkan di dalam

14

Page 15: Paper Web Database

latihan data simply, karena mereka tidak tahu bagaimana memulainya. Clustering dapat digunakan untuk menghasilkan label-label.

Outlier Analysis

§ Outlier dapat dideteksi menggunakan test yang bersifat statistik yang mengambil sebuah distribusi atau probabilitas model untuk data, atau menggunakan langkah-langkah jarak jauh di mana objek yang penting jauh dari cluster lainnya dianggap outlier.

§ Sebuah database mungkin mengandung objek data yang tidak mengikuti tingkah laku yang umum atau model dari data. data ini disebut outlier.

Evolution Analysis

Data analisa evolusi menggambarkan ketetapan model atau kecenderungan objek yang memiliki kebiasaan berubah setiap waktu. Meskipun ini mungkin termasuk karakteristik, diskriminasi, asosiasi, klasifikasi, atau clustering data berdasarkan waktu, kelebihan yang jelas seperti analisa termasuk analisa data time-series, urutan atau pencocockkan pola secara berkala, dan kesamaan berdasarkan analisa data.

Untuk melakukan data mining yang baik ada beberapa persoalan utama yaitu menyangkut metodologi mining dan interaksi user, performance dan perbedaan tipe database. Hal inilah yang sering kali dihadapi disaat kita ingin melakukan data mining.

15

Page 16: Paper Web Database

Solusi

Metodologi yang dipakai dalam Data Mining

1. Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan. Gambar 2 menunjukkan pembagian sederhana pada data peminjaman menjadi dua ruang kelas (punya dan tidak punya peminjaman). Pada gambar tersebut x merepresentasikan peminjaman yang bermasalah dan o peminjaman yang pengembaliannya lancar.

Gambar 2.Batas klasifikasi linier sederhana pada himpunan data peminjaman

2. Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll. Gambar 3 menunjukkan regresi linear sederhana dimana “total peminjaman” (total debt) diplot sebagai fungsi linier dari penghasilan (income): pengeplotan ini menghasilkan kesalahan besar karena hanya ada korelasi sedikit antara kedua variabel ini.

16

Page 17: Paper Web Database

Gambar 3.Regresi linier sederhana untuk himpunan data peminjaman4.

3. Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori atau cluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasu yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping). Gambar 4 menunjukkan pembagian himpunan data peminjaman menjadi 3 cluster. Di sini, cluster - cluster dapat saling menumpu, sehingga titik-titik data dapat menjadi anggota lebih dari satu cluster. (Label x dan o pada gambar sebelumnya diubah menjadi + untuk mengindikasikan bahwa keanggotaan kelas diasumsikan belum diketahui.

Gambar 4.Pengelompokan himpunan data peminjaman menjadi 3

cluster4.

17

Page 18: Paper Web Database

4. Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel.

5. Pemodelan Kebergantungan adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabelvariabel. Model kebergantungan ini ada di 2 tingkat: tingkat structural yang menspesifikasikan variabelvariabel yang secara local bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numerik.

6. Pendeteksian Perubahan dan Deviasi berfokus pada penemuan perubahan yang paling signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya.

Dalam dunia bisnis yang selalu dinamis dan penuh persaingan, para pelakunya harus senantiasa memikirkan cara-cara untuk terus survive dan jika mungkin mengembangkan skala bisnis mereka. Untuk mencapai hal itu, dapat diringkaskan tiga kebutuhan bisnis, yaitu:a) Penambahan jenis maupun peningkatan kapasitas produk.b) Pengurangan biaya operasi perusahaan.c) Peningkatan efektifitas pemasaran dan keuntungan.

Pencarian solusi dari masalah-masalah bisnis dewasa ini akan berkaitan dengan penemuan dan pemanfaatan dari berbagai jenis pola-pola yang tersembunyi dari gudang data yang kemungkinan sudah dimiliki oleh perusahaan. Penjelasan lebih lanjut dari masalah-masalah yang ada dan konsep dasar yang dipikirkan oleh para pelaku dan penganalisis bisnis sebagai solusinya diberikan di bawah ini:

a. Perumusan targetPara ahli pemasaran menggunakan teknik-teknik tertentu untuk memilih orang-orang yang menjadi target pemasaran untuk disuguhi advertensi tertentu. Tujuannya antar lain adalah untuk meningkatkan profit perusahaan, pengenalan produk secara luas, atau hasil-hasil terukur lainnya.

b. Personalisasi.Para ahli pemasaran memanfaatkan personalisasi untuk memilih advertensi yang paling sesuai untuk (atau memberikan rekomendasi tertentu kepada) orang tertentu. Personalisasi dapat dipandang sebagai kontradiksi dari

18

Page 19: Paper Web Database

“perumusan target”. Pada perumusan target, yang disasar adalah sebanyak mungkin orang yang memiliki potensi untuk membeli produkproduk tertentu, sedangkan pada personalisasi, tujuannya adalah agar kustomer yang sudah menjadi pelanggan membeli sebanyak mungkin produkproduk yang dijual oleh perusahaan.

c. Asosiasi (juga dinamakan analisis keranjang-pasar). Asosiasi ini mengidentifikasi item-item produk yang mungkin dibeli bersamaan dengan produk lain, atau “dilihat” secara bersamaan pada saat mencara informasi mengenai produk tertentu. Pada halaman Web, kustomer diingatkan untuk melihat atau membeli produk-produk yang berkaitan dengan produk yang menjadi minat kustomer.

d. Manajemen pengetahuan. Sistem ini mengidentifikasi dan memanfaatkan pola-pola di dalam dokumen yang berbahasa alami, atau berformat text. Di sini didefinisikan asosiasi antara katakata dan konteksnya dalam konsep tingkat-atas. Hal ini dapat dilakukan dengan “melatih” sistem dengan dokumen-dokumen yang sudah ditandai dengan konsep-konsep yang relevan. Sistem kemudian membangun sebuah pencocok pola untuk tiap konsep. Ketika dihadapkan pada dokumen baru, pencocok pola akan memutuskan tingkat relevansi dari dokumen ini terhadap konsep. Pendekatan ini dapat digunakan untuk menyortir dokumen-dokumen baru yang masuk ke dalam kategori-kategori yang sudah ada. Juga dapat digunakan untuk mempersonalisasi publikasi online. Selain itu, dapat juga dimanfaatkan untuk menciptakan atau membangkitkan dokumen jawaban-jawaban secara otomatis terhadap pertanyaan-pertanyaan yang masuk.

e. Pengelompokan (Clustering). Pengelompokan mengidentifikasi orangorang yang memiliki kesamaan karakteristik tertentu, dan kemudian menggunakan karakteristik tersebut sebagai “vektor karakteristik” atau “centroid”. Pengelompokan ini digunakan oleh perusahaan untuk membuat laporan mengenai karakteristik umum dari grup-grup pengunjung (kustomer) yang berbeda.

f. Estimasi dan Prediksi. Estimasi menerka sebuah nilai yang belum diketahui, misalnya penghasilan seseorang, ketika informasi lain mengenai orang tersebut diketahui. Prediksi memperkirakan nilai untuk masa mendatang, misalnya probabilitas orang untuk membeli sebuah mobil baru tahun depan, ketika orang itu belum melakukannya. Atau nilai saham yang akan dibeli tahun depan.

19

Page 20: Paper Web Database

g. Pohon keputusan. Pohon keputusan ini dapat dipandang sebagai diagram alir dari titik-titik pertanyaan yang menuju pada sebuah keputusan. Pohon keputusan ini diterapkan pada sistem pemilihan produk-produk yang dijual perusahaan.

Untuk memperoleh efektifitas dalam data mining, seseorang harus melakukan evaluasi kebutuhan dan memperhitungkan tantangan-tantangan apa saja yang mungkin dihadapinya dalam mengembangkan suatu teknik data mining. Hal-hal yang harus diperhatikan tersebut antara lain adalah sebagai berikut:

1. PENANGANAN BERBAGAI TIPE DATAKarena ada bermacam data dan basis data yang digunakan dalam berbagai aplikasi, seseorang mungkin saja berpikir bahwa suatu sistem knowledge discovery harus bisa melakukan proses data mining yang efektif terhadap berbagai jenis data. Selanjutnya, banyak aplikasi basis data memuat tipe data yang kompleks seperti data terstruktur, objek data kompleks, data multimedia, data spasial dan data sementara, data transaksi dan lain sebagainya. Oleh karena adanya beragam tipe data, tujuan yang berbeda dari data mining, maka adalah tidak realistis untuk mengharapkan bahwa suatu sistem data mining mampu menangani semua jenis data. Sistem data mining harus dikonstruksikan secara khusus untuk tipe-tipe data khusus seperti dalam basis data relasional, basis data transaksi, basis data spasial, basis data multimedia dan lain sebagainya.

2. EFISIENSI DARI ALGORITMA DATA MININGUntuk secara efektif melakukan ekstraksi informasi dari sejumlah besar data, algoritma yang digunakan untuk mewujudkannya haruslah efisien untuk basis data yang besar. Yaitu, waktu eksekusi dari algoritma tersebut haruslah sesuai dan realistis untuk data dengan ukuran besar.

3. KEGUNAAN, KEPASTIAN DAN KEAKURATAN HASILInformasi yang diperoleh harus secara akurat menggambarkan isi basis data dan berguna untuk aplikasi terkait. Kekurangsempurnaan yang ada haruslah dapat diekspresikan dengan suatu ukuran yang pasti dalam bentuk aturan-aturan kuantitif dan perkiraan-perkiraan yang masuk akal. Noise dan data-data yang tidak diperlukan harus ditangani dengan rapi dalam sistem data mining. Hal ini juga akan memotivasi suatu studi sistematik untuk mengukur kualitas dari informasi yang dihasilkan, termasuk seberapa menariknya dan tingkat kepercayaannya yang dapat diukur secara statistik, analitis dan menggunakan model simulasi.

20

Page 21: Paper Web Database

4. EKSPRESI TERHADAP BERBAGAI JENIS HASILBerbagai macam jenis informasi dapat diperoleh dari sejumlah besar data. Seseorang mungkin ingin menguji informasi yang diperoleh dan sudut pandang yang berbeda dan menampilkannya dalam bentuk yang berbeda. Ini menuntut kita untuk mengekspresikan permintaan datamining dan informasi yang diperoleh dalam sebuah bahasa tingkat tinggi atau graphical user interface yang baik, sehingga program dapat digunakan oleh para pemakai biasa yang bukan ahli, dan hasil yang diperoleh dapat dimengerti serta langsung digunakan oleh pemakainya. Oleh karenanya, sistem harus bisa mengadopsi teknik-teknik penyajian informasi yang baik.

5. MEMPEROLEH INFORMASI DARI SUMBER-SUMBER DATA YANG BERBEDADengan adanya LAN (Local Area Network) dan WAN ( Wide Area Network) yang tersebar secara luas dewasa ini, termasuk Internet, maka terhubunglah – berbagai sumber data yang terdistribusi secara luas dan membentuk suatu basis data heterogen. Untuk memperoleh informasi dari berbagai sumber dan dalam berbagai format dengan berbagai semantik data menimbulkan tantangan baru dalam data mining. Di lain pihak, datamining bisa membantu mengungkapkan informasi-informasi yang ada dalam suatu basis data heterogen, dimana hal tersebut sulit untuk diwujudkan dengan sebuah system query sederhana. Lebih lanjut, ukuran data yang besar, distribusi yang luas dad data dan kompleksitas dari proses komputasi beberapa metode data mining, semakin memotivasi pengembangan algoritma untuk paralel data mining dan data mining untuk basis data terdistribusi.

6. PROTEKSI DAN KEAMANAN DATAKetika data dapat diperlihatkan dari berbagai sudut pandang dan dalam level abstrak yang berbeda, hal ini akan mengancam tujuan dari proteksi dan keamanan data, dan pelanggaran terhadap sifat kerahasiaan informasi. Sangatlah penting untuk mempelajari apakah penemuan informasi yang berguna itu akan mengakibatkan pelanggaran kerahasiaan dan ukuran keamanan yang diperiukan untuk menghalangi akses terhadap data-data yang sifatnya sensitif.

21

Page 22: Paper Web Database

Penerapan Data Mining

Sebagai suatu aplikasi yang tergolong baru, penerapan data mining memilki banyak kegunaaan. Di bidang apa saja penerapan data mining dapat dilakukan?

Analisa Pasar dan Manajemen Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik. Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:

Menembak target pasar

Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.

Melihat pola beli pemakai dari waktu ke waktu

Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan.

Cross-Market Analysis

1 Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:

o Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?

o Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie.

22

Page 23: Paper Web Database

Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie.

o Cari pola penjualan

Profil Customer

Data mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.

Identifikasi Kebutuhan Customer

Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli.

Menilai Loyalitas Customer

VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Anda bisa lihat di www.visa.es/ingles/info/300300.html

Informasi Summary

Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.

Analisa Perusahaan dan Manajemen Resiko Perencanaan Keuangan dan Evaluasi Aset

Data Mining dapat membantu Anda untuk melakukan analisis dan prediksi cash flow serta melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu Anda juga dapat menggunakannya untuk analisis trend.

Perencanaan Sumber Daya (Resource Planning)

23

Page 24: Paper Web Database

Dengan melihat informasi ringkas (summary) serta pola pembelanjaan dan pemasukan dari masing-masing resource, Anda dapat memanfaatkannya untuk melakukan resource planning.

Persaingan (Competition)

o Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competitive intelligence. Data Mining dapat membantu Anda untuk memonitor pesaing-pesaing Anda dan melihat market direction mereka.

o Anda juga dapat melakukan pengelompokan customer Anda dan memberikan variasi harga/layanan/bonus untuk masing-masing grup.

o Menyusun strategi penetapan harga di pasar yang sangat kompetitif. Hal ini diterapkan oleh perusahaan minyak REPSOL di Spanyol dalam menetapkan harga jual gas di pasaran.

Telekomunikasi Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual (dilayani oleh orang). Tujuannya tidak lain adalah untuk menambah layanan otomatis khusus untuk transaksi-transaksi yang masih dilayani secara manual. Dengan demikian jumlah operator penerima transaksi manual tetap bisa ditekan minimal.

Keuangan Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry). Mereka menyatakan bahwa hal tersebut akan susah dilakukan jika menggunakan analisis standar. Anda bisa lihat di www.senate.gov/~appropriations/treasury/testimony/sloan.htm.

Asuransi Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap

24

Page 25: Paper Web Database

dilakukan oleh peserta asuransi. Hasilnya? Mereka berhasil menghemat satu juta dollar per tahunnya. Anda bisa lihat di www.informationtimes.com.au/data-sum.htm. Tentu saja ini tidak hanya bisa diterapkan untuk asuransi kesehatan, tetapi juga untuk berbagai jenis asuransi lainnya.

Olah Raga IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.

Astronomi Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa. Anda bisa lihat di www-aig.jpl.nasa.gov/public/mls/news/SKICAT-PR12-95.html.

Internet Web Surf-Aid IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke-efektif-an pemasaran melalui Web.

Dengan melihat beberapa aplikasi yang telah disebutkan di atas, terlihat sekali potensi besar dari penerapan Data Mining di berbagai bidang. Bahkan beberapa pihak berani menyatakan bahwa Data Mining merupakan salah satu aktifitas di bidang perangkat lunak yang dapat memberikan ROI (return on investment) yang tinggi. Namun demikian, perlu diingat bahwa Data Mining hanya melihat keteraturan atau pola dari sejarah, tetapi tetap saja sejarah tidak sama dengan masa datang. Contoh: jika orang terlalu banyak minum Coca Cola bukan berarti dia pasti akan kegemukan, jika orang terlalu banyak merokok bukan berarti dia pasti akan kena kanker paru-paru atau mati muda. Bagaimanapun juga data mining tetaplah hanya alat bantu yang dapat membantu manusia untuk melihat pola, menganalisis trend dsb. dalam rangka mempercepat pembuatan keputusan. Kapankah data mining akan banyak digunakan di Indonesia? Kita tunggu saja.

25

Page 26: Paper Web Database

Kesimpulan dan Saran

Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya. Dengan tersedianya basis data dalam kualitas dan ukuran yang memadai, teknologi data mining memiliki kemampuan-kemampuan sebagai berikut:1. Mengotomatisasi prediksi tren dan sifat-sifat bisnis. Data mining

mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar. Pertanyaanpertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia. Contoh dari masalah prediksi ini misalnya target pemasaran, peramalan kebangkrutan dan bentukbentuk kerugian lainnya.

2. Mengotomatisasi penemuan polapola yang tidak diketahui sebelumnya. Kakas data mining “menyapu” basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan. Contoh dari penemuan pola ini adalah analisis pada data penjulan ritel untuk mengidentifikasi produkproduk, yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh kustomer. Contoh lain adalah pendeteksian transaksi palsu dengan kartu kredit dan identifikasi adanya data anomaly yang dapat diartikan sebagai data salah ketik (karena kesalahan operator).

Data mining, yang hadir sebagai teknologi untuk memanfaatkan ketersediaan data bisnis yang melimpah, telah membantu para pelaku bisnis untuk mempertahankan dan mengembangkan bisnis mereka. Akan tetapi, agar teknologi data mining dan KDD ini dapat dimanfaatkan terus dengan baik, teknologi ini harus terus dapat “bekerja” berdampingan dengan bidang lain di dunia teknologi informasi yang berkembang dengan sangat cepat. Penyempurnaan di sana-sini masih terus diperlukan, karena itu peluang riset di bidang ini masih terbuka lebar.

26

Page 27: Paper Web Database

Daftar Pustaka

http://id.wikipedia.org/wiki/Penggalian_data

http://lecturer.eepis-its.edu/~tessy/lecturenotes/db2/bab10.pdf

http://ilmukomputer.org/category/datamining/

[email protected]

http://www.laits.utexas.edu/~norman/BUS.FOR/course.mat/Alex/

http://www.dataminingblog.com/top-10-challenging-problems-in-data-mining/

27