bukureferensi - univbsi.idunivbsi.id/pdf/2014/602/602-p01.pdfuntuk melakukan information discovery...
TRANSCRIPT
Buku Referensi:
1. Hermawati, Fajar Astuti. 2013.Data Mining. Yogyakarta: AndiOffset
2. Larose, Daniel T.2005. Discovering Knowledge in Data, An Introduction To Data Mining. New Jersey : John Wiley & Sons, Inc. Publication.
3. Han, Jiawei dan Michelin Kamber. 2006. Data Mining Concept and Techniques. San Fransisco: Elseiver Inc.
4. Kusrini dan Luthfi, Emha Taufiq.2009. Algoritma Data Mining. Yogyakarta : Andi Offset
PERTEMUAN I
PENGERTIAN DATA MINING
Definisi
Data Mining berisi pencarian trend atau pola yang diinginkan
dalam database yang besar untuk membantu pengambilan
keputusan diwaktu yang akan datang. Harapannya, perangkat
data mining mampu mengenali pola-pola ini dalam data dengan
masukan yang minimal. Pola-pola ini dikenali oleh perangkat
tertentu yang dapat memberikan suatu analisa data yang
berguna dan berwawasan yang kemudian dapat dipelajari
dengan lebih teliti, yang mungkin saja menggunakan perangkat
pendukung keputusan yang lain.
Definisi Lanjutan
Menurut Gartner Group Data Mining adalah suatu proses
menemukan hubungan yang berarti, pola dan kecenderungan
dengan memeriksa dalam sekumpulan besar data yang
tersimpan dalam penyimpanan dengan menggunakan teknik
pengenalan pola seperti teknik statistik dan matematika (Larose,
2005)
Definisi Lanjutan
Data Mining adalah analisis otomatis dari data yang berjumlah
besar atau kompleks dengan tujuan untuk menemukan pola atau
kecenderungan yang penting yang biasanya tidak disadari
keberadaannya.
Definisi Lanjutan
Data Mining merupakan bidang dari beberapa bidang keilmuan
yang menyatukan teknik dari pembelajaran mesin, pengenalan
pola, statistik, database, dan visualisasi untuk penanganan
permasalahan pengambilan informasi dari database yang besar.
Definisi Lanjutan
Proses yang mempekerjakan satu atau lebih teknik pembelajaran
computer (machine learning) untuk menganalisis dan
mengekstraksi pengetahuan (knowledge) secara otomatis
Definisi Lanjutan
Pembelajaran berbasis induksi (induction-based learning) adalah
pembentukan definisi-definisi konsep umum yang dilakukan
dengan cara mengobservasi contoh-contoh spesifik dari konsep-
konsep yang akan dipelajari
Definisi Lanjutan
Merupakan proses iteratif dan interaktif untuk menemukan pola atau
model baru yang sahih (sempurna), bermanfaat dan dapat dimengerti
dalam suatu database yang sangat besar (massive database).
Sahih : dapat digeneralisasi untuk masa yang akan dating
Baru : apa yang sedang tidak diketahui
Bermanfaat : dapat digunakan untuk melakukan suatu tindakan
Iteratif : memerlukan sejumlah proses yang diulang
Interaktif : memerlukan interaksi manusia dalam prosesnya
Definisi Lanjutan
Dalam dunia nyata, data mining lebih dari sekedar menerapkan satu dari algoritma-algortima tersebut secara sederhana. Seringkali data terlalu ramai dan tidak lengkap. Jika hal ini dibenarkan, besar kemungkinan banyak pola yang diinginkan akan hilang dan kemampuan deteksi pola pun akan turun. Lebih lanjut, analis harus memutuskan jenis dari algoritma mining yang digunakan, menerapkannya kedalam himpunan bagian data-data sample dan variable (seperti tuple atau atribut), mencerna hasilnya, menerapkan perangkat decision support dan mining
dan mengiterasi proses tersebut.
Contoh data mining
Mencari nama-nama khusus yang lazim dilokasi tertentu,
misalnya di Amerika (O’Brien, O’Rurke, O’Reilly, dll di daerah
Boston) dan mengelompokkan dokumen-dokumen yang sama
yang diperoleh dari search engine menurut konteksnya (missal,
Amazon rainforest, Amazon.com)
Contoh yang bukan data mining
1. Mencari nomor telepon dalam direktori telepon
2. Query suatu web search engine untuk informasi mengenai
amazon.
Faktor yang mendorong perkembangan dalam
bidang data mining:
1. Pertumbuhan yang cepat dalam koleksi data, sebagai contoh adalah banyaknya koleksi barang di supermarket
2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses kedalam database yang handal
3. Adanya peningkatan akses data melalui navigasi web dan intranet
4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam globalisasi ekonomi
5. Perkembangan teknologi perangkat lunak untuk data mining
6. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan kapasistas media penyimpanan
Data mining dapat menyelesaikan masalah:
1. Description
2. Estimation
3. Prediction
4. Classification
5. Clustering
6. Association
Data Mining vs Data Warehouse
• Teknologi data warehouse digunakan untuk melakukan OLAP
(Online Analytic Processing) sedangkan data mining digunakan
untuk melakukan information discovery yang informasinya lebih
ditujukan untuk seorang data analyst dan business analyst.
• Dalam prakteknya data mining juga mengambil data dari data
warehouse
• Aplikasi dari data mining lebih khusus dan lebih spesifik dibanding
OLAP mengingat database bukan satu-satunya ilmu yang
mempengaruhi data mining.
Bidang ilmu yang berhubungan dengan data mining
• Ilmu informasi (information science)
• High performance computing
• Visualisasi
• Machine learning
• Statistik
• Jaringan syaraf tiruan (neural network)
• Pemodelan matematika
• Information retrieval
• Information extraction
• Pengenalan pola
• Pengolahan citra
Tantangan dalam data mining
1. Scalability besarnya ukuran basis data yang digunakan
2. Dimensionality banyaknya jumlah atribut dalam data yang akan diproses
3. Complex and heterogeneous data data yang kompleks dan mempunyai variasi yang beragam
4. Data quality kualitas data yang akan diproses seperti data yang bersih dari noise, missing value, dsb
5. Data ownership and distribution siapa yang memiliki data dan bagaimana distribusinya
6. Privacy Preservation menjaga kerahasiaan data yang banyak diterapkan pada data nasabah perbankan
7. Streaming data aliran data itu sendiri
Latihan Soal
1. Tujuan utama dari data mining adalah
A. Pencarian data
B. Pencarian pola
C. Pencarian database
D. Pencarian relationship
E. Pengeditan data
2. Masalah yang dapat diselesaikan dengan metode data mining adalah sebagai berikut,kecuali
A. Estimasi
B. Prediksi
C. Klasifikasi
D. Relationship
E. Asosiasi
Latihan Soal Lanjutan
2. Masalah yang dapat diselesaikan dengan metode data mining adalah sebagai berikut,kecuali
A. Estimasi
B. Prediksi
C. Klasifikasi
D. Relationship
E. Asosiasi
3. Salah satu bidang ilmu yang berhubungan dengan data mining adalah sistem pemrosesinformasi dengan karakteristik dan performa yang mendekati syaraf biologis, yang disebutdengan
A. Information science
B. Machine learning
C. Neural network
D. Information retrieval
E. High performance computing
Latihan Soal Lanjutan3. Salah satu bidang ilmu yang berhubungan dengan data mining adalah sistem pemroses
informasi dengan karakteristik dan performa yang mendekati syaraf biologis, yang disebutdengan
A. Information science
B. Machine learning
C. Neural network
D. Information retrieval
E. High performance computing
4. Banyaknya jumlah atribut dalam data yang akan diproses pada data mining, disebut
A. Scalability
B. Dimensionality
C. Data quality
D. Streaming data
E. Privacy preservation
Latihan Soal Lanjutan4. Banyaknya jumlah atribut dalam data yang akan diproses pada data mining, disebut
A. Scalability
B. Dimensionality
C. Data quality
D. Streaming data
E. Privacy preservation
5. Data mining digunakan untuk melakukan information discovery yang ditujukan untuk:
A. data analyst
B. programmer
C. network enginer
D. database administrator
E. operator komputer
Latihan Soal Lanjutan5. Data mining digunakan untuk melakukan information discovery yang ditujukan
untuk:
A. data analyst
B. programmer
C. network enginer
D. database administrator
E. operator komputer
1. Tujuan utama dari data mining adalah
A. Pencarian data
B. Pencarian pola
C. Pencarian database
D. Pencarian relationship
E. Pengeditan data