cluster-database

Nursih Dwi Hastuti (09650029)

Praktikum DBD kelas I

CLUSTER DATABASE

Teknologi Cluster

Kebutuhan akan komunikasi data dewasa ini sangat penting seiring dengan kemajuan

dan perkembangan teknologi komunikasi data yang semakin canggih. Hal yang sangat

penting bagi Teknologi komunikasi data adalah database sebagai penyedia data. Aplikasi-

aplikasi database dituntut untuk mampu melayani banyak akses data. Hal ini dapat dimaklumi

karena database server telah di rancang untuk dapat melayani beragam jenis akses data. Saat

ini aplikasi databse semakin berkembang, baik dalam hal kegunaan, ukuran, maupun

kompleksitas. Hal ini secara langsung akan berdampak pada server database sebagai penyedia

layanan terhadap akses databse, konsekuensi dari semua itu adalah beban databse server akan

semakin bertambah berat dan mengakibatkan kurang optimalnya kinerja dari server tersebut.

Oleh sebab itu, diperlukan perancangan yang tepat dan handal dalam membangun databse

server. Solusi praktis dan tepat yang dapat diterapkan untuk mengatasi permasalahan diatas

antara lain dengan penerapan Teknologi Cluster.

Banyak sekali manfaat yang diperoleh dari teknologi cluster diantaranya

meningkatkan ketersediaan dan performansi system. Pada server database yang besar dalam

pelayanannya tidak menggunakan server databse tunggal, tetapi dilayani oleh sekelompok

server database, beberapa buah server databse dihubungkan menjadi satu pada lingkungan

yang sangat kompleks. Arsitektur yang digunakan harus menjamin bahwa sistem bekerja

dengan baik, setiap server mengerjakan beban semestinya, dan tidak ada bottleneck. Berbagai

jenis server diikat menjadi satu untuk menjadikan suatu pelayanan tunggal (one stop

shopping). Database tercluster tersebut dapat dianggap personal desktop atau database

tunggal bagi penggunanya.

Database pada masa sekarang ini dituntut agar dapat berjalan dengan cepat dan

mempunyai kehandalan yang tinggi, Dengan clustering ini database yang disimpan dapat

terbagi ke beberapa mesin dan pada saat aplikasi berjalan, semua mesin yang menyimpan

data tersebut dianggap sebagai satu kesatuan. Metode clustering seperti ini sangat baik untuk

load balancing dan penanganan system failure karena kemampuan tiap mesin akan digunakan

dan jika ada salah satu mesin yang mengalami failure maka sistem tidak akan langsung

terganggu karena mesin lain akan tetap berfungsi. Kemampuan clustering memungkinkan

sebuah database tetap hidup dalam waktu yang lama. MySQL berani menjanjikan angka

99.999 persen ketersediaan databasenya. Sederhananya, dalam satu tahun kira-kira hanya

lima menit waktu database itu tidak hidup.

MySQL Cluster

MySQL Cluster menggunakan mesin penyimpanan cluster NDB baru yang mampu

menjalankan beberapa MySQL Server di dalam sebuah cluster. Mesin penyimpanan cluster

NDB tersedia di dalam BitKepper dari MySQL release 4.1.2 dan di dalam binary releases

dari MySQL-Max 4.1.3. System operasi yang didukung adalah Linux, Mac OS X, dan

Solaris, pihak MySQL sedang membuat/mengembangkan agar cluster NDBdapat berjalan

pada semua system operasi yang didukung oleh MySQL termasuk Windows.

Overview

MySQL Cluster adalah sebuah teknologi baru untuk memungkinkan clustering di

dalam memory database dalam sebuah sistem share-nothing. Arsitektur share-nothing

mengijinkan sistem dapat bekerja dengan hardware/perangkat keras yang sangat murah, dan

tidak membutuhkan perangkat keras dan lunak dengan spesifikasi khusus. Arsitektur tersebut

juga handal karena masing-masing komponen mempunyai memory dan disk tersendiri.

MySQL Cluster menggabungkan MySQL Server biasa dengan sebuah mesin penyimpanan

in-memory tercluster yang dinamakan NDB. NDB berarti bagian dari suatu rangkaian yang

dikhususkan sebagai mesin penyimpanan, sedangkan MySQL Cluster diartikan sebagai

kombinasi atau gabungan dari MySQL dan mesin penyimpanan yang baru tersebut.

Sebuah MySQL Cluster terdiri dari sekumpulan komputer, masing-masing

menjalankan sejumlah proses mencakup beberapa MySQL server, node-node penyimpanan

untuk cluster NDB, server-server manajemen dan program-program pengakses data yang

khusus. Semua program-program tersebut bekerja bersama-sama untuk membentuk MySQL

Cluster. Ketika data disimpan di dalam mesin penyimpan media NDB cluster, tabel-tabel

disimpan didalam node-node penyimpanan pada NDB Cluster. Tabel-tabel seperti itu dapat

diakses secara langsung dari semua MySQL server yang lain di dalam cluster tersebut.

Dengan cara demikian, sebuah aplikasi daftargaji menyimpan data di dalam sebuah cluster,

jika sebuah aplikasi mengupdate/memperbaharui gaji seorang karyawan, semua MySQL

server yang lain yang meminta data ini dapat melihat perubahannya dengan seketika.

Data yang disimpan di dalam node-node penyimpanan pada MySQL Cluster dapat di

mirror (dicerminkan), cluster tersebut dapat menangani kegagalan dari node-node

penyimpanan individual dengan tidak ada dampak lain dari sejumlah transaksi dihentikan

karena kegagalan proses transaksi. Sejak aplikasi untuk proses-proses transaksi diharapkan

mampu menangani kegagalan transaksi, ini semua tidak seharusnya menjadi sumber

permasalahan. Dengan memperkenalkan MySQL Cluster pada dunia open source, MySQL

membuat manajemen data cluster dengan ketersediaan yang tinggi, perfomance yang tinggi

dan skalabilitas ketersediaan untuk siapa saja yang memerlukannya.

Dasar konsep-konsep MySQL Cluster

NDB adalah sebuah mesin penyimpanan memory yang menawarkan ketersediaan

yang tinngi dan fitur-fitur persistensi data. Mesin penyimpanan NDB dapat diatur dengan

sebuah bidang failover dan pilihan-pilhan load-balancing, tetapi untuk memulai paling mudah

dengan mesin penyimpanan pada level cluster. Mesin penyimpanan NDB pada MySQL

Cluster berisi sebuah kumpulan lengkap dari data, bergantung hanya pada data lainnya di

dalam cluster itu sendiri. Sekarang akan diuraikan bagaimana mengatur sebuah MySQL

Cluster yang terdiri dari sebuah mesin penyimpanan NDB dan beberapa MySQL server.

Sebagian dari MySQL Cluster dikonfigurasi tidak tergantung/bebas dari server-server

MySQL yang lain. Di dalam MySQL Cluster, masing-masing bagian dari cluster dianggap

sebagai sebuah node.

Subspace Clustering

Subspace clustering adalah suatu teknik clustering yang mencoba menemukan cluster

pada dataset multidimensi dengan pemilihan dimensi yang paling relevan untuk setiap

cluster, karena pada data multidimensi kemungkinan terdapat dimensi-dimensi yang tidak

relevan yang dapat membingungkan algoritma clustering sehingga bisa mengaburkan cluster

sebenarnya yang seharusnya dapat ditemukan.

Masalah lainnya, cluster dapat saja berada dalam subspace yang berbeda, dimana setiap

subspace dibentuk dari kombinasi dimensi yang berbeda-beda. Akibatnya, semakin banyak

dimensi yang digunakan, cluster akan sulit ditemukan. Subspace clustering secara otomatis

akan menemukan unit-unit yang padat pada tiap subspace. Pada Gambar diatas,

mengilustrasikan bagaimana peningkatan jumlah dimensi mengakibatkan terpecahnya titik

pada dataset.

Cara yang sudah dikenal untuk mengatasi peningkatan jumlah dimensi adalah

menggunakan teknik reduksi dimensi atau feature selection. Dengan cara ini, dimensionalitas

dataset dikurangi dengan menghilangkan beberapa dimensi, pendekatan ini berakibat pada

hilangnya beberapa informasi dan sekaligus mengurangi efektifitas penemuan cluster yang

mungkin melibatkan dimensi yang dihilangkan tersebut. Jika konsep ini diterapkan dalam

kasus di Gambar di bawah, berakibat hilangnya satu atau dua cluster yang seharusnya ada,

karena masingmasing dimensi menjadi bagian dari satu buah cluster.

Misalnya ada suatu dataset 3-dimensi yang mempunyai 2 cluster, satu cluster berada

di bidang (x, y) dan (x, z). Untuk dataset seperti ini, metode reduksi dimensi dan feature

selection tidak mampu memperoleh kembali semua struktur cluster, karena setiap dimensi

merupakan salah satu subspace cluster yang terbentuk. Dengan menggunakan metode

subspace clustering, dua cluster yang terbentuk pada Gambar 2-3 diharapkan dapat diperoleh

karena teknik clustering ini dapat menemukan cluster dengan subspace yang berbeda dalam

dataset. Berdasarkan strategi pencariannya algoritma susbsapce clustering dapat

dikatagorikan ke dalam dua kategori yaitu metode top down search iterative dan metode

bottom up search grid based. Algoritma MAFIA termasuk algoritma yang menggunakan

strategi metode bottom up search grid based.

Lemma 1 (monotonicity):

Jika kumpulan titik S merupakan cluster dalam ruang dimensi–k maka S juga merupakan

bagian suatu cluster dalam ruang proyeksi dimensi-(k-1) Penjelasan:

Suatu cluster C yang berdimensi-k memasukkan titik yang jatuh di dalam gabungan

dense unit berdimensi-k yang masing-masing memiliki selectivity minimal. Proyeksi setiap

unit u dalam C harus memiliki selectivity minimal agar bersifat padat. Karena semua unit

dalam cluster terhubung, maka proyeksinya juga terhubung. Artinya, proyeksi titik dalam

cluster C yang berdimensi-k juga berada dalam cluster yang sama pada proyeksi dimensi (k-

1). Algoritma diproses level demi level. Pertama-tama, menentukan calon dense unit

berdimensi 1 dengan melakukan pass over data. Setelah menentukan dense unit berdimensi-

k-1, calon dense unit berdimensi-k ditentukan dengan menggunakan prosedur candidate

generation. Algoritma berhenti jika tidak ada dense unit yang dibangkitkan. Prosedur

candidat generation menyatakan Dk-1 sebagai kumpulan dense unit berdimensi (k-1).

Prosedur ini mengembalikan superset kumpulan calon dense unit berdimensi-k yang akan di

bandingkan dengan density treshold apakah layak atau tidak digunakan sebagai penentu

cluster.

Berbeda dengan association rule mining dan classification dimana kelas data telah

ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas

data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang

belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised

learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas

dan meminimumkan kesamaan antar kelas/cluster.

Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan

sebagai ruang multidimensi. Banyak algoritma clustering memerlukan fungsi jarak untuk

mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut

yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah

metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu

setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama

dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan

cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi

cluster yang lebih kecil.

Kelemahan 3 metode ini adalah bila bila salah satu penggabungan/pemecahan

dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan

yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering

lainnya seperti yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode

berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah

teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari

nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah

bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.

Cluster digunakan untuk mendapatkan high availability dan scalability.

Pada high available cluster, dapat digunakan failover database cluster, dimana hanya

ada satu node yang aktif melayani user, sedangkan node lainnya standby. Storage yang

digunakan mempunyai koneksi ke setiap node pada cluster, sehingga jika primary node mati,

database engine, listener process, dan logical host ip address akan dijalankan pada secondary

node tanpa perlu menunggu operating system boot, sehingga downtime dapat diminimalisasi.

High availability mempunyai standard uptime 99.999 persen, atau hanya boleh mati selama 5

menit dalam setahun. Beberapa contoh software yang dapat digunakan untuk membuat HA

cluster adalah Sun Cluster dan Veritas Cluster.

Pada scalable cluster, digunakan produk Oracle RAC, dimana setiap node aktif

melayani user, sehingga diperoleh performa yang semakin baik dengan menggunakan lebih

banyak node. Sun cluster dapat digunakan sampai 16 node, sedangkan Veritas Storage

Foundation for Oracle RAC bisa sampai 32 node. Jika ada node yang mati, tentu akan

menurunkan performa, namun tidak terjadi down time. Pada scalable cluster, seluruh node

dapat terhubung secara langsung ke shared storage, namun dapat juga tidak mempunyai

koneksi fisik ke storage, melainkan melalui private cluster transport.

Clustering

Clustering adalah proses mengelompokkan objek berdasarkan informasi yang

diperoleh dari data yang menjelaskan hubungan antar objek dengan prinsip untuk

memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar

kelas/cluster. Tujuannya menemukan cluster yang berkualitas dalam waktu yang layak.

Clustering dalam data mining berguna untuk menemukan pola distribusi di dalam sebuah data

set yang berguna untuk proses analisa data. Kesamaan objek biasanya diperoleh dari

kedekatan nilai-nilai atribut yang menjelaskan objek-objek data, sedangkan objek-objek data

biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi.

Clustering merupakan suatu alat untuk analisa data, yang memecahkan permasalahan

penggolongan.

Obyek nya adalah untuk kasus pendistribusian (orang-orang, objek, peristiwa dll.) ke

dalam kelompok, sedemikian sehingga derajat tingkat keterhubungan antar anggota

cluster yang sama adalah kuat dan lemah antar anggota dari cluster yang berbeda.

Dengan Cara ini masing-masing cluster menguraikan, dalam kaitan dengan

kumpulan/koleksi data, class dimana milik anggota-anggotanya.

Cluster : Data item dikelompokkan menurut pilihan konsumen atau hubungan logis.

Sebagai contoh, data dapat dimaknakan untuk mengidentifikasi segmen pasar atau

ketertarikan konsumen.

Hasil dari analisis cluster mungkin berperan untuk definisi dari suatu rencana

penggolongan yang formal, seperti suatu taksonomi untuk binatang yang terkait,

serangga atau tumbuhan; atau menyarankan model statistik yang menguraikan

populasi; atau menandai aturan untuk menugaskan kasus yang baru ke class untuk

identifikasi dan tujuan yang diagnostik; atau menyediakan ukuran dari definisi,

ukuran dan perubahan dalam konsep sebelumnya yang tidak hanya luas. Bisnis

apapun yang sedang anda lakukan, cepat atau lambat anda akan berhadapan dengan

suatu masalah penggolongan.

Algoritma Clustering berusaha untuk menemukan kelompok komponen secara

natural, berdasarkan pada beberapa kesamaan. Contoh di bawah ini memperagakan clustering

dari gembok yang jenisnya sama. Ada total 10 gembok yang memiliki tiga warna berbeda.

Kita tertarik untuk mengelompokkan gembok yang memiliki tiga warna dan bentuk yang

berbeda dalam tiga kelompok yang berbeda.

Gembok yang jenisnya sama dikelompokkan ke dalam suatu kelompok seperti terlihat di

bawah ini:

Sehingga, kita lihat bahwa clustering bermakna menggolongkan data atau membagi satuan

data yang besar ke dalam satuan data yang lebih kecil yang memiliki kesamaan. Algoritma

clustering tercakup dalam aplikasi BI2M. Lihat contoh dari penggunaan clustering dalam

BI2M.

Dengan menggunakan clustering, dapat diidentifikasi daerah yang padat, pola-pola

distribusi secara keseluruhan dan keterkaitan yang menarik antara atribut-atribut data. Dalam

data mining usaha difokuskan pada metode-metode penemuan untuk cluster pada basisdata

berukuran besar secara efektif dan efisien. Banyaknya pendekatan clustering menyulitkan

dalam menentukan ukuran kualitas yang universal. Namun, beberapa hal yang perlu

diperhatikan adalah input parameter yang tidak menyulitkan user, cluster hasil yang dapat

dianalisa, dan skalabilitas terhadap penambahan ukuran dimensi dan record dataset. Secara

garis besar ada beberapa kategori algoritma clustering yang dikenal yaitu:

a. Metode Partisi, dimana pemakai harus menentukan jumlah k partisi yang diinginkan

lalu setiap data dites untuk dimasukkan pada salah satu partisi sehingga tidak ada data

yang overlap dan satu data hanya memiliki satu cluster. Contohnya: algoritma K-

Means.

b. Metode Hierarki, yang menghasilkan cluster yang bersarang artinya suatu data dapat

memiliki cluster lebih dari satu. Metode ini terbagi menjadi dua yaitu buttom-up yang

menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang

memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah

bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak

akan didapatkan cluster yang optimal. Contohnya: Agglomerative (FINDIT,

PROCLUS), Divisive Hierarchical Clustering (CLIQUE, MAFIA, ENCLUE).

Analisis Cluster (Lanjutan)

Clustering dan segmentasi sebenarnya mempartisi database, karena itu setiap partisi atau

group adalah sama menurut kriteria atau metrik tertentu. Jika pengukuran kesamaan tersedia,

maka terdapat sejumlah teknik untuk membentuk cluster. Kebanyakan aplikasi2 data mining

menggunakan clusteing menurut similarity (kesamaan), contohnya segmentasi basis klien.

Clustering menurut optimasi dari sekumpulan fungsi-fungsi digunakan pada analisis data,

misalnya ketika mensetting tarif asuransi klien dapat disegmentasi menurut sejumlah

parameter. Contoh aplikasi :

– Perangkat ‘stand-alone’ : explore data distribution

– Langkah preprocessing untuk algoritma lain

– Pengenalan pola, analisis data spasial, pengenalan citra, market research, WWW, …

– clustering dokumen2

– clustering data log web untuk mendapatkan group dengan pola akses yang sama

Penggelompokkan data ke cluster2

– Data yang sama satu sama lain berada pada cluster yang sama

– Yang tidak sama berada pada cluster lain

– ‘Unsupervised learning’: klas2 yang belum ditentukan

Clustering Yang Baik

Intraclass similarity (Kesamaan di dalam klas) yang tinggi dan interclass similarity

(kesamaan antar klas) yang rendah bergantung pada pengukuran kesamaan

Kemampuan untuk mendapatkan beberapa atau semua pola yang tersembunyi

Kebutuhan Clustering

Scalability : Kemampuan mengerjakan atribut2 dari berbagai tipe

Penemuan clusters dengan bentuk yang tidak tentu

Kebutuhan minimal untuk pengetahuan domain untuk menentukan parameter input

Dapat menerima noise dan outlier

Tidak mengindahkan susunan record dari input

Dimensi yang tinggi

Menyatu dengan batasan yang dispesifikasikan oleh user

Interpretability and usability

Tipe-tipe Data pada Clustering

Variabel2 berskala interval

Variabel biner

Variabel nominal, ordinal dan rasio

Variable2 dari berbagai tipe variable

Kategori Pendekatan Clustering

Algoritma Partisi

Mempartisi objek2 ke dalam k cluster

Realokasi objek2 secara iteratif untuk memperbaiki clustering

Algoritma Hirarkis

– Agglomerative: setiap objek merupakan cluster, gabungan dari cluster-cluster

membentuk cluster yang besar

– Divisive: semua objek berada dalam suatu cluster, pembagian cluster tersebut

membentuk cluster2 yang kecil

Metode berbasis densitas

– Berbasis koneksitas dan fungsi densitas

– Noise disaring, kemudian temukan cluster2 dalam bentuk sembarang

– Metode berbasis grid

– Kuantisasi ruang objek ke dalam struktur grid

Berbasis Model

– Gunakan model untuk menemukan keadaan data yang baik

Contoh Clustering

Terdapat Database Foodmart2000 dengan OLAP Cube Sales. Kita tertarik untuk

menemukan 3 segmen pelanggan dari toko Foodmart dalam rangka menciptakan

suatu program untuk menawarkan manfaat yang berbeda untuk pelanggan yang

tergantung pada karakteristik pribadi mereka. Tujuannya adalah untuk meningkatkan

kesetiaan mereka terhadap toko tsb. Kita akan menggunakan algoritma clustering di

database Foodmart2000 dimana segmen pelanggan ada di OLAP cube sales dalam

tiga kategori yang berdasarkan pada informasi berikut: Jenis kelamin, status

perkawinan, Pendapatan tahunan, Pendidikan, Kartu Anggota, dan Penjual toko.

Langkah 1 Ketika kita akan menggolongkan pelanggan, kita harus memilih Customer

sebagai kasus pada halaman yang pertama dari OLAP Data Mining Wizard.

Langkah 2– pada langkah ini kita memilih karakteristik yang akan diproses oleh

algoritma

tsb. Pada

basis

cluster

mereka

yang akan

dibuat.

Pada tugas

saat ini

kita

tertarik

akan Jenis

kelamin

pelanggan/Customers’ Gender, Status Perkawinan/marital status,

pendidikan/education, Kartu anggota/Member Card, Pendapatan tahunan/yearly

income dan penjual toko, itu sebabnya mengapa kita memilihnya.

Tentukan banyaknya cluster = 3

Hasil

cluster-database

Documents