bab4 aturan delta dan metode belajar propagasi balik

5/13/2018 Bab4 Aturan Delta Dan Metode Belajar Propagasi Balik - slidepdf.com

http://slidepdf.com/reader/full/bab4-aturan-delta-dan-metode-belajar-propagasi-balik 1/18

8ab4

Aturan Delta dan Metode

Belaiar p ropagas i Balik

4.1 Pendahuluan

4.2 Aturan Delta (Widrow-Hoff)

4.3 Aturan Delta yang Digeneralisasi: Metode BelajarPropagasi Balik

4.4 Penerapan Metode Belajar Propagasi Balik

4.5 lntraktabilitas Proses Belajar Jaringan

4.6 Tinjauan Pustaka

94



Aturan Delta dan Metode Belajar Propagasi Balik 95

4.1 Pendahuluan

Aturan delta yang juga disebut metode Widrow-Hoff atau met ode LMS

(Least Mean Square - Rata-rata Kuadrat Terkecil) telah disebutkan dalam

Bab Tiga, dalam pembahasan mengenai metodologi permukaan keputusan.

Dalam bab ini akan dibahas prinsip yang mendasari aturan delta dengan

catatan bahwa aturan ini adalah suatu teknik penurunan gradien (gradient

descent). Suatu sub-bab tersendiri akan membahas bagaimana aturan deltadapat diperluas dari kondisi di mana terdapat suatu sasaran pola keluaran

yang tetap untuk tiap pola masukan, kepada kondisi di mana kelompok pola

masukan diasosiasikan dengan kelompok pola keluaran. Bagian terakhir

dari bab ini membahas aturan delta yang digeneralisasi yang merupakan

perluasan dan aturan delta, di mana proses belajar dilakukan dengan propa-

gasi/perambatan batik sinyal galat. Diberikan pula beberapa contoh pene-

rapan model belajar ini, serta pembahasan mengenai masalah intraktabilitas

proses belajar jaringan pada akhir bab.

4.2 Aturan Delta (Widrow-Hoff)

Aturan delta telah diperkenalkan dalam sub bab 1.2. Dari bentuk sinyal

penguat yang disebutkan di situ, tampak seolah-olah aturan tersebut bekerja

dengan cara mengoreksi galat (error) dengan koreksi yang ditentukan olehmasukan pelatih zit}. Sebenarnya, aturan ini umumnya diterapkan pada

keadaan di mana pasangan poJa (yang terdiri dari pola masukan dan target

pola keluaran) akan diasosiasikan. Dapat dibayangkan keadaan di mana

suatu himpunan pasangan masukan/keluaran diberikan secara berulang-

ulang. Perubahan pada bobot Wji yang disebabkan oleh pola p adalah hasil

kali dari elemen masukan ke-i dan elemen target ke-j sebagai berikut:

di mana:

tpj = keluaran yang diinginkan/target dari eJemen ke-j dari pola ke-p

ip;= nilai aktivasi dari elemen ke-i dari masukan untuk pola ke-p.



96 Pengantar Jaringan Neural

Dalam notasi vektor,

ijika dianggap bahwa aturan perkalian ini merupakan kriteria tunggal dalam

rnenentukan aktivasi dari unit keluaran, maka aturan ini sarna dengan aturan

Hebb}.

Telah ditunjukan bahwa jikavektor masukannya orthonormal, rnaka setelahdiberikan pola dari suatu kelornpok pola P, rnatriks bobot dapat dinyatakan

dengan:

p

W = L tpi;.1'-1

dan jika suatu pola masukan diberikan, akan dihasilkan pola keluaran yang

sesuai.

4.2.1 Perubahan Basis

Hal yang paling rnengesankan tentang aturan delta adalah bahwa bentuk

korelasi antara pola yang ada lebih berperan daripada isi dari soatu pola

tertentu. Stone (1986) menegaskan pemyataan ini dengan melakukan

perubahan dari representasi berbasis unit menjadi representasi berbasis pola

(Gambar 4.1). Dalam suatu sistem dengan N unit, tiap pola direpresentasi-

kan dengan suatu vektor berdimensi N yang elemennya menyatakan nilai

aktivasi unit dalam sistem tersebut (tiap unit direpresentasikan oleh sa

dirnensi). Pengubahan ke representasi berbasis pola melibatkan pentran

sformasian sistem koordinat sedemikian sehingga pola menjadi segari

dengan sumbu koordinat. Dengan demikian, tiap pola direpresentasika

oleh satu dimensi.

Diperlukan dua matriks transformasi: P I untuk mentransformasikan polmasukan ke dalam suatu ruang berdasarkan pola masukan tersebut, dan P

yang mentransformasikan pola keluaran ke dalam suatu ruang berdasarka

pola keluaran tersebut.

Untuk vektor masukan,




...1 Unit 2Pattern 1

-1 +1

<...1,+1>

Panern 1

<0,+1>

-1 + 1 Unit 1

- IPattern 2

-1Pattern 2

-1<+1.-1>

+1

(Stone, '~n Analysis of the Delta Rule and the Learning of Statistical Associations, "da/am Rume/hart ted.), Parallel

Distributed Processing, Explorat ions in the Microstructure of Cognition, Vol. 1: Foundations, Cambridge, Mass.:

The MIT Press, 1986. Dicetak ulang seijin penerbit.)

Gambar 4.1 Pengubahan dari sistem koordinat berbasls unit menjadl

sistem koordinat berbasis po/a.

Untuk vektor target,

Untuk vektor keluaran,

Untuk memperoleh matriks bobot dalam sistem koordinat yang baru ini,

perlu diingat bahwa dalam basis yang lama berlaku Wi = o. Karena itu

dalam sistem yang baru berlaku: W'i" = 0", sehingga

W'P/i = PrO .

~ Pi'W*~i = a = Wi. dan

~ W* :=: PrWP/ - I .

Aturan dalam sistem koordinat lama yang menentukan matriks bobot yang

telah diperbarui jika suatu pola masukan baru diberikan (diasumsikan pola

masukan baru ini ortogonal) adalah:




W{n) = W{n-l) + nd(n)?(n),

di mana

W(n) = keadaan (state) dari matriks bobot setelah n kali presentasi (pem-

berian pole),

i(n) = masukan yang diberikan pada presentasi ke-n, dan

o(n) = t(n) - W(n-l)i(n), yaitu perbedaan antara keluaran yang diinginkan

(target) dan keluaran yang diperoleh pada percobaan ke-n,

setelah dilakukan perkalian pada sisi kiri dengan Pr dan pada sisi kanan

dengan p [1, menjadi:

PTWPI-l{n) = PTWP1-1(n-l) PTnd(n)?{n)Pl-1

W(n) = W(n-l) + nd*(n)[PI-1i*(n)ITPI-l,

di mana

dan akhir

W*(nl = W*(n - 1) + l1o*(n)i*(n)rC.

dimana

C berisi informasi korelasional yang terdapat di antara pola masukan mula

mula.

Vektor keluaran dalam basis yang berbeda ini memiliki interpretasi yan

sangat berguna. Komponen ke-j dari suatu vektor ke/uaran merepresen

tasikan banyaknya pola ke-j yang ditemukan da/am keluaran _ Secar

alamiah, hal ini membawa kita pada definisi galat dalam sistem yan

demikian:

E, = IUi" - 0/').i



Aturan Delta dan Metode Be/ajar Propagasi Balik 99

4.2.2 Penurunan Gradien dalam Aturan Delta Umum

Prosedur belajar yang dianjurkan untuk suatu sistem bergantung pada pem-

berian suatu kelompok pasangan pola masukan dan keluaran. Proses belajar

(yaitu modifikasi bobot) hanya terjadi jika keluaran yang dihasilkan jaringan

sebagai respons terhadap masukan, tidak coeok dengan keluaran (target)

yang diberikan dalam pasangan masukan-keluaran. Aturan yang digunakan

untuk pengubahan bobot yang bersesuaian dengan pasangan masukan-ke-

luaran p adalah

di mana

tpj = komponen ke-j dan keluaran yang dihasilkan jaringan

Opj komponen ke-j dari pola keluaran sebenamya (target)

ipi komponen ke-i dari pola masukan.

Aturan delta meminimisasi jumlah dari seluruh kuadrat perbedaan antara

nilai keluaran sebenamya dan nilai keluaran yang diinginkan (target). Penjum-

lahan ini dilakukan pada semua unit keluaran dan semua pasangan vektor

masukan/keluaran. Misalkan

, t I .E .• = = - (1". - 0/.,)-r '} I'

.. . /

adalah suatu ukuran galat pada pola masukan/keluaran p dan E = - : 2 : . E p

adalah ukuran secara keseluruhan dari seluruh pasangan pola. Dapat dibuk-

tikan bahwa aturan delta mengimplementasikan suatu penurunan gradien

dalam E jika unitnya bersifat linear. Ini berkaitan dengan menerapkan

metode penurunan terdalam (steepest descen t) pada suatu permukaandalam ruang-bobot (weight space) di mana ukuran galat direpresentasikan

dengan ketinggian suatu titik tertentu dalam ruang-bobot terse but. Oapat

ditunjukkan bahwa




Oengan menggabungkan ini dengan hasil pengamatan yang menunjukkanbahwa

Rumelhart (1986c) menyimpulkan bahwa perubahan netto pada bobot Wji

sesudah satu siklus pemberian pola yang lengkap, adalah sebanding dengan

turunan ini; dengan demikian, aturan delta mengimplementasikan suatu

penurunan gradien dalam E yang pada akhimya meminimisasi fungsi galat.

4.2.3 Perluasan dari Aturan Delta ke Metode Belajar Statistik

Di samping melakukan pengasosiasian pasangan pola tertentu, kita dapat

pula mengasosiasikan pasangan kateqori pola, di mana pasangan pola

masukan/keluaran diperlakukan sebaqai variabel acak. Dengan demikian,dalam pasangan ke-j, pola masukan if dan pola target t, memiliki nilai acak.

Analisis lanjutan yang dilakukan oleh Stone (1986) berlaku, tanpa bergan-

tung pada distribusi variabel acak tersebut. Oiharapkan pula bahwa semua

pasangan masukan/keluaran diatur oleh distribusi peluang yang tidak beru-

bah terhadap waktu. Jika kita mulai dan bentuk aturan delta,

W(n) = W(n-l) + yt [t{n)-W(n-l)*i(n)]*?(n),

kemudian mengambil nilai ekspektansi pada kedua sisi persamaan tersebut,

kita peroleh:

E[W(n)]=E[W(n-l)](/-ytE[i(n)*i T (n) ])+y tE [ t( n) *i T (n) ].

Dengan asumsi bahwa tiap pemilihan pasangan masukan/keluaran independen

terhadap pemilihan pasangan sebelumnya, dapat dikatakan bahwa:

E[W(n-l)*i(n)iT(n}] = E[W(n-1)]*E[i(n)*?(n)].

Jika RJ = E[i?] dan R ro = E[t iT] masing-masing menyatakan korelasi statistik

antara pola masukan dan korelasi statistik antara pola masukan dan pola

target, hasil di atas dapat dituliskan sebagai:

E[W(n)] = E[W(n-1)]( I-YJRr} + YJRJo .



Aturan Delta dan Metode Be/ajar Propagasi Balik 10]

Jika kita memecahkan hubungan rekursif ini dengan asumsi bahwa kitamulai dengan matriks bobot yang kosong (W(O)=O) maka kita akan mem-

peroleh:

i=n

E[W(n) ] = l IRIO 2 . : (l - rrR,)'.J~O

Perlu diingat bahwa pseudo-invers dari suatu matriks B, yaitu B+ , adalah:

x

B+ = rrBT L (l - rtBBT)I.

I~I

Karena R J mempunyai baris-baris dan kolom yang independen, kita dapat

memilih suatu matriks P dengan baris dan kolom yang independen sede-

mikian sehingga ppt = = RI.Perhatikan bahwa P memenuhi hubungan

(pT)" lpT = = 1 .

Dalam limit, E[W(n)] memenuhi hubungan sebagai berikut:

E . .t; E[tv(n)j = ·E£W~ ] = = R ;o (.p T ) - ' [ 77 P T ± (I - 7 7 p p r ) I ] ,

1-'

dan jika dilakukan substitusi untuk pseudo-invers dari P, diperoleh:

Sekarang akan dipeJajari apa yang terjadi jika sistem diberikan suatu masuk-

an i. Dengan mengasumsikan independensi, diperoleh:

= > E[W.iJ = E[ tJ ,




yang merupakan hasil yang diinginkan. Perlu diperhatikan bahwa kita telahmenggunakan hubungan (ABr = B+A+ yang berlaku jika A=i, B=t, dan iadalah suatu vektor kolom. Lebih jauh lagi, j+ i= 1 karena ihanya memiliki

satu kolom.

Ini menunjukkan bahwa respon rata-rata terhadap masukan sama de-

ngan rata-rata dari pola target. Hal ini dapat berakibat bahwa respons yang

diharapkan untuk suatu pola tertentu dapat merupakan nilai yang diharap-

kan dari target selarna pola idan t terdistribusi normal dengan rata-rata nor.

Bukan merupakan hal yang sulit untuk mengkonversikan sekelompok vektormasukan menjadi sekelompok pola dengan rata-rata nol, maupun persya-

ratan distribusi normal yang sangat restriktif jika pola tersebut mempunyai

dimensi yang besar dan merupakan keluaran dari suatu sistem linear.

4.3 Aturan Delta yang Digeneralisasi:

Metode Belajar Propagasi Balik

Untuk kasus yang telah kita bahas (yaitu penggunaan suatu fungsi aktivasi

linear dalam suatu jaringan yang hanya memiliki lapis masukan dan keluar-

an) permukaan galat/error surface memiliki bentuk seperti sebuah mang-

kok. Dengan demikian penurunan gradien akan menemukan kelompok

bobotderqan galat minimum. Dengan adanya unit hidden, penghitungan

turunan tidak memberikan suatu kepastian dan terdapat kemungkinan ter-

perangkap pada suatu minimum lokal pada permukaan galat yang dalam hal

ini lebih rumit. Rumelhart (1986c) menunjukkan bahwa terdapat suatu car

untuk menemukan turunan tersebut dan bahwa masalah minimum lokal in'

tidak relevan dalam banyak kasus proses belajar. Perlu tidaknya bergantun

pada suatu metodologi yang mungkin akan gagal dalam suatu kasus terbu

ruk, akan dibahas dalam sub-bab mengenai masalah intraktabilitas prose

belajar jaringan.

Untuk mempelajari proses belajar sederhana dengan propagasi balikambil contoh suatu jaringan urnpan-maju (feedforward) yang tersusun ata

beberapa lapis, dengan fungsi aktivasi yang semi-linear. Jaringan umpan

maju beberapa lapis ini memiliki karakteristik sebagai benkut. lapis terbawa

dan teratas masing-masing berperan sebagai lapis masukan dan lapis keluar

an; tiap unit menerima masukan dari lapis di bawahnya dan memberika

I '



Aturan Delta dan Metode Belajar Propagasi Balik 10 3

keluaran ke lapis di atasnya. J ik a d ib eri ka n suatu vektor masukan, vektorkeluaran dihitung dengan suatu runutan ke depan (for-ward pass) yang

menghitung tingkat aktivitas dari tiap lapis dengan menggunakan tingkat

aktivitas dart lapis sebelumnya yang telah dihitung lebih dahulu. Suatu

contoh dari jaringan umpan-maju sederhana ini dapat dilihat pada Gambar

4.2.

Fungsi aktivasi semi-linear dari suatu unit memberikan karakteristik sebagai

berikut: keluaran LU1itersebut merupakan suatu fungsi yang tidak menaik

(nondecreasing) dan dapat diturunkan, dengan argumen fungsi berupa total

keluaran netto, netpj=criWjiOpi.engan demikian, maka:

di mana f adalah adalah fungsi yang dapat ditunmkan (diferensiabel) dan

nondecreasing. Perlu ditekankan bahwa unit hidden dengan fungsi aktivasi

linear tidak ada artinya, karena kombinasi sebarang dari funqsi linear dapatdigabungkan menjadi suatu fungsi linear, sehingga menghilangkan alasan

perlunya satu lapis yang terpisah.

Pembuktian dari aturan delta yang digeneralisasi melibatkan suatu versi

yang lebih terperinci dari pertimbangan yang diberikan dalam pembuktian

aturan delta. Hasil yang muncul dari pembuktian tersebut adalah:

Gambar 4.2 Jaringan umpan-maju sederhana.



di mana t, adalah fungsi aktivasi semi-linear yang memetakan masutotal ke unit tersebut kepada suatu nilai keluaran. Sinyal galat untuk uni

hidden untuk mana tidak terdapat target yang dispesifikasikan, diten

tukan secara rekursif dalam besaran dari unit yang terhubung langsun

kepadanya serta dengan bobot hubungan tersebut, yaitu:


~ Aturan yang digeneralisasi memiliki bentuk yang sarna dengan aturanstandard, yaitu bahwa bobot pada tiap jalur diubah sebesar suatu nilai

yang sebanding dengan hasil kali dari suatu sinyal galat 0 (yang tersedia

untuk unit penerima masukan pada jalur tersebut) dan keluaran dari unit

yang mengirimkan aktivasi pada jalur tersebut:

~ Terdapat dua persamaan lain yang menspesifikasikan sinyal galat. Bagi

unit keluaran, sinyal galat sangat mirip dengan aturan delta yang stand-

ard dan diberikan oleh persamaan:

Aturan yang digeneralisasi digunakan dalam dua fase. Pertama-tama

dihitung nilai keluaran Opj untuk tiap unit dan kemudian dibanding

dengan target (yaitunilai keluaran yang diinginkan, yang diberikan sebag

bagian dari tiap pasangan masukan/keluaran) sehingga diperoleh sua

sinyal galat Opj untuk tiap unit keluaran. Dalam fase kedua (di sini komple

sitas penghitungan sama seperti untuk fase pertama) suatu runutan-bali

(backward pass) mernungkinkan penghitungan rekursif untuk 0 sepe

ditunjukkan oleh persamaan di atas.

Perlu diperhatikan bahwa fungsi arnbang (threshold) linear yang me

dasari perseptron, bersifat diskontinu (tidakmemiliki turunan) sehingga tid

dapat digunakan untuk aturan delta yang digeneralisasi. Untuk ini, ki

menggunakan fungsi aktivasi logistik:




di mana

O J = bias seperti dalam fungsi untuk suatu ambang.

Terdapat keuntungan lain penggunaan fungsi ini, selain dari kemudahan

dalam penghitungan turunannya. Dapat diperlihatkan bahwa turunan dari

Opj terhadap masukan total, netpj, mencapai nilai maksimurnnya pada Opj =

0.5 dan nilai minimumnya jika Opj mendekati 0 atau 1 (perhatikan bahwa 0

<= Opj <= 1). Karena perubahan hobot sebanding dengan nilai turunan,

perubahan terbesar terjadi untuk unit terse but di sekitar nilai pertengah-

annya, yaitu unit yang belurn berada dalam keadaan on atau off. Sifat ini

turut rnempengaruhi stabilitas sistern.Ada suatu pernyataan yang harus dibuat menyangkut beberapa istilah

yang telah kita gunakan. Dalarn suatu teknik penurunan gradien yang

ketat, kita akan memodifikasi suatu bobot tertentu Wji hanya setelah kita

menentukan arah sebenamya dari penurunan yang terdalam. Sekarang,

arah sebenamya ini ditentukan oleh penjumlahan vektor dan arah penu-

runan yang diberikan oleh presentasi pola individual dalarn kelompok,

o E

Karena proses yang dijabarkan di atas mengubah bobot Wji sesudah tiap

presentasi suatu pola dan bukannya setelah presentasi dari suatu kelorn-

pok pola secara keseluruhan, resultan dari penurunan dalarn ruang-bobot

(weight space) tidak perlu merupakan penurunan yang terdalam. Meski-

pun demikian, selama peruhahan bobot pada suatu saat sebarang tidakterlalu besar, aproksimasi untuk penurunan terdalam ini berlaku. Ini

dapat dipastikan dengan rnenggunakan suatu faktor laju belajar (learning

rate) yang kectl, 'I. Dalam Garnbar 4.3 diperlihatkan suatu diagram

sederhana yang menggambarkan hal ini. Di sini, kelompok pola hanya

tersusun atas dua pola, PI dan P2. Proses yang dijelaskan di atas menye-



10 6 Pengantar Jaringan Neural

babkan penurunan terjadi dalam arah yang diberikan oleh tiap pola secar

individual, dan bukannya dalam arah penurunan terdalam.

Magnituda dalam perubahan-perubahan bobot ditentukan sebagian ole

konstanta belajar, f/. Kita menginginkan nilai ini seUnggi mungkin tanp

menimbulkan fenomena osilasi selama penurunan sepanjanq permukaa

yang 'buruk'. Salah satu cara mengimplementasikan pereduksian fenomen

ini adalah dengan memberikan suatu suku momentum yang memasukka

sebagian pengaruh dari perubahan bobot sebelumnya ke dalam perubaha

bobot yang sedang dilakukan:

di mana

n = nomer presentasi,7 J = laju belajar, dan

a = konstanta yang menentukan pengaruh dari perubahan bo

sebelumnya terhadap arah pergerakan yang sedang dilakuk

dalam ruang-bobot.

PerIu diingat bahwa metode penurunan gradien yang sebenarn

menghendaki agar laju belajar memiliki nilai yang sang at kecil (infinite

mally sma/I), jadi pergerakan dalam ruang-bobot sesudah Hap present

Arah yang diberikan oleh. PI Arah sebenarnya

dari penurunan

gradien yang

diberikan oleh

kelompok pola

Arah yang diberikan olehp ~,

Gambar 4.3 Hubungan antara arah-arah penurunan yang dJberikan 01 h

pola individual dan yang diberikan oleh kelompok pola tersebut.




kelompok adalah sangat kedl dan mernpunyai arah sebagaimana ditunjuk-

kan oleh vektor gradien. Percobaan menunjukkan bahwa suatu cara yang

lebih cepat untuk memperoleh hasil seperti jika menggunakan suatu laju

belajar yang kecil, adalah dengan menggunakan suatu laju belajar yang

besar, 1 J , bersama-sama dengan suatu faktor momentum yang besar, a.

4.4 Penerapan Metode Belajar Propagasi Balik

Model propagasi balik telah diuji dalam banyak aplikasi, tennasuk penen-

tuan nilai surat berharga (bond rating), evaluasi permohonan penggadaian

(mortgage), penentuan struktur protein, memainkan permainan backgam-

mon, dan pengenalan angka tulisan tangan. Untuk memperoleh pengertian

mengenai kemungkinan aplikasi secara umum dari model ini, akan dibahas

salah satu dan contoh aplikasi terse but.

4.4.1 Penentuan nilai surat berharga (bond rating)

Penentuan nilai surat berharga menyatakan suatu proses di mana suatu

surat berharga (bond) tertentu diberi suatu label yang mengkategorikan

tingkat kesanggupan pihak yang mengeluarkannya untuk membayar

kembali nilai kupon dan par dari surat berharga tersebut. Misalnya, or-

ganisasi Standard and Poor's memberikan suatu penilaian yang beragam,

dari AAA (kemungkinan pembayaran sangat besar) hingga BBB (ke-

mungkinan kegagalan dalam saat-saat perekonomian yang buruk), untuk

investment grade bonds. Masalahnya di sini adalah tidak ada aturan

yang praktis dan ketat untuk menentukan penilaian ini. Badan penilai

harus mempertimbangkan beraneka ragam faktor sebelum memberikan

penilaian terhadap suatu pihak yang mengeluarkan surat berharga. Be-

. berapa dari faktor ini, seperti penjualan, aset, liabilities, dan sejenisnya,

clapat saja terdefinisi dengan baik, Yang lainnya, seperti kesanggupan

untuk membayar, merupakan faktor yang kurang jelas. Dengan demi-kian, pendefinisian permasalahan yang tepat tidak mungkin dilakukan.

Dutta (1988) mempertahankan permasalahan tersebut dalam domain-

domain non-konservatif (kelas dari domain permasalahan yang tidak

merniliki suatu model domain) di mana masalah seperti yang terdapat

dalam penilaian surat berharga ini dapat diselesaikan dengan lebih baik




dengan melatih suatu jaringan dengan menggunakan propagasi balik dari

pada dengan menggunakan regresi statistik. Pemecahan terakhir ini tida

tepat, karena tidak jelas faktor apa yang harus digunakan dalam regres

tersebut, atau dengan kata lain ttdak diketahui dengan jelas faktor apa yan

mempengaruhi variabel dependen (resiko default). Dutia dan kelom

poknya memberikan detail percobaan yang dilakukan dengan jaringa

tanpa lapis hidden dan dengan jaringan yang memiliki satu lapis hidde

(dengan jumlah simpul yang berbeda-beda dalam lapis hidden). Penilai

surat berharga yang dilakukan terhadap 30 perusahaan bersama deng"10 variabel keuangan digunakan sebagai data dalam pelatihan jaringa

neural terse but dengan propagasi balik. Selanjutnya, jaringan tersebu

digunakan untuk meramalkan penilaian terhadap 17 penerbit surat ber

harga lainnya dan secara konsisten mengalahkan kinerja dan tekni

regresi statistik standard.

4.5 Intraktabilitas Proses Belajar Jaringan

Metode belajar dengan propagasi batik cukup berhasil dalam penerapa

nya pada masalah spesifik. Meskipun demikian, ini merupakan suat

masalah yang kasus terburuknya menghasilkan suatu kegagalan (ini ad

hubungannya dengan kondisi terjebak dalam suatu minimum lokal selam

proses penurunan gradien). Hal ini menimbulkan suatu pertanyaan yan

sangat penting mengenai apakah terdapat suatu solusi umum yang ef

sien untuk metode belajar dalam jaringan umpan-maju, Pertanyaan d

mikian telah dibicarakan oleh Judd (1987).

Sekarang marl kita membahas mengenai intraktabilitas. Perbedaa

penting pertama adalah antara algoritma waktu polinomial dan algoritm

waktu eksponensial. Suatu algoritma bekerja dalam waktu polinomi

{polynomial time} jika funqsi kompleksitas waktunya adalah O(p(n)), i

mana p adalah fungsi polinomial dari ukuran masukan n_Kita tak dap tmengekspresikan suatu batasan pada kompleksitas waktu dari suatu alg

ritma waktu eksponensial. Perbedaan penting berikutnya adalah anta

kelas-kelas P dan NP _ Suatu masalah berada dalam P jika terdapat sua

algoritma deterministik yang menyelesaikan masalah tersebut dalam wak

polinornial. Sebaliknya, masalah tersebut berada dalam NP jika terdap t

t '




suatu algoritrna non-deterministik yang menyelesaikan masalah terse butdalam waktu polinomial. Pemyataan terakhir ini memerlukan sedikit penje-

lasan. Sebagaimana dijelaskan oleh Garey (1979), suatu algoritma non-de-

terrninistik paling tepat dipandang sebagai suatu algoritma yang beroperasi

dalam dua tahap - suatu tahap prakiraan (guessing) dan suatu tahap

pemeriksaan (checking). Tahap pertama memperkirakan suatu solusi bagi

masalah terse but, dan yang kedua memeriksa secara deterministik umum

untuk melihat apakah solusi tersebut cocok. Penting diperhatikan bahwa

tahap pemeriksaan ini beroperasi dalam waktu polinomial. Jelas bahwatiap masalah dalam P juga berada dalam NP. Masalah yang paling sulit

adalah apakah inklusi P dalam NP ini cocok (yaitu apakah P = Np) ?

Meskipun belum dibuktikan, pandangan saat ir u adalah bahwa P tidak

meliputi NP. Akhimya, masalah NP-Iengkap merupakan masalah tersulit

dalam NP. Jika suatu masalah tertentu adalah NP-lengkap. maka tiap

kasus dari tiap masalah dalarn NP dapat diubah menjadi suatu kasus dari

masalah tertentu ini, dan pengubahan ini dapat dipengaruhi dalam waktu

polinomial. Ini menunjukkan bahwa solusi bagi suatu masalah NP-lengkap

akan menghasilkan solusi bagi semua masalah dalam NP.

Dengan pembahasan inl sebagai latar belakang, kita akan kembali ke

jaringan neural, MasaJah yang diujikan untuk kelengkapan-NP adalah masa-

lah belajar dengan pengawasan (supervised learning) dalam suatu jaringan

tak rekuren/non-recurrent (sebelumnya disebut umpan-maju). Tujuannya

pada dasamya adalah untuk membuat jaringan tersebut 'mengingat' data

pelatihan dalam bentuk rangsangan dan untaian respon, dan nantinya akan

merespon salah satu dari untai rangsangan tadi dengan jalan mengeluarkan

unital respon yang berkorespondensi. Sekarang, meskipun hal ini tidak

menyanqkut penggeneralisasian data pelatihan, masaJah ini dibuktikan se-

bagai NP-Iengkap, yang menunjukkan intraktabilitas dari masalah yang

Iebih umum mengenai penggeneralisasian dari kereguleran yang didapat

dari pola pelatihan.

Meskipun kita tidak akan masuk ke dalam pembuktian itu sendiri,

sangat dianjurkan untuk mempertimbangkan cara penyusunan masalahtersebut. Fungsi yang dilakukan oleh suatu jaringan tertentu adalah fungsi

komposit yang tersusun dari fungsi yang dilakukan oleh tiap simpul (node)

penyusun jaringan. Sekarang jika suatu jaringan tertentu ditugaskan untuk

'mengingat' suatu himpunan pasangan rangsangan-respon, masalahnya

adalah untuk menemukan suatu fungsi komposit {dengan menemukan




fungsi individual yang harus dihitung oleh simpul dalam jaringan) yanmemungkinkan tugas terse but 'dimuat' ke dalam arsitektur jaringan. Jela

bahwa 'pernuatan' adalah suatu proses dengan mana suatu fungsi yan

tepat dispesifikasikan untuk tiap simpul. Sebagai suatu tolok ukur da

ukuran masalah, dianggap ukuran ini diperoleh dari jumlah simpul dala

jaringan ditambah jumlah bit total dalam pasangan untai rangsangan-re

spon. Implikasi dari masalah ini sebagai NP-Iengkap adalah bahwa ekspre

si yang menentukan banyaknya langkah perhitungan yang diperluka

untuk 'memuat' secara efektif suatu tugas tertentu ke dalam suatu jaring

an tertentu merupakan suatu fungsi eksponensial dari ukuran masalah

Karena itu, tidak ada algoritma umum dengan kegunaan tunggai (singl

purpose) yang akan 'memuat' secara efisien suatu tugas sebarang k

dalam suatu arsitektur sebarang dalam waktu polinomial.

Hal ini tidak seburuk kedengarannya. Perlu diingat bahwa sebagia

besar keberhasilan yang diperoleh dalam bidang ini diturunkan dari pe

timbangan terhadap arsitektur yang sangat spesifik dan/atau tugas yan

sangat speslfik. Jadi, kenyataan bahwa tidak terdapat algoritma tungg

yang secara mendasar mengerjakan segala sesuatu yang hendak diselesa

kan oleh connectionism tidaklah terIalu mengejutkan. Penelitian me

datang akan menunjukkan eksistensi dari berbagai macam titik tenga

yang lebih umum daripada menyelesaikan kasus spesifik masalah 'p -

muatan' tersebut dan tidak seumum masalah 'pemuatan' yang lengka

Perlu diperhatikan pula bahwa kompleksitas waktu di mana selur

pembahasan mengenai kelengkapan-NP didasarkan adalah suatu tolukur kasus terburuk, yang dapat berarti bahwa meskipun suatu algorit

mempunyai prediksi kinerja yang sangat jelek untuk kasus-terburuk, alg

ritma tersebut dapat saja bekerja dengan sangat baik untuk sebagian bes

kasus (algoritma simpleks adalah suatu contoh kasus).

4.6 Tinjauan Pustaka

Hasil matematis dalam Subbab 4.2.1 dan 4.2.3 diambil dari Stone (198 ).

Referensi ini memberikan suatu contoh yang menunjukkan konversi d

koordinat berbasis unit ke koordinat berbasis pola, serta suatu pembaha



Aturan Delta dan Metode Belajar Propagasi Balik III

yang menunjukkan hubungan antara aturan delta dan regresi linear jamak(multiple).

Rangkuman derivasi metode penurunan gradien dalam Subbab 4.2.2

dan 4.3 diambil dari suatu karya Rumelhart (1986c). Karya ini mern-

berikan eberapa contoh penggunaan algoritma belajar dengan propagasi

balik, termasuk juga suatu pembahasan mengenai masalah paritas dan

pengkodean. Meskipun pembahasan dalam buku ini dibatasi pada jarinq-

an umpan-maju sejenis dengan yang diberikan dalarn Subbab 4.3, namun

algoritma belajar ini dapat diterapkan pada kelas yang lebih umum dari

jaringan rekuren (recurrent) - suatu pengantar dapat diperoleh dalam

Rumelhart (1986c).

Makalah dari Judd (1987) memberikan argumen intraktabilitas yang

diberikan dalam bab ini. Bagi pembaca yang terbiasa dengan teknik yang

digunakan untuk membuktikan bahwa masalah tertentu adalah NP~leng~

kap, pembuktian kelengkapan-Nl? dari masalah 'pernuatan' dilakukan

dengan reduksi dari SAT. Makalah ini juga memberikan dan kemudian

menolak beberapa argumen yang dapat diberikan untuk mengalihkan

perhatian dari pembuktian kelengkapan-NP dari masalah tersebut.

Bagi pembaca yang tertarik dengan konsep kelengkapan-NP dan

pertanyaan yang menantang tersebut (apakah P = Np), Garey dan

Johnson memberikan suatu pembahasan yang baik mengenai intraktabili-

tas [Garey(1979)]. Bab pertama dari Garey (1979) memberikan suatu

pembahasan informal tentang pentingnya kelengkapan-NP dalam peneli-

tian mengenai kompleksitas komputasionaL Terdapat pula suatu pengantarpada metode yang telah digunakan untuk menangani kelengkapan-NP.

Kita akan melihat suatu pembahasan mengenai sebagian dari heuristik

yang diusulkan dalam pembahasan mengenai aplikasi jaringan Hop-

field untuk masalah penjual keliling (TSP) NP-Iengkap dalam Bab 6.

Teknik propagasi balik juga telah digunakan oleh Qian (1988) untuk

melatih suatu jaringan untuk memprediksi struktur sekunder dari suatu

untai asam amino lokal, Masukan ke jaringan yang dilatih tersebut adalah

20 asam amino serta suatu sirnbol pemisah (spacer) untuk daerah diantara protein, dan keluarannya adalah salah satu dari tiga tipe struktur

sekunder: heliks-a, lembar-d, dan coif. Jaringan tersebut dilatih menggu-

nakan bank data struktur protein Brookhaven.

bab4 aturan delta dan metode belajar propagasi balik

Documents