bab ii tinjauan pustaka 2.1 regresi logistik ii.pdf · 8 bab ii tinjauan pustaka 2.1 regresi...
TRANSCRIPT
8
BAB II
TINJAUAN PUSTAKA
2.1 Regresi Logistik
Menurut Hosmer dan Lemeshow (2000) tujuan melakukan analisis data
kategori menggunakan regresi logistik adalah mendapatkan model terbaik dan
sederhana untuk menjelaskan hubungan antara keluaran dari variabel respons (𝑌)
dengan variabel-variabel prediktornya (𝑋). Variabel respons dalam regresi logistik
dapat berupa kategori atau kualitatif, sedangkan variabel prediktornya dapat berupa
kualitatif dan kuantitatif. Jika variabel 𝑌 merupakan variabel biner atau dikotomi
dalam artian variabel respons terdiri dari dua kategori yaitu “sukses” (𝑌 = 1) atau
“gagal” (𝑌 = 0), maka variabel 𝑌 mengikuti sebaran Bernoulli yang memiliki
fungsi densitas peluang:
𝑓(𝑦𝑖) = 𝜋(𝑥𝑖)𝑦𝑖(1 − 𝜋(𝑥𝑖))1−𝑦𝑖 , ; 𝑦𝑖 = 0,1 (2.1)
sehingga diperoleh:
Untuk 𝑦𝑖 = 0, maka 𝑓(0) = 𝜋(𝑥𝑖)0(1 − 𝜋(𝑥𝑖))1−0 = 1 − 𝜋(𝑥𝑖),
untuk 𝑦𝑖 = 1, maka 𝑓(1) = 𝜋(𝑥𝑖)1(1 − 𝜋(𝑥𝑖))1−1 = 𝜋(𝑥𝑖).
Misalkan probabilitas dari variabel respons 𝑌 untuk nilai 𝑥 yang diberikan,
dinotasikan sebagai 𝜋(𝑥). Model umum 𝜋(𝑥) dinotasikan sebagai berikut:
𝜋(𝑥) =exp(𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑝𝑥𝑝)
1 + exp(𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑝𝑥𝑝),
Persamaan (2.2) disebut fungsi regresi logistik yang menunjukkan hubungan antara
variabel prediktor dan probabilitas yang tidak linear, sehingga untuk mendapatkan
(2.2)
9
hubungan yang linear dilakukan transformasi yang sering disebut dengan
transformasi logit. Bentuk logit dari 𝜋(𝑥) dinyatakan sebagai 𝑔(𝑥), yaitu:
logit [𝜋(𝑥)] = 𝑔(𝑥) = ln (𝜋(𝑥)
1−𝜋(𝑥)) = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑝𝑥𝑝. (2.3)
Persamaan (2.3) merupakan bentuk fungsi hubungan model regresi logistik
yang disebut model regresi logistik berganda (Hosmer dan Lemeshow, 2000).
2.2 Regresi Logistik Ordinal
Regresi logistik adalah model regresi yang digunakan apabila variabel
respons bersifat kualitatif. Model ini terdiri dari regresi logistik sederhana yang
bersifat dikotomus yang mensyaratkan variabel respons terdiri dari dua kategori,
dan regresi logistik polytomous dengan variabel respons lebih dari dua kategori.
Regresi logistik polytomous dengan variabel respons bertingkat dikenal dengan
regresi logistik ordinal. Variabel prediktor yang dapat disertakan dalam model
berupa data kategori dan kontinu yang terdiri atas dua variabel atau lebih
(Hosmer dan Lemeshow, 2000).
2.2.1 Model Odd Proporsional
Suatu variabel respons 𝑌 berskala ordinal dapat terdiri dari 𝐾 + 1 dan
dinyatakan dengan 0,1,2, . . . , 𝐾. Ekspresi umum peluang bersyarat 𝑌 = 𝑘 pada
vektor 𝑥 dari 𝑝 variabel prediktor adalah Pr[𝑌 = 𝑘|𝑥] = 𝜙𝑘(𝑥). Misalkan
𝜙𝑘(𝑥) = 𝜋𝑘(𝑥), maka untuk 𝐾 = 0,1,2, model yang terbentuk dijelaskan oleh
persamaan berikut:
10
𝑃(𝑌 = 0|𝑥) =1
1 + 𝑒g1(𝑥) + 𝑒g2(𝑥)= 𝜙0(𝑥)
𝑃(𝑌 = 1|𝑥) =𝑒𝑔1(𝑥)
1 + 𝑒g1(𝑥) + 𝑒g2(𝑥)= 𝜙1(𝑥)
𝑃(𝑌 = 2|𝑥) =𝑒𝑔2(𝑥)
1 + 𝑒g1(𝑥) + 𝑒g2(𝑥)= 𝜙2(𝑥) ,
sehingga bentuk persamaan tersebut adalah sebagai berikut:
𝑃(𝑌 = 𝑘|𝑥) = 𝑒g𝑘(𝑥)
∑ 𝑒g𝑖(𝑥)𝐾𝑖=1
, (2.4)
dengan g0(𝑥) = 0, dan 𝑘 = 0,1, … , 𝐾.
Model logit garis dasar mempunyai 𝐾(𝑝 + 1) koefisien, bentuk ini muncul dari
fakta bahwa model biasanya diparameterisasi, sehingga koefisien-koefisien log
odds membandingkan kategori 𝑦 = 𝑘 dengan kategori dasar 𝑦 = 0.
g𝑘(𝑥) = ln [𝜙𝑘(𝑥)
𝜙0(𝑥)]
= ln [𝑃(𝑌 = 𝑘|𝑥)
𝑃(𝑌 = 0|𝑥)]
= 𝛽𝑘0 + 𝑥′𝛽𝑘 , 𝑘 = 0,1,2, … , 𝐾, (2.5)
persamaan (2.5) disebut model logit dasar (baseline logit model), dengan 𝛽𝑘0
sebagai intersep.
Pada regresi logistik ordinal, model dapat diperoleh dengan model odds
proporsional (proportional odds model). Model logit ini merupakan model yang
didapatkan dengan membandingkan peluang kumulatif yaitu peluang kurang dari
atau sama dengan kategori respons ke-𝑘 pada 𝑝 variabel prediktor yang dinyatakan
dalam vektor 𝑥, 𝑃(𝑌 ≤ 𝑘|𝑥), dengan peluang yang lebih besar dari kategori
respons ke-𝑘, 𝑃(𝑌 > 𝑘|𝑥) yang didefinisikan sebagai berikut:
11
logit 𝑃(𝑌 ≤ 𝑘|𝑥) = 𝑐𝑘(𝑥) = ln [𝑃(𝑌 ≤ 𝑘|𝑥)
𝑃(𝑌 > 𝑘|𝑥)]
= ln [𝜙0(𝑥) + 𝜙1(𝑥) + ⋯ + 𝜙𝑘(𝑥)
𝜙𝑘+1(𝑥) + 𝜙𝑘+2(𝑥) + ⋯ + 𝜙𝐾(𝑥)]
= 𝜏𝑘 − 𝑥′𝛽, (2.6)
untuk 𝑘 = 0,1,2, . . . 𝐾 − 1 (Hosmer dan Lemeshow, 2000).
2.3 Pendugaan Parameter
Metode yang paling umum digunakan untuk menduga parameter pada
model regresi logistik adalah metode maksimum likelihood (method of maximum
likelihood). Langkah awal untuk menerapkan metode maksimum likelihood adalah
dengan membentuk sebuah fungsi yang disebut fungsi likelihood. Fungsi ini
menggambarkan fungsi peluang dari data-data yang diamati sebagai fungsi dari
penduga parameter (Hosmer dan Lemeshow, 2000). Secara umum fungsi likelihood
didefinisikan sebagai fungsi peluang bersama dari variabel acak yang dibentuk oleh
sampel. Khusus untuk sampel berukuran 𝑛 dengan amatannya (𝑦1, 𝑦2, … , 𝑦𝑛)
berkoresponden dengan variabel acak (𝑌1, 𝑌2, … , 𝑌𝑛). Selama 𝑌𝑖 dianggap
independen, maka fungsi densitas peluang bersamanya adalah sebagai berikut:
g(𝑌1, 𝑌2, … , 𝑌𝑛) = ∏ 𝑓(𝑌𝑖)𝑛𝑖=1 . (2.7)
Metode yang digunakan untuk mencocokkan setiap model didasarkan
penyesuaian pada multinomial likelihood. Bentuk umum dari likelihood untuk
sampel dari 𝑛 amatan yang saling bebas (𝑧𝑖 , 𝑥𝑖), 𝑖 = 1,2, … , 𝑛; adalah sebagai
berikut:
12
𝑙(𝛽) = ∏ [𝜙0(𝑥𝑖)𝑧0𝑖 × 𝜙1(𝑥𝑖)𝑧1𝑖 × …𝑛𝑖=1 × 𝜙𝐾(𝑥𝑖)𝑧𝐾𝑖], (2.8)
dengan 𝜙𝑘(𝑥) merupakan fungsi dari parameter yang tidak diketahui dan
𝑧′ = (𝑧0, 𝑧1, … 𝑧𝑘) dibentuk dari respons yang ordinal.
Metode kemungkinan maksimum memberikan nilai penduga dari vektor
𝛽𝑘′ = (𝛽0𝑘, 𝛽1𝑘 , … 𝛽𝑝𝑘) dengan memaksimumkan fungsi kemungkinan bersama
pada persamaan (2.8). Logaritma dari fungsi kemungkinan bersamanya dapat
ditulis sebagai berikut:
𝐿(𝛽) = ∑ 𝑧0𝑖ln𝑛𝑖=0 [𝜙0(𝑥𝑖)] + ⋯ + 𝑧𝐾𝑖 ln[𝜙𝐾𝑖(𝑥𝑖)]. (2.9)
Untuk mendapatkan nilai penduga dari 𝛽𝑘′ = (𝛽0𝑘, 𝛽1𝑘 , … 𝛽𝑝𝑘) yang
memaksimalkan 𝐿(𝛽), didapat dengan cara menurunkan persamaan disamakan
dengan nol (Hosmer dan Lemeshow, 2000), persamaan-persamaan yang diperoleh
adalah sebagai berikut:
𝜕𝐿(𝛽)
𝜕𝛽𝑗𝑘= ∑ 𝑥𝑘𝑖(𝑧𝑗𝑖 − 𝜙𝑗𝑖)
𝑛
𝑖=1
= 0,
dengan 𝑗 = 1,2, … , 𝐽 − 1 dan 𝑘 = 0,1,2, . . . , 𝑝 dengan 𝑥0𝑖 = 1 untuk masing-
masing subjek.
Metode penduga ragam dan koragam dari koefisien penduga diperoleh
berdasarkan teori penduga maksimum. Penduga ragam dan koragam yang diperoleh
adalah suatu matriks yang berasal dari turunan parsial kedua dari persamaan (2.10)
(Hosmer dan Lemeshow, 2000).
Bentuk umum dari elemen dalam matriks turunan parsial kedua sebagai
berikut:
(2.10)
13
𝜕2𝐿(𝛽)
𝜕𝛽𝑗𝑘𝜕𝛽𝑗𝑘′= − ∑ 𝑥𝑘′𝑖𝑥𝑘𝑖𝜙𝑗𝑖(1 − 𝜙𝑗𝑖),
𝑛
𝑖=1
dan
𝜕2𝐿(𝛽)
𝜕𝛽𝑗𝑘𝜕𝛽𝑗′𝑘′ = ∑ 𝑥𝑘′𝑖𝑥𝑘𝑖𝜙𝑗𝑖𝜙𝑗′𝑖
𝑛
𝑖=1
,
untuk 𝑗 dan 𝑗’ = 1,2 dan 𝑘 dan 𝑘’ = 0,1,2, . . . , 𝑝. Selanjutnya didefinisikan 𝐼(𝛽)
suatu matriks berukuran 2(𝑝 + 1) × 2(𝑝 + 1) yang elemen-elemennya adalah
negatif dari nilai pada persamaan (2.11) dan (2.12). Matriks tersebut disebut
dengan matriks informasi. Matriks koragam dari penduga maksimum likelihood
merupakan invers dari matriks informasi, ∑(𝛽) = 𝐼(𝛽)−1. Penduga dari matriks
informasi dan koragam diperoleh dengan mengganti parameter dengan nilai
dugaannya.
2.4 Pengujian Parameter
Pengujian terhadap parameter-parameter estimasi model dilakukan untuk
mengetahui peran seluruh variabel prediktor baik secara simultan (bersama-sama)
maupun secara parsial. Menurut Hosmer dan Lemeshow (2000), untuk pengujian
parameter secara bersama dapat digunakan uji keberartian model yaitu uji G dengan
hipotesis:
𝐻0: 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑝 = 0 (tidak ada pengaruh sekumpulan variabel bebas
terhadap variabel respons),
𝐻1: minimal ada satu 𝛽𝑖 ≠ 0.
(2.11)
(2.12)
14
Statistik uji G dinotasikan sebagai berikut:
𝐺 = −2 ln [𝐿0
𝐿𝑘].
Keterangan:
𝐿0= fungsi kemungkinan maksimum tanpa variabel prediktor
𝐿𝑘= fungsi kemungkinan maksimum dengan variabel prediktor
Dengan mengambil taraf signifikansi 𝛼, hipotesisi nol (𝐻0) ditolak apabila
𝐺 > 𝜒𝑑𝑏,𝛼 2 atau 𝑝𝑉𝑎𝑙𝑢𝑒 < 𝛼. Derajat kebebasan ((𝐾 + 1) − 2) × 𝑝, (𝐾 + 1)
merupakan jumlah variabel respons dan 𝑝 adalah jumlah variabel prediktor.
Sedangkan pengujian parameter 𝛽 secara parsial dilakukan dengan
membandingkan model terbaik yang dihasilkan oleh uji simultan terhadap model
tanpa variabel bebas di dalam model terbaik. Pengujian hipotesis yang dilakukan
yaitu:
𝐻0: 𝛽𝑖 = 0 (tidak ada pengaruh variabel bebas yang diuji terhadap variabel
respons),
𝐻1: 𝛽𝑖 ≠ 0 (terdapat pengaruh variabel bebas yang diuji terhadap variabel respons).
Statistik ujinya adalah:
𝑊 =𝛽�̂�
𝑆𝐸(𝛽�̂�).
Statistik uji Wald mengikuti sebaran normal baku 𝑍, 𝐻0 akan ditolak jika
𝑊 > 𝑍𝛼/2 atau 𝑝𝑉𝑎𝑙𝑢𝑒 < 𝛼.
(2.14)
(2.13)
15
2.5 Interpretasi Koefisien
Pada regresi logistik dengan suatu variabel bebas (𝛽𝑖) menunjukkan
perubahan nilai logit untuk setiap unit perubahan pada variabel 𝑥. Interpretasi
regresi logistik ordinal dapat dijelaskan dengan odds rasio. Nilai odds rasio yaitu
nilai yang menunjukkan perbandingan tingkat kecenderungan dari dua kategori
dalam satu variabel prediktor dengan salah satu kategorinya dijadikan pembanding
kategori dasar (Hosmer dan Lemeshow, 2000).
Tabel 2.1 Nilai-Nilai dari Model Logistik
Variabel respons Variabel bebas
𝑥 = 𝑎 𝑥 = 𝑏
𝑌 = 2 𝜙2(𝑎) =𝑒g2(𝑎)
∑ 𝑒g𝑖(𝑎)3𝑖=1
𝜙2(𝑏) =𝑒g2(𝑏)
∑ 𝑒g𝑖(𝑏)3𝑖=1
𝑌 = 1 𝜙1(𝑎) =𝑒g1(𝑎)
∑ 𝑒g𝑖(𝑎)3𝑖=1
𝜙1(𝑏) =𝑒g1(𝑏)
∑ 𝑒g𝑖(𝑏)3𝑖=1
𝑌 = 0 𝜙0(𝑎) =𝑒g0(𝑎)
∑ 𝑒g𝑖(𝑎)3𝑖=1
𝜙0(𝑏) =𝑒g0(𝑏)
∑ 𝑒g𝑖(𝑏)3𝑖=1
Secara umum, nilai odds rasio pada model ke-𝑗 dapat dicari dengan
𝑂𝑅𝑘(𝑎, 𝑏) =𝑃(𝑌 = 𝑘|𝑥 = 𝑎)/𝑃(𝑌 = 0|𝑥 = 𝑎)
𝑃(𝑌 = 𝑘|𝑥 = 𝑏)/𝑃(𝑌 = 0|𝑥 = 𝑏).
(2.15)
Misalkan nilai 𝑎 = 1 dan 𝑏 = 0 kemudian ingin dicari nilai odd pada saat
𝑌 = 3 dengan 𝑌 = 0 untuk nilai 𝑥 = 1 dan 𝑥 = 0 adalah
𝑂𝑅3(1,0) =𝑃(𝑌 = 3|𝑥 = 1)/𝑃(𝑌 = 0|𝑥 = 1)
𝑃(𝑌 = 3|𝑥 = 0)/𝑃(𝑌 = 0|𝑥 = 0)=
𝜙3(1)/[𝜙0(1)]
𝜙3(0)/[𝜙0(0)]= exp(𝛽31),
(2.16)
16
ln(𝑂𝑅3(1,0)) = ln (
𝜙3(1)[𝜙0(1)]
𝜙3(0)/[𝜙0(0)]) = ln(exp(𝛽31)) = 𝛽31.
(2.17)
Model logistik dengan satu variabel bebas dikotomi, koefisien 𝛽𝑘1 adalah
beda logit sedangkan exp(𝛽𝑘1) adalah nilai odds rasio (Hosmer dan Lemeshow,
2000).
Berdasarkan persamaan (2.17), dapat diinterpretasikan bahwa rasio odds
(𝑂𝑅3(1,0)) = 1 berarti bahwa individu dengan nilai 𝑥 = 1 mempunyai peluang
yang sama dengan individu dengan nilai 𝑥 = 0 dalam kaitannya dengan 𝑌 = 3.
Apabila (𝑂𝑅3(1,0)) > 1 maka individu dengan nilai 𝑥 = 1 mempunyai peluang
yang lebih besar dibandingkan dengan 𝑥 = 0 terhadap 𝑌 = 3. Sebaliknya apabila
0 ≤ (𝑂𝑅3(1,0)) < 1 individu 𝑥 = 1 mempunyai peluang yang lebih kecil
dibandingkan dengan 𝑥 = 0 untuk 𝑌 = 3.
2.6 Prosedur Klasifikasi
Menurut Johnson dan Wichern (2007) prosedur klasifikasi adalah suatu
evaluasi untuk melihat peluang kesalahan klasifikasi (misclassification) yang
dilakukan oleh suatu fungsi klasifikasi. Prosedur klasifikasi yang baik ditentukan
dengan nilai misklasifikasi yang kecil.
Satu hal penting untuk menghasilkan prosedur klasifikasi ialah dengan
menghitung tingkat error atau probabilitas kesalahan klasifikasi (misklasifikasi).
Terdapat alat ukur yang dapat digunakan untuk menentukan kesalahan klasifikasi
17
yang tidak bergantung pada distribusi populasi dan dapat mempermudah
perhitungan berbagai prosedur klasifikasi. Salah satu ukuran yang apa digunakan
adalah apparent error rate (APER) yang merupakan fraksi observasi dalam sampel
yang salah diklasifikasikan atau misclasified pada fungsi klasifikasi.
Penentuan kesalahan pengklasifikasian dapat diketahui melalui tabel
klasifikasi. Tabel klasifikasi merupakan tabel kontingensi (𝑘 × 𝑘) berdasarkan data
empiris dari variabel respons.
Tabel 2.1 Tabel Klasifikasi
Keanggotaan
sebenarnya
Keanggotaan prediksi Total
�̂�1 �̂�2 �̂�3
𝜋1 𝑛11 𝑛12 𝑛13 A
𝜋2 𝑛21 𝑛22 𝑛23 B
𝜋3 𝑛31 𝑛32 𝑛33 C
Total D E F G
Keterangan:
𝑛11 : jumlah 𝑦𝑖 dari 𝜋1 yang tepat diklasifikasikan sebagai �̂�1
𝑛12 : jumlah 𝑦𝑖 dari 𝜋1 yang tidak tepat diklasifikasikan sebagai �̂�2
𝑛13 : jumlah 𝑦𝑖 dari 𝜋1 yang tidak tepat diklasifikasikan sebagai �̂�3
𝑛21 : jumlah 𝑦𝑖 dari 𝜋2 yang tidak tepat diklasifikasikan sebagai �̂�1
𝑛22 : jumlah 𝑦𝑖 dari 𝜋2 yang tepat diklasifikasikan sebagai �̂�2
𝑛23 : jumlah 𝑦𝑖 dari 𝜋2 yang tidak tepat diklasifikasikan sebagai �̂�3
𝑛31 : jumlah 𝑦𝑖 dari 𝜋3 yang tidak tepat diklasifikasikan sebagai �̂�1
𝑛32 : jumlah 𝑦𝑖 dari 𝜋3 yang tidak tepat diklasifikasikan sebagai �̂�2
𝑛33 : jumlah 𝑦𝑖 dari 𝜋3 yang tepat diklasifikasikan sebagai �̂�3
18
Sehingga diperoleh rumus kesalahan klasifikasi secara keseluruhan nilai
APER adalah:
𝐴𝑃𝐸𝑅 = (𝑛12 + 𝑛13 + 𝑛21 + 𝑛23 + 𝑛31 + 𝑛32
𝐺).
Kemudian, untuk mendapatkan nilai ketepatan klasifikasi (correct classification)
digunakan rumus: 1 − 𝐴𝑃𝐸𝑅.
2.7 Bootstrap Aggregating (Bagging)
Bagging merupakan sebuah metode yang diusulkan oleh Breiman (1994).
Metode ini digunakan sebagai alat untuk memperbaiki stabilitas dan kekuatan
prediksi dengan cara mereduksi variansi dari suatu prediktor pada metode
klasifikasi dan regresi yang penggunaannya tidak dibatasi hanya untuk
memperbaiki estimator. Versi berganda dibentuk dengan replikasi bootstrap dari
sebuah data set. Pada beberapa kasus, bagging pada data set real atau simulasi
dapat meningkatkan akurasi. Jika perubahan pada data set menyebabkan perubahan
yang signifikan maka bagging dapat meningkatkan akurasi.
Ide dasar dari bagging adalah menggunakan bootstrap resampling untuk
membangkitkan prediktor dengan versi berganda, di mana ketika dikombinasikan
seharusnya hasilnya lebih baik dibandingkan dengan prediktor tunggal yang
dibangun untuk menyelesaikan masalah yang sama (Breiman, 1996).
Tabel 2.3 Skema proses Bagging
Data set tunggal (data asli):
ℒ = {(𝑦𝑖, 𝑥𝑖), 𝑖 = 1,2, … , 𝑛} 1, 2, 3, 4, 5, 6, 7, 8
Bootstrap
resampling
ℒ∗1 = (𝑦1
∗, 𝑥1∗) 2, 7, 8, 3, 7, 6, 3, 1
ℒ∗2 = (𝑦2
∗, 𝑥2∗) 7, 8, 5, 6, 4, 2, 7, 1
ℒ∗3 = (𝑦3
∗, 𝑥3∗) 3, 6, 2, 7, 5, 6, 2, 2
ℒ∗𝑖 = (𝑦𝑖
∗, 𝑥𝑖∗) 4, 5, 1, 4, 6, 4, 3, 8
(2.18)
19
Sebuah data set ℒ terdiri dari data {(𝑦𝑛, 𝑥𝑛), 𝑛 = 1, … , 𝑁} dengan 𝑦 dapat
berupa kelas label atau respons numerik. Jika input adalah 𝑥 maka 𝑦 diprediksi
dengan 𝜑(𝑥, ℒ) di mana 𝜑(𝑥, ℒ) adalah prediktor. Prediktor diperoleh dengan
melakukan replikasi bootstrap dari data asli ℒ𝑘 yang kemudian disebut 𝜑(𝑥, ℒ𝑘).
Replikasi bootstrap dilakukan sebanyak B kali sehingga {ℒ (𝐵)} dari ℒ (data set)
dan dibentuk prediktor {𝜑(𝑥, ℒ(𝐵))}. Pengulangan {ℒ (𝐵)} adalah resampling
dengan pengembalian (Breiman,1996).
Ambil bootstrap sampel dengan pengulangan {ℒ (𝐵)} dari ℒ dan membentuk
{𝜑(𝑥, ℒ (𝐵))}. Jika 𝑦 merupakan data numerik, diberikan 𝜑𝐵 sebagai
𝜑𝐵(𝑥) = average𝐵𝜑(𝑥, ℒ (𝐵)), (2.19)
Jika 𝑦 merupakan kelas label, maka untuk menentukan kategori dengan melakukan
vote pada{𝜑(𝑥, ℒ (𝐵))} dari 𝜑𝐵(𝑥). Metode bootstrap yang seperti ini dinamakan
bagging (bootstrap aggregating).
Bagging bekerja dengan baik pada metode yang bersifat tidak stabil, yang
mana perubahan kecil pada data set akan menghasilkan perubahan besar pada
model yang diperoleh. Beberapa metode yang tidak stabil adalah neural networks,
regresi, klasifikasi, dan regresi pohon (regression tree). Sedangkan contoh metode
yang stabil adalah k-nearest neighboor (Breiman, 1996).
2.7.1 Estimasi Probabilitas Bagging Class
Beberapa metode klasifikasi mengestimasi probabilitas �̂�(𝑘|𝑥) suatu objek
dengan memprediksi vector 𝑥 termasuk dalam kelas 𝑘. Kemudian kelas yang sesuai
20
𝑥 ditaksir sebagai arg max𝑘 �̂�(𝑘|𝑥). Pada metode bagging, dari semua replikasi
bootstrap diperoleh estimasi �̂�𝐵(𝑘|𝑥) yang kemudian digunakan untuk
memprediksi kelas arg max𝑘 �̂�𝐵(𝑘|𝑥). Dari hasil prediksi kelas, dilakukan
perhitungan kesalahan klasifikasi untuk setiap replikasi B kali. Terdapat dua cara
berbeda dalam mendapatkan nilai kesalahan klasifikasi pada bagging untuk
klasifikasi, yaitu dengan majority voting dan average. Hasil proses voting ataupun
average dalam hal ini (𝑒�̅�) ditentukan dari prediksi kelas label tiap-tiap replikasi
B kali. Penentuan 𝑒�̅� dengan voting ataupun average pada bagging memiliki hasil
yang hampir sama (Breiman, 1996).
Breiman (1996) menyatakan bahwa bagging mengestimasi lebih akurat
daripada estimator tunggal. Hal tersebut ditunjukkan dengan membandingkan nilai
estimasi error antara estimator tunggal dengan estimator bagging.
Algoritma bagging untuk regresi logistik ordinal adalah sebagai berikut:
1. Mengambil sampel bootstrap ℒ𝐵 sebanyak 𝑛 dari data set ℒ, pengambilan
sampel dengan pengembalian untuk setiap replikasi sebanyak 𝐵.
2. Memodelkan regresi logistik ordinal pada sampel bootstrap ℒ𝐵.
3. Menentukan prediksi variabel respons dari model bagging regresi logistik
ordinal untuk setiap replikasi.
4. Mengulang langkah 1 sampai langkah 4 sebanyak B kali.
5. Menentukan prediksi kelas maksimum dengan majority voting dan menghitung
nilai kesalahan klasifikasi bagging (𝑒�̅�) dari nilai prediksi kelas maksimum
setiap pengulangan sampai B kali.
21
2.8 Akaike’s Information Criterion (AIC)
Metode AIC secara umum dianggap sebagai kriteria pemilihan model yang
sampai saat ini terus berkembang dan dipergunakan sebagai salah satu metode
dalam pemilihan model terbaik. Metode AIC didasarkan pada metode maximum
likelihood estimation (MLE). Untuk menghitung nilai AIC digunakan rumus
sebagai berikut (Grasa dalam Fathurahman, 2009):
𝐴𝐼𝐶 = 𝑒2𝑘/𝑛∑ �̂�𝑖
2𝑛𝑖=1
𝑛,
dengan:
𝑘 = banyak parameter yang diestimasi dalam model regresi
𝑛 = banyak observasi
𝑒 = 2,718
𝑢 = sisa (residual)
Berdasarkan nilai AIC, suatu model regresi dikatakan sebagai model terbaik adalah
jika model regresi memiliki nilai AIC terkecil (Widarjono dalam Fathurahman,
2009).
2.9 Status Gizi
Salah satu indikator kesehatan yang dinilai pencapaiannya dalam MDG’s
adalah status gizi balita (Dinas Kesehatan Provinsi Bali, 2014). Upaya perbaikan
gizi dilakukan untuk mengatasi masalah gizi dan sekaligus untuk meningkatkan
status gizi serta derajat kesehatan masyarakat. Gizi yang baik pada balita sangat
penting bagi pertumbuhan dan perkembangan tubuh balita. Pada balita kurang gizi
ada kecenderungan kurang gairah dan lincah, serta terhambat dalam belajar karena
(2.20)
22
gizi kurang akan memengaruhi pertumbuhan otak balita sehingga berakibat dalam
merugikan usaha mencerdaskan bangsa (Roedjito, 1989).
Status gizi balita merupakan hal yang harus diketahui oleh setiap orang tua.
Perlunya perhatian lebih dalam tumbuh kembang di usia balita didasarkan fakta
bahwa kurang gizi yang terjadi pada masa emas ini, bersifat irreversible
(Mufida dkk., 2015).
Menurut Kementerian Kesehatan (2013), status gizi balita dapat diukur
berdasarkan umur, berat badan (BB), dan tinggi badan (TB). Variabel umum, BB
dan TB ini disajikan dalam bentuk tiga indikator antropometri, yaitu: berat badan
menurut umur (BB/U), tinggi badan menurut umur (TB/U), dan berat badan
menurut tinggi badan (BB/TB). Masing-masing indikator tersebut memiliki
pembagian kategori sebagai berikut:
a. BB/U: indeks ini diperoleh dari perbandingan antara berat badan dengan umur
yang dapat digunakan untuk menilai kemungkinan anak dengan kategori gizi
buruk atau gizi kurang.
b. TB/U: indeks ini diperoleh dari perbandingan antara tinggi badan dengan umur
yang dapat digunakan untuk menggambarkan keadaan kurang gizi kronis yaitu
pendek (stunting).
c. BB/TB: indeks ini diperoleh dari perbandingan antara berat badan dengan tinggi
badan yang dapat digunakan untuk menilai kemungkinan anak dengan kategori
kurus atau sangat kurus yang merupakan masalah gizi akut.
23
2.9.1 Balita
Anak bawah lima tahun atau sering disingkat sebagai anak balita adalah
anak yang telah menginjak usia di atas satu tahun atau lebih populer dengan
pengertian usia anak di bawah lima tahun (Muaris dalam Depkes, 2015) atau biasa
digunakan perhitungan bulan yaitu 12-59 bulan. Para ahli menggolongkan usia
balita sebagai tahapan perkembangan anak yang cukup rentan terhadap berbagai
serangan penyakit. Setiap tahun lebih dari sepertiga kematian anak di dunia
berkaitan dengan masalah kurang gizi (Depkes, 2015).
2.9.2 Stunting pada Balita
Indikator tinggi badan menurut umur (TB/U) digunakan untuk
menggambarkan keadaan kurang gizi pendek. Balita pendek (stunting) adalah balita
yang mengalami kegagalan untuk mencapai pertumbuhan yang optimal. Stunting
dapat mengindikasikan adanya gangguan kronis pada pertumbuhan anak akibat
tidak terpenuhinya suplai makanan dalam waktu lama, adanya penyakit infeksi atau
kondisi kesehatan lingkungan buruk yang disebabkan oleh kemiskinan (SCN Task
Force dalam Tahir, 2012).
Berdasarkan Kementerian Kesehatan (2013), pada anak balita masalah
stunting lebih banyak dibandingkan dengan masalah kurang gizi lainnya. Di
Provinsi Bali pada tahun 2013 kejadian stunting terjadi sebanyak 32,6% lebih
tinggi dibandingkan kejadian gizi buruk 13,2% dan kurus 8,8%.
24
2.9.3 Status Anemia Ibu
Ibu hamil yang mengalami anemia dapat mengakibatkan janin dalam tubuh
ibu mengalami hambatan pertumbuhan, lahir prematur, bayi dengan berat badan
lahir rendah (BBLR), serta lahir dengan cadangan zat besi kurang sampai dengan
kematian janin di dalam kandungan. Sedangkan bagi ibu hamil sendiri akan
menyebabkan komplikasi, gangguan pada saat persalinan dan dapat
membahayakan kondisi ibu seperti badan lemah, pingsan hingga menyebabkan
mudahnya terinfeksi penyakit (Sulistyoningsih, 2011).
2.9.4 Pengukuran LILA Ibu
Pengukuran lingkar lengan atas (LILA) dilakukan ibu hamil untuk
mengetahui risiko kekurangan energi kronis (KEK) pada ibu tersebut. KEK
merupakan suatu keadaan yang menunjukkan kekurangan energi dan protein dalam
jangka waktu yang lama (Kemenkes R.I. dalam Suciari, 2015).
2.9.5 Berat Badan Lahir
Berat badan lahir sangat terkait dengan pertumbuhan dan perkembangan
jangka panjang pada balita. Menurut Unicef dan WHO (2004) bayi dengan berat
badan lahir rendah (BBLR) merupakan hasil dari kelahiran prematur atau
dikarenakan terhambatnya pertumbuhan janin dalam kandungan. BBLR telah
didefinisikan oleh WHO sebagai bayi yang lahir dengan berat lahir kurang dari
2500 gr. BBLR berkaitan erat dengan kematian dan morbiditas dari janin dan
neonatus, terhambatnya pertumbuhan dan perkembangan kognitif, dan timbulnya
25
penyakit kronis di kemudian hari. Banyak faktor yang menyebabkan BBLR yaitu,
durasi kehamilan dan perkembangan janin. Hal tersebut berkaitan dengan bayi, ibu,
atau lingkungan fisik dan memainkan peranan penting dalam menentukan berat
badan lahir dan masa depan kesehatan bayi.
2.9.6 Panjang Badan Lahir
Asupan gizi yang kurang adekuasi sebelum masa kehamilan gangguan
pertumbuhan pada janin sehingga dapat menyebabkan bayi lahir dengan panjang
badan lahir pendek . bayi yang dilahirkan memiliki panjang badan lahir normal bila
panjang badan lahir bayi tersebut berada pada panjang 48-52 cm (Kemenkes R.I.
dalam Suciari, 2015).
2.9.7 MP-ASI
Makanan pendamping ASI (MP-ASI) merupakan makanan pendamping
ASI, bukan makanan pengganti ASI. Dikatakan pendamping, berarti bila sudah
waktunya diberikan makanan pendamping ini, bukan berarti pemberian ASI harus
dihentikan. Umpasi (Umur Pemberian Usia MP-ASI) pada usia 6 bulan dianggap
merupakan saat yang tepat untuk pemberian MP-ASI. Pada usia ini, saluran
pencernaan bayi sudah cukup mampu untuk menerima makanan selain ASI dan
kebutuhan bayi sudah tidak lagi tercukupi hanya dengan pemberian ASI, sehingga
dibutuhkan sumber nutrisi lain untuk mencukupi kebutuhannya (Nopri, 2013).