stk643 pemodelan non-parametrik - ipb university · dengan 𝜇 adalah median contoh. •pemulus...
TRANSCRIPT
KARAKERISTIK DASAR PENDUGA KEPEKATAN
• Penduga kepekatan;
𝑓 𝑥 =1
𝑛 𝑤
𝑥 − 𝑥𝑖
ℎ
𝑛
1
• Nilai tengah atau Rataan (mean)
𝐸{𝑓 𝑥 } = 𝑤𝑥 − 𝑧
ℎ𝑓 𝑧 𝑑𝑧
≈ 𝑓 𝑥 +ℎ2
2𝜎𝑤
2𝑓"(𝑥)
𝜎𝑤2 = 𝑧2𝑤 𝑧 𝑑𝑧 adalah ragam fungsi kernel
KARAKERISTIK DASAR PENDUGA KEPEKATAN
• Ragam
𝑣𝑎𝑟 𝑓 (𝑥) ≈1
𝑛ℎ𝑓(𝑥)𝛼(𝑤)
𝛼 𝑤 = 𝑤2 𝑧 𝑑𝑧
• Rataan dan ragam tergantung pada fungsi kepekatan sebenarnya, f(x), dan
turunan kedua fungsi, f ”(x) masalah bias
• Kuantifikasi variabilitas suatu penduga kepekatan tanpa memperhitungkan
adanya bias ragam didekai dengan
𝑣𝑎𝑟 𝑓 (𝑥) ≈1
4
1
𝑛ℎ𝛼(𝑤)
SELANG KEPERCAYAAN
• Selang kepercayaan untuk kepekatan sebenarnya pada berbagai nilai x
dapat dinyatakan dengan lebar dua salah baku
2𝛼(𝑤)
4𝑛ℎ=
𝛼(𝑤)
𝑛ℎ≈ 𝑓
y <- log (aircraft$Span) [aircraft$Period==3]
sm.density(y, xlab = "Log span", display = "se")
PEMULUSAN OPTIMAL
• Berdasarkan minimisasi MISE secara asimtotik diperoleh
ℎ𝑜𝑝𝑡 =𝛾(𝑤)
𝛽 𝑓 𝑛
1/5
dengan 𝛾 𝑤 =𝛼(𝑤)
𝜎𝑤4 dan 𝛽 𝑓 = 𝑓"(𝑥)2𝑑𝑥
• Pemulus optimal normal
ℎ = 𝜎4
3𝑛
1/5
dengan σ adalah simpangan baku sebaran.
• Penduga σ yang robust adalah
PEMULUSAN OPTIMAL
• Penduga σ yang robust , untuk mengatasi kemungkinan adanya pencilan,
adalah
𝜎 = 𝑚𝑒𝑑𝑖𝑎𝑛 𝑦𝑖 − 𝜇 /0.6745
dengan 𝜇 adalah median contoh.
• Pemulus optimal normal untuk kasus multidimensi
ℎ𝑖 = σi4
𝑝 + 2 𝑛
1/(𝑝+4)
dengan p adalah banyaknya peubah bebas (dimensi),
hi adalah pemulus optimal,
σi adalah simpangan baku dimensi ke-i
•
PEMULUSAN OPTIMAL
• Pemulus optimal berdasarkan validasi silang
logit <- as.matrix(log(tephra/(100-tephra)))
par(mfrow=c(1,2))
h.cv <- hcv(logit[,1], display = "lines", ngrid = 32)
n <- length(logit)
sd <- sqrt(var(logit))
h <- seq(0.003, 0.054, length=32)
lines(h, nmise(sd, n, h) - 5.5, lty = 3)
sm.density(logit, h.cv)
sm.density(logit, lty = 3, add = T)
KENORMALAN
logit <- as.matrix(log(tephra/(100-tephra)))
par(mfrow=c(1,2))
qqnorm(logit)
qqline(logit)
# cat("ISE statistic:", nise(logit),"\n")
sm <- sm.density(logit)
y <- sm$eval.points
sd <- sqrt(hnorm(logit[,1])^2 + var(logit[,1]))
lines(y, dnorm(y, mean(logit), sd), lty = 3)
par(mfrow=c(1,1))
KENORMALAN
logit <- as.matrix(log(tephra/(100-tephra)))
par(mfrow=c(1,2))
sm.density(logit, model="Normal")
sm.density(logit, h=hsj(logit[,1]), model="Normal")
par(mfrow=c(1,1))
BOOTSRAP PENDUGA KEPEKATAN
sm.density(y, xlab = "Log span")
for (i in 1:10) sm.density(sample (y, replace=T), col=5, add=T)
sm.density(y, xlab = "Log span", add=T)
REGRESI NONPARAMETRIK
• Ketidaklinearan dalam data
• Regresi nonparametrik bertujuan untuk memperoleh rata-rata pemodelan
data
• Teknik pemulusan masih berguna dengan cara plot tebaran data (scatter
plot) untuk menampilkan struktur data tanpa referensi suatu model
parametrik
REGRESI NONPARAMETRIK MODEL
Model: 𝑦 = 𝑚 𝑥 + 𝜀
dengan 𝑦 = peubah respon
𝑥 = peubah bebas (covariate)
𝜀 = galat dengan rata2 0 dan ragam σ2
𝑚 𝑥 = 𝑤
𝑥𝑖 − 𝑥ℎ
𝑦𝑖𝑛𝑖=1
𝑤𝑥𝑖 − 𝑥
ℎ𝑛𝑖=1
REGRESI NONPARAMETRIK PARAMETER PEMULUS
Model: 𝑦 = 𝑚 𝑥 + 𝜀
Simpangan baku sebagai h (lebar jendela)
untuk fungsi kepekatan normal
REGRESI NONPARAMETRIK PARAMETER PEMULUS
Parameter pemulus, h, mengendalikan lebar fungsi kernel dan juga derajat pemulusan terhadap data Parameter pemulus besar akan menghasilkan penduga dengan beberapa karakteristik kurva yang hilang; sebaliknya, parameter pemulus kecil akan menghasilkan penduga dengan banyak ‘patahan’ pada kurva; sehingga perlu dicari h yang tepat
REGRESI NONPARAMETRIK BOOTSTRAP
x <- radioc$Cal.age[radioc$Cal.age>2000 &
radioc$Cal.age<3000]
y <- radioc$Rc.age[radioc$Cal.age>2000 &
radioc$Cal.age<3000]
plot(x, y, xlab="Calendar.age", ylab="Radiocarbon.age",
type="n")
model <- sm.regression(x, y, h=30, eval.points=x,
display="none")
mhat <- model$estimate
r <- y - mhat
r <- r - mean(r)
for (i in 1:50) sm.regression(x, mhat + sample(r,
replace=T), h=30, add=T, col=2, lty=1)
sm.regression(x, y, h=30, add=T, col=”blue”)
REGRESI NONPARAMETRIK SELANG KEPERCAYAAN 95%
> x <- radioc$Cal.age[radioc$Cal.age>2000 &
radioc$Cal.age<3000]
> y <- radioc$Rc.age[radioc$Cal.age>2000 &
radioc$Cal.age<3000]
> plot(x, y, xlab="Calendar.age", ylab="Radiocarbon.age")
> model <- sm.regression(x, y, h=30, eval.points=x)
> w <- sqrt(2*qt(0.95,1)) #95% dari statistik t-student
> lo <- model$estimate-w*model$se
> hi <- model$estimate+w*model$se
> sm.regression(x, lo, h=30, add=T, col=2, lty=1, add=T)
> sm.regression(x, hi, h=30, add=T, col=2, lty=1, add=T)
KEPUSTAKAAN
1) Bowman AW, Azzalini A. 1997. Applied Smoothing Techniques for Data Analysis: the Kernel
Approach With S-Plus Illustrations. Oxford University Press. London.
2) Silverman BW. 1986. Density Estimation for Statistics and Data Analysis. Vol. 26 of
Monographs on Statistics and Applied Probability. Chapman & Hall/CRC. London.
3) Simonoff JS. 1996. Smoothing Methods in Statistics. Springer. New York.