vayamos un poco para atr asa clasi caci on regresion np.pdfel m etodo de k vecinos m as cercanos es...

34
Vayamos un poco para atr´ as....aClasificaci´on

Upload: others

Post on 15-Mar-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

Page 2: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

Page 3: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

Page 4: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

Page 5: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Vayamos un poco para atras....a Clasificacion

x v.a. discreta x = (x1, x2, . . . , xp) ∈ X

Posibles etiquetas. Caso binario Y = {0, 1}

Por ejemplo: Nido aceptador (Y = 0), remueve el 30% y Nidorechazador (Y = 1), remueve el 80%.

Clasificador: Regla que asigna a cada x ∈ X un elemento y ∈ Y

Hop Optimo: Regla de Bayes - Caso binario

Hop(x) =

{1 si P(Y = 1 | X = x) > P(Y = 0 | X = x),0 si P(Y = 0 | X = x) > P(Y = 1 | X = x).

¿Como podrıamos estimar P(Y = 1 | X = x) y P(Y = 0 | X = x)?

Page 6: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado
Page 7: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

k−Vecinos mas cercanos (kNN: k-nearest neighbors)

El metodo de k−Vecinos mas cercanos es uno de los metodos existentespara estimar la distribucion condicional de Y dado X y para despuesclasificar una observacion en la clase con la mayor probabilidad estimada.

Elegimos k un entero positivo y un punto x para clasificar.

El clasificador kNN identifica el conjunto de los k puntos mascercanos a x. Sea Nx dicho conjunto.

Estima a P (Y = 1 | X = x) por la fraccion de puntos en Nx cuyaetiqueta es igual a 1:

P(Y = 1 | X = x) =1

k

∑i∈N0

I(yi = 1)

Analogamente estimamos P (Y = 0 | X = x)

El parametro k de este metodo puede elegirse por Convalizadion Cruzada.

Page 8: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Otra forma

Otra manera de estimar a P (Y = 1 | X = x) podrıa ser considerar unentorno (x− h, x+ h) y repetir el procedimiento anterior.

Elegimos h > 0 y un punto x para clasificar.

El clasificador identifica en el intervalo (x− h, x+ h) los puntos conetiqueta 1 y 0

Estima a P (Y = 1 | X = x) por la fraccion de puntos en(x− h, x+ h) cuya etiqueta es igual a 1:

P(Y = 1 | X = x) =

n∑i=1

Yi I[x−h,x+h](Xi)

n∑i=1

I[x−h,x+h](Xi)

El parametro h de este metodo puede elegirse por Convalidacion Cruzada.

Page 9: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Reescribiendo...

Notemos que

n∑i=1

Yi I[x−h,x+h](Xi) =

n∑i=1

Yi I[−1,1](x−Xi

h

)y

n∑i=1

I[x−h,x+h](Xi) =

n∑i=1

I[−1,1](x−Xi

h

)

Luego:

P(Y = 1 | X = x) =

n∑i=1

Yi I[−1,1](x−Xi

h

)n∑

i=1

I[−1,1](x−Xi

h

)

Page 10: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Reescribiendo...

Notemos que

n∑i=1

Yi I[x−h,x+h](Xi) =

n∑i=1

Yi I[−1,1](x−Xi

h

)y

n∑i=1

I[x−h,x+h](Xi) =

n∑i=1

I[−1,1](x−Xi

h

)Luego:

P(Y = 1 | X = x) =

n∑i=1

Yi I[−1,1](x−Xi

h

)n∑

i=1

I[−1,1](x−Xi

h

)

Page 11: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Promedio pesadoPor lo tanto, si consideramos el nucleo rectangular K(t) = I[−1,1](t)

P(Y = 1 | X = x) =

n∑i=1

Yi K

(x−Xi

h

)n∑

i=1

K

(x−Xi

h

)

Observemos que

n∑i=1

Yi K

(x−Xi

h

)n∑

i=1

K

(x−Xi

h

) =

n∑i=1

YiK(x−Xi

h

)∑ni=1K

(x−Xi

h

)︸ ︷︷ ︸qWi

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

donde Wi(x) es un peso que pondera de acuerdo a la cercanıa a x

Page 12: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Promedio pesadoPor lo tanto, si consideramos el nucleo rectangular K(t) = I[−1,1](t)

P(Y = 1 | X = x) =

n∑i=1

Yi K

(x−Xi

h

)n∑

i=1

K

(x−Xi

h

)Observemos que

n∑i=1

Yi K

(x−Xi

h

)n∑

i=1

K

(x−Xi

h

) =

n∑i=1

YiK(x−Xi

h

)∑ni=1K

(x−Xi

h

)︸ ︷︷ ︸qWi

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

donde Wi(x) es un peso que pondera de acuerdo a la cercanıa a x

Page 13: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Yendo un poco mas lejos

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

Esta idea de estimar mediante un promedio pesado que pondera deacuerdo a la cercanıa a x se puede usar para ir mas lejos....

Supongamos ahora que Y es continua y esta relacionada con X a travesde una funcion r

Y = r(X) + ε

y que observamos datos (x1, y1), . . . , (xn, yn) que al realizar el diagramade dispersion (o scatterplot) resultan en la siguiente grafica.

Page 14: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Yendo un poco mas lejos

P(Y = 1 | X = x) =

n∑i=1

Yi Wi(x)

Esta idea de estimar mediante un promedio pesado que pondera deacuerdo a la cercanıa a x se puede usar para ir mas lejos....

Supongamos ahora que Y es continua y esta relacionada con X a travesde una funcion r

Y = r(X) + ε

y que observamos datos (x1, y1), . . . , (xn, yn) que al realizar el diagramade dispersion (o scatterplot) resultan en la siguiente grafica.

Page 15: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado
Page 16: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Consideremos un punto arbitrario x0

Page 17: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Consideremos un entorno alrededor de x0

Page 18: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Promediamos los puntos del entorno alrededor de x0

Page 19: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Repetimos eligiendo puntos x0 a lo largo del eje x

Page 20: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Repetimos eligiendo entornos mas anchos (curva roja)

Page 21: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado
Page 22: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Estimador No Parametrico de la RegresionEstimador de Nadaraya–Watson (1964)

Y y X relacionadas mediante una funcion de regresion r

Y = r(X) + ε E[ε] = 0

(X1, Y1), . . . , (Xn, Yn) vectores aleatorios independientes

Yi = r(Xi) + εi E[εi] = 0

Dado x⇒ r(x) =?

rh(x) =

n∑i=1

YiK(x−Xih

)∑n

i=1K(x−Xih

)=

n∑i=1

Yi Wi(x)

Page 23: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Tipos de nucleos

Nucleo Rectangular: K(t) = 12I[−1,1](t)

Nucleo Triangular: K(t) = (1− |t|)I[−1,1](t)

Nucleo Gausssiano: K(t) = 1√2πe−

12t2

Nucleo Epanechnikov: K(t) = 34(1− t

2)I[−1,1](t)

Page 24: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Estimador de Nadaraya–Watson (1964)

Estimador No Parametrico de la Regresion de N-W:

rh(x) =

n∑i=1

YiK(x−Xi

h

)∑ni=1K

(x−Xi

h

) =

n∑i=1

Yi Wi(x)

rh(x) resulta un promedio de las observaciones Yi ponderadolocamente por el peso Wi(x).

Wi(x) ≥ 0 y∑

i=1Wi(x) = 1

Se puede demostrar que

rh(x) = argmina∈R

n∑i=1

Wi(x) (Yi − a)2

Page 25: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Efecto de la ventana

Page 26: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Comandos de R

LIDAR - Light detection and rangingLIDAR es una tecnica que usa la reflexion de un haz de rayos laser paradetectar compuestos quımicos en la atmosfera.

range: es la distancia que recorre la luz antes de ser reflejada a sufuente.

logratio: es el cociente de luz recibida desde dos fuentes de laser

setwd ( ”C:\\ Use r s\\Ana\\Dropbox\\ l a nueva\\ c l a s e s f undamen to s\\nopar ” )LIDAR<−read . t a b l e ( ”C:\\ Use r s\\Ana\\Nonparametr i c\\TALLER\\ l i d a r . t x t ” , heade r=TRUE)

rango<−LIDAR$ rangel o g r a t i o<−LIDAR$ i n t . conc

p l o t ( range , l o g r a t i o )t i t l e ( ”LIDAR : Est imador N−W”)

l i n e s ( ksmooth ( rango , l o g r a t i o , ” normal ” , bandwidth=30) , lwd=5, c o l=” b lu e ” )

l i n e s ( ksmooth ( rango , l o g r a t i o , ” normal ” , bandwidth=50) , lwd=5, c o l=”magenta” )

l i n e s ( ksmooth ( rango , l o g r a t i o , ” normal ” , bandwidth=70) , lwd=5, c o l=” green ” )

# para c a l c u l a r e l e s t imado r de N−Y en x=200ksmooth ( rango , l o g r a t i o o , x . p o i n t s =200 , bandwidth=ventanas [ j ] )

Page 27: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado
Page 28: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Prediccion

Explicitamos la dependencia del peso respecto de h

Wi,h(x) =K(x−Xi

h

)∑ni=1K

(x−Xi

h

)

Mediante el estimador de N–W para cada Yi obtenemos un valorpredicho:

Yi,h = rh(Xi) =n∑

j=1

YjK(

Xi−Xj

h

)∑n

j=1K(

Xi−Xj

h

) =n∑

j=1

Yj Wj,h(Xi)

i−esimo Error de Prediccion:

Yi − Yi,h = Yi − rh(Xi)

Page 29: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Prediccion

Explicitamos la dependencia del peso respecto de h

Wi,h(x) =K(x−Xi

h

)∑ni=1K

(x−Xi

h

)Mediante el estimador de N–W para cada Yi obtenemos un valorpredicho:

Yi,h = rh(Xi) =

n∑j=1

YjK(

Xi−Xj

h

)∑n

j=1K(

Xi−Xj

h

)

=n∑

j=1

Yj Wj,h(Xi)

i−esimo Error de Prediccion:

Yi − Yi,h = Yi − rh(Xi)

Page 30: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Prediccion

Explicitamos la dependencia del peso respecto de h

Wi,h(x) =K(x−Xi

h

)∑ni=1K

(x−Xi

h

)Mediante el estimador de N–W para cada Yi obtenemos un valorpredicho:

Yi,h = rh(Xi) =

n∑j=1

YjK(

Xi−Xj

h

)∑n

j=1K(

Xi−Xj

h

) =

n∑j=1

Yj Wj,h(Xi)

i−esimo Error de Prediccion:

Yi − Yi,h = Yi − rh(Xi)

Page 31: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Prediccion

Explicitamos la dependencia del peso respecto de h

Wi,h(x) =K(x−Xi

h

)∑ni=1K

(x−Xi

h

)Mediante el estimador de N–W para cada Yi obtenemos un valorpredicho:

Yi,h = rh(Xi) =

n∑j=1

YjK(

Xi−Xj

h

)∑n

j=1K(

Xi−Xj

h

) =

n∑j=1

Yj Wj,h(Xi)

i−esimo Error de Prediccion:

Yi − Yi,h = Yi − rh(Xi)

Page 32: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Eleccion de la ventana: Convalidacion CruzadaMetodo de leave–one–out

i−esimo Error Cuadratico de Prediccion:

(Yi − Yi,h)2 = (Yi − rh(Xi))2

Error Cuadratico de Prediccion Promediado:

ECPP (h) =1

n

n∑i=1

(Yi − Yi,h)2 =1

n

n∑i=1

(Yi − rh(Xi))2

Perdida de Convalidacion Cruzada

CV (h) =n∑

i=1

(Yi − rh,−i(Xi))2

donde

rh,−i(Xi) =∑j 6=i

YjK(

Xi−Xj

h

)∑

j 6=iK(

Xi−Xj

h

)

Page 33: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Eleccion de la ventana: Convalidacion CruzadaMetodo de leave–one–out

i−esimo Error Cuadratico de Prediccion:

(Yi − Yi,h)2 = (Yi − rh(Xi))2

Error Cuadratico de Prediccion Promediado:

ECPP (h) =1

n

n∑i=1

(Yi − Yi,h)2 =1

n

n∑i=1

(Yi − rh(Xi))2

Perdida de Convalidacion Cruzada

CV (h) =

n∑i=1

(Yi − rh,−i(Xi))2

donde

rh,−i(Xi) =∑j 6=i

YjK(

Xi−Xj

h

)∑

j 6=iK(

Xi−Xj

h

)

Page 34: Vayamos un poco para atr asa Clasi caci on regresion NP.pdfEl m etodo de k Vecinos m as cercanos es uno de los m etodos existentes para estimar la distribuci on condicional de Y dado

Eleccion de la ventana: Convalidacion CruzadaMetodo de leave–one–out

Perdida de Convalidacion Cruzada

CV (h) =1

n

n∑i=1

(Yi − rh,−i(Xi))2

donde

rh,−i(Xi) =∑j 6=i

YjK(

Xi−Xj

h

)∑

j 6=iK(

Xi−Xj

h

)Ventana de Convalidacion Cruzada

hCV = argminh

1

n

n∑i=1

(Yi − rh,−i(Xi))2