pln entropía1 teoría de la información entropía información mutua entropía y pln

21
PLN entropía 1 Teoría de la Información Teoría de la Información Entropía Información mutua Entropía y PLN

Upload: hilario-pavon

Post on 24-Jan-2016

246 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 1

Teoría de la Información

• Teoría de la Información• Entropía• Información mutua• Entropía y PLN

Page 2: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 2

Valor esperado

• Dada una variable aleatoria X que toma valores x1, x2, ..., xn en un dominio de acuerdo con una distribución de probabilidad, podemos definir el valor esperado de X como la suma de los valores ponderados con su probabilidad

• E(X) = p(x1)X(x1) + p(x2)X(x2) + ... p(xn)X(xn)

Page 3: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 3

Teoría de la Información 1

• Nos interesa asociar a cada evento la cantidad de información que contiene

• Shannon en los 40s• Maximizar la cantidad de información que puede

transmitirse por un canal de comunicación imperfecto.• Nivel de compresión de los datos (entropía)• Cantidad de información que se transmite (capacidad del

canal)

Page 4: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 4

Teoría de la Información 2

• Dos requisitos de tipo estadístico:• Significancia: cuanto más improbable es un evento más

información lleva

• P(x1) > P(x2) ==> I(x2) < I(x1)

• Aditividad: si x1 y x2 son eventos independentientes:

• I(x1x2) = I(x1) + I(x2)

Page 5: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 5

Teoría de la Información 3

• I(m) = 1/p(m) no los satisface• I(x) = - log p(x) si los satisface• Cantidad de información:

• I(X) = - log p(X)

Page 6: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 6

Entropía 1

• variable aleatoria X, descrita por p(X), cantidad de información I

• Entropía: Valor esperado de la cantidad de información

• La Entropía mide la cantidad de información de una variable aleatoria. Podemos considerarla como la longitud media del mensaje necesario para transmitir un valor de dicha variable usando una codificación óptima.

• La entropía mide el grado de desorden de la variable aleatoria.

p(x)p(x)logH(X)H(p)Xx

2

Page 7: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 7

Entropía 2

• Distribución uniforme de una variable X.• Cada valor xi X con |X| = M tiene la misma probabilidad pi = 1/M

• Si codificamos el valor xi en binario necesitaremos log2 M bits de información

• Distribución no uniforme. • por analogía

• Supongamos ahora que cada valor xi tiene la probabilidad pi

• Supongamos que las pi son independientes

• Haciendo Mpi = 1/ pi necesitaremos log2 Mpi = log2 (1/ pi ) = - log2 pi bits de información.

Page 8: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 8

¿X = a?

¿X = b?

¿X = c?

a

b

c a

si

si

si

no

no

no

Número medio de preguntas: 1.75

ejemplo de Entropía 1

Consideremos el caso X ={a, b, c, d} tal que pa = 1/2; pb = 1/4; pc = 1/8; pd = 1/8

entropía(X) = valor esperado de la cantidad de información necesaria para representarlo=-1/2 log2 (1/2) -1/4 log2 (1/4) -1/8 log2 (1/8) -1/8 log2 (1/8) = 7/4 = 1.75 bits

determinación del valor de X con el mínimo número de preguntas binarias

Page 9: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 9

ejemplo de Entropía 2

Supongamos ahora una distribución binomial de XX = 0 con probabilidad pX = 1 con probabilidad (1-p)

H(X) = -p log2 (p) -(1-p) log2 (1-p)

p = 0 => 1 - p = 1 H(X) = 0p = 1 => 1 - p = 0 H(X) = 0p = 1/2 => 1 - p = 1/2 H(X) = 1

0 1/2 1 p

1

0

H(Xp)

Page 10: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 10

Entropía 3

p(x)1

log E

p(x)1

p(x)log

p(x)p(x)logH(X)

2

Xx2

Xx2

1p(X)0H(X)

0H(X)

Page 11: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 11

Entropía 4

• La entropía conjunta (joint entropy) de 2 variables aleatorias, X, e Y, es la cantidad media de información necesaria en media para especificar los dos valores

Xx y

Y)y)logp(X,p(x,Y)H(X,Y

Page 12: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 12

Entropía 5

• La entropía condicional (conditional entropy) de una variable aleatoria Y dada otra X, expresa cuánta información extra se necesita comunicar Y en media cuando se supone que el receptor ya conoce X.

X)|logp(YE x)|y)logp(yp(x,

x)|x)logp(y|p(yp(x)

x)X|p(x)H(YX)|H(Y

Xx Yy

Xx Yy

Xx

Page 13: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 13

Entropía 6

P(A,B) = P(A|B)P(B) = P(B|A)P(A)

P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..)

Regla de la cadena para probabilidades

Page 14: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 14

Entropía 7

X)|H(YH(X) Y)H(X,

),...XX|H(X....)X|H(X)H(X)X...,H(X 1n1n121n1,

Regla de la cadena para entropía

Page 15: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 15

Información mutua 1

• I(X,Y) es la información mutua entre X e Y. • Mide la reducción de incertidumbre de una variable aleatoria

X al conocer el valor de otra• También mide la cantidad de información que una variable

posee de la otra

Y)I(X, X)|H(Y -H(Y) Y)|H(X-H(X)

Y)|H(XH(Y) X)|H(YH(X) Y)H(X,

Page 16: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 16

Información mutua 2

• I vale 0 sólo cuando X e Y son independientes:• H(X|Y)=H(X)

• H(X)=H(X)-H(X|X)=I(X,X) • La Entropía es la autoinformación (información mutua de

X y X)

X)|H(Y -H(Y) Y)|H(X-H(X) Y)I(X,

Page 17: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 17

Entropía y PLN 1

• La Entropía es una medida de incertidumbre. Cuanto más sabemos de un evento menor es su entropía.

• Si un LM captura más de la estructura de un lenguaje menor será su entropía.

• Podemos usar la entropía como una medida de la calidad de nuestros modelos.

Page 18: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 18

Entropía y PLN 2

• H: entropía de un languaje L• Desconocemos p(X)• Supongamos que nuestro LM es q(X) • ¿ Cómo de bueno es q(X) como estimación

de p(X) ?

p(x)p(x)logH(X)H(p)Xx

2

Page 19: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 19

Entropía y PLN 3

Xxp q(x)

1p(x)log

q(X)

1logE q) CH(p;

Cross Entropy

Media de la "sorpresa" de un modelo q cuando describe eventos sujetos a una distribución p

Page 20: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 20

Entropía y PLN 3

q(x)

p(x)p(x)log

q(X)

p(X)logEq) ||D(p

Xxp

Entropía Relativa o divergencia de Kullback-Leibler (KL)

H(p) q)CH(p;q) ||D(p

Page 21: PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 21

Entropía y PLN 4

• Mide la diferencia entre dos distribuciones de probabilidad

• Número medio de bits que se desperdician codificando un evento que tiene una distribución p con un código basado en una distribución q aproximada.

• Objetivo: minimizar la entropía relativa D(p||q) para tener un modelo lo más preciso posible

Entropía Relativa o divergencia de Kullback-Leibler (KL)