computational linguistics week 10

Computa(onal Linguis(cs Week 10

Neural Sequence Modeling

Mark Chang

Outlines

•  Recurrent Neural Networks •  Long short-‐term Memory •  Neural Turing Machine •  Applica(ons

Recurrent Neural Networks

短期記憶

白日依山盡，黃河入海流

白日

白日依

白日依山

短期記憶

白 n(白)

日 n(日)

Recurrent Neural Network

日 n(n(白),日)

n(白)

依 n(n(n(白),日),依)

類神經網路到深度學習

Feedforward Neural Network Recurrent Neural Network

Long Short Term Memory Neural Turing Machine

out,t�1 + w

�nin,t

把上一個時間點的nout，接回這個時間點的nin

x0 x1 xt-‐1 xt

y0 y1 yt-‐1 yt

Backward Propaga(on Through Time

�in,0 =

@nout,0

@nin,0

= �out,0

@nout,0

@nin,0

t = 1 �in,0=

@nout,1

@nin,1

@nout,0

@nin,0

=�out,1

@nout,1

@nin,1

@nout,0

@nin,0

=�in,1

@nin,1

@nout,0

@nin,0

=�out,0

@nout,0

@nin,0

Backward Propaga(on Through Time

�in,s

@nout,s

@nin,s

if s = t

�in,s+1

@nin,s+1

@nout,s

@nin,s

otherwise

http://cpmarkchang.logdown.com/posts/278457-neural-network-recurrent-neural-network

�in,s+1�in,s

= �in,s+1

@nin,s+1

@nout,s

@nin,s

�in,t

@nout,t

@nin,t

Deep RNN

yt-‐1

xy-‐1

Bi-‐Direc(onal RNN

xt-‐1

xy-‐1

y0 y1 yt-‐1 yt

Long Short-‐Term Memory

Vanishing Gradient Problem

�in,0

�in,0 = �

@nout,t

@nin,t

@nout,t�1

@nout,0

@nin,0

�out,t

xt m yt

Memory Cell kout

Cread Cforget Cwrite

mout,t

mout,t-‐1

Cout min,t

Long Short-‐Term Memory 輸入值 Cin

讀取開關 Cread 遺忘開關 Cforget 寫入開關 Cwrite

輸出值 Cout

•  寫入開關Cwrite：控制是否可寫入記憶體

= sigmoid(wcw,x

t�1 + w

= sigmoid(wk,x

min,t = kout

Cwrite

•  遺忘開關Cforget：控制是否保留之前的值

forget

= sigmoid(wcf,x

mout,t = min,t +C

forget

mout,t�1

•  讀取開關Cread ：控制是否可讀取記憶體

= sigmoid(mout,t

= sigmoid(wcr,x

t�1 + w

= Cread

Training: Backward Propaga(on

hRp://www.felixgers.de/papers/phd.pdf

mout,t = min,t +C

forget

mout,t�1 min,t = k

Cwrite

@mout,t

+ Cforget

@mout,t�1

= Cwrite

+ Cforget

@mout,t�1

Long-‐Short Term Memory

https://class.coursera.org/neuralnets-2012-001/lecture/95

Neural Turing Machine

Input Output

Read/Write Head

controller

Memory

Memory Address

Memory Block

Block Length

0 1 … i … n

Read Opera(on

Read Opera(on:

0 00 00.9 0.1

0 1 … i … n

1 ⇤ 0.9 + 2 ⇤ 0.11 ⇤ 0.9 + 1 ⇤ 0.12 ⇤ 0.9 + 4 ⇤ 0.1

w(i) = 1, 0 w(i) 1, 8i

w(i)M(i)

Read Vector: rHead Loca(on: w

Memory : M1.1

Erase Opera(on

Erase Opera(on:

0 00 00.9 0.1

0 1 … i … n

0.1 1.8

0.2 3.6 0 e(j) 1, 8j

1(1� 0.9) 2(1� 0.1) 3 ...

1 1 2 ...

2(1� 0.9) 4(1� 0.1) 1 ...

0.1 1.8 3 ...

1 1 2 ...

0.2 3.6 1 ...

M(i) (1� w(i)e)M(i)

Head Loca(on: w

Erase Vector: e

Memory : M

Add Opera(on

Add Opera(on:

0 00 00.9 0.1

0 1 … i … n

0.1 1.8

0.2 3.6

10.2 3.6

0.1 + 0.9 1.8 + 0.1 3 ...

1.0 + 0.9 1.0 + 0.1 2 ...

0.2 3.6 1 ...

1.0 1.9 3 ...

1.9 1.1 2 ...

0.2 3.6 1 ...

M(i) M(i) + w(i)a

Add Vector: a

Memory : M

Head Loca(on: w

Controller controller

Read Vector: r

Head Loca(on: w

Output

Add Vector: aErase Vector: e

Addressing Mechanisms

Content Addressing Parameter: Interpola(on Parameter: Convolu(onal Shi^ Parameter: Sharpening Parameter:

Memory Key: k

0 0000 1

.45 .05 .50 0 0 0

0 0 0 1 0 0

Head Loca(on: w

11 2 04 0

21 3 01 1

42 1 15 0

0 00 00.9 0.1

wt�1Head Loca(on:

MMemory: Previous State

Memory Key: k

� = 50

g = 0.5

00 1s =

� = 50

Controller Outputs

Content Addressing

Interpola(on

Convolu(onal Shi^

Sharpening

Content Addressing

11 2 04 0

21 3 01 1

42 1 15 02

.16 .16 .16 .16 .16 .16 0 0000 1 .15 .10 .47 .08 .13 .17

Memory Key: kMemory : M

Head Loca(on: w

K[u,v] =u · v

|u| · |v|w(i) e�K[k,M(i)]

�K[k,M(j)]

� = 50 � = 5 � = 0

找出記憶體　中與　內容相近的位置。參數　：調整集中度

Interpola(on

0 00 00.9 0.1

0 0000 1

0 0000 1 0 00 00.9 0.1 .45 .05 .50 0 0 0

wt�1

g = 1 g = 0.5 g = 0

wt gwt + (1� g)wt�1

將讀寫頭位置　與上一個時段位置　　結合。參數　：調整目前的與上個時段的比率

wt wt�1

Convolu(onal Shi^

.45 .05 .50 0 0 0 .45 .05 .50 0 0 0

.45 .05 .50 0 0 0

.025 .475 .025 .25 0 .225

01 0 00 1 .5 0 .5

-‐1 0 1 -‐1 0 1 -‐1 0 1

s = s = s =

wi�1 wi wi+1

s1s0s�1

w(i) X

w(j)s(i� j)

w(i) w(i� 1)s(1) + w(i)s(0) + w(i+ 1)s(�1)

將　內的數值做平移。參數　：調整平移方向 s

Sharpening

0 0 0 1 0 0 0 .37 0 .62 0 0

0 .45 .05 .50 0 0

.16 .16 .16 .16 .16 .16

w(i) w(i)�Pj w(j)

� = 50 � = 5 � = 0

使　中的值更集中（或分散）。參數　：調整集中度 �

Experiment: Repeat Copy

hRps://github.com/fumin/ntm

Evolu(on of Recurrent Neural Network

Long Short Term Memory

Neural Turing Machine

短期記憶

可控制記憶體的讀寫

可更靈活地控制記憶體讀寫頭的位置

Applica(ons

Machine Transla(on

hRp://arxiv.org/pdf/1409.3215.pdf

A B C -‐> W X Y Z

Chinese Word Segmenta(on

hRp://arxiv.org/pdf/1602.04874v1.pdf

Chinese Poetry Genera(on

hRp://emnlp2014.org/papers/pdf/EMNLP2014074.pdf

Image Cap(on Genera(on

Visual Ques(on Answering

computational linguistics week 10

Technology

computational linguistics 48 morphology

topics in computational...

ΓΕ77 computational linguistics

computational linguistics - computational morphology

computational linguistics introduction

computation in computational linguistics

cpsc 503 computational linguistics

a computational linguistics approach

introduction to computational linguistics

computational 4 linguistics

introduction to computational linguistics

computational linguistics week 5

foundations of computational linguistics

computational linguistics at osu

from traditional linguistics to computational linguistics...

association for computational linguistics · american...

computational linguistics yoad winter

computational linguistics - infitt

introduction to computational semantics and its...

computational linguistics -...