極性辞書を利用した 句構造による - cl.sd.tmu...
TRANSCRIPT
極性辞書を利用した句構造による注意型ニューラル評価極性分類首都大学東京 システムデザイン研究科宮崎 亮輔, 小町 守
1
2016/07/29
研究背景
2
ユーザの投稿などのウェブ上のテキストのマイニングに,評価極性分類は重要な役割を担う
この映画がめっちゃ面白かった!
この商品思ったより使いづらいので注意
従来手法の課題
3
Nakagawaら (2010)
Socherら (2011)
Zhangら (2015)
手法:依存構造木をもとにTree-CRFによって学習課題:スパースな素性テンプレートを設計する必要
手法:句構造木をもとに再帰的ニューラルネットワークによって学習(後述)課題:部分木(句)レベルでアノテーションされたコーパスが必要
手法:StackedDenoisingAuto-Encoderによって学習課題:統語情報を考慮できない・・
・・
・・
どう克服するか
4
Nakagawaら (2010)
Zhangら (2015)
課題:スパースな素性テンプレートを設計する必要
課題:統語情報を考慮できない
ニューラルネットワークベースの手法によって克服可能
統語構造を利用した手法によって克服可能
Socherら (2011)課題:部分木(句)レベルでアノテーションされたコーパスが必要辞書やアテンションを利用して部分木の情報を補完することによって克服
・
・
・
(Socherら,Zhangらは克服)
(本研究で克服)
(Nakagawaら,Socherらは克服)
各手法の特徴
5
素性設計 統語構造句単位のアノテーション
評価極性辞書
Nakagawaら 必要 考慮 不要 あるとよい
Zhangら 不要 無視 不要 不要
Socherら 不要 考慮 必要 不要
本研究 不要 考慮 不要 あるとよい
本研究の貢献
6
1.
日本語評価極性分類において,文単位のアノテーションのみのコーパスからでも
2.
アテンション機構を適用することで,再帰的ニューラルネットワークによる学習が可能になることを示した.
評価極性辞書を効果的に利用でき,アテンション機構と同様,学習に貢献することを示した.
3. 現時点における最高精度を達成した.82.6% 84.4%NTCIR-Jの正解率
評価極性辞書を利用した句構造による注意型ニューラル評価極性分類
7
日本語の文が与えられた時に,その極性がポジティブかネガティブかの2値に分類するタスク
句構造による再帰的ニューラルネットワークがベース以下の順で説明
・ 句構造ニューラル評価極性分類
・ 句構造注意型ニューラル評価極性分類
・ 評価極性辞書を利用した句構造ニューラル評価極性分類本研究
句構造ニューラル評価極性分類
8
1. 入力文を句構造に構文解析し,2. 単語分散表現を入力とし,句構造木に沿って再帰的ニューラルネットワークで文ベクトルを計算する.
文ベクトルを入力とし,Softmax分類器で2値に分類3.
入力文 構文解析
句構造・二分木
RNN*or
Tree-LSTM
単語分散表現
文のベクトル
Softmax
*再帰的ニューラルネットワーク (RecursiveNeuralNetwork)
誤差逆伝播
誤差逆伝播法で単語分散表現まで学習4.
WikipediaWikipediaWikipedia
予測 正解
再帰的ニューラルネットワーク (Socherら,2011)
9
詐欺 を 撲滅 する
Softmax
木構造に沿ってボトムアップに句ベクトルを構成する0.80.2
句jのベクトル の構成
:重み行列:バイアスベクトル:句jの左右の子のベクトル
ルートのベクトルが文のベクトルに対応する
・
・文のベクトル
1.00.0予測
正解
Tree-LSTM(Taiら,2015)
10
フレーズの構成をLSTMユニットにする・
ゲート
hlj hrj
Cj
U
uj
U
ijtanh σ
tanh
U
ojσ
U
fjlσ
Cjl
Uσ
Cjr
fjr
hj
アノテーション単位による学習の違い
11
句単位のアノテーション 文単位のアノテーション
詐欺 を 撲滅 する
文のベクトル
・すべての句で学習を行える・ どこで反転するのかがわかる
・ 文全体のみから学習しなければならない・ どこで反転が起きたのかわからない
0.80.21.00.0
詐欺 を 撲滅 する
文のベクトル
0.80.21.00.0
0.20.80.01.0
0.20.80.01.0
0.50.50.50.5
0.50.50.50.5
0.30.70.01.0
0.30.70.01.0
句構造注意型ニューラル評価極性分類
12
詐欺 を 撲滅 する
0.5
0.5
0.00.0
アテンションベクトルRNNによるベクトル
0.80.2すべてのノードに対してアテンションを張り,RNNによるベクトルとアテンションベクトルを合わせてSoftmax分類器へ入力する.
アテンションのパラメータも同時に学習する
1.00.0予測
正解
0.0 0.0
評価極性辞書を利用した句構造ニューラル評価極性分類
13
文単位のアノテーション 句単位のアノテーション
学習の難しさ難しい
資源作成の難しさ 難しい
辞書によるアノテーション
・辞書にマッチする句(単語)に対して,対応する正解ラベルを付与
・学習データに対して適用し,評価時には利用しない
・評価極性辞書の性質上,短い句や単語に多くアノテーションされる
評価極性辞書を利用した句構造ニューラル評価極性分類
14
極性辞書によるアノテーション 文単位のアノテーション・辞書にマッチする句に対して,対応する正解ラベルを付与
詐欺 を 撲滅 する
文のベクトル
0.80.21.00.0
詐欺 を 撲滅 する
文のベクトル
0.80.21.00.0
0.20.80.01.0
実験:使用データ (Nakagawaらと同様)
15
コーパス
評価極性辞書
・ NTCIR-J(NTCIR-6,NTCIR-7の意見分析タスクのマージ)
・ 日本語評価極性辞書・ 用言編(小林ら,2005)名詞編(東山ら,2008)・
・ 文単位のアノテーション・ 10分割交差検定
ポジティブ ネガティブ 合計
997文 2400文 3397文
ポジティブ ネガティブ 合計
用言編 2108 3172 5280名詞編 3352 4958 8310合計 5460 8130 13590
ポジティブ ネガティブ合計
単語 句 単語 句
述べ 2174 328 5889 880 9271異なり 584 178 974 359 13590
評価極性辞書によるNTCIR-Jへのアノテーション数
評価極性辞書の内訳
NTCIR-Jの内訳
実験:使用ツール・ハイパーパラメータ
16
・
Ckylark (2016.07)
Chainer 1.9.0
KyTea 0.4.7word2vec(Skip-gram,windowsize:5,200dim)
単語分散表現
構文解析
実装
・・ Wikipedia(2014.11),約43万語彙
・
・ Python3.4.4・
パラメータ 値
隠れ層次元 200最適化手法 AdaDelta*荷重減衰係数 0.0001勾配クリッピング 5
ハイパーパラメータ
*Chainerのデフォルトパラメータを利用
10分割の各開発セットの正解率の平均でチューニング
実験:比較(手法)手法 概要
MFS 常に最頻出のラベルを選択する.ここではネガティブを選択
LogRes 単語分散表現を平均したベクトルを入力としたロジスティック回帰
SdA (Zhangら,2015)
単語分散表現を平均したベクトルを入力としたStackedDenoisingAuto-Encoder※ NTCIR-6のデータではNakagawaらの手法を上回っていたが,本実験ではデータが違うので数字は単純には比較できない
Tree-CRF(Nakagawaら,2010) 依存構造木の各ノードに潜在変数を持たせたTree-CRF以前のStateoftheArt
Tree-LSTM 構成部分にLSTMを利用したRNNTree-LSTMw/attention アテンション機構を適用したTree-LSTMTree-LSTMw/dictionary 評価極性辞書で教師データを拡充したTree-LSTM
Tree-LSTMw/attention,dictionary 評価極性辞書とアテンション機構を両方利用したTree-LSTM17
実験:結果
18
手法 正解率%
Tree-LSTMとの差
Tree-CRFとの差
MFS 70.4 -0.5 -12.2LogRes 77.1 +6.2 -5.5
SdA (Zhangら,2015) 81.7 +10.8 -0.9Tree-CRF(Nakagawaら,2010),以前のSoA 82.6 +11.7 -
Tree-LSTM 70.9 - -11.7Tree-LSTMw/attention 81.0 +10.1 -1.6Tree-LSTMw/dictionary 82.9 +12.0 +0.3
Tree-LSTMw/attention,dicttionary 84.4 +13.5 +1.8
考察:手法
19
MFS(0.704)≈Tree-LSTM(0.709)<LogRes (0.771)Tree-LSTM・ StanfordSentimentTreebankでは最高精度を達成している
Tree-LSTMでもMFSと同程度
提案:極性辞書・アテンションを利用する手法
句単位のアノテーションがないと学習が困難
attn (0.810)< Tree-CRF(0.826)≈dict (0.829)< attn &dict (0.844)
・ アテンションよりも極性辞書を利用した手法の方が高い精度
・ 両方利用することで最高精度RNNにおける各句に対する教師ラベルの役割が大きい
考察:事例分析(正答例)
20
政策 の 一貫 性 が 見 られ な い
N|N
0.33
0.64
P|P
正解 |予測
“一貫性”を正しくポジティブだと分類しているが,“見られない”へ強くアテンションを張ることで,最終的な文の極性を正しくネガティブだと分類できている.
・ P:ポジティブ,N:ネガティブ
・アテンションによる重みが0.1以上のノードとその重み
考察:事例分析(誤答例)
21
これ で 最悪 事態 は 回避 でき た
N|Nひとまず
N|N
P|N
0.24 0.15
0.28
0.280.006
“最悪事態”を正しくネガティブだと分類できているが,文後半の”回避できた”へのアテンションの重みが小さいためか,最終的に文の極性の分類を間違えている.
正解 |予測
・ P:ポジティブ,N:ネガティブ
・アテンションによる重みが0.1以上のノードとその重み
まとめ
22
1.
日本語評価極性分類において,文単位のアノテーションのみのコーパスからでも
2.
アテンション機構を適用することで,RNNによる学習が可能になることを示した.
評価極性辞書を効果的に利用でき,アテンション機構と同様,学習に貢献することを示した.
3. 現時点における最高精度を達成した.82.6% 84.4%NTCIR-Jの正解率
展望
23
StanfordSentimentTreebankなどのデータセットを用いて,句単位のアノテーションの有無による結果の比較実験・
・ 分類時ではなく構成関数へのアテンション機構の適用の検討
・ 分類時のアテンション機構は,反転などの操作を捉えているわけではない
・ RNNによる句ベクトルの構成にそのような操作を期待
もらったコメント
24