初心者向け「凛ちゃん」

33
初心者向け「凛ちゃん」 〜凛ちゃんと戯れる〜

Upload: johnsmith

Post on 18-Jul-2015

538 views

Category:

Data & Analytics


0 download

TRANSCRIPT

初心者向け「凛ちゃん」〜凛ちゃんと戯れる〜

自己紹介

じょんすみす(ひらがな) これ→

@__john_smith__

※フォローしないこと推奨

どこにでもいる普通のアル中

願望

北海道帰りたい

彼女欲しい

彼女欲しい

凛ちゃんとは

凛ちゃんとは何者なのか?

凛ちゃんとは

凛ちゃんとは何者なのか?

http://www.lovelive-anime.jp/member/member05.html

凛ちゃんとは

凛ちゃんとは何者なのか?

←凛ちゃん?

http://www.lovelive-anime.jp/member/member05.html

凛ちゃんとは

凛ちゃんとは何者なのか?

←凛ちゃん?

凛ちゃんと言えばラブライブ!の星空凛ちゃんのことですね

http://www.lovelive-anime.jp/member/member05.html

凛ちゃんとは

凛ちゃんとは何者なのか?

←凛ちゃん?

凛ちゃんと言えばラブライブ!の星空凛ちゃんのことですね

個人の感想ですが!!

http://www.lovelive-anime.jp/member/member05.html

凛ちゃんとは

凛ちゃんとは何者なのか?

←凛ちゃん?

凛ちゃんと言えばラブライブ!の星空凛ちゃんのことですね

個人の感想ですが!!

http://www.lovelive-anime.jp/member/member05.html

何が問題か

凛ちゃんってまじかわいいよね

そうそう、あのシーンがアレでこのシーンがこれで…ブツブツ

あれ?俺の知ってる凛ちゃんと違う

凛ちゃん素人

凛ちゃん界の重鎮

何が問題か

凛ちゃんってまじかわいいよね

そうそう、あのシーンがアレでこのシーンがこれで…ブツブツ

あれ?俺の知ってる凛ちゃんと違う

凛ちゃん素人

凛ちゃん界の重鎮

俺の知ってる凛ちゃんと違う

凛ちゃん問題

そう、「凛ちゃん」という名前のキャラはいっぱいいる

凛ちゃん問題

そう、「凛ちゃん」という名前のキャラはいっぱいいる↓

初心者のためのフォローが必要となる

凛ちゃん問題

そう、「凛ちゃん」という名前のキャラはいっぱいいる↓

初心者のためのフォローが必要となる↓

文脈からどの凛ちゃんの話か推定しよう

凛ちゃん問題

そう、「凛ちゃん」という名前のキャラはいっぱいいる↓

初心者のためのフォローが必要となる↓

文脈からどの凛ちゃんの話か推定しよう←イマココ

今回の凛ちゃん

http://www.lovelive-anime.jp/member/member05.htmlhttp://www.mbga.jp/_game_intro?game_id=12008305http://www.fate-sn.com/chara/http://iwatobi-sc.com/#x-character

星空凛

今回の凛ちゃん

http://www.lovelive-anime.jp/member/member05.htmlhttp://www.mbga.jp/_game_intro?game_id=12008305http://www.fate-sn.com/chara/http://iwatobi-sc.com/#x-character

星空凛 渋谷凛

今回の凛ちゃん

http://www.lovelive-anime.jp/member/member05.htmlhttp://www.mbga.jp/_game_intro?game_id=12008305http://www.fate-sn.com/chara/http://iwatobi-sc.com/#x-character

星空凛 渋谷凛

遠坂凛

そして、もちろん!

今回の凛ちゃん

http://www.lovelive-anime.jp/member/member05.htmlhttp://www.mbga.jp/_game_intro?game_id=12008305http://www.fate-sn.com/chara/http://iwatobi-sc.com/#x-character

星空凛 渋谷凛

遠坂凛

松岡凛

凛ちゃん情報

2chの各凛ちゃんについて語られているスレ

作品自体のスレ、複数キャラや凛ちゃん同士の比較スレは使わない

1000まで行ったものを2スレッド分使用

凛ちゃんごと2000件のデータ

URLやアンカーは削除

その結果何も残らなかったものはそれ自体削除

7600件くらいまで減った

AAはあえて残してみる

ぶんるい!

SVM

文書分類ならやっぱりlinear kernel!

Term Matrixつくりませう

Mecab neologd便利だよ♪

ぶんるい!

正解率 68%

トレーニング6000件、テスト1600件

そこそこ分類できているご様子

星空 渋谷 遠坂 松岡

星空 278 32 59 36

渋谷 56 245 84 19

遠坂 36 53 253 12

松岡 50 34 38 300

だいたいこんな感じ

これじゃつまんなくないですか?

せっかくだし俺はこのDeep Learningを選ぶぜ!

Deep Learning編

8000件しか無いデータに対してあえて

入力どうすんの?

最近はいろんな研究がある

あえてTerm Matrixそのまま

このデータ数でスパースな行列は通用するのか

決して手抜きではない

画像とかは密なデータだし自然言語でもword2vecで密なベクトルにしてたりするのへの挑戦状?

↑たぶんそういうの研究してるのは既にあると思う

要するに手抜き。Deep Learning使いたかっただけ

Deep Learning編

H2O使う(http://h2o.ai/)

Feed Forward + Back Propergation

SGD

パラメータ大杉ワロタ

層・ユニット数、Dropout率、epoch数などなど

データ件数が少ないとはいえ、学習に時間かかる

GPUとかあればCaffeとか使いたかった

残念ながら貧乏人である

ぶんるい!

最高で正解率 62 % くらい...orz

星空 渋谷 遠坂 松岡

星空 296 99 69 68

渋谷 35 181 40 34

遠坂 31 101 228 41

松岡 43 23 17 279

ぶんるい!

パラメータいぢってる感じだとまだ向上しそう

層の数はあまり影響してない?

TanhよりRectifierの方がよさげ

Maxoutもやってみているが計算時間ががががが

Dropoutはさせればさせるほど悪くなりました!

イテレーション回数増やすとよくなっていくのでたぶんまだ収束してない

Autoencoderダメでした

計算量増やすとJVM死ぬのが一番つらいです!

やってみる

そして、ついに結論を出すときがきた

で、結局いちばんかわいい凛ちゃんはだれなの?

を予測してみる。

やってみる

そして、ついに結論を出すときがきた

で、結局いちばんかわいい凛ちゃんはだれなの?

を予測してみる。

結果…

やってみる

そして、ついに結論を出すときがきた

で、結局いちばんかわいい凛ちゃんはだれなの?

を予測してみる。

結果…

星空凛ちゃんでした!!

出力層4つのsoftmaxで0.8以上だったので圧勝!

けつろん!

黙ってSVM使っとけ

Dropoutしない方がいい場合もあるっぽい

非力な環境しか無い人は詰む

賢いかわいいエリーチカ

余談

word2vecで密なデータに変換してごにょごにょしてますが、今のところ全くうまくいってません。

単語や文字の特徴をどうどうやって文章の特徴に変換しようか…