単語コレクター(文章自動校正器)
Post on 13-Jan-2017
1.662 Views
Preview:
TRANSCRIPT
単語コレクター(文章自動校正器)
チーム ML
中 翔吾大郷 友海
動機
● 作成した文章が正しい日本語を使っているか自動で校正してほしい
– 人手で確認するのが面倒&抜けが出てくる可能性も・・・
そこでJubatusと読売新聞データを使って自動校正しようと思った!– ただし、新聞記事の本文は正しい日本語が使われているものと仮定
– 今回は読売新聞データをつかっているので、新米記者が書いた記事を自動校正することを想定
– 名前の意味:単語をcorrect(正しい)にする、collect(集める)
アーキテクチャ(学習)
Jubatus(分類)読売新聞
データ.txt Mecab単語群
語彙数のクラスに分類
アーキテクチャ(使用時)
Jubatus(分類)入力文章.txt Mecab
単語群 分類された単語を結合
出力文章.txt
入力データ
mecabで分かち書きした単語を、
1単語タイプ=1クラスラベルとして学習
分類結果
[結果] : [入力]
入力自身と同じラベルのクラスに分類された。
分類結果②[結果] : [入力]
(課題1)望む出力:「ほんま」→「本当」
・「ほんま」が学習データに含まれていた場合、 出力が修正されない(「ほんま」→「ほんま」)
課題
(課題2):「晴れ」→「定例」「今日は」→「定例」「とっても」→「定例」
・学習した単語数が少ないと、不明な分類結果となる
課題
(課題3):「し」→「し」「ます」→「ます」「た」→「た」
望ましい出力: 「し」→「し」 「ます」→「まし」 「た」→「た」
・ 単語に分割して直接入力しているため、前後の単語を考慮せずに最小の単語で分類されてしまう。
そこで・・・
課題
(課題3):「し」→「し」「ます」→「ます」「た」→「た」
入力単語を2単語一組として結合して学習する
例:
分類結果③
[結果] : [入力]
「しまし」を学習することはできた
まとめ
・単語自身を学習することができた
・近い単語の分類(=校正)については未確認
・単語のみの学習では不十分
→前後の文脈(単語の使用方法)を考慮
→入力を文章にする、idf等のデータ変換方法の検証
が必要
top related