単語コレクター(文章自動校正器)

12
単語コレクター (文章自動校正器) チーム ML 中 翔吾 大郷 友海

Upload: jubatusofficial

Post on 13-Jan-2017

1.662 views

Category:

Engineering


0 download

TRANSCRIPT

Page 1: 単語コレクター(文章自動校正器)

単語コレクター(文章自動校正器)

チーム ML

中 翔吾大郷 友海

Page 2: 単語コレクター(文章自動校正器)

動機

● 作成した文章が正しい日本語を使っているか自動で校正してほしい

– 人手で確認するのが面倒&抜けが出てくる可能性も・・・

そこでJubatusと読売新聞データを使って自動校正しようと思った!– ただし、新聞記事の本文は正しい日本語が使われているものと仮定

– 今回は読売新聞データをつかっているので、新米記者が書いた記事を自動校正することを想定

– 名前の意味:単語をcorrect(正しい)にする、collect(集める)

Page 3: 単語コレクター(文章自動校正器)

アーキテクチャ(学習)

Jubatus(分類)読売新聞

データ.txt Mecab単語群

語彙数のクラスに分類

Page 4: 単語コレクター(文章自動校正器)

アーキテクチャ(使用時)

Jubatus(分類)入力文章.txt Mecab

単語群 分類された単語を結合

出力文章.txt

Page 5: 単語コレクター(文章自動校正器)

入力データ

mecabで分かち書きした単語を、

1単語タイプ=1クラスラベルとして学習

Page 6: 単語コレクター(文章自動校正器)

分類結果

[結果] : [入力]

入力自身と同じラベルのクラスに分類された。

Page 7: 単語コレクター(文章自動校正器)

分類結果②[結果] : [入力]

Page 8: 単語コレクター(文章自動校正器)

(課題1)望む出力:「ほんま」→「本当」

 ・「ほんま」が学習データに含まれていた場合、 出力が修正されない(「ほんま」→「ほんま」)

課題

(課題2):「晴れ」→「定例」「今日は」→「定例」「とっても」→「定例」

 ・学習した単語数が少ないと、不明な分類結果となる

Page 9: 単語コレクター(文章自動校正器)

課題

(課題3):「し」→「し」「ます」→「ます」「た」→「た」

 望ましい出力: 「し」→「し」 「ます」→「まし」 「た」→「た」

 ・ 単語に分割して直接入力しているため、前後の単語を考慮せずに最小の単語で分類されてしまう。

そこで・・・

Page 10: 単語コレクター(文章自動校正器)

課題

(課題3):「し」→「し」「ます」→「ます」「た」→「た」

入力単語を2単語一組として結合して学習する

例:

Page 11: 単語コレクター(文章自動校正器)

分類結果③

[結果] : [入力]

「しまし」を学習することはできた

Page 12: 単語コレクター(文章自動校正器)

まとめ

・単語自身を学習することができた

・近い単語の分類(=校正)については未確認

・単語のみの学習では不十分

→前後の文脈(単語の使用方法)を考慮

→入力を文章にする、idf等のデータ変換方法の検証

が必要