単語コレクター（文章自動校正器）

チーム ML

中翔吾大郷友海

動機

● 作成した文章が正しい日本語を使っているか自動で校正してほしい

– 人手で確認するのが面倒&抜けが出てくる可能性も・・・

そこでJubatusと読売新聞データを使って自動校正しようと思った！– ただし、新聞記事の本文は正しい日本語が使われているものと仮定

– 今回は読売新聞データをつかっているので、新米記者が書いた記事を自動校正することを想定

– 名前の意味：単語をcorrect(正しい)にする、collect(集める)

アーキテクチャ(学習)

Jubatus(分類)読売新聞

データ.txt Mecab単語群

語彙数のクラスに分類

アーキテクチャ(使用時)

Jubatus(分類)入力文章.txt Mecab

単語群分類された単語を結合

出力文章.txt

入力データ

mecabで分かち書きした単語を、

１単語タイプ＝１クラスラベルとして学習

分類結果

[結果]　：　[入力]

入力自身と同じラベルのクラスに分類された。

分類結果②[結果]　：　[入力]

（課題１）望む出力：「ほんま」→「本当」

　・「ほんま」が学習データに含まれていた場合、　出力が修正されない（「ほんま」→「ほんま」）

課題

（課題２）：「晴れ」→「定例」「今日は」→「定例」「とっても」→「定例」

　・学習した単語数が少ないと、不明な分類結果となる

課題

（課題３）：「し」→「し」「ます」→「ます」「た」→「た」

　望ましい出力：「し」→「し」　「ます」→「まし」　「た」→「た」

　・単語に分割して直接入力しているため、前後の単語を考慮せずに最小の単語で分類されてしまう。

そこで・・・

課題

（課題３）：「し」→「し」「ます」→「ます」「た」→「た」

入力単語を２単語一組として結合して学習する

例：

分類結果③

[結果]　：　[入力]

「しまし」を学習することはできた

まとめ

・単語自身を学習することができた

・近い単語の分類（＝校正）については未確認

・単語のみの学習では不十分

→前後の文脈（単語の使用方法）を考慮

→入力を文章にする、idf等のデータ変換方法の検証

が必要

単語コレクター（文章自動校正器）

Engineering

研究社 - homeアクセントとリズム 71 第 10 章...

ちょっとかっこいい教養語ラテン語の単語1...

ラテン語宗教曲、単語の意味と日本語訳jfly.uni-koeln.de/music/musica_sacra.pdfラテン語宗教曲、単語の意味と日本語訳...

20130123 プログラマーのための語源英単語

k 単語近接検索について

ぁ単語のお仕事単語カウント編

歯科英語単語文字、単語再修正版 2018．7.31 1...

useful japanese vocabulary in daily life 日本語単語集

第3章英語単語辞書 - nict · _____...

単語リスト（アイヌ語・日本語） - frpac.or.jp...

新hsk単語リスト - only語学塾

．岡山大学文学部履修細則€¦ ·...

収録英単語索引 - uryu＆itoga...1...

『どんどん解ける！ドイツ語ドリル』単語リスト...

『英単語ターゲット1400[5訂版]』パターン1（ヘッ...

語彙習得における負の転移を抑えた...

⽇本語の単語分割...

日本語簡単ガイド ingest...

2001年初版発行 2010年第2版発行単語見出し...

そんな方に送る、単語帳を一切使わない...