単語コレクター（文章自動校正器）

単語コレクター（文章自動校正器）チーム ML 中翔吾大郷友海

Upload: jubatusofficial

Post on 13-Jan-2017

1.662 views

Category:

Engineering

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

単語コレクター（文章自動校正器）

チーム ML

中翔吾大郷友海

動機

● 作成した文章が正しい日本語を使っているか自動で校正してほしい

– 人手で確認するのが面倒&抜けが出てくる可能性も・・・

そこでJubatusと読売新聞データを使って自動校正しようと思った！– ただし、新聞記事の本文は正しい日本語が使われているものと仮定

– 今回は読売新聞データをつかっているので、新米記者が書いた記事を自動校正することを想定

– 名前の意味：単語をcorrect(正しい)にする、collect(集める)

アーキテクチャ(学習)

Jubatus(分類)読売新聞

データ.txt Mecab単語群

語彙数のクラスに分類

アーキテクチャ(使用時)

Jubatus(分類)入力文章.txt Mecab

単語群分類された単語を結合

出力文章.txt

入力データ

mecabで分かち書きした単語を、

１単語タイプ＝１クラスラベルとして学習

分類結果

[結果]　：　[入力]

入力自身と同じラベルのクラスに分類された。

分類結果②[結果]　：　[入力]

（課題１）望む出力：「ほんま」→「本当」

　・「ほんま」が学習データに含まれていた場合、　出力が修正されない（「ほんま」→「ほんま」）

課題

（課題２）：「晴れ」→「定例」「今日は」→「定例」「とっても」→「定例」

　・学習した単語数が少ないと、不明な分類結果となる

課題

（課題３）：「し」→「し」「ます」→「ます」「た」→「た」

　望ましい出力：「し」→「し」　「ます」→「まし」　「た」→「た」

　・単語に分割して直接入力しているため、前後の単語を考慮せずに最小の単語で分類されてしまう。

そこで・・・

課題

（課題３）：「し」→「し」「ます」→「ます」「た」→「た」

入力単語を２単語一組として結合して学習する

例：

分類結果③

[結果]　：　[入力]

「しまし」を学習することはできた

まとめ

・単語自身を学習することができた

・近い単語の分類（＝校正）については未確認

・単語のみの学習では不十分

→前後の文脈（単語の使用方法）を考慮

→入力を文章にする、idf等のデータ変換方法の検証

が必要

FA現場単語集 - MITSUBISHI ELECTRIC GLOBAL · PDF filefa各現場ですぐ使える実践単語（約250語）について日本語・英語対訳を収録しております。

平家物語単語使用度数表 - zjgsu.edu.cnryxy.zjgsu.edu.cn/webedit/UploadFile/201231214411646.doc · Web view平家物語単語使用度数表凡例依拠テキスト『平家物語総索引』

Introducing the Word Engine - 英単語、TOEIC単語 ... · 787,382-word TOEIC corpus. 7,278 different words constitute 100% of all words occurring. ... Top Universities The Economist

基本用語辞典の読み方œŸ木基本用語辞典.pdf · 2 基本用語辞典の読み方 ( ) ：直前の単語の略称または記号です。 [ ] ：直前の単語の単位です。

語彙習得における負の転移を抑えた語彙間ネットワークの実践 · 本発表では、語彙学習の単位は単語ではなく、語彙ネットワーク（lexical

単語の共起関係と構文情報を利用した単語階層関係の統計的 …単語に後接する形態素の確率ベクトル (1)説明文中の見出し語の上位語・下位語

ラテン語宗教曲、単語の意味と日本語訳jfly.uni-koeln.de/music/musica_sacra.pdfラテン語宗教曲、単語の意味と日本語訳目次はじめに 1 第1章ミサ

歯科英語単語文字、単語再修正版 2018．7.31 1 kai1 - Chiba ...ランパントカリエス：odonto clasia, rampant caries, 乱暴な、行き当たりばったりの：

ぁ単語のお仕事単語カウント編

英単語を自由に追加出来る英単語学習ゲーム WORD BRIDGE＋』 …kishimotolab.sakura.ne.jp/nextgamification/pdf/sotsuron_murakami_170228.pdf · 英単語を自由に追加出来る英単語学習ゲーム

NLP - phontron.com · 2 nlpプログラミング勉強会4 – 単語分割単語分割とは日本語や中国語、タイ語などは英語と違って単語の間

歯科英語単語文字、単語再修正版 2018．7.31 1 kai1 - Chiba ...亜鉛：zinc (Zn.), 亜鉛セメント：zinc cement,亜鉛化ユージノールセメント：zinc oxide-eugenol

ちょっとかっこいい教養語ラテン語の単語1 ちょっとかっこいい教養語 – ラテン語の単語 2002.5.1 （Last appended: 2018/3/20）西田巌 I.Nishida

単語リスト（アイヌ語・日本語） - frpac.or.jp · PDF file「からふとのアイヌご」「初級アイヌ語－カラフト－」「中級アイヌ語－カラフト－」

超楽々暗記中国語単語入門編② 単語チェックリスト（日本語 ...超楽々暗記中国語単語入門編② 単語チェックリスト（日本語→中国語）

Useful Japanese Vocabulary in Daily Life 日本語単語集

超楽々暗記中国語単語入門編① 単語チェックリスト（簡体字 ...超楽々暗記中国語単語入門編① 単語チェックリスト（簡体字確認用）

単語移行資料 - ten.tokyo-shoseki.co.jp · ・「小学校の単語」欄のは，その語が小学校の既習語630語に含まれることを示します。小学校で音

フランス語基本単語集（多色刷り...4 フランス語基本単語集第二章は同じ単語を、並び順だけを変えて、収録してあります。どちらから覚え

．岡山大学文学部履修細則€¦ · スペイン語イタリア語 1単位 1単位 30単位専門基礎科目 5単位 1単位 6単位 8単位 8単位 6単位 46単位専門科目

2001年初版発行 2010年第2版発行単語見出し級単語見出し級単語見出し級 2 NPO手話技能検定協会2010,Printed in Japan 出題単語リストの見方

日本語簡単ガイド INGEST 「日本語...日本語簡単ガイド Metus Technolg 1 準備例本「日本語簡単ガイド」は、以下のように業務用VTRまたはカメラからHD-SDI信号を、Blackmagic

収録英単語索引 - URYU & ITOGA

中国語検定4級必須単語集 - study.super-chinese.comstudy.super-chinese.com/dougakouza/book/chuken4.pdf · 中国語検定4級の合格に必要な単語は、約500〜100

そんな方に送る、単語帳を一切使わない次世代の英単語記憶法 … · 「全然英単語が覚えられない…！」そんな方に送る、単語帳を一切使わない

年e-tr.jp/d/n/man/st/common/tangenlist/chutangen.pdfPresentation1[自己紹介]新出単語単語の意味単語の書き Presentation1[自己紹介] 単語・重要表現の練習

⽇本語の単語分割品詞推定⽇本語の単語分割・品詞推定あるい … · 形態素解析 1. 単語分割 2.品詞推定 3. 他のタグ推定(読み, 原型,

新HSK単語リスト - Only語学塾

単語・熟語（ワードボックスシリーズ）単語・熟語（ワード ......文法参考書・準拠テキスト（ブレイクスルーシリーズ）文法参考書・準拠テキスト（ブレイクスルーシリーズ）

2019年度冊子分類：法学部外国語科目＞英語＞英語講義要綱 ... · 2019. 10. 17. · 英語第Ⅲ 1単位（春学期）英語第Ⅲ 1単位（秋学期）

日本語、英語、中国語における単語レベルプロソ …語の単語レベルにおける過去の研究を概観してみたい。1．単語レベルプロソディ特徴の音韻的記述

Prep No. 1 A...notebook Prep No. 118 Lesson 12 ④ （単語）ペン Prep No. 119 Lesson 12 ⑤ （単語） pen Prep No. 119 Lesson 12 ⑤ （単語）くつ（たち） Prep No

『どんどん解ける！ドイツ語ドリル』単語リスト - Asahi Press...『どんどん解ける！ドイツ語ドリル』単語リスト＜説明＞・単語は出現順に挙がっています。

Useful Japanese Vocabulary in Daily Life 日本語単語集

ラテン語宗教曲、単語の意味と日本語訳 - sound.jpラテン語宗教曲、単語の意味と日本語訳目次はじめに 1 第1章ミサ 2 第2章レクイエム