typo writer ヒトはどのように打ち間違えるのか?
DESCRIPTION
TYPO って?. TYPO Writer ヒトはどのように打ち間違えるのか?. 荒牧英治 東大 宇野良子 農工大 岡瑞起 東大. まだ間違いに気が付いていないのか ?. TYPO が致命的な場合も 日本看護協会の告知 [Dec2008] より. TYPO の特徴. 従来のコーパス(新聞や論文)ではまれ BUT: 例外的現象ではない. 人間ならだれしも行う 平均 3% の割合で打鍵ミス エキスパートでも 0.9% [Grudin1983]. チャットやマイクロブログ カルテ文章= ungrammatical fragmented [Sibanda 2005]. - PowerPoint PPT PresentationTRANSCRIPT
TYPO Writerヒトはどのように打ち間違えるの
か?荒牧英治 東大
宇野良子 農工大岡瑞起 東大
TYPO って?TYPO って?
まだ間違いに気が付いていないのか ?
TYPO が致命的な場合も日本看護協会の告知 [Dec2008] より
TYPO の特徴
• 従来のコーパス(新聞や論文)ではまれ• BUT: 例外的現象ではない
人間ならだれしも行う平均 3% の割合で打鍵ミスエキスパートでも 0.9% [Grudin1983]
人間ならだれしも行う平均 3% の割合で打鍵ミスエキスパートでも 0.9% [Grudin1983]
チャットやマイクロブログカルテ文章= ungrammatical fragmented [Sibanda 2005]
チャットやマイクロブログカルテ文章= ungrammatical fragmented [Sibanda 2005]
• 記述者は気づきにくい→
いったいヒトはなぜタイポをするのか ?いったいヒトはなぜタイポをするのか ?
本研究の 2 つの課題
• いったいなぜ/どのようにタイポするのか
主課題:タイポの分析主課題:タイポの分析
副課題:タイポの収集副課題:タイポの収集
• BUT: 従来のコーパス(新聞,論文 etc ) においてタイポはまれ
本研究
• はじめに• 課題1: タイポの収集
– どうやって自動的に大量のタイポをあつめるか?
• 課題2: タイポの分析• 実験• おわりに
タイポの出現頻度は原型に比べて著しく低い
タイポの出現頻度は原型に比べて著しく低い
(本研究における)タイポとは仮定 1 仮定 1
→ |SOTP| : |STOP| < 1:50
タイポと原型のスペリング/コンテキストは類似しているタイポと原型のスペリング/コンテキストは類似している
仮定 2 仮定 2
→ sim (please sotp it, please stop it) > TH.
タイポは辞書に収載されていないタイポは辞書に収載されていない仮定 3仮定 3
→ (form ⇔ from) は対象外 .
手法
• 材料: (2008 年クロール ; 500MB)• STEP1: 3grm に分解→頻度集計• SPTE2: 頻度差 30 倍の類似した 3grm ペア抽出
仮定 1仮定 1
wace wave The google wace (2)R1 The google wave (42205)TYPO ORG N-gram (Freq)TYPE N-gram (Freq)
仮定 2 仮定 2
仮定 3仮定 3
have wave The google have (202)R1 The google wave (42205)
仮定はインプリしやすい
結果
• 3.9 万ペア (原型 : タイポのペア)
• 評価: 正しいタイポが定義不能のため困難• 百聞<一見→ http://luululu.com/tweet/
本研究
• はじめに• 課題1: タイポの収集• 課題2: タイポの分析
– タイポとはどんな特徴を持っているか?
• 実験• おわりに
各操作別のタイポされた文字
IN 挿入 削除 順入替 置換
i 1420 / 40412 = 0.0351 a 1673 / 34515 = 0.0484 e/h 242 a:e 954d 981 / 13567 = 0.0723 o 1671 / 46884 = 0.0356 e/m 129 m:s 392a 850 / 34515 = 0.0246 e 1004 / 50418 = 0.0199 a/h 107 m:n 310y 760 / 50418 = 0.0150 i 742 / 40412 = 0.0183 h/t 78 y:t 280e 741 / 50418 = 0.0146 l 661 / 19796 = 0.0333 i/e 70 z:s 278t 735 / 44495 = 0.0165 h 653 / 28020 = 0.0233 o/t 63 t:e 265n 684 / 33891 = 0.0201 n 499 / 33891 = 0.0147 g/n 63 q:g 238o 609 / 46884 = 0.0129 t 394 / 44495 = 0.0088 s/u 60 r:e 218
RM R1 R2
i の挿入が多いi の挿入が多い
a の脱落が多いa の脱落が多いしかし
a と i の置換は少ないしかし
a と i の置換は少ない
何がバイアスになっているか?何がバイアスになっているか?
文字順の入れ替えは右手と左手の間で起こりやす
い
文字順の入れ替えは右手と左手の間で起こりやす
い
置換は同じ右手/左手の指の間で起こりやすい
置換は同じ右手/左手の指の間で起こりやすい
要因 1: 指とタイポの関係
各指で起こるタイポ操作が異なる
要因 1: 指とタイポの関係
要因 2: 視覚的要因
形がよく似た文字は置換されやすい !?
画像類似度類似度した文字
要因 3: 単語内の位置
真ん中と後末にタイポが起きやすい
単語内の相対位置
頻度
語末になりやすい文字
要因 4: Doubling
p_a_p_e_r_w_e_i_g_h_t
p_eI_p_@_ _w_e_I_ _ _tCELEX2 DATABASE aligned by GIZA++
要因 4: 音韻
RM された文字の発音
More info
何が主要な要因なのだ
ろう?
何が主要な要因なのだ
ろう?Check Failure
タイポタイポ
タイポを起こす要因とタイポモデル
Cognitive Error Type Error
[Kukich1992]
要因 1: 打鍵ミス 要因 1: 打鍵ミス
要因 2: 画像類似度要因 2: 画像類似度要因 3: 単語内位置要因 3: 単語内位置
要因 4: doubling要因 4: doubling
要因 5: 音韻要因 5: 音韻
要因 5: 音韻要因 5: 音韻
本研究
• はじめに• 課題1: タイポの収集• 課題2: タイポの分析• 実験
– タイポをタイポらしくしているのは何か?– =タイポと擬似タイポを識別 → 識別に貢献ものは何か?
• おわりに
実験設定
• 目的 : タイポらしさはどの要因からくるのか調べる
• データ (自動抽出結果と擬似負例)正例正例
負例負例
自動抽出した原型 : タイポのペア
自動抽出した原型 : タイポのペア
正例の原型をランダムに編集正例の原型をランダムに編集
Twitter:TwiterTwitter:Twiter
Twitter:ZwitterTwitter:Zwitter
• 手法: SVM で要因 1-5 を feature として表現
Twitter:TwiterTwitter:TwiterTwitter:ZwitterTwitter:Zwitter
F4-RMF4-RMF4-F1-R2F4-F1-R2
L-RML-RML-R2L-R2
4of74of71of71of7
要因 1 要因 3
実験結果
• (1) どの要因を削除しても精度が下がる → どの要因も少なくともタイポの一部を説明
• (2) 特に が重要単語内位置単語内位置
単語認知の研究との不整合
単語の中央/末尾にタイポが多い
単語の中央/末尾にタイポが多い
単語中央の情報量が少ない
単語中央の情報量が少ない
単語中央付近の間違いに気づかない
単語中央付近の間違いに気づかない≒
単語に内在する情報量の偏在 [田中 , 2008]
仮説「逐次的に単語認知を行う」
i n v iB E
i n v i t eB E
check checkNo-look typing No-look typing
=
本研究
• はじめに• 課題1: タイポの収集• 課題2: タイポの分析• 実験• おわりに
まとめ
• 人はなぜ打ち間違うか ?
神のみぞ知る神のみぞ知る
• 人はどのように打ち間違うか...
本研究により定量的に調査可能本研究により定量的に調査可能
http://luululu.com/research/pm3/index.html
• →数学的モデル化• →認知研究との関連 「逐次的単語認知」の検討• → 人間と同じように打ち間違えるプログラム see TYPO Writer
中央付近
発音しない文字