英単語帳作成アプリケーション
TRANSCRIPT
使用データ : TED 動画 https://www.ted.com 、 Steve Jobs スピーチ http://news.stanford.edu/news/2005/june15/jobs-061505.html
動画向けアプリケーション テキスト向けウェブアプリケーション
英単語帳作成アプリケーション• 背景、課題 英語の動画を視聴する際、未知の英単語を聞くと、前後の文脈から 意味を推測する必要があるため、動画の内容に集中できないことがある。• 「英単語帳作成アプリケーション」による解決 本アプリケーションを用いて、動画ファイルから、 日本語訳を把握しておくと良い英単語のリスト ( 英単語帳 ) を取得する。• 効果 視聴前に英単語を学習することで、視聴中に英単語の意味を 推測する必要がなくなるため、動画の内容を把握しやすくなる。
• 動画向けアプリケーション構成
動画ファイル
WatsonSpeech to Text
Node-RED
dashDB
(1) 動画の音声をテキスト化
(4) 日本語訳を検索し、難易度降順でソート
(3) 出現頻度が高い英単語抽出、 SQL 文作成英単語難易度 (Google Books
Ngram)
日本語訳 (WordNet)
(2) テキスト送付 / 英単語リスト取得
動画向けアプリケーション
使用データ : 日本語 WordNet http://nlpwww.nict.go.jp/wn-ja Google Books Ngram http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
• テキスト向けウェブアプリケーション構成
• Bluemix 活用ポイント 大量の音声データをテキスト化できる Watson Speech to Text を活用 Node-RED を用い、試行錯誤を繰り返す開発を効率化 Vaadin を活用し、クライアントアプリの Java コードをウェブアプリに流用することで、開発工数削減
英文テキスト
Vaadin
(1) テキスト送付 /結果表示
テキスト向けウェブアプリケーション
Node-RED
dashDB
(4) 日本語訳を検索し、難易度降順でソート
(3) 出現頻度が高い英単語抽出、 SQL 文作成
英単語難易度 (Google Books
Ngram)
日本語訳 (WordNet)
(2) テキスト送付 / 英単語リスト取得
使用データ : 日本語 WordNet http://nlpwww.nict.go.jp/wn-ja Google Books Ngram http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
以降、補足スライド
Node-RED で作成した処理Node-RED を用いて、テキスト内の英単語の集計、 SQL 文作成処理を記述した。
対応英単語数# 項目 英単語数1 英単語難易度データ
(Google Books Ngram の 出現頻度上位データ )
714,071 単語
2 日本語訳データ( 日本語 WordNet の全登録データ )
80,171 単語
3 本アプリの対応英単語数(#1,2 両データに存在する単語数 )
44,224 単語※ 動画向け英単語帳作成アプリケーションの場合は、#1,2 と Watson Speech to Text の対応英単語の全てに存在する英単語の数になる。