answerシステム」のチーム開発 中間発表 - csg.ci.i.u...
TRANSCRIPT
「Answerシステム」のチーム開発 中間発表
<Team Hg> 樋口 貴之(國吉・原田研究室) 穂積 俊平(千葉研究室) 三宅 健司(稲葉・岡田研究室)
目次 n システムについて
l モチベーション l 要件定義 l システム概要
n 開発について l 開発体制 l システム構成 l 開発プロセス l 拡張予定 l Work Breakdown Structure l リスク対策
n まとめ n デモ
12/07/11 実践工房 中間発表 2
モチベーション
n クイズを解きたい!(三宅)
12/07/11 実践工房 中間発表 3
クイズの動画がありました
要件定義 n 機能要件
l ユースケース p クイズで勝ちたい!
o 「問題文を入力→答えを出力」が欲しい
p 検索によるトラブル解決がめんどくさい! o トラブルの解決法はほぼ一意→トラブル≒クイズ o いままで:疑問を検索→検索結果を読む→見つける o これから:疑問を投げる→すぐ答えが返ってくる
l インターフェイス p 入力にされた問題対して、10個程度の回答群を提示
12/07/11 実践工房 中間発表 4
システム概要
n 開発環境 l Ruby on Rails l Mercurial
p Bitbucketのスペースを利用 l MeCab(形態素解析) l Mechanize(スクレイピング)
n アルゴリズム l 自然言語の問題文を入力 l 問題文からキーワード抽出 l キーワードでGoogle検索 l 検索結果から単語出現頻度を計算 l 単語頻度&出現状況から解を導出
12/07/11 実践工房 中間発表 5
開発体制 n 企画→三宅 n 開発環境→穂積
l Rails, Mercurial, Bitbucket n アルゴリズム→樋口 →・・・いけそう!
n 構想→全員 n 実装(Ruby on Rails)
l 三宅:形態素解析(MeCab),ライブラリ調査 l 穂積:スクレイピング(Mechanize), Railsのコントローラ l 樋口:ランキング(tf-idf等)
12/07/11 実践工房 中間発表 6
システム構成
12/07/11 実践工房 中間発表 7
形態素解析 (MeCab)
三宅
Ques*on
Answer!
Web検索 (Mechanize)
穂積
ランキング (6-‐idf等)
樋口
Keyword
Ques*on
Title, Context
Histgram of words
Answer
日本 一番高い 山
日本で一番高い山は?
富士山は、静岡県(富士宮市、裾野市、富士市、御殿場市、駿東郡小山町)と山梨県(富士吉田市、南都留郡鳴沢村)に跨る活火山・・・・・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
富士山/静岡/山/富士山/富士山/静岡/富士山/山梨/富士山/日本最高峰/ 富士宮市/霊峰/富士山/成層火山/ 噴火/富士山/徳川家康/山麓/相手/
駿河国/例外/富士山/表富士/裏富士
富士山:20 山:10 静岡:5 山梨:3
富士吉田:2 活火山:1 富士山
開発プロセス n 中間発表まで
l ウォーターフォールでプロトタイプ作成 p 機能ごとに役割分担 p 機能間の入出力整備
o 受け渡すデータの種類 o データを保存する型
n 中間発表以降 l アジャイルで拡張機能の追加
p UIの整備 p 問題文の入力
p 回答精度向上
12/07/11 実践工房 中間発表 8
拡張予定 n 問題文の入力
l 文字認識(OCR) l 音声認識 l ひみつです
n 回答精度向上 l 重み付けアルゴリズム
p 普遍的な単語は除去 p 修飾関係を上手く利用
12/07/11 実践工房 中間発表 9
Work Breakdown Structure
12/07/11 実践工房 中間発表 10
UI(Rails)
TwiOerBOT ツイート機能
ツイート取得
Railsと連携
GUI アプリケーション
OCR
音声認識
クイズの
モード追加
4択
○×
穴埋め 回答精度向上 (6-‐idf,修飾関係等)
終わった!
土台を作って アジャイルで回す!
(期間と担当者はまた相談)
リスク対策 n スキルリスク
l 精度が出ない p 自作アルゴリズムの限界 →クイズモードの限定 →クイズから乗り換える(今作ったのは検索→結果取得の基盤)
l GoogleもSiri的なのを出してしまった!(つい最近) p 競っても勝てない →APIがあれば使わせていただきたい
n 技術リスク l APIの制限
p 検索BOTお断り等 →なんとかなるでしょう。
12/07/11 実践工房 中間発表 11
まとめ n チームのゴール
l 検索後の一手間を無くしたい l 広い知識を得たい
p プログラミング p Webアプリ p 自然言語処理 p ・・・ p チーム開発
n アピールポイント l ビジネスモデル
p 次世代の検索サービスとして!(もうあるけど・・・)
l システムの魅力 p ド忘れしても大丈夫!
12/07/11 実践工房 中間発表 12
デモ n 解かせたいクイズがあればどうぞ!
l ※ただし答えは保証しません!笑
12/07/11 実践工房 中間発表 13