5分でわかる 怖くない機械学習
Post on 03-Aug-2015
823 Views
Preview:
TRANSCRIPT
5 分でわかる怖くない機械学習
プログラミング生放送勉強会 LT
自己紹介じょんすみす ( ひらがな ) これ→
@__john_smith__
※ フォローしないこと推奨
どこにでもいる普通のアル中
願望北海道帰りたい彼女欲しい
彼女欲しい
データ分析系の勉強会じゃないので緩めの話をします
何だかよくわからなくてとりあえず使ってみよう
※ ほんとはダメです
「やりたい!」って言ってる人は難しそうだとなんどと言ってやらないエンジニアはとりあえず動いてるもの見た方が理解しやすいのです
ちゃんとやりたい人はいい結果が出せるようにちゃんと勉強してください
機械学習って単語を聞いたことがある人
機械学習をやったことがある人※ 手を挙げた人は寝ててください
機械学習ってなんなの?
関連商品のレコメンド ( オススメ )広告のクリック率予測・表示するかの判定検索結果のランキング
などなど、もはやみんな呼吸するのと同じくらいナチュラルに使ってる
機械学習ってなんなの?
簡単なもの
機械学習ってなんなの?
簡単なもの
機械学習ってなんなの?
簡単なもの
この線を引きたい
機械学習ってなんなの?
簡単なもの
男性
女性
機械学習ってなんなの?
魔法じゃない 全てを完璧に予想することはできません データが持っている情報に依存します結果はデータに依存 この入力ならこの出力見たいのが予想しづらい だから単体テストみたいなのもしづらい
機械学習ってなんなの?
予測するのが目的 答えがわかってるデータからパターンを発見する 答えがわかってないデータの答えを予測データの数が大事 データが少ないなら人間に任せた方がいい データが大量な時に機械の方が優れる
凛ちゃん分類
http://www.lovelive-anime.jp/member/member05.htmlhttp://www.mbga.jp/_game_intro?game_id=12008305http://www.fate-sn.com/chara/http://iwatobi-sc.com/#x-character
星空凛 渋谷凛 遠坂凛 松岡凛
この 4 人のうち誰の、話題なのかを予想するプログラムを作ってみる
凛ちゃん情報2ch の各凛ちゃんについて語られているスレ
作品自体のスレ、複数キャラや凛ちゃん同士の比較スレは使わない
1000 まで行ったものを 2 スレッド分使用凛ちゃんごと 2000 件のデータ
URL やアンカーは削除その結果何も残らなかったものはそれ自体削除7600 件くらいまで減った
AA はあえて残してみる
学習に 6000 件、残りはテスト用
ぶんるい!Jubatus :機械学習のフレームワーク
機械学習する上での面倒な部分が省略できる割と簡単に使えるhttp://jubat.us/ja/
形態素解析プロ生ちゃんまじ天使をプロ生ちゃん / まじ / 天使 のように分解
分解した各要素の出現回数とどの凛ちゃんの話題かの情報を Jubatus に渡すだけ
ぶんるい!簡単 Jubatus
json で設定ほぼ example のコピペ
ぶんるい!簡単 Jubatus
ぶんるい!簡単 Jubatus
学習
スコアが一番高い凛ちゃんを予測値として取得
各レスごとに単語と出現回数を Hash で持たせたら…{“ プロ生ちゃん” => 1, “ まじ” => 1, “ 天使” => 1}
Hashどの凛ちゃんの話題か
ぶんるい!
ぶんるい!
↓これが正解
→ こう予想した
ぶんるい!
完璧じゃない!
ぶんるい!
ぶんるい!
なんか頑張って 2次元に落とし込んだらそれっぽい情報が確認できる
ぶんるい!
ぶんるい!
データは多い方がいい多すぎると集めるコストがつらい
ぶんるい!
ちなみにこの形からわかることもあります
けつろん!とりあえずやってみるといいよ
勉強しだすときりがない動いてるとこから確かめるとイメージしやすいただし、実用レベルならいろいろ知らないとダメ
賢いかわいいエリーチカ
ソースhttps://github.com/john-smith/jubatus_rin_chan
ぜひ、実際に動かしてみてください
「 Jubatusハンズオン」とかでググってみるともっと詳しくわかります
ぶんけん!入門機械学習
数式なし使用言語: R
戦略的データサイエンス入門機械学習自体について詳しく扱ってる訳ではないモデルの出力結果の見方、解釈の仕方などの参考に
オンライン機械学習 (MLPシリーズ )数式でてくるが、疑似コードありJubatus の中の人が書いてる
言語処理のための機械学習入門数式使って理論知りたい人向け高校レベルの数学がわかってれば読める
top related