amazon machine leaning の紹介

13
LT Thursday(サイバーエージェントA.J.A. 社内勉強会) 2016/8/19 阿部晃典 Amazon Machine Leaning の紹介

Upload: akinori-abe

Post on 07-Jan-2017

305 views

Category:

Engineering


4 download

TRANSCRIPT

Page 1: Amazon machine leaning の紹介

LT Thursday(サイバーエージェントA.J.A. 社内勉強会)2016/8/19 阿部晃典

Amazon Machine Leaning の紹介

Page 2: Amazon machine leaning の紹介

Amazon ML とは?

● AWS 上で使える機械学習サービス○ Amazon 社内でも使っているらしい

● スケーラビリティ・簡単さが売り

○ データさえ用意すればボタンをポチポチするだけで、モデル生成・評価・予測 API の準備を自動で

やってくれる

○ 大規模なデータも扱えるらしい

○ 柔軟性はあまりない

● 構造化データに対する統計的教師あり学習のみをサポート

● Region: 米国東部(バージニア北部)、EU(アイルランド)のみ

● チュートリアルあるよ

○ ポルトガルの銀行によるダイレクトマーケティングで、定期預金口座を開設してくれた or してくれな

かった顧客の情報

○ 元データ:https://archive.ics.uci.edu/ml/datasets/Bank+Marketing

Page 3: Amazon machine leaning の紹介

Concepts● Data source

○ 学習データの在処

○ 統計情報の表示

● ML model○ 機械学習モデルの選択

○ 前処理・正則化

● Evaluation○ 学習済みモデルの評価

● Prediction○ 学習済みモデルによる予測

Page 4: Amazon machine leaning の紹介

Data source● 学習データの在処:Redshift もしくは S3 上の CSV● 特徴抽出済みのデータのみ扱える(画像・音声等は直接は扱えない)

● できること

○ 学習に使うカラム(特徴量=入力)の指定

○ 予測対象のカラム(出力)の指定

○ 統計情報の表示(分布・統計量など)

Page 5: Amazon machine leaning の紹介

Data source (統計情報の表示)

Page 6: Amazon machine leaning の紹介

Data source (統計情報の表示)

Page 7: Amazon machine leaning の紹介

ML model● 機械学習モデルの自動判定(教師あり学習のみ)

○ 2 クラス分類:ロジスティック回帰

○ 多クラス分類:ロジスティック回帰

○ 時系列予測:線形回帰

● Recipe:簡単な前処理

○ N-gram、大文字小文字変換、デカルト積、離散化など

● 正則化:L1 or L2● 料金:0.42 USD/時

Page 8: Amazon machine leaning の紹介

ML model (前処理)

Page 9: Amazon machine leaning の紹介

ML model (正則化)

Page 10: Amazon machine leaning の紹介

Evaluation● 学習したモデルの評価(予測精度の計算)

○ Cross-validation もできる

● 評価指標

○ クラス分類:precision、accuracy、recall、F 値など

○ 時系列予測:RMSE (root mean square error)

Page 11: Amazon machine leaning の紹介

Evaluation (評価結果)

Page 12: Amazon machine leaning の紹介

Prediction● 学習済みモデルによる予測

● バッチ予測:大量のデータを入力して、一度に予測

○ 0.0001 USD/predictions● リアルタイム予測:データを一つずつ入力して、その都度予測

○ 0.0001 USD/predictions + 0.001 USD/(10 MB * 1 hour)

Page 13: Amazon machine leaning の紹介

まとめ

● Amazon ML の特徴

○ クラス分類(ロジスティック回帰)、時系列予測(線形回帰)

○ 簡単にモデル構築・評価・予測 API の準備ができる

■ UI は使いやすいと思う

○ 統計情報を見やすく表示

● 気をつけたほうが良さそうなこと

○ 特徴抽出・前処理はガッツリやるべき

○ 簡単な反面、できることが少ない

○ 非線形モデル・教師なし学習は使えない

○ 学習済みモデルもない