sano hmm 20150512
TRANSCRIPT
![Page 1: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/1.jpg)
ネット広告で機械学習Hivemallの活用例
2015/05/12(火 )19:00第一回 Hivemall Meetup
![Page 2: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/2.jpg)
アジェンダ
• 自己紹介• FreakOut• 分析チームの紹介• 機械学習 – Hivemall の活用例
![Page 3: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/3.jpg)
自己紹介
• 佐野正和 ( さのまさかず , @Masa_S3)
• FreakOut のデータマイニングエンジニア
• 5年くらいネット広告分野で分析業務を担当
• バックグラウンドは素粒子物理学
![Page 4: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/4.jpg)
• FreakOut
![Page 5: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/5.jpg)
FreakOut
• ネット広告の会社です。
• 広告入札システムを提供しています。
![Page 6: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/6.jpg)
ネット広告売買の世界: Real Time Bidding(RTB)• SSP(Supply-Side Platform)が impressionのオークションを仕切って、それに複数の DSP(Demand-Side Platform )がセリに参加するイメージ。
DSP1
DSP2
DSP3
SSP
いくらで配信するの?
¥10
¥30
¥20
DSP2を配信
ユーザ ID, 広告サイズ等を開示
6
![Page 7: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/7.jpg)
DSP ( Demand-Side Platform)とは
7
これまで 現在
広告枠
広告主
広告枠
メディア
ユーザ
広告枠
?広告主のロジックでの買い付けが可能に
ネット広告のパラダイムシフト取引対象が、「広告枠」から「人」へ変化
手売りでの広告販売
RTB による自動買い付け
広告枠
![Page 8: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/8.jpg)
50ms or die.フリークアウトの Tech チームが掲げるミッション。
月間 2200 億のリクエスト、
その 1 つ 1 つに対して 50ms でレスポンスを返さない
と、
事業そのものが成り立たない
![Page 9: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/9.jpg)
50ms でやっていること
広告主側のロジックで、必要な枠、必要な人、必要な瞬間だけをリアルタイムに判定して入札↓入札ロジックの洗練が利益に直結
![Page 10: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/10.jpg)
分析チームの紹介
![Page 11: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/11.jpg)
分析チームの紹介
• 5 名 +3 名アルバイト ( 現時点 )
• FreakOut と M.T.Burn( スマホ向けアドネットワーク ) のプロダクト改善
• 広告配信アルゴリズム改善のための分析に関わること全般を担当
• メンバーは実装できることが必須。
![Page 12: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/12.jpg)
分析チームの紹介
• 使用言語は自由:よく使われているのは Python, Perl, C++
• 集計には Hive を活用
• 機械学習などの論文を参考にモデルを実装
• 検証 ( オンライン・オフライン ) を繰り返す
• 必要に応じて集計ベースの仮説検証も実施
![Page 13: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/13.jpg)
• 機械学習 – Hivemall の活用例
![Page 14: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/14.jpg)
• FreakOut では常時複数のアルゴリズムが実行・検証されています
• 使用されているアルゴリズムの一例としてクリック予測モデルを例に Hivemall の活用例を紹介します
![Page 15: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/15.jpg)
ロジックの一例:クリック予測モデル
Hivemall のロジスティック回帰を活用
• 操作がとても簡単。 jar を読み込んですぐ使える
• Hue からも使えるので、コーディングが得意ではない人も簡単に使える
• 大規模データに対して学習可能
• Hive で学習から検証まで実行することができるようになり作業効率が良い
![Page 16: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/16.jpg)
• 学習用のログは直近数日分の impression & click log
• 学習時間は数時間程度
![Page 17: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/17.jpg)
学習器
Impression log
click log
Hivemallで学習(ロジスティ回
帰 )
Clickする確率
ユーザ
入札価格の決定
Feature - weight
実配信
Hiveの操作
![Page 18: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/18.jpg)
学習器
Impression log
click log
Hivemallで学習(ロジスティ回
帰 )
Clickする確率
検証
Hiveの操作
評価
![Page 19: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/19.jpg)
ロジックの一例:クリック予測モデル工夫した点
• amplify を使うと処理の途中過程で学習データが 10 倍程度になる ( 設定による ) 。
• オンプレ環境ではデータ容量を大きくできない
• 使用容量が多いと特徴量の種類を増やすことも容易ではない
• 精度を落とさず容量を減らしたい
![Page 20: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/20.jpg)
ロジックの一例:クリック予測モデル
Subsampling の導入Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]
NegativeSamples
(impresion log)PositiveSamples(click log)
![Page 21: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/21.jpg)
ロジックの一例:クリック予測モデル
Subsampling の導入Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]
Negativesamples
Positivesamples
Subsampling rate r(<1)で negative sample からサンプリング。
subsampling
![Page 22: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/22.jpg)
学習器
Impression log
click log
Hivemallで学習(ロジスティ回
帰 )
Clickする確率
ユーザ
入札価格の決定
Feature - weight
実配信
Hiveの操作
subsampling
![Page 23: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/23.jpg)
ロジックの一例:クリック予測モデル
• 学習データを作る部分で Subsampling の導入
• Hive 内の処理で完結するので Hivemall と合わせて簡単に使うことができる
精度をほぼ変えずに消費リソースの削減を実現• r=0.2• 60-80% の消費リソース減少• 学習時間も半分以下に
![Page 24: Sano hmm 20150512](https://reader035.vdocuments.site/reader035/viewer/2022062514/55b3bf88bb61ebbe088b47a1/html5/thumbnails/24.jpg)
まとめ
• Hivemall の利用は簡単
• 大規模データに対して機械学習が簡単にできます
• Hive query が使えれば複雑な実装をしなくてもよい