tokyor26 data fusion
DESCRIPTION
TRANSCRIPT
![Page 2: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/2.jpg)
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
![Page 3: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/3.jpg)
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
![Page 4: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/4.jpg)
◆ 名前: 里 洋平
◆ 職業: データサイエンティスト
◆ ID : yokkuns
◆ 時系列解析や異常検知など 各種方法論を実ビジネスに適用
自己紹介
2012年9月9日日曜日
![Page 5: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/5.jpg)
Tokyo.R主催
パッケージ本執筆しました!
活動例: 勉強会の主催・執筆
2012年9月9日日曜日
![Page 6: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/6.jpg)
閲覧されている動画の情報を用いておすすめ動画を表示する
活動例: 動画レコメンド
2012年9月9日日曜日
![Page 7: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/7.jpg)
Web上の情報から市場予測
活動例: 市場予測
2012年9月9日日曜日
![Page 8: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/8.jpg)
異常な振る舞い
複数時系列の異常検知
時系列A
時系列B 時系列C
ケースA
ケースB
ケースC
例2:CM効果のノイズ除去
異常な振る舞いの時系列を検出
異常な振る舞いをしているケースを除外して、CMの効果を算出する
CM効果トラフィックA
トラフィックB
トラフィックC
例1:トラフィック異常検知
異常な振る舞いをしているトラフィックの原因を調査する
調査
AB
C
時系列のモデリング
時系列A
時系列B
時系列C
Anomaly detection複数時系列から異常な振る舞いを検知する
85
活動例: 異常検知
2012年9月9日日曜日
![Page 9: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/9.jpg)
87
CM時系列
各KPIの時系列
CM
新規登録
ARPU
ARPPU
継続率
ケース
イベント
その他外部要因
TV Commercial Effects時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
活動例: 時系列解析と影響分析
2012年9月9日日曜日
![Page 10: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/10.jpg)
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
![Page 11: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/11.jpg)
87
Data Fusionとは
2012年9月9日日曜日
![Page 12: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/12.jpg)
87
異なる複数のデータを単一のデータに統合することで
Data Fusionとは
2012年9月9日日曜日
![Page 13: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/13.jpg)
87
異なる複数のデータを単一のデータに統合することで
Data Fusionとは
個別のデータからは得られない複合的な情報を抽出し
2012年9月9日日曜日
![Page 14: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/14.jpg)
87
異なる複数のデータを単一のデータに統合することで
Data Fusionとは
個別のデータからは得られない複合的な情報を抽出し
予測や意思決定を支援する方法論
2012年9月9日日曜日
![Page 15: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/15.jpg)
87
異なる複数のデータを単一のデータに統合し個別のデータからは得られない、複合的な情報を抽出する
Data Fusionとは
データAとデータBの相関関係データBで特定の値だったユーザのデータAの値の予測・補完
データA データB
2012年9月9日日曜日
![Page 16: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/16.jpg)
広告接触のデータと購買履歴のデータ異なる対象者によるデータである事が多い
Data Fusionの活用シーン
購買履歴データ 広告接触データ
2012年9月9日日曜日
![Page 17: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/17.jpg)
87
広告接触データでの購買有無購買データでの広告接触の有無
これらを予測・補完できれば、重要な示唆が得られる
Data Fusionの活用シーン
ある広告を見たユーザーのうち、ある商品はどれだけ購入されたかどのような広告媒体にどのような情報を載せれば、より購入されるか
・・・
購買履歴データ 広告接触データ
2012年9月9日日曜日
![Page 18: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/18.jpg)
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
![Page 19: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/19.jpg)
広告媒体への接触やある特性を有する商品の購入はユーザーの属性に偏りが存在する
類似度からのアプローチ
広告A 商品A 広告B 商品B
属性は似てない属性が似ている
2012年9月9日日曜日
![Page 20: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/20.jpg)
87
属性が似ているユーザーは接触する広告媒体や購入する商品が似ている
類似度からのアプローチ
広告A 商品A 広告B 商品B
属性は似てない属性が似ている
属性は似てない
2012年9月9日日曜日
![Page 21: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/21.jpg)
購買履歴データと広告接触データで属性が似ている人でペアを作り、同一ユーザーと見なす
Matching法
購買履歴データ 広告接触データ商品A
買った
広告A
見た
商品A
買った広告A
見た
2012年9月9日日曜日
![Page 22: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/22.jpg)
87
MatchingパッケージのMatch関数でペアを抽出し擬似的なシングルソースデータを作成する
Rでの実行方法
割当変数 共変量 データAのindex
データBのindex
2012年9月9日日曜日
![Page 23: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/23.jpg)
87
Matchingの問題点
2012年9月9日日曜日
![Page 24: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/24.jpg)
87
測定誤差などによりバイアスが生じてしまい推定精度があまり高くない
Matchingの問題点
2012年9月9日日曜日
![Page 25: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/25.jpg)
87
測定誤差などによりバイアスが生じてしまい推定精度があまり高くない
Matchingの問題点
マッチングに利用しない対象者のデータが無駄になるため、非常に非効率
2012年9月9日日曜日
![Page 26: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/26.jpg)
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
![Page 27: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/27.jpg)
87
購買有無・広告接触有無・属性3つの変数の背後に共通の因子を仮定して予測を行う
因子分析モデル
共通因子
共変量購買有無 広告有無
共通因子
共変量購買有無 広告有無
共通因子
共変量購買有無 広告有無
2012年9月9日日曜日
![Page 28: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/28.jpg)
消費者市場のセグメンテーションと同じ概念各潜在クラス内では広告接触や購入する商品が似ている
潜在クラスモデル
購買履歴データ 広告接触データ
潜在クラスA 潜在クラスA
広告Aが2/3
広告Bが1/3
商品Aが2/3
商品Bが1/3
潜在クラスA
広告A
広告A
広告B
商品A
商品B
商品A
2012年9月9日日曜日
![Page 29: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/29.jpg)
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
![Page 30: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/30.jpg)
87
属性データを用いて直接購買の有無をモデリングする2値変数の場合ロジスティック回帰が使われる
回帰モデルによる融合
2012年9月9日日曜日
![Page 31: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/31.jpg)
87
一般化線形モデルの関数glmを使ってロジスティック回帰分析を実行して予測する
Rでの実行方法
2012年9月9日日曜日
![Page 32: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/32.jpg)
87
データセットlalondeを2分割してマルチソースデータを作成NSW受講者の78年賃金有りの割合を予測する
Rでの実行例: 使うデータ
2012年9月9日日曜日
![Page 33: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/33.jpg)
87
Matchingとロジスティック回帰によるData Fusionの関数を定義
Rでの実行例: Data Fusionによる予測
2012年9月9日日曜日
![Page 34: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/34.jpg)
87
Matchingとロジスティック回帰の2つの手法で予測するサンプリングして100回実行
Rでの実行例: Data Fusionによる予測
2012年9月9日日曜日
![Page 35: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/35.jpg)
87
Rによる実行結果
どちらも手法も値が希薄化が起きているバラツキは回帰モデルの方が小さい
NSW受講者の78年賃金有りの比率の推定結果
2012年9月9日日曜日
![Page 36: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/36.jpg)
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
![Page 37: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/37.jpg)
購買履歴データと広告接触データは他方のデータが欠測しているシングルソースデータ
欠測データとしてのData Fusion
購買履歴
広告接触
共変量
購買履歴データ 欠測
広告接触データ 欠測
共通で得られている属性データ
購買履歴データ 市場調査データ
欠測データとしてのData Fusion
2012年9月9日日曜日
![Page 38: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/38.jpg)
87
広告接触データで欠測している購買データの予測分布を考える
欠測しているデータの予測分布
2012年9月9日日曜日
![Page 39: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/39.jpg)
87
商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る
Data Fusionの前提条件① : ランダムな欠測
購買と広告接触データへの割当は依存していないので除外出来る
2012年9月9日日曜日
![Page 40: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/40.jpg)
87
商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る
Data Fusionの前提条件① : ランダムな欠測
購買と広告接触データへの割当は依存していないので除外出来る
2012年9月9日日曜日
![Page 41: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/41.jpg)
87
商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る
Data Fusionの前提条件① : ランダムな欠測
購買と広告接触データへの割当は依存していないので除外出来る
2012年9月9日日曜日
![Page 42: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/42.jpg)
87
商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る
Data Fusionの前提条件① : ランダムな欠測
購買と広告接触データへの割当は依存していないので除外出来る
2012年9月9日日曜日
![Page 43: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/43.jpg)
87
ある属性を条件付けた時の購買有無と広告接触の同時分布が分かれば
ある広告に接触した人がどれくらい購買しているかが分かる
欠測しているデータの予測分布
2012年9月9日日曜日
![Page 44: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/44.jpg)
87
Data Fusionの前提条件② : 条件付き独立性
属性が似ていれば広告接触も似ていると仮定すると属性を条件づけた購買履歴は広告に依存しない
2012年9月9日日曜日
![Page 45: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/45.jpg)
87
Data Fusionの前提条件② : 条件付き独立性
属性が似ていれば広告接触も似ていると仮定すると属性を条件づけた購買履歴は広告に依存しない
2012年9月9日日曜日
![Page 46: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/46.jpg)
87
Data Fusionの前提条件② : 条件付き独立性
属性が似ていれば広告接触も似ていると仮定すると属性を条件づけた購買履歴は広告に依存しない
2012年9月9日日曜日
![Page 47: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/47.jpg)
87
条件付き独立性の仮定が成り立つためには属性による購買有無の予測力が十分高い必要がある
Data Fusionの前提条件が成り立つためには
2012年9月9日日曜日
![Page 48: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/48.jpg)
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
![Page 49: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/49.jpg)
87
通常の回帰モデルでは説明力が低い混合モデルを利用することで説明力を上げる
混合モデルで説明力を上げる
図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf
混合回帰モデルのイメージ
2012年9月9日日曜日
![Page 50: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/50.jpg)
87
混合モデルにおいて要素数を事前に決めるのは難しいディリクレ過程混合モデルは、要素数をデータから決定する
ディリクレ過程混合モデル
図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf
混合回帰モデルとディリクレ過程混合モデル
2012年9月9日日曜日
![Page 51: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/51.jpg)
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
![Page 52: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/52.jpg)
参考資料■調査観察データの統計科学
■IBIS 2008 企画セッション 「ノンパラメトリックベイズ」
■data fusion についてのメモ - BOD
■A Direct Approach to Data Fusion
http://d.hatena.ne.jp/dichika/20110907/1315359207
http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf
http://www.chicagobooth.edu/research/workshops/marketing/archive/WorkshopPapers/Rossi.pdf
http://www.amazon.co.jp/dp/4000069721
2012年9月9日日曜日
![Page 53: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/53.jpg)
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
![Page 54: Tokyor26 data fusion](https://reader034.vdocuments.site/reader034/viewer/2022051312/5465e15aaf795969458b4cf4/html5/thumbnails/54.jpg)
87
次回以降の発表者を募集しています!
導入セッション・初心者セッションも絶賛募集中です!
2012年9月9日日曜日