hadoop x spark x 機械学習を利用した実践的活用術 最新
TRANSCRIPT
Copyright © NHN Techorus Corp. Page1
2016/10/24
NHNテコラス株式会社 データ研究室
佐藤 哲
趙 漢哲/坂井 俊之
小山 智久
Hadoop × Spark × 機械学習を利用した実践的活用術
Copyright © NHN Techorus Corp. Page2
Copyright © NHN Techorus Corp. Page3
Copyright © NHN Techorus Corp. Page4
Copyright © NHN Techorus Corp. Page5
Copyright © NHN Techorus Corp. Page6
Copyright © NHN Techorus Corp. Page7
自社モールの売上アップに繋がるレコメンダー開発記
Copyright © NHN Techorus Corp. Page8
中小企業のeコマースの現在
“一元管理による複数店舗展開が当たり前になってきた”
Copyright © NHN Techorus Corp. Page9
中小企業のeコマースの現在
“しかし、費用を考えるとできるだけ自社モールの販売を伸ばしたい”
Copyright © NHN Techorus Corp. Page10
どうすれば顧客を自社モールへ導けるのか?
• 考える点
– 既存顧客の離脱防止
– 他モールから自社モールへ誘導
– 新規顧客の誘致
– などなど
Copyright © NHN Techorus Corp. Page11
どうすれば顧客を自社モールへ導けるのか?
• 考える点
– 既存顧客の離脱防止
– 他モールから自社モールへ誘導
– 新規顧客の誘致
– などなど
顧客が購入したいと思う商品をいい条件で提供する
Copyright © NHN Techorus Corp. Page12
どうすれば顧客を自社モールへ導けるのか?
顧客が購入したいと思う商品をいい条件で提供する
レコメンダーを導入しよう!
• 考える点
– 既存顧客の離脱防止
– 他モールから自社モールへ誘導
– 新規顧客の誘致
– などなど
Copyright © NHN Techorus Corp. Page13
レコメンダーはどう動くのか?
Copyright © NHN Techorus Corp. Page14
レコメンダー概念図
共通フォマットデータ
会社A自社モール
会社A他モール
協調フィルタリング用データの例
DateTime User Item
2016/03/07 21:03:11 user1342 item1
2016/03/07 21:04:34 user2298 item14
学習データ オンラインテストデータ
データ取得
複数モールからデータを収集
Copyright © NHN Techorus Corp. Page15
学習機
レコメンダー概念図
レコメンダー学習
学習・評価データ分離
学習データ 評価データ
モデルパラメター集合
RegularizationLearningRateEtc.
学習
評価
モデル
レコメンド結果
学習データ
最適モデル
モデルモデル
再学習
最適パラメター
Copyright © NHN Techorus Corp. Page16
レコメンダー概念図
オンライン評価
利用モデル選択
オンラインテストデータ
最適モデルレコメンドモデル永久保存空間
その他
会社A-002
会社A-001
評価機
モデル評価
結果比較
オペレーター
Copyright © NHN Techorus Corp. Page17
レコメンダー概念図
レコメンド提供
レコメンド生成機
新規顧客用
既存顧客トップページ用
既存顧客商品ページ用
…
レコメンドモデル永久保存空間
その他
会社A-002
会社A-001
Copyright © NHN Techorus Corp. Page18
実証実験と新しい発見
Copyright © NHN Techorus Corp. Page19
協調フィルタリングを利用した実証実験の概念図
2012 2013 2014 2015
レコメンドモデル
購買履歴WEB観覧履歴
商品の類似性
1)過去のデータを収集
2)レコメンドモデルの学習
3)購買可能性が高い商品をレコメンド
商品
2016
A社さまのご協力でデータを利用させていただきました。
Copyright © NHN Techorus Corp. Page20
データの特性は?
質問#1
Copyright © NHN Techorus Corp. Page21
新規顧客・商品の増加
0
1
2
3
4
5
6
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
20
06年対比倍率
新規顧客数増加率 新規商品数増加率
新規商品より新規顧客の増加が目立つ
Copyright © NHN Techorus Corp. Page22
受注件数の増加(商品単位)
0
2
4
6
8
10
12
14
16
18
20
20
13
-01
20
13
-03
20
13
-05
20
13
-07
20
13
-09
20
13
-11
20
14
-01
20
14
-03
20
14
-05
20
14
-07
20
14
-09
20
14
-11
20
15
-01
20
15
-03
20
15
-05
20
15
-07
20
15
-09
20
15
-11
20
16
-01
20
16
-03
20
16
-05
受注
件数
万
消費税増加前の買占め
Copyright © NHN Techorus Corp. Page23
協調フィルタリングの有効性は?
質問#2
Copyright © NHN Techorus Corp. Page24
• Micro-average of recallを使用
– 顧客毎に最大300個のレコメンドを生成
– 2015年に購買した商品の中で正しく予測された割合のMicro averageを計算
モデルのカバレッジの確認
顧客ID 商品ID レコメンド成功 レコメンドスコア
User100147 Item98273 False 0.0
User100576 Item98273 True 1.531
User100576 Item23482 True 0.348
User100852 Item74227 False 0.0
性能の上界が知りたい!
Copyright © NHN Techorus Corp. Page25
結果分析
商品
顧客
既存 新規
既存
新規
総購買商品:66.15%
レコメンド成功:39.74%失敗:60.26%
総購買商品:5.61%
総購買商品:25.00% 総購買商品:3.24%
91.15% 8.85%
71.77%
28.23%
100.00%
既存顧客の購買商品数の約7.82%
既存商品だけでは、成功率約40%
商品よりは顧客の増加が早い
Copyright © NHN Techorus Corp. Page26
現実的なシナリオ:
直近1日の予測
質問#3
Copyright © NHN Techorus Corp. Page27
学習データ量の影響
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0 20 40 60 80 100 120 140
Mic
ro-a
vera
ge R
eca
ll
直近n日分
140日分を学習データとして使用しTop 50の商品をレコメンドする場合
→カバレッジは約10%
Copyright © NHN Techorus Corp. Page28
今後の計画
1. 新規顧客・商品への対処
2. 顧客・商品属性の活用
3. オンライン学習を利用したリアルタイムレコメンドモデル更新
Copyright © NHN Techorus Corp. Page29
Hadoop トライアルサービスについて
NHN Techorusは、Hadoop/Sparkを
とりあえず使ってみたいお客様を
強力に支援いたします。
Copyright © NHN Techorus Corp. Page30
Hadoop トライアルサービスとは
お客様のメリット
ご提供要件
・当社のデータセンターを利用したHadoopホスティング環境を体感して頂くために、Hortonworksが提供するHDP(Hortonworks Data Platform)を30日間無料で利用できるトライアルサービスを提供します。(今後、Vertica SQL on Hadoopをサービス提供予定です。)
はじめに
Spark等の利用ニーズが高まる中、導入前の不安を解消するサービスです。
最新Hadoop環境をすぐ利用可!
トライアル後、本番環境へ移行可!
・トライアル環境:1ヶ月・ネットワーク:インターネット回線・システム構成:ハイスペックサーバ 9台構成
Copyright © NHN Techorus Corp. Page31
トライアルサービスご利用に関して
超過後の運用
・申請書
申請書を記載いただきます。IPアドレス、利用約款等の記載があります。・ご用意するサーバ数トライアルでご利用頂くサーバを9台用意させて頂きます。
・サーバの再セットアップ費用については、別途ご相談させて下さい。・100Mbpsを超えるトラフィックについては、ご相談させて下さい。
・運用・監視ついては、弊社フルマネージドホスティングサービスを適用します。
A社トアイアル環境申請書受領
10月
クリーニング作業
11月 12月
効果測定結果を受け採用の場合は新環境へデータを移行注文書受領後、10営業日で移行想定
【課金スケジュール例】
B社トライアル環境
A社本番環境
ご利用に関して
・30日試使用期間超過後、自動的に課金が発生する方式ではありません。ソフトは期限付きのため停止しますが、試使用インフラ環境は残ります。
Copyright © NHN Techorus Corp. Page32
トライアルの環境インフラ環境について
・試使用期間(30日間)を超えそうな場合は、ご連絡をお願いします。
トライアルのインフラ環境
・エンドユーザ様より注文書受領後、10営業日でご利用できます。(ベストエフォートでは、5営業日)個別にご用意させて頂きます。
・別途メモリー追加、CPU追加、HDD追加もご対応させて頂きます。
トライアル環境のシステム構成
サーバタイプ OS サーバモデル CPU CPU_Clock CPU(EA) MEM MEM(EA) HDD Type HDD RAID作業用Client CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 2 8192 8 SAS (15K) 300GB * 8 RAID5 (OS)作業用Client CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 2 8192 8 SAS (15K) 300GB * 8 RAID5 (OS)管理用Client CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 1 8192 4 SAS (15K) 300GB * 3 RAID1 (OS) + Backup
Hadoop 管理系サーバ CentOS 64Bit HP DL360 G7 L5630 (4 Core) 2.13 GHz 2 4096 6 SAS (10K) 300GB * 3 RAID1 (OS) + BackupHadoop 管理系サーバ CentOS 64Bit HP DL360 G7 L5630 (4 Core) 2.13 GHz 2 4096 6 SAS (10K) 300GB * 3 RAID1 (OS) + BackupHadoop 管理系サーバ CentOS 64Bit HP DL360 G7 L5630 (4 Core) 2.13 GHz 2 4096 6 SAS (10K) 300GB * 3 RAID1 (OS) + Backup
Hadoop Workerサーバ CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 2 8192 16 SAS (15K)300GB * 2300GB *6
RAID1 (OS)No RAID (Data)
Hadoop Workerサーバ CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 2 8192 16 SAS (15K)300GB * 2300GB *6
RAID1 (OS)No RAID (Data)
Hadoop Workerサーバ CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 2 8192 16 SAS (15K)300GB * 2300GB *6
RAID1 (OS)No RAID (Data)
Copyright © NHN Techorus Corp. Page33
システム構成図
Hadoop 管理用サーバ 3台
YARN(RM),HDFS(NN)HA
Zookeeper
管理用Client 1台
Other master components
Ambari-server
MySQL(Master-slave)
作業用Client 2台
基本
MySQL(Master-slave)
Ranger
Hadoop workersサーバ 3台
YARN: NodeManagers
HDFS: DataNodes
ハードウェア
ソフトウェア
Copyright © NHN Techorus Corp. Page34
トライアル~本番までのスケジュール
トライアル申込提出
申込内容の確認
1営業日
トライアル環境が空いてれば
トライアル貸し出し
本番環境提供開始
ポイント
・導入前に、無償トライアルで、ご利用頂き、導入決定前にビジネスの価値を証明。成果を実感、ご納得頂いてから本番の導入が可能になります。
・お手元にあるトライアル申込書に、もれなくご記入をお願いします。
1ヶ月
10日以内にトライアル環境の提供
Copyright © NHN Techorus Corp. Page35
本日はトライアルのデモ環境を会場にご用意しております。
管理ツール Ambari
データ分析ツール Zeppelin
Copyright © NHN Techorus Corp. Page36
質疑応答
• ご静聴ありがとうございました。