hadoop x spark x 機械学習を利用した実践的活用術 最新

36
Copyright © NHN Techorus Corp. Page1 2016/10/24 NHNテコラス株式会社 データ研究室 佐藤 漢哲/坂井 俊之 小山 智久 Hadoop × Spark × 機械学習を利用した実践的活用術

Upload: datahotel

Post on 16-Apr-2017

1.201 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page1

2016/10/24

NHNテコラス株式会社 データ研究室

佐藤 哲

趙 漢哲/坂井 俊之

小山 智久

Hadoop × Spark × 機械学習を利用した実践的活用術

Page 2: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page2

Page 3: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page3

Page 4: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page4

Page 5: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page5

Page 6: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page6

Page 7: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page7

自社モールの売上アップに繋がるレコメンダー開発記

Page 8: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page8

中小企業のeコマースの現在

“一元管理による複数店舗展開が当たり前になってきた”

Page 9: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page9

中小企業のeコマースの現在

“しかし、費用を考えるとできるだけ自社モールの販売を伸ばしたい”

Page 10: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page10

どうすれば顧客を自社モールへ導けるのか?

• 考える点

– 既存顧客の離脱防止

– 他モールから自社モールへ誘導

– 新規顧客の誘致

– などなど

Page 11: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page11

どうすれば顧客を自社モールへ導けるのか?

• 考える点

– 既存顧客の離脱防止

– 他モールから自社モールへ誘導

– 新規顧客の誘致

– などなど

顧客が購入したいと思う商品をいい条件で提供する

Page 12: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page12

どうすれば顧客を自社モールへ導けるのか?

顧客が購入したいと思う商品をいい条件で提供する

レコメンダーを導入しよう!

• 考える点

– 既存顧客の離脱防止

– 他モールから自社モールへ誘導

– 新規顧客の誘致

– などなど

Page 13: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page13

レコメンダーはどう動くのか?

Page 14: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page14

レコメンダー概念図

共通フォマットデータ

会社A自社モール

会社A他モール

協調フィルタリング用データの例

DateTime User Item

2016/03/07 21:03:11 user1342 item1

2016/03/07 21:04:34 user2298 item14

学習データ オンラインテストデータ

データ取得

複数モールからデータを収集

Page 15: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page15

学習機

レコメンダー概念図

レコメンダー学習

学習・評価データ分離

学習データ 評価データ

モデルパラメター集合

RegularizationLearningRateEtc.

学習

評価

モデル

レコメンド結果

学習データ

最適モデル

モデルモデル

再学習

最適パラメター

Page 16: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page16

レコメンダー概念図

オンライン評価

利用モデル選択

オンラインテストデータ

最適モデルレコメンドモデル永久保存空間

その他

会社A-002

会社A-001

評価機

モデル評価

結果比較

オペレーター

Page 17: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page17

レコメンダー概念図

レコメンド提供

レコメンド生成機

新規顧客用

既存顧客トップページ用

既存顧客商品ページ用

レコメンドモデル永久保存空間

その他

会社A-002

会社A-001

Page 18: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page18

実証実験と新しい発見

Page 19: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page19

協調フィルタリングを利用した実証実験の概念図

2012 2013 2014 2015

レコメンドモデル

購買履歴WEB観覧履歴

商品の類似性

1)過去のデータを収集

2)レコメンドモデルの学習

3)購買可能性が高い商品をレコメンド

商品

2016

A社さまのご協力でデータを利用させていただきました。

Page 20: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page20

データの特性は?

質問#1

Page 21: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page21

新規顧客・商品の増加

0

1

2

3

4

5

6

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

20

06年対比倍率

新規顧客数増加率 新規商品数増加率

新規商品より新規顧客の増加が目立つ

Page 22: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page22

受注件数の増加(商品単位)

0

2

4

6

8

10

12

14

16

18

20

20

13

-01

20

13

-03

20

13

-05

20

13

-07

20

13

-09

20

13

-11

20

14

-01

20

14

-03

20

14

-05

20

14

-07

20

14

-09

20

14

-11

20

15

-01

20

15

-03

20

15

-05

20

15

-07

20

15

-09

20

15

-11

20

16

-01

20

16

-03

20

16

-05

受注

件数

消費税増加前の買占め

Page 23: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page23

協調フィルタリングの有効性は?

質問#2

Page 24: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page24

• Micro-average of recallを使用

– 顧客毎に最大300個のレコメンドを生成

– 2015年に購買した商品の中で正しく予測された割合のMicro averageを計算

モデルのカバレッジの確認

顧客ID 商品ID レコメンド成功 レコメンドスコア

User100147 Item98273 False 0.0

User100576 Item98273 True 1.531

User100576 Item23482 True 0.348

User100852 Item74227 False 0.0

性能の上界が知りたい!

Page 25: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page25

結果分析

商品

顧客

既存 新規

既存

新規

総購買商品:66.15%

レコメンド成功:39.74%失敗:60.26%

総購買商品:5.61%

総購買商品:25.00% 総購買商品:3.24%

91.15% 8.85%

71.77%

28.23%

100.00%

既存顧客の購買商品数の約7.82%

既存商品だけでは、成功率約40%

商品よりは顧客の増加が早い

Page 26: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page26

現実的なシナリオ:

直近1日の予測

質問#3

Page 27: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page27

学習データ量の影響

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0 20 40 60 80 100 120 140

Mic

ro-a

vera

ge R

eca

ll

直近n日分

140日分を学習データとして使用しTop 50の商品をレコメンドする場合

→カバレッジは約10%

Page 28: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page28

今後の計画

1. 新規顧客・商品への対処

2. 顧客・商品属性の活用

3. オンライン学習を利用したリアルタイムレコメンドモデル更新

Page 29: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page29

Hadoop トライアルサービスについて

NHN Techorusは、Hadoop/Sparkを

とりあえず使ってみたいお客様を

強力に支援いたします。

Page 30: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page30

Hadoop トライアルサービスとは

お客様のメリット

ご提供要件

・当社のデータセンターを利用したHadoopホスティング環境を体感して頂くために、Hortonworksが提供するHDP(Hortonworks Data Platform)を30日間無料で利用できるトライアルサービスを提供します。(今後、Vertica SQL on Hadoopをサービス提供予定です。)

はじめに

Spark等の利用ニーズが高まる中、導入前の不安を解消するサービスです。

最新Hadoop環境をすぐ利用可!

トライアル後、本番環境へ移行可!

・トライアル環境:1ヶ月・ネットワーク:インターネット回線・システム構成:ハイスペックサーバ 9台構成

Page 31: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page31

トライアルサービスご利用に関して

超過後の運用

・申請書

申請書を記載いただきます。IPアドレス、利用約款等の記載があります。・ご用意するサーバ数トライアルでご利用頂くサーバを9台用意させて頂きます。

・サーバの再セットアップ費用については、別途ご相談させて下さい。・100Mbpsを超えるトラフィックについては、ご相談させて下さい。

・運用・監視ついては、弊社フルマネージドホスティングサービスを適用します。

A社トアイアル環境申請書受領

10月

クリーニング作業

11月 12月

効果測定結果を受け採用の場合は新環境へデータを移行注文書受領後、10営業日で移行想定

【課金スケジュール例】

B社トライアル環境

A社本番環境

ご利用に関して

・30日試使用期間超過後、自動的に課金が発生する方式ではありません。ソフトは期限付きのため停止しますが、試使用インフラ環境は残ります。

Page 32: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page32

トライアルの環境インフラ環境について

・試使用期間(30日間)を超えそうな場合は、ご連絡をお願いします。

トライアルのインフラ環境

・エンドユーザ様より注文書受領後、10営業日でご利用できます。(ベストエフォートでは、5営業日)個別にご用意させて頂きます。

・別途メモリー追加、CPU追加、HDD追加もご対応させて頂きます。

トライアル環境のシステム構成

サーバタイプ OS サーバモデル CPU CPU_Clock CPU(EA) MEM MEM(EA) HDD Type HDD RAID作業用Client CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 2 8192 8 SAS (15K) 300GB * 8 RAID5 (OS)作業用Client CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 2 8192 8 SAS (15K) 300GB * 8 RAID5 (OS)管理用Client CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 1 8192 4 SAS (15K) 300GB * 3 RAID1 (OS) + Backup

Hadoop 管理系サーバ CentOS 64Bit HP DL360 G7 L5630 (4 Core) 2.13 GHz 2 4096 6 SAS (10K) 300GB * 3 RAID1 (OS) + BackupHadoop 管理系サーバ CentOS 64Bit HP DL360 G7 L5630 (4 Core) 2.13 GHz 2 4096 6 SAS (10K) 300GB * 3 RAID1 (OS) + BackupHadoop 管理系サーバ CentOS 64Bit HP DL360 G7 L5630 (4 Core) 2.13 GHz 2 4096 6 SAS (10K) 300GB * 3 RAID1 (OS) + Backup

Hadoop Workerサーバ CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 2 8192 16 SAS (15K)300GB * 2300GB *6

RAID1 (OS)No RAID (Data)

Hadoop Workerサーバ CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 2 8192 16 SAS (15K)300GB * 2300GB *6

RAID1 (OS)No RAID (Data)

Hadoop Workerサーバ CentOS 64Bit HP DL360p Gen8 V2 E5-2643V2 (6 Core) 3.5 GHz 2 8192 16 SAS (15K)300GB * 2300GB *6

RAID1 (OS)No RAID (Data)

Page 33: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page33

システム構成図

Hadoop 管理用サーバ 3台

YARN(RM),HDFS(NN)HA

Zookeeper

管理用Client 1台

Other master components

Ambari-server

MySQL(Master-slave)

作業用Client 2台

基本

MySQL(Master-slave)

Ranger

Hadoop workersサーバ 3台

YARN: NodeManagers

HDFS: DataNodes

ハードウェア

ソフトウェア

Page 34: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page34

トライアル~本番までのスケジュール

トライアル申込提出

申込内容の確認

1営業日

トライアル環境が空いてれば

トライアル貸し出し

本番環境提供開始

ポイント

・導入前に、無償トライアルで、ご利用頂き、導入決定前にビジネスの価値を証明。成果を実感、ご納得頂いてから本番の導入が可能になります。

・お手元にあるトライアル申込書に、もれなくご記入をお願いします。

1ヶ月

10日以内にトライアル環境の提供

Page 35: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page35

本日はトライアルのデモ環境を会場にご用意しております。

管理ツール Ambari

データ分析ツール Zeppelin

Page 36: Hadoop x spark x 機械学習を利用した実践的活用術 最新

Copyright © NHN Techorus Corp. Page36

質疑応答

• ご静聴ありがとうございました。