hortownworks data platform conferencedataplatform.jp/program/files/c-5.pdf · customer...

59
CUSTOMER ビッグデータからビジネスの潜在能⼒を解き放つSAP Vora SAPジャパン株式会社 プラットフォーム事業本部 ビジネス開発部 シニア アーキテクト 新久保 浩⼆ (しんくぼ こうじ)

Upload: truongnhu

Post on 25-Apr-2018

225 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

CUSTOMER

ビッグデータからビジネスの潜在能⼒を解き放つSAP Vora

SAPジャパン株式会社プラットフォーム事業本部ビジネス開発部シニア アーキテクト

新久保 浩⼆ (しんくぼ こうじ)

Page 2: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

2CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

- SAPとビッグデータ分析ソリューション

- SAP HANA(エンタープライズシステム)とHadoopを連携する2つの意味

- Challenge to Big Data Analytics

- Data Lifecycle Management in Enterprise System

- SAP Vora Overview

- SAP Vora System Architecture

- SAP Vora Tools & Modeling

- Use Case (for Developer)

- SAP Data Hub debuts at SAP TechEd 2017

- And more

Agenda

Page 3: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

SAPとビッグデータ分析ソリューション

Page 4: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

4CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAPとビッグデータ分析ソリューションERP / Enterprise BI /

Dashboard & Self-Service BI

Advanced Analytics / Machine Learning

Data Management (Structured & Unstructured)

ETL / Data Integration / Data Replication

Data Sources / Applications

構造化データ

ERP / Warehouse 基幹系システム

分析系システム

Weblog Syslog

半構造化 / ⾮構造化データ

SAP Data Services

SAP Replication Server

SAP Event Stream Processor

SAP IQ SAP HANA SAP Vora SAP BW

Apache Hadoop

SAP HANA(Integration Service)

SAP Cloud Platform Big Data Service

SAP Predictive Analytics

Digital Boardroom SAP Lumira

SAP HANA(Advanced Analytical Processing Service)

Page 5: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

SAP HANA(エンタープライズシステム)とHadoopを連携する2つの意味

Page 6: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

6CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP HANA(エンタープライズシステム)とHadoopを連携する2つの意味

• ビッグデータの分析基盤として

• 経年データの効率的な管理基盤として

SAP

HANA

HANA

Page 7: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

Challenge to Big Data Analytics

Page 8: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

8CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Challenge to Big Data AnalyticsHadoopを分析基盤としてみた場合の期待と課題

ビッグデータの分析基盤としてHadoopを⾒た場合 :基本的には、Write Once Read Manyなデータが⼤量にやってくる時代に対応できるモダンなデータ管理プラットフォームを構築しておく必要がある。

課題1)

Hadoopエコシステムだけでは全ての分析処理がまかないきれないため、他の分析クラスターの準備や、それに伴うデータの移動がリアルタイム性を阻害する

課題2)

各クラスター内のリソース管理やスケーリングなど⼤規模になればなるほど運⽤に困難が伴う課題3)

最終的にはビジネスデータ(エンタープライズシステム)との連携が必要不可⽋になるが、ビジネスデータとの連携がリアルタイムではない

Page 9: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

9CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Challenge to Big Data Analytics SAP Voraの主要な機能

柔軟なスケーリング

SAP Vora

オープンなエコシステム 様々な分析エンジン

Big Data Ready SAP HANAとの統合直感的なツール

Graph

Time Series

JSONSQL Document

In-Memory

Disk

HDFS

SAP HANA

In-Memory Store

SAP VoraSAP Vora

Page 10: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

Data Lifecycle Managementin Enterprise System

Page 11: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

11CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Data Lifecycle Management in Enterprise SystemエンタープライズシステムからみたHadoopの価値と課題

データのライフサイクル管理としてのチャレンジ:エンタープライズシステム内のデータをある程度の期間、セグメントでプライマリーのデータストアからコスト効率の⾼いデータストアに移動してデータ管理コストを最適化する必要がある。

課題1)

エンタープライズシステムに時間とともに増加するデータの効率的な管理課題2)

データの重要性により階層化されたデータ管理を⾏うことで、データの格納コストの最適化課題3)

データをHadoop(HDFS)に格納した際のデータの透過的なアクセス

Page 12: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

12CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Data Lifecycle Management in Enterprise SystemHadoopとのデータの階層化と仮想アクセス

Hot

Warm

High Capacity

データの価値により格納場所を階層化することで、コストとパフォーマンスを最適化させる。この、データのエージング、ティアリングは、SAP HANAのData Lifecycle Managerにより⾃動化が可能

Hot

Warm

Raw Raw Raw Database

Data Virtualization Layer

HW

OS

Data Federation Data Federation

Oracle DB2 HadoopHadoopHadoopHadoop

SAP HANAのSmart Data Accessはデータを仮想化して複数の異なるデータを単⼀仮想エンドポイントとして動作させる。RDBMSだけではなく、Hadoop上のデータもSmart Data Accessで仮想的にアクセスが可能。

Data Lifecycle Management

ルールベースでデータの移動を⾃動化 データの仮想統合

Page 13: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

SAP Vora Overview

Page 14: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

14CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Overviewビジネスのための分散コンピューティング環境

*Support planned starting from Vora 2.1 release

Distributed Computing Cluster

Files

Vora Spark Extension

Spark…

Files

Vora Spark Extension

Spark

Files

Vora Spark Extension

SparkMicrosoft Azure Data Lake Store*

Amazon S3

Apache Hadoop HDFS

MapR-FS

Kubernetes: オンプレミス or クラウド:

Hadoop / Spark cluster

分散トランザクションログ

Disk Based Relational

データモデラー

In-Memory Relational Time Series Graph Doc Store

Kubernetes Cluster

データサイエンス

予測分析 ビジネスインテリジェンス

レポーティングアプリケーション

*

Vora 1.0系では、SAP VoraはHadoop Clusterとco-deployされる構成でしたが、Vora 2.0系からSAP VoraとHadoopは別クラスター構成になりました

SAP Vora

Page 15: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

15CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Overview 単⼀のプラットフォームからのインサイトの導出

*

Distributed Computing Cluster

Files

Vora

Spark…

Files

Vora

Spark

Files

Vora

SparkMicrosoft Azure Data Lake Store

Amazon S3

Apache Hadoop HDFS

MapR-FS

*Support planned starting from Vora 2.1 release

Kubernetes: オンプレミス or クラウド:

Hadoop / Spark cluster

分散トランザクションログ

Disk Based Relational

データモデラー

In-Memory Relational Time Series Graph Doc Store

SAP Vora (Kubernetes Cluster)

データサイエンス

予測分析 ビジネスインテリジェンス

レポーティングアプリケーション

インメモリー分散処理エンジン

洗練された分析エンジン:

Relational, Time Series, Graph, Document (JSON)

メモリーサイズを超えるデータセットの場合でも⾼速性を維持するディスクベースのリレーショナルエンジン

Page 16: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

16CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Overview エンタープライズ、クラウドで利⽤可能

*

Distributed Computing Cluster

Files

Vora

Spark…

Files

Vora

Spark

Files

Vora

SparkMicrosoft Azure Data Lake Store

Amazon S3

Apache Hadoop HDFS

MapR-FS

*Support planned starting from Vora 2.1 release

Kubernetes: オンプレミス or クラウド:

Hadoop / Spark cluster

分散トランザクションログ

Disk Based Relational

データモデラー

In-Memory Relational Time Series Graph Doc Store

SAP Vora (Kubernetes Cluster)

データサイエンス

予測分析 ビジネスインテリジェンス

レポーティングアプリケーション

プロダクション環境で利⽤可能な統合されたソリューション

エンタープライズでのセキュリティ

Kubernetesによるパブリッククラウドでのシンプルなデプロイ

すぐに利⽤可能なビジネス関数とメタデータの永続化

SAP HANAとシームレスな統合

Other Apps

In-Memory StoreSAP HANA

Platform

オ プ シ ョ ン

Page 17: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

17CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Overview簡単にデータを利⽤可能

*

Distributed Computing Cluster

Files

Vora

Spark…

Files

Vora

Spark

Files

Vora

SparkMicrosoft Azure Data Lake Store

Amazon S3

Apache Hadoop HDFS

MapR-FS

*Support planned starting from Vora 2.1 release

Kubernetes: オンプレミス or クラウド:

Hadoop / Spark cluster

分散トランザクションログ

Disk Based Relational

データモデラー

In-Memory Relational Time Series Graph Doc Store

SAP Vora (Kubernetes Cluster)

データサイエンス

予測分析 ビジネスインテリジェンス

レポーティングアプリケーション

迅速なデータモデル構築のためにドラッグ&ドロップによる直感的なWebインターフェース

様々な処理エンジンとやりとりするための単⼀のSQLのためのエントリーポイント

使い慣れた分析ツールやWebのノートブックと接続可能

Page 18: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

SAP Vora System Architecture

Page 19: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

19CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora System ArchitectureSAP Vora 1.4からの変更点

• 動的なプロビジョニングとクラスター管理のためにGoogle KubernetesとDockerコンテナの統合

q オンプレミス、クラウド双⽅に対して、SAP Voraの構築とパッチ適⽤のシンプル化

• SAP Voraサービスに対する監視、診断のフレームワークq システムのヘルスチェックのためのオペレーションインテリジェンスとダッシュボード

• Streaming、Systemといった新しいテーブルタイプのサポートq 分析⽤途以外にトランザクションやIoTアプリケーションといったユースケースの拡⼤

• Apache Spark 2.xのサポートq 最新のオープンソースイノベーションとの互換性

• Hive統合の拡張 – HiveテーブルからVoraテーブルの作成が可能q 既存のHiveユーザーのための簡単なマイグレーション

• 新しいHadoopディストリビューションのサポート – Huawei Fusion Insightq プラットフォームサポートの拡⼤により広範囲のユーザーをカバー

• Kubernetes構成のHadoopコンポーネントのサポートq 新しいアーキテクチャーとセキュリティの統合

SAP Vora computing layer

(Kubernetes Cluster)

VoraNode 1

VoraNode 2

3 4 4

HDFS1 HDFS2 HDFS3 HDFS4 …

Data Storage – Hadoop layer

(Hadoop Cluster)

Page 20: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

20CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora System Architecture Google Kubernetesによるクラスターオーケストレーション

Page 21: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

21CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora System Architecture クラスターのモニタリングとログ管理

• SAP Voraの監視、ログ取得ではいくつかのオープンソースプロジェクトを利⽤

• Grafana – CPU、Memory、IO などのシステムリソースのメトリックを表⽰するダッシュボードを提供

• Kibana – 異なるSAP Voraのサービスにより出⼒されるログを統合

• Prometheus – メトリックの収集するツール• Elastic Search – SAP VoraのDockerコンテナから

出⼒されるログのセントラルストア

RelationalEngine

POD

FluentD

Time Series

POD

FluentD

Disk Engine

POD

FluentD

DLog

POD

FluentD

Prometheus Push

Gateway

POD

Prometheus Metric

Storage

POD

Grafana Application & System Metrics

POD

Elastic Search Log Storage

POD

Kibana Consolidated

Vora Trace Log

POD

Graph Engine

POD

FluentD

Page 22: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

22CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora System Architecture Component Diagram

Other Apps

BW4HANA

Kubernetes Cluster

SAP Vora

Transaction Coordinator

Hadoop Cluster

° ° ° ° °

° ° ° ° °

° °

° °

° ° °

° ° °

HDFS (Text, ORC, Parquet, Avro) (Hadoop Distributed File System)

Thrift Server

Catalog

Monitoring

Vora Tools

Cluster Management

Distributed Log (DLog)

Docker Registry

- consul

Processing Engines

- In-Memory Relational

- Disk Relational

- Document (JSON)

- Time Series

- Graph

YARN

Vora Spark Extensions

データロード

Local Storage

既存の開発環境が利⽤可能

SQL

3rdパーティの分析ツール

External Storage

vora

odb

c (H

AN

A w

ire p

roto

col)

jdbc Data Science Predictive

BusinessIntelligence

VisualizationApps

Kubernetes: On-premise* 2.1 planned

OperatorSAP HANA Platform

cv cv

Data Processing Engine

Smart Data Access

Virtual TableIn-Memory Table

JDBC/ODBC

Page 23: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

SAP Vora Tools & Modeling

Page 24: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

24CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Tools & ModelingSAP Vora Tools

Vora Thriftserver(JDBC)経由の接続

Page 25: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

25CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Tools & ModelingUser Management

Vora Toolsへのログインユーザーの管理

パスワード変更 ユーザー追加

Page 26: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

26CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Tools & Modelingdata browser

データの確認とデータのCSV Export

Time Series

Document Store

Graph

Relational

Disk

Page 27: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

27CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Tools & Modelingdata browser – Chart Viewer

チャートの描画設定(バーチャート)

ラインチャート

パイチャート

Page 28: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

28CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Tools & Modelingdata browser – Graph Viewer

グラフデータのサマリー

グラフネットワークの表⽰(Visualization)

Page 29: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

29CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Time Seriesデータの表⽰

スライダーバーの表⽰

Time Seriesの描画設定

SAP Vora Tools & Modelingdata browser – Time Series Viewer

Page 30: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

30CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Tools & ModelingSQL Editor

SQLの経過時間の確認

コード補完を備えたSQLの実⾏環境

SQLの結果のCSV Export

トークンツールチップ

SQL Editorからチャート描画

Page 31: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

31CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

各種ビューをGUIで作成

GUIからビューの作成- ジョインキーのマップ- 出⼒カラムの選択- Calculated Column

- Assign Semantics

データのプレビュー

SAP Vora Tools & ModelingView (Modeler)

Page 32: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

Use Case (for Developer)

Page 33: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

33CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

• ビッグデータの分析基盤として1) Hadoop内のRawデータの分析(Spark & Vora)

1) Tips) HiveテーブルからVoraテーブルへのコンバート

2) Spark DataFrame programing

3) Spark SQL

4) Pure SQL (JDBC, ODBC)

2) Hadoop内のデータとSAP HANAのエンタープライズデータの融合(Vora)

1) Spark Data source API for SAP HANA

• 経年データの効率的な管理基盤として1) Hadoop(Vora)のデータをSAP HANAから透過的に参照 (Smart Data Access)

2) SAP HANAのデータをHadoopにエージング (Data Lifecycle Manager)

Modern Data Platform Design Pattern

Page 34: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

HiveテーブルからVoraテーブルへのコンバート

Page 35: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

35CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

HiveテーブルからVoraテーブルへのコンバートHive Import

Hive Cluster

Files

Spark…

Files

Spark

Files

Spark

Hive Hive Hive

Kubernetes Cluster (Vora Cluster)

CREATE TABLE VORA_IMPORTED USING com.sap.spark.engines.relationalOPTIONS ( hivetable "myhivetable",hivefiles "part.csv”

);

Page 36: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

Spark DataFrame Programing

Page 37: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

37CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Spark DataFrame using ScalaSpark SQLContext

SQLContextの⽣成

データソースAPIとして”spark-csv”を使⽤

スキーマの定義

クエリー

集計クエリー

データのロード

Page 38: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

38CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Spark DataFrame using ScalaSAP Vora SQLContext

Vora⽤のSQLContextの⽣成

データソースAPIとしてSAP Voraのインメモリーリレーショナルエンジンを使⽤

スキーマの定義

クエリー

集計クエリー

データのロード

普通のSparkとの違いはココ

Page 39: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

Spark SQL

Page 40: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

40CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Spark SQL using ScalaSpark SQLContext

SQLContextの⽣成

データソースAPIとして”spark-csv”を使⽤

HDFS上のCSVファイルからテーブルを作成

クエリー

集計クエリー

Page 41: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

41CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Spark SQL using ScalaSAP Vora SQLContext

HDFS上のCSVファイルからVoraテーブルを作成

クエリー

集計クエリー

Vora⽤のSQLContextの⽣成

データソースAPIとしてSAP Voraのインメモリーリレーショナルエンジンを使⽤

普通のSpark SQLとの違いはココ

Page 42: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

Pure SQL

Page 43: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

43CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

> cd /opt/vora/lib/vora-spark/bin> ./beeline-sap.shbeeline> !connect jdbc:hive2://localhost:19123 user password sap.hanavora.jdbc.VoraDriver0: > SELECT id, name, email FROM testTable where id = 1;+-----+------------------+------------------------+--+| id | name | email |+-----+------------------+------------------------+--+| 1 | Jaylan Botsford | [email protected] |+-----+------------------+------------------------+--+1 row selected (1.851 seconds)

0: > SELECT name, count(*) AS cnt FROM testTable where id between 1 and 9 GROUP BY name;+--------------------+------+--+| name | cnt |+--------------------+------+--+| Favian Bosco | 1 |...+--------------------+------+--+9 rows selected (1.756 seconds)

Spark SQL via JDBC (SAP Vora)

Page 44: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

HadoopのデータとSAP HANAのエンタープライズデータの融合

Page 45: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

45CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

HadoopのデータとSAP HANAのエンタープライズデータの融合Spark SQLによりSAP HANAのデータを透過的にアクセス

HDFS上のCSVファイルからSAP Voraテーブルを作成

SAP HANAへSparkから透過的にSQLを実⾏、DataFrameとしても実⾏可能

Vora⽤のSQLContextの⽣成

データソースAPIとしてVoraのSAP HANA⽤APIを使⽤

SAP HANAへの接続情報

Page 46: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

46CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

HadoopのデータとSAP HANAのエンタープライズデータの融合Vora ToolsによりGUIでSAP HANAのデータを透過的にアクセス

Page 47: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

Hadoop(Vora)のデータをSAP HANAから透過的に参照 (SAP HANA Smart Data Access)

Page 48: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

48CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Hadoop(Vora)のデータをSAP HANAから透過的に参照 (Smart Data Access)SAP HANAのSmart Data AccessによりHadoop(SAP Vora)のデータに透過的にアクセス

Page 49: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

SAP HANAのデータをHadoopにエージング

Page 50: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

50CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP HANAのデータ(メモリー)フットプリントを最適化し、テーブルを再編成する

� アプリケーションは、特定の期間のデータのみを更新(例 Hot Store)。これは、”Current”とマークされたオープンな期間のレコードを意味します

� クローズな期間の”Aged”データはアーカイブされ、別のストレージに移されます

� SAP HANA – Hadoop(SAP Vora*)間のデータの移動ルールを定義します� データ移動ルールはSAP HANAのプロシージャとして出⼒され、⼤量

データの移動を可能にします� データ移動のプロシージャはSAP Data Warehousing Foundationの

タスクチェーンの⼀部としてスケジュール実⾏が可能です� Data Lifecycle Managerでルールに従ったデータ削除などのハウス

キーピング処理も可能* restricted shipment with DWF 2.0 SP02

In-Memory

(Hot Store)

Smart Data Access

Virtual Table

データ移動

SAP Vora *

Hadoop

Cold Store

Union View

アプリケーション

SAP HANAのデータをHadoopにエージングSAP Data Warehousing Foundation

Page 51: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

SAP Data Hub debuts at SAP TechEd 2017

Page 52: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

52CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

企業が直⾯する課題は、ERP、データ・ウェアハウス、データ・レイクにある⼤きなビッグデータなどの多くのデータ・サイロが存在することです。これらの異なるデータセットのすべてを理解し、相互に関連付けて処理し、新しいアプリケーションを開発し、分析し、インサイトを⾼めることができますか?それには、異なるデータセットを流れるデータのパイプライン全体を管理する必要があります。これがSAP Data Hubの機能です。

SAP Data Hub

Page 53: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

53CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Data Hub

Kubernetes Cluster

Connected SystemsSAP Integration & Open Connectivity

SAP Data ServicesData Services Job

Heterogeneous Landscapes

SAP VoraContainerized

SAP Data Hub PipelinesServerless infrastructure

ApplicationSAP HANA, XS Advanced Model

Hadoop Cluster

SAP HANASDI Flowgraphs

Data Integration into SAP HANA

SAP BWProcess Chains

Data Warehousing ProcessesRemoteOrchestration

DB Engines

Scheduling& Monitoring

Data Pipelines

AccessPolicies

Platform Services

UAA Jobs Git …

Relational Time-Series

Graph Document

Flow-based applications

CustomOperators

Built-inConnectors

Scripting(JS, Python)

Templates

Data Discovery& Profiling

3rd party and Open SourceDirect Connectivity

Storage, Messaging, APIs

SAP Data Hub Adapter

Metadata Catalog

VORA Spark Extensions

SAP Vora in SAP Data Hub

Page 54: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

And more …

Page 55: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

55CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP Vora Developer Edition

インストールオプション� Windows, Mac OS X向け

仮想マシンパッケージ� パブリッククラウド向け

Cloud appliance library (CAL)

� AWS向けAMIとしての提供

SAP Vora, Developer Editionは無償で利⽤可能なSAP Voraの開発⽤バージョン。クラウド、ラップトップやサーバーにインストール可能。アプリケーション開発をクイックスタート。

SAP Vora開発⽤今すぐダウンロード!!!

SAP Vora Developer Edition� SAP Voraの全機能を利⽤可能

– 主要なHadoopディストリビューション(Cloudera, MapR, Hortonworks)をサポート

– In-Memory リレーショナルエンジンの他にTime Series、グラフ、ドキュメント、ディスクなどの各種エンジンをサポート

– グラフィカルなモデリングツールをサポート� コミュニティサポート

SAP Voraへの無償アクセス | 開発者に機能制限なしの利⽤ | 迅速なアプリケーション開発

開発者へのメリットhttps://www.sap.com/developer/topics/vora.html

Page 56: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

56CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

インストールオプション� Windows, Mac OS X向け

仮想マシンパッケージ� Linux (SUSE and Red Hat)向け

バイナリーパッケージ� パブリッククラウド向け

Cloud appliance library (CAL) cal.sap.com

SAP HANA, express editionは無償で利⽤可能なSAP HANAのスリムバージョン。メモリ32GBまでクラウド、ラップトップやサーバーにインストール可能。アプリケーション開発をクイックスタート。

SAP HANA無償版今すぐダウンロード!!!

SAP HANA, express edition� 32GBまで無償。128GBまでの有償版への

アップグレードオプション� SAP HANAコア機能を利⽤可能� 認定ハードウェア不要 RAM 8GB以上� コミュニティサポート

SAP HANAへの無償アクセス | 迅速なアプリケーション開発 | 有償版アッグレードへの柔軟性

開発者へのメリット

SAP HANAに触れてみよう! SAP HANA, express editionクイックインストールガイドhttp://www.sapjp.com/blog/archives/15000

https://www.sap.com/japan/developer/topics/sap-hana-express.html

SAP HANA, express edition

Page 57: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

57CUSTOMER© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ

SAP HANA入門書籍のお知らせ

はじめに第1章 SAP HANAアーキテクチャ概要

1-1. SAP HANAプラットフォーム1-2. アプリケーションサービス1-3. SAP HANAの各種エンジン1-4. インテグレーションサービス1-5. SAP HANA デリバリーモデル

第2章 SAP HANA on IBM Power Systems2-1. SAP HANAに最適化されたIBM Power Systems2-2. ユースケース2-3. IBM Power Systems の機能と特徴2-4. まとめ

第3章 SAP HANAデータベース基盤アーキテクチャ3-1. SAP HANAデータベース基盤のアーキテクチャ概要3-2. ハードウェアのイノベーション3-3. カラムストア3-4. デルタマージ3-5. ワークロード管理3-6. 並列処理3-7. パーティショニング3-8. データティアリング3-9. データ仮想化(フェデレーション)3-10. Hadoop連携とSAP Vora3-11. 仮想データモデル(Virtual Data Model)3-12. SAP HANAのプロセス(サービス)アーキテクチャ3-13. マルチテナントデータベースコンテナー

3-14. データの永続化レイヤー3-15. バックアップ & リカバリ3-16. ⾼可⽤性のための仕組み3-17. セキュリティ3-18. SAP HANAへの接続(管理クライアント)3-19. SQL & SQLScript3-20. SAP HANAのトランザクション3-21. SAP HANAのインデックス3-22. SAP HANA cockpit (Performance Management Tools)

第4章 SAP HANAの使い⽅4-1. SAP HANAの基本操作4-2. インフォメーションビューの作成4-3. SAP HANAの起動・停⽌4-4 バックアップとリカバリ

第5章 SAP HANA, express editionでの環境構築5-1. SAP HANA, express editionとは5-2. SAP HANA, express edition 構築環境の全体構成5-3. SAP HANA, express edition 環境構築の準備5-4. SAP HANA, express edition の起動と停⽌5-5. SAP HANA studioのインストール5-6. SAP HANA cockpitの設定5-7. SAP HANA clientのインストール5-8. SAP Web IDEの設定5-9. SAP HANA⽤対話型学習⽤コンテンツ(SHINE)

補⾜ オンライン技術情報の紹介

2017/9/30出版

[著] HANA on Power出版チーム

SAP HANA ⼊⾨Powered by IBM Power Systems

[発⾏] 翔泳社

Amazon ( https://goo.gl/RMvZwv )

翔泳社オンラインショップ ( https://goo.gl/Mmroxe )

データ管理、分析インテリジェンス、アプリ開発の強化を実現する。デジタル変⾰のためのプラットフォーム「SAP HANA」の⽇本初の本格的解説書

Page 58: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

Thank you.

Page 59: HortownWorks Data Platform Conferencedataplatform.jp/program/files/C-5.pdf · customer ビッグデータからビジネスの潜在能⼒を解き放つsap vora sapジャパン株式会社

No part of this publication may be reproduced or transmitted in any form or for any purpose without the express permission of SAP SE or an SAP affiliate company.

The information contained herein may be changed without prior notice. Some software products marketed by SAP SE and its distributors contain proprietary software components of other software vendors. National product specifications may vary.

These materials are provided by SAP SE or an SAP affiliate company for informational purposes only, without representation or warranty of any kind, and SAP or its affiliated companies shall not be liable for errors or omissions with respect to the materials. The only warranties for SAP or SAP affiliate company products and services are those that are set forth in the express warranty statements accompanying such products and services, if any. Nothing herein should be construed as constituting an additional warranty.

In particular, SAP SE or its affiliated companies have no obligation to pursue any course of business outlined in this document or any related presentation, or to develop or release any functionality mentioned therein. This document, or any related presentation, and SAP SE’s or its affiliated companies’ strategy and possible future developments, products, and/or platform directions and functionality are all subject to change and may be changed by SAP SE or its affiliated companies at any time for any reason without notice. The information in this document is not a commitment, promise, or legal obligation to deliver any material, code, or functionality. All forward-looking statements are subject to various risks and uncertainties that could cause actual results to differ materially from expectations. Readers are cautioned not to place undue reliance on these forward-looking statements, and they should not be relied upon in making purchasing decisions.

SAP and other SAP products and services mentioned herein as well as their respective logos are trademarks or registered trademarks of SAP SE (or an SAP affiliate company) in Germany and other countries. All other product and service names mentioned are the trademarks of their respective companies. See http://global.sap.com/corporate-en/legal/copyright/index.epx for additional trademark information and notices.

© 2017 SAP SE or an SAP affiliate company. All rights reserved.