aws のデータ分析入門œ¬セッションの 的 •...
TRANSCRIPT
©2017,AmazonWebServices,Inc.oritsAffiliates.Allrightsreserved.
アマゾン ウェブ サービス ジャパン 株式会社伊藤 英豪2017/6/2
AWS のデータ分析⼊⾨
本セッションの⽬的
• 従来のトラディショナルな DWH/BI の各種課題に対して、AWS のサービスとして何があり、どのように既存課題へのソリューションとなり得るのか、その全体像を理解して頂くための AWS 初⼼者向けのセッションとなります。
• セッション中で触れる AWS サービスは多岐に及ぶため、個々のサービス詳細には触れず簡単な紹介となる点、ご了承ください。
Ø 本セッションでは、IoT, Direct Connect, AI サービス等は含みません。
アジェンダ• ⼀般的なデータ蓄積・分析環境の課題• データ蓄積・保管の課題と AWS での対応• データ収集の課題と AWS での対応• データ加⼯等バッチ処理の課題と AWS での対応• データウェアハウスの課題と AWS での対応• データマートでの RDS の利⽤• ⼤量データに対するクエリーの課題と AWS での対応• データ分析・可視化の課題と AWS での対応• AWS の各種サービスでの課題解決• お客様事例
⼀般的なデータ蓄積・分析環境の論理構成•以下に⼀般的なトラディショナルなデータ蓄積・分析環境の論理構成を掲載
アドホックな分析・可視化
DWHセントラルデータウェアハウス
⼀時的な蓄積ローデータの
蓄積保存
加⼯後データの保存
収集様々なデータソースからのデータを収集
より⾼度な分析
データマート特定の抽出・集約後データ⽬的別
データ等
定型分析レポーティング
加⼯バッチ処理、ETL等
⼀般的なデータ蓄積・分析環境の課題•以下に⼀般的なトラディショナルなデータ蓄積・分析環境の論理構成を掲載
アドホックな分析・可視化
DWHセントラルデータウェアハウス
⼀時的な蓄積ローデータの
蓄積保存
加⼯後データの保存
収集様々なデータソースからのデータを収集
より⾼度な分析
データマート特定の抽出・集約後データ⽬的別
データ等
定型分析レポーティング
加⼯バッチ処理、ETL等
データ鮮度の低下
バッチ処理に時間がかかる
全てのデータを保管できない
多額のコストと導⼊期間がかかる
従来できていなかった⼤量データへのクエリー
ライセンスや展開コストが⾼額
⼀般的なデータ蓄積・分析環境の課題• ROIがはっきりしないデータ分析の領域に、最初から多額の投資
はできない
• 将来のデータ量増⼤を考慮にしたハードウェア調達では⾮常にコスト⾼、また調達期間も数か⽉〜半年以上と⻑期化
• 直ぐに始められない
クラウドを利⽤して⼩さく初めて効果を検証しながら必要に応じて増強していくといったスタイル
が今⽇のトレンドに
AWS の各種サービスのマッピング例
収集
バッチファイル転送• S3 CPコマンド• HULFT等• ファイル転送
蓄積・保存データレイク
クレンジング後データ。加⼯後・
集計後データ
加⼯・分析
DWH
データマート
アドホックな分析・可視化
より⾼度な分析
定型分析・レポーティング
Amazon AI Services
RedshiftSpectrum
ローデータ
VPNAWS Direct
Connect
Amazon Kinesis
AWS DMS
AWSIoT
Amazon S3
Amazon EMR
Amazon Redshift
AmazonRDS
AmazonQuickSight
AmazonQuickSight
AmazonAthena
多数の利⽤者
少数の利⽤者
ポイント:マネージドサービスで運⽤の負荷を低減
電源・ネットワークラッキング
HWメンテナンス
OSパッチ
ミドルウェアパッチ定形運⽤設計
スケールアウト設計
ミドルウェア導⼊
OS導⼊
アプリケーション作成
オンプレミス 独⾃構築 on EC2 AWSマネージドサービス
お客様がご担当する作業 AWSが提供するマネージド機能
電源・ネットワークラッキング
HWメンテナンス
OSパッチ
ミドルウェアパッチ定形運⽤設計
スケールアウト設計
ミドルウェア導⼊
OS導⼊
アプリケーション作成
電源・ネットワークラッキング
HWメンテナンス
OSパッチ
ミドルウェアパッチ定形運⽤設計
スケールアウト設計
ミドルウェア導⼊
OS導⼊
アプリケーション作成
データ蓄積・保管の課題とAWS での対応典型的な課題
• データ保管庫の可⽤性確保、パフォーマンス確保が容易ではない
• 全てのデータを保管できない
• 結果的に過去データの廃棄が発⽣
• もっと過去データも⾒たいといったニーズを切り捨て
AWS での改善案
• S3 に格納する
• 従来の基幹系システムからのマスターやトランザクションデータのみならず、今後発⽣する様々なローデータ(センサーの取得したデータ、スマホ⾏動履歴、オープンデータ等々)も全て S3 に格納
• S3 に格納することでデータの保管コストを圧縮すると共に、データの耐久性を⾮常に⾼い状態に保てる
D
Amazon Simple Storage Service (S3)
• ⾼い堅牢性• 99.999999999%• 3箇所以上のデータセンターに
⾃動複製することで⾼い堅牢性を実現
• 容量無制限• 1ファイル最⼤5TBまで
• 安価なストレージ• 利⽤した分のみ課⾦• ⽉額1GB / 約3円
(0.025USD)
• スケーラブルで安定した性能• データ容量に依存しない性能
クラウド時代のストレージ• マネージドオンラインストレージサービス• ユーザはデータを安全に、どこからでも、容量制限なく保存可能• 様々なAWSサービスと連携するためのハブとなるストレージ
データレイクとは
• 今⽇⼀般的になりつつある考え⽅• 従来困難だった膨⼤な量と様々な
種類のデータ保管を⼀箇所で蓄積することで後々にデータから価値を引き出すことを可能にする
• データを捨てるリスクから解放
データウェアハウス(倉庫)とデータレイク(湖)
精製され
直ぐ飲める形にパッケージング
倉庫に整然と配置
未精製で源泉をそのまま蓄積
そのままでは飲料に適していない
各種ミネラルもゴミも混在
AWS でのデータレイク – S3 セントラル
各種センサー
DB
各種クライアント
各種データベース
各種モバイルデバイス
Amazon S3
Amazon Glacier
Amazon EMR
cluster
Amazon Redshiftcluster
各種サーバー
AmazonRDS
従来のアーキテクチャでは、DWH やRDB、あるいは、HDFS ⾃体が恒久的なデータ蓄積・保存先となりがち
One Fact が様々な実体に複写されている状況
ストレージとデータ処理の結合度が⾼いため、ストレージ容量拡張や、CPUやメモリ容量拡張の際に⼿間が発⽣
恒久的な永続化の主体は、DWH やHadoop (HDFS) ⾃体ではなく、S3 に⼀元化
必要な時にRedshift や EMR のクラスターを⽣成して、不要になれば削除するといったライトウェイトな運⽤が可能
S3にローデータが保存されていれば分析⽤途別の後続での利⽤が容易に実現可能
Amazon EMR
cluster
Amazon Redshiftcluster
データ収集の課題と AWS での対応リアルタイム分析と蓄積型の分析では、必⽤なテクノロジーが異なる
典型的な課題
• データの鮮度が低い
• バッチファイルの⽇次等でのデータ収集等
• リアルタイムでの意思決定ができない
• 様々なセンサーやモバイルデバイスからの⼤量データ収集等はそもそもアーキテクチャ上、考慮されていない
AWS での改善案
Kinesis• 様々なセンサーが取得する⼤量なデータ、スマホ
⾏動履歴、各種ログに対しては、ストリーミングデータ収集サービスである Kinesis を利⽤してS3 に格納
DMS• 従来の基幹系システムの RDB に格納されている
マスターやトランザクションデータも、AWS Database Migration Service (DMS)を使⽤することで、ニアリアルタイムでデータを S3 に格納したり、直接、Redshift に格納が可能
D
Amazon Kinesisストリーミングデータを収集・処理・配信するためのマネージドサービス群
Amazon Kinesis Streams
ストリーミングデータを処理または分析する独⾃のカスタムアプリケーションを構築
Amazon KinesisAnalytics
ストリーミングデータを標準的な SQL クエリーで
簡単に分析
Amazon Kinesis Firehose
膨⼤な量のストリーミングデータを Amazon S3、
Amazon Redshift、Amazon Elasticsearch に
簡単にロード※ Kinesis Firehose と Kinesis Analytics は、北バージニア、オレゴン、、アイルランドリージョンで提供
AWS Database Migration Service (DMS)
特徴 (https://aws.amazon.com/jp/dms/)
オンラインでの継続的レプリケーションに対応し、最⼩限のダインタイムで移⾏を実現RDBMS、S3、NoSQLなどの豊富な対応プラットフォームソースDBへの変更はほぼ不要マルチAZに対応した⾼い信頼性
マネージド型のデータベース移⾏サービス
オンプレミスDB
DB on EC2
RDS
オンプレミスDB
DB on EC2
RDSDMS
S3
データ加⼯等バッチ処理の課題とAWS での対応
典型的な課題• バッチ処理に時間がかかる
• 繁忙期等、データ量増⼤でバッチウィンドウを超過するリスクがある
• 既存バッチアプリケーションサーバーや ETL サーバーのスケーリングや運⽤管理が必要
D
データ加⼯等バッチ処理の課題とAWS での対応AWS での改善案従来通り
• バッチアプリケーションサーバーによるバッチ処理(Java Batch等のバッチ処理フレームワークの利⽤や、ストアードプロシージャ呼び出し等)の実施や、ETLツールの利⽤
• ただし、この場合、バッチアプリケーションサーバ―やETLサーバーのインスタンス起動や処理のリランや各⽤途別サーバー⾃体の可⽤性確保等の検討が従来のオンプレと同様に発⽣してしまう
EMRへのバッチ処理のオフロード• Presto, HiveQL や、 Spark SQL 等の利⽤による⼤量データに対する⾼速なバッチ処理実⾏
フルマネージドのETLサービスである AWS Glue の利⽤• データストア間でデータ移動を簡単に⾏うための完全マネージド型 ETL サービス• 困難で時間のかかるデータ検出、変換、マッピング、ジョブスケジューリングのタスクを簡単に⾃動実
⾏可能に• 現在プレビュー中 https://aws.amazon.com/jp/glue/
D
Amazon Elastic MapReduce (EMR)
特徴 (http://aws.amazon.com/jp/elasticmapreduce/)
• フルマネージド:クラスタの構築から構成変更、破棄まですべてマネージしてくれる
• ⾃動化:Amazon EMRのAPIを利⽤するとジョブに合わせてクラスタを起動し、実⾏させ、終了したらクラスタを破棄、というような⾃動化が容易
• AWS:Amazon S3やAmazon DynamoDBからデータの⼊出⼒が可能
フルマネージドなHadoopを提供利⽤者は運⽤を気にせずHadoopアプリケーションの開発や利⽤が可能
Hadoop
Hadoop
Amazon EMRクラスタ
AWSサービスとの連携
EMR でのクラスタ起動イメージ• マネージメントコンソールから数回のクリックで Hadoop のクラスタが起動可能• Hadoop周辺エコシステムの進化にもタイムリーに追従しており設定も容易
EMRFS: Amazon S3 を HDFSの様に扱う
計算資源とストレージを分離できる• “s3://”と指定するだけで利⽤可能
クラスタのシャットダウンが可能クラスタを消してもデータは消えない複数クラスタ間でデータ共有が簡単
• クラスタのバージョンアップ検証が並⾏できるデータの⾼い耐久性Amazon S3の機能がそのまま使える
• 例: 古いデータはAmazon Glacierに⾃動で移動させる
Amazon S3
Amazon EMR
cluster
Amazon EMR
cluster
AWS Glue (プレビュー段階)データストア間でデータ移動を簡単に⾏うためのフルマネージド型 ETL サービス
• データ検出、変換、マッピング、ジョブスケジューリングのタスクを簡単に⾃動化可能
• Amazon S3、Amazon RDS、Amazon Redshift と統合し、JDBC 準拠のデータストアに接続することが可能
• データソースを⾃動的にクロールし、データフォーマットを識別してからスキーマと変換を提案するため、データフローを⼿作業でコーディングする必要がなくなる
• ETL ジョブをあらゆる規模ですばやく効率的に実⾏することが可能
• 管理するサーバーはなく、ETL ジョブによって消費されるリソースの分しか料⾦は発⽣しない
プレビュー中:https://aws.amazon.com/jp/glue/
AWS Glue 操作イメージ
データカタログを構築
データ変換を⽣成、編集
ジョブをスケジュールして実⾏
データウェアハウスの課題とAWS での対応
典型的な課題
• データ容量の問題で、全てのデータを保管できない(過去データの廃棄等が発⽣)
• データ保管庫⾃体の可⽤性確保や増強が⼤変
• データウェアハウス専⽤のアプライアンスの導⼊には多額のコストが発⽣
• また導⼊までには多くの期間と設計作業を要する
AWS での改善案
• データ蓄積の左記のような制約は S3 をデータレイクとして利⽤することで容易に解消可能
• 既存オンプレミスの時のデータウェアハウスに伴うコストや導⼊期間の問題は、Redshift にて解決可能
D
Amazon Redshift の特徴
Amazon Redshift
フルマネージドなクラウド上のDWHサービス
ペタバイト級までスケールアウト
多数の周辺ソフトPostgreSQL互換
$ 935 /TB/年最⼩$ 0.25 /時から
データの暗号化各種第三者認証に準拠
(SOC1、SOC2、SOC3、FedRAMP、HIPAA、PCI DSS レベル 1等)
※費⽤は2017年5⽉時点での東京リージョンのものです
⾼速
スケーラブル
低コストシンプル
セキュア
375
623
列指向カラムナー型ストレージ
データ圧縮
ゾーンマップ
MPP & 列指向
MPP : Massive Parallel Processing• 1つのタスクを複数のノードで分散して実⾏する
仕組み• Redshiftではリーダーノードがタスクをコン
ピュートノードに分散して実⾏• ノードを追加する(スケールアウト)でパフォー
マンス向上
10Gb Ether
JDBC/ODBC
Redshift⼤規模分散処理で
分析SQLを⾼速実⾏
拡張性 数百GBから数PBまで拡張可能
シングルノード
クラスター 2 – 32ノード
クラスター 2 – 128ノード
ds2.xlargedc1.large
ds2.8xlargedc1.8xlarge
Redshift クラスタの作成イメージマネジメントコンソールから数クリックの操作でクラスタが作成可能
Redshiftが向く⽤途と向かない⽤途向く⽤途
特化型のデータベースのため、適した⽤途に使うことでパフォーマンスを発揮
Redshiftに向くワークロード• 巨⼤なデータ・セット(数百GB〜ペ
タバイト)• 1つ1つのSQLが複雑だが、同時実⾏
SQLは少ない• データの更新は⼀括導⼊
ユースケース• データウェアハウス(DWH)• ユーザがクエリーを作成する(⾃由ク
エリー)(BI等)
向かない⽤途
SQLの並列実⾏数が多い(※同時接続数ではなく同時実⾏数)• RDS(MySQL ,PostgreSQL, Oracle,
SQL Server)を検討極めて短いレーテンシが必要なケース• ElastiCache (インメモリDB)やRDSを
検討ランダム、かつパラレルな更新アクセス• RDSもしくはDynamoDB (NoSQL)を
検討巨⼤なデータを格納するが集計等はしない• DynamoDBや⼤きいインスタンスの
RDSを検討
データマートでの RDS の利⽤• Redshift は⼤量ユーザーからの同時クエリーは不向き
• レポーティング業務(前⽇末段階の販売実績レポート等)では特定時間(朝⼀や⼣⽅等)に⼀⻫にアクセスが発⽣
• クエリーの内容はアドホックで⾮定型と⾔うよりも、定型的
• 上記のようなニーズに対しては Redshift への直接クエリーではなく、予め抽出or 加⼯されたデータをデータマートとして RDS に出⼒し、このデータマートに対するクエリーが望ましい
• なお、Redshift との SQL の親和性から RDS PostgreSQL か、今後登場が期待されている Amazon Aurora PostgreSQL-Compatible Edition が相応しいといえる
D
⼤量データに対するクエリーの課題とAWS での対応
典型的な課題
• データが⼤量なため従来はクエリー対象データをあらかじめ間引く必要があった
• 本当の意味での全量データを対象にした分析はデータ容量の問題のため事実上できていなかった
• ⼀旦、ローデータをウェアハウスに格納する⼿間が発⽣していた
• そのためのデータロードへの処理時間がオーバーヘッドとなっていた
AWS での改善案
ローデータに対するアドホッククエリーを可能に• データレイクである S3 に対する直接的なクエ
リーの実施• DWH(Redshift)や、データマート(RDS)へ
のデータ移送をスキップすることが可能• データの重複保持を排除
⼿法としては主に下記3種• EMR File System (EMRFS) を使⽤した
Hadoop エコシステムの利⽤• Amazon Athena の利⽤• Redshift を経由した S3 へのクエリーの実⾏
(Redshift Spectrum の利⽤)
D
Amazon Athena
特徴 (https://aws.amazon.com/jp/athena/)
• サーバーレスで運⽤コストがかからない• S3上のデータに対して直接クエリできる• ⼤規模なデータに対しても⾼速に結果を返す• Prestoベースで標準SQLが実⾏可能• ⾛らせたクエリのぶんだけ従量課⾦• スキャンされたデータ1TBあたり5$• 北バージニア、オハイオ、オレゴンリージョンで提供
S3に格納されているローデータへのダイレクトクエリーサーバーレスのインタラクティブなクエリサービス
Redshift Spectrum⼤規模スケールアウトの処理層(Spectrum層)を使い、S3上のデータに対してSQLを実⾏する機能を提供
• S3上に置いたファイルを外部テーブルとして定義し、Amazon Redshiftのクエリがそのまま活⽤できる• Amazon Redshiftクラスター上のデータと、S3上の
データをジョイン可能
• データローディングにかかる⼿間、時間が不要
• 同じS3データセットに対し、⾊々なノードタイプ、サイズで作ったAmazon Redshiftクラスターからアクセス可能
• 北バージニアリージョン等で提供
S3 各種データ(CSV,Parquet等)
Spectrum層
SQL
アドホック・クエリーのバリエーションAmazon S3
Amazon EMR
Amazon Redshift or RDS
EMRFS
Amazon Redshift
SQL(PRESTO, HiveQL, Spark SQL)
SQL
SQLSQL
Redshift Spectrum を使⽤した場合頻繁にアクセスしないデータをS3においたままRedshift から透過的に S3 をアクセス可能(S3に事前に格納しておく必要がなく、容量も節約できる)
Amazon Athena
RDS, Redshift への⼀般的なSQLアクセス事前に S3 からデータをインポートしておく必要がある
EMR への⼀般的なSQLアクセスEMRFSにより事前に EMR の HDFS へのデータのコピーは不要
Athenaでの S3 への直接の SQL アクセスいかなる事前のデータコピーも不要ただし、利⽤時にスキーマ定義が必要
Spectrum層
データ分析・可視化の課題とAWS での対応
典型的な課題• デスクトップまたはオンプレミスが主• ソフトウェアの初期ライセンス費⽤が⾼額
になりがち• インフラストラクチャやメンテナンスにコ
ストがかかる• 展開時間が⻑期化し易い• 効率的に拡張しない• 操作が複雑
AWS での改善案
• 利⽤者の慣れや既存ライセンスの関係から、従来の BI ツールもそのまま AWS でも利⽤可能• ただし、この場合、BIサーバーのインスタンス起
動や処理のリランや可⽤性確保等の検討が従来のオンプレと同様に発⽣してしまう
• 完全マネージド型 BI ツール:Amazon QuickSight の利⽤• 初期コストなくブラウザからすぐに始めら
れる• スマホアプリからもデータ可視化が可能• 従来のようなBIサーバの運⽤管理が不要• 多様なデータソースへのアクセスが可能• 低コスト、無料利⽤枠あり• シンプルな操作性
D
データ分析・可視化は任意のツールが選択可能
EC2+BIツール多彩なパートナーソリューション・OSSをEC2上で活⽤
Amazon QuickSight専⾨家不要のBIサービスAWS内外のデータソースにアクセス
Amazon QuickSight
特徴 (https://quicksight.aws/)
• 1ユーザあたり$9/⽉からの安価な費⽤• 専⾨家不要でデータ分析がすぐに始められる• AWS内外のデータ・ソースと連携• SPICEエンジンによる⾼速処理• Standard Edition
• $12/ユーザ/⽉ もしくは$9/ユーザ/⽉(1年間契約の場合)
• Enterprise Edition• $24/ユーザ/⽉ もしくは$18/ユーザ/⽉(1年間契約
の場合)• 北バージニア、オハイオ、オレゴン、アイルランド
リージョンで提供
⾼速SPICEエンジンと直感的な操作、専⾨家不要のBI
Amazon QuickSight の多様なデータソースAWS上のデータソースを⾃動的に発⾒多様なデータソースに対応
• Amazon RDS (Aurora, MySQL, MariaDB, PostgreSQL, SQL Server)
• Amazon Redshift• Amazon Athena• オンプレミスやEC2上のRDB
(MySQL, MariaDB, PostgreSQL, SQL Server)
• SalesForce.com• Amazon S3上に置かれたファ
イル、もしくはPC上のファイル(CSV, TSV, CLF, ELF, Excel)
Amazon RDS, Aurora Amazon Redshift Amazon
AthenaAmazon S3
Flat Files
SPICESuper-fast, Parallel, In-memory, Calculation Engine
• インメモリ処理に最適化された⾼速データベース
• カラムナ:1/2~1/4のサイズに圧縮
• フルマネージド:運⽤管理やライセンスは不要
• RDBのデータやファイルをSPICEに保存することで⾼速なクエリを実現
• QuickSight1ユーザあたり10GBのSPICE⽤領域が利⽤可能(追加可能)
Amazon Redshift
Amazon RDS
Amazon Athena
Amazon S3
Amazon QuickSight 利⽤イメージ新しいデータセッ
トの作成 データセット⼀覧 SPICEの使⽤量
ディメンジョンカラム
ファクトカラム グラフ種類⼀覧
AWS の各種サービスでの課題解決
AWS の各種サービスのマッピング例
収集
バッチファイル転送• S3 CPコマンド• HULFT等• ファイル転送
蓄積・保存データレイク
クレンジング後データ。加⼯後・
集計後データ
加⼯・分析
DWH
データマート
アドホックな分析・可視化
より⾼度な分析
定型分析・レポーティング
Amazon AI Services
RedshiftSpectrum
ローデータ
VPNAWS Direct
Connect
Amazon Kinesis
AWS DMS
AWSIoT
Amazon S3
Amazon EMR
Amazon Redshift
AmazonRDS
AmazonQuickSight
AmazonQuickSight
AmazonAthena
少数の利⽤者
AWS の各種サービスのマッピング例
収集
バッチファイル転送• S3 CPコマンド• HULFT等• ファイル転送
蓄積・保存データレイク
クレンジング後データ。加⼯後・
集計後データ
加⼯・分析
DWH
データマート
アドホックな分析・可視化
より⾼度な分析
定型分析・レポーティング
Amazon AI Services
RedshiftSpectrum
ローデータ
VPNAWS Direct
Connect
Amazon Kinesis
AWS DMS
AWSIoT
Amazon S3
Amazon EMR
Amazon Redshift
AmazonRDS
AmazonQuickSight
AmazonQuickSight
AmazonAthena
少数の利⽤者バッチ処理の⾼速化
容量無制限のデータ保存
商⽤に匹敵するDWHを数回のクリックでオンデマンドで起動可能
BI ツール⾃体もサーバレス化
データ鮮度の向上
データレイクに対する直接のクエリ発⾏
AWS の各種サービスでの課題解決• ROIがはっきりしないデータ分析の領域に、最初から多額の投資
は不要
• 短期間で直ぐに始められる
• 元となるローデータがデータレイクに保存されていることにより、より良いテクノロジーが登場したタイミングで容易に導⼊可能
クラウドを利⽤して⼩さく初めて効果を検証しながら必要に応じて増強していくといったスタイルが実現可能
お客様事例
NTTドコモ様 統合DWHプロジェクト
「ペタバイト級のデータを安全にハンドリングしつつ、拡張性に富む業務分析システムを実現できました」
多くの携帯電話の中継塔によって⽣成される数ペタバイトのデータ スケールが困難で⾼価オンプレミスと連携できる安全でスケーラブルなシステムが必要
安全性を担保するために、NTTドコモ様で構築する業務系システム等は、⾼い情報セキュリティ基準をクリアすることが前提となっていた。• セキュリティ機能の充実• アクセス制御・統制• ユーザ管理・統制といった AWS の機能追加により、これらの基準をクリアするシステム構築が可能となった。
https://aws.amazon.com/jp/solutions/case-studies/docomo/
POSデータを定期的に転送
すかいらーく様 POSデータ分析
過去数年分、数⼗億件のデータに加えて、⽇に数百万件のデータを投⼊POSの⽣データを必要とする複雑な分析が、数⽇=>数秒になり、仮説検証・施策投⼊のサイクルが⾶躍的に向上
• レシート単位の売り上げ分析、商品の併売率、バスケット粗利、販促施策の費⽤対効果、時間ごとの店舗稼働率、滞在時間等を分析
Why AWS• コスト:DWHアプライアンスと⽐べて2桁安• スピード:利⽤開始までの期間が既存ソリューショ
ンの10分の1• 容易性:膨⼤なデータを扱うにもかかわらず、⾼度
なITインフラ知識が不要• スケーラビリティ:データ量が増えても
基盤の⼼配なく分析可能
国内3000店舗、年間4億⼈が利⽤するレストランのPOSデータ分析システムを、わずか1ヶ⽉で本番稼動
⾃社DC
AmazonRedshift(DWH)
Amazon S3(データ収集)
Amazon EC2(分析サーバー)
膨⼤なデータを数秒〜数⼗秒で分析
フィードバック
本部(マーケティング部⾨)
きめ細かいメッシュ、多次元の相関を加味した売上予測、販促効果分析
店舗(約3000店)要員計画、調達計画、臨時キャンペーン等に
活⽤
本部店舗
http://aws.amazon.com/jp/solutions/case-studies/skylark/http://media.amazonwebservices.com/jp/summit2014/EA-06.pdf
あきんどスシロー様ICタグ活⽤による鮮度管理、オペレーション改善データ分析の投資対効果を実機で実証
導⼊前の課題• ⼤量の活⽤されていないデータ• 投資対効果がわからず、分析システムを導⼊できず
AWSを活⽤して、「まずやってみる」を実施• 15億件のデータ分析環境を2⽇で構築。かかった費
⽤は10万円• データ分析の有⽤性を検証でき、AWS上で分析シ
ステムを本格導⼊。廃棄量を75%削減• 全国370以上の店舗、年間10億件にのぼるデータを
リアルタイムでクラウドへ収集し、活⽤• 380店舗の寿司⽫についたセンサーから送られるス
トリームデータを収集・分析し⾷材廃棄の削減、オペレーション改善
http://aws.amazon.com/jp/solutions/case-studies/akindo-sushiro/http://media.amazonwebservices.com/jp/csd20140909/BZ-02.pdf
⽶国の⾦融業規制機構Financial Industry Regulatory Authority
2007 年7⽉、NASD(National Association Of Securities Dealers、全⽶証券業協会)とNYSE(New York Stock Exchange、NYSE)の⾃主規制部⾨の統合により設⽴
⽶国のすべての証券会社が加盟する⾮政府規制機関
最⼤で750億件のイベントが毎⽇
5 PBを超えるストレージ
投資家を保護する
マーケットを清廉に保つ
アメリカの99%の株取引と70%のオプションを監視している
マーケットの再構築は10兆ものノードとエッジが含まれる
https://aws.amazon.com/jp/solutions/case-studies/finra/
Amazon EMR による対話的な分析環境
DW2
データマート(Amazon Redshift)
クエリクラスタ(EMR)
クエリクラスタ(EMR)
Auto ScaledEC2
分析アプリ
正規化ETLクラスタ(EMR)
バッチ分析クラスタ(EMR)
アドホッククエリクラスタ
(EMR)
Auto ScaledEC2
分析アプリ
ユーザ データ提供者
Auto ScaledEC2
データ投⼊
サービス
最適化ETLクラスタ(EMR)
MySQL
共有Metastore(RDS)
クエリ最適化(S3)
Auto Scaled EC2
データカタログ&派⽣
サービス
PostgreSQLPostgreSQL
参照データ(RDS)
共有データサービス
Auto ScaledEC2
クラスタ管理&ワークフロー
サービス
⽣データ(S3)
まとめ
• トラディショナルな DWH/BI のアーキテクチャを、AWS の各種サービスの組み合わせでモダナイゼーションすることで、より安く、早く、柔軟なデータ蓄積・分析環境をクラウド上で構築することが可能になります。
• 従来のアーキテクチャを継承することも可能ですが、マネージドサービスの利⽤により、運⽤負荷をより低減することが可能です。
• まだ、着⼿されていないお客様は、S3 上にデータレイクを構築し、Redshift で DWH を構築するところからトライして頂くことをお勧めします。
参考情報AWS クラウドサービス活⽤資料集https://aws.amazon.com/jp/aws-jp-introduction/
Amazon S3 開始⽅法https://aws.amazon.com/jp/s3/getting-started/
Redshift ご利⽤開始にあたってhttps://aws.amazon.com/jp/redshift/getting-started/
Amazon QuickSight | Homehttps://quicksight.aws/
AWSクラウド導⼊事例のご案内http://aws.amazon.com/jp/solutions/case-studies-jp/
AWS ソリューション Day 2017- Database Day- すでに始まっている!「クラウドへのデータベース移⾏」と「データレイクを軸としたビッグデータ活⽤」-
Database Dayとは?ユーザー企業/パートナー/AWSによる導⼊事例や活⽤動向また技術情報をご紹介するIT部⾨(エンジニア・管理者など)向けのカンファレンス
開催⽇時・会場• 2017年7⽉5⽇(⽔) 10:00~17:30 (9:30開場予定)• ⼤崎ブライトコアホール(JR⼤崎駅より徒歩5分)
セッション①基調講演 ②ブレイクアウトセッション – 2トラック構成
トラック1:データベース移⾏ (事例セッションあり)トラック2:データレイク(JAWSUG-BigData⽀部 事例セッションあり)
お申込み– https://aws.amazon.com/jp/about-aws/events/2017/solutiondays20170705/
本セッションのFeedbackをお願いします
受付でお配りしたアンケートに本セッションの満⾜度やご感想などをご記⼊くださいアンケートをご提出いただきました⽅には、もれなく素敵なAWSオリジナルグッズをプレゼントさせていただきます
アンケートは受付、パミール3FのEXPO展⽰会場内にて回収させて頂きます
ご静聴ありがとうございました。