apache atlasの現状とデータガバナンス事例 #hadoopreading
TRANSCRIPT
![Page 1: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/1.jpg)
Apache Atlasの現状とデータガバナンス事例
Hadoop Summit 2016 San Joseの報告会
http://www.yahoo.co.jp/
ヤフー株式会社 曾臻
2016年08月18日
![Page 2: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/2.jpg)
自己紹介
曾 臻(そ しん)
ヤフー株式会社
D&S データプラットフォーム本部
開発3部所属
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2
![Page 3: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/3.jpg)
アジェンダ
3Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
![Page 4: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/4.jpg)
4Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
![Page 5: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/5.jpg)
イベント概要
サンノゼ 2016年6月28日〜30日
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 5
![Page 6: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/6.jpg)
6Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
![Page 7: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/7.jpg)
全体的な所感(1)
• Hadoop技術は成熟期に入っている
• プロダクトの選択肢は増えている
• 例:SQL-On-Hadoop:Hive/HAWQ/Drill/Presto
• Hadoopクラスター構築と管理のハードルは下がった、より簡単になっている
• Ambariのクラスター管理機能は更に進化。SQL文実行もできるようになる
• Cloudbreakを使えば、あらゆるクラウドのHadoop向けの自動プロビジョニングが簡単にできる
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 7
![Page 8: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/8.jpg)
全体的な所感(2)
• ビジネス関連のセッションが増えている
• Hadoopをどう使えば利益になるか、関心度が上がっている。
• データガバナンスの重要度が上がっている
• データサイズと種類が増えているので、管理が難しくなる
• 同大会に参加した他のエンジニアと話が出来て良かった
• アメリカンフードは一日で十分。和食と中華が良いw Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 8
![Page 9: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/9.jpg)
9Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
![Page 10: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/10.jpg)
Apache Atlasとは?
• 一言:データガバナンスのための基盤です
• Atlas helps customers discover information about data objects, their meaning, location, characteristics, and usage.
• Designed to exchange metadata with other tools and processes within and outside of the Hadoop stack, thereby enabling platform-agnostic governance controls that effectively address compliance requirements
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 10ソース:https://jp.hortonworks.com/apache/atlas/
![Page 11: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/11.jpg)
Apache Atlasアーキテクチャ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 11
4つのキーポイント:• Data Lineage• Agile Data Modeling• REST API• Exchange
ソース: http://www.slideshare.net/HadoopSummit/top-three-big-data-governance-issues-and-how-apache-atlas-resolves-it-for-the-enterprise
![Page 12: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/12.jpg)
データガバナンスの目的
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 12
• 組織はデータガバナンスによって、データの情報を把握したい。例えば:
• 我々の情報について何を知っている?
• このデータはどこから来ている?誰が使える?
• このデータは会社のポリシーとルールに従っているか?
![Page 13: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/13.jpg)
Apache Atlasロードマップ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 13
ソース:https://jp.hortonworks.com/apache/atlas/
• 去年年末、Atlas 0.6について検証した• HiveからTable/Column情報をイン
ポート出来た• Lineage情報は表示可能• インポートした情報を検索できる• UI、REST APIを使ってAtlasにため
たメタデータのR/W操作可能• 今回のリリース
• Dynamic Access Policies• Rangerインテグレーション
• Cross component lineage• Enterprise Readiness• Business Catalog• UIは大幅に進化した
![Page 14: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/14.jpg)
Dynamic access policies概要
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 基本のタグポリシー:個人情報、Sales情報
ルールはTagと紐づく(Tagは再利用可能)。直接リソースに紐付いても可能。
• 地理情報ベースのポリシー(IPベース)
例:リモート利用者ならアクセス出来ない。社内ならアクセス可能。
• 時間ベースのポリシー
例:リースで借りてきたデータ。大学・研究機関から借りてきたデータをアクセス。
– 月曜日から金曜日までアクセス可能とか。
• 禁止ルール
データの組み合わせにより情報漏えい対策
![Page 15: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/15.jpg)
Cross Component Lineage概要
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース:https://jp.hortonworks.com/apache/atlas/
![Page 16: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/16.jpg)
Cross Component Lineage概要
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース:https://www.linkedin.com/pulse/data-pipeline-hadoop-part-2-birender-saini
![Page 17: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/17.jpg)
Role & Activities
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Data Steward: Atlasの主な利用者。データキューレーション、データカタログ担当。Scientist をサポート
• Data Scientist: 分析。
• ビジネスカタログの主な利用者。利益源。
• 現在は50%~80%の時間でデータを探している。
• 今後は25%以下に抑えたい。節約した時間を分析に回す
• Administrator: ロール管理
• Data Engineer: データ入れだし操作
![Page 18: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/18.jpg)
感想
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Atlas + Rangerでカラムレベルのアクセス制御が出来た。
• ダイナミック・リアルタイム
• スキーマ情報は自動的に取得
• Lineageは表示できる
• ルールによって、データベース/テーブルを隠すこともできる。例:PIIタグを特定のカラムにつける。PIIアクセス禁止のアカウント
は該当カラム表示できない。
• データスチュアートがカタログ情報を入力、データサイエンティストが使う
![Page 19: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/19.jpg)
Extend Governance in Hadoop with Atlas Ecosystem
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Waterline DataのAtlasインテグレーション事例
• データ内容を分析して、タグを提案してくれる。(%は関連度を示している)
• http://www.waterlinedata.com/
• Lineageについて、Atlasと連携:Import/Export
• Attivio事例
• 構造化・非構造化両方対応
• Lineage表示を強化
![Page 20: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/20.jpg)
20Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
![Page 21: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/21.jpg)
eBay社内のデータプラットフォーム
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 色々なシステムにより構成されている
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
![Page 22: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/22.jpg)
eBayのコラボレーションの進化
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
W:WikiF:良いね!SNS要素in:プロフェッショナル関係で繋がる
![Page 23: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/23.jpg)
eBayのデータ運用の課題(1)
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 直接なDBアクセスたくさん有り、MicroStrategyレポートたくさん有り(5,000+)、 Tableauチャートもたくさん有り(10,000+)
• 同じ指標に対してのレポートでも複数バージョンある。正しいMetricsとレポートを見つかるのは難しい。上司であっても判断は難しい。そのツールは前任の前任から引き続いたかも。
• データサイエンティストはなんでも自分でやらないといけない。
• データサイエンティストが来たら、データはどこにあるか、どうやって使うか、全部自分で探さないといけない。
• なぜそのファイルはそこにあるから知らない
• 整合性・一貫性が無い。あるテーマに対してそれぞれの紹介WIKIがあるかも
![Page 24: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/24.jpg)
eBayのデータ運用の課題(2)
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• このレポートはどうやって計算しているか、データはどこから来ているから分からない。誰かは「使え」と言っているから使っている。
• レポートのロジックの追跡は難しい
• レポートの信頼度は分からない。昨日のデータを使っているかも
• etc.
![Page 25: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/25.jpg)
eBayのデータ運用の課題
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• データサイエンティストはなんでも自分でやらないといけない。
![Page 26: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/26.jpg)
対策
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Self-service Strategy
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
![Page 27: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/27.jpg)
対策
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
Alation:ツール。https://alation.com/customers/
![Page 28: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/28.jpg)
データガバナンス
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
データアセットCertification
– 誰が、いつ、このViewが正しいかを判断したかを記録
ビジネス用語集
– 略語が多すぎるから、必須
管理
– クオリティチェック、リリースノート、データロード記録等
– これは現在利用可能?
![Page 29: Apache Atlasの現状とデータガバナンス事例 #hadoopreading](https://reader035.vdocuments.site/reader035/viewer/2022062302/5872844c1a28abc7068b6d2b/html5/thumbnails/29.jpg)
EOP
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 29