re:growth 2016 in tokyo発表「aws glueの紹介」
TRANSCRIPT
AWS Glueとは
『フルマネージドなデータカタログと
ETL処理を提供するサービス』
• Data Catalog
• Job Authoring
• Job Execution
classmethod.jp 3
3つの機能を提供
AWS Glue誕生の背景
DWH構築作業の約70~80%がETL処理
ETL処理の70%が手組みのプログラム
• Brittle(脆い)
• Error-prone(間違いやすい)
• Laborious(骨が折れる)
classmethod.jp 4
Job Authoring
『データ連携のロジックを自動生成』
• データ連携のためのPythonコード(PySpark)を自動生成
• 任意のIDEで改造し、Gitで共有
classmethod.jp 7