大數據分析跨域團隊建立 -...
TRANSCRIPT
![Page 1: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/1.jpg)
Big Data Analytics for Semiconductor Manufacturing
大數據分析跨域團隊建立
Etu CEO 蔣居裕 (Fred Chiang) Big Data 跨域整合聯盟 會長
July 17, 2015
![Page 2: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/2.jpg)
Big Data Analytics for Semiconductor Manufacturing
• 關於「分析」
• 關於「團隊」
• 關於資料科學 (Data Science) 與資料產品 (Data Product)
• 關於 Data Preparation – Enterprise Data Lake
• 結論
2
大 綱
![Page 3: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/3.jpg)
Big Data Analytics for Semiconductor Manufacturing
Who am I?
蔣居裕 Fred Chiang
Open xxx 的愛好者
資料價值的探索者
• 精誠集團 Etu CEO
• 精誠集團 產品創新中心 副總經理
• Big Data 跨域整合聯盟會長
• Open Data 聯盟副會長
Blog —《Fred 豢養的雲中象》http://fredbigdata.blogspot.tw
all about Hadoop and Big Data
台灣少見以探討 Big Data 趨勢、技術、商業價值為主軸的專業部落格
3
![Page 4: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/4.jpg)
Big Data Analytics for Semiconductor Manufacturing
什麼是分析?
Analysis
is the process of breaking a complex topic or
substance into smaller parts in order to gain a better understanding of it.
~ Wikipedia
4
![Page 5: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/5.jpg)
Big Data Analytics for Semiconductor Manufacturing
口頭與實質
你口頭說是「分析」,但可能並不是
5
![Page 6: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/6.jpg)
Big Data Analytics for Semiconductor Manufacturing
分析,不是資料價值的終點
6
統計 > 加總
分析 > 統計
洞見 > 分析
行動 > 洞見
行動 最大化 價值
![Page 7: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/7.jpg)
Big Data Analytics for Semiconductor Manufacturing
科學團隊 ?
7
![Page 8: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/8.jpg)
Big Data Analytics for Semiconductor Manufacturing
Harvard
Business
Review
October 2012
http://cromi.org/main/wp-content/uploads/2012/10/Davenport-2012-data-scientist.pdf
資料科學, 我們是要仰仗這位性感的傢伙嗎?
![Page 9: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/9.jpg)
Big Data Analytics for Semiconductor Manufacturing
團隊 vs. 超人
9
Data Science Profiles
![Page 10: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/10.jpg)
Big Data Analytics for Semiconductor Manufacturing
團隊聚在一起是為了什麼?
解決真實世界的問題
10
從問對問題開始
![Page 11: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/11.jpg)
Big Data Analytics for Semiconductor Manufacturing
問個問題
有一個人,生平的願望是環台灣半島,
但他只有在暑假的時間才有空,而且只能用 3 天的時間,
更重要的是:
不能太累
他該如何行動?
11
![Page 12: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/12.jpg)
Big Data Analytics for Semiconductor Manufacturing 12
From Data to Action
Action
Insight
Knowledge
Information
Data
資料價值驅動
策略
分析
處理
394 公里
台灣南北全長 394 公里
一般人騎單車的時速約 15 公里;台灣夏季吹南風,冬季吹東北風
台灣夏季由北騎到南,一般人不可能達到平均時速 15 公里
暑假計畫要從台灣南騎到北,目標在 3 天內完成
詳情參見: http://fredbigdata.blogspot.tw/2013/05/big-data.html
12
![Page 13: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/13.jpg)
Big Data Analytics for Semiconductor Manufacturing
從 Data 到 Product
13
Big Data 價值,
從 Data Product 而
生
![Page 14: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/14.jpg)
Big Data Analytics for Semiconductor Manufacturing
使用一或多種資料集,進行處理或分析後,再以下列任一形式交付
產品或服務:
軟體系統 雲端服務 結構化資料 (檔案) 資料庫 API 報表 視覺化圖表 決策輔助 結論 其他
什麼是 Data Product? (資料產品)
![Page 15: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/15.jpg)
Big Data Analytics for Semiconductor Manufacturing
處理者
分析者 策略者
策略者
70%~85% 的工作時間
Data Science Flow
Source: Next-Gen Data Scientist, Dr. Rachel Schutt
![Page 16: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/16.jpg)
Big Data Analytics for Semiconductor Manufacturing
Data Owner
Domain Expert
Data Science Team
Value
資料經濟共構者
![Page 17: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/17.jpg)
Big Data Analytics for Semiconductor Manufacturing
企業
Data IoE
Data
Data Mash-
up
Open Data
Data Platform
Data Science Team Playground
Creative Applications
零售
氣象
金融
製造 旅遊
交通
資料經濟架構
![Page 18: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/18.jpg)
Big Data Analytics for Semiconductor Manufacturing
Data Product 舉例: BestSales 氣象經濟指標服務
[氣象 與 Big Data 雙專業跨界合作 ]
WeatherRisk Etu User
氣象專業 Big Data 平台 商品銷售資料
天氣歷史與預測資料 資料處理
指數模型建構 分析顧問服務
分析模擬工具
![Page 19: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/19.jpg)
Big Data Analytics for Semiconductor Manufacturing
BestSales 氣象經濟指標 – 預測指數
歷史指數
預測指數
天氣因子
![Page 20: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/20.jpg)
Big Data Analytics for Semiconductor Manufacturing
Data Preparation
乾淨、結構化好的 Dataset
不是天上掉下來的
20
![Page 21: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/21.jpg)
Big Data Analytics for Semiconductor Manufacturing
分析洞見之夢,如何成真
21
Insights from Analytics
事實是……
沒有清洗乾淨、結構化好的資料,分析沒有意義,洞見更可能導致悲劇
關鍵在有沒有建構有機、流動的 Data Lake
![Page 22: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/22.jpg)
Big Data Analytics for Semiconductor Manufacturing
Data Preparation 時代的演進
22
Data Lake 企業資料湖泊
+10 Y
OLAP/Discovery 資料分析/資料探索
Data Warehouse 企業資料倉儲
30+ Y
OLAP 資料分析
Database 關聯式資料庫
40+ Y
OLTP 資料交易
![Page 23: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/23.jpg)
Big Data Analytics for Semiconductor Manufacturing
Bottled Water vs. Lake
23
思維 事先定義、照表取用 隨需取用,動態探索
特點 淨化、包裝過,容量少、犧牲細節 匯聚、有機生態、胃納量大、不犧牲細節
比喻 Data Mart 必須要事先定義好 Data Model 才能進行分析
取用結構化好的 Impala/Hive/HBase 入庫資料來進行分析或查詢,不需事先定義 Data Model
DM Schema-on-Write Schema-on-Read
* Data Lake 概念,源自 Pentaho CTO James Dixon 的部落格文章《Pentaho, Hadoop, and Data Lakes》(Oct. 14, 2010)
![Page 24: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/24.jpg)
Big Data Analytics for Semiconductor Manufacturing
Thinker’s Data Lake
24
Thinking about
光分析 RDB/EDW 的資料已經無法滿足需求
要更了解客戶,我們需要加上行為資料 競爭力
RDB/EDW 的運算速度被增長的資料拖慢
需要更彈性靈活的入庫資料取用,以便縮短分析所需的時間
我們要儘可能加快決策速度,分析自然不能慢 反應力
RDB/EDW 的擴充成本居高不下
運算科技持續進步,新架構帶來更高的 ROI 變革力
RDB/EDW 的垂直擴充架構受限
![Page 25: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/25.jpg)
Big Data Analytics for Semiconductor Manufacturing
Doer’s Data Lake
25
Analytics with STAT / DM / ML / EDA
Doing in
Ad-hoc Query
Data Visualization
High Volume Concurrent Query
+ Methodology + Implementation
![Page 26: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/26.jpg)
Big Data Analytics for Semiconductor Manufacturing
Data Lake 的下一步: 分析運算的平行化
26
從拉資料去單機做分析運算,進化到將分析邏輯下放到
Hadoop 叢集運算
把魚從湖裡撈出來,放到水族箱養
vs. 把魚養在湖裡
![Page 27: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/27.jpg)
Big Data Analytics for Semiconductor Manufacturing
結論
27
1. 分析、洞見不是資料價值的終點,行動才是。
2. 跨域是資料科學與資料產品團隊發展的關鍵字。
3. 做好 Data Preparation,是分析有意義的穩當基礎。
- 請注意 Etu 在半導體大數據分析競賽中提供的 Hadoop 相關軟體培訓課程 - Etu Training 有免費的學生名額可供利用 (http://goo.gl/NUaEwd)
![Page 28: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing](https://reader034.vdocuments.site/reader034/viewer/2022042521/5faa3b700d6a0d09f50608f1/html5/thumbnails/28.jpg)
Big Data Analytics for Semiconductor Manufacturing
更多 Etu 資訊
28
Website - www.etusolution.com Fans Page - Etu Taiwan