data warehouse & data warehousing
DESCRIPTION
คลังข้อมูล และการคลังข้อมูลTRANSCRIPT
Data Warehousing
Company LOGO
บทท� 1 คลงขอมล และการคลงขอมล (Data warehouse and Data Warehousing)
Contents
ปญหาในการเกบและวเคราะหขอมล1
ส�งท�ควรพจารณากอนสรางคลงขอมล2
ความหมายและคณลกษณะของคลงขอมล3
COMPANY LOGO2
ความหมายและคณลกษณะของคลงขอมล3
ความหมายและกระบวนการของการคลงขอมล4
ความแตกตางระหวางฐานขอมลกบคลงขอมล5
ปญหาในการเกบและวเคราะหขอมล
ความตองการ การวเคราะห วางแผน และตดสนใจอยางถกตอง รวดเรวความตองการ การวเคราะห วางแผน และตดสนใจอยางถกตอง รวดเรว
การใชขอมลเปนเคร�องมอสาคญในการตดสนใจ
COMPANY LOGO3
มขอมลจานวนมากแตขาดการจดเรยง
การจดระบบระเบยบขอมล
สรางคลงขอมลสรางคลงขอมล
ปญหาในการเกบและวเคราะหขอมล
การสรางคลงขอมล จงเกดข�นเพ�อเปนท�เกบรวบรวมขอมลสาคญและจาเปนจาก
แหลงตางๆ ซ�งเปนประโยชนตอการตดสนใจของผบรหาร เพ�อใหผบรหารสามารถ
เรยกใชขอมลท�ตองการไดอยางรวดเรวและมประสทธภาพมากข�น
COMPANY LOGO4
ขอมลเชงบรหารน�จะสามารถชวยลดปญหาท�เกดจากการใชขอมลจากฐานขอมล
ปฏบตการ (operational database) ซ�งเปนการเกบขอมลในรปแบบ
transaction system ได
ปญหาในการเกบและวเคราะหขอมล
ซ�งโดยท�วไปปญหาท�พบเม�อตองการขอมลท�ชวยในการตดสนใจ จากฐานขอมล
ปฏบตการ (operational database) ไดแก
- ขอมลท�นาเสนอมรปแบบเดยว - ไมสามารถหาคาตอบในเชงพยากรณได
COMPANY LOGO5
- ไมสามารถหาคาตอบในเชงพยากรณได- ไมตอบสนองการทา query ท�ซบซอนไดดเทาท�ควร- ขอมลถกจดเกบอยตามฐานขอมลของระบบงานตางๆ ซ�งยากแกการเรยกใชและขาดความสมพนธทางธรกจ
ส�งท�ควรพจารณากอนสรางคลงขอมล
เน�องจากการลงทนสรางคลงขอมลข�นมาใชเพ�อสนบสนนการทางานขององคกร
น�นจาเปนตองมคาใชจายในการลงทนมหาศาล ดงน�น เม�อองคกรตดสนใจสราง
คลงขอมลข�นแลว จงควรใหความสนใจในส�งตางๆ 8 ประการ ดงน�
1. ควรมเปาหมายท�ชดเจนรวมของการสรางระบบน�ของคนในองคกร เหมอนการ
COMPANY LOGO6
1. ควรมเปาหมายท�ชดเจนรวมของการสรางระบบน�ของคนในองคกร เหมอนการตอบคาถามวาทาไมคณถงคดจะสรางคลงขอมล?
2. ทาความเขาใจสถาปตยกรรมของระบบ
3. เทคโนโลยท�ใชควรอยในวสยท�เหมาะสม ท�งดานของตวเงนและความยากงายในการเรยนร ท�งน�หมายรวมท�งฮารดแวร ซอฟตแวร และเครอขาย
ส�งท�ควรพจารณากอนสรางคลงขอมล
4. จาเปนอยางย�งท�จะใหผใชข�นปลายท�เปนเจาของงานเขามามสวนรวมทางานดวยต�งแตตนโครงการ
5. ทมพฒนาเขาใจเปนอยางดถงความแตกตางกนระหวางฐานขอมลปฏบตการและฐานขอมลสนบสนนการตดสนใจ
COMPANY LOGO7
และฐานขอมลสนบสนนการตดสนใจ
6. จดใหมการฝกอบรม โดยเฉพาะอยางย�งการฝกอบรมเก�ยวกบเคร�องมอท�องคกรจะใชพฒนา
7. ควรหาบคลากรท�มประสบการณในการพฒนาคลงขอมล
8. โปรแกรมท�จะใชนาเสนอขอมลในคลงขอมล ตองสามารถเรยนรไดงายและผใชสามารถใชงานไดอยางมประสทธภาพ
นยามของคลงขอมล
Kimball’s Definition of a Data Warehouse
A data warehouse is a copy of
COMPANY LOGO8
transactional data specifically
structured for querying and
analysis
ความหมาย และคณสมบตของคลงขอมล (Data warehouse)
คลงขอมล (Data Warehouse) หมายถง ฐานขอมลขนาดใหญขององคกรหรอ
หนวยงานหน�งๆ ซ�งมการเกบรวบรวมขอมลจาก
ฐานขอมลระบบงานประจาวน หรอเรยกอกอยางวา operational database
ฐานขอมลอ�นภายนอกองคกร หรอเรยกวา external database
COMPANY LOGO9
ฐานขอมลอ�นภายนอกองคกร หรอเรยกวา external database
ใหมารวมไวเปนศนยกลางของขอมล และสามารถเกบขอมลยอนหลงไดหลายๆ ป
(Historical Data)
โดยขอมลท�ถกจดเกบในคลงขอมลน�น จะถกนามา
วเคราะหและแสดงขอมลแบบหลายมต (Multidimensional Analysis / OLAP)
วเคราะหขอมลโดยใชเหมองขอมล (Data Mining)
ความหมาย และคณสมบตของคลงขอมล (Data warehouse)
คณลกษณะของคลงขอมล
จากนยามของคลงขอมลสามารถสรปคณลกษณะของคลงขอมลไดดงน�
1. Subject oriented
COMPANY LOGO10
1. Subject oriented
2. Integration
3. Time-variant
4. Non-volatile
ความหมาย และคณสมบตของคลงขอมล (Data warehouse)
1. Subject oriented การแบงโครงสรางตามเน�อหา หมายถง คลงขอมลถกออกแบบมาเพ�อ
มงเนนไปในแตละเน�อหาท�สนใจ หรอ Report ท�ตองการ ไมไดเนนไปท�การทางานหรอกระบวนการแตละอยางโดยเฉพาะเหมอนอยางฐานขอมลปฏบตการ
COMPANY LOGO11
ทางานหรอกระบวนการแตละอยางโดยเฉพาะเหมอนอยางฐานขอมลปฏบตการ
เลอกเกบขอมลในระดบปฏบตการเฉพาะสวนท�นามาใชในเชงวเคราะหมากกวาการเกบขอมลเพ�อตอบคาถามแบบรายละเอยดปลกยอย
เชน คลงขอมลท�มงเนนท�เร�องยอดขาย
ความหมาย และคณสมบตของคลงขอมล (Data warehouse)
2. Integration
การรวมเปนหน�ง ซ�งถอไดวาเปนคณลกษณะท�สาคญท�สดของคลงขอมล
คอการรวบรวมขอมลจากหลายฐานขอมลปฏบตการเขาดวยกน และทาใหขอมลมมาตรฐานเดยวกน
COMPANY LOGO12
มมาตรฐานเดยวกน
เชน กาหนดใหมคาตวแปรของขอมลในเน�อหาเดยวกนใหเปนแบบเดยวกนท�งหมด
ความหมาย และคณสมบตของคลงขอมล (Data warehouse)
App A m,f
App B 1,0
App C x,y
App D male,female
ฐานขอมลประจาวน คลงขอมล
encodingm,f
Attribute measurement
COMPANY LOGO13
App A cm
App B inches
App A description
App B description
App C description
App A key char(10)
App B key “99999”
App C key char(12)
Attribute measurementcm
Multiple Sources
? description
char(12)
Conflicting Keys
ความหมาย และคณสมบตของคลงขอมล (Data warehouse)
3. Time-variant
ความสมพนธกบเวลา หมายถง ลกษณะของขอมลในคลงขอมล จะเปน
ลกษณะของขอมลประวตศาสตร (Historical Data) คอจะเกบขอมลยอนหลงเปนเวลาหลายๆ ป เพ�อท�จะนาไปวเคราะหเปรยบเทยบหาแนวโนมของขอมล
COMPANY LOGO14
เปนเวลาหลายๆ ป เพ�อท�จะนาไปวเคราะหเปรยบเทยบหาแนวโนมของขอมล
ซ�งแตกตางจากลกษณะขอมลในฐานขอมลปฏบตการ (Database) หรอ
การจดการขอมลรายวน (Online Transaction Process : OLTP)
ความหมาย และคณสมบตของคลงขอมล (Data warehouse)
ฐานขอมลประจาวน
ขอบเขตของเวลา – ขอมลปจจบนถงขอมลยอนหลง 60-90 วน
ขอมลจะถกเกบในรปแบบระเบยนขอมลท�เปน
คลงขอมล
ขอบเขตของเวลา – มอายการจดเกบ 5-10 ป
ขอมลจะถกเกบในลกษณะของขอมลสรปในชวงเวลาตางๆ ตามหวขอท�สนใจ
COMPANY LOGO15
ขอมลจะถกเกบในรปแบบระเบยนขอมลท�เปนขอมลปจจบน
โครงสรางของฐานขอมลไมเนนสรางคยของตาราง เปนคาของขอมลท�เก�ยวของกบเวลา
OLTP: Online Transaction Processing
ในชวงเวลาตางๆ ตามหวขอท�สนใจ
โครงสรางของฐานขอมลเนนสรางคยของตาราง เปนคาของขอมลท�เก�ยวของกบเวลา
OLAP: Online Analytical Processing
ความหมาย และคณสมบตของคลงขอมล (Data warehouse)
4. Non-volatileความเสถยรของขอมล หมายถงขอมลในคลงขอมลจะไมเปล�ยนแปลง
(เวนแตในกรณท�ขอมลท�โหลดเขาไปไมถกตองจรง)
ดงน�น หลงจากการโหลดขอมล OLTP ลงคลงขอมลแลวน�น จะตองม
COMPANY LOGO16
ดงน�น หลงจากการโหลดขอมล OLTP ลงคลงขอมลแลวน�น จะตองมความถกตอง ไมมการแกไข (Update), ลบ (Delete)
** จะมเพยงการเพ�ม (Insert) และการเขาถงขอมล (Retrieve) เทาน�น
ความหมาย และคณสมบตของคลงขอมล (Data warehouse)
ฐานขอมลประจาวน คลงขอมล
isrt chng
COMPANY LOGO17
isrt
dlet
dlet
chng
access
load
access
ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)
การคลงขอมล (Data Warehousing) คอ กระบวนการ หรอวธการท�ใชใน
การสรางคลงขอมล (Data Warehouse) อาทเชน การออกแบบและสรางโครงสราง
ขอมลใน Data warehouse, วธการเพ�อใหไดมาซ�งขอมล, วธการสรางผลลพธ รวม
ไปถงดแลรกษา และวธการปรบปรงประสทธภาพ เปนตน
COMPANY LOGO18
ไปถงดแลรกษา และวธการปรบปรงประสทธภาพ เปนตน
กระบวนการหลกใน Data Warehousing ประกอบไปดวย
Data Acquisition (การรวบรวมขอมล)
Data Staging (การนาเขาขอมล)
Data Store (การจดเกบขอมล)
Data Provisioning (การเตรยมขอมลเพ�อใชงาน)
ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)
Data
Resources
Data
Staging
Data Store Data
Provisioning
COMPANY LOGO19
Data Acquisition
ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)
Data Acquisition (การรวบรวมขอมล)
หมายถง วธการ และระบบท�จะทาใหขอมลจาก Data Resource ถกนาเขาส Data Warehouse โดยตองผานกระบวนการ Data Staging กอน
COMPANY LOGO20
Data Acquisition
ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)
Data Staging (การนาเขาขอมล)
เปนวธการนาเขาขอมล พรอมท�งปรบขอมล เพ�อลดความซ�าซอน และขอผดพลาดของขอมล (Cleansing) รวมไปถงการเลอกเฉพาะขอมลท�เปนประโยชน (Filtering) เพ�อนามาเกบไวในคลงขอมล
COMPANY LOGO21
Data Acquisition
ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)
Data Store (การจดเกบขอมล)
การนาเอาขอมลท�ผานการ Cleansing และ Filtering แลว มาเกบบนทกลงใน Data Warehouse ซ�งสวนท�ทาหนาท�จดเกบขอมลน�น เรยกวา
“Data Warehouse Database”
COMPANY LOGO22
“Data Warehouse Database”
ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)
Data Provisioning (การเตรยมขอมลเพ�อใชงาน)
การนาเอาขอมลท�มอยในคลงขอมล มาประมวลผล เพ�อใหไดสารสนเทศท�ตองการ เพ�อรอการใชงานตอไป
COMPANY LOGO23
การวเคราะหขอมลในคลงขอมล
แหลงขอมลเพ�อการปฏบตงาน
ReportGenerator
Data Mining
รายงาน
ผล
ผล
การใชงาน
COMPANY LOGO24
OLAPGenerator
Data Warehouse
แหลงขอมลเพ�อการวเคราะห
Data MiningTools
ขอมล
ผล
ผล
คลงขอมล ชวงเวลาท�องคกรไมไดปฏบตงาน ชวงเวลาท�องคกรปฏบตงาน
ผใชงาน
การวเคราะหขอมลในคลงขอมล
ความยงยากมนอยใชปรมาณขอมลนอยใชเวลาในการประมวลผลหรอเตรยมขอมลนอย
ความยงยากมมากใชปรมาณขอมลมากใชเวลาในการประมวลผลหรอเตรยมขอมลมาก
COMPANY LOGO25
Query and ReportMultidimensional
Data AnalysisData Mining
มเคร�องมอชวยในการสรางมากมาย มเคร�องมอชวยในการสรางนอย
ความแตกตางระหวาง ฐานขอมล กบ คลงขอมล
เปรยบเทยบ OLTP คลงขอมล
เปาหมาย เปนการจดการกบขอมลรายวน มการดงและวเคราะหขอมลจากสารสนเทศ
ผใช พนกงาน ผบรหาร
COMPANY LOGO26
โครงสราง RDBMS RDBMS
ตวแบบขอมล Normalized Dimensional
ชนดของขอมล ขอมลท�ใช run ระบบธรกจ สารสนเทศเพ�อสนบสนนการตดสนใจ
เง�อนไขของขอมล มการเปล�ยนแปลง แกไข ปรบปรง
Historical , descriptive , read only และ non-volatile ดงน�นขอมลจะตองถกclean ใหเปนรปแบบเดยวกนกอน
ขอด-ขอเสย ของคลงขอมล
ขอด
- ใหผลการตอบแทนจากการลงทนสง
- องคกรเกดความไดเปรยบคแขงขน
- เพ�มประสทธภาพในการตดสนใจ
ขอเสย
- ข�นตอนการกล�นกรองและโหลดขอมลเขาสคลงขอมลใชเวลานาน และตองอาศยผท�มความชานาญ
COMPANY LOGO27
- เพ�มประสทธภาพในการตดสนใจของผตดสนใจ
อาศยผท�มความชานาญ
- แนวโนมความตองการขอมลมมากข�นเร�อย ๆ
- ใชเวลานานในการพฒนาคลงขอมล
- ระบบคลงขอมลมความซบซอนสง
Do you have any Question ??
Company LOGO
Homework
1. เพราะเหตใด จงตองมการสรางคลงขอมล (Data Warehouse)
2. คลงขอมล (Data Warehouse) คออะไร
3. จงอธบายถงคณลกษณะของคลงขอมล (Data Warehouse)
4. จงอธบายถงกระบวนการหลกของ Data Warehousing
COMPANY LOGO29
4. จงอธบายถงกระบวนการหลกของ Data Warehousing
5. ขอมลในคลงขอมล (Data Warehouse) สามารถนามาวเคราะห
ในรปแบบใดไดบาง
6. จงบอกความแตกตางระหวาง ฐานขอมล กบ คลงขอมล มา 3 ประเดน