introduction data warehouse based on ibm db2 8 th nov. 2005

82
© 2005 IBM Corporation Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005 Lee, JeonGeon ([email protected]) Business Intelligence S/W Group, IBM Korea DB2 Information Management Software

Upload: elisha

Post on 15-Jan-2016

90 views

Category:

Documents


0 download

DESCRIPTION

Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005. Lee, JeonGeon ([email protected]) Business Intelligence S/W Group, IBM Korea DB2 Information Management Software. Agenda. What is Data Warehouse? Trends of Data Warehouse Real-time Data Warehouse DW Architecture by IBM - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

© 2005 IBM Corporation

Introduction Data WarehouseBased on IBM DB28th Nov. 2005

Lee, JeonGeon ([email protected])Business IntelligenceS/W Group, IBM Korea

DB2 Information Management Software

Page 2: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

1. What is Data Warehouse?

2. Trends of Data Warehouse

3. Real-time Data Warehouse

4. DW Architecture by IBM

5. Parallel Database

6. Case Study : KT EDW

Agenda

Page 3: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

1. What is Data Warehouse?

Naver 지식 검색을 활용하세요 !

데이터 웨어하우스는 1980 년대 중반 IBM 이 자신이 하드웨어를 판매하기 위해 처음으로 도입했던 개념으로

IBM 은 인포메이션 웨어하우스 (Informationn Warehouse) 라는 용어를 사용하였다 .

이후 이 개념은 많은 하드웨어 , 소프트웨어 및 툴 공급 업체 들에 의해 이론적 , 현실적으로 성장하였으며 , 1980 년대 후반 Inmon 이 데이터 접근 전략으로 데이터 웨어하우스 개념을 사용함으로써 많은 관심과 집중을 받게 되었다 . - From Naver 지식 in

Page 4: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

OLTP vs. Data Warehouse

트랜잭션 시스템 트랜잭션 시스템

OLTP(On-line Transaction Processing)

반복되는 단위업무처리 ( 거래처리 )신속한 거래처리

업무별 정보

현행정보 (Current Values)

상세정보

1~2 초 내의 Response Time

데이터웨어하우스데이터웨어하우스

OLAP(On-line Analytical Processing)

의사결정지원 (ad-hoc query)대량의 정보관리매우 빠른 속도로 데이터 량 증가

주제영역별 정보

이력정보 (Historical Snapshots of Data)

상세정보 + 요약 , 집계 , 외부정보

Several seconds to minutes

“Run your business” “Analyze your business”

Page 5: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Query only, no updates, no transactions - Optimized for RetrievalData refresh at regular intervalsSeparate from OLTP apps

–OLTP: “Run your business”–DW: “Analyze your business”–Oriented toward a specific business function

Historical snapshots of dataPotentially rapid data growth - Scalability critical!

Data Warehouse…

Page 6: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Subset of an existing data warehousingNarrower business functionQuery only, no updates, no transactions - Optimized for RetrievalData refresh at regular intervalsSeparate from OLTP apps

–OLTP: “Run your business”–DW: “Analyze your business”–Oriented toward a specific business function

Highly summarized dataHistorical data

Data Mart…

Page 7: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Select product, market, customer… , sum(revenue), sum(margin) … from sales, product, market, customer ... where date between 01/01/2002 and 12/31/2002 and market.state in (‘ 서울’ , ‘ 경기’ ) and customer_age in (18 to 34) group by product… order by customer… ;

DW, DM Query …

고객들이 정말로 선호하는 것은 무엇인가 ?

지난 5 년간 고객들의 구매 패턴은 어떻게 변해왔는가 ?

작년에 각 지역별로 가장 많은 이익을 남겨준 제품은 무엇인가 ?

각 지역별로 top 10 에 드는 고객은 누구인가 ?

분기별로 각 벤더들의 제품에 대하여 매출액 , 비용 , 순이익은 얼마인가 ?

“ 갑돌” 이라는 고객의 주소는 ?

주민등록번호 123456-1234567 의 고객이 이번 달 보험료는

납부했는가 ?

고객번호 101 번의 고객이 가입하고 있는 모든 보험의 내역은 ?

Page 8: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Star Schema

Customer DimensionCustomer Dimension

Product DimensionProduct Dimension

Time DimensionTime Dimension

Store DimensionStore Dimension

Fact Table : SalesFact Table : Sales

store codestore namestore typestreetstate… …( 수백 건 )

customer codecustomer nameagegenderaddresscompanyincome leveleducation… …( 수백만 건 )

time codeproduct codestore codecustomer code

revenuecostunit_soldnet profitquantity… …( 수십억 건 )

time codeorder datemonthquarteryear… …( 수백 건 )

product codeproduct nameproduct typevendor name… …( 수천 건 )

Fact table : dimensional model 의 중심 , measures,

how much or how many Dimension tables : what, where, when

Page 9: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

DW 개발 단계

Analysis포괄적으로 interview 를 한다executive, manager, business analyst, end user기본 reportDW 에 기대하는 요구사항Scope 결정 , requirement 정의

필요한 data 가 모두 사용 가능한가 ? 제시간 안에 data 를 얻을 수 있는가 ?필요한 H/W, S/W 사양은 ?

Design주제 영역을 정한다measure/dimension 정의fact table 의 구성요소 정의Dimensional model 생성사용자들과 함께 model 확정Physical model 생성

Data gathering데이터 추출데이터 cleansing데이터 변환데이터 로드

ImplementQuery prototype 실행 및 tuningBI 툴을 사용한 개발필요한 application 개발

시연 & feedback일정 사용자들에게 DW 와 개발된 프로그램 소개FeedbackTuningRecovery plan

Think bigBuild smallVerify success against success criteria

Page 10: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

DW 의 구축 효과

정보기술 부문의 효과

OLTP 시스템 작업량 감소SQL 프로그래밍 작업량 감소보고서 생성 작업량 감소유지보수 비용 절감기 투자된 시스템 가치 상승

기업 경영상의 효과

기업 경쟁력 향상하나의 일관성 있는 정보제공사용자에게 직접 정보제공정보자산의 효율적 이용새로운 시장기회 발견의사결정정보에 관한 전산실 업무 감소양질의 정보제공Business Process Reengineering과거 정보시스템 리엔지니어링

Data Warehouse효과

최종사용자 부문의 효과

전산부서 의존도 감소사용의 편리성원하는 정보에 신속하게 접속다양한 분석 수행워크그룹 생산성 증대 ( 업무 프로세스 개선 )환경변화에 신속하게 대응

Page 11: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

2. Trends of Data Warehouse

Page 12: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Just in time

The driver of action

Mission Critical & Essential

Forward looking

Pervasive

Maximize Business

Insight

Top 5 trends …. BI Becomes:

Page 13: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Trend #1 – BI Becomes “Pervasive”

조직이 보다 많은 사용자들의 다양한 업무수행을 위해 BI 가 활용될 수 있기를 기대

비즈니스 일선에 좀 더 자세하고 수행 가능한 정보를 제공

아주 전문적인 분석가나 BI 전문가가 아니더라도 쉽게 사용될 수 있는 insight 를 요구

BI 가 이젠 더 이상 별도의 영역이 아니라 업무 수행의 모든 영역에 스며들어 별도로 분리할 수 없게 됨 . • Eclipsys Health Systems – 환자 침대 옆의 컴퓨터들이

a) 병원의 데이터베이스와 연결되어 환자의 상세정보 조회가능 b) 여러 병원의 데이터베이스와도 연결되어 치료 정보와 결과를 제공

• Monaco Cardio Thoracic Centre – 아주 상세한 환자의 레코드들과 예정된 절차 , 치료과정 등을 조회

• Staples – 재고 관리 , 상품간의 제휴 , Cross Sell 과 Self Service 채널 등

Page 14: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Trend #2 – BI Becomes “Just-in-time”

가장 최근의 정확하고 개인화된 데이터를 기반으로 비즈니스 insight 제공 .

의미 있는 정보가 어떤 device 를 통해서나 어느 곳으로나 바로 전달될 수 있게 됨으로써 정보의 가치를 극대화하도록 기대

• Pepsi – “on the fly” 배달 트럭의 경로를 결정함에 있어 가장 수익성있는 배달 경로를 적시에 발견

Page 15: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Trend #3 – BI Becomes the Driver of Actions

BI 와 analytics 가 비즈니스 프로세스와 작업의 흐름에 바로 결합되어짐

- 조직의 DNA 와 같은 일부가 됨 .

Analytics 를 operational 시스템과 연계하여 insight 와 비즈니스 수행 사이의 Closed loop cycle 을 형성 .

이 insight 를 활용하여 비즈니스 전략과 수행을 가이드

• Bank One – 지점의 수익성 시스템이 핵심적인 관리 도구가 되어 직원들의 업무수행과 보너스를 결정

• Nieman Marcus – 여러 상점들의 재고 관리 시스템이 요구에 따라 각 지역 branch 들 사이의 상품의 흐름을 제어 .

• Home Deport – 고객 ,재고 , 수익 그리고 employee 들의 관리를 도울 수 있는

광범위한 enterprise system

• Credit Union Of Texas – “CEO Flight Deck” 고객 , cross-sell/up-sell, 캠페인의 효과를 추적하고 , spatial dimensions

도 분석 가능

Page 16: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Trend #4 – BI Becomes Forward Looking

단순히 레포팅과 분석의 범위를 넘어서 BI 는 predictive modeling 으로 발전되고 있음 .

향후 데이터 마이닝이나 패턴인식과 같은 차원 높은 분석기법에 대한 관심과 기대가 증대될 것임 .

의사결정 프로세스가 실제로 데이터를 기반으로 한 expert 시스템과 통합 .

• Ford – 콜센터에서 수집된 voice 데이터의 마이닝을 통해 안전에 대한 이슈와 recall 등을 예측

• Boots The Chemist (UK) – 스마트 카드 로열티 프로그램이 수익성있는 고객을 확보할 수 있게 함

Page 17: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Trend #5 – BI Becomes Mission Critical & Essential

BI 솔루션이 비즈니스 수행과 성공 그리고 경쟁우위를 점할 수 있는 비즈니스의 핵심이 되고 있음 .

BI 아키텍처가 보다 강력하고 확장성이 보장될 수 있도록 기대되고 있음 .

수 terabytes 의 데이터를 다루고 수천 명의 사용자들이 사용하며 ,

24*365 의 가용성이 요구되고 있음 .

진취적인 조직은 필요한 정보를 비즈니스 사용자에게 “ push” 함으로써 신속함과 융통성 그리고 결단력을 확보

• Sprint PCS – 100TB 데이터 웨어하우스 운영 ; 전사 데이터 웨어하우스가 단순한 분석 시스템이 아니라 비즈니스

수행과 고객 billing 을 위한 핵심 시스템 . 만일 DW 가 down 되면 기업으로서는 ‘money’ 를 잃게 되는

심각한 상황을 초래 .

기본 애플리케이션과 비즈니스 인텔리전스 정보의 사용이 더 이상 경쟁우위의 요소는 아님 . 고객 , 투자자 , regulators,임원과 emploees 들이 이미 자연스러운 것으로 인식되고 있음

Page 18: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

비용절감으로 인한 매출성장

Key competency: responsiveness

Critical success factor:effectiveness 확보 - people and processes

Source: CEO Study of 456 WW CEOs IBM Corporation - Feb 2004

What’s on the minds of 450 of the world’s leading CEOs?

Source: Operating Environment Market Drivers Study, IBM Corp. 2004

CEO 요구사항

IT 와 비즈니스의 결합으로 매출증대와 비용절감의 목표달성

IT 를 통하여 조직의 역할을 지원 어떻게 IT 가 사람들과 팀 이 좀 더

효과적으로 일할 수 있도록 도와줄 것인가 ?

CIO 고민들

Page 19: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Business Intelligence is evolving…

원인 : 기술적인 제약 , 기능적인 제약 , best practices 의 부족

Focus: 완벽한 data warehouse 구축

Batch 로 Data Warehousing updates

Data marts, Warehouse, Transaction Systems 과의 분리

Point in time BI

Stand alone 웨어하우스 ; 불완전한 EDWs

YesterdayYesterday ….. Going back as much as 15 years

BI used to employ the following fundamentals:

Page 20: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

원인 : 기술적인 제약 , 기능적인 제약 , best practices 의 부족

Focus: 완벽한 data warehouse 구축

Batch 로 Data Warehousing updates

Data marts; Warehouse , Transaction Systems 과의 분리

Point in time BI

Stand alone 웨어하우스 ; 불완전한 EDWs

YesterdayYesterday ….. Going back as much as 15 years

Business Intelligence is evolving…

TodayToday

보다 빠른 데이터 제공과 성능 향상

Today’s cutting edge warehouses raise the bar:

Focus: true Business Intelligence

통합 , 데이터의 중복 감소

Real-time 가용성을 통한 이벤트 모니터링

Unstructured 데이터를 포함하여 보다 많은 데이터 소스의 데이터를 통합 ,

Page 21: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

TodayTodayYesterdayYesterday

Batch 로 Data Warehousing updates

Data marts; Warehouse , Transaction Systems 과의 분리

Point in time BI

Stand alone 웨어하우스 ; 불완전한 EDW

Business Intelligence is evolving…

• 보다 빠른 데이터 제공과 성능 향상

통합 ,데이터의 중복 감소

Real-time 가용성을 통한 이벤트 모니터링

Unstructured 데이터를 포함하여 보다 많은 데이터 소스의 데이터를 통합 ,

Unveiling opportunities to significantly change the way you do business

What this meansWhat this means

가치있는 가공되지 않은 데이터의 사용 증가 현재 필요한 데이터에 바로 분석하여 비즈니스 수행 배치 시간의 감소

복잡성의 감소 비용의 감소 data inconsistencies 감소

즉석에서 당일의 정보를 획득하여 즉시 조치 “Intelligent” 의 변화 ( 주기적인 특성 등 ) 를 알 필요가 있음

분산된 데이터에 접근 낮은 리스크와 EDW 와 관련된 비용 통합된 마이그레이션 경로 개발

Page 22: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Information On Demand - 데이터를 Business Insight 로

InsightInsight

InformationInformation

proac

tive

proac

tive

DataData

activ

e

activ

e

passi

ve

passi

ve

Bu

sin

ess

flex

ibili

ty &

res

po

nsi

ven

ess

Business value

많은 데이터 소스로부터 데이터와 컨텐트를 통합

데이터를 유용한 정보로 전환

이 정보를 실시간 분석으로 intelligent 하면서도 신속한 의사결정을 지원

Page 23: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

3. Real-time Data Warehouse

Page 24: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

실시간 (Real time) & 준 실시간 (Near Real time)

source: META, Applied Analytics for Extreme Business Performance Management, 25 September 2002

절대적인 시간이라기 보다는 고객의 환경에 따라 새로이 정의되어야 함

데이터가 발생한 후 정보로서 처리되는데 걸리는 시간으로 구분

– 실시간 : 현재의 비즈니스 상태를 반영한 새로운 데이터를 기업 정보로 처리

– 준 실시간 : 현재 발생하는 비즈니스 데이터는 아니지만 , 그 기업에 “충분히

신선한 (fresh enough)” 데이터를 기업의 정보로 처리

Page 25: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

분석을 위한 데이터의 latency?

Source: Colin White & The Data Warehousing Institute, Building the Real-Time Enterprise, Oct 2003

N=419

16%6%

16%

30%

11%

21%

1 시간 미만이 절반이상

< 12 hours

< 1 hour

<1 minute

< 1 secondNot sure

<1 day

16% 6%

16%

30%

11%

21%

Page 26: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

실시간 BI 를 개발하거나 개발 계획이 있는 분야 ?

Source: Cutter Consortium: Corporate Use of Real-Time Data WarehousingBy DMReview.com Web Editorial , July 29,2003

0%3%5%8%

10%13%15%18%20%

Page 27: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

리얼타임 BI 어플리케이션

고객 접점 분석

– 온라인 콜센터 고객 스코어링

– 상점 내 ‘즉시 발행’ 쿠폰

– ATM 사용시 개인에 맞는 광고

– 고객 개인에 맞는 웹 사이트 광고 및 관심 분야 표시

– 최적화되고 , 예측 가능한 공급망 유지

– 적시 재고 관리 및 모니터링

부정행위 적발

– ATM, 휴대 전화 , POS

항공기 티켓의 적정가격 결정 혹은 결항 비행편에 대한 차선 스케줄 결정

온라인 대출 신용정보 조회

통신 /에너지 분야의 망 관련 정보 관리

열차 , 트럭 , 선박 화물의 적재 및 운송 관리

Page 28: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

실시간 BI

병렬ETL Engines

MQSeries queues

복제

웹 서비스

개인화 , 데이터 마이닝 , 비즈니스 룰 , 캠페인

경보 , 트리거 , KPIs, 분석

DB2Warehouse

ODS

InformationIntegration

CorporateDashboards

동시 사용자 조회

고객끊임 없는적재

Page 29: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

ETL, EII, EAI

원시 데이터 소스

Data WarehouseData Mart

데이터 복제

ETL Data Mart

Data Mart

응용 프로그램

인터페이스를 이용한 응용 프로그램 간의 호출 방식

EAI App2App1

MQInFormatting & Mapping

MQOutRouteToLabel

비정형 데이터EII

“뷰”를 통한 단일한 가상의 데이터 저장소 구성

App3

Data Warehouse

Page 30: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

ETL – 적재를 사용한 실시간 환경

짧은 주기의 지속적인 ETL

동시 쿼리

- 지속적인 loading 과 사용자 쿼리를 동시에 수행

- 고속 적재를 지원

Page 31: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

EII 를 사용한 실시간 환경

Text WebSphere MQ

IBM Extended

Search

Excel WWW, email,…XMLBiological DataAnd Algorithms

DB2 II ClassicFederation

DB2 Information Integrator

실시간 접근

Sybase

Informix

SQL Server

Oracle

Teradata

ODBC

DB2 Family

DB2/390

Software AGAdabas

VSAM

CA-IDMS

CA-Datacom

IMS

Data Warehouse

Page 32: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

EAI 를 사용한 실시간 환경

DB2 MQ Listener

ETL

User Stored

Procedure

ETLMQSI

Informix

VSAM

IMS

DB2

Oracle

Source

Data Warehouse

DB2

MQ

function

- Queue 를 사용하여 데이터의 실시간 전송

- IBM Websphere MQ 연동 function 을 DB2 에서 제공

Page 33: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

구분 ETL EII EAI

정의 Extract, Transform, Load

여러 데이터 소스로부터 데이터를 추출하여 변환하고 정제한 후 또다른 데이터베이스 즉 DW 나 DM, 혹은 비즈니스 프로세스에 따라서는 또다른 운영 시스템에 적재

• DataStage

Middleware 영역

분산되어 있는 다양한 종류의 데이터 소스를 마치 하나의 소스인 것처럼 단일 뷰 제공

Websphere Information Integrator

• 조직 안팎에서 서로 다른 어플리케이션 및 프로세스 사이에서 데이터의 이동 및 교환 가능한 솔루션

• Websphere MQ

Strength structured data 처리

Batch 작업으로 처리

한 번에 대용량 데이터 처리

계산이나 집계 , 또는 많은 단계를 거쳐야 하는 복잡한 변환도 쉽게 작성

관리자에 의한 스케줄에 기반한 실행

대부분의 툴이 GUI 기반으로써 직관적인 view 를 제공하며 생산성이 높음

개발된 모듈의 재사용성이 높음

impact analysis 를 포함한 metadata 수집과 관리가 용이

structured data 와 unstructured data( 컨텐트 ) 모두 처리 가능

real-time 으로 data read/write 가능

데이터 모델과 metadata 가 생성되기 이전에 데이터 탐색 가능

remote source 의 global access 에 강점

성능 , 예산 , 가용성 , 보안 등의 문제로 데이터의 이동이 어려운 데이터 또는 불필요한 데이터의 이동을 피하기 위한 데이터의 위치에 대한 관리

가상의 데이터 저장소 제공

분산 또는 복제 , 물리적 통합 제공

통합 정보의 metadata 관리

새로운 데이터 소스에 대한 유연한 확장성 제공

Data Grid

• 비즈니스 레벨의 프로세스 및 데이터 통합에 focus

• 비즈니스 프로세스와 데이터의 재사용 및 분배

• API 기반의 어플리케이션• real-time 또는 near real-time• 개별적인 event 또는 트랜잭션 기반으로 데이터의 이동이 일어남

• 간단하고 기본적인 변환 또는 데이터 그 자체만을 이동시키고자 할 때 강점

• workflow 의 컨트롤이 가능

ETL vs. EII vs. EAI – Strengths and Challenges

Page 34: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

구분 ETL EII EAI

Challenge 단방향의 데이터 흐름

소스 시스템의 데이터 변경에 대한 관리가 어려움

많은 공간의 staging 영역이 필요함 ; 스토리지 낭비의 우려

out-of-sync 이므로 소스 데이터가 DW 에 도달하기까지의 시간이 오래 걸림

실제 사용 여부와 상관없이 데이터 이동이 일어남

데이터 변환의 제약 ; SQL 기반의 변환

• 여러 소스에 대하여 key 를 match 시켜야 함

• 데 이 터 소 스 에 따 라 data type mismatch

• 소스 시스템의 resource 사용 ; 소스 시스템에 부하를 줄 수 있음

• 한 번에 수천 ~ 수만 레코드 처리• 사용량이 많은 시간에는 network 부하

우려

• 데이터 변환의 제약 - 간단한 데이터 변환

• 데이터 집계 제약• 트랜잭션 당 10 여개의 레코드 이동

• 개발하기가 복잡함 • 변환 작업의 재사용의 어려움• metadata 관리의 어려움 ;

metadata 의 사용 및 import/export• Semantic integrity• 사용량이 많은 시간에는 network 부하 우려

ETL vs. EII vs. EAI – Strengths and Challenges

ETL tool

Integrated Information

비즈니스 응용 프로그램Marketinge-CommerceFulfillment

Page 35: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

ETL EII EAI

Data Flow •단방향 – source to target • 양방향 • 양방향

Data 이동 시점 • 스케줄에 의한 Batch Job• Daily - Monthly

• Query time - Query (SQL) managed

• Real-time

• Transaction triggered – 비동기식

• Transaction managed• (Near) Real-time

데이터 변환 및 정제 /Metadata 관리의 효율성 및 재사용성

• Best• 일반적으로 ETL Job

모듈과 프로세스의 재사용성이 높다

• Medium • 변환은 SQL 기반으로

이루어지며 , view 등의 database object 를 이용하게 된다

• Low • 변환은 ESQL 프로그램

기반으로 이루어지며 , DB catalog 정보에 제한된 metadata 만을 사용할 수 있다

데이터 이동 방법 • FTP 또는 direct database connection

• Direct database connection

• Messaging

한 번에 처리 가능한 데이터 볼륨

• Very large • 수백만 ~ 수십억 레코드

이상

• Medium • 수십만 ~ 수백만 레코드

• Small• 10 여 레코드를 몇 개의

pipe 를 통하여 처리

변환의 복잡도 • 매우 복잡한 변환도 쉽게 처리

• SQL 로 처리될 수 있는 정도의 복잡도

• 간단한 변환• broker 에 의해 구현

가능한 semantic transformation 에 제한됨

ETL vs. EII vs. EAI – 기술적 관점에서의 비교

Page 36: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

ETL Best Practices

ETL 은 일반적으로 대용량 I/O bound 작업– 불필요한 staging step 을 줄여주어야 함

– 속도가 빠른 storage 사용

– 뜻하지 않은 I/O 를 피하라

– “lookup” 프로세스에 주의

– data file 의 위치에 유의

ETL 툴 사용시 생산성 및 데이터 일관성 향상

data mart 에서 data mart 로 가는 작업은 피하는 것이 좋음

과도한 locking 을 피해야 함– 많은 수의 프로세스들을 병렬로 처리하는 것이 키

– Key to running many concurrent processes in parallel

– Query, Load, Backup 이 동시에 허용되어야 함

ETL tool

Page 37: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Integrated Information

비즈니스 응용 프로그램Marketinge-CommerceFulfillmentEII Best Practices

일반적으로 규칙적이지 않은 ad-hoc 액세스에는 적합하지 않음

최상의 성능을 위해서 WII 는 자주 사용되는 데이터를 캐쉬함으로써 query 실행 비용을 관리하도록 계획을 세움

WII 는 query 의 종류와 비용을 관리– DB2 Query Patroller

remote source 사이에 많은 데이터의 이동이 발생하는 operation 의 경우 WII 는 꽤 많은 시간이 소요될 것이다– “permanent basis” 에는 WII 를 이용하여 “ virtual warehouse” 구축을 시도하지

말라 , 특히 ad-hoc 액세스가 일어날 것으로 예상되어진다면 더욱 그렇다

remote 소스에 대한 federated query 의 영향을 항상 염두에 두어야 한다– Remote data 에 대해서는 target access

데이터의 흐름은 remote 소스에서 federated server 로– 두 개 이상의 remote 소스에서 사이즈가 큰 테이블을 조인하는 것은 피하라

Page 38: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

EAI Best Practices

Point-to-point 통합은 피하라– 좀 더 나은 재사용성을 Hub 와 broker 사용

어플리케이션 개발시 주의사항– 선행되어야 할 내용에 대한 준비 및 계획이 필요함

– 연관되는 시스템에 미치는 영향도를 이해해야 함

– 데이터 흐름에 대한 시나리오 및 일어날 수도 있는 현상에 대한 이해가 필요

성능에 대한 모니터링 workflow 에서 데이터의 일관성과 성능에 대한 병목현상을 trace 할

수 있도록 준비가 필요하다

Page 39: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

실시간 BI

병렬ETL Engines

MQSeries queues

복제

웹 서비스

개인화 , 데이터 마이닝 , 비즈니스 룰 , 캠페인

경보 , 트리거 , KPIs, 분석

DB2Warehouse

ODS

InformationIntegration

CorporateDashboards

동시 사용자 조회

고객끊임 없는적재

Page 40: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

4. DW Architecture by IBM

Page 41: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

전통적인 EDW framework

Application

Data Marts

ODS

EDW

Mart Mart

ODS

Mart

Application Application ApplicationApplication

Data Warehouse

ODS Layer

Operational systems

ETL / Replication

ETL / Replication

ETL

BI Apps

Issues:

- 실시간 데이터 처리 난해- 애플리케이션이 여러 레이어로 접속- 처리 시간의 지연- 전체 TCO 증가- 변화가 어려움- Network 부하 발생

Page 42: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

통합 데이터 웨어하우스 아키텍처

Logical and or Physical Mart layer

Application

Data Marts (LOB Apps)EDW

Application Application ApplicationApplication

Atomic Data (normalized)

ODS / Staging Layer

Operational systems

BI Apps

ETLBenefit:

- 실시간 데이터 처리- 애플리케이션이 단일 레이어로 접속- 필요에 따라 여러 레이어의 데이터 접근 - 처리 시간의 감소- 전체 TCO 감소- 변화에 대한 대처 용이- Network 부하 감소- 동적인 자원 관리

Page 43: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

계층별 Data 아키텍처

EDW is an architecture, Not a database!!

상위 Layer로 진행될 수로 데이터 량은 줄어듬

상위 Layer로 진행 될수록데이터는 요약되고 보관 기간이 길어짐

데이

터 량

데이

터 상

세 수

준 및

보관

기간

원천 Raw 데이터 , Staging & 사용자테이블 Rolling data

주제영역별 사용자테이블 ( SoR -3rd normal form)

1 차 집계 요약 데이터

2,3차 집계데이터 마트( 요건 중심 )

의사결정데이터

L1

L2

L3

L4

L5

Page 44: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

쿼리 성능의 저하 없는 동시 적재 , 쿼리 수행 , 유지보수 제공

수집영역

2,3 차 집계 데이터다차원 모델일별 /월별 데이터

1차 집계 요약 데이터일별 /월별 데이터

의사결정 데이터다차원 모델일별 /월별 데이터

•원천 시스템 데이터와 동일한 상세 수준 데이터• 1차 정제 수준•준실시간 /일별 /월별

주제영역별로 정리된 상세 수준의 데이터3차 정규화 모델정제 완료된 데이터준실시간 /일별 /월별

수집영역 데이터 근접 실시간 제공최소의 데이터 가공 , 신속한 데이터 제공

다차원 OLAP 분석( 정형 /비정형 )

정형 조회사용자 Ad-hoc Query정제된 전사 통합 모델 데이터

정형조회 /비정형 /실시간 /준 실시간 화면 조회

요약영역

통합영역

Raw Data Area

Subject Area

Summary Area

Require Specific Area

ExecutiveArea

L1

L2

L3

L4

L5

단계적 Recursive 정제 가공 수행필요한 단계에 필요한 가공

Page 45: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Federation: Join real-time data to the warehouse

DB2 InformationIntegratorApplication

ODS

Operational systems

Enterprise Data Warehouse

Mart Mart

DB2 DBMS

Access current customer records from a call centre

Access current stock levels from a supply chain data mart

Business activity monitoring – linking events to trends

Page 46: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Federation: Access XML & Unstructured Content

DB2 InformationIntegrator

Application

Operational systems

Enterprise Data Warehouse

Mart Mart

DBMSXML

Content Systems

Access to customer documentation (e.g. letters, media) from a call centre

Linking photos or documents to analysis of customer claims in insurance

Page 47: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Federation: Joining Marts & Warehouses

DB2 InformationIntegrator

Enterprise Data Warehouse

Mart

Second EDW

Mart

BI Tool

Access to marts developed by different departments for specific data

Access from mart to warehouse level for detailed data

Page 48: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Intelligent Queuing and Governance

Mixed workload requires workload balancing

Evaluation and workload management prior to resource consumption

– Define a data path for executives and emergency work

– Define a data path for “as long as it gets done” work

– Define rules or priority for the rest (80%+)

Evaluation and adjustment during resource consumption

– Identify priority and “just get it done” work, allotting appropriate resources

– Adjust the rest up and down based on priority, current workload and time period

Page 49: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Data Archiving and Retrieval

More important where regulatory & compliance reporting needs more history than Decision Support and BI

Set threshold for active vs aged data

Different partitions and storage groups

Use Hierarchical Storage Management (HSM) to leave stubs in aged tables, move data to tape

Aged data (ie candidate for archive) still available to SQL – HSM retrieves on demand

Generally over stressed, aged data will not usually influence or change aggregation and summaries

Be fast enough to keep up

EDW

Active data Aged data

HierarchicalStorageManager

OfflineStorage

Page 50: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

5. Parallel Database

Page 51: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

- 대용량 데이터

- 대량 적재

- 분석 시스템

- 비교적 적은 수의 동시 사용자

- 복잡한 쿼리

Data Warehouse System is…

Page 52: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Datauserresponse

- 폭발적인 데이터의 증가 (GB -> TB -> PB)

- 사용자의 증가- 사용자의 데이터베이스에 성능에 대한 기대 수준 증가

Massive Data

Page 53: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

- 대부분 Reporting Tool 을 통해 생성되는 Query

- 90% 이상의 정형 쿼리- 10% 미만의 비정형 쿼리- 악성 쿼리 발생 가능- Query administration

정형쿼리

비정형쿼리

정형쿼리

비정형쿼리

쿼리 비율 자원 사용율

Query

Page 54: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

- 데이터 적재 주기의 감소

- 분석대상 데이터의 동시성 욕구 증가

- 조회와 적재가 동시에 발생

- 트랜잭션 발생 후 30 분 이내에 분석 가능한 시스템의 사례

source: The Data Warehousing Institute, ETL Trends & Requirements, 2003

TodayIn 18

MonthsMonthly 32% 27%Weekly 34% 29%Daily/nightly 69% 65%Multiple times per day 15% 30%Near real time 6% 19%

Mixed Workload

Page 55: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Data Warehouse System is REALY…

- 폭발적인 데이터의 증가

- 준 실시간 적재

- 분석요구 증가

- 동시 사용자의 증가

- ad-hoc 쿼리

- Mixed workload

- Real-time DW

- 대용량 데이터

- 대량 적재

- 분석 시스템

- 비교적 적은 수의 동시 사용자

- 복잡한 쿼리

Page 56: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

SMP

CPU

CPU

CPU

CPU

Memory

Storage

… CPU

MEM

Storage

…CPU

MEM

CPU

MEM

CPU

MEM

MPP

SMP Cluster

Storage

CPU

CPU

CPU

CPU

Memory

… CPU

CPU

CPU

CPU

Memory

… CPU

CPU

CPU

CPU

Memory

……..

Parallel system

Page 57: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

1 10 20 30 40 501

10

20

30

40

50

CPUs Installed

CP

Us

of

Per

form

ance

Linear

good SMPs

Common Wintel SMPs

Best in class SMPs

SMP system performance

Page 58: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

CPU

Mem

CPU

Mem

CPU

Mem

CPU

Mem

Disk Controllers

CPU

Mem

CPU

Mem

CPU

Mem

CPU

Mem

Interconnect

- H/W 의 병렬 아키텍처와는 다른 DBMS 의 병렬 아키텍처- Shared disk I/O 확장에 제한적 , 데이터 쏠림 (Skew) 발생- Shared Nothing

데이터 공유로 인한 Disk 병목현상을 근본적으로 제거하여 성능 보장무제한적인 확장 , 대용량 데이터 처리에 적합

Shared NothingShared NothingShared DiskShared Disk

Parallel Database System

Page 59: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

I/O Channels

Storage Capacity

DB2 Data PartitionDB2 Data Partition

DB2 AgentsDB2 Agents

CPUCPU

Memory - BufferpoolMemory - Bufferpool

CommunicationCommunication

DB2 UDB 의 Partition

- DB2 Agents- CPUs for DB2 Agents- Memory for DB2 Agents- IO Channels- Communications- Storage

Page 60: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

- 대용량 데이터에 대한 복잡한 쿼리 수행에 가장 적합한 Shared-nothing 구조를 채용- 모든 시스템 자원을 극대화할 수 있는 병렬처리 기법- 파티션간 데이터 이동을 최소화하여 병렬처리의 최대 성능을 보장- 데이터 /사용자의 증가에 따른 무한한 확장방안 제공- 시스템 확장에 따른 선형적인 성능 증가 보장- 병렬 적재 , 백업 , 복구

I/O Channels

Storage Capacity

I/O Channels

Storage Capacity

I/O Channels

Storage Capacity

I/O Channels

Storage Capacity

Table

SQLSQL

DB2 Data PartitionDB2 Data Partition

DB2 AgentsDB2 Agents

CPUCPU

Memory - BufferpoolMemory - Bufferpool

CommunicationCommunication

DB2 Data PartitionDB2 Data Partition

DB2 AgentsDB2 Agents

CPUCPU

Memory - BufferpoolMemory - Bufferpool

CommunicationCommunication

DB2 Data PartitionDB2 Data Partition

DB2 AgentsDB2 Agents

CPUCPU

Memory - BufferpoolMemory - Bufferpool

CommunicationCommunication

DB2 Data PartitionDB2 Data Partition

DB2 AgentsDB2 Agents

CPUCPU

Memory - BufferpoolMemory - Bufferpool

CommunicationCommunication

DB2 UDB 의 Parallel Architecture

Page 61: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

1 10 20 30 40 501

10

20

30

40

50

CPUs Installed

CP

Us

of

Per

form

ance

Linear

good SMPs

Common Wintel SMPs

Best in class SMPs

DB2 DPF

SMP system performance

Page 62: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

SMP

Partition

CPU CPU CPU CPU

Memory Memory

Data Data

Partition

SMP - Cluster

Partition

CPU CPU CPU CPU

Memory Memory

Data Data

Partition

Partition

CPU CPU CPU CPU

Memory Memory

Data Data

Partition

MPP

CPU CPU CPU CPU

Memory Memory

Data Data

Partition

Partition

H/W 에 독립적인 parallel DBMS architecture

Page 63: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Intelligent Optimizer

1. Cost-based Optimizer(without rules)

- Access Path 를 결정하는 Algorithm(Know-How)

- 20 년 이상의 Know-how 가 접목

- 사용자에 상관없이 동일한 성능 보장

- 질의 수행에 대한 여러 가지 고려사항 (Hint) 불필요

- Explain 을 통해 확인 가능

2. Query re-write

- Optimizer 에 의해 비효율적인 query 재작성

- SQL 튜닝 없이도 향상된 성능 보장

3. Self tuning

- 자동 runstats 수행

- Learning Optimizer (LEO) – self tuning

Plan Execution

Optimizer

Best Plan

Statistics

Actual Cardinal

ities

Estimated Cardinaliti

es

EstimatedCardinalities

ActualCardinalities

Statistical Profile

ATM /RUNSTATS

Column Group (Correlation)

Stats.

OptimizerFeedback

Warehouse

Background Process

Page 64: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Full 64Bit Support

0xF0000000

0xE0000000

0xD0000000

0xC0000000

0xB0000000

0xA0000000

0x90000000

0x80000000

0x70000000

0x60000000

0x50000000

0x40000000

0x30000000

0x20000000

0x10000000

0x00000000 AIX Kernel

AIX Kernel

DB2 memory segment

125MB

14 EA

32 Bit (V7, V8)

2GB

.

.

.

.

.

0x90000000

0x80000000

0x70000000

0x60000000

0x50000000

0x40000000

0x30000000

0x20000000

0x10000000

0x00000000

? MB

AIX Kernel

AIX Kernel

DB2 memory segment

64 Bit (V8)

? EA

Page 65: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Multidimensional Clustering

- Star schema 구조에 따라 다차원 CUBE 형태로 데이터를 저장 /관리- Query 수행시 Scan 범위를 대폭 축소하여 성능 증가- 물리적으로 항상 Clustering 되어 있기 때문에 Reorg 작업 불필요

Prior to MDCClustering in one dimension onlyclustering NOT guaranteed (degrades once page free space is exhausted)

Nation

Year

Nation

Year

East

97

East NorthSouthWest

98 99 99 00

With MDCClustering guaranteed !

Smaller indexesFaster query response

Simple definition syntaxFast roll-in & roll-out

MDC

CREATE TABLE MDCTABLE ( Year INT, Nation CHAR(25), Color VARCHAR(10), ... ) ORGANIZE BY( Year, Nation, Color )

Page 66: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Multidimensional Clustering (cont.)

1997, Canada,

blue

1997, Mexico, yellow

1997, Mexico,

blue

1997, Canada, yellow

1998, Canada, yellow

1997, Mexico, yellow

1998, Mexico, yellow

1997, Canada, yellow

Y ear

dimension

Color

dimension

Nation

dimension

Cell for (nation, color, year)

1998, Canada, yellow

1998, Mexico, yellow

Each cellcontains one or more blocks

Page 67: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Multidimensional Clustering

Point1D Range

2D RangeCell

ANDingORing

MultiJoin0

10

20

30

40

50

60

70

MDC nonMDC

=+

Key from dim ension

b lock indexRids from rid index

Resulting rids to fetch

6.1

10.9

MDC nonMDC0

2

4

6

8

10

12seconds

=+

Key from dimension block index

Rids from rid index

Á ¶È ̧° á° ú ( blocks ¹ ×

rids )

6.2

21.2

MDC nonMDC0

5

10

15

20

25seconds

MDC ORingMDC ORing

MDC ANDeringMDC ANDering

Page 68: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

SQL Query

Index #1Col1 + Col2

Index #2Col3

■■□□■□■□□■■■■■□■□□■□□□■■□□■□■□□■■■■■□■□□Index #1

■■□■□□■□■□□□■■□□■□■□■■□■□□■□■□□□■■□□■□■□Index #2

ORingORing ■■□■■□■□■■■■■■□■■□■□■■■■□□■□■□□■■■■■■■■□

ANDingANDing ■■□□□□■□□□□□■■□□□□■□□□□□■□■□□□■□□□□□□□■□

■■□□■□■□□■■■■■□■□□■□□□□□■□■□□■■■■■□■□□■□

■■□■□□■□■□□□■■□□■□■□■■□□■□■□□□■■□□■□■□■■

DB2

Index #1

Index #2

- 하나의 테이블에 복수의 인덱스가 존재하는 경우 복수의 인덱스를 모두 사용- 인덱스를 Bitmap 화하여 Anding, Oring 의 기법으로 통합- 사용자의 개입 없이 Optimizer 에 의해 자동으로 수행- 인덱스 사용의 효율성 향상

Dynamic Bitmap Index

Page 69: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

- 쿼리 성능 향상을 위해서 필요한 데이터만으로 MQT 를 생성- 디자인 어드바이저를 통해 MQT 권장- DB2 Optimizer 는 쿼리를 분석하여 필요에 따라서 자동으로 MQT 를 통해 처리- Cube views

xx

SQL Query

DB2 Optimizer

MQTMQT

Query Rewrit

e

Table A

Table B

Table C

Table D

Materialized Query Table

Page 70: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Flat schema, Star schema, Snow-flake Schema 등 다양한 모델링 기법 지원DB2 Intelligent Optimizer 는 다양한 모델링 형태를 인식하고 그에 적합한 Access

plan 을 Cost 를 기반으로 작성

FactFact

【 Snow-flake schema 】

【 Star schema 】

【 Flat schema 】

다양한 Modeling 기법

Page 71: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Query administration

최고경영자 Batch 작업

DB2

OLAP 분석가 일반사용자

DB2 Governor

30% 15% 10% 5%

4321

쿼리가 DBMS 에 요청되기 전 사전 예측

통제 !

실행 중인 쿼리에 대한 자원 통제 !

Query PatrollerQuery Patroller

Page 72: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

6. Case Study : KT EDW

Page 73: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

구축 경과

프로젝트 착수 : 2003. 11. 25

장비도입 및 검수 : 2003. 12. 30

정보 요구사항 분석 : 2003. 11.25 ~ 12.31(1.5 개월 )

EDW 모델링 설계 : 2004. 1.9 ~ 4.28 (4 개월 )

프로그램 구현 : 2004.4.29 ~ 7.20 (3 개월 )

EDW 단위시험 : 2004.7.21 ~ 9.23 (2 개월 )

통합시험 : 2004.9.24 ~ 10.24(1 개월 )

완제품시험 /시스템시험 /성능시험 : 2004.10.25 ~ 11.26 (1 개월 )

EDW 추진 실무위원회 개최 : 2004.11.23

EDW 본위원회 개최 : 2004.11.26

EDW 업무전환 : 2004.11.29

정보센터 6 층

Page 74: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

L4 스위치Alteon 184

LPAR(Logical Partition) extra memory 4GB

SAN 스위치SNFC S48

백업장비StorageTek 9310

디스크 어레이HDS 9980V

- 물리적 용량 : 15.5TB- Raid-5 구성- 사용자 용량 : 10.7TB- Cache Size : 24GB- FC Ports : 16 ea

통합콘솔

기간계

시스템

방화벽

인터넷

Gigabit 스위치 Cisco 6506

LPAR(Logical Partition) extra memory 12GB

4 Way16GB

8 Way16GB

4 Way8GB

표준관리ROLAP WEB SVRIBM X440

ROLAPIBM X440

16 Way64GB

8 Way64GB

App 서버 1IBM P690+

App 서버 2IBM P690+

실시간6 Way

16GB

EDWWAS

3 Way

16GB표준 /품질WAS

2 Way

8GB

Molap & Report4 Way

32GB

시스템 관리2 Way

16GB

보안2 Way

4GB

시스템관리 콘솔IBM X440

사용자

기존 마트

-물리적 용량 : 17.8TB- Raid-1+0 구성- 사용자 용량 : 8.2TB- Cache Size : 32GB- FC Ports : 32 ea

디스크 어레이 HDS 9980V

- 물리적 용량 : 27.8TB- Raid-1+0 구성- 사용자 용량 : 13.7TB- Cache Size : 32GB- FC Ports : 32 ea

- 물리적 용량 : 27.8TB- Raid-1+0 구성- 사용자 용량 : 13.7TB- Cache Size : 32GB- FC Ports : 32 ea

- 물리적 용량 : 27.8TB- Raid-1+0 구성- 사용자 용량 : 13.7TB- Cache Size : 32GB- FC Ports : 32 ea

- 물리적 용량 : 27.8TB- Raid-1+0 구성- 사용자 용량 : 13.7TB- Cache Size : 32GB- FC Ports : 32 ea

수집 서버 (IBM P690+)

통합 /요약 서버 ( IBM P690+)

Gigabit 스위치16 Way64GB

24 Way96GB

24 Way96GB

24 Way96GB

24 Way96GB

16 Way64GB

Gigabit 스위치

HA

CMP

HA

CMP

HA

CMP

전사 통합 데이터베이스

범 례 Fibre Channel

Gigabit Ethernet 기존운영 장비

구성내용 설명

표준 /품질DB

3 Way

16GB

보안2 Way

4GB

100TBHitachi디스크

3대x440(IBM)NT 서버

8대p690(IBM)UNIX 서버

H/W 구성

Page 75: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Mart System

Mart Appl.UDB ClientTWS Agent

UNIX

Legacy System

Legacy Appl.MQ( 일부 )

TWS Agent( 일부 )

OS

개발자 PCData

StageClientER-Win

Rational Rose

WSAD

PVCS Client

UDB Client

Windows

사용자 PC

Web BrowserReportNet

ClientWindows

PC 환경PC 환경

시스템 관리

OpenView /iAgent

TAM 콘솔

TWS Mster

Tivoli Master

Networker Master

AIX 5L

보안 서버 2

WebSEAL

LDAP

OpenView / iAgent

AMOS Agent

Networker Agent

AIX 5L

MOLAP / REPORT 서버

보안 서버 1

WebSEAL

LDAP

DB2 UDB

Networker

AgentAIX 5L

EDW WAS 품질관리

표준 / 품질 AP

OpenVie/iAgent

Tivoli Agent

AMOS Agent

DB2 UDB

Networker Agent

AIX 5L

실시간 서버표준 / 품질

표준 / 품질 AP실시간조회 AP

WebSphere

OpenView /iAgent

Tivoli AgentAMOS, TWS

AgentNetworker Agent

AIX 5L

WebSphere

OpenView/iAgent

Tivoli Agent

AMOS Agent

AIX 5L

Networker Agent

IBM http Server IBM http Server

ROLAP 서버MSTR Server

OpenView Agent

Tivoli Agent

MQ Client

DB2 UDB ClientWindows2003Ser

ver

시스템 관리

TBSM

MS SQL

DB2 UDB Client

Windows2000Ser

ver

NT AP 서버NT AP 서버

IIS

표준화 관리

MetaStage

OpenView Agent

Tivoli Agent

DB2 UDB ClientWindows2003

Server

IIS

관리자 PC

Query Patroller Admin

Health CenterQualityStage

Designer

Web Browser

Data StageClient

TEC Console

TWS Console

TBSM Console

Windows

DB2 UDB Cient

DB2 UDB

OpenView /

iAgentAMOS Agent

Networker Agent

Information Integrator

OpenView/iAgent

Tivoli Agent

AMOS Agent

AIX 5L

DB2 UDB

SQL*NET

PowerPlay / Report Net

Tivoli Agent

AMOS Agent

AIX 5L

TWS Agent

Networker Agent

OpenView / iAgent

DB2 UDB Client

통합 / 요약

DB2 UDB (DPF)

OpenView /iAgent

Tivoli Agent

TWS Agent

AMOS Agent

AIX 5L

통합 / 요약

DB2 UDB (DPF)

OpenView /iAgent

Tivoli Agent

TWS Agent

AMOS Agent

AIX 5L

통합 / 요약 통합 / 요약

UDB (DPF)

OpenView /iAgent

Tivoli Agent

TWS Agent

AMOS Agent

AIX 5L

Data Stage Parallel

Data Stage Parallel

수집서버 수집서버EDW 서버

EDW 서버

DB2 UDB (DPF)

OpenView /iAgent

Tivoli Agent

TWS Agent

AMOS Agent

AIX 5L

Networker Agent Networker Agent Networker AgentNetworker Agent

Data Stage XE

MQ

Integrity

SyncSort

DB2 UDB (DPF)

Data Stage XE

MQ

Integrity

SyncSort

DB2 UDB (DPF)

OpenView /iAgent

Tivoli Agent

TWS Agent

AMOS Agent

AIX 5L

OpenView /iAgent

Tivoli Agent

TWS Agent

AMOS Agent

AIX 5L

Networker Agent Networker Agent

DB2 UDB

•TWS• Job Scheduler

•SyncSort• Sorting

•DataStage XE / PX• ETT

• MOLAP

• DBMS

소프트웨어

•DB2 UDB

•Powerplay

제품명

•ReportNet• Reporting

•MSTR• ROLAP

•WebSphere / IBM http Server

• WAS / Web Server

•MetaStage• MDR

•QualityStage• Cleansing

소프트웨어 제품명

•Enterprise Miner• Mining

•Erwin Data Modeler• CASE(EDW)

•Networker• 백업관리

•iAgent for Unix• 시스템성능관리

•HP Open View• 시스템장애관리

소프트웨어 제품명

•TAM• EAM

•TBSM• 시스템통합관리

•MQ• 전송 미들웨어

•ROSE• 객체지향 CASE

•AMOS• 서버보안

소프트웨어 제품명

S/W 구성

Page 76: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Ⅱ. 사업 수행 내역

전사통합 모델 구축으로 원천발생 데이터와 최종 사용자 사이의 정보 Hub 가 구축 되어 , 데이터 정합성 보장 , 중간저장소 단일화 , 전사적 관점의 정보제공 가능

정보제공정보제공

ETT 처리ETT 처리

데이터관리데이터관리

시스템 구조시스템 구조

-정보제공의 적시성 , 유연성 및 확장성 미흡

-마트별 별도 운영으로 인한 데이터 처리 및 저장 제공에 대한 비효율적 운영

-전사적 표준 부재로 인한 데이터관리 최적화의 한계

-정보 Hub 인프라 구축을 통한 정보제공의 적시성 , 유연성 및 확장성 강화

-통합 관리를 통한 운영의 비효율적 요인 최소화

-전사적 데이터 표준 및 품질관리를 통한 데이터관리 최적화 기반 확보

정보시스템의 변경된 구조

Page 77: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Ⅱ. 사업 수행 내역정보제공 인프라 개선

Page 78: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Ⅱ. 사업 수행 내역프로세스 개선

Page 79: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Current Model after Project

집계

고객 관점

조직 관점

상품 관점

계약 관점

SoR (System of Record)

통합영역수집영역

다차원데이터

마트 I/F

요약영역

데이터표준화

통합DB (EDW)

데이터정제

집계가공

TDWM9개 주제영역

요약가공

요약가공

DW 추출영역

마트제공영역

MOLAP ROLAP

본사 /본부부서-전사 경영전략 정보-매출분석정보-6σ표준 /품질분석

사업부서 /지사-기관별 매출실적-서비스 이용내역-고객민원정보

RM/AM 직원 (Biz 마케팅본부 )-관리고객분석-관리시장정보-다양한 통계정보

표준 / 품질 Web 정형 화면

표준데이터 품질정보

주소 / 건물 기준정보 현행화 구축표준 데이터 set 현행화

표준데이터표준데이터관리시스템

품질관리시스템

업무관계자

계약

상품

이벤트

경영방침

……

Query & Reporting

데이터 마트

IBISICID

PMISNetIS

상품

상호접속통화호

요약

RASABMBSC

경영

구매 BISIT-BSC월추정매출

정액제

원천시스템

상품

경영

시설

고객 고객File/DB

상품File/DB

경영File/DB

시설File/DB

Page 80: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

45%

25%

17%

0%13%FACT 1FACT 2FACT 3FACT 4Di m Al l

FACT 1 Table

Record 수 : 23,102,691,624

File Size :4,805,359,857,792 (4.8 TB)

DB Size :4,658,835,750,912 (4.6 TB)

FACT 2 Table

Record 수 : 12,463,529,688

File Size :2,555,023,586,040 (2.5T B)

DB Size :2,602,058,121,216 (2.6 TB)

FACT 3 Table

Record 수 : 9,307,532,736

File Size :2,298,960,585,792 (2.3 TB)

DB Size :1,753,433,505,792 (1.7 TB)

FACT 4 Table

Record 수 : 14,370,182,640

File Size :1,379,537,533,440 (1.4 TB)

DB Size :1,391,611,871,232 (1.4 TB)

Data 정보

Page 81: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Test 내용 고객의 예상시간 시작시간 종료시간 소요시간

Fact table Load 18 시 18 시 11 분 02초

21 시 00 분 26초

2시 49 분 24초

데이터 추가 및 정재 6시 23 시 09 분 29초

23 시 32 분 27초

0시 22 분 58초

4개의 Fact Table 12 개월 증식 6시 23 시 40 분 42초

0시 18 분 32초

0시 37 분 50초

Table 구조 변경 및 Column 변경 0.5 시 0시 23 분 56초

0시 26 분 37초

0시 02 분 41초

일별 Summary Table 생성 8시 0시 35 분 20초

1시 56 분 59초

1시 21 분 39초

Fact Table 에 대한 정형질의 (100 user)

24 시 9시 27 분 23초

10 시 10 분 57초

0시 43 분 34초

Fact Table 에 대한 비 정형질의 (10 user)

72 시   예상시간 10 시 00 분 00초

고객별 /월별 Summary Table 생성 8시 7시 25 분 24초

8시 25 분 57초

1시 00 분 33초

차원별 /월별 Summary Table 생성 36 시 1시 43 분 20초

6시 50 분 53초

5 시 07 분 33초

정형질의 (500 user) 36 시 19 시 33 분 27초

2시 08 분 25초

6시 34 분 58초

사전 테스트 결과

Page 82: Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005

Feel free to contact me at: [email protected]