빅데이터, 그 놀라움을 맛보다 · 으로 요구된다. 통합 플랫폼은 데이터...

3
한다.‘어떤 방식으로 빅데이터에서 가치를 이끌어낼 것인가’ ,‘빅데 이터 전략은 어떻게 수립할 것인가’가 그것이다. 이 두 가지 문제를 해결하기 위해서는 현재 빅데이터를 통해 기업이 성과를 얻고 있는 사례와 가까운 미래에 등장할 빅데이터 사례를 살펴보면 될 것이다. 빅데이터를 통해 성과를 얻을 수 있는 사례를 HDS(Hitachi Data Systems)와 펜타호(Pentaho) 솔루션 중심으로 살펴보고, 데이터를 기업의 핵심 가치로 둘 수 있는 방법을 알아보자. 데이터 웨어하우스 최적화는 가장 일반적인 방식의 빅데이터 이용 사례로 기업은 주로 비용과 운영 성능, 두 가지 이유 때문에 이 방식을 택한다. 기업 내에 저장 및 액세스해야 하는 데이터의 양이 급증함에 따라 기 존의 데이터 웨어하우스는 거의 한계에 봉착했다. 사용자들은 쿼리와 데이터 액세스의 성능 저하 현상을 피부로 느낄 것이다. 뿐만 아니라 데이터 웨어하우스용 스토리지 용량을 추가로 구입해야 할 수도 있다. 추가 구입은 고비용도 문제지만 데이터가 계속 증가한다는 점에서 근 본적인 해결책이 될 수 없다. 이를 해결하기 위해 기업들은 빅데이터, 그중에서도 특히 하둡(Hadoop) 을 고려한다. HDFS(Hadoop Distributed File System)에 데이터를 저장하 면 기존의 데이터 웨어하우스 스토리지에 비해 상당한 비용을 절감할 수 있다. 특히 하둡 스토리지의 경우 TB당 약 1,000달러 정도에 불과하다. 이에 비해 하드웨어, 서버 등이 완벽하게 탑재된 데이터 웨어하우스 스토 리지는 TB당 5,000~10,000달러 이상의 비용을 지불해야 한다. SLA(Service Level Agreement)와 컴플라이언스 요구사항을 만족시 키면서 데이터 스토리지 비용을 줄이기 위해 데이터 웨어하우스에서 사용 빈도가 적은 데이터를 하둡으로 옮길 수 있다. 기타 소스뿐 아니라 CRM(고객 관계 관리)과 ERP(전사적 자원 관리) 시스템의 데이터도 활용 가능하다. 하둡 클러스터를 통해 사용 빈도가 적은 데이터를 기존의 데이터 웨어하우스에서 폐기한다. 이로써 스토 IDC에 따르면 전 세계적으로 유용한 데이터량이 2010~2020년 사이 에 20배 이상 증가하고, 기업 관련 데이터의 77%는 2015년 현재 비 정형화된 상태로 남아있다고 한다. 데이터가 급증하고 데이터 종류가 많아지면서 기존의 관계형 DB와 데이터 웨어하우스 기술만으로는 해 결되지 않는 정보들을 확보하기 위해 하둡(Hadoop), NoSQL 등 다른 툴로 전환하는 기업도 늘어나고 있다. 관련 연구보고서들은 빅데이터를 통한 새로운 기회가 현실이 되고 있 지만 기업들은 그에 앞서 2개의 커다란 문제를 해결해야 한다고 지적 06 07 HIS advantage 2016 Summer NO.121 Feature 빅데이터, 그 놀라움을 맛보다 앞서가는 비즈니스 기업의 빅데이터 활용법 데이터 웨어하우스 최적화 01 CASE 접근 방식

Upload: others

Post on 05-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 빅데이터, 그 놀라움을 맛보다 · 으로 요구된다. 통합 플랫폼은 데이터 연계와 비즈니스 인텔리전스를 위해 필요하며, it 사용자와 일반

한다.‘어떤방식으로빅데이터에서가치를이끌어낼것인가’,‘빅데

이터전략은어떻게수립할것인가’가그것이다.이두가지문제를

해결하기위해서는현재빅데이터를통해기업이성과를얻고있는

사례와가까운미래에등장할빅데이터사례를살펴보면될것이다.

빅데이터를통해성과를얻을수있는사례를

HDS(HitachiDataSystems)와펜타호(Pentaho)

솔루션중심으로살펴보고,데이터를기업의

핵심가치로둘수있는방법을알아보자.

데이터웨어하우스최적화는가장일반적인방식의빅데이터이용사례로

기업은주로비용과운영성능,두가지이유때문에이방식을택한다.

기업내에저장및액세스해야하는데이터의양이급증함에따라기

존의데이터웨어하우스는거의한계에봉착했다.사용자들은쿼리와

데이터액세스의성능저하현상을피부로느낄것이다.뿐만아니라

데이터웨어하우스용스토리지용량을추가로구입해야할수도있다.

추가구입은고비용도문제지만데이터가계속증가한다는점에서근

본적인해결책이될수없다.

이를해결하기위해기업들은빅데이터,그중에서도특히하둡(Hadoop)

을고려한다.HDFS(HadoopDistributedFileSystem)에데이터를저장하

면기존의데이터웨어하우스스토리지에비해상당한비용을절감할수

있다.특히하둡스토리지의경우TB당약1,000달러정도에불과하다.

이에비해하드웨어,서버등이완벽하게탑재된데이터웨어하우스스토

리지는TB당5,000~10,000달러이상의비용을지불해야한다.

SLA(ServiceLevelAgreement)와컴플라이언스요구사항을만족시

키면서데이터스토리지비용을줄이기위해데이터웨어하우스에서

사용빈도가적은데이터를하둡으로옮길수있다.

기타소스뿐아니라CRM(고객관계관리)과ERP(전사적자원관리)

시스템의데이터도활용가능하다.하둡클러스터를통해사용빈도가

적은데이터를기존의데이터웨어하우스에서폐기한다.이로써스토

IDC에따르면전세계적으로유용한데이터량이2010~2020년사이

에20배이상증가하고,기업관련데이터의77%는2015년현재비

정형화된상태로남아있다고한다.데이터가급증하고데이터종류가

많아지면서기존의관계형DB와데이터웨어하우스기술만으로는해

결되지않는정보들을확보하기위해하둡(Hadoop),NoSQL등다른

툴로전환하는기업도늘어나고있다.

관련연구보고서들은빅데이터를통한새로운기회가현실이되고있

지만기업들은그에앞서2개의커다란문제를해결해야한다고지적

06 07HIS advantage 2016 Summer NO.121

Feature

빅데이터, 그 놀라움을 맛보다앞서가는 비즈니스 기업의 빅데이터 활용법

데이터 웨어하우스 최적화

01CASE

접근방식

Page 2: 빅데이터, 그 놀라움을 맛보다 · 으로 요구된다. 통합 플랫폼은 데이터 연계와 비즈니스 인텔리전스를 위해 필요하며, it 사용자와 일반

아래그림은비즈니스의활용정도와데이터복잡도에따라카테고리화

한10개의빅데이터이용사례다.이들사례가기업에미치는영향은현

재의프로세스최적화부터전체비즈니스모델변화에이르기까지광범

위하다.현재빅데이터를통해기업이성과를얻고있는사례와가까운

미래에등장할빅데이터사례들을간단히알아보자.

빅데이터의 힘기업 내 프로세스 최적화부터

비즈니스 모델 변화까지

BIG DATA

(그림)빅데이터이용사례

스트림데이터수집및정제

데이터로부터이익창출

현재적용분야

Opt

imiz

eTr

ansf

orm

비즈니스의활

Entry 데이터복잡도 Advanced

기존데이터수집및통합

기업내데이터의서비스화

실시간형빅데이터분석

데이터기반예측분석

차세대애플리케이션

활용DW

최적화

사용자중심의데이터소스시각화

떠오르는적용분야

파티고객기업들에게서비스로제공된다.기업은강력한데이터프로

세싱과심층분석을통해신규매출원을확보할수있다.

기존 데이터 수집 및 분석

많은기업이방대한규모의데이터를빅데이터저장소에쏟아넣고있

지만어떤정보가저장돼있으며,어떻게해야이들데이터를생산성있

는정보로전환할수있는지에대해서분명한해답을갖고있지않다.기

본적인데이터마이닝알고리즘을작동시켜데이터와다른소스간에

찾아낸패턴의상호연관성을연구하는것부터시작해야할것이다.

실시간형 빅데이터 분석

센서,라우터,셋톱박스등에저장된고용량데이터분석은얼마전까지

만해도엄청난비용이드는거대프로젝트였다.그러나빅데이터가확

산되고있는현재는상황이다르다.데이터마이닝과짧은대기시간(low

latency)서비스를위해머신데이터및센서데이터를활용할수있다.

데이터 기반 예측 분석

빅데이터는기계학습(머신러닝)알고리즘1)최적화(교육과평가)와이

를활용해성과(평점)를예측하거나성과에영향을미칠수있는새로

운툴셋을제공한다.빅데이터저장소에서의예측분석솔루션으로는

부정거래탐지,추천엔진,최적화등애플리케이션이포함된다.

차세대 애플리케이션으로 활용

애플리케이션벤더들은더강력하고지능화된,높은가치를제공하는솔

루션을개발하기위해데이터/분석아키텍처를끊임없이혁신중이다.사

용자애플리케이션에내장된분석인터페이스를통해매출상승효과를

얻을수있다.

주문형 빅데이터 혼합

빅데이터저장소가생성되면관련부서는기존의데이터웨어하우스

인프라와관련된업무를위해시간을더쓸수밖에없다.시급을다투

는요청이라면데이터웨어하우스를완전히우회해야할수도있다.

‘적시혼합(Justintimeblending)’을통해모든소스에서취합된정

확한데이터를적시적소에제공하므로단계적으로데이터를분석할

필요가없다.

기업 내 데이터 서비스화

데이터수집과액세스를담당하는수많은애플리케이션개발팀전체에대

한서비스를제공하기위해공유데이터베이스서비스로빅데이터에접근

한다.사일로(저장장치를물리적으로계속늘리는방법)기반접근방식과

달리규모의경제와비용절감효과를얻기위해서다.중앙집중화된엔터

프라이즈스택의한컴포넌트로ETL과분석솔루션이포함될것이다.

데이터 웨어하우스 최적화

기존의데이터웨어하우스는데이터의양이급증하면서한계에다다

랐다.데이터웨어하우스가용량을확대하려면상당한비용이소요되

므로기업들은사용빈도가낮은데이터를삭제함으로써데이터웨어

하우스성능이향상될수있도록빅데이터로나아가고있다.

스트림 데이터의 수집 및 정제

빅데이터스토어는이제다양한소스에서취합된데이터가로우레이턴

시(lowlatency)분석(대개는신속한쿼리를위한분석데이터베이스)을

위해다른곳으로이동하기전에체류및프로세싱되는구역(zone)의역

할을하고있다.이를통해ETL과데이터관리비용이대폭절감되었으며

빅데이터가분석프로세스의핵심영역에자리하게되었다.

사용자 중심의 데이터 소스 시각화

고객의모든접점에대해적시적소의분석관점을제공하기위해운영

및트랜잭션이진행중인다양한데이터소스를통합한다.뿐만아니

라고객접점에서근무하는직원들과파트너사들도기업의전체업무

에대한일단위애플리케이션정보를활용할수있다.

데이터 판매

빅데이터를기반으로포괄적이며익명으로처리된데이터셋이서드

현재의 적용 분야

확산 가능성이 높은 분야

1)기계학습알고리즘인공지능의연구분야중하나로,인간의학습능력과같은

기능을컴퓨터에서실현하고자하는기술및기법이다.

08 09HIS advantage 2016 Summer NO.121

리지비용을절감할수있으며,분석가들은데이터마트에서신속한

쿼리로정보에액세스할수있다.

데이터웨어하우스최적화는현재가장보편적인빅데이터활용사례

중하나지만이를실행하려면많은시간과노력,계획이필요하다.하

둡은아직은신기술이다.따라서하둡배포에수반되는‘독창적인’

툴을사용하려면,데이터웨어하우스의데이터를하둡으로옮겨폐기

하는프로세스를생성할수있는자바코딩전문가가필요하다.하둡

개발자와분석가는아직소수에불과해기업이필요로하는인력을

채용하기가쉽지않다.인건비도SQL및기존의다른툴을다루는IT

인력에비해50%이상더책정해야한다.

펜타호는수동코딩을없애모든데이터개발자가하둡에액세스할

수있도록직관적인GUI를제공한다.시간을단축하고인건비를절감

할수있다는말이다.데이터통합솔루션을제공하는기업이라고해

도기존데이터소스와데이터베이스를하둡과통합하는노코딩(no-

coding)솔루션을보유한곳은없다.

정형화된트랜잭션,고객데이터,기타데이터등이축적돼데이터양

이급증하게되면,기존의ETL(Extraction,Transformation,Loading)

시스템의속도는급격히저하되어더이상분석작업을수행할수없

는상태가된다.‘데이터정제’솔루션은하둡을이용해데이터를변

환하고,대부분의데이터소스를확장가능한빅데이터프로세싱허브

를통해간소화한다.정제된데이터는데이터전반에대한로우레이턴

시(Lowlatency)서비스분석을위해분석데이터베이스로전송된다.

이사례는비용을절감하고최적화된데이터웨어하우스의성능을강

화하기위한방법이다.이시점에수많은종류의다양한데이터가하

둡으로로딩되며,하둡은수집된비즈니스인사이트도출을위한소스

로전환된다.

이는데이터웨어하우스최적화에비해변환작업이훨씬더수월하

다.하둡,버티카(Vertica)및그린플럼(Greenplum)등분석데이터베

이스가결합돼더빠른쿼리,신속한수집,강력한프로세싱이가능하

므로기업은대량의다양한데이터소스에서유용한분석결과를얻

을수있다.또한데이터분석담당부서는데이터셋으로부터예측분

석을더빠르게수행할수있다.

이사례는개인화서비스를제공하는온라인마케팅기업의‘정제’

아키텍처를통해확인할수있다.온라인캠페인,등록,트랜잭션데이

터가하둡을통해수집및처리되어분석데이터베이스로전송된다.

스트림 데이터의 수집 및 정제

02CASE

프로젝트고려사항

(그림)데이터웨어하우스최적화를위한펜타호의제안

CRM & ERP Systems

Data Warehouse

Analytical Data Mart

Hadoop Cluster

PDI PDI

PDI

IngestOther Data Sources

Relational Layer

접근방식

Feature

Page 3: 빅데이터, 그 놀라움을 맛보다 · 으로 요구된다. 통합 플랫폼은 데이터 연계와 비즈니스 인텔리전스를 위해 필요하며, it 사용자와 일반

통합플랫폼에이러한모든기능이갖춰져있지않을경우,대부분의

기능을제공하는데이터및분석업체를구해야한다.동시에벤더들

은기업의데이터통합시신기술을무리없이수용할수있어야한

다.프로그램의재설치를최소화할수있을뿐만아니라시스템의유

연성을높일수있기때문이다.이는사용자중심의데이터소스시각

화와같이끊임없이진화하는사용자요구에맞게데이터아키텍처를

변화시켜야하는고도화된프로젝트에는특히중요한문제다.

일상적인기업활동에서끊임없이생성되는다양한종류의데이터가서

드파티에게는가치있는데이터가될수있다.이경우데이터구매자는

주로외부마케터들이될것이다.예를들어통신업체는휴대폰업체로

부터서로다른시간대의위치데이터를수집해인구통계데이터와결합

한후최종적인결과물을유통업체에판매하고,유통업체는이데이터를

활용해매장계획을수립할수있다.통신업체에게는새로운수익원이

생기고,오프라인유통업체는분석데이터에기반해잠재고객을대상으

로효과적으로타겟팅할수있는방안이생긴것이다.

위의사례에서통신업체는유통구매잠재력을파악하기위해특정

지역과관련이있는인구통계학및모빌리티데이터를통합해서드파

티업체에특화된분석서비스를제공한다.이사례는하둡과분석데

이터베이스모두를최대한활용하고있다.

가트너는2016년까지기업의30%가데이터자산을판매할것으로

예측하고있다.‘데이터판매’사례에서하둡은데이터프로세싱플

랫폼으로활용된다.고가의레거시데이터웨어하우스솔루션에비해

훨씬더낮은비용으로높은수익을창출할수있다.‘데이터웨어하

우스최적화’부문에서언급한것처럼TB당비용은하둡이5~10배

정도저렴하다.

펜타호의노코딩(no-coding)빅데이터통합과비즈니스분석기능

을가미하면수익성과시간절감효과는더커진다.이와동시에서

드파티에대해분석서비스를제공하는경우,기존웹애플리케이션

에리포팅과시각화기능을포함해야할수도있다.펜타호는오픈

아키텍처기반솔루션이라는점과시각화에뛰어나다는점에서최적

의대안이다.

데이터 판매

04CASE

경영진을위한직관적이고커스터마이징가능한대시보드

분석가를위한고도화되고응답가능한즉석슬라이싱/ 다이싱(slicing/dicing)툴

팀전체의정보공유를위한분산리포팅기능

데이터분석가를위한데이터마이닝과예측분석툴

CRM,서비스애플리케이션과같은운영소프트웨어의분석

10 11HIS advantage 2016 Summer NO.121

비즈니스분석에는리포팅과기업사용자를위한즉각적인분석서비

스가포함된다.

이프로젝트는데이터종류가다양하고소스가많을수록실행하기가더

욱복잡해진다.따라서현재의다양하고방대한시스템과미래의데이

터시스템을유연성있게통합할수있는데이터통합및분석플랫폼을

선택하는것이무엇보다중요하다.

이사례의경우데이터개발자와비즈니스분석가간협업이최우선적

으로요구된다.통합플랫폼은데이터연계와비즈니스인텔리전스를

위해필요하며,IT사용자와일반사용자가독립적인툴셋을최대로활

용할수있도록조정하는것은훨씬더어려운일이다.

분석데이터베이스는이아키텍처의핵심이다.이러한데이터베이스는

더빠른쿼리,더나은확장성,다차원분석‘큐브’및인메모리기능등

을제공하며,비즈니스인텔리전스에최적화되어있다.이와비교하면

기존의트랜잭션데이터베이스는원하는수준의쿼리와분석기능을제

공하지못할수도있다.

데이터웨어하우스최적화와스트림데이터의수집및정제가비용과효

율성측면에중점을두고있다면,사용자중심의데이터소스시각화는특

히이동통신,병원,금융서비스등고객이탈이잦고,경쟁이심한시장에

서활용가치가높다.이분야에서비즈니스를성공시키는2개의핵심동

력은급증하고있는‘끼워팔기’와‘고객이탈로인한리스크최소화’다.

이사례는NoSQL이나하둡처럼빠른쿼리가가능하도록거의모든고

객접점의데이터를싱글리포지터리(repository)로가져와백엔드에서

활성화시킨다.‘사용자중심의데이터소스시각화’를통해각각독립

적으로존재하던데이터가혼합돼기업내담당부서들은자사의브랜

드와서비스에대한고객의인식을더잘파악할수있으며,구매자의

성향을더잘이해할수있다.고객과의접점에맞닿아있는직원들이

이러한통찰력을확보하면,더생산적이고높은수익을보장하는의사

결정을보다신속하게내릴수있다.

위사례에서금융서비스기업은다양한소스에존재하는데이터를

NoSQL을통해단일빅데이터저장소에보관한다.데이터는이시점부터

고객에대한완벽한파악을위해고객의고유ID로처리된다.이후정확성

이더해진정제된고객데이터는콜센터직원,리서치분석가,데이터분

석가등각분야담당자들에게전달되고적절한분석결과를제공한다.

기업입장에서는충분히채택할수있는사례지만,동시에대단히복잡

하고많은리소스가필요한작업일수있다.‘사용자중심의데이터소

스시각화’는비즈니스관점에서중대한전략적기획이전제돼야한다.

첫째는특정매출목표를이프로젝트와연계해야한다는점이다.따

라서주주들이좋은성과를얻으려면,고객만족요인외에고객접점

에있는직원들이기대가능한성과또한정확하게파악하고있어야

한다.더불어최종사용자(Enduser)도계획단계부터참여해야한다.

그래야필요한정보가적시에가장필요로하는사람에게정확한형

태로전달될수있다.또한분석가들은도입할솔루션에대해사용자

에게충분히설명해야한다.간편한액세스와직관적인이해가가능한

분석결과를기업의중요한애플리케이션에반영하기위해서다.

많은고객정보를간편하고신속하게서버에배포할수있는단일컬

렉션으로의전송방안을찾고있다면몽고DB(MongoDB)등NoSQL

솔루션을빅데이터저장소로선택할수있다.하지만데이터의배치

프로세스가가능한상황이고,시간순으로저장해야하는경우라면하

둡이더나을것이다.

고객분석이필요한사용자들은다양한종류의BI를요구할것이다.

프로젝트고려사항

접근방식

프로젝트고려사항

(그림)스트림데이터의수집및정제를위한펜타호의제안

Transactions-Batch

& Real-time

Enrollments & Redemptions

Location, Email, Other Data

Reports

Analyzer

Hadoop Cluster

Analytical Database

PDI PDI

사용자 중심의 데이터 소스 시각화

03CASE

(그림)사용자중심의데이터소스시각화를위한펜타호의제안

CRM System

Documents & Images

Admin. Info

Claims

Online Interactions

NoSQL

Call Center View

Research Analytics

Predictive Analytics

PDI PDI

접근방식

프로젝트고려사항

*출처:BlueprintsforBigDataSuccess;http://www.pentaho.com2015년

(그림)데이터판매를위한펜타호의제안

Network

Location

Analytics &

DataPDI PDICustomer

(anon.)

Billing

Hadoop Cluster

Analytical Database

Feature