미래예측을위한 빅데이터융합분석사례와분석방법론 ·...

34
미래 예측을 위한 빅 데이터 융합분석 사례와 분석 방법론 데이타솔루션 Biz컨설팅 장준호

Upload: others

Post on 26-Sep-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

미래 예측을 위한빅데이터 융합분석 사례와 분석방법론

데이타솔루션 Biz컨설팅장준호

2

Kensho, 켄쇼, 見性

“골드만삭스의 직원들은 금융분석프로그램 켄쇼(Kensho)를 사용한 후 놀라움 감추지 못했다.

그들이 일주일 동안 매달리거나 사람을 고용해 처리하던 일을 켄쇼는 순식간에 해냈기 때문이다.”

뉴욕타임스는 27일(현지시간) 세계적인 금융투자기업 골드만삭스가 이용하는 ‘켄쇼’ 프로그램을 한면에

걸쳐 다루며 “로봇이 월스트리트를 침공(Invading)했다”고 보도했다. 로봇이 인간의 일자리를 빠르게

대체하고 있으며, 금융ㆍ투자와 같은 전문직도 예외는 아니라는 것이다.

켄쇼는 기업의 실적과 주요 경제수치, 주가의 움직임 등 방대한 양의 금융데이터를 분석해 투자자들의

질문에 답을 주는 프로그램이다. 시리아 내전이 경제에 미치는 영향을 파악하기 위해 켄쇼의 검색 엔진에

‘시리아 내전 격화(Escalations in The Syrian war)’를 입력하면 켄쇼는 불과 몇 분 안에 미국과 아시아의

주가 변동, 천연가스와 유가의 움직임, 심지어 캐나다 달러의 환율 변화 등 다양한 정보를 일목요연하게

정리해 보여준다.

한국일보, 2016년 2월 28일 신문기사 중.

3

Intuition VS Analytics

출처 :비즈니스 분석활용과관련된도전및 기회이해, MIT 슬론매니지먼트 리뷰(SMR) & IBM

성과가 우수한 조직

성과가 저조한 조직

재무/예산 관리

1 2 3 4 5 6 7 8

운영 및 생산

전략 및 비즈니스 개발

판매 및 마케팅

브랜드ㆍ시장 관리

직원 계획 및 배치

일반 경영

직관적 경향성 분석적 경향성

0

22.1

4

Big Data

전통적인방법으로다루기어려울만큼다양하고거대한규모의데이터

2011년한해동안전세계에서새롭게생성/복제된정보량1.8ZB

전세계정보량은2년마다2배로증가하는추세

2020년까지생성되는디지털데이터규모40ZB 전세계해변모래알수의57배 블루레이디스크로저장한다면항공모함424대의무게

이중비정형데이터는전체의약 80%

5

Customer Needs & Trend

기본적서비스제공에서는더이상만족을높이기어려움

컨텐츠와실시간성을활용한고객차별화서비스필요

빅데이터분석을통한추천, 또추천…

netflix(70%), google news(38%), amazon(35%)

고객만족과시장선도를위한새로운가치창출필요

6

Mining Data Mining

데이터에서유용한정보를발견하는과정 데이터마이닝을통해가치있는정보를만들어의사결정에적용

Text Mining 자연어로구성된비정형텍스트데이터에서패턴또는관계를추출하여가치와의미있는정보를찾아내는마이닝기법

사람의언어를기계가이해할수있도록하는자연어처리(NLP) 기술에기반

심층분석기술 :소셜마이닝, 오피니언마이닝등

Web Mining, Social Mining, Reality Mining

비정형데이터분석을위한 Text Mining 도구필요

7

Big Data Driven

다양한정보와서비스품질 어디서나원하는시점에 정형데이터

+비정형 데이터

1

2

3

4

5

·· ·

Big Data

Driven

고객유형군행동분석

정형/비정형 빅데이터 분석

예측모델링

고객 Seg. 분석

시장 트렌드/소셜 분석

정형, 비정형데이터융합분석을통한새로운인사이트추천

Auto

Customer Insights

8

Insight

정형데이터통계분석을활용한인사이트도출

정량적데이터의조합을통한상관성발견

정확한결과치를검증해나가며반복적인수행으로예측

데이터 적재 분석 시각화 활용

데이터스토어 정형분석툴 프레젠테이션 정형보고서Daily Data

기존시스템연계

9

New Insight

비정형데이터를기반으로의사결정시스템에필요한인사이트추천

정량적데이터로부터정성적인상관성발견

융합분석으로더욱정교한분석을가능하게하는 Data Intelligence

데이터 적재 분석 시각화 활용

데이터스토어 분석 엔진 프레젠테이션 정형보고서

DataDaily

Update

기존시스템연계

데이터레이크 주제분석엔진 융합분석엔진 AI 리포트

RealTimeData

새로운View

10

Data Lake

방대한양의정형/비정형데이터적재

실시간으로업데이트되는데이터적재및연계

구분 일별건수 전체건수(5~6년) 내용

뉴스 약 3,200 건 약 1,000만 건 장기간 연속적으로 발생하는 정치,경제,사회 뉴스

증권 약 14,000 건 약 4,000만 건 코스닥, 코스피 종목의 시가 및 업종 평균값

기상 약 15,000 건 약 3,200만 건 농업, 종관 기상 정보

물가 약 10,000 건 약 2,400만 건 농축수산물 개별 품목의 물가 및 품목 평균가

시장금리 약 40 건 약 10만 건 콜금리, MMF 등의 시장 금리

11

Topic Analysis

12

13

14

Convergence Analysis

ACF : 시계열내의값들이얼마나선형적연관성이있는가를분석

연관분석에서는정형∙비정형데이터간의선형적인연관성을파악

두데이터간의연관성을구하기위해피어슨상관계수개념이용

정형데이터를임의의기간만큼지연시킨비정형데이터사이의상관관계를파악

𝝎𝟏 ∗ 𝒙𝒄𝒐𝒓𝒓 𝑿, 𝒀 + 𝝎𝟐 ∗𝑫𝑭 𝑿 𝑨𝑵𝑫 𝒀

𝑫𝑭 𝑿+𝝎𝟑 ∗

𝑫𝒂𝒕𝒆(𝒀)

𝑫𝒂𝒕𝒆(𝑿) (𝝎𝟏 + 𝝎𝟐 + 𝝎𝟑 = 𝟏)

X의언급량 X 의시계열데이터전체기간 (일)

15

Convergence Analysis

자연어처리기술을활용한주제추출(텍스트마이닝)

상관성분석과시계열분석을통한데이터그룹핑및추천

최적의알고리즘적용(ACF, Bayesian…)

구분 종목 상관도

코스닥 안랩 30%

코스피 삼성전자 15%

물가 시금치 80%

금리 MMF 49%

16

Convergence Analysis

0

5000

10000

15000

20000

25000

date

20110217

20110406

20110524

20110711

20110828

20111015

20111202

20120119

20120307

20120424

20120611

20120729

20120915

20121102

20121220

20130206

20130326

20130513

20130630

20130817

20131004

20131121

20140108

20140225

20140414

20140601

20140719

20140905

20141023

20141210

20150127

20150316

20150503

20150620

20150807

20150924

20151111

20151229

20160215

20160403

20160521

20160708

20160825

20161012

20161129

20170116

20170305

20170422

20170609

20170727

20170913

20171031

항목 기준 상관도

시금치 평균가 7일 0.80%

수박 평균가 7일 0.43%

팽이버섯 평균가 3일 -0.40%

포도 평균가 7일 -0.38%

17

AI Report

로봇Writing 기술적용

인터스트리및업무영역의요구에부합하는자동리포트생성

StatsMonkey, QuakeBot, 프로야구뉴스로봇등…

주어진 탬플릿에정량적 정보 분석과

정성적 데이터 분석 병행

18

Use case

예시 영역데이터

기대 시나리오비정형 정형

시장 동향 분석뉴스동향 보고서

증권 시세기상농수축산물 물가금리 등

고객사 관련 주요 키워드를 추천, 사전위험 감지

시장 흐름에 따른 현시점의 보고서 활용

기업 분석경제 분야 뉴스결산보고서감사보고서

재무제표경영정보일반정보

경쟁사 혹은 자사에 대한 전반적인 분석 및 관련 있는 주요 기업 추천

기술 동향 분석기술 관련 뉴스기술 동향 보고서특허, 논문 등

특허 출원 수 IPC 코드별 출원수논문 수인용,피인용수 등

현재의 유망 기술에 대한 동향 분석을통한 기술 전략 수립

경쟁사 기술 분석

VOC 분석 STT Data상담 메모 데이터

고객 연령,성별가입상품 수자산

고객 유형 분류 기반 사전 징후 분석 및보고서 작성

실시간 리스크 탐지 및 알람

19

Emergency

5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/185/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18

질병관리본부는 바레인에 다녀온 남성이 확진 판정을 받아 치료 중이며 아직까지

생명엔 지장이 없는 상태라고 밝혔습니다.

메르스 치사율 40% 감염질병.최초 발생 확인은 2012년.

환자는 중동 10여개국에서 97%가 발생하고 있다고 함.

아시아 최초로 사람간 감염 증상이 나타난 메르스가 대한민국에 상륙……

치사율 40%고 치료제도 없다는데 어쩔;;

고열(639)

호흡곤란(744)

기침(852)

사우디아라비아(717)

중동지역(850)

바레인(647)

치사율(899)

일평균 버즈량 → 594

[1주차] 첫 메르스 환자발생으로 화제. 메르스의 증상, 발원지 등 정보 소개

20

Emergency

5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/185/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/185/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18

의심환자가 중국으로 출국하는 것도 몰라 중국이 반발하며 국제적 망신까지...

메르스의 치사율은 40%라지만 한국에서 가라는 출장을 안 가는 것의 치사율은

100%에 육박하기 때문에

메르스 치사율은 40퍼 에볼라 치사율은 90퍼 쿠쿠의 취사율은 100퍼

탄저균을 메르스가 막아주고 있는 형국 이건 정말 나라가 아니다

메르스에, 탄저균에, 국민들은 불안한데...무능정부는 또 '괴담 탓‘0

일평균 버즈량 → 24,835

[2주차] 전염이 시작됨에 따라 의심환자에 대한관심과 우려. 가볍게 희화화한글이 등장하며 화제

의심환자(5,830)

전북(920)

중국(10,762)

쿠쿠(6,798

)

취사율(7,013

)

탄저균(9,391)

유언비어(4,632)

괴담(5,156

)

21

Emergency

5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/185/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/185/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/185/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18

메르스에 의한 사망자는 기존에 호흡기 질환을 앓던 분들이었다고 합니다. 아직

건강하던 사람이 사망한 것이 아니니 너무 겁 먹지 마세요

낙타와 접촉마라 낙타고기를 먹지마라..개콘도 아니고..

서울메르스 대책본부장 박원순입니다.

서울시는 정부의 대책에 적극 협력하겠습니다

메르스 3차 감염 문제가 불거졌는데도 정부는 '병원 비공개'를 고수….

일평균 버즈량 → 235,336

[3주차] 첫 사망자가 발생함에 따라 불안감증폭, 감염자 발생병원 정보공개 여부 논란

박원순(80,177)

낙타(63,957)

공개(70,525)

의사(70,274)

정보(41,990)

휴교(35,264

)

사망, 사망자(82,355)

22

Emergency

5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18

메르스 감염자 절반이 삼성서울병원에서 감염됐습니다.

메르스 사망자가 3명 늘었다. 확진자도 3명 추가됐다. 확진자 3명 중 1명은

삼성서울병원 간호사다. 치명률은 13.9%로 높아졌다.

'슈퍼 전파자' 우려가 제기됐던 부산의 두번째 메르스 확진환자 발생 엿새째인 오

늘까지 추가 감염자는 확인되지 않고 있습니다

일평균 버즈량 → 138,218

[4주차이후] 절반 이상의감염자를 발생시킨 삼성서울병원과추가 확진자, 사망자 발생현황에 관심

이재명(30,147)

부산(27,057

)삼성서울병원

(59,544)사망,사망자(95,115)

성남시(28,386)

23

Marketing

광고초기화제성비교 ‘전지현’ 광고만큼이슈화되지못한

‘김연아’SKT 광고

446건

55건

281건

73건

Online

Buzz김연아 SKT광고

잘생겼다광대역 LTE-A 2014.06.19~2014.07.18

총 2,050건 / 일평균 68건

Online

Buzz전지현 SKT광고

잘생겼다 LTE-A

총 3,685건 / 일평균 122건

2014.02.09~2014.03.10

ON AIR

2주1주 3주 4주

새로운 SKT 모델인김연아의 ‘잘생겼다 ‘ 광고는 On Air 첫날

약 450여건의관련 Buzz를생산하며화제가되었으나,

점점하락하여전지현광고대비일평균건수 50% 수준으로떨어짐

24

Marketing

연관키워드 분석 김연아광고는 ‘모델’에

전지현광고는 ‘광고내용’에관심

별그대

광고기업

품질 노래

Song

천송이

패러디모델

코믹댄스

LTE-A 속도

T월드

프로모션

SK텔레콤

캘리그라피통신사

슬로건

개통

36%

21%

16%

15%

30%

45%

18%

19%

전지현

SKT광고

김연아

SKT광고

광고/마케팅 기업 모델 상품/서비스

SKT의새광고모델인김연아와관련된키워드가

절반가까이차지함(45%)

전지현 SKT 광고의경우,

‘잘생겼다송’, ‘댄스’등광고내용언급이많았음

(36%)

전지현 SKT 광고

광고

모델

기업

서비스

피겨여왕우쿨렐레편

미공개컷캠페인

금메달은퇴

광대역LTE-A3배

세계최초

동계올림픽SK텔레콤

통신사영업정지

열애

요금제세계선수권

김연아 SKT 광고

경기

영상

25

VOC

0

200

400

600

800

1,000

1,200

1,400

1,600

1,800

2,000

콜센터 폭주현상에 대한 원인파악을 TA솔루션을 활용하여 진행

26

VOC

2,109건(33)% 4,345건(67%)

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

청약관련 업무 그외업무

1 공모주 청약 1,048

2 컴퓨터 1,011

3 977

4

5

계좌번호

씨엠에이

679

552

23 238

24 249

경쟁률

청약 수수료

정보 확인

0

500

1,000

1,500

청약확인 문의 경쟁률 수수료/이체 청약화면 문의

통화시간이 짧음 (약 1,589건 )

순위 키워드명건수

* 청약 수수료와 CMA 문의

제가 CMA 계좌가 있는데청약수수료 3,000원 무료

맞나요?

* 공모주 청약 확인 문의

OO머티리얼즈 공모주청약을

했는데, 확인 부탁 드려요

* 화면 설명과 청약 방법문의

이거 화면을 지금 보고 있는데,

하려면 어떻게 해야하죠?

* 실시간 경쟁률 확인문의

OO 머티리얼즈경쟁률이 어떻게 되나요?

현상 해결을 위해 ARS 시스템에 단순업무 안내, 챗봇 시스템을 활용한 선응대

키워드 분석으로발견한 사건의 본질은단순업무 비율 급증

27

Egg

0

20

40

60

80

100

120

140

160

180

0

2000

4000

6000

8000

10000

12000

1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월

계란가격 뉴스언급건수

사재기

조류독감

바이러스

살처분

계란금값

AI

계란 '금값' 여름내내 고공행진

씨암탉 대거살처분

AI로 계란가격연중 최고 수준

돌파

계란 사재기 대란현실이 되다

28

Egg

0

20

40

60

80

100

120

140

160

180

0

2000

4000

6000

8000

10000

12000

1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월

계란가격 뉴스언급건수

증명서

살충제

전수조사

농식품부

계란

안전관리

부적합하다

살충제 계란불안 확산

달걀 전수조사로무더기 검출

계란농장안전관리 부실

논란

29

Egg

0

20

40

60

80

100

120

140

160

180

0

2000

4000

6000

8000

10000

12000

1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월

계란가격 뉴스언급건수

!

조류독감

계란

사재기

30

Unstructured To Structured

김판매 대리 김판매 대리님! 왕구매 고객님께서 방금 내점 하셨습니다.

31

Unstructured To Structured

Customer ID

10324710

선호 브랜드구찌준지

방문주기

4.90일

고객 약속보관 4건수선 1건

12월 5주차 Weekly Sales

Total : 108,000원

김판매 대리

Black

White 358

89

방문기록

Today

2017-12-31 SUN

2017년 Monthly Sales

0

20

40

60

80

100

120

140

1 2 3 4 5 6 7 8 9 10 11 12백만

블링블링주얼러

BLACK GUCCI Paul Smith ASH Diorcosmetics

고객군

선호컬러 추천브랜드

추천브랜드

추천브랜드

추천브랜드

왕구매 고객님의 실시간 분석 정보를 조회 합니다.

32

Unstructured To Structured

김판매 대리 왕구매 고객님의 종합 분석 리포트를 조회 합니다.

33

Future Strategy

단기예측 중장기예측

특정분야데이터

광범위데이터

DataTime

Focus

• 전통적인 예측 분석

• 가능한 상세하고 정확한 데이터 수집

• 현안이나 이슈의 세부 구조와 양상 파악

• (정량)상관/회귀/클러스터링/의사결정트리

• (정성)텍스트마이닝, 네트워크분석…

• 축적된 데이터 기반 추세 모니터링

• 변인 간 상호 역동성 파악

• 지식베이스 기반 대응전략과 실행방안 도출

• 데이터와 전문가 집단지성 활용

• 추세분석, 시스템다이나믹스, 시뮬레이션…

• 전통적인 미래연구와 유사

• 광범위 환경스캔, 트렌드와 이머징 이슈 전망

• 바람직한 미래를 상정, 오피니언 리더

중심으로 사회적 합의 과정도 포함

• 비정형 데이터분석 기법이 다수

• 이상 징후 포착, 조기 전파 및 대응

• 데이터의 정확도 보다 실시간 분석/탐지

가능성이 중요

• 지수/지표 기반 모니터링, Dashboard

• 패턴분석, 초단기예측…

문제해결 선제적대응

조기경보 아젠다발굴

출처 : 빅데이터시대, 미래전략의새로운 접근법, NIA, IT & Future Strategy, 2015-14

34

찾을수있는모든것

[email protected]