제 2 장 데이터마이닝 프로세스

1

제 2 장 데이터마이닝 프로세스Data Mining for Business Intelligence

2011.9.20

홍 성 일

2

2.1

개 요2.2

데이터마이닝의 주요 개념2.3

지도학습과 자율학습2.4

데이터마이닝의 수행 단계2.5

데이터마이닝의 예비 단계2.6

모형 구축 : 선형 회귀분석을 이용한 예2.7

엑셀을 이용한 데이터마이닝

3

2.1 개 요

business intelligence 기능의 핵심요소

분류 및 예측 문제해결을 위한 예측분석 (predictive analytics)

OLAP(online analytic processing)

기술적인 (descriptive) 분석을 위한 데이터베이스 기법

SQL(structured query language)

예 ) 매년 2 만 달러이상을 지출하고 본인 소유의 집이 있으며 , 특정시점에서 기한 내에 월별 청구액을 모두 결제하는 비율이 최소 95% 이상인 지역에 거주하는 모든 신용카드 사용자들을 찾는 문제

4

2.1 개 요

OLAP (online analytic processing)

SQL (structured query language)

구조화 질의어 데이터 정의어 (DDL) 와 데이터 조작어 (DML) 를 포함한 데이터베이스용 질의언어 (query language) 의 일종 특정한 데이터베이스 시스템에 한정되지 않아 널리 사용 초기에는 IBM 의 관계형 데이터베이스인 시스템에서만 사용되었으나 지금은 다른 데이터베이스에서도 널리 사용

사용자로 하여금 데이터를 다른 관점으로 쉽게 , 또한 선택적으로 추출하고 바라볼 수 있게 해주는 것을 의미

OLAP 소프트웨어는 차원들 간의 교점을 찾아내어 , 그것들을 표시할 수 있다 . " 기간 " 등과 같은 속성들은 세부속성으로 나뉘어질 수 있다 .

OLAP 은 데이터 마이닝, 또는 이전에는 판별하지 못했던 데이터 항목들 간의 상관관계를 찾아내는 일 등에 활용될 수 있다 .

http://korea.internet.com/channel/content.asp?cid=464&nid=30749

http://korea.internet.com/channel/content.asp?cid=464&nid=30954

5

2.2데이터마이닝의 주요 개념

• 분류

• 예측

• 연관성규칙

• 예측분석

• 데이터 탐색

• 데이터 시각화

6

2.2 데이터마이닝의 주요 개념

분류 (classifica-tion)

데이터 분석의 가장 기본적인 형태

데이터마이닝의 일반적인 임무는 분류결과가 알려져 있지 않거나 미래에 발생할 경우에 어떤 분류결과가 나타나는지 또는 나타날 것인지를 예측할 목적으로 데이터를 조사하는 것

분류결과가 알려진 유사 데이터를 사용하여 규칙들을 찾아낸 다음 , 그 규칙들을 분류결과가 알려지지 않은 해당 데이터에 적용하는 것

EX)

판매 , 구매제안을 받는 사람

반응하는 사람

반응하지 않는 사람

대출 신청자

제때 돈을 갚는 사람

늦게 갚거나파산 선언

질병환자

병이 완치된환자

여전히 아프거나

사망한 환자

7

예측 (prediction))


집단 ( 구매자 or 비구매자 ) 변수 수치형 ( 정량 ) 변수 ( 구매량 ) 의 값을

예측한다는 점 제외하고는 분류문제와 유사

분류문제

예 측

집단을 예측하는 것이 목적

연속형 변수의 값을 예측하는 것

추 정

예측 연속형과 범주형 데이터 모두를 예측한다는 의미로 사용되기도 함

8

연관성 규칙 (association rule) = 친화성 분석 (affinity analysis)


대량의 고객거래 데이터베이스는 구매항목들간의 연관성 , 즉 어떤 항목이 어떤 항목과 관련되는지에 대한 분석을 의미

EX)

식료품점 할인쿠폰 발행

고객의 모든 물품들 조사

구매결과를 연관성규칙으로 표현

할인물품 결정 및 쿠폰발생

Netfix.com미국 인터넷 DVD 대여사이트

Amazon.com미국 인터넷 서점

( 책 , 의류 , 액세서리 , 컴퓨터 판매 )

9

예측분석 (predic-tion))


예측분석

분류 예측친화성 분석

분류 , 예측 , 그리고 때로는 친화성 분석이 예측분석 (predictive

analytics) 을 수행하는 분석기법으로 분류

10

데이터 축소 (data reduction)


데이터 축소는 이렇게 대량의 변수들을 작은 변수 군으로 병합하는 과정

분별 있는 데이터분석이 되기 위해서는 이처럼 복잡한 데이터를 단순한

데이터로 정제 EX)

데이터 분석가는 수천 개의 제품유형을 소그룹의 집단으로 묶는 시도

데이터 탐색 (data explo-ration)

데이터를 완전하게 이해하기 위해서는 세부적인 데이터 특성을 유지하면서 데이터 전체의 특성을 파악할 수 있도록 데이터의 척도 또는 차원을 축소시킬 필요 비슷한 정보를 내포하고 있는 서로 유사한 변수들은 이를 통합하여 하나의 단일 변수로 병합되거나 이와 비슷하게 레코드 관점에서는 서로 비슷한 레코드들을 하나의 레코드 그룹으로 통합시킬 수 있는 것

EX)

탐정가의 범죄현장 조사처럼 충분히 이를 검토하고 조사하는 것

11

데이터 시각화 (prediction visual-ization)


변수 간의 가능한 관계들 , 관계유형 , 그리고 극단치를 찾기 위해 한 쌍의

수치형 변수에 대한 산점도 (scatterplots) 를 조사

그래프 분석

데이터가 어떤 정보를 갖고 있는지를 보기 위한 데이터 탐색의 또 다른

기법

변수 간의 관계를 보는 것뿐만 아니라 각각의 변수를 개별적으로 조사 히스토그램 (histogram), 상자그림 (boxplot)

수치형 변수에 대해서는 그 변수값의 분포를 파악하고 극단치 (outliers) 를

찾아내며 ,

분석업무와 관련된 다른 정보를 발견하기 위해 사용범주형 변수에 대해서는 차트 (charts) 와 원형 차트 (pie charts)를 이용

12


히스토그램(histogram)

상자그림 (boxplot)

산점도 (scatterplots)원형 차트 (pie charts)

13

2.3지도학습과 자율학습

• 지도학습과 자율학습

• 자율학습 알고리즘

14

지도학습 알고리즘 (supervised learning algo-rithms)

2.3 지도학습과 자율학습

분류와 예측을 위해 사용되는 알고리즘이용 가능한 데이터 : 주요 출력변수의 값 ( 예를 들어 , 구매 또는 비구매 ) 이 알려져 있어야함

모형을 이용하여 출력값이 알려지지 않은 새로운 사례에 대하여 출력값을 분류 또는 예측한다 .

분류 또는 예측 알고리즘은 학습용 자료를 이용 예측변수와 출력변수간의 관계를 학습 , 훈련일단 알고리즘이 학습용 자료로부터 학습된 후에는 다른 모형과 비교하여 얼마나 좋은 성과를 나타내는지를 살펴보기 위해 출력변수를 가진 또 다른 데이터 표본 (검증용 자료 ) 에 이 알고리즘을 적용

여러 후보 모형들을 적용해 본 후 , 최종 모형이 얼마나 좋은 성과를 가질 지를 예측하기 위해서는 최종 선택모형에서 사용될 출력변수를 포함한 제 3 의 표본 ( 검증용 데이터 ) 을 준비해 둘 필요

단순 선형 회귀분석 , 판별분석 , 역전파 신경망 등EX)

15

2.3 지도학습과 자율학습

자율학습 알고리즘 (unsupervised learning algo-rithms)

출력변수가 알려져 있는 사례들과 같은 학습과정은 존재하지 않음

예측 또는 분류를 위해 필요한 출력변수가 없는 경우에 사용되는 알고리즘

연관성규칙 , 데이터 축소기법 ,

군집분석 등

EX)

16

2.4데이터마이닝의 수행단계

17

2.4 데이터마이닝의 수행단계

불필요한 변수를 제거하고 , 변수를 변환하며 ( 예 : 연속형 -> 범주형 ), 새로운 변수를 생성시키는

등의 작업을 포함한다 . 각 변수가 무엇을 의미하는 지와 모형에서 변수를 포함하는 것이 타당지

여부를 확인

1 단계 : 데이터마이닝 프로젝트의 목적을 파악하거나 데이터마이닝 프로젝트의 적용가능성을 파악

2 단계 : 분석에서 사용될 데이터를 획득한다 .

분석에 사용될 자료를 파악하기 위해 대량의 데이터베이스에서 무작위로 표본을 추출하는 것

3 단계 : 데이터를 탐색 , 정제 , 그리고 전처리한다 .

데이터가 타당한 조건에 있는지를 검증하는 것

결측치 , 극단치를 처리하고 , 변수간의 관계를 산점도 등으로 검토하고 , 변수에 대한 정의 , 측정

단위 , 측정기간 등에 대해 일관성을 체크한다 .

4 단계 : 필요한 경우 데이터를 축소하고 지도학습의 경우 데이터를 학습용 , 검증용 , 평가용 데이터

집합으로 분할

18


적용하기에 가장 좋은 알고리즘을 선택하고 가능한 경우 모형이 얼마나 좋은 성과를 갖는지에

대한 아이디어를 얻기 위해 평가용 데이터를 이용하여 최종 선택한 알고리즘을 평가하는 과정을

포함한다 .

5 단계 : 데이터마이닝의 업무 ( 분류 , 예측 , 군집 등 ) 를 결정한다 .

제 1 단계에서의 일반적인 질문을 좀더 상세한 통계적 질문으로 변환하는 것을 포함한다 .

즉 데이터마이닝 프로젝트의 목적에 맞는 분석유형을 선택해야 한다 .6 단계 : 사용될 데이터마이닝 기법들 ( 회귀분석 , 인공신경망 , 계층적 군집분석 등 )

을 선택한다 .

7 단계 : 알고리즘을 적용하여 데이터마이닝 작업을 수행한다 .

8 단계 : 알고리즘의 결과를 해석한다 .

19


• SAS 와 같은 데이터마이닝 업체인 SPSS 의 클레멘타인은 이와 유사한 방법론인 CRISP-DM(CRoss-Industry Standard Process for Data Mining) 을 갖고 있다 .

9 단계 : 모형을 활용한다 .

모형을 운영시스템과 통합시키고 이를 의사결정하고 실행하는데 실제 자료를 적용하여 운영하는 것 . 모형은 발생 가능한 고객의 구매목록에 적용하여 예측된 구매액이 10 달러보다 큰 경우 우편발송 대상 고객에 포함시키는 행위를 실행할 수 있다 .

EX)

이상의 데이터마이닝의 수행 단계들은 SAS 가 개발한 방법론인 SEMMA 의 각 단계와 유사표본추출 (Sample): 데이터 집합에서 표본을 추출하고 , 표본을 학습용 , 검증용 ,

평가용 데이터 집합으로 분할한다 .

탐색 (Explore): 데이터 집합을 통계 및 그래프를 활용하여 조사한다 .

수정 (Modify): 변수를 변환하고 결측치를 대체한다 .

모형화 (Model): 예측모형을 적합시킨다 ( 예 : 회귀나무 , 협업 필터링 ).

평가 (Access): 검증용 데이터 집합을 이용하여 모형들을 비교한다 .

20

CRISP-DM(CRoss-Industry Standard Process for Data Mining)

초보자나 전문가가 비즈니스 전문가와 함께 모형을 만들어 내는 포괄적인 데이터 마이닝의 방법론이며 , 프로세스입니다 . CRISP-DM 은 비즈니스 이해 , 데이터 이해 , 데이터준비 , 모델링 , 모형의 평가 및 전개를 포함하는 모든 단계마다 순차적인 task 와 목표를 제공합니다 . CRISP-DM 은 이미 밝혀진 프로세스의 이점을 사용자가 사용 가능하게 하므로 대규모의 데이터 마이닝을 더 빠르게 , 효율적으로 , 저비용으로 수행할 수 있도록 합니다 . CRISP-DM 프로세스는 일반적인 오류를 줄이고 , 다음과 같은 이점을 제공합니다 . - 비즈니스 문제 인식 및 해결을 위한 데이터 마이닝 프로세스 명료화 - 데이터 탐색 및 이해 - 데이터를 통한 문제 인식 및 해결 - 데이터 마이닝 기법 적용 - 비즈니스 상황에 따른 데이터 마이닝 결과의 해석 - 데이터 마이닝 결과의 전개 및 유지


21

2.5데이터마이닝의 예비단계

• 데이터 집합의 구성

• 데이터베이스로부터 표본추출하기

• 희소 사건의 과대표본추출

• 데이터의 전처리와 정제과정

• 분할표본의 사용과 생성

22

2.5 데이터마이닝의 예비단계

데이터 집합의 구성

데이터 집합의 일반적 표기

자료 : 행기준

변수 : 열기준

EX)

( 보스톤 주택 데이터 ) 에서 볼 수 있듯이 수많은 인구조사 표준 지역에 대해 14 개 변수에 대한 값들이 기록

일인당 범죄율 ( 변수명 : CRIM) 이 0.00632, 2 만 5 천 평방피트 이상을 차지하는 주거지역비율 ( 변수명 : ZN) 이 18%인 것지도학습의 경우에 이 변수들 중에 하나는 출력변수가 되며 , 일반적으로 목록의 처음 또는 마지막 열에 위치

출력변수로서 주택가격 ( 변수명 : MEDV) 이 마지막 열에 위치

23

데이터베이스로부터 표본추출하기


가능한 모든 전체 자료 작은 크기의 자료를 이용하여 데이터마이닝작업을 수행

자료와 변수의 크기 ( 개수 ) 에 따라서 처리할 수 있는 크기에 대한 한계범위가

데이터마이닝 알고리즘에 따라 다르다 . 이러한 범위 내에서도 많은 알고리즘은 좀더 작은

크기의 데이터 집합으로 좀더 빠르게 실행될 수 있을 것

24


희소 사건의 과대표본추출

비반응고객을 반응고객으로 분류했을 때의 오분류 비용은 반응고객을 비반응고객으로 분류했을 때의 오분류 비용보다 상대적으로 낮은 값을 가져야 한다 . 따라서 비대칭적인 오분류 비용을 모형에 반영하여 모형을 학습시키는 것이 필요하다 .

관심을 갖는 사건이 희소할 경우 , 이 자료를 그대로 표본추출할 경우 그 사건의 수를 상대적으로 다른집단에 비해 더 적어지기 때문에 해당 사건을 파악하기가 더 어려워짐

표본이 추가적으로 구매자의 자료를 충분히 가질 수 있도록 비구매자들과 비교해서 상대적으로 구매자들에게 더 많은 비중을 부여하는 표본추출과정이 필요

오분류 비용

반응고객을 찾아내지 못해 발생하는 비용이 반응고객을 비반응 고객으로 오분류하는 비용과 같아면 , 모든 고객을 비반응 고객으로 인식하는 모형이 최선의 모형

25


데이터의 전처리와 정제과정

1) 변수의 유형

연속형 : 대개 주어진 범위내의 실수로 간주함 ),

정수형 : 오직 정수값을 취함 ),

범주형 : 일정 범위의 값을 하나로 범주로 가정함 )

수치형 변수 또는 텍스트형 ( 또는 문자형 ) 변수

수치형 : 1,2,3

텍스트형 : 현금결제 , 비현금결제 , 파산

명목형 변수 : 북 아메리카 , 유럽 , 그리고 아시아 등의 순위정보를 갖지 않는 범주형

순위형 변수 : 높은 값 , 낮은 값 , 0 의 값 등으로 순위정보를 갖는 범주형

범주형

26


2) 범주형 변수의 처리

범주형 변수의 경우 특별한 처리가 요구

범주형 변수가 순위정보를 갖고 있다면 ( 나이범주 , 신용정도 등 ), 마치 연속형

변수인 것처럼 변수를 있는 그대로 사용

범주의 수가 작을수록 , 그리고 값의 증가분이 균등하지 않을수록 절차가 더 복잡한

문제가 될 것이지만 데이터마이닝에서는 대개 잘 처리됨

범주형 변수가 명목형인 경우에는 이진분류의 더미변수로 분할된다 .

범주형 변수를 그대로 사용될 수 없을 때

EX) 학생 － 예 / 아니오

실업자 － 예 / 아니오

임금근로자 － 예 /

아니오

퇴직자 － 예 / 아니오

회귀분석 , 로지스틱 회귀분석 등의 몇몇의 데이터마이닝 과정에서는 이들 4개의 변수들을 모두 사용해서는 안됨

여분의 정보가 알고리즘의 성과를 떨어뜨리기 때문

27


3) 변수선정

모형의 변수선정

변수가 많을수록 모형이 꼭 더 좋은 것은 아니라는 점

모형에 바람직한 특징단순성

(parsimony)

간결성

(compactness)이유 : 변수를 많이 포함할수록 변수들간의 관계를 평가하기 위해 필요한 레코드의 수가 더 크게 증가한다는 것

28


4) 과적합화 (Overfit-ting)

모형에 많은 변수를 포함시킬수록 데이터를 과적합화 시킬 위험은 더 커지게 된다 .

EX)

< 표 2.1> 은 가설검정에 사용된 특정 기간 동안의 광고비 지출액과 그 이후의 특정 기간 동안의 매출액의 데이터를 보여줌

29


< 그림 2.1> 광고비와 매출액 데이터의 X－ Y 산점도 < 그림 2.2> 평활화된 X－ Y 산점도


EX)

400 달러에서 500 달러까지 광고비 지출액이 증가하면 실제 매출액은 감소하고 있는데 , 이러한 사실은 받아들이기 어렵다 .

30



모형을 구축하는 기본적인 목적변수들 간의 관계를 규명하는 것 이를 통해 미래의 예측 (독립 ) 변수들을 이용하여 출력( 종속 ) 변수들을 예측하는 업무를 훌륭히 수행

위의 예에서 광고비를 이용하여 매출액을 예측하기 위해서는 단순한 직선이 복잡한 함수보다도 훨씬 더 좋은 예측력을 보여줄 수 있다 . 그러나 이 예제에서는 오히려 데이터를 너무 완벽하게 적합시키는 복잡한 함수를 개발하였기 때문에예측값이 실제값의 범위를 벗어나게 되었다 .

이러한 결과는 단지 우연변동에 지나지 않는 사소한 변동을 데이터 변동의 일부로 설명한 것이며 , 데이터 내의 잡음이 신호인 것처럼 잘못 분류한 것이다 .

31


5) 얼마나 많은 변수들과 데이터가 사용되어야 하는가 ?

통계학에서는 데이터 집합과 모형의 신뢰성을 달성하기 위해 얼마나 많은 레코드가 필요한지 이를 추정할 수 있는 절차를 제공

한 가지 유용한 경험에 의한 법칙은 모든 예측변수가 각각 10 개의 레코드를 가져야

한다는 것

분류모형절차에 대해 Delmaster and Hancock(2001, p. 68) 이 사용한 규칙

최소한 6×m×p 개의 레코드를 가져야 한다는 것

m 은 출력변수의 집단의 수 , p 는 변수의 개수를 의미

데이터마이닝의 경우에는 이에 대한 요구사항이 비교적 상세하지 않으므로 대개의 경우 경험에 의한 법칙 (rules of thumb) 에 의존해서 데이터마이닝 작업을 수행

32


6) 극단치 (outliers)

대부분의 데이터로부터 멀리 떨어진 값들

분석가들 : “평균으로부터 표준편차의 3배보다 더 멀리 떨어져 있는 값은 극단치에 해당한다 .” 와 같이 경험에 의한 법칙을 사용

극단치 조사

엑셀 이용

첫 번째 분석대상변수의 열을 기준으로 정렬한 후에 해당 열에서 가장 큰 또는 가장 작은 값들을 검토한 후 , 다른 열에 대해서도 반복적으로 작업을 수행엑셀의 min 과 max 함수를 사용하여 각 열의 최소값 및 최대값을 조사하는 것

극단치의 판별

전문가의 지식 (domain knowl-edge)

우편광고인쇄물 , 주택담보부대출 등의 특정 응용분야의 지식으로서 , 통계 또는 데이터마이닝 절차에 대한 기술적 지식과는 상반되는 개념

33


7) 결측치 (missing values)

30 개의 변수들에 대해서 만약 그 변수값 중 5% 가 결측치라고 한다면

( 그 결측치는 사례와 변수들 사이에서 무작위적이며 독립적으로 퍼져 있다면 ),

거의 80% 의 레코드들은 분석대상에서 제외되어야 할 것이다

일반적으로 일부 레코드들은 결측치를 포함 결측치를 갖는 레코드의 수가 적다면 그 레코드는 제외될 수 있음

주어진 레코드에서 결측치를 갖지 않을 가능성은 0.9530 =

0.215 결측치를 갖는 레코드를 처리하는 대안

결측치에 대해 다른 레코드의 값들을 토대로 계산된 대체값을 입력하는 방법

34


8) 데이터의 정규화 ( 표준화 )

어떤 알고리즘의 경우에는 모형을 효과적으로 학습시키기 위해서 사전에 데이터에 대한 정규화 작업을 필요데이터 정규화 : 각 데이터에서 평균값을 뺀 후 , 그 값을 표준편차로 나눈 것

정규값 : 평균으로부터 벗어난 표준편차의 수를 말하며 , Z 값 (Z-Score) 로 불림

테이터 정규화의 필요성

군집분석사례를 통해 알아본다 .

군집분석 : 각 레코드가 군집의 중심점 또는 다른 레코드로부터 얼마나 멀리 떨어져 있는지를 반영하는 거리측정치를 계산

변수

일자

달러

개수( 단 위 )

( 천단위 )

(십단위 )

(십단위 )

가장 큰 영향

단위 등의 문제 ( 천단위 , 십단위 등 )

35


분할표본의 사용과 생성지도학습 – “개발된 예측 또는 분류모형을 새로운 데이터에 적용할 경우 얼마나 좋은 성과가 나타날 것인가 ?” 라는 중요한 의문이 제기

언뜻 처음 볼 때에는 가까운 미래의 데이터를 가진 주요 성과변수를 가장 잘 분류하거나 예측하는 모형을 선택하는 것이 최선이라고 생각

모형의 구축과 모형의 성과평가에 동일한 데이터를 사용할 경우 모형의 편의 (bias)가 발생

기법들이 데이터에 대해서 선형적이거나 다른 구조적인 관계를 표현하지 않음으로 인해서 데이터를 과적합화 시킬 위험성을 갖고 있기 때문

문제를 처리하기 위해서 이 책에서는 데이터를 분할한 후 이 중 하나의 분할된 데이터만을 사용하여 모형을 개발하고 , 그 개발된 모형을 또 다른 분할데이터 집합에 적용하여 여러 가지 방식으로 측정되는 모형의 성과가 어떠한 결과를 나타내는지 살펴보고자 한다

36


학습용 집합 (Training partition)

검증용 집합 (Test partition)

일반적으로 가장 크기가 큰 집합으로서 분석대상인 다양한 모형을 구축하기 위해 사용되는 데이터기능 : 다수의 모형을 개발하기 위해 일반적으로 동일한 학습용 집합이 사용

평가용 집합 (Validation partition)

검증용 집합 (test partition) 과 동일 기능 : 모형을 비교하여 가장 좋은 모형을 선택하기 위해 각각의 모형의 성과를 평가하기 위해 사용 어떤 알고리즘 [ 예를 들어 분류와 회귀나무 (CART)] 에서는 모형을 조율하고 향상시키기 위해 자동화된 방식으로 평가용 집합 (validation partition) 을 사용

예비용 집합 (holdout partition) 과 동일 기능 : 새로운 데이터를 가지고 선택된 모형의 성과를 평가할 필요가 있을 때 사용

37


38

2.6모형 구축 :

선형 회귀분석을 이용한 예

39

2.6 모형 구축 : 선형 회귀분석을 이용한 예

보스톤지역의 주택 데이터는 여러 개의 측정지표들 ( 예를 들어 범죄율 , 학생 / 교사 비율 등 ) 을 포함한 , 보스턴 인근지역의 정보 (14 개의 변수 ) 관심대상의 출력변수는 보스톤 인근지역의 주택가격의 중앙값 (median value)

변수명 변수 내역CRIM 범죄율ZN 25,000 평방피트를 초과하는 거주지역의 비율

INDUS 비소매 상업지역에 의해 점유되는 토지의 비율CHAS 찰스강에 대한 더미변수 ( 강의 경계에 위치한 경우는 1 이고 , 그곳에 위치하지 않는 경우에는

0 임 .)NOX 10ppm 당 농축 일산화 질소RM 주택 1 가구당 평균 방의 개수AGE 1940 년이전에 건축된 소유주택의 비율DIS 5 개의 보스톤 직업센터까지의 가중평균거리RAD 방사형 도로까지의 접근성 지수TAX 10,000 달러당 재산세율

PTRATIO 자치시 (town) 별 학생 / 교사 비율B 1000(Bk-0.63)2, 여기서 Bk 는 자치시별 흑인의 비율을 말한다 .

LSTAT 모집단의 하위계층의 비율 (%)

MEDV 본인소유의 주택가격 ( 중앙값 , 단위 : $1000)

40


1 인당 범죄율

25,000평방피트를 초과하는 거주지역의 비율

비소매상업지역이 점유하고 있는 토지의 비율

XL-Miner 를 사용한 Example (Boston_Housing.xls)

41


모형구축 프로세스

보스톤 주택 예제를 이용한 다양한 모형구축단계를 설명

1. 목적을 설정한다 .

데이터마이닝 프로젝트의 목적 : 보스턴 인근지역의 주택가격 (중앙값 ) 을 예측하는 것이라고 가정

2. 데이터를 획득한다 .

예제에서는 보스톤 주택자료를 사용 예제의 데이터 집합은 별도로 표본추출할 필요가 없을 만큼 데이터의 크기가 작음 따라서 데이터 모두를 사용할 수 있음

3. 데이터를 탐색 , 정제 , 전처리 한다 .

모든 변수들을 파악하기 위해 변수들의 내역 ( 예를 들어 범죄율 , 주택 1 가구당 방의 개수 등 ) 을 먼저 살펴보자 . 이 변수내역들은 웹사이트 (http://lib.stat.cmu.edu/datasets/boston) 에서 제공 BonstonHousing.xls 의 ‘변수내역 (description)’ 시트에서 확인 가능

http://lib.stat.cmu.edu/datasets/boston

42


TAX 변수 : 10,000 달러당 재산세율 개별주택이 아닌 인근지역의 평균값과 관련

MEDA : 본인소유의 주택가격 (중앙값 )( 단위 : $1,000) CAT.MEDV 변수는 MEDV 변수로부터 파생된 범주형 변수 MEDV > $30,000 - CATV = 1 MEDV ≤ $30,000 - CATV = 0 따라서 분석대상 사례에 대해서 중앙값들을 기준으로 크고 작은 값으로 범주화하려고 한다면 MEDV 대신에 CAT.MEDV 를 사용

43


4. 데이터를 축소하고 데이터를 학습용 , 평가용 , 검증용 데이터 집합으로 분할한다 .

이 사례의 데이터 집합은 오직 13 개의 데이터를 가지며 , 데이터 축소는 필요하지 않음좀더 많은 변수들이 있다면 이 단계에서 다수의 유사 변수들을 좀더 작은 수의 변수들로 병합시키기 위해 주성분 분석 (principal components analysis) 과 같은 변수축소기법을 적용할 수 있다 . 엑셀에서 XLMiner -> Partition 를 선택하면 < 그림 2.6> 과 같이 대화상자가 나타난다 . 여기에서 데이터의 범위를 어떻게 나누고 , 분할된 데이터 집합에 어떤 변수를 포함시킬 것인 지를 상세히 설정한다 .

44


5. 데이터마이닝의 업무 ( 분류 , 예측 , 군집 등 ) 를 결정한다 .

이미 언급한 본 사례의 업무는 13 개의 예측변수를 사용하여 MEDV 의 값을 예측하는 것

6. 사용될 데이터마이닝 기법 ( 회귀분석 , 인공신경망 , 계층적 군집분석 등 ) 을 선택한다 .

데이터를 학습용과 평가용 집합으로 분할한 후 , XLMiner 와 학습용 데이터를 이용하여 다중 선형 회귀모형을 구축할 수 있다 . 여기서는 모든 다른 값들을 고려하여 주택가격 (중앙값 ) 을 예측한다 .

7. 데이터마이닝 작업에 수행될 알고리즘을 적용한다 .

XLMiner 에서 Prediction -> Multiple Linear Regression 를 선택하면 , < 그림 2.7> 과 같은 화면이 나타난다 . MEDV 변수는 출력 ( 종속 ) 변수로서 선택되고 CAT.MEDV 변수를 제외한 나머지 변수들은 모두 입력 (독립 또는 예측 )변수로 선택된다 . < 그림 2.8> 은 XLMiner 를 실행하여 검증용 데이터의 예측값과 학습용 데이터의 추정값을 출력할 것을 요구하는 설정화면을 보여준다 . 여기서는 XLMiner 의 기본적인 회귀모형의 결과값을 생성시키는 과정에 대해서만 설명되고 있다 .

45


< 그림 2.7> 다중 선형 회귀모형을 위한 XLMiner 의 사용 < 그림 2.8> 출력값 설정하기

46


47


잔차 (오차 ) 의 평균값

제곱오차의 총합계(TSS 또는 SSE: total sum of squared er-rors)

제곱오차를 합산 오차가 양수 또는 음수인 경우 이 값의 공헌도는 동일 그러나 이 합은 기본적인 오차의 크기에 대한 정보를 나타내지는 않는다 .

평균제곱오차의 제곱근(RMSE: root mean squared error)

전체 성과지표 중에서 가장 유용한 지표 이 지표는 평균제곱오차의 제곱근을 의미 원시데이터에 대해 사용되는 것과 동일한 척도형태로 양수 또는 음수인지에 대한 기본적인 오차정보를 제공

48


8. 결과를 해석한다 .

이 단계는 일반적으로 다른 예측알고리즘 ( 예 : 회귀나무 ) 을 시도해 보고 어떠한 오차결과를 보여주는 지를 살펴본다 .

또한 다양한 모형들에 대해서 여러 가지 모형의 조건 설정사항들을 적용해 본다 ( 예를 들어 검증용 데이터에서 더 좋은 성과를 나타내는 축소된 변수군들을 선택하기 위해 다중 회귀모형의 최적 변수군 (best subsets) 옵션을 사용할 수 있다 ).

최선의 모형 ( 전적으로 검증용 데이터에 대해 가장 낮은 오차를 가지면서 또한 성과가 더 좋은 단순화된 모형 ) 을 선택한 후에 이를 사용하여 새로운 데이터에 대한 출력 변수를 예측한다 .

49


9. 모형을 활용한다 .

최선의 모형이 선택된 후에 MEDV 값이 알려지지 않은 레코드를 갖는 새로운

데이터에 이 모형을 적용하여 MEDV 를 예측한다 .

51


제 2 장 데이터마이닝 프로세스

Documents