clustering with m initab

103
Clustering with Minitab Soft Computing Lab Yonsei Univ.

Upload: gannon

Post on 16-Feb-2016

74 views

Category:

Documents


10 download

DESCRIPTION

Clustering with M initab. Soft Computing Lab Yonsei Univ. 공공 전력 사업체 분석 데이터 다운로드 방법 1. http://sclab.yonsei.ac.kr/Dataset.zip 방법 2. http://sclab.yonsei.ac.kr/ -> Courses -> Special lecture -> 삼성 미니탭 교육 -> 전체 다운로드. 공공 전력 사업체 분석 예제. 유사한 사업체들을 그룹화 군집화 해야 하는 레코드 : 22 개의 사업체 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Clustering  with  M initab

Clustering with Minitab

Soft Computing LabYonsei Univ.

Page 2: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

공공 전력 사업체 분석

데이터 다운로드방법 1. http://sclab.yonsei.ac.kr/Dataset.zip

방법 2. http://sclab.yonsei.ac.kr/ -> Courses -> Spe-cial lecture -> 삼성 미니탭 교육 -> 전체 다운로드

2

Page 3: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

공공 전력 사업체 분석 예제

• 유사한 사업체들을 그룹화– 군집화 해야 하는 레코드 : 22 개의 사업체– 레코드 변수의 수 : 8 개– 규제 완화에 대한 비용 효과 예측 연구등에 사용

• 다양한 사업체 대한 상세한 비용 예측 모형 구축의 필요성• 군집화를 통한 군집별로 대표적 사업체를 대상으로만 모형 구축• 시간과 노력 감소

– 예로 매출액 (sales) 와 연료비 (fuel cost) 변수를 살펴봄• 군집화에 도움이 되는 예

3

Page 4: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

데이터 셋

• Fixed_charge: 고정부채보상배율 ( 수익 / 부채 )• RoR: 투자수익률• Cost: 킬로와트당 생산비용• Load_factor: 연간 부하량• Demand_growth: 1974 년부터 1975 년까지의 최고 전력 수요량

(kwh) 증가율 (%)• Sales: 전력판매량 (kwh/ 년 )• Nuclear: 원자력발전의 비율 (%)• Fuel Cost: 총 연료비용 (cents/kwh)

4

• 매출액과 연료비 변수

Page 5: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

산점도

• 그래프 -> 산점도 ( 단순 )->Y 변수 : 연료비 , X 변수 : Sales

5

• 매출액과 연료비 변수

Click

Page 6: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

산점도

6

• 매출액과 연료비 변수

Page 7: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

산점도 분석

• 2~3 개의 군집이 나타나 있는 것으로 보임– 높은 연료비 , 낮은 매출액– 낮은 연료비 , 상대적으로 낮은 매출액– 낮은 연료비 , 높은 매출액

7

• 매출액과 연료비 변수

Page 8: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

군집화 알고리즘

• 개별 레코드 사이의 거리를 측정• 거리에 따라 군집들을 형성• 계층적 방법 (Hierarchical methods)

– 병합 또는 분할 방법• 병합방법 : n 개의 군집들을 가지고 최종적으로 하나의 군집이 남을 때 까지 병합• 분할방법 : 모든 레코드를 포함하는 하나의 군집에서 나누어 짐

– 분석의 목적이 군집들을 자연적 계층 구조로 정렬할 때 유용– 계층적 병합 군집화

• 비 계층적 방법 (Nonhierarchical methods)– 미리 군집의 수를 결정– 레코드들을 정해 진 군집에 할당– 적은 계산량– 대량의 데이터 베이스에서 유용– K- 평균 군집화

8

• 매출액과 연료비 변수

Page 9: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

수치형 척도의 정규화 ( 표준화 )• 거리 계산의 척도는 각 변수의 단위 (scale) 에 영향 받음

– 값이 큰 변수는 총 거리에 매우 큰 영향을 줌• 정규화

– ( 측정치 - 평균 )/ 표준편차• 계산 -> 표준화

9

Click

Click

Page 10: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

수치형 척도의 정규화 ( 표준화 )

10

정규화 전 정규화 후

Page 11: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

정규화된 산점도

11

Page 12: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

거리 측도

• 두 접 ( 레코드 ) 간의 거리를 계산하는 방법• 고려해야 할 사항

– 무엇이 측정 되고 있는가 ?– 레코드 간의 어떤 관련이 있는가 ?– 어떤 척도 ( 수치형 , 순서형 , 명목형 ) 로 처리해야 하는가 ?– 극단치들이 있는가 ?

• 유클리드 거리 척도– 큰 값에 영향을 많이 받음 ( 정규화 필요 )– 측정항목들 사이의 관계가 무시

• 측정학목들이 실제 강한 상관 관계가 있다면 다른 형태의 거리척도 ( 통계적 거리 등 ) 를 사용– 극단치에 민감

12

Page 13: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

연결 방법

• 평균거리 : 하나의 군집 내에 있는 관측지들과 다른 군집 내에 있는 관측치들 사이의 모든 가능한 거리의 평균 거리• 중심거리 : 두 군집의 중심간의 거리• 완전거리 : 가장 멀리 떨어진 두 관측치 사이의 거리• McQuitty: 곧 결합할 군집과 다른 군집간 거리의 평균• 중위수 : 한 군집의 한 항목과 다른 군집의 한 항목 간 거리의 중위수• 단일거리 : 가장 가까이에 있는 두 관측치 사이의 거리• Ward: 연결 가능한 군집조합 중 연결된 후에 군집 내 제곱합을 계산 , 최소 제곱합을 가지는 군집의 거리 연결

13

• 두 군집을 병합 할 때 군집을 연결 하는 기준

Page 14: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

계층적 병합 군집화• 하나의 레코드로 구성된 군집들로부터 모든 레코드들로 구성된

하나의 군집만 남을 때까지 가장 가까운 2 개의 군집들을 단계적으로 병합

– 통계분석 -> 다변량 분석 ->– 관측 개체 군집 분석 : 각각 변수들 간의 그룹화– 변수 군집 분석 : 한 변수 내에서의 그룹화

• 덴드로그램– 군집화 과정 및 결과를 나타내는 나무 형태의 도표– 아랫부분에 레코드가 표시– 수직선의 길이는 레코드 사이의 거리 , 유사한 레코드들 연결

14

Page 15: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

단일 연결법 ( 관측 개체 군집 분석 )• 통계분석 -> 다변량 분석 -> 관측 개체 군집 분석• 연결방법 : 단일 , 거리 측도 : Euclid, 군집수 : 1

15Click

Page 16: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

단일 연결법 ( 관측 개체 군집 분석 )• 통계분석 -> 다변량 분석 -> 관측 개체 군집 분석• 저장

16Click

Page 17: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

단일 연결법 ( 관측 개체 군집 분석 )• 통계분석 -> 다변량 분석 -> 관측 개체 군집 분석• 저장 -> 소속 군집 열 : C18

17

Click

Page 18: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

단일 연결법 ( 관측 개체 군집 분석 )• C18 열에 데이터의 군집 표시

18

Page 19: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

단일 연결법 ( 관측 개체 군집 분석 )

• 가장 왼쪽 군집이 단일 군집

19

단일 군집

Page 20: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

단일 연결법 ( 관측 개체 군집 분석 )

• 가장 상위의 연결선으로 군집화 (2 개의 군집 )• 가장 왼쪽 군집이 단일 군집

20

단일 군집

Page 21: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

단일 연결법 ( 관측 개체 군집 분석 )

• 두 번째 연결선으로 군집화 (3 개의 군집 )

21

단일 군집

Page 22: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

완전 연결법 ( 관측 개체 군집 분석 )

• 적절한 군집으로 나누어 짐• 가장 선호하는 방법

22

Page 23: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

평균 연결법 ( 관측 개체 군집 분석 )

• 완전 연결 보다 최초의 군집의 수가 적음

23

Page 24: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

군집 평가

• 목적 : 의미 있는 군집들을 산출• 군집 분석의 유용성

– 군집의 설명 가능성• 군집 분석에 사용된 각 변수들에 대해 각 군집의 요약통계량 ( 평균값 , 최소값 , 최대값 ) 을

구함• 군집 분석에서 누락된 변수가 있는지 조사• 군집에 대한 이해를 기초로 각 군집에 맞는 명칭 부여

– 군집의 안정성• 입력값들이 약간 달라질 때 나누어 진 군집들이 유의하게 변화하는지 조사• 데이터를 나누어 한쪽 데이터를 사용하여 만든 군집이 나머지 데이터에도 유사한지 확인

– 분할된 데이터 집합으로 군집 분석 수행– a 집합의 군집 중심점을 이용하여 B 의 각 레코드가 속하는 군집을 결정– B 의 군집 결과가 모든 데이터를 사용하여 얻은 군집 결과와 비교하여 일관성 조사

24

Page 25: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

계층적 군집화의 장단점

• 장점– 군집화가 데이터에 의해 수행– 덴드로그램의 표현으로 설명이 쉬움

• 단점– 데이터 집합이 매우 클 경우 계산 횟수가 많아 짐– 단 한번의 군집화 시도 , 초기에 잘못 분배되면 재분배 불가능– 안정성이 낮은 경향– 단일 , 완전 거리척도가 바뀌어도 군집 분석의 결과에 변화가 적음– 평균연결법의 척도는 완전히 다른 군집들이 형성될 수 있음– 극단치에 민감

25

Page 26: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

비계층적 군집화 (k- 평균 군집 분석 )• 군집의 수를 명시 ( 군집의 수 결정이 중요 )• 군집들 내부의 분산을 최소화 하여 각각의 사례를 군집들 중 하나에 할당• 측정항목을 기준으로 군집들이 가능한 한 동질성을 갖도록 사전 정의된

군집으로 표본을 나눔• 군집내 분산 측정

– 군집의 중심에서 부터 관찰치까지의 거리의 합• 유클리드 거리의 제곱합• 정수계획법을 포함하는 최적화 문제

–휴리스틱 방법• 빠르면서 만족• 최적은 아님• k- 평균 알고리즘

• 알고리즘– k 개의 초기 군집으로 시작– 가장 가까운 중심을 가진 군집에 할당– 관찰치가 빠지거나 추가되면 군집의 중심을 재 계산– 군집 사이에 관찰치 이동이 분산을 증가시키면 군집화 중단

26

Page 27: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

비계층적 군집화 (k- 평균 군집 분석 )• 통계분석 -> 단변량 분석 ->K- 평균 군집 분석

27

ClickClick

Page 28: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

비계층적 군집화 (k- 평균 군집 분석 )• 결과 ( 표준화 전 ), 군집의 수 : 6

28

Page 29: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

비계층적 군집화 (k- 평균 군집 분석 )• 결과 ( 표준화 후 ), 군집의 수 : 6

29

Page 30: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

아침용 시리얼 분석

30

Page 31: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 데이터 집합– 77 개의 아침용 시리얼 제품에 대한 영양 정보 , 진열 상태 , 평가에 대한 정보

• 목표– 단일 연결법과 완전 연결법 비교– 의미 있는 군집 도출– 어린이를 위한 시리얼 추천

• 문제– 표준화된 항목으로 유클리드 거리를 사용하여 계층적 군집화를 적용하시오 .

군집화의 개수는 단일 연결법과 완전 연결법을 비교하시오 .– 군집을 분석하세요 .– 초등학생을 위한 시리얼 세트를 추천하시오 . 데이터 표준화를 해야 하는가 ?

데이터의 모든 변수를 사용해야 하는가 ?

31

Page 32: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 표준화된 항목으로 유클리드 거리를 사용하여 계층적 군집화를 적용하시오 .군집화의 개수는 단일 연결법과 완전 연결법을 비교하시오 .

• 다변량 분석 -> 관측 개체 군집 분석 -> 단일 , 완전 , 군집수 4~6

32

Click Click

Page 33: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 연결방법 : 단일 , 군집수 : 5

33

문제 : 파란색과 핑크색의 군집에 1 개의 종류만 그룹화 되어 있음

Page 34: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 연결방법 : 완전 , 군집화 : 5

34

Page 35: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 연결방법 : 단일 , 군집화 : 6

35

문제 : 파란색과 보라색의 군집에 1 개의 종류만 그룹화 되어 있음

Page 36: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 연결방법 : 완전 , 군집화 : 6

36

Page 37: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 적절한 군집 선택– 단일 연결 방식에서는 단일 군집이 도출– 완전 군집화 덴드로그램의 관측값들을 분석

37

Page 38: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼 • 어른들이 선호하는 시리얼의 그룹

• 어린이 들이 선호하는 시리얼의 그룹 ( 높은 설탕 비율 )

• 군집화된 결과를 보고 미리 가지고 있던 정보 ( 아이들이 선호하는 시리얼은 설탕 비율이 높다 ) 로 추론 38

Page 39: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 초등학생을 위한 시리얼 세트를 추천하시오 . 데이터 표준화를 해야 하는가 ?데이터의 모든 값을 사용해야 하는가 ?

– 표준화를 해야 함• 각 데이터 별로 측정 단위가 다를 수 있기 때문에 표준화를 해주지 않으면 하나의 값이

다른 값들에 비해 크기가 크거나 작을 수 있다 .• 예 : mg 으로 측정된 값과 g 으로 측정된 값의 단위가 다르기 때문에 표준화가 필요

– 데이터의 모든 값으로 군집화할 필요는 없음• 사전 정보에 의해서 어린이에게 중요한 영향소만을 생각해도 된다 .• 예 : 어린이 건강에 중요한 값 (protein, fat, sodium, sugar)

39

Page 40: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 통계분석 -> 다변량 분석 -> 관측 개체 군집 분석• 변수 (protein, fat, sodium, fiber), 완전 연결 방법 , 군집수 3

40

Click Click

Page 41: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 군집의 중심을 보고 판단• protein 이 높고 fat 이 낮으며 fiver 가 높은 군집 1 을 선택

41

Page 42: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

예제 : 아침용 시리얼

• 그래프당 최대 관측 개수 설정

• 100%_Bran, All-Bran, All-Bran_with_Extra_Fiber 를 추천42

Click

Click

Page 43: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

곰 데이터셋 분석

43

Page 44: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

곰 데이터셋

• 곰 .mtw 워크시트 열기 : 143마리의 곰 데이터– 전체길이 , 머리 길이– 전체무게 , 머리무게– 목 둘레 , 가슴둘레

• 목표 : 143마리의 곰을 소 , 중 , 대 크기의 곰으로 분류

• 제한조건 : 2 번째 , 78 번째 , 15 번째의 곰이 각각 이 세범주의 전형이라는 것을 알고 있다 . (1= 소 , 2= 중 , 3= 대 )

• K- 평균 군집분석을 수행하고 , 곰의 크기라는 열을 만들어 소속 군집을 저장하시오 .

44

Page 45: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

초기 분할 열 만들기

45

Page 46: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

초기 분할 열 만들기

• 제한 조건을 따르기 위해 데이터에 값을 입력합니다 . – 2 번째 =1, 78 번째 =2, 15 번째 =3

46

모든 값을 0으로 채워줍니다 .전체 데이터의 개수만큼

열의 이름 지정

Page 47: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

K- 평균 군집 분석

47

Page 48: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

K- 평균 군집 분석

48

Page 49: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

K- 평균 군집 분석

49

Page 50: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

무게 - 가슴둘레 사이 그래프에서 군집화 결과

50

Page 51: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

무게 - 가슴둘레 사이 그래프에서 군집화 결과

51

Page 52: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

주성분 분석을 이용한 값에 대한 크기 분석

• 곰의 크기 1: 전형적인 곰의 상태를 알고 있음 .• 곰의 크기 2: 전형적인 상태를 모르는 상태에서의 군집화

52

Page 53: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

관측 개체 군집 결과 1

53

Page 54: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

관측 개체 군집 결과 2

54

Page 55: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

K- 평균 vs 관측 개체 군집

55

Page 56: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

Wine 데이터 분석

56

Page 57: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

Wine 데이터 셋 구성

• 같은 지역 내에 있는 세 개의 다른 포도주 양조장에서 얻은 와인의 13가지 성질을 포함

– Alcohol : 알코올– Malic Acid : 말산– Ash : 물푸레나무– Alkalinity of ash : 물푸레나무의 알칼리도– Magnesium : 마그네슘– Total phenols : 총 페놀– Flavanoids : 플래버노이즈– Nonflavanoid phenols – Proanthocyanins : 프로안토시아닌– Color intensity : 색의 강도 – Hue : 색상– OD280/OD315 of diluted wines – Proline : 프롤린

57

• Wine 데이터 셋 예제

Page 58: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

문제

1. Wine 데이터 셋을 시각화 하기 위해 주성분 분석으로 2 개의 주성분을 찾으시오 . (주성분 분석 : 서로 연관이 있는 변수들의 정보들을 최대한 확보하는 적은 수의 새로운 변수들을 생성하는 방법 )

2. 1 번에서 찾은 주성분으로 Wine 데이터 셋을 2 차원으로 시각화 하여 데이터의 분포를 확인하고 몇 개의 군집으로 구분할 수 있을지를 논하시오 .

3. K- 평균 군집 분석을 이용하여 2 번에서 정한 군집의 개수로 군집화 하시오 .

4. 관측 개체 군집 분석을 이용하여 3 번에서 수행한 군집의 개수와 비교하시오 .

5. 군집된 클러스터의 속성을 비교하시오 .58

• Wine 데이터 셋 예제

Page 59: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

1 번 풀이 ( 계속 ) • Wine 데이터 셋 불러오기

– 미니탭 상단의 메뉴에서 [파일 ]->[워크시트 열기 ] 클릭 후 Wine.xls 열기

• 미니탭 상단의 메뉴에서 [ 통계분석 ]->[ 다변량 분석 ]->[주성분 분석 ] 클릭

• 변수란에 왼쪽에 변수들을 모두 클릭하고 “선택”버튼 클릭

59

• Wine 데이터 셋 예제

Page 60: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

1 번 풀이 ( 계속 ) • 계산할 성분 수에 “ 2” 입력

• 행렬 유형 : 상관계수

• “저장”버튼 클릭

• 점수란에 “ C15, C16” 입력 후 확인

60

• Wine 데이터 셋 예제

Page 61: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

1 번 풀이

• 워크시트에 주성분 1(PC1) 은 C15 열에 주성분 2(PC2) 는 C16 열에 저장된 것 확인

61

• Wine 데이터 셋 예제

Page 62: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

2 번 풀이 ( 계속 )• [ 그래프 ]->[ 산점도 ] 클릭• “단순” 선택 후 “확인”버튼 클릭• X 변수 , Y 변수에 PCA 의 결과로 얻은 주성분 각각을 선택 후 “확인”버튼 클릭

62

• Wine 데이터 셋 예제

주성분1

주성분2

Page 63: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

2 번 풀이

• 주성분 PC1 와 PC2 로 데이터 셋을 시각화• 2~3 개의 군집으로 그룹화 하는 것이 적절함

63

• Wine 데이터 셋 예제

Page 64: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

3 번 풀이 ( 계속 ) • [ 통계분석 ]->[ 다변량 분석 ]->[K- 평균 군집 분석 ] 클릭• “군집수” 란에 “ 2” 입력 , 변수 표준화 체크박스 선택• 저장버튼 클릭• “소속 군집 열” 란에 c17 입력 후 확인버튼 클릭

64

• Wine 데이터 셋 예제

Page 65: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

3 번 풀이 ( 계속 ) • 미니탭 화면에 워크시트 C15 컬럼에 군집화 결과가 저장됨

65

• Wine 데이터 셋 예제

Page 66: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

3 번 풀이 ( 계속 ) • 산점도 그래프를 이용하여 클러스터링의 결과를 시각화• [ 그래프 ]->[ 산점도 ] 클릭• “그룹” 표시 선택 후 “확인” 버튼 클릭• 산점도 그리는 나머지 설정은 이전과 동일• 결과 그래프에서 임의의 점을 선택 후 마우스 오른쪽 버튼 클릭 및 “기호편집” 클릭

66

• Wine 데이터 셋 예제

Page 67: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

3 번 풀이

• “기호 편집”에서 [ 그룹 ] 탭을 클릭 후 C17 선택 및 “확인”버튼 클릭• 클러스터링의 결과를 산점도로 확인

67

• Wine 데이터 셋 예제

Page 68: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

4 번 풀이 ( 계속 ) • 상단 메뉴에서 [ 통계분석 ]->[ 다변량 분석 ]->[ 관측 개체 군집 분

석 ] 클릭• 연결 방법은 “완전” , 변수 표준화 체크 박스 클릭 , 군집 수 “ 4”

68

• Wine 데이터 셋 예제

Page 69: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

4 번 풀이

• 유사성 수준의 차이는 3 개의 군집이 최종 분할로 충분함을 나타냄

69

• Wine 데이터 셋 예제

Page 70: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

5 번 풀이 ( 계속 )• 군집된 클러스터의 각 성분 비교를 위해 데이터 표준화• 상위 메뉴의 [ 계산 ]->[ 표준화 ] 클릭

70

• Wine 데이터 셋 예제

Page 71: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

5 번 풀이 ( 계속 )• C18-C30 에 표준화 결과 저장• 워크시트의 변수 이름 복사

71

• Wine 데이터 셋 예제

Page 72: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

5 번 풀이 ( 계속 )• 막대 차트 생성 : [ 그래프 ]->[막대 차트 ] 메뉴 클릭

72

• Wine 데이터 셋 예제

Page 73: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

5 번 풀이 ( 계속 )• 함수를 “평균”으로 , 그래프 변수를 “표준화된 변수들”로 , 그룹화 범주형 변수에 “ Cluster” 로 설정 후 “확인” 버튼 클릭

73

• Wine 데이터 셋 예제

Page 74: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

5 번 풀이

• 결과 해석– e.g. 군집 1 의 알코올 성분이 군집 2 의 알코올 성분보다 평균 15 정도 더 많음

74

• Wine 데이터 셋 예제

Page 75: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

추가문제

• 거리측도를 변경하여 군집화를 수행하고 비교하시오 .– Euclid, Manhattan, Pearson, Euclid 제곱 , Pearson 제곱

75

• Wine 데이터 셋 예제

Page 76: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

IRIS 데이터 분석

76

Page 77: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

Iris 데이터 셋 구성

• 3 가지 붓꽃을 분류하기 위한 데이터셋 (Setosa, Versicolour, Vir-ginica)

– Sepal length (cm 단위 ) : 꽃받침의 길이– Sepal width (cm 단위 ) : 꽃받침의 너비– Petal length (cm 단위 ) : 꽃잎의 길이– Petal width (cm 단위 ) : 꽃잎의 너비– Species : 꽃의 종류 (setosa / versicolor / virginica)

77

• Iris 데이터 셋 예제

Page 78: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

문제

1. Iris 데이터 셋을 시각화 하시오 . ( 필요하면 주성분 분석을 수행하시오 )

2. 관측 개체 군집 분석과 K- 평균 군집 분석을 이용하여 군집화 하고 결과를 비교하시오 .

78

• Iris 데이터 셋 예제

Page 79: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

1 번 답

1. Iris 데이터 셋을 시각화 하시오 . ( 필요하면 주성분 분석을 수행하시오 )

79

• Iris 데이터 셋 예제

Page 80: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

2 번 답

2. 관측 개체 군집 분석과 K- 평균 군집 분석을 이용하여 군집화 하고 결과를 비교하시오 .

80

• Iris 데이터 셋 예제

Page 81: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

Boston House 분석

81

Page 82: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

BostonHousing 데이터 셋 구성

• 보스턴 시의 주택 가격에 대한 데이터 셋– CRIM : 자치시 (town) 별 1 인당 범죄율– ZN : 25,000 평방피트를 초과하는 거주지역의 비율– INDUS : 비소매 상업 지역이 점유하고 있는 토지의 비율– CHAS : 찰스강에 대한 더미변수 ( 강의 경계는 1, 아니면 0)– NOX : 10ppm 당 농축 일산화질소– RM : 주택 1 가구당 평균 방의 개수– AGE : 1940 년 이전에 건축된 소유주택의 비율– DIS : 5 개의 보스턴 직업센터까지의 접근성 지수– RAD : 방사형 도로까지의 접근성 지수– TAX : 10,000 달러 당 재산세율– PTRATIO : 자치시별 학생 / 교사 비율– B : 1000(Bk-0.63)^2 (Bk 는 자치시별 흑인의 비율 )– LSTAT : 모집단의 하위계층의 비율 (%)– MEDV : 본인 소유의 주택가격 ( 중앙값 ) ( 단위 : $1,000)

82

• BostonHousing 데이터 셋 예제

Page 83: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

문제

1. BostonHousing 데이터 셋의 RM 컬럼과 MEDV 컬럼을 이용해 시각화 하시오 .

2. K- 평균 군집 분석을 이용하여 RM 컬럼과 MEDV 컬럼으로 전체 데이터 셋을 군집화 하시오 .

3. 2 번의 결과를 관측 개체 군집 분석을 수행하여 비교하시오 .

4. 관측 개체 군집 분석의 거리 측도를 Manhattan 과 Pearson 으로 변경하고 군집 수를 4 로 설정하여 군집화 하시오 .

83

• BostonHousing 데이터 셋 예제

Page 84: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

1 번 답

1. BostonHousing 데이터 셋의 RM 컬럼과 MEDV 컬럼을 이용해 시각화 하시오 .

84

• BostonHousing 데이터 셋 예제

Page 85: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

2 번 답

2. K- 평균 군집 분석을 이용하여 RM 컬럼과 MEDV 컬럼으로 전체 데이터 셋을 군집화 하시오 .

85

• BostonHousing 데이터 셋 예제

Page 86: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

3 번 답

3. 2 번의 결과를 관측 개체 군집 분석을 수행하여 비교하시오 .

86

• BostonHousing 데이터 셋 예제

Page 87: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

4 번 답

4. 관측 개체 군집 분석의 거리 측도를 변경하고 군집 수를 4 로 설정하여 군집화 하시오 .

87

• BostonHousing 데이터 셋 예제

Manhattan 거리 Pearson 거리

Page 88: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

휴대전화 통화 분석

88

Page 89: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

Telco-CAT 통신회사 자료 (2001 년 )

• 변수 설명–신원 및 인구정보 : ID 번호 , 성 , 나이– 계좌 기록 : Churn( 이탈여부 ), Tariff( 요금제 ), Tariff_OK( 요금제의

적절성 여부 ) 등– 통화 정보 : Peak(주간 통화 ), Off-Peak( 야간 통화 ), Weekend(주말

통화 ) 관련 통화 횟수 및 통화시간 , International(국제 통화 ) 통화시간등

89

Page 90: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

문제

1. 고객의 통화 관련 행태 (Behavior) 를 분석할 것이다 . 열복사를 이용하여 워크시트를 다음의 8 가지 변수를 사용하여 구성하시오 .

– Customer_ID( 사용자 ID), Peak_calls_Sum (주간 총 통화 횟수 )– AvePeak (주간 평균 통화시간 ( 분 ), 통화 1건당 )– OffPeak_calls_Sum ( 야간 총 통화 횟수 )– AveOffPeak ( 야간 평균 통화시간 ( 분 ), 통화 1건당 )– Weekend_calls_Sum (주말 총 통화 횟수 )– AveWeekend(주말 평균 통화시간 ( 분 ), 통화 1건당 )– International_min_Sum (국제통화 총 통화시간 ( 분 ))

2. 데이터 셋의 결측값들을 찾고 평균값을 이용하여 대치하시오 .(AvePeak, AveOffPeak, AveWeekend 열만 수정 )3. 시각화를 위하여 2 개의 주성분을 찾으시오 .4. K-means 클러스터링을 사용하여 2 개의 군집으로 그룹화하고 의미를 추론하시오 .(막대 차트를 이용 )5. K-means 클러스터링을 사용하여 3, 4 개의 군집으로 나누어 결과를 비교하고 의미를 추론하시오 . (막대 차트를 이용 )

90

Page 91: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

결측치 처리 기준

• 결측치가 10% 이하일 경우– 해당 표본을 제거– 대치법을 사용– 단순회귀분석을 사용

• 결측치가 10~20% 인 경우– Hot deck cast substitution– Regression– Model-based methods

• 결측치가 20% 이상인경우– Egression– Model-based method

91

Page 92: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

결측치 확인 방법 1

• 시계열도를 이용

92

Page 93: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

결측치 확인 방법 1

93

③ ① ②

Page 94: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

• 그래프 결과

94

결측치

Page 95: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

결측치 확인 방법 2

• 열 통계량 이용

• 결과 ( 세션창 )– International_mins_Sum 에서의 총 관측치 수 = 3237– 비결측값 수 = 3196– 결측값 수 = 41

95

Page 96: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

결측치 대치

• 평균값을 이용

– International_mins_Sum 의 평균 = 168.799

96

• 해당 열 선택 -> 바꾸기

Page 97: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

결측치 대치

• 값 입력 후 모두 바꾸기

97

• 결과

Page 98: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

문제

1. 고객의 통화 관련 행태 (Behavior) 를 분석할 것이다 . 열복사를 이용하여 워크시트를 다음의 8 가지 변수를 사용하여 구성하시오 .(열복사 이용 )

– Customer_ID( 사용자 ID)– Peak_calls_Sum (주간 총 통화 횟수 )– AvePeak (주간 평균 통화시간 ( 분 ), 통화 1건당 )– OffPeak_calls_Sum ( 야간 총 통화 횟수 )– AveOffPeak ( 야간 평균 통화시간 ( 분 ), 통화 1건당 )– Weekend_calls_Sum (주말 총 통화 횟수 )– AveWeekend(주말 평균 통화시간 ( 분 ), 통화 1건당 )– International_min_Sum (국제통화 총 통화시간 ( 분 ))

2. 데이터 셋의 결측값들을 찾고 평균값을 이용하여 대치하시오 .3. 시각화를 위하여 2 개의 주성분을 찾으시오 .4. K-means 클러스터링을 사용하여 2 개의 군집으로 그룹화하고 의미를 추론하시오 .(막대 차트를 이용 )5. K-means 클러스터링을 사용하여 3, 4 개의 군집으로 나누어 결과를 비교하고 의미를 추론하시오 . (막대 차트를 이용 ) 98

Page 99: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

해설 1, 2

• 총 8 가지 변수의 워크시트

99

Page 100: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

해설 3

• 결과

100

Page 101: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

해설 3

• 막대 차트

101

Page 102: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

해설 4, 5

• 군집화 결과

102

Page 103: Clustering  with  M initab

S FT COMPUTING @ YONSEI UNIV . KOREA16

해설 4, 5

• 막대 차트

103