상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를...
DESCRIPTION
·. ·. ·. ·. ·. ·. y. ·. ·. ·. ·. ·. ·. y. ·. ·. ·. ·. x 가 커질수록 y 가 커지는 경향이 있음 → 두 변수 간에는 正 ( positive ) 의 선형관계 ( linear relationship ) 가 있다. x 가 커질수록 y 가 작아지는 경향이 있음 → 두 변수 간에는 負 ( negative ) 의 선형관계가 있다. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. - PowerPoint PPT PresentationTRANSCRIPT
1
Marketing Research
상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 (relationship) 를 안다면 한 변수의 값에
대한 지식을 가질 때 다른 변수의 값을 추정할 수 있다 .< 두 변수의 관계로서 전형적인 유형 >
제 14 장 상관관계분석과 회귀분석제 14 장 상관관계분석과 회귀분석
y
x
y
x
x 가 커질수록 y 가 커지는 경향이 있음 → 두 변수 간에는 正 (positive) 의 선형관계 (linear relationship) 가 있다 .
x 가 커질수록 y 가 작아지는 경향이 있음 → 두 변수 간에는 負 (negative) 의 선형관계가 있다 .
y
x
한 변수 값의 변화로부터 다른 변수 값의 변화방향을 예측할 수 없음 → 두 변수 간에는 관계가 전혀 없거나 거의 없다고 할 수 있다 .
y
x
x 의 증가에 따라 y 는 증가하다가 어느 수준부터는 감소함 → 전체적으로 두 변수의 관계는 곡선관계(curvilinear relationship) 를 가지며 , 곡선관계의 경우 나타날 수 있는 곡선의 형태는 매우 다양 .
····················
···· ·
· ····· ·
···· ·· ·· ·· ·· ·· ·· ··
······
··· · ··· · ··
··
··· · · ··· ··· ·
· · ·· ·
··· · ·········
····················
···· ·
· ····· ·
··
·· ·· ·· ·· ·· ·· ·· ·····
·····
· · ··· · ··
··
2
Marketing Research• 일반적으로 선형관계에 초점을 두고 두 변수가 ⑴ 선형관계를 갖는지⑵ 선형관계를
갖는다면 어느 방향인지 ⑶ 그 관계는 얼마나 큰지를 분석 .• 상관관계계수 (correlation coefficient) : 상관관계의 크기는 나타내며 , –1 부터 +1
사이의 값을 갖고 두 변수의 상관관계가 正 혹은 負의 방향으로 클수록 +1 또는 –1 에 가깝게 나타나고 두 변수간에 상관관계가 전혀 없으면 상관관계계수는 0 이다 .
상관관계계수의 계산과 유의성 검증 : Pearson 상관관계계수 (Pearson product-moment correlation coefficient) 가 보편적이며 모집단의 상관관계계수는 ρ(rho) 로 나타내며 표본의 상관관계계수는 r 로 나타낸다 .
• 상관관계계수 :
• 검증통계량 :
• 상관관계분석과 단순회귀분석을 위한 자료 : 광고비 지출과 매출액간의 관계를 조사하기 위하여 최근 10 개월의 자료를 수집한 결과는 다음과 같다 . 표본상관관계계수의 계산과정 . 유의성 검증 ( 또는 가설검증 ) 절차 .
분산의분산의공분산의
yx
xy
SSSS
SSr
yx
xy
21
22
n.f.d
r
nrt
n
iiixy
n
iiy
n
iix
YYXXSS
YYSS
XXSS
1
1
2
1
2
3
Marketing Research광고비와 매출액 자료
( 단위 : 억원 )
월 광고비 매출
1 1.2 101
2 .8 92
3 1.0 110
4 1.3 120
5 .7 90
6 .8 82
7 1.0 93
8 .6 75
9 .9 91
10 1.1 105
매출 y
광고비지출과 매출에 관한 산포도 (scatter diagram)
광고비 지출 x
12
0
11
0
10
0
90
80.6 .7 .8 .9 1.0 1.1 1.2 1.3
·
··· · ·
·· ·
·
4
Marketing Research
H0 : ρ = 0, H1 : ρ≠0
자료의 계산( 단위 : 억원 )
Yi Xi
101
1.2 5.1 .26 1.326
92 .8 - 3.9 - .14 .546
110
1.0 14.1 .06 .846
120
1.3 24.1 .36 8.676
90 .7 - 5.9 - .24 1.416
82 .8-
13.9- .14 1.946
93 1.0 - 2.9 .06 - 1.74
75 .6 -20.9 - .34 7.106
91 .9 -4.9 - .04 .196
105
1.1 9.1 .16 1.456
평균 95.9
.94 합계 : 23.34
YYi XX i XXYY ii 34231
.YYXXSSn
iiixy
4441
2.XXSS
n
iix
960011
2.,YYSS
n
iiy
8754
96001444
3423.
.,.
.
SSSS
SSr
yx
x
• 상관관계계수의 유의성 검증 : 표본 상관관계계수 .8754로부터 두 변수간에는 실제로 상관관계가 있다고 할 수 있는가 ? α=.05
1225
87541
2108754
1
222
..
.
r
nrtobs
3062802522 .;.n;ttcrit
따라서 α=.05 에서 H0는 기각되며 ,
광고비와 매출액간에는 상관관계가 있다는 결론을 내릴 수 있다 .
30621225 .t.t critobs
5
Marketing Research< 참고 >
:ρ > 0 이면 , 우측검정 / ρ < 0 이면 , 좌측검정이 된다 . → 단측검증일 경우 연구자의 가설이 지지되기 쉽다 . 통계적 유의성과 실제적 유의성 : 표본으로부터 계산한 r 로써 유의성 검증 ( 또는
가설검증 ) 을 하면 r 이 상당히 작더라도 통계적으로 유의적으로 (statistically significant) 나타나는 경우가 있다 .• 예 : 이 .05 이며 통계적으로 유의적으로 나타난 경우 두 변수 간에 正의
상관관계가 있다고 할 수 있는가 ? → 통계적으로 유의적이지만 실제적 유의성 (substantive significance) 을 판단하는 기준이 필요하며 다음과 같다 .
상관관계의 실제적 유의성
상관관계계수의 범위 상관관계크기에 대한 기술
± .81 ~ ± 1.00 매우 강함
± .61 ~ ± .80 강함
± .41 ~ ± .60 어느 정도 있음
± .21 ~ ± .40 약함
± .00 ~ ± .20 없음
지금까지의 상관관계계수 :
측정도구가 간격척도 또는 비율척도로
측정한 경우를 전제로 한 것 .
r
6
Marketing Research 서열 상관관계계수 : 변수나 construct 에 대한 측정이 서열척도로 이루어진 자료의 경우
Pearson 상관관계계수 대신 Spearman 서열 상관관계계수 (Spearman rank order correlation coefficient) 를 계산해야 한다 .• 소비자 두 사람이 청량음료 8 개 브랜드의 선호도를 서열로 평가하였다 ( 가장 선호 =
1). 두 사람의 선호도에 대한 서열 상관관계계수를 계산하고 유의성을 검증하라(α=.05).
8 개 브랜드에 대한 두 소비자의 선호순위
브랜드 소비자 A 소비자 B
1 7 1
2 4 5
3 2 3
4 6 4
5 1 8
6 3 7
7 8 2
8 5 6
•서열 상관관계계수 :
( 여기서 , di = Xi – Yi )
16
121
2
nn
dr
n
ii
s
통계학에서는 sample 의 크기가
클수록 유의성이 높아지는
경향이 있다 .
7
Marketing Research
대상에 동등한 서열을 주고자 하면 3.5 를 부여 (Pearson 상관관계계수를 계산하는 공식을 이용해도 거의 비슷한 값을 얻을 수 있음 .).
단순선형회귀분석 (simple linear regression) 단순회귀분석의 개념 : 두 변수간의 인과관계 (causal relationship) 을 조사하는 방법 .
• 독립변수 ( 예측변수 ; predictor variable) : 영향을 미칠 것으로 생각되는 변수 .• 종속변수 ( 기준변수 ; criterion variable) : 영향을 받을 것으로 생각되는 변수 .• 두 변수간의 관계에서 독립변수와 종속변수의 설정 : 논리적 타당성을 토대로 하며 ,
자료분석 결과 독립변수로 설정된 변수의 변화에 따라 종속변수로 설정된 변수의 변화가 있는 것으로 나타나면 비로소 두 변수간의 인과관계가 있는 것으로 추정 .
브랜드 A B서열
didi
2
1 7 1 6 36
2 4 5 - 1 1
3 2 3 - 1 1
4 6 4 2 4
5 1 8 - 7 49
6 3 7 - 4 16
7 8 2 6 36
8 5 6 - 1 1
144
7141648
14461
1
61
21
2
.nn
dr
n
ii
s
• 유의성 검증을 위한 가설 : H0 : ρs= 0, H1 : ρs≠0
• 임계치 (critical value) 는 α=.025 에서 .738 로서 관측치 rs 의 절대값은 .714 로서 임계치 .738 보다 작으므로 H
0는 기각되지 않는다 .• 둘 이상의 대상에 대한 서열이 같은 경우 가운데 서열을 부여한다 . 예를 들어 1, 2 위를 부여한 다음 두 가지
8
Marketing Research• 논리적 근거없이 어떤 임의의 두 변수 중 하나를 독립변수 , 다른 하나를
종속변수로 설정하여 회귀분석 결과 독립변수의 계수가 통계적으로 유의적이라 하더라도 두 변수간에 인과관계가 있다고 추정할 수는 없다 .
최소자승법 : 단순회귀분석에서 가장 기본적인 작업 → 회귀식 ( 회귀방정식 ; regression equation) 을 추정하는 것 .
• 단순회귀식 : Y=β0 + β1X (Y : 종속변수 , β0와 β1은 회귀식의 계수로서 각각 절편과 기울기를 나타냄 )
• 표본의 회귀식 : ( 과 은 각각 추정회귀계수이며 , 은 회귀식으로부터 추정되는 종속변수를 나타냄 )
• 표본의 회귀식은 최소자승법 (least square method) 에 의해 발견됨 .
XˆˆY 10 0 1 Y
x
y
·
··
·네 점의 위치에 대한 경향을 나타내는 여러 개의 직선들 중 경향을 가장 잘 나타내는 직선이 표본의 회귀식이 된다 .
9
Marketing Research
단순회귀분석• 단순회귀식의 발견 ( 최소자승법에 의한 회귀계수의 추정 )
x
y
·
··
·
· ·· ·
iy
iy
ix
XˆˆY 10 • 네 점의 위치는 각각 (x1, y1), (x2, y2), (x3, y3), (x4, y
4) 이며 , 회귀식을 발견한 경우 각각의 y 값에
대응하는 값을 회귀식으로부터 계산하는 것이 가능 → 각각의 실제값과 이에 대응하는 추정값의 차이 : 추정오차
• 최소자승법에 의한 최적의 회귀식 : 추정오차의 제곱의 합계를 최소화해주는 선이 되며 , 합계값은 SSE(sum 0f squares due to error) 가 된다 .
n
iii yySSE
1
2
XˆˆY 10
XˆYˆ
SS
SSˆx
xy
10
1
y
10
Marketing Research• 독립변수의 유의성 검증 : 위 식을 통해 발견한 회귀식의 독립변수의 계수 ( ) 는
모집단의 ( 실제 ) 기울기의 추정치이며 , 유의성 검증이 필요하며 , 이를 가설검증형태로 나타내면 , H0 :β1= 0, H1 :β1≠0( 혹은 β1> 0,β1< 0) 대립가설을 설정하는 방식에는 세 가지가 있는데 , 어느 방식을 사용하는가는 연구자의
견해 ( 연구가설 ) 에 달려 있다 .• 독립변수의 유의성 검증을 위한 검증통계량
• 광고비 지출은 매출액에 영향을 미친다고 할 수 있는가 ? 즉 독립변수 , 광고비 지출의 유의성 검증을 하라 (α=.05). H0 :β1= 0, H1 :β1≠0
1
2101
n.f.dSSs
ˆt x
xyy
i
SSˆSSSSE
yn
SSEs
ˆ
1
110
1
2
표준편차추정치값의중심으로한회귀선을
값의설정된귀무가설로추정회귀계수
125444846
0567652101 ...
.SS
s
ˆt xobs
846210973732 ..nSSEs
11
Marketing Research
α=.05 에서 H0는 기각되며 , 광고비 지출은 매출액에 영향을 미친다는 결론을 내릴
수 있는데 , 만약 연구자가 “광고비 지출이 많을수록 매출 향상될 것이다”라는
연구가설을 설정한다면 H0 : β1= 0, H1 : β1> 0 이며 tcrit = t(α ; n-2) = t(.05 ; 8) = 1.8
6 으로 H0는 기각되고 연구가설은 지지된다 .
• 회귀식을 이용한 종속변수값의 추정 : 회귀식의 독립변수가 유의적이면 , x 값이
주어진 경우 y 값을 추정할 수 있으나 , 독립변수가 비유의적이면 x 는 y 에 영향을
미친다고 할 수 없으므로 x 값으로부터 y 값을 추정해서는 안 된다 .
회귀식에 의하여 y 값을 추정할 때 원래 사용한 x 의 범위 내에서만 가능 ; 원래
그 범위를 넘어서 다른 값들이 있었다면 회귀식이 다르게 나타날 가능성이 크기
때문 .
• 독립변수의 설명력 : 독립변수가 종속변수의 분산을 설명하는 정도는 r2로 나타내며 ,
이를 결정계수 (coefficient of determination) 라고 부르고 0 에서 1 사이의 값을 갖는다 .
973733423567652960011 ....,SSˆSSSSE xyy
3062802522 .;.tn;ttcrit
3062125 .t.t critobs
12
Marketing Research
• 결정계수 :
··
··
·· ·
··y
x
전체분산설명되는 분산
xi
y
iy iy
XˆˆY 10 r2↑→ 설명력↑ / 매우 좋은 추정선
• xi 에 대응하는 y 값은 yi 인데 x 값에 무관하게 yi 값을 추정한다면 그 추정치는 가 되며 이 경우 오차는 이다 . 그런데 회귀식을 이용하여 yi 값을 추정하면 추정치는 이며 , 이 경우 오차는 이 된다 . 결국 회귀식을 이용하여 추정함으로써 원래의 오차에서 만큼의 오차가 줄어들게 된다 .
y yyi iy
ii yy yyi
n
ii
n
iii
n
ii
y
y
yy
yyyy
SS
SSESSr
1
2
1
2
1
2
2
n
ii
n
ii
y yy
yy
SS
SSRr
1
2
1
2
2
전체분산분산설명되는
분산않는설명되지의해회귀분석에
분산설명되는의해회귀분석에
전체분산
(
SSE
regressiontoduesquaresofsumSSR
SS y
)
결정계수가 클수록 그 독립변수는
종속변수를 설명하고 예측하는데
적절한 변수라고 할 수 있다 .
13
Marketing Research 단순회귀분석의 분산표와 독립변수의 유의성 검증
• SSy( 전체분산 ) = SSR( 회귀식에 의해 설명되는 분산 ) + SSE( 설명되지 않는 분산 )
Total SS = SSR + SSE• 분산분석표
• 광고비와 매출액 예에서의 분산분석표를 이용하여 독립변수의 유의성을 검증하면 , SSR = Total SS – SSE = 1,600.9 – 373.97 =1,226.93
H0 :β1= 0, H1 :β1≠0 Fobs = 26.25 Fcrit = F(α ; 독립변수의 수 , n - 독립변수의 수 - 1) = F(.05 : 1, 8) = 5.32
원천 제곱합 (SS) 자유도 평균제곱 (MS) Fobs
회귀식 SSR 1 MSR = SSRMSR/MSE
오차 SSE n – 2MSE = SSE/(n-
2)
합계 Total SS n – 1
원천 제곱합 (SS) 자유도 평균제곱 (MS) Fobs
회귀식 SSR = 1,226.93
1 MSR = 1,226.931,226.93/46.75 =
26.25
오차 SSE = 373.97 8MSE = 373.97/8 =
46.75
합계 Total SS 9
14
Marketing Research Fobs = 26.25 > Fcrit = 5.32 이므로 H0는 기각되므로 α=.05 에서 회귀식의 독립변수는
유의적이며 , 결국 광고비 지출은 매출액에 영향을 미친다고 할 수 있다 . t 값과 F 값간의 관계 : t2(α/2 ; d.f.) = F(α ; 1, d.f.)
• 상관관계와 기울기 : 상관관계와 기울기를 혼동하지 말아야 하며 , 상관관계의 크기와 기울기의 크기는 완전히 독립적임 .
다중회귀분석 (multiple regression analysis) 다중회귀식의 개념 : 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는
기법으로 단순회귀분석을 확장한 것으로 , 가장 기본적인 작업은 다중회귀식 (multiple regression equation) 을 추정하는 것이다 .• 다중회귀식 :
(X : 독립변수 , Y : 종속변수 , β : 회귀계수 , β0 : Y 절편 , β1 ~ βk는 각각 독립변수의 기울기임 )
y y
x x
···· · ·· · ·· ··
· · · ·· · · ·
우측에 비해 기울기는
크지만 상관관계는 낮다 .
kkX...XXY 22110
15
Marketing Research• 표본의 회귀식 :
( : 추정회귀계수 , : 회귀식으로부터 추정되는 종속변수 ) 다중회귀분석의 가정
• 독립변수와 종속변수 간의 선형적 관계 : 독립변수 값의 변화에 따른 종속변수 값의 변화가 일정해야 함을 의미 .
• 오차항의 정규분포 오차항 (error term) : 종속변수의 관측치와 예측치 간의 차이 . 기대값 = 0, 일정한 분산 (constant variance) 을 갖는 정규분포를 이룬다고 가정 .
• 오차항의 독립성 : 예측의 오차값들은 서로 독립적 → 의 변화에 따라 오차항이 어떤 패턴 (pattern) 을 가져서는 안 된다 .
다중회귀식의 추정방정식• 동시입력방식 (enter) : 연구자가 고려하는 모든 독립변수들을 한꺼번에 포함하여
분석하는 방법 ( 다른 독립변수들이 통제된 상태에서 특정 독립변수의 영향력과 연구자가 고려하는 모든 독립변수들이 동시에 종속변수를 설명하는 정도를 알 수 있으며 , 이 방식은 보통 연구자가 생각하는 각각의 독립변수가 다른 변수들이 회귀식에 모두 포함되는 경우 유의적인지를 보고자 하는 경우에 사용 ).
kkXˆ...XˆXˆˆY 22110
i Y
y
16
Marketing Research• 단계입력방식 (stepwise) : 다른 변수들이 회귀식에 존재할 때 종속변수에 영향력이
있는 변수들만을 회귀식에 포함시키는 방식으로 설명력이 높은 변수의 순으로 회귀식에 포함된다 . 그런데 전단계에서 회귀식에 포함된 독립변수도 나중에 들어오는 변수때문에 설명력이 매우 낮아지면 회귀식에서 제거된다 . 이 방식은 종속변수를 설명하는데 설명력이 어느 정도 이상되는 변수들로만 구성되는 회귀식을 발견하는 데 유효 .
다중회귀분석의 computer output 의 설명• 한 방송국에서 65 세 이상 시청자들을 위한 TV 프로그램을 개발하기로 하였다 . 이를
위한 기초정보를 획득하기 위해 25 명의 시청자들을 대상으로 설문조사를 하여 다음의 네 가지 변수에 관한 자료를 수집하였다 . y = 일일 평균 TV 시청시간 x1 = 배우자와 동거여부 ( 만약 배우자와 동거중이면 x1 = 1, 그렇지 않으면 x1 = 0) x2 = 연령 x3 =교육기간 (년수 )
추정방정식추정방정식
동식입력방식동식입력방식 단계입력방식단계입력방식
( 다중회귀식의 대표적 추정방식 )
비율척도 회귀분석에서는 변수를 간격 / 비율척도를 이용하는 것이 일반적이며 , 명목척도를 사용하는 경우도 있다 .
17
Marketing Research
TV 시청과 관련하여 65 세 이상 시청자로부터 수집한 자료
개인 시청시간 동거여부 연령 교육수준
1 .5 1 73 14
2 .5 1 66 16
3 .7 0 65 15
4 .8 0 65 16
5 .8 1 68 9
6 .9 1 69 10
7 1.1 1 82 12
8 1.6 1 83 12
9 1.6 1 81 12
10 2.0 0 72 10
11 2.5 1 69 8
12 2.8 0 71 16
13 2.8 0 71 12
14 3.0 0 80 9
TV 시청과 관련하여 65 세 이상 시청자로부터 수집한 자료
개인 시청시간 동거여부 연령 교육수준
15 3.0 0 73 6
16 3.0 0 75 6
17 3.2 0 76 10
18 3.2 0 78 6
19 3.3 1 79 6
20 3.3 0 79 4
21 3.4 1 78 6
22 3.5 0 76 9
23 3.6 0 65 12
24 3.7 0 72 12
25 3.7 0 80 6
18
Marketing Research( 더미변수의 입력 ) 회귀분서의 입력자료는 대개의 경우 간격척도 또는 비율척도로 측정되어 있으나 , 경우에 따라 명목척도로 측정한 변수를 회귀분석의 독립변수로 하여 분석할 필요가 있다 . 이 경우 이러한 변수를 더미변수 (dummy variable) 라 하며 더미변수의 수와 입력방식은 다음과 같다 .
• 더미변수의 수 = 범주의 수 – 1• 범주의 수가 두 개인 경우 (남 / 여 , yes/no) 더미변수의 수는 한 개이며 , 한 범주를
1 다른 범주를 0 으로 입력 .• 만약 범주의 수가 세 개인 경우 ( 세단형 승용차 , 해취백 , 웨곤형 ) 더미변수의 수는
두 개이며 다음과 같이 입력된다 .
• TV 시청관련 자료의 SPSS 분석결과 ( 다중회귀분석 )
범주 더미변수 1
더미변수 2
세단형 0 0
해취백 1 0
웨곤형 0 1
종속변수의 경우에는 더미변수를
사용하지 않는다 .
모형요약모형 R R 제곱 수정된 R 제곱 추정값의 표준오차
1 .791 (a) .626 .572 .7536
a 예측값 : ( 상수 ), 교육기간 , 동거여부 , 연령
19
Marketing Research분산분석 (b)
제곱합 자유도 평균제곱 F 유의확률1 선형회귀분석 19.933 3 6.644 11.698 .000(a)
잔차 11.927 21 .568
합계 31.860 24
a 예측값 : ( 상수 ), 교육기간 , 동거여부 , 연령
b 종속변수 : 시청시간
n-k-1 = 25-3-1
= n-1
계수 (a)
모형비표준화계수 표준화계수
t 유의확률B 표준오차 베타
1 ( 상수 ) 1.495 2.637 .567 .577
동거여부 -1.176 .316 -.510 -3.726 .001
연령 3.876E-02
.032 .191 1.214 .238
교육기간 -1.52 .050 -.476 -3.039 .006
a 종속변수 : 시청시간
단위 포함 .어떤 변수가 가장 많은 영향을 미치는가를 볼 때 ( 표준화시킨 값 ; 동거여부>교육기간>연령 )
회귀식의 유용성 검정
동거를 하는 경우 동거를 하지 않는 사람보다 하루에 –1.176 만큼 TV 보는 시간이 적다 .
교육기간이 1 년 길면 TV보는 시간이 -.152 만큼 적다 .
-.152/.05
개별독립변수의 유의성 검정
20
Marketing Research• 동거여부 : 연령과 교육기간이 있을 때 유의적이다 .
• 연령 : 동거여부와 교육기간이 있을 때 비유의적이다 . → 개별 변수 하나만으로는 유의적일 수 있으나 상관관계가 높은 변수와 함께 있을 경우 설명력이 비유의적이다 .
1) 회귀식의 발견 :
2) 회귀식의 설명력과 통계적 유의성 검증 (R2를 통해 조사 )
R2 : 다중회귀분석의 결정계수로서 0 과 1 사이의 값을 가지며 , 종속변수의 분산 중 독립변수들 ( 혹은 회귀식 ) 에 의해 설명되는 비율 .
• 독립변수가 추가됨으로써 점차 커짐 .
• R2가 클수록 그 회귀식은 보다 높은 설명력을 가지나 , R2를 약간 증가시키기 위해
독립변수가 추가되는 것은 낭비 → 이를 위해 Radj를 이용 .
• Radj : R2를 독립변수의 수와 표본의 수로써 조정한 것으로 R2보다 작으며 , 새로이
추가되는 변수의 추가적 설명력이 매우 작은 R2는 조금이라도 증가하나 Radj는
오히려 감소하므로 이러한 변수를 독립변수에 포함시키는 것은 부적절 .
321 1520387617614951 x.x.x..y
R2 보다 반드시 작다 .
21
Marketing Research
• 추가적으로 회귀식의 유의성을 검증해야 함 .
• Ho : β1= β2 =…= βk =0
• H1 : 모든 βi가 0 은 아니다 ( 즉 , 적어도 하나의
독립변수는 종속변수에 영향을 미친다 ).• Fobs = MSR/MSE• Fcrit = F(α ; 독립변수의 수 , n – 독립변수의 수 – 1)
• 만약 Fobs > Fcrit이면 H0는 기각된다 .
분산분석표원천 제곱합 (SS) 자유도 평균제곱 (MS) Fobs
회귀식 SSR 독립변수의 수 MSR = SSR/ 독립변수의 수 MSR/MSE
오차 SSE n – 독립변수의 수 – 1MSE = SSE/(n – 독립변수의 수 –
1)
전체 Total SS n – 1
6269271193319
933192 ...
.
SSESSR
SSR
TotalSS
SSRR
5721325
12562611
1
111 2 ..
kn
nRRadj
독립변수의 수
설명력이 약한 변수가 들어갈 경우 R2 는 약간이나마 증가하나 Radj 는 감소한다 . ∴ 경제적인 독립변수의 수를 결정할 수 있다 .
22
Marketing Research• H0 : β1=β2=β3=0, H1 : β1,β2,β3 중 적어도 하나는 0 이 아니다 .
• Fobs = 11.698
• 유의확률 (p-value) = .000 이며 , p-value < α=.05( 또는 .01) 이므로 H0는 기각된다 . 즉 세 개의 독립변수들 중 적어도 한 개는 종속변수에 영향을 미치며 , 발견한 회귀식은 종속변수 (TV 시청시간 ) 을 설명하고 예측하는데 유용하며 , 이때 종속변수 분산의 62.6%는 회귀식 ( 혹은 세 개의 독립변수 ) 에 의해 설명되면 R2
adj를 사용하면 57.2% 가 된다 .
3) 개별 독립변수의 통계적 유의성 검증 : 회귀식이 유용한 것으로 판단되면 각각의 독립변수가 종속변수에 영향을 미치는지를 조사 . Ho : βi = 0, H1 : βi ≠ 0(βi > 0, βi < 0)
tcrit = t(α/2, n – 독립변수 – 1) ← 양측검증
tcrit = t(α, n – 독립변수 – 1) ← 단측검증
만약 이면 H0는 기각된다 .
① 동거여부의 유의성 검증• Ho : βi = 0, H1 : βi ≠ 0
• tobs = - 3.726
• p-value = .001 < α=.05( 또는 .01) 이므로 H0는 기각되며 동거여부는 시청시간에 영향을 미치며 , TV 시청시간을 설명 혹은 예측하는데 유용한 변수라는 결론을 내릴 수 있음 .
iˆiobs sˆt 추정회귀계수
critobs tt
23
Marketing Research② 연령과 교육기간의 유의성 검증 : 연령의 p-value = .238, 교육기간의 p-value = .006 으로
나타나 연령은 비유의적이며 교육기간은 유의적인 것으로 결론내릴 수 있다 .③ 해석 시 유의사항 :
< 회귀식에 다른 독립변수 ( 들 ) 가 존재하는 경우에 유의적인지의 여부로 해석해야 한다 .> 그러므로• 다른 두 변수가 회귀식에 존재할 때 동거여부는 유의적이다 .• 다른 두 변수가 회귀식에 존재할 때 연령은 유의적이지 않다 .• 다른 두 변수가 회귀식에 존재할 때 교육기간은 유의적이다 .< p-value 에 대한 해석 (SPSS 는 기본적으로 양측검증으로 보고 ) >• 만약 연구가설이 단측검증이라면 p-value 는 SPSS output 에 나타난 값의 정확하게 ½
이다 . • 단측검증의 경우 : p-value뿐만 아니라 회귀계수의 방향이 연구가설 ( 대립가설 ) 과
같은지를 봐야 한다 . : 교육기간과 관련된 연구가설을 “교육기간이 길수록 TV 시청시간이 적어진다 .” 로 설정했다면 H0 : β3 = 0, H1 : β3 < 0 이며 , 로 나타나 대립가설과 방향이 같고 p-value = .003 이므로 H0는 기각되고 연구가설은 지지됨 .
④ 유의적 독립변수의 구체적 해석 : 교육기간 (x3) 의 회귀계수 추정치는 - .152 이므로 교육기간이 1년 길면 TV 시청시간은 평균 .152 시간 적을 것으로 예측 / 동거여부 (x1) 의 회귀계수 추정치는 -1.176 으로 나타났다 . x3의 값 입력 시 배우자와 동거시 = 1, 비동거시 = 0 으로 입력했으므로 동거의 경우 TV 시청시간이 평균 1.176 시간 적을 것으로 예측 .
1523 .ˆ
24
Marketing Research4) 독립변수들의 상대적 영향력 크기 비교 : 어느 독립변수가 종속변수에 대하여 보다
영향력이 큰지 혹은 작은지에 관한 것 ( 주의 ! 회귀계수 를 비교하면 안 된다 .).
다중회귀분석시 유의할 문제들• 다중공선성 (multicollinearity) : 단순회귀분석을 하는 경우 유의적으로 나타날 수
있는 독립변수가 다중회귀분석을 하는 경우 비유의적으로 나타나는 현상 → 그 독립변수가 다중회귀분석에서 다른 독립변수들과 높은 상관관계를 갖기 때문에 발생 ( 둘 간의 상관관계가 높아 다른 한 변수가 비유의적으로 나올 수 있으므로 , 단순히 다중회귀분석에서 비유의적으로 나타났다고 그냥 비유의적으로 해석해서는 안 된다 ). 다중회귀분석을 위해 동시에 투입되는 독립변수들 간에 상관관계가 0 인 경우는
사실상 없다고 할 수 있으므로 한 독립변수의 유의성이 다른 변수 때문에 약화될 가능성은 언제나 있어 다중회귀분석 결과를 해석할 때 어떤 독립변수( 들 ) 가 비유의적으로 나타나는 경우 다중공선성 때문인지를 점검해야 함 .
i
독립변수들의 단위가 다르며 , 각 회귀계수는 단위를 반영하기 때문이다 . ∴ 회귀계수 값들 자체를 비교해서는 안되며 , 표준화된 회귀계수 (standard beta coefficient ; 입력자료를 표준화시켜 <평균 = 0, 표준편차 = 1> 분석한 것 .) 를 비교해야 한다 . → 세 개의 독립변수 중 TV 시청시간에 가장 영향력이 큰 변수는 동거여부이며 , 그 다음은 교육기간 , 그리고 연령의 순이다 .
25
Marketing Research 회귀분석의 목적이 어떤 변수가 종속변수에 어떤 방향으로 어느 정도 영향을
미치는지를 조사하는데 있다면 다중공선성에 유의해야 하나 , 다중회귀식을 발견하여 종속변수의 값을 예측하는 데 유일한 목적이 있다면 , 다중공선성은 전혀 문제되지 않는다 .
• TV 시청관련자료 ( 세 개의 독립변수들 중 연령만을 독립변수로 하여 단순회귀분석 )모형요약모형 R R 제곱 수정된 R 제곱 추정값의 표준오차
1 .358(a) .128 .090 1.0989
a 예측값 ( 상수 ), 연령
분산분석 (b)
모형 제곱합 자유도 평균제곱 F 유의확률선형회귀분석 4.086 1 4.086 3.384 .079(a)
잔차 27.774 23 1.208
합계 31.860 24
a 예측값 : ( 상수 ), 연령
b 종속변수 : 시청시간
26
Marketing Research
세 변수의 상관관계 matrix : 연령은 교육기간과 높은 負 (-) 의 상관관계를 가지며 , 다중회귀분석에서 연령이 비유의적으로 나타나는데 중요한 원인이 됨 .
• 회귀식을 이용한 종속변수값 추정 TV 시청관련 자료로써 발견한 회귀식
를 이용하여 y 를 추정하고자 할 때 x2는 65 ~ 83, x3는 6 ~ 16 범위의 값이어야 한다 .
• 표본의 크기 : R2는 독립변수들이 종속변수의 분산을 설명하는 정도를 나타내는 것으로 그 값이 클수록 회귀식은 유용하다고 할 수 있으며 , R2가 크다는 것은 곧 추정오차가 작다는 것을 의미 . 표본의 크기가 작은 경우 r2 또는 R2는 큰 값으로 나타날 수 있으며 , 이와 같은 것은
과다적합 (overfitting) 이라고 하며 , 특히 독립변수의 수가 많은데 표본이 작은 경우 문제가 심각 → 이러한 문제 방지를 위해 가급적 표본의 크기를 크게 해야 하며 , 최소한 독립변수 수의 4배가 되어야 함 (n ≥ 4k)
계수 (a)
모형비표준화계수 표준화계수
t 유의확률B 표준오차 베타
1 ( 상수 ) -3.014 2.919 -1.033 .313
연령 7.250E-02
.039 .358 1.840 .079
a 종속변수 : 시청시간연령의 p-value : 다중회귀분석의 경우 .238 이었으나 단순회귀분석 결과 .079 로 , 훨씬 유의적이며 , 단측검정을 한다면 p-value = .0395 로서 α = .05 에서 연령은 TV 시청시간을 설명하는데 유의적인 변수로 나타남 .
321 1520387617614951 x.x.x..y