Download - Head First Statistics ch7
![Page 1: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/1.jpg)
Head First Statistics Ch.7
2012. 5.26chois79
12년 5월 26일 토요일
![Page 2: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/2.jpg)
Introduction확률분포란?
발생할 수 있는 모든 가능성의 확률을 모아둔 것
확률 변수(x): 특정한 확률과 연관되어 있는 경우의 변수
이산 확률 분포란? (6장 참조)
확률 변수가 반드시 정확한 값(이산)을 가지는 확률 분포
이 장에서는...
기하, 이항, 푸아송분포
조합 꽝 레몬 체리 달러/체리 달러
따는 금액(x) -$1 $4 $9 $14 $19
확률 0.977 0.008 0.008 0.006 0.001
12년 5월 26일 토요일
![Page 3: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/3.jpg)
Example #1: 스노보더 차드
전제 조건
차드가 한번의 시도에서 슬로프를 성공적으로 내려올 확률: 0.2
각 시도는 서로 독립적
한번이라도 성공할 경우 시도를 멈춤
문제
두번 시도할 확률은?
한번 혹은 두번 시도 안에 성공적으로 내려올 확률은?
12년 5월 26일 토요일
![Page 4: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/4.jpg)
P(X=1) = P(첫 번째 성공) = 0.2
P(X=2) = P(두 번째 성공 ∩ 첫 번째 실패) = 0.2 * 0.8 = 0.16
P(X≤2) = P(X=1) + P(X=2) = 0.2 + 0.16 = 0.36
100번 이내에 성공적으로 내려올 확률은? P(X≤100)
Answer #1:스노보더 차드
시도 #1 시도 #2
성공
실패
성공
실패성공
실패
0.2
0.8
0.2
0.80.2
0.8
12년 5월 26일 토요일
![Page 5: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/5.jpg)
확률 분포 패턴: 스노보더 차드
여러번 시도할 경우 확률 분포 표
성공할 확률을 p, 실패할 확률을 q
P(X=r) = p * qr-1
실제로는 q = 1 - p
X P(X=x) 실패할 확률을 곱하는 횟수 성공할 확률을 곱하는 횟수
1 0.2 0 1
2 0.8 * 0.2 1 1
3 0.8 * 0.8 * 0.2 2 1
4 0.8 * 0.8 * 0.8 * 0.2 3 1
5 0.8 * 0.8 * 0.8 * 0.8 * 0.2 4 1
r ? r - 1 1
12년 5월 26일 토요일
![Page 6: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/6.jpg)
기하 분포기하분포의 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수
기하 분포의 특징
P(X=1)이 가장 높은 확률을 가짐
첫번째 성공이 r보다 클 확률: P(X>r)= qr
첫번째 성공이 r보다 작을 확률: P(X≤r) = 1 - qr
기하 분포의 표현
X ~ Geo(p): “성공률이 p일때 확률 변수는 기하 분포를 따른다”는 의미
12년 5월 26일 토요일
![Page 7: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/7.jpg)
기하 분포를 위한 기대치 패턴
기대치: ΣxP(X=x)
X ~ Geo(0.2)일 경우
X가 5일때 까지 xP(X=x) 값이 증가하고 점점 감소함
ΣxP(X=x) 값은 x가 무한대까지 증가할 경우: 1/p
x P(X = x) xP(X = x) xP(X ≤ x)
1 0.2 0.2 0.2
2 0.8 * 0.2 0.32 0.52
3 0.82 * 0.2 0.384 0.904
4 0.83 * 0.2 0.4096 1.3136
5 0.84 * 0.2 0.4096 1.7232
6 0.85 * 0.2 0.393216 2.116416
7 0.86 * 0.2 0.3670016 2.4834176
8 0.87 * 0.2 0.33554432 2.81894608
12년 5월 26일 토요일
![Page 8: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/8.jpg)
기하 분포를 위한 분산 패턴
분산: Σx2/n - u2 => E(X2) - E2(X)
X ~ Geo(0.2)일 경우
Var(x) = q/p2
x P(X = x) x2P(X = x) x2P(X ≤ x)
1 0.2 0.2 0.2
2 0.8 * 0.2 0.64 0.84
3 0.82 * 0.2 1.152 1.992
4 0.83 * 0.2 1.6384 3.6304
5 0.84 * 0.2 2.048 5.6784
6 0.85 * 0.2 2.359296 8.037696
7 0.86 * 0.2 2.5690112 10.6067072
8 0.87 * 0.2 2.68435456 13.29106176
9 0.88 * 0.2 2.717908992 16.008970752
10 0.89 * 0.2 2.68435456 18.693325312
12년 5월 26일 토요일
![Page 9: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/9.jpg)
기하 분포 정리기하분포의 사용 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수
확률
P(X=r) = pqr-1
P(X>r) = qr
P(X≤r) = 1 - qr
기대치와 분산
E(X) = 1/p, Var(X) = q/p2
12년 5월 26일 토요일
![Page 10: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/10.jpg)
Example #2:빙글 의자 퀴즈쇼
1 라운드 라운드 전제 조건
3개의 질문이 존재하고, 각 질문은 4개의 항목을 가지는 객관식
확률 트리
문제 #1 문제 #2
정답
오답
정답
오답정답
오답
0.25
0.75
0.25
0.750.25
0.75
정답
오답
0.25
0.75
문제 #3:
:
12년 5월 26일 토요일
![Page 11: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/11.jpg)
확률 분포 패턴:빙글 의자 퀴즈쇼
정답의 수에 따른 확률 분포표
P(X=r) = ? * 0.25r * 0.75n-r
즉, P(X=r) = 3Cr * 0.25r * 0.75n-r
확률 분포의 일반화
P(X=r) = nCr * pr * qn-r (이항 분포)
X P(X=x) 오답일 확률을 곱하는 횟수 정답일 확률을 곱하는 횟수 가능한 경우의 수
0 0.753 = 0.422 3 0 1
1 3 * 0.752 * 0.25 = 0.422 2 1 3
2 3 * 0.75 * 0.252 = 0.141 1 2 3
3 0.253 = 0.015 0 3 1
12년 5월 26일 토요일
![Page 12: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/12.jpg)
이항 분포이항분포의 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
시행의 수는 한정되어 있음
Ex) 확률 변수 X: n번의 시행에서 성공적인 결과를 얻는 수
이항 분포의 특징
P(X=r) = nCr * pr * qn-r
p의 값에 따라 기울기가 변함 (기준 0.5)
이항 분포의 표현
X ~ B(n, p): “시행의 수 n, 각 시행에서 성공적인 결과를 얻을 확률 p일때 확률 변수는 이항 분포를 따른다”는 의미
12년 5월 26일 토요일
![Page 13: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/13.jpg)
이항분포의기대치와 분산
X ~ B(n, p): n이 1일 경우
E(X) = 0 * q + 1 * p = p
Var(X) = E(X2) - E2(X) = (0 * q + 1 * p) - p2 = p - p2 = p * (1 - p) = p * q
X ~ B(n, p)의 일반화
P(X=x)가 독립 시행이므로
E(X) = E(X1) + E(X2) ... + E(Xn) = n * p
Var(X) = Var(X1) + Var(X2) ... + Var(Xn) = n * p * q
12년 5월 26일 토요일
![Page 14: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/14.jpg)
이항 분포 정리기하분포의 사용 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: n번 시행 했을 때의 성공이나 실패의 횟수에 대한 확률
확률
P(X=r) = nCrprqn-r , nCr = n! / r!(n - r)!
기대치와 분산
E(X) = np, Var(X) = npq
12년 5월 26일 토요일
![Page 15: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/15.jpg)
Example #3:팝콘 기계
전제 조건
팝콘 기계가 주 중에 고장을 일으키는 평균 횟수 3.4
문제
다음 주에 한번이라도 고장이 나지 않을 확률은?
기하/이항 분포와 다른점
일련의 시도나 시행이 없고, 임의의 시점에서 발생
그럼 어떻게?
12년 5월 26일 토요일
![Page 16: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/16.jpg)
푸아송 분포푸아송 분포의 조건
개별적인 사건이 어떤 주어진 구간에서 임의 혹은 독립적으로 발생
Ex) 1주일, 1마일 ...
해당 구간에서 사건이 발생하는 수의 평균 값이나 비율을 알고 있을 경우
푸아송 분포의 특징
P(X=r) = e-𝝀𝝀r / r!
𝝀가 작으면 오른쪽으로 편향, 클 경우 좌우 대칭
푸아송 분포의 표현
X ~ Po(𝝀): “확률변수는 구간마다 𝝀번 발생하는 푸아송 분포를 따른다”는 의미
푸아송 분포의 기대치와 분산
E(X) = 𝝀, Var(X) = 𝝀
12년 5월 26일 토요일
![Page 17: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/17.jpg)
Answer #3:팝콘 기계
한 주에 고장나는 횟수의 평균: 3.4
한번도 고장나지 않을 확률
P(X=0) = e-3.4 * 3.40 / 0! = 0.033
3번 고장날 확률
P(X=3) = e-3.4 * 3.43 / 3! = 0.216
기대치와 분산
E(X) = 3.4, Var(X) = 3.4
12년 5월 26일 토요일
![Page 18: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/18.jpg)
Example #4:팝콘 기계, 음료수 기계전제 조건(한 주에 고장 나는 횟수의 평균)
팝콘 기계: 3.4
음료수 기계: 2.3
문제
한 주 동안 두 기계 모두 고장 나지 않을 확률은?
두 기계는 독립 확률이므로,
P(X+Y) = P(X) + P(Y), E(X+Y) = E(X) + E(Y)
두 기계 모두 푸아송 분포를 따르기 때문에,
X + Y ~ Po(𝝀x + 𝝀y), 즉 Po(5.7)
12년 5월 26일 토요일
![Page 19: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/19.jpg)
푸아송 분포의 활용이항 확률 분포에서 n이 큰 경우
Ex) 3000일 경우 3000!을 계산해야 함
이항 확률 분포와 푸아송 분포가 유사할 조건
𝝀 ≒ np, 𝝀 ≒ npq일 경우
np ≒ npq (n이 크고 q가 1에 가깝다면)
일반적인 경우: n > 50, p < 0.1 (q = 1 - p)
12년 5월 26일 토요일
![Page 20: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/20.jpg)
Example #5:시험에서 r개의 정답을 맞출 확률
전제 조건
모두 모르는 문제
시험의 총 문제의 수: 50
한 문제의 정답을 맞출 확률: 0.05
문제
5개의 정답을 맞출 확률? P(X=5)
이항 분포: 0.055 * 0.954 * 50!/5!(50-5)!
푸아송 분포
𝝀 = 50 * 0.05 = 0.25 => e-0.25 * 2.55 / 5!
12년 5월 26일 토요일
![Page 21: Head First Statistics ch7](https://reader035.vdocuments.site/reader035/viewer/2022062707/55852209d8b42aea748b4e15/html5/thumbnails/21.jpg)
정리기하 분포
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수
이항 분포
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 시행의 수가 한정되어 있을 때, 특정한 결과가 발생한 횟수
푸아송 분포
개별적인 사건이 어떤 주어진 구간에서 임의 혹은 독립적으로 발생
해당 시행 구간에서 평균을 알 경우
관심사: 특정한 결과가 발생한 횟수
12년 5월 26일 토요일