head first statistics ch7
TRANSCRIPT
Head First Statistics Ch.7
2012. 5.26chois79
12년 5월 26일 토요일
Introduction확률분포란?
발생할 수 있는 모든 가능성의 확률을 모아둔 것
확률 변수(x): 특정한 확률과 연관되어 있는 경우의 변수
이산 확률 분포란? (6장 참조)
확률 변수가 반드시 정확한 값(이산)을 가지는 확률 분포
이 장에서는...
기하, 이항, 푸아송분포
조합 꽝 레몬 체리 달러/체리 달러
따는 금액(x) -$1 $4 $9 $14 $19
확률 0.977 0.008 0.008 0.006 0.001
12년 5월 26일 토요일
Example #1: 스노보더 차드
전제 조건
차드가 한번의 시도에서 슬로프를 성공적으로 내려올 확률: 0.2
각 시도는 서로 독립적
한번이라도 성공할 경우 시도를 멈춤
문제
두번 시도할 확률은?
한번 혹은 두번 시도 안에 성공적으로 내려올 확률은?
12년 5월 26일 토요일
P(X=1) = P(첫 번째 성공) = 0.2
P(X=2) = P(두 번째 성공 ∩ 첫 번째 실패) = 0.2 * 0.8 = 0.16
P(X≤2) = P(X=1) + P(X=2) = 0.2 + 0.16 = 0.36
100번 이내에 성공적으로 내려올 확률은? P(X≤100)
Answer #1:스노보더 차드
시도 #1 시도 #2
성공
실패
성공
실패성공
실패
0.2
0.8
0.2
0.80.2
0.8
12년 5월 26일 토요일
확률 분포 패턴: 스노보더 차드
여러번 시도할 경우 확률 분포 표
성공할 확률을 p, 실패할 확률을 q
P(X=r) = p * qr-1
실제로는 q = 1 - p
X P(X=x) 실패할 확률을 곱하는 횟수 성공할 확률을 곱하는 횟수
1 0.2 0 1
2 0.8 * 0.2 1 1
3 0.8 * 0.8 * 0.2 2 1
4 0.8 * 0.8 * 0.8 * 0.2 3 1
5 0.8 * 0.8 * 0.8 * 0.8 * 0.2 4 1
r ? r - 1 1
12년 5월 26일 토요일
기하 분포기하분포의 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수
기하 분포의 특징
P(X=1)이 가장 높은 확률을 가짐
첫번째 성공이 r보다 클 확률: P(X>r)= qr
첫번째 성공이 r보다 작을 확률: P(X≤r) = 1 - qr
기하 분포의 표현
X ~ Geo(p): “성공률이 p일때 확률 변수는 기하 분포를 따른다”는 의미
12년 5월 26일 토요일
기하 분포를 위한 기대치 패턴
기대치: ΣxP(X=x)
X ~ Geo(0.2)일 경우
X가 5일때 까지 xP(X=x) 값이 증가하고 점점 감소함
ΣxP(X=x) 값은 x가 무한대까지 증가할 경우: 1/p
x P(X = x) xP(X = x) xP(X ≤ x)
1 0.2 0.2 0.2
2 0.8 * 0.2 0.32 0.52
3 0.82 * 0.2 0.384 0.904
4 0.83 * 0.2 0.4096 1.3136
5 0.84 * 0.2 0.4096 1.7232
6 0.85 * 0.2 0.393216 2.116416
7 0.86 * 0.2 0.3670016 2.4834176
8 0.87 * 0.2 0.33554432 2.81894608
12년 5월 26일 토요일
기하 분포를 위한 분산 패턴
분산: Σx2/n - u2 => E(X2) - E2(X)
X ~ Geo(0.2)일 경우
Var(x) = q/p2
x P(X = x) x2P(X = x) x2P(X ≤ x)
1 0.2 0.2 0.2
2 0.8 * 0.2 0.64 0.84
3 0.82 * 0.2 1.152 1.992
4 0.83 * 0.2 1.6384 3.6304
5 0.84 * 0.2 2.048 5.6784
6 0.85 * 0.2 2.359296 8.037696
7 0.86 * 0.2 2.5690112 10.6067072
8 0.87 * 0.2 2.68435456 13.29106176
9 0.88 * 0.2 2.717908992 16.008970752
10 0.89 * 0.2 2.68435456 18.693325312
12년 5월 26일 토요일
기하 분포 정리기하분포의 사용 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수
확률
P(X=r) = pqr-1
P(X>r) = qr
P(X≤r) = 1 - qr
기대치와 분산
E(X) = 1/p, Var(X) = q/p2
12년 5월 26일 토요일
Example #2:빙글 의자 퀴즈쇼
1 라운드 라운드 전제 조건
3개의 질문이 존재하고, 각 질문은 4개의 항목을 가지는 객관식
확률 트리
문제 #1 문제 #2
정답
오답
정답
오답정답
오답
0.25
0.75
0.25
0.750.25
0.75
정답
오답
0.25
0.75
문제 #3:
:
12년 5월 26일 토요일
확률 분포 패턴:빙글 의자 퀴즈쇼
정답의 수에 따른 확률 분포표
P(X=r) = ? * 0.25r * 0.75n-r
즉, P(X=r) = 3Cr * 0.25r * 0.75n-r
확률 분포의 일반화
P(X=r) = nCr * pr * qn-r (이항 분포)
X P(X=x) 오답일 확률을 곱하는 횟수 정답일 확률을 곱하는 횟수 가능한 경우의 수
0 0.753 = 0.422 3 0 1
1 3 * 0.752 * 0.25 = 0.422 2 1 3
2 3 * 0.75 * 0.252 = 0.141 1 2 3
3 0.253 = 0.015 0 3 1
12년 5월 26일 토요일
이항 분포이항분포의 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
시행의 수는 한정되어 있음
Ex) 확률 변수 X: n번의 시행에서 성공적인 결과를 얻는 수
이항 분포의 특징
P(X=r) = nCr * pr * qn-r
p의 값에 따라 기울기가 변함 (기준 0.5)
이항 분포의 표현
X ~ B(n, p): “시행의 수 n, 각 시행에서 성공적인 결과를 얻을 확률 p일때 확률 변수는 이항 분포를 따른다”는 의미
12년 5월 26일 토요일
이항분포의기대치와 분산
X ~ B(n, p): n이 1일 경우
E(X) = 0 * q + 1 * p = p
Var(X) = E(X2) - E2(X) = (0 * q + 1 * p) - p2 = p - p2 = p * (1 - p) = p * q
X ~ B(n, p)의 일반화
P(X=x)가 독립 시행이므로
E(X) = E(X1) + E(X2) ... + E(Xn) = n * p
Var(X) = Var(X1) + Var(X2) ... + Var(Xn) = n * p * q
12년 5월 26일 토요일
이항 분포 정리기하분포의 사용 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: n번 시행 했을 때의 성공이나 실패의 횟수에 대한 확률
확률
P(X=r) = nCrprqn-r , nCr = n! / r!(n - r)!
기대치와 분산
E(X) = np, Var(X) = npq
12년 5월 26일 토요일
Example #3:팝콘 기계
전제 조건
팝콘 기계가 주 중에 고장을 일으키는 평균 횟수 3.4
문제
다음 주에 한번이라도 고장이 나지 않을 확률은?
기하/이항 분포와 다른점
일련의 시도나 시행이 없고, 임의의 시점에서 발생
그럼 어떻게?
12년 5월 26일 토요일
푸아송 분포푸아송 분포의 조건
개별적인 사건이 어떤 주어진 구간에서 임의 혹은 독립적으로 발생
Ex) 1주일, 1마일 ...
해당 구간에서 사건이 발생하는 수의 평균 값이나 비율을 알고 있을 경우
푸아송 분포의 특징
P(X=r) = e-𝝀𝝀r / r!
𝝀가 작으면 오른쪽으로 편향, 클 경우 좌우 대칭
푸아송 분포의 표현
X ~ Po(𝝀): “확률변수는 구간마다 𝝀번 발생하는 푸아송 분포를 따른다”는 의미
푸아송 분포의 기대치와 분산
E(X) = 𝝀, Var(X) = 𝝀
12년 5월 26일 토요일
Answer #3:팝콘 기계
한 주에 고장나는 횟수의 평균: 3.4
한번도 고장나지 않을 확률
P(X=0) = e-3.4 * 3.40 / 0! = 0.033
3번 고장날 확률
P(X=3) = e-3.4 * 3.43 / 3! = 0.216
기대치와 분산
E(X) = 3.4, Var(X) = 3.4
12년 5월 26일 토요일
Example #4:팝콘 기계, 음료수 기계전제 조건(한 주에 고장 나는 횟수의 평균)
팝콘 기계: 3.4
음료수 기계: 2.3
문제
한 주 동안 두 기계 모두 고장 나지 않을 확률은?
두 기계는 독립 확률이므로,
P(X+Y) = P(X) + P(Y), E(X+Y) = E(X) + E(Y)
두 기계 모두 푸아송 분포를 따르기 때문에,
X + Y ~ Po(𝝀x + 𝝀y), 즉 Po(5.7)
12년 5월 26일 토요일
푸아송 분포의 활용이항 확률 분포에서 n이 큰 경우
Ex) 3000일 경우 3000!을 계산해야 함
이항 확률 분포와 푸아송 분포가 유사할 조건
𝝀 ≒ np, 𝝀 ≒ npq일 경우
np ≒ npq (n이 크고 q가 1에 가깝다면)
일반적인 경우: n > 50, p < 0.1 (q = 1 - p)
12년 5월 26일 토요일
Example #5:시험에서 r개의 정답을 맞출 확률
전제 조건
모두 모르는 문제
시험의 총 문제의 수: 50
한 문제의 정답을 맞출 확률: 0.05
문제
5개의 정답을 맞출 확률? P(X=5)
이항 분포: 0.055 * 0.954 * 50!/5!(50-5)!
푸아송 분포
𝝀 = 50 * 0.05 = 0.25 => e-0.25 * 2.55 / 5!
12년 5월 26일 토요일
정리기하 분포
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수
이항 분포
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 시행의 수가 한정되어 있을 때, 특정한 결과가 발생한 횟수
푸아송 분포
개별적인 사건이 어떤 주어진 구간에서 임의 혹은 독립적으로 발생
해당 시행 구간에서 평균을 알 경우
관심사: 특정한 결과가 발생한 횟수
12년 5월 26일 토요일