bedingte wahrscheinlichkeit - univie.ac.athomepage.univie.ac.at/marcus.hudec/lehre/ss 2006... ·...
TRANSCRIPT
1
Statistik für SoziologInnen 1 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Bedingte Wahrscheinlichkeit
Das Konzept bedingter Wahrscheinlichkeit erlaubt zu untersuchen, inwieweit sich die Wahrscheinlichkeiten für das Eintreten von Ereignissen durch das Eintreten anderer Ereignisse ändern.Entwicklung anhand eines empirischen Beispiels mit 2 Merkmalen und einer sog. 4-FeldertafelMerkmal: Gesundheitszustand mit den Ausprägungen krank (D+) oder gesund(D-)Merkmal: Testergebnis mit den Ausprägungen Test positiv oder negativ (T+ bzw. T-)Von Interesse ist hier nicht nur die Wahrscheinlichkeit krank zu sein: P(D+) sondern insbesondere die Wahrscheinlichkeit krank zu sein, wenn ein positiver Test vorliegt: P(D+|T+)
Statistik für SoziologInnen 2 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel zur bedingten Wahrscheinlichkeit
Anhand eines Labortests (Digitalis-Konzentrationim Blut) kann das Vorliegen einer bestimmten Herz-Krankheit diagnostiziert werden. 1975 wurde dazu folgende Statistik veröffentlicht:T+...positiver Test T- negativer TestD+...Krankheit D- gesund
D+ D- TotalT+ 25 14 39T- 18 78 96
Total 43 92 135
2
Statistik für SoziologInnen 3 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Randverteilungen
D+ D- TotalT+ 0,185 0,104 0,289T- 0,133 0,578 0,711
Total 0,318 0,682 1,000Randverteilung (marginale Verteilung):
P(D+) = 0,318 P(D-) = 0,682
P(T+) = 0,289 P (T-) = 0,711Die Randverteilung eines Merkmals ergibt sich jeweils durch Summation über alle Ausprägungen des anderen Merkmals.
Statistik für SoziologInnen 4 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Bedingte Verteilungen
D+ D- TotalT+ 25 14 39T- 18 78 96
Total 43 92 135Wir interessieren uns nun für die Krankheits-wahrscheinlichkeit gegeben der Test ist positiv
Bedingte Verteilung:P(D+|T+) = 25/39 = 0,64 P(D+|T+) = P(D+ ∩ T+)/P(T+)= 0,185/0,289 = 0,64P(D-|T+) = 14/39 = 1- P(D+|T+) = 0,36P(D-|T+) = P(D- ∩ T+)/P(T+)= 0,104/0,289 = 0,36
3
Statistik für SoziologInnen 5 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Berechnung von bedingten Wahrscheinlichkeiten
Bedingte Verteilung gegeben ein negativer Test liegt vor:P(D-|T-) = 0,578 / 0,711= 0,813P(D+|T-) = 0,133 / 0,711= 0,187
D+ D- TotalT+ 0,64 0,36 0,289T- 0,187 0,813 0,711
Total 0,318 0,682 1,000In obiger Tabelle sind die bedingten Verteilungen des Gesundheitszustandes bei Kenntnis des Testergebnisses ausgewiesen (Zeilenprozent).
Statistik für SoziologInnen 6 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Interpretation von bedingten Wahrscheinlichkeiten
SummaryOffensichtlich verändert die Kenntnis des Testergebnisses meine Krankheitswahrscheinlichkeiten:– P(D+) = 0,318– Bei einem positiven Test gilt P(D+|T+) = 25/39 = 0,64– Bei einem negativen Test gilt P(D+|T-) = 18/96 = 0,187
d.h. der Test ist informativ für das Merkmal GesundheitszustandLesehinweis:P(A|B) … Wahrscheinlichkeit, dass ein Ereignis A eintritt, gegeben [oder unter der Bedingung], das Ereignis B ist eingetreten
4
Statistik für SoziologInnen 7 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Berechnung von bedingten Wahrscheinlichkeiten
Bedingte Verteilung gegeben D+ (Person ist krank) liegt vor:P(T+|D+) = 25 / 43 = 0,581 P(T+|D-) = 14 / 92 = 0,152P(T- |D+) = 18 / 43 = 0,419 P(T- |D-) = 78 / 92 = 0,848
D+ D- TotalT+ 0,581 0,152 0,289T- 0,419 0,848 0,711
Total 0,318 0,682 1,000In obiger Tabelle sind die bedingten Verteilungen des Testergebnisses bei Kenntnis des Gesundheitszustandes ausgewiesen (Spaltenprozent).
Statistik für SoziologInnen 8 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
2 Maßzahlen für die Güte von diagnostischen Tests
D+ D- TotalT+ 0,185 0,104 0,289T- 0,133 0,578 0,711
Total 0,318 0,682 1,000P(D+) = 0,318 P(T+) = 0,289
Sensitivität des Tests P(T+|D+) = 25/43 = 0,185/0,318=0,581
Spezifität des TestsP(T-|D-) = 78/92=0,578 / 0,682= 0,848
5
Statistik für SoziologInnen 9 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Sensitivität
Von einem guten diagnostischen Test wünschen wir uns, dass er möglichst viele Kranke erkennt, das heißt, diese durch ein positives Ergebnis anzeigt. Der Anteil unter allen Kranken, die positiv getestet werden, heißt Sensitivität, da er angibt, wie sensibel der Test auf das Vorliegen der Krankheit reagiert.Sensitivität: P(T+|D+) … Wahrscheinlichkeit eines positiven Testergebnisses gegeben der Proband ist krank
Statistik für SoziologInnen 10 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Spezifität
Weiters wünschen wir uns, dass der Test möglichst spezifisch ist, also nur auf das Vorliegen der Krankheit anspricht. Jeder nicht Erkrankte, der trotzdem positiv getestet wird, deutet auf einen Mangel an Spezifität [~ P(T+|D-)] hin. Als Spezifität des Tests bezeichnen wir deshalb den Anteil der korrekt negativ Getesteten unter den nicht Erkrankten.Spezifität: P(T-|D-) …Wahrscheinlichkeit eines negativen Testergebnisses gegeben der Proband ist gesund
6
Statistik für SoziologInnen 11 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Statistische Qualität
Durch die beiden Kriterien Spezifität und Sensitivität kann die statistische Qualität eines diagnostischen Tests charakterisiert werden.Wünschenswert ist es, wenn ein Test in beiden Kriterien möglich nahe an 100% herankommt.Leider wird dieses Idealziel in der Praxis nicht erreicht. Sowohl Kranke als auch Gesunde können positiv oder negativ getestet werden. Deshalb kann aus dem Testergebnis nicht sicher, sondern nur mit einer bestimmten Wahrschein-lichkeit auf das Vorliegen der Krankheit geschlossen werden.
Statistik für SoziologInnen 12 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Prädikativer Wert
Von Interesse sind in der Praxis folgende bedingten Wahrscheinlichkeiten:Der positive prädikative Wert oder auch Voraussagewert eines positiven Testergebnisses, gibt die Wahrscheinlichkeit an, krank zu sein, wenn ein positiver Test vorliegtP(D+|T+) Der negative prädikative Wert oder auch Voraussagewert eines negativen Testergebnisses, gibt die Wahrscheinlichkeit an, gesund zu sein, wenn ein negativer Test vorliegtP(D-|T-)
7
Statistik für SoziologInnen 13 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Allgemeine Fragestellung
Die Anwendung dieser Überlegungen gehen weit über diagnostische Tests in der Medizin hinausBeispiele:Alkomat …Test auf AlkoholisierungLügendetektorenAutomatische Erkennung von FalschgeldTests auf Kreditwürdigkeitetc.Letztlich bei jeder binären Entscheidung unter Unsicherheit auf der Basis empirischer Evidenz
Statistik für SoziologInnen 14 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Bedingte Wahrscheinlichkeit
Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Bedingung, dass das Ereignis B eingetreten ist (wobei P(B)>0 sein muss) ist wie folgt definiert:
P A B P A BP B
P A B P A B P B( | ) ( )( )
( ) ( | ) ( )=∩
⇒ ∩ = ⋅
Multiplikationssatz für zwei Ereignisse
8
Statistik für SoziologInnen 15 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Visualisierung des Prinzips der bedingten Wahrscheinlichkeiten
A BA ∩ B
E
BA*
E*=BP(A|B)~P(A*)Durch die Bedingung kommt es zu einer Einschränkung des Ereignisraumes
Statistik für SoziologInnen 16 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiele
Für einen männlichen Österreicher gelten folgende Wahrscheinlichkeiten (Sterbetafel 1980/81):– P(Alter ≥ 70) = 0,59– P(Alter ≥ 80) = 0,28
Wie groß ist die Wahrscheinlichkeit, dass ein Mann, der den 70. Geburtstag feiert, auch den 80. Geburtstag feiern kann ?
P(Alter ≥ 80| Alter ≥ 70) = P(Alter ≥ 80 ∩ Alter ≥ 70) / P(Alter ≥ 70) =P(Alter ≥ 80) / P(Alter ≥ 70) = 0,28 / 0,59 = 0,47
– Es ist evident, dass Berechnungen über Prämien von Lebensversicherungen oder Rentensystemen auf bedingten Wahrscheinlichkeiten basieren müssen!
9
Statistik für SoziologInnen 17 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Berechnung von marginalen Wahrscheinlichkeiten
D+ D- TotalT+ 0,185 0,104 0,289T- 0,133 0,578 0,711
Total 0,318 0,682 1,000
P(T+) = P(T+ ∩ D+) + P(T+ ∩ D-) = 0,185 + 0,104 = 0,289
D+ D- TotalT+ 0,581 0,152 0,289T- 0,419 0,848 0,711
Total 0,318 0,682 1,000
P(T+) = P(T+|D+).P(D+) + P(T+|D-).P(D-)== 0,581*0,318 + 0,152*0,682= 0,289
Durch Summation der gemeinsamen Wahrscheinlichkeiten
Durch gewichtete Summation der bedingten Wahrscheinlichkeiten
Statistik für SoziologInnen 18 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Totale Wahrscheinlichkeit
A=(A ∩ B) ∪ (A ∩ B') ... Partition von A auf Basis von B
P(A) = P(A ∩ B) + P(A ∩ B') =
P(A|B).P(B) + P(A|B').P(B')
Beantwortung von Wahrscheinlichkeitsaussagen unter Berücksichtigung verschiedener Szenarien
10
Statistik für SoziologInnen 19 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel zur bedingten Wahrscheinlichkeit
Wir verändern die Zahlen des vorigen Beispiels:T+...positiver Test T- negativer TestD+...Krankheit D- gesund
D+ D- TotalT+ 12 8 20T- 48 32 80
Total 60 40 100P(T+) = 0,2 P(D+)=0,6P(D+|T+) = 12/20 = 0,6 P(D+|T-) = 48/80 =0,6P(D+ ∩ T+) = 12/100 = 0,12 = P(D+).P(T+) = 0,2*0,6
STOCHASTISCHE UNABHÄNGIGKEIT
Statistik für SoziologInnen 20 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Stochastische Unabhängigkeit (Beispiel)In diesem Beispiel verändert die Kenntnis des Testergebnisses meine Krankheitswahrscheinlichkeiten nicht:P(D+) = 0,60Bei einem positiven Test gilt P(D+|T+) = 12/20 = 0,60Bei einem negativen Test gilt P(D+|T-) = 48/80 = 0,60
D+ D- TotalT+ 0,60 0,40 0,20T- 0,60 0,40 0,80
Total 0,60 0,40 1,00
Dieser Test ist nicht informativ für das Merkmal Gesundheitszustand. Die bedingten Wahrscheinlichkeiten und die marginale Wahrscheinlichkeit sind gleich.
11
Statistik für SoziologInnen 21 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Stochastische Unabhängigkeit (Beispiel)
Man beachte im Beispiel:P(D+ ∩ T+) = 12/100 = 0,12
P(D+ ∩ T+) = P(D+).P(T+|D+) = In diesem Fall
P(D+).P(T+) = 0,2*0,6 = 0,12Die gemeinsame Wahrscheinlichkeit ergibt sich im Fall stochastischer Unabhängigkeit aus dem Produkt der marginalen Wahrscheinlichkeiten.Die gemeinsame absolute Häufigkeit ergibt sich im Fall stochastischer Unabhängigkeit aus dem Produkt der marginalen absoluten Häufigkeiten durch die Gesamtzahl der Beobachtungen.
Statistik für SoziologInnen 22 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Stochastische Unabhängigkeit (Theorie)
Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn gilt:
P(A ∩ B) = P(A).P(B)Korollar:Wenn zwei Ereignisse unabhängig sind gilt:P(A|B) = P(A) bzw. P(B|A) = P(B).
12
Statistik für SoziologInnen 23 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Assoziation von Produktkäufen
Produkt AKauf 700 70%kein Kauf 300 30%
1000 100%
Produkt BKauf 600 60%kein Kauf 400 40%
1000 100%
Information über 2 Produkte (2 univariate Randverteilungen)
Statistik für SoziologInnen 24 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario: Keine Assoziation zwischen den Produkten
Bei Unabhängigkeit ergeben sich die gemeinsamen Wahrschein-lichkeiten aus dem Produkt der Randverteilungen!
Produkt A Kauf kein Kauf GesamtKauf 420 280 700kein Kauf 180 120 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 42% 28% 70%kein Kauf 18% 12% 30%Gesamt 60% 40% 100%
Produkt B
Produkt B
13
Statistik für SoziologInnen 25 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario: Keine Assoziation zwischen den Produkten
P(Kauf von B|Kauf von A) = 420/700 = 0,60P(Kauf von B|kein Kauf von A) = 180/300 = 0,60
Produkt A Kauf kein Kauf GesamtKauf 420 280 700kein Kauf 180 120 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 60% 40% 100%kein Kauf 60% 40% 100%Gesamt 60% 40% 100%
Produkt B
Produkt B
Statistik für SoziologInnen 26 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario: Positive Assoziation zwischen den Produkten
Produkt A Kauf kein KaufKauf 550 150 700kein Kauf 50 250 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 79% 21% 100%kein Kauf 17% 83% 100%Gesamt 60% 40% 100%
Produkt B
Produkt B
P(Kauf von B|Kauf von A) = 550/700 = 0,79P(Kauf von B|kein Kauf von A) = 50/300 = 0,17
14
Statistik für SoziologInnen 27 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario: Negative Assoziation zwischen den Produkten
P(Kauf von B|Kauf von A) = 360/700 = 0,51P(Kauf von B|kein Kauf von A) = 240/300 = 0,80
Produkt A Kauf kein KaufKauf 360 340 700kein Kauf 240 60 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 51% 49% 100%kein Kauf 80% 20% 100%Gesamt 60% 40% 100%
Produkt B
Produkt B
Statistik für SoziologInnen 28 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario:Maximale Positive Assoziation zwischen den Produkten
Produkt A Kauf kein KaufKauf 600 100 700kein Kauf 0 300 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 86% 14% 100%kein Kauf 0% 100% 100%Gesamt 60% 40% 100%
Produkt B
Produkt B
15
Statistik für SoziologInnen 29 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario: Maximale Negative Assoziation zwischen den Produkten
Produkt A Kauf kein KaufKauf 300 400 700kein Kauf 300 0 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 43% 57% 100%kein Kauf 100% 0% 100%Gesamt 60% 40% 100%
Produkt B
Produkt B
Statistik für SoziologInnen 30 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Maßzahlen der Assoziation
Wir betrachten 2 binäre MerkmaleA (A1, A2) B (B1, B2)
Kreuzproduktverhältnis (cross product ratio)cpr = a*d/b*c Wertebereich: 0 bis +∞Assoziationskoeffizient nach Yule: Q=(cpr-1)/(cpr+1) Wertebereich: -1 bis +1
B1 B2 SummeA1 a b a+bA2 c d c+d
Summe a+c b+d N
16
Statistik für SoziologInnen 31 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario: Keine Assoziation zwischen den Produkten
cpr=420*120/280*180=1 Q=0
Produkt A Kauf kein Kauf GesamtKauf 420 280 700kein Kauf 180 120 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 60% 40% 100%kein Kauf 60% 40% 100%Gesamt 60% 40% 100%
Produkt B
Produkt B
Statistik für SoziologInnen 32 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario: Positive Assoziation zwischen den Produkten
Produkt A Kauf kein KaufKauf 550 150 700kein Kauf 50 250 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 79% 21% 100%kein Kauf 17% 83% 100%Gesamt 60% 40% 100%
Produkt B
Produkt B
cpr=250*550/150*50=18,33 Q=0,90
17
Statistik für SoziologInnen 33 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario: Negative Assoziation zwischen den Produkten
Produkt A Kauf kein KaufKauf 360 340 700kein Kauf 240 60 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 51% 49% 100%kein Kauf 80% 20% 100%Gesamt 60% 40% 100%
Produkt B
Produkt B
cpr=360*60/340*240=0,26 Q=-0,58
Statistik für SoziologInnen 34 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario:Maximale Positive Assoziation zwischen den Produkten
Produkt A Kauf kein KaufKauf 600 100 700kein Kauf 0 300 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 86% 14% 100%kein Kauf 0% 100% 100%Gesamt 60% 40% 100%
Produkt B
Produkt B
cpr=600*300/0*100=+ ∞ Q=1
18
Statistik für SoziologInnen 35 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Szenario: Maximale Negative Assoziation zwischen den Produkten
Produkt A Kauf kein KaufKauf 300 400 700kein Kauf 300 0 300Gesamt 600 400 1000
Produkt A Kauf kein KaufKauf 43% 57% 100%kein Kauf 100% 0% 100%Gesamt 60% 40% 100%
Produkt B
Produkt B
cpr=300*0/300*400= 0 Q=-1
Statistik für SoziologInnen 36 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Zur Interpretation der Cross Product Ratio
Das Verhältnis von Chance zu Gegenchance nennt man „odds“odds:= p/(1-p)z.B. Würfelwurfodds(für einen 6er)=(1/6)/(5/6)=1/5Man spricht auch die Chancen stehen 1 zu 5Reziprokwert der Odds ist jene Auszahlung, die zu einer fairen Wette führtDie Cross Product Ratio ist das Verhältnis der odds (odds-ratio) für zwei unterschiedliche Bedingungen
19
Statistik für SoziologInnen 37 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Zur Interpretation der Cross Product Ratio
D+ D- TotalT+ 0,64 0,36 0,289T- 0,187 0,813 0,711
Total 0,318 0,682 1,000odds(D+|T+) = 0,64/0,36 = 1,78odds(D+|T-) = 0,187/0,813= 0,23odds-ratio(D+) = 1,78/0,23 = 7,74Das relative Risiko einer Erkrankung ist bei Vorliegen eines positiven Testbefundes 7,7 mal so hoch wie bei Vorliegen eines negativen Testbefundes.
Statistik für SoziologInnen 38 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel
Aus der Statistik einer Versicherung ist bekannt, dass 10% aller Personen in einem Jahr einen Unfall erleiden.Diskutiere die Wahrscheinlichkeit, dass eine Person in einem Intervall von 2 Jahren unfallfrei ist!
Jahr2 Jahr2 Jahr2Jahr1 Unfall kein Unfall Summe Jahr1 Unfall kein Unfall Summe Jahr1 Unfall kein Unfall SummeUnfall 1 9 10 Unfall 10 0 10 Unfall 0 10 10kein Unfall 9 81 90 kein Unfall 0 90 90 kein Unfall 10 80 90Summe 10 90 100 Summe 10 90 100 Summe 10 90 100
Uanbhängigkeit Pechvogel Aus Schaden klug
20
Statistik für SoziologInnen 39 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Bedingte Wahrscheinlichkeit
In einer Population mit gleichen Anteilen von Männern und Frauen wurde festgestellt, dass 5% der Männer und 1% der Frauen farbenblind sind.Wie groß ist die Wahrscheinlichkeit bei zufälliger Auswahl einer farbenblinden Person, einen Mann bzw. eine Frau zu selektieren?Notation:– F...farbenblind N...normalsichtig– M...männlich W...weiblich
Statistik für SoziologInnen 40 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Bedingte Wahrscheinlichkeit
Fiktive Population von 1000 Personen:
Daraus lassen sich folgende Wahrscheinlichkeiten ableiten:
F N Gesamt
M 25 475 500
W 5 495 500
Gesamt 30 970 1000
21
Statistik für SoziologInnen 41 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Bedingte Wahrscheinlichkeit
Wahrscheinlichkeitstabelle:
P(M|F) = P(M∩F)/P(F) = 25/30 = 0.025/0.03 = 5/6P(W|F) = P(W∩F)/P(F) = 5/30 = 0.005/0.03 = 1/6
F N Gesamt
M 0,025M∩F
0,475M∩N
0,500M
W 0,005W∩F
0,495M∩N
0,500W
Gesamt 0,030F
0,970N
1,000
Statistik für SoziologInnen 42 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiele
In einer Kleinstadt sind folgende Daten bekannt:– Wahrscheinlichkeit, dass ein zufällig ausgewählter
Bürger ein Sparbuch besitzt = 0,75. P(S) = 0,75– Wahrscheinlichkeit, dass ein zufällig ausgewählter
Bürger Aktien besitzt = 0,25. P(A) = 0,25– Wahrscheinlichkeit, dass ein zufällig ausgewählter
Bürger Vermögen hat (Besitz eines Sparbuchs oder von Aktien) = 0,775. P(A ∪ S) = 0,775
Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Bürger sowohl Aktien als auch ein Sparbuch besitzt?P(A ∩ S) = P(A) + P(S) - P(A ∪ S) =
0,25 + 0,75 - 0,775 = 0,225
22
Statistik für SoziologInnen 43 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiele
Sind die Ereignisse Besitz eines Sparbuchs und Besitz von Aktien stochastisch unabhängig ?
P (A ∩ S) =?= P(A).P(S)0,225 ≠ 0,75*0,25 ==> Die Ereignisse A und S sind nicht unabhängigWie groß ist die Wahrscheinlichkeit, dass ein Aktienbesitzer (bzw. ein Nicht-Aktienbesitzer) ein Sparbuch hat?P(S|A) = P(S ∩ A) / P(A) = 0,225 / 0,25 = 0,9P(S|A') = P(S ∩ A') / P(A') = 0,525 / 0,75 = 0,7P(S ∩ A') = P(S) - P(S ∩ A) = 0,75-0,225=0,525
Statistik für SoziologInnen 44 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Unabhängige Ereignisse
In einem Flugzeug gibt es 2 von einander unabhängige automatische Navigationssysteme A und B. Die Verfügbarkeit für das System A sei 0,99 und für B 0,96.Wie groß ist die Wahrscheinlichkeit, dass der Pilot zu einer manuellen Navigation greifen muss?A ... System A funktioniert P(A) = 0,99B ... System B funktioniert P(B) = 0,96P(A ist defekt) = P(A') = 1 - 0,99 = 0,01P(B ist defekt) = P(B') = 1- 0,96 = 0,04P(beide Systeme defekt) = P(A' ∩ B') =
= 0,01 x 0,04 = 0,0004
23
Statistik für SoziologInnen 45 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Unabhängige Ereignisse
Eine Expertenkommission besteht aus 3 Experten A, B, C. Jeder Experte hat eine individuelle Irrtumswahrschein-lichkeit, die wie folgt gegeben ist:– P(A irrt) = P(A) = 0,10– P(B irrt) = P(B) = 0,15– P(C irrt) = P(C) = 0,12
Wie groß ist die Wahrscheinlichkeit, dass die Meinung der Mehrheit korrekt ist, wenn die 3 Experten voneinander unabhängig urteilen?P(Mehrheit irrt nicht) = P(A' ∩ B' ∩ C) + P(A' ∩ B ∩ C') + P(A ∩ B' ∩ C') + P(A' ∩ B' ∩ C') = 0,9 x 0,85 x 0,12 + 0,9 x 0,15 x 0,88 + 0,1 x 0,85 x 0,88 + 0,9 x 0,85 x 0,88 = 0,0918 + 0,1188 + 0,0748 + 0,6732 = 0,9586
Statistik für SoziologInnen 46 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Russisches Roulette
Beim russischen Roulette mit einem 6-Schuss Revolver befindet sich nur eine scharfe Patrone in der Trommel.Die Wahrscheinlichkeit, dass sich nach zufälliger Wahl der Trommelposition ein Schuss löst ist demnach 1/6.Wie groß ist die Wahrscheinlichkeit, dass ein Hasardeur 2 unabhängige Versuche überlebt?Wie groß ist die Wahrscheinlichkeit, dass ein Hasardeur 6 (n) Versuche überlebt?
24
Statistik für SoziologInnen 47 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Russisches Roulette
X ein Schuss fällt P(X)=1/6X‘ kein Schuss fällt P(X‘)=5/6Kein Schuss bei 2 Versuchen:5/6*5/6=0,69 ... Hasardeur(2) überlebtZumindest ein Schuss bei 2 Versuchen: 1- 5/6*5/6=0,31... Hasardeur(2) stirbtKein Schuss bei 6 Versuchen:(5/6)^6=0,33Zumindest ein Schuss bei 6 Versuchen:1- (5/6)^6=0,67Allgemeine Überlebenschance: (5/6)^n
Statistik für SoziologInnen 48 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Totale Wahrscheinlichkeit
In einer Population mit gleichen Anteilen von Männern und Frauen wurde festgestellt, dass 5% der Männer und 1% der Frauen farbenblind sind.Wie groß ist die Wahrscheinlichkeit, dass eine beliebige Person farbenblind ist?Notation:– F...farbenblind N...normalsichtig– M...männlich W...weiblich
P(F) = P(F|M).P(M) + P(F|W).P(W)== 0,05*0,5 + 0,01*0,5=0,03
25
Statistik für SoziologInnen 49 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Theorem von Bayes
Daten zur Farbenblindheit
Wie verändern sich diese Wahrscheinlichkeiten, gegeben die Person ist farbenblind ?
a prioriWahrschein-
lichkeitenM 0,5
W 0,5
Gesamt 1
Statistik für SoziologInnen 50 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Theorem von Bayes
P B A P B AP A
P A BP A
P A B P BP A
P B A P A B P BP A
P B A P A B P BP A B P B P A B P B
( | ) ( )( )
( )( )
( | ) ( )( )
( | ) ( | ) ( )( )
( | ) ( | ) ( )( | ) ( ) ( | ' ) ( ' )
=∩
=∩
=⋅
=⋅
=⋅
⋅ + ⋅
26
Statistik für SoziologInnen 51 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Theorem von Bayes
P(M|F) = P(F|M) x P(M) / P(F)P(F) = P(F|M) x P(M) + P(F|W) x P(W) =
= 0,05 x 0,5 + 0,01 x 0,5 = 0,03Satz von der totalen WahrscheinlichkeitP(M|F) = 0,05 x 0,5 / 0,03 = 5/6 = 0,833P(W|F) = 1 - P(M|F) = 1 - 5/6 = 1/6 = 0,167P(M|N) = P(N|M) x P(M) / P(N) = 0,95 x 0,5 / 0,97 = 0,49P(W|N) = 1- P(M|N) = 0,51Man beachte den unterschiedlichen Informationsgehalt von F/N in bezug auf M/W
Statistik für SoziologInnen 52 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Theorem von Bayes
Zusammenfassung der Daten zur Farbenblindheita priori
Wahrschein-lichkeiten
Posteriorgegeben
Farbenblind
Posteriorgegeben
NormalsichtigM 0,5 0,833 0,49
W 0,5 0,167 0,51
1 1 1
27
Statistik für SoziologInnen 53 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Theorem von Bayes
P(D+|T+) = P(T+|D+) x P(D+) / P(T+)P(T+) = 39/135 = 0,289P(T+|D+) = 25/43 =0,581P(D+) = 43/135 = 0,318P(D+|T+) = 0,581 x 0,318 / 0,289 = 0,64Daten:
D+ D- TotalT+ 25 14 39T- 18 78 96
Total 43 92 135
Statistik für SoziologInnen 54 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Theorem von Bayes
Zusammenfassung der Datena priori
Wahrschein-lichkeiten
Posteriorgegeben
positiver Test
Posteriorgegeben
negativer TestD+ 0,318 0,640 0,187
D- 0,682 0,360 0,848
1 1 1
28
Statistik für SoziologInnen 55 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel: Mammography
Die Daten stammen aus Kerlinowske et al. 1996, JAMA „Likelihood Ratios for Modern ScreeningMammography -Risk of Breast Cancer Based on Age and Mammographic Interpretation“Die Wahrscheinlichkeit, dass eine symptomfreie Frau im Alter von 55 Jahren Brustkrebs hat, beträgt 0,6% (d.h. die Prävalenz = P(D+) = 0,006)
Statistik für SoziologInnen 56 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel
Wenn eine symptomfreie Frau im Alter von 55 Jahren Brustkrebs hat, dann beträgt die Wahrscheinlichkeit, dass sie einen positiven Mammografie-Befund P(T+) erhält, 94 Prozent.Sensitivität des Tests = 0,94Wenn eine dieser Frauen jedoch keinen Brustkrebs (D-) hat, dann beträgt die Wahrscheinlichkeit, dass sie dennoch einen positiven Mammografie-Befund erhält nur 7 Prozent.Spezifität des Tests = 0,93
29
Statistik für SoziologInnen 57 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Zentrale Frage
Eine 55-jährige Frau, ohne einschlägige Symptome, ist dem Rat ihres Arztes gefolgt, im Rahmen der Brustkrebsfrüherkennung jedes Jahr eine Mammografie durchführen zu lassen. Bei einer solchen Untersuchung erhält sie einen positiven Befund. Schockiert über das Ergebnis, fragt sie ihren Arzt:
«Heißt das, ich habe Brustkrebs?»
«Nein, das kann man noch nicht sicher sagen.»
«Wie hoch ist die Wahrscheinlichkeit, dass ich tatsächlich Brustkrebs habe?»
Statistik für SoziologInnen 58 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel
Ihre Schätzung für die korrekte Wahrscheinlichkeit, dass die Patientin mit einer positiven Mammographie tatsächlich Brustkrebs hat, lautet
_ _ , _ %
30
Statistik für SoziologInnen 59 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Schema der Diagnostik
A priori Wahrscheinlichkeit einer Erkrankung (Prävalenz)
Diagnostischer Test
P(T-|D-) Spezifität
P(T+|D+) Sensitivität
Posteriore Wahrscheinlichkeit einer Erkrankung
Falls Test positiv ist
P(D+|T+) = ???
Falls Test negativ ist
P(D-|T-) = ???
Statistik für SoziologInnen 60 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Beispiel
Welche korrekte statistische Angabe kann der Arzt der Patientin geben?Prävalenz = P(D+) = 0,006Sensitivität des Tests P(T+|D+) = 0,94 Spezifität des Tests bzw. 1-Spez P(T-|D-) = 0,93 bzw. P(T+|D-) = 0,07P(D+|T+) = ???
31
Statistik für SoziologInnen 61 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Theorem von Bayes
( | ) ( )( | )( )
( ) ( | ) ( ) ( | ) ( )Pr( | )
Pr (1 ) (1 Pr )
P T D P DP D TP T
P T P T D P D P T D P DSens ävP D T
Sens äv Spez äv
+ + ⋅ ++ + =
++ = + + ⋅ + + + − ⋅ −
⋅+ + =
⋅ + − ⋅ −
Theorem von Bayesa prioriWahrschein-lichkeit
posterioreWahrschein-lichkeit
Statistik für SoziologInnen 62 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Anwendung des Bayes Theorem
P(T+) = P(T+|D+)*P(D+) + P(T+|D-)*P(D-)== 0,94*0,006 + 0,07*0,994 =0,07522
P(D+|T+) = P(T+|D+)*P(D+)/P(T+)== 0,94*0,006/0,07522=0,07498
Die Wahrscheinlichkeit, dass die Patientin mit einer positiven Mammographie tatsächlich Brustkrebs hat, beträgt 7,5%In einer amerikanischen Studie lagen 95 von 100 befragten Ärzten in ihrer Schätzung zwischen 70% und 80%.
32
Statistik für SoziologInnen 63 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Formulierung in absoluten Zahlen
Brustkrebs (D+)
Gesund(D-) Summe
Test +
Test -
Summe 10.000100.000
Statistik für SoziologInnen 64 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Formulierung in absoluten Zahlen
Brustkrebs (D+)
Gesund(D-) Summe
Test +
Test -
Summe 600 99.400 100.000
0,6% <=== Prävalenz
33
Statistik für SoziologInnen 65 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Formulierung in absoluten Zahlen
Brustkrebs (D+)
Gesund(D-) Summe
Test +564 94,0% <=== Sensitivität
Test -
Summe 600 99.400 100.000
Statistik für SoziologInnen 66 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Formulierung in absoluten Zahlen
Brustkrebs (D+)
Gesund(D-) Summe
Test +564 6.958 7,0% <=== 1 minus
Spezifität
Test -36
Summe 600 99.400 100.000
34
Statistik für SoziologInnen 67 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Formulierung in absoluten Zahlen
Brustkrebs (D+)
Gesund(D-) Summe
Test +564 6.958
Test -36 92.442 93,0% <=== Spezifität
Summe 600 99.400 100.000
Statistik für SoziologInnen 68 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Formulierung in absoluten Zahlen
Brustkrebs (D+)
Gesund(D-) Summe
Test +564 6.958 7.522
Test -36 92.442 92.478
Summe 600 99.400 100.000
35
Statistik für SoziologInnen 69 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Formulierung in absoluten Zahlen
Brustkrebs (D+)
Gesund(D-) Summe
Test +564 6.958 7.522
Test -36 92.442 92.478
Summe 600 99.400 100.000
564/7.522= 7,5%
Statistik für SoziologInnen 70 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Prävalenzabhängigkeit von Tests
Ein ELISA zum Test auf HIV-Antikörper besitze 99.99% Sensitivität und 98% Spezifität.Wir setzen diesen Test nun in zwei Situationen ein. In Population A (“Normalpopulation”) liege die Prävalenz bei 0.01%. Population B („Risiko-Population“) habe eine Prävalenzvon 5%. In beiden Fällen wollen wir wissen, wie sicher wir bei einem positiven Test sein können, dass der Proband tatsächlich HIV-positiv ist.
Ergebnis bei A: P(D+|T+) =0,5%Ergebnis bei B: P(D+|T+) =72%
36
Statistik für SoziologInnen 71 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Lügendedektoren und das Theorem von Bayes
Gastwirth(1978):+ ...Test ergibt Person lügt - ... Test zeigt an Person lügt nicht L ... Person lügt in Wirklichkeit W ... Person spricht die Wahrheit
P(+|L) = 0,88 P(-|L) = 0,12P(-|W) = 0,86 P(+|W) = 0,14a) Routinetest bei Personalselektion
P(W) = 0,99 P(L) = 0,01P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,99+0,88*0,01=0,1474P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,01/0,1474=0,0597P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,99/0,1474=0,9403P(W|-) = P(-|W)*P(W)/P(-) = 0,86*0,99/0,853=0,998P(L|-) = 1 - P(W|-) = 0,002
Statistik für SoziologInnen 72 Bedingte Wahrscheinlichkeiten
© M
arcus Hudec
Lügendedektoren und das Theorem von Bayes
b) Verändern der subjektiven Wahrscheinlichkeitb1) P(W) = 0,50 P(L) = 0,50P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,5+0,88*0,5=0,51P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,5/0,51 = 0,863P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,5/0,51 = 0,137P(L|-) = P(-|L)P(L)/P(-) = 0,12*0,5/0,49 = 0,122P(W|-)= 1- P(L|-) = 0,878b2) P(W) = 0,20 P(L) = 0,80P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,5+0,88*0,5=0,732P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,8/0,732 = 0,96P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,2/0,732 = 0,04P(L|-) = P(-|L)P(L)/P(-) = 0,12*0,8/0,268 = 0,36P(W|-)= 1- P(L|-) = 0,64