exponentiële verdeling

1

Belangrijke en unieke eigenschap: geheugenloosheid. D.w.z.

P(X > t | X > s) = P(X > t-s).

M.a.w: het feit dat X groter is dan s geeft geen enkele informatie over de restlevensduur.

Exponentiële Verdeling

De exponentiële verdeling geeft de verdeling van de ‘tussentijden’ in een Poisson proces aan.

Deze verdeling wordt tevens gebruikt om levensduren van niet aan slijtage onderhavige zaken te modelleren.

2

( ) 1 ;0

( ) ,0

1 1( ) ; ( )

x

x

F x e x

f x e x

E X Var X

2

• Simultane kansen, discrete stochasten (joint probability mass function)

• Marginale kansen, discrete stochasten (marginal probability mass function)

• Simultane kansdichtheid, continue stochasten (joint probability density function)

• Marginale kansdichtheid, continue stochasten (marginal probability density function)

• Onafhankelijkheid (Independence)

• Covariantie en correlatie (covariance and correlation)

• Bivariate normale verdeling

Simultane Kansdichtheid

3

De simultane kansdichtheid van twee discrete stoch-asten X en Y geven we weer met fXY(x,y). Er geldt:

Voorbeeld.Vaak wordt een discrete simultane kans-dichtheid m.b.v. een tabel weergegeven. Stel we zijn geinteresseerd in het optreden (0/1) van een defect in de linkerknie en rechterknie van een sporter. Noem L: indicator voor defect linkerknie en R: indicator voor defect rechter knie. De volgende tabel geeft de simultane kansdichtheid weer.

Dus: fLR(0,0) = P(L=0,R=0) = 3/4.

Simultane Kansdichtheid, discreet

),(),(

1),(

0),(

),(

yYxXPyxf

yxf

yxf

XY

UyxXY

XY

R

L

0 1

0 3/4 1/16

1 1/16 1/8

4

De marginale kansverdeling van een discrete stochast X kan berekend worden uit de simultane:

Je sommeert dus over alle mogelijke uitkomsten van Y.

Voorbeeld (vervolg): bereken de kans op een defecte linkerknie. Dus gevraagd: P(L = 0) = fL(0) = 3/4 + 1/16 = 13/16.

Marginale Kansdichtheid, discreet

.),()(

YUy

XYX yxfxf

R

L

0 1

0 3/4 1/16

1 1/16 1/8

5

De simultane kansdichtheid van twee continue stoch-asten X en Y geven we weer met fXY(x,y). Er geldt:

Voorbeeld. De bevolkingsdichtheid voor een vierkant land van 3 bij 3 km wordt beschreven met de functie fXY(x,y) = (x+y)/27, voor 0 <y <3, 0 < x < 3. We komen een willekeurig persoon uit dat land tegen. Wat is de kans dat deze afkomstig is uit het gebied 0 <y <2, 0 < x < 2?

Simultane Kansdichtheid, continu

Uyx

XY

XY

yxf

yxf

),(

1),(

0),(

.296.027

8)22(

27

1

)2

1(

27

127/)(

2

0

22

0

dyy

yxxdxdyyx 2)X 2,P(Y

2

0y

2

0y

x

x

2

0y x

6

De marginale kansverdeling van een continue stochast X kan berekend worden uit de simultane:

Je integreert dus over alle mogelijke uitkomsten van Y.

Voorbeeld (vervolg): Bevolkingsdichtheid. Bereken de kans dat X < 1, m.a.w. de kans dat de aselect gekozen persoon in het westen woont. Er geldt:

Dus:

Marginale Kansdichtheid, continu

yUy

XYX yxfxf ),()(

6

1

9

1)

2(

27

1

)(27

1),()(

3

0

2

3

0

3

0

xy

xy

dyyxdyyxfxf

y

yy

XYX

222.09

2

6

1

9

1)()1(

1

0

1

0

xx

X dxxdxxfXP

7

Als je de marginale kansdichtheid eenmaal kent, dan kun je de verwachting van de stochast op de gebruikelijke manier berekenen, dus voor een continue stochast (voor discreet: gebruik som ipv integraal):

Voorbeeld (vervolg): Bevolkingsdichtheid. BerekenE(X). Er geldt:

Dus:

Marginale Kansdichtheid, continu (2)

.6

1

9

1)( xxf X

.4

31

12

1

27

1

6

1

9

1)()(

3

0

23

3

0

23

0

xx

xdxxdxxxfXExx

X

( )XEX x f x dx

8

De stochasten X en Y zijn onafhankelijk alleen en slechts alleen als voor alle mogelijke waarden x en y:

Voorbeeld: defecten aan linker- en rechterknie.

Dus niet onafhankelijk.

Onafhankelijkheid

)()(),( yfxfyxf YXXY

R

L

0 1

0 3/4 1/16

1 1/16 1/8

66.0

)16/13()0()0()0()0(

75.04/3)0,0()0,0(2

RPLPff

RLPf

RL

LR

9

Veronderstel:X en Y paarsgewijs waargenomen continue stochastische variabelen in een aselecte steekproef van omvang n

na translatie

Associatie tussen kwantitatieve variabelen

10

Covariantie

Populatie-correlatiecoëfficiënt

Eigenschappen

•

• = 1 dan exact lineair verband ( )

• = 0 dan geen lineair verband, X en Y ongecorreleerd

• tussen –1 en 1:

• als X en Y onafhankelijk zijn dan = 0 (niet noodzakelijk

andersom!!!)

Om de covariantie of correlatiecoëfficiënt te berekenen,

moeten we de simultane kansdichtheid van X en Y

kennen, want

Associaties tussen kwantitatieve variabelen

( , ) ( , )aX b cY d X Y

1 1

Y a bX

)()()(),( YEXEXYEYXCov

)()(

)()()(

)()(

),(

YVXV

YEXEXYE

YVXV

YXCovXY

Uyx

XY dxdyyxfxyXYE),(

.),()(

11

Bevolkingsdichtheid (vervolg). Wat is de correlatie tussen de Oost-West coördinaat (X) en Noord-Zuid coördinaat (Y)?

Eerst de covariantie.

Associaties tussen kwantitatieve variabelen, voorbeeld

16

1

4

7*

4

73),(

4

7)(

4

7)(

.35.15.1)2

9

2

3(

27

1

92

9

27

1

3

1

2

1

27

1

)(27

1),()(

).()()(),(

3

0

23

3

0

2

3

0

3

0

322

3

0

3

0),(

YXCovYEXE

xx

xdxxdxxyyx

dydxyxxydxdyyxfxyXYE

YEXEXYEYXCov

x

xyx

x yUyx

XY

12

Dan de correlatie:

Associaties tussen kwantitatieve variabelen, voorbeeld

.091.011

1

16/11

16/116

11)(

16

11)

4

7(

4

33)(

4

33)

6

1

9

1()()(

)]([)()()()(

),(

2

3

0

23

0

22

22

XY

xx

X

XY

YVXV

dxxxdxxfxXE

XEXEXVYVXV

YXCov

13

Voorbeeld

Meet van een aantal personen de lengte van de linkervoet en de rechtervoet. Over het algemeen niet precies aan elkaar gelijk, maar links maat 36 en rechts maat 45 zal wel niet voorkomen. We verwachten positieve correlatie.

Als X de linkermaat is, en Y de rechtermaat, dan kunnen we de simultane verdeling van X en Y modelleren met de bivariate normale verdeling: dichtheidsfunctie f met parameters

Voor ρ = 0 zijn X en Y onafhankelijk.

Bivariate Normale Verdeling

, , , ,X Y X X

Voorbeelden bivariate normale verdeling

-2

0

2

-2

0

2

0

0.05

0.1

0.15

-2

0

2

35404550

35

40

45

50

00.0050.01

0.015

35404550

35

40

45

50

= 0

= 0.5

Voorbeelden bivariate normale verdeling

35

40

45

50

35

40

45

50

00.005

0.01

0.015

35

40

45

50

35

40

45

5035

40

45

500

0.005

0.01

0.015

35

40

45

50

= 0.5

16

Doel van schatten. Situatie: data beschikbaar, model (kansdichtheid) bekend, maar parameters niet. Wij richten ons vooral op de normale verdeling.

Stap 1. Klopt het model? We zijn geïnteresseerd in kunstwervels. Een 100-tal wervels worden getest op maximale verticale belasting. Omdat er fluctuaties optreden in het productieproces, is dit niet constant. We willen de kansverdeling van X, de maximale verticale belasting, te weten komen. We veronderstellen het model:

Alvorens de twee parameters te schatten, moeten we nagaan of de aanname dat de data normaal verdeeld zijn realistisch is. Drie soorten plotjes kunnen ons hierbij helpen:

Histogram, Box-plot en Normal probability plot.

Van data naar kansverdeling: schatten

),(~ 2NX

17

Plotjes van de data

100 uitkomsten van ‘Belast’ (maximale belasting) worden opgedeeld in klassen.

Klasse 2 is 680 < Belast < 900.

Vervolgens worden de klasses uitgezet tegen het aantal in die klasses.

Als model juist is moet de histogram qua vorm lijken op de normale kansdichtheid: een klokcurve.

Alleen bruikbaar bij veel data!

18

Plotjes van de data, vervolg

Box: loopt van 25% punt (dus 25e waarneming qua grootte, in dit specifieke geval met 100 in totaal) tot 75% punt.

Middelste blauwe lijn: mediaan, dit is de middelste waarneming, of het gemiddelde van de middelste twee bij een even aantal.

‘Whiskers’ (uitstekende lijnen): waarnemingen buiten deze lijnen geven uitschieters (outliers) weer. Nu zijn dat er geen.

Vooral handig om symmetrie na te gaan. Klokcurve is symmetrisch, dus mediaan moet ong. in het midden van de box liggen

19

Plotjes van de data, vervolg

Percentagepunten van de data (1% punt is kleinste waarde in een data set van honderd, enz.) worden uitgezet tegen theoretische percentages op logaritmische schaal

Belangrijkste: Als de punten redelijkerwijs op een rechte lijn liggen dan mag de normale verdeling verondersteld worden.

20

Doel van schatten. Situatie: data beschikbaar, model (kansdichtheid) bekend, maar parameters niet. Wij richten ons vooral op de normale verdeling.

De schatter (estimator) voor een onbekende parameter is een functie van de data (d.w.z. kan berekend worden uit de data) die deze parameter schat.

Schatter is een stochast voordat je het experiment uitvoert (notatie: grote letter), en is een realisatie nadat je het experiment hebt uitgevoerd (notatie: kleine letter)

Een schatter is zuiver als de verwachting van die schatter gelijk is aan de parameter die geschat wordt.

Een zuivere schatter is efficiënt als zijn variantie klein is.

Eigenschappen van schatters

21

Normale verdeling, onbekende parameters: en 2.

Dus we weten Xi ~ N(,2).

Schatter voor :

Schatter voor 2 :

Beide schatters zijn zuiver en hebben een minimale variantie.

Belangrijke schatters

.1

)(1

)1

()()ˆ(

1

11

n

i

n

ii

n

ii

n

XEn

Xn

EXEE

n

ii XX

nS

1

222 )(1

1̂

n

iiX

nX

1

1̂

22

Definitie Steekproefcovariantie tussen X en Y:

Schatter voor covariantie

Cov > 0 positieve associatie Cov < 0 negatieve associatieCov = 0 geen associatie

)()(1

1ˆ

1

YYXXn

voC i

n

ii

0ˆ voC0ˆ voC

0ˆ voC

23

Definitie Correlatiecoëfficiënt

R beschrijft de mate van lineaire samenhang tussen twee paarsgewijs waargenomen continue stochastische

variabelen X en Y.

Bekijk ook: 'Guessing correlations’ en gok zelf correlaties.

Schatter voor , steekproefcorrelatiecoëfficiënt r

n

i

n

iii

i

n

ii

YX YYXX

YYXX

SS

voCR

1 1

22

1

22

)()(

)()(ˆ

http://www.stat.uiuc.edu/~stat100/java/guess/GCApplet.html

exponentiële verdeling

Documents