dott.ssa arianna orasi 5 marzo 2010. contenuto del corso parte1: richiami alla probabilità ed...
TRANSCRIPT
![Page 1: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/1.jpg)
Dott.ssa Arianna Orasi5 Marzo 2010
![Page 2: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/2.jpg)
Contenuto del corso
• Parte1: Richiami alla probabilità ed elementi di statistica descrittiva
• Parte 2: Analisi statistiche dei dati di onda
![Page 3: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/3.jpg)
Parte1
• Introduzione alla statistica• Alcuni richiami alla probabilità• Statistica descrittiva(1)
(1) Ringrazio Guido Masarotto e Carlo Gaetan per aver messo a disposizione il loro materiale didattico
![Page 4: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/4.jpg)
Introduzione alla statistica
Un pò di terminologia…..
• Unità statistiche• Dati• Variabili• Modalità• Campione• Dati qualitativi: sconnessi ordinali• Dati quantitativi: interi o continui
![Page 5: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/5.jpg)
Un utile strumento: R
• http://www.r-project.org/
• R 2.10.1.
QuickTime™ and aTIFF (Uncompressed) decompressorare needed to see this picture.
![Page 6: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/6.jpg)
![Page 7: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/7.jpg)
Alcuni semplici comandils() per controllare cosa c’è nella directory di lavoro chiamata
anche workspacerm() per eliminare gli oggetti presenti
> (2 + 3) * 4 [1] 20
>4*3**3 #Usa ** o ^ per calcolare un elevamento a potenza
R oltre a possedere un gran numero di funzioni dà la possibilità di incrementarne di nuove e questo è uno dei punti di forza di questo programma. Per chiedere aiuto su una funzione o più in generale si digita
> help.start()
![Page 8: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/8.jpg)
Alcuni semplici comandiSi può salvare un valore assegnandolo ad un oggetto mediante il simbolo <-
> x <- sqrt(2) #salva in x la radice quadrata di 2
> x
[1] 1. 414214
Molto utile è la possibilità di gestire operazioni e variabili logiche:
> x <- 10 #fissa x uguale a 10
> x > 10 # x e' piu' grande di 10?
[1] FALSE
> x<=10
[1] TRUE
Gli operatori logici sono: <, <=, >, >=, ==, !=, &(intersezione), | (unione)
![Page 9: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/9.jpg)
Alcuni semplici comandiPer creare un vettore si usa la funzionie c()
>x <- c(2,3,5,7,11)
>x
[1] 2 3 5 7 11
Per creare sequenze di numeri si può usare la notazione a:b
>xx <- 1:10
>xx
[1] 1 2 3 4 5 6 7 8 9 10
>xx <- 100:1
>xx[1] ?La stessa operazione poteva essere fatta con il comando seq>xx<-seq(from=100, to=1)
![Page 10: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/10.jpg)
Alcuni richiami alla probabilità
VARIABILI CASUALI e DEFINIZIONE DI PROBABILITÀ
Una variabile casuale (v.c.) è il risultato numerico di un esperimento quando questo non è prevedibile con certezza. Ne sappiamo qualcosa…ma non proprio tutto!Come stima della probabilità di un evento sperimentale può essere utilizzata la sua frequenza. La frequenza relativa di un campione all’aumentare del numero delle osservazioni tende a diventare sempre più simile a quella reale della popolazione (legge empirica del caso) e tale concetto costituisce la base sperimentale dela teoria statistica. In questi casi si parla di probabilità frequentista o a posteriori (perchè le leggi dei fenomeni studiati non sono note a priori).Non è la sola definizione di probabilità esistente ma è quella che useremo in seguito.
![Page 11: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/11.jpg)
Richiami alla probabilità
CALCOLO COMBINATORIOLa stima della probabilità di un evento è uno strumento fondamentale della statistica. Nelle sue forme più semplici si fonda sul calcolo combinatorio.L’associazione del concetto di probabilità al calcolo combinatorio è importante: serve per collegare una scelta alla probabilità con la quale l’evento atteso può avvenire nel contesto di tutti gli event alternativi possibili.È la base dell’inferenza statistica, della scelta scientifica in tutti i casi di incertezza.
![Page 12: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/12.jpg)
Richiami alla probabilità
LE PERMUTAZIONI SEMPLICI SENZA RIPETIZIONETutti i sottoinsiemi che si possono formare collocando n elementi in tutti gli ordini possibili si chiamano permutazioni. Questo numero si calcola con il fattoriale di un numero n, che indichiamo con n!, cioè il prodotto di un intero positivo n per tutti gli interi positivi più piccoli di questo fino ad 1 ossia: n x (n-1) x (n-2) x (n-3) x….x 1 si ottiene semplicemente utilizzando:> prod(1:n)o in alternativa la funzione factorial>factorial(n)
![Page 13: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/13.jpg)
Alcuni richiami alla probabilità
LE DISPOSIZIONE SEMPLICI SENZA RIPETIZIONELe disposizioni semplici di n oggetti a gruppi di k, Dn,k, sono il prodotto di un intero positivo n per i primi (k - 1) interi positivi più piccoli di questi, e sappiamo fornisce tutti gruppi che si possono formare prendendo k tra n oggetti distinti, in modo che ogni gruppo differisca dai restanti o per un elemento o per l’ordine con cui gli oggetti sono disposti e si ottiene come
o si può scrivere come prod((n-k+1):n). Ad esempio D6,3
> prod((6-3+1):6)[1] 120€
n!
(n − k)!
![Page 14: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/14.jpg)
Alcuni richiami alla probabilità
LE COMBINAZIONI SEMPLICI SENZA RIPETIZIONE
Esercizio Come calcolareste con R le combinazioni di n oggetti
a gruppi di k indicate con il simbolo del coefficiente binomiale
€
Cn,k =Dn,k
k!=
n ⋅(n −1) ⋅...⋅(n − k +1)
k ⋅(k −1) ⋅...⋅1=
n!
k!(n − k)!=
n
k
⎛
⎝ ⎜
⎞
⎠ ⎟
![Page 15: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/15.jpg)
Alcuni richiami alla probabilità
LE COMBINAZIONI SEMPLICI SENZA RIPETIZIONE
Soluzione
:-) c’è la funzione choose
> choose(4,2)
[1] 6
![Page 16: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/16.jpg)
Alcuni richiami alla probabilità
DISTRIBUZIONE DI PROBABILITÀ
Le v.c. hanno una propria distribuzione di probabilità che in sostanza è una funzione matematica che per ogni valore della variabile fornisce la probabilità che venga osservato quel valore (caso discreto) o che il risultato cada in un certo intervallo finito di valori (caso continuo).
Esistono funzioni di probabilità discrete e continue:
Tra quelle discrete: binomiale, multinomiale, poissoniana, geometrica, uniforme
Tra quelle continue: normale, esponenziale negativa, gamma, derivanti dalla normale:chi quadro, t di student, F di Fisher
![Page 17: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/17.jpg)
Alcuni richiami alla probabilità
DISTRIBUZIONE DI PROBABILITÀ: BINOMIALEIn un collettivo con n unità che possono essere ripartite solo in due classi A e B con frequenze relative p=na/n e q=nb/n, la probabilita di avere i volte l’evento A (o n-i volte l’evento B) è data da
dove ricordiamo che
sono combinazioni semplici.Tale distribuzione mi fornisce la probabilità che un evento con probabilità a priori p avvenga 1,2,3,…i volte in n prove ripetute identiche e indipendenti.La media è data da p e la varianza è data da (p*q)/n
€
Pi = Cni piqn−i
€
Cni =
n!
i!(n − i)!
![Page 18: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/18.jpg)
Alcuni richiami alla probabilità
DISTRIBUZIONE DI PROBABILITÀ: NORMALEÈ sicuramente la distribuzione più nota e più usata anche nelle scienze. Essa è il limite della distribuzione binomiale per n che tende all’∞ mentre nè p nè q tendono a 0.
€
y = f (x) =1
2πσ 2e
−x−μ( )
2
2σ 2
•Ha due punti di flesso in •Meda, moda e mediana coincidono•La normale standardizzata espressione della variabilecon media 0 e varianza 1 ha la seguente densità di probabilità
€
y = f (x) =1
2πe
−x( )
2
2€
Z =x − μ
σ
![Page 19: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/19.jpg)
Alcuni richiami alla probabilità
DISTRIBUZIONE DI PROBABILITÀ
R consente di gestire tutte le principali variabili casuali e permette il calcolo della funzione di probabilità o di densità, della funzione di ripartizione, quantili e generazione di numeri casuali
![Page 20: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/20.jpg)
Alcuni richiami alla probabilità
DISTRIBUZIONE DI PROBABILITÀ
Esempio: Sia X ~ Bin(n=10, p=0.2)
- la probabilità che X assuma valore x=2 è data da:
> dbinom(2,10,0.2)
[1] 0.3019899- la funzione di ripartizione ossia la P(X<=x)=F(x)
> pbinom(2,10,0.2)
[1] 0.6777995- per i quantili della distribuzione ossia il più piccolo valore di x t.c. F(x)>=> qbinom(0.45,10,0.2)
[1] 2
![Page 21: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/21.jpg)
Alcuni richiami alla probabilità
DISTRIBUZIONE DI PROBABILITÀPer rappresentare la distribuzione di probabilità di una v.c.ß(10,0.2) e la sua funzione di ripartizione>par (mfrow=c(1,2))
>y <- seq(-1,11,by=1)
>plot( y, dbinom (y, 10, 0.2), type="p", ylab="p(y)",main="Bin (10, 0.2)" )
>plot ( y, pbinom ( y, 10, 0.2 ), type="p", pch=16,
ylab="F(y)", main="Bin (10, 0.2)" )
>segments ( -1:10, pbinom ( -1:10, 10, 0.2 ),
0:11, pbinom ( -1:10, 10, 0.2 ) )
![Page 22: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/22.jpg)
Alcuni richiami alla probabilitàDISTRIBUZIONE DI PROBABILITÀ
![Page 23: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/23.jpg)
Alcuni richiami alla probabilità
SIMULAZIONE DI VARIABILI CASUALI
Per generare una serie di numeri casuali da una distribuzione, come ad esempio da una distribuzione normale la sintassi è:
> x<-rnorm(10)
TEOREMI LIMITELEGGE FORTE DEI GRANDI NUMERI
Se Xi i=1,… è una successione di variabili indipendenti e identicamente distribuite con valore atteso E(Xi)= allora la media campionaria
converge quasi certamente al valore Per convergenza q.c. di una successione di v.c. Xi i=1,… ad una costante c si intende che la sequenza è t.c.
€
X n =
X i
i=1
n
∑n
€
Pr(limn−>∞
Xn = c) =1
![Page 24: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/24.jpg)
Alcuni richiami alla probabilitàTEOREMI LIMITE
LEGGE FORTE DEI GRANDI NUMERIVerifichiamola empiricamente con RPartiamo generando n valori casuali ad esempio da una distribuzionie di Poisson. Sia n=10 replicazioni da X~Poisson(5) e calcoliamo la media aritmetica
>set.seed(30)>x<-rpois(10,5)>mean(x) [1] 4.5Raddoppiamo le replicazioni
>x<-c(x,rpois(10,5))>mean(x)[1] 4.7Raddoppiamo ancora
>x<-c(x,rpois(20,5))>mean(x)[1] 4.325 la media campionaria sta oscllando intorno al vero valore della media
![Page 25: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/25.jpg)
Alcuni richiami alla probabilitàTEOREMI LIMITE
LEGGE FORTE DEI GRANDI NUMERI
Proviamo con mille replicazioni
>x<-c(x,rpois(1000,5))
>mean(x)
[1] 4.907692Con 10000 replicazioni
>x<-c(x,rpois(10000,5))
>mean(x)
[1] 5.000181
Evviva! Come volevamo la media campionaria si avvicina al vero valore della media della distribuzione campionaria di riferimento al crescere delle replicazioni
![Page 26: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/26.jpg)
Alcuni richiami alla probabilitàTEOREMI LIMITE
LEGGE DEBOLE DEI GRANDI NUMERI
Se Xi i=1,… è una successione di variabili indipendenti e identicamente distribuite con valore atteso E(Xi)= allora la media campionaria
converge in probabilità al valore Per convergenza in probabiliità di una successione di v.c. Xi i=1,… ad una costante c si intende che la sequenza è t.c.
€
X n =
X i
i=1
n
∑n
€
Pr( Xn − c > ε) = 0∀ε > 0
![Page 27: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/27.jpg)
Alcuni richiami alla probabilitàTEOREMI LIMITE
LEGGE DEBOLE DEI GRANDI NUMERIVerifichiamola ancora empiricamente con RPartiamo generando n valori casuali ad esempio da una distribuzionie Binomiale.
Calcoliamo la media aritmetica> n<-10> p<-0.2> nobs<-c(10,20,100,1000)> par(mfrow=c(2,2))> for (n in nobs) { x<-0:n d<-dbinom(x,n,p) y<-(x/n) plot(y,d,type='h',main=paste("n = ",n,", p =
",p),ylab="p(y)",xlab='y')}
€
c
![Page 28: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/28.jpg)
Alcuni richiami alla probabilitàTEOREMI LIMITE
LEGGE DEBOLE DEI GRANDI NUMERI
€
c
€
c
€
X i
i=1
n
∑
![Page 29: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/29.jpg)
Alcuni richiami alla probabilitàTEOREMI LIMITE
TEOREMA DEL LIMITE CENTRALE
Se Xi i=1,… è una successione di variabili indipendenti e identicamente distribuite di media e varianza 2 finita allora
converge in distribuzione ad una v.c. N(0,1)
€
Z n =X n − μ
σ n
![Page 30: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/30.jpg)
Alcuni richiami alla probabilitàTEOREMI LIMITE
TEOREMA DEL LIMITE CENTRALEVerifichiamola ancora empiricamente con RPartiamo generando n valori casuali ad esempio da una distribuzionie Binomiale. Sia Xi ~ ß(1,0.2) e quindi
s2=Var(Xi)=p(1-p)=0.16 all’aumentare di n
a cosa converge? par(mfrow=c(2,2))> p<-0.2> nobs<-c(10,20,100,1000)> par(mfrow=c(2,2))> for (n in nobs) { y<-0:n prob<-pbinom(y,n,p) z<-(y/n-p)*sqrt(n)/sqrt(p*(1-p)) ind<-(z>-3)&( z<3) z<-z[ind] prob<-c(0,prob[ind]) plot(stepfun(z, prob, f = 0),verticals=FALSE,pch=20,main=paste("n = ",n ,",
p = ", p),ylab="F(z)",xlab="z") curve(pnorm(x),from=min(z),to=max(z),add=TRUE)}
€
c
€
c
€
Z n =X n − μ
σ n
![Page 31: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/31.jpg)
Alcuni richiami alla probabilitàTEOREMI LIMITE
TEOREMA DEL LIMITE CENTRALE
€
c
€
c
![Page 32: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/32.jpg)
Statistica descrittiva vs Statistica inferenziale
![Page 33: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/33.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
•Aiutiamoci ancora con R….•Prendiamo un insieme di dati che ci accompagneranno in questo viaggio…
•In un reparto dove si assemblano walkman vengono provate in tre giorni diversi tre differenti linee di produzione. Le tre diverse organizzazioni sono chiamate: vecchia, nuova1 e nuova2. Nei tre giorni per i 288 dipendenti viene rilevato il
numero di operazioni completatoQual’è l’organizzazione migliore?
Carichiamo il file org.txt> dati<-read.table(file="org.txt",header=TRUE)> names(dati)> dati[1:19,]Questo è un dataframe dove ogni riga è una unità statistica e ogni colonna è una variabile misurata sulle unità statistiche e può contenere variabili numeriche o categoriali
![Page 34: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/34.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
oper org1 694 vecchia2 704 nuova13 696 vecchia4 698 vecchia5 710 nuova26 696 nuova17 707 vecchia8 684 nuova19 690 vecchia10 699 nuova211 711 nuova212 739 nuova113 711 nuova114 707 vecchia15 680 nuova116 698 nuova217 744 nuova218 713 vecchia19 744 nuova1
![Page 35: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/35.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
> attach(dati)> vecchia<-oper[org == 'vecchia']> nuova1<-oper[org == 'nuova1']> nuova2<-oper[org == 'nuova2']> vecchia[1:30]Questi dati non sono moltissimi ma sono abbastanza per poterli solo guardare. Quindi abbiamo bisogno di “sintetizzarli” e capirli meglio…..FREQUENZE ASSOLUTEUn primo tentaitivo può essere quello di dividere i dati in classi e di contare le frequenze per classe ossia quanti dati vanno a finire in ogni classe> classi <-670+5*(0:18) >classi[1] 670 675 680 685 690 695 700 705 710 715 720 725 730 735 740 745 750 755 760cut.op<-cut(vecchia,breaks=classi, right = FALSE)#assegniamo gli operai della vecchia organizzazione ad ogni classe
![Page 36: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/36.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
> table(cut.op)%creiamo la tabella di frequenza
cut.op[670,675) [675,680) [680,685) [685,690) [690,695) [695,700) 0 2 4 13 23 35 [700,705) [705,710) [710,715) [715,720) [720,725)55 52 50 33 15 [725,730) [730,735) [735,740) [740,745) [745,750) [750,755) 6 0 0 0 0 0[755,760) 0
>table(cut(vecchia,breaks=10)) #qui è R che divide liberamente in classi ma il numero delle classi glielo passiamo noi.
![Page 37: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/37.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
![Page 38: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/38.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
FREQUENZE RELATIVE•Dividendo le frequenze assolute per il numero totale di unità statistiche (288 addetti!!) si ottengono le frequenze relative
> n<-length(cut.op)
>round(table(cut.op)/n,3)
cut.op
[670,675) [675,680) [680,685) [685,690) [690,695) [695,700)
0.000 0.007 0.014 0.045 0.080 0.122
[700,705) [705,710) [710,715) [715,720) [720,725)
0.191 0.181 0.174 0.115 0.052
[725,730) [730,735) [735,740) [740,745) [745,750) [750,755)
0.021 0.000 0.000 0.000 0.000 0.000
[755,760)
0.000
![Page 39: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/39.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
FREQUENZE ASSOLUTE E FREQUENZE RELATIVERigorosamente:
![Page 40: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/40.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
ISTOGRAMMACi può essere molto utile rappresentare graficamente ciò che abbiamo visto prima in numeri
>par(mfrow=c(3,1))
>hist(vecchia)
>hist(nuova1)
>hist(nuova2)
•Base dei rettangoli = intervalli riportati nella 1 colonna della tabella precedente
•Altezza rettangoli = frequenze assolute
![Page 41: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/41.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
ISTOGRAMMAA proposito del numero di intervalli in un istogramma…..Abbiamo osservato che è assolutamente arbitrario scegliere quanti e quali intervalli utilizzare…ma è facile capire che pochi intervalli danno poche informazioni e troppi intervalli??Un numero ragionevole di intervalli introduce meno rumore…..Quindi è meglio provare differenti lunghezze per gli intervalli anche in funzione del numero dei dati….Esistono alcune regolette
Ma è meglio usarle come punto di partenza….
![Page 42: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/42.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
ISTOGRAMMA
A proposito del numero di intervalli in un istogramma…..
![Page 43: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/43.jpg)
Statistica descrittiva: organizzazione tabellare e grafica
FUNZIONE DI RIPARTIZIONE EMPIRICA
Fn(x)=P(Xn<x)= numero di osservazioni <= a x / numero totale delle osservazioni
>Fvecchia <- ecdf(vecchia)>Fnuova1 <- ecdf(nuova1)>Fnuova2 <- ecdf(nuova2)>plot(Fvecchia,xlab='Operazioni completate',main='Funzione di ripartizione empirica',xlim=c(665,760), col.p='transparent')>plot(Fnuova1,add=T,col.p='transparent',col.h='red')>plot(Fnuova2,add=T,col.p='transparent',col.h='blue')>points(knots(Fvecchia),Fvecchia(knots(Fvecchia)),cex=0.2)>points(knots(Fnuova1),Fnuova1(knots(Fnuova1)),cex=0.2,col='red')>points(knots(Fnuova2),Fnuova2(knots(Fnuova2)),cex=0.2,col='blue')
![Page 44: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/44.jpg)
Statistica descrittiva: Misure di posizione
Ma di quanto l’organizzazione Nuova2 è migliore delle altre?Ci sono dei numeri che indicano dove la distribuzione è
posizionata?Noti parametri di posizione sono:
• La media aritmetica• La mediana• I quantili
![Page 45: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/45.jpg)
Statistica descrittiva: Misure di posizione
MEDIA ARITMETICA
Supponiamo di avere n unità statistiche su cui abbiamo osservato i valori y1,,,yn
La media aritmetica dei dati è:
>mean(vecchia)[1] 705.4722
![Page 46: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/46.jpg)
Statistica descrittiva: Misure di posizione
MEDIANAÈ un numero che è più grande di un 50% delle osservazioni e più piccolo del restante 50%
>median(vecchia)[1] 706
vecchia nuova1 nuova2
media 705.5 700.8 719.2
mediana 706 699 718.5
![Page 47: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/47.jpg)
Statistica descrittiva: Misure di posizione
QUANTILI
Generalizzano il concetto di mediana poichè l’idea alla base di un quantile p dove 0<p<1 è di cercare un numero che sia più grande del 100 x p% dei dati osservati e più piccolo del restante 100 x (1-p)%. Ad esempio il quantile 0.1 è un valore che lascia a sinistra il 10% delle osservazioni e a destra il 90%.I quantili più noti sono i quartili ossia con p uguale a 0.25, 0.50, 0.75 e sono detti così perchè dividono la popolazione in quattro parti.
Domandina: Chi è il secondo quartile??
>quantile(vecchia,probs = c(0.25,0.50,0.75))25% 50% 75%
699 706 713 >summary(vecchia)
Min. 1st Qu. Median Mean 3rd Qu. Max. 676.0 699.0 706.0 705.5 713.0 726.0
![Page 48: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/48.jpg)
Statistica descrittiva: Boxplot o diagramma a scatola con baffi
>boxplot(oper~org)
La scatola è costituita dai tre quartiliI baffi si estendono fino ai dati più lontani ….ma non oltre k (range) x scarto interquartileLe osservazioni oltre i baffi sono indicate generalmente con dei pallini
![Page 49: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/49.jpg)
Statistica descrittiva: Boxplot o diagramma a scatola con baffi
Attenzione però: interpretiamo bene i dati
Solo a titolo indicativo mostriamo due distribuzioni A e B…fondamentalmente hanno la stessa media…Ma secondo voi cosa cambia??
Così la smettiamo con la storia dei polli di Trilussa….
![Page 50: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/50.jpg)
Statistica descrittiva: Indici di variabilità
Tra gli indici che ci permettono di valutare sinteticamente la variabilità di un insieme di dati vi sono:
•La varianza•Lo scarto quadratico medio•Il campo di variazione •Lo scarto interquartile•MAD
![Page 51: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/51.jpg)
Statistica descrittiva: Indici di variabilità
VARIANZA
Mi dice in pratica quanto i dati distano o si disperdono dalla media aritmetica
Attenzione la funzione var() di R calcola la varianza campionaria e non quella della popolazione
Quindi var(y) lo otteniamo come (n-1)*var(y)/n
![Page 52: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/52.jpg)
Statistica descrittiva: Indici di variabilità
SCARTO QUADRATICO MEDIO
Mentre l’unità di misura della varianza è uguale al quadrato dell’unità di misura dei dati originali l’unità di misura dello squarto quadratico medio coincide con quella dei dati
![Page 53: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/53.jpg)
Statistica descrittiva: Indici di variabilità
CAMPO DI VARIAZIONE
In R range()SCARTO INTERQUARTILE
MAD Median Absolute Deviation
In RMAD<-function(x) { a<-median(abs(x-median(x))) return(a)}
![Page 54: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/54.jpg)
Statistica descrittiva: Indici di variabilità
COEFFICIENTE DI VARIAZIONE
/
Restituisce una misura della variabilità ‘aggiustata’ per tener conto delle differenti unità di misura dei fenomeni
![Page 55: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/55.jpg)
Statistica descrittiva: I DATI QUALITATIVI
Consideriamo il file “laureati.txt”
>laureati<-read.table("laureati.txt",header=TRUE)
>names(laureati) [1] "corso" "matricola" "sesso" "provincia" "anno" "tipo" "diploma" "votomat"
"base" “votolau" "lode" >attach(laureati)>table(provincia)provinciaBL BZ CH CO CT FE FG GO PD PN RO TN TS TV UD VE VI VR 8 2 1 1 1 2 1 1 69 7 4 2 1 163 3 169 25 7
>table(sesso)sessoF M 281 186
Media e varianza non hanno senso in questo caso…useremo la moda ossia la modalità con la frequenza più alta:
>which.max(table(provincia))VE16>max(table(provincia))[1] 169
![Page 56: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/56.jpg)
Statistica descrittiva: I DATI QUALITATIVI
RAPPRESENTAZIONI GRAFICHE
DIAGRAMMI A BARRE
>plot(sesso)
Att: la variabile sesso
non è ordinabile!
DIAGRAMMI A TORTA>pie(table(sesso),col = gray(seq(0.3,0.8,length=2)))
angolo=360° * frequenza relativa
![Page 57: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/57.jpg)
Statistica descrittiva: I DATI QUALITATIVI
TABELLE DI CONTIGENZA
Vi è associazione tra il sesso e il voto di lode? Ce lo dice la tabella di contingenza..>tab.cont<-table(sesso,lode)
>tab.cont
lode
sesso L NL
F 43 238
M 26 160
Esercizio: Rappresentiamo i seguenti
diagrammi a barre…..
suggerimento:utilizziamo
il comando barplot
![Page 58: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/58.jpg)
Statistica descrittiva: COVARIANZA E CORRELAZIONE
>data(swiss)
>names(swiss)
[1] "Fertility" "Agriculture" "Examination" "Education" "Catholic" "Infant.Mortality”
>attach(swiss)
>log.Education<-log(Education)
>indicators<-cbind(Fertility,Agriculture,log.Education)
>pairs(indicators)
Come misuriamo la direzione
e la forza delle relazioni tra
le variabili?
>n<-length(Fertility)
>cov(indicators)*(n-1)/n
Fertility Agriculture log.EducationFertility 152.722445 98.03789 -5.0856329Agriculture 98.037890 504.82496 -11.9200088log.Education -5.085633 -11.92001 0.6160699
![Page 59: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/59.jpg)
Statistica descrittiva: COVARIANZA E CORRELAZIONE
COVARIANZA
Osservazioni: 1) Se a valori crescenti di X corrispondono valori crescenti di Y ci aspettiamo che valori della media di X corrispondano a valori maggiori della media di Y perciò la covarianza sarà positiva; 2) Se al contrario al crescere della X la Y descresce ci aspettiamo una covarianza negativa; 3) Più è forte la relazione tra le due variabili più la covarianza sarà grande in valore assoluto mentre in assenza di una relazione monotona tra le due variabili la covarianza sarà vicina allo zero.
Quindi useremo la covarianza per misurare la DIREZIONE della relazione esistente tra due variabiliE per misurare la FORZA della relazione esistente??
Attenzione come per la var la funzione cov() di R calcola la covarianza campionaria
Quindi cov(x,y) lo otteniamo come (n-1)*cov(x,y)/n
![Page 60: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/60.jpg)
Statistica descrittiva: COVARIANZA E CORRELAZIONE
CORRELAZIONE (LINEARE)
>cor(indicators) Fertility Agriculture log.EducationFertility 1.0000000 0.3530792 -0.5242985Agriculture 0.3530792 1.0000000 -0.6759136log.Education -0.5242985 -0.6759136 1.0000000
Spesso indicato anche con r tale coefficiente varia tra -1 e 1.In particolare:se cor(X,Y)>0 la relazione tra le due variabili è positiva ed è tanto più forte tanto più
si avvicina ad 1;se cor(X,Y)<0 l’associazione tra i dati è negativa;se cor(X,Y)=1allora i dati sono perfettamente allineati su di una retta con coeff angolare
positivo o negativo;Se cor(X.Y)=0 allora non esiste una relazione di tipo lineare (e più in generale
un’associazione monotona) tra le variabili
![Page 61: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/61.jpg)
Statistica descrittiva: COVARIANZA E CORRELAZIONE
![Page 62: Dott.ssa Arianna Orasi 5 Marzo 2010. Contenuto del corso Parte1: Richiami alla probabilità ed elementi di statistica descrittiva Parte 2: Analisi statistiche](https://reader036.vdocuments.site/reader036/viewer/2022062319/5542eb50497959361e8bfdf8/html5/thumbnails/62.jpg)
Domande?