qm "regressione multipla"

14
EMBA7 Costruzione di un modello di regressione multipla lineare. AS-8 Corso di QM 1 Prof. M. Poli “Il mercato degli Enti di Certificazione in Italia” Alessandro Vetriani matr. n. 104489

Upload: avetriani

Post on 31-May-2015

414 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Qm "Regressione multipla"

EMBA7

Costruzione di un modello di regressione multipla lineare. AS-8 Corso di QM 1 Prof. M. Poli

“Il mercato degli Enti di Certificazione in Italia”

Alessandro Vetriani matr. n. 104489

Page 2: Qm "Regressione multipla"

INDICE

Obiettivo dell’analisi e presentazione del data set Analisi univariata e multivariata Modello di analisi di regressione multipla lineare

Analisi globale modello Analisi locale modello

Conclusioni

Page 3: Qm "Regressione multipla"

Obiettivo dell’analisi e presentazione del D.S.

Si è scelto di analizzare il mercato degli Enti di Certificazione in Italia utilizzando alcuni dati disponibili sul sito del Sincert – Ente di Accreditamento Italiano per gli Enti di Certificazione (www.sincert.it) e costruendone altri in base alle esperienze del canditato in questo specifico settore. Obiettivo dell’analisi è valutare quali sono i fattori che influenzano maggiormente la quantità di certificati emessi dagli Enti secondo lo standard ISO 9001:2000/2008 per i Sistemi di Gestione della Qualità. Si precisa che il database è aggiornato al 31/12/2008.

Alessandro Vetriani
Page 4: Qm "Regressione multipla"

Obiettivo dell’analisi e presentazione del D. S.

Come variabile dipendente si è proceduto quindi a utilizzare i dati inerenti il numero di certificati emessi da 15 Enti di Certificazione Italiani di medio-grandi dimensioni, mentre come variabili indipendenti le seguenti:

Numero di settori di accreditamento (che rappresentano I settori merceologici per i quali l’Ente è autorizzato all’emissione del certificato e che sono 39 in totale per lo standard in questione)

Quantità di personale impiegato (interno/esterno) Costi sostenuti per la pubblicità Costi sostenuti per la formazione Anni di presenza sul mercato

Page 5: Qm "Regressione multipla"

Analisi Univariata: La variabile dipendente

I valori variano da 1003 (min) a 14307 (max). Il box di Whisker plot ci da una rappresentazione grafica di min (1003) I quartile (1328) mediana (4555) III quartile (7959) e max (14307). Media (5500) e mediana (4555) non sono molto vicine, la distribuzione appare concentrata verso il basso.

Page 6: Qm "Regressione multipla"

Analisi univariata: le variabili indipendenti

L’analisi univariata delle variabili indipendenti evidenzia la totale assenza di outlier

La maggiore concentrazione per quanto riguarda I settori di accreditamento è da 26 a 39. Notiamo tralaltro che il valore minimo è 22, e c’è una certa concentrazione verso l’alto (questo è evidentemente influenzato dal fatto che questi dati si riferiscono ad Enti di Certificazione di medio-grandi dimensioni)

Page 7: Qm "Regressione multipla"

Analisi Multivariata

Ottenuta la matrice di correlazione riga colonna (in alto), si possono osservare I valori di “ro” o matrice simmetrica. Cerchiati in rosso i valori più alti che potrebbero causare multicollinearità (descrizione dello stesso fenomeno da parte di due variabili).

Page 8: Qm "Regressione multipla"

Regressione multipla: Analisi globale modello

I valori di R2 e R2 adjusted sono molto buoni. Il modello spiega il 97% della variabilità di y. OK!

Il Test F di Fisher è ottimo. Il valore <0,0001 è di gran lunga inferiore a 0,05 che è il valore limite per di accettazione di H0, perciò rifiutiamo H0 (non c’è correlazione lineare). OK!

I residui sembrano abbastanza sparsi ed hanno un andamento soddisfacente. OK!

Page 9: Qm "Regressione multipla"

Regressione multipla: Analisi locale modello

Tutti valori VIF (Variance Inflation Factor) sono <10 perciò nessuna variabile disturba il modello e non c’è multicollinearità. OK!

Osservando il valore “prob>t” notiamo che le variabili “settori di accreditamento” e “costi formazione” non sono significative nel modello per spiegare la variabilità di y. NOT OK!

Procederemo eliminando la variabile con il valore maggiore, “settori di accreditamento”.

Page 10: Qm "Regressione multipla"

Regressione multipla: Analisi globale modello

I valori di R2 ed R2 restano molto buoni, R2 è sceso a livello impercettibile mentre R2 adj è salito anch’esso a livello impercettibile. OK!

Il test F di Fisher rimane ottimo. OK! I residui mantengono l’andamento mostrato nella precedente

slide e rimangono perciò più che accettabili per il modello. OK!

Page 11: Qm "Regressione multipla"

Regressione multipla: Analisi locale modello

Il valore di “Prob>t” della variabile “costi formazione” è troppo alto, perciò dovremo eliminare questa variabile. NOT OK!

Page 12: Qm "Regressione multipla"

Regressione multipla: Analisi finale modello

I valori di R2 ed R2 adj. sono sempre ottimi. OK! Il test F di Fisher è ottimo. OK! I residui sono abbastanza sparsi. OK!Tutte le variabili hanno valori buoni e quindi accettabili. OK!

Modello finale: Y= - 823.3078 + 12.813 * N. personale + 29.147 * Costi pubblicità + 168.939 * Anni di presenza sul mercato

Page 13: Qm "Regressione multipla"

Conclusioni

Osservando i valori relativi agli standard beta, possiamo valutare il peso percentuale delle tre variabili indipendenti. Ricalcolando gli std. beta ponendo la somma uguale ad 1 ci rendiamo conto che la variabile più importante è “costi pubblicità” che da sola spiega il 50% del modello. Questo valore è fortemente influenzato dalla dimensione degli Enti di Certificazione campionati (medio/grande).

La variabile “Costi pubblicità” ed il “N. Personale” insieme

influenzano l’85% del modello.

Page 14: Qm "Regressione multipla"

Conclusioni

La variabile meno imporante è rappresentata dagli “anni di pres. Mkt” ed è facilmente spiegabile attraverso la presenza di forti barriere all’entrata nel mercato della Certificazione e per la dimensione (medio/grande) dei 15 Enti qui campionati.

Gli intervalli di confidenza (lower & upper 95%) rappresentano un

intervallo in cui con un’assegnata probabilità a priori cade il vero valore del coefficiente. Ad esempio “N. Personale”varia da 7,96 a 17,66.