alberi decisionali prima parte. argomenti della lezione generazione di sistemi di classificazione...
Post on 01-May-2015
224 Views
Preview:
TRANSCRIPT
ALBERI DECISIONALI prima parte
ALBERI DECISIONALI prima parte
Argomenti della lezioneArgomenti della lezione
Generazione di sistemi di classificazione
Generazione di sistemi di classificazione
Scelte dell’analisi Scelte dell’analisi
Criteri di valutazione della disomogeneità
Criteri di valutazione della disomogeneità
L’obiettivo è di selezionare, tra le variabili esplicative, quelle che
maggiormente spiegano la variabilità (o la mutabilità) della variabile target
L’obiettivo è di selezionare, tra le variabili esplicative, quelle che
maggiormente spiegano la variabilità (o la mutabilità) della variabile target
Gli alberi decisionali rientrano nell’ambito dell’analisi della
dipendenza
Gli alberi decisionali rientrano nell’ambito dell’analisi della
dipendenzaRealizzano un procedimento di
ripartizione del collettivo analizzato in gruppi mediante una successione
di spaccature di tipo gerarchico
Realizzano un procedimento di ripartizione del collettivo analizzato in gruppi mediante una successione
di spaccature di tipo gerarchico
Le partizioni prodotte sono di tipo gerarchico, e pertanto
rappresentabili mediante un dendrogramma ad albero
Le partizioni prodotte sono di tipo gerarchico, e pertanto
rappresentabili mediante un dendrogramma ad albero
La costruzione dell’albero è una procedura stepwise
La costruzione dell’albero è una procedura stepwise
Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene
suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio
della variabile dipendente
Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene
suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio
della variabile dipendente
Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a
quando il processo viene interrotto in base ad una regola d’arresto
Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a
quando il processo viene interrotto in base ad una regola d’arresto
Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai
valori assunti da una o più variabili esplicative
Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai
valori assunti da una o più variabili esplicative
La partizione migliore ad ogni passo viene scelta sulla base di un criterio
di omogeneità interna dei gruppi che vengono
generati dalle suddivisioni del campione
La partizione migliore ad ogni passo viene scelta sulla base di un criterio
di omogeneità interna dei gruppi che vengono
generati dalle suddivisioni del campione
La variabile dipendente può
essere:
La variabile dipendente può
essere:
qualitativa qualitativa
quantitativa quantitativa
La costruzione dell’albero può seguire una procedura di
partizione:
La costruzione dell’albero può seguire una procedura di
partizione:
binaria binaria
ternaria ternaria
multipla multipla
Ambiti di applicazione degli alberi decisionali:
Ambiti di applicazione degli alberi decisionali:
ricerca di interazioni tra variabili predittive
ricerca di interazioni tra variabili predittive
identificazione di gruppi devianti
identificazione di gruppi devianti
identificazione di dati anomali
identificazione di dati anomali
interpretazione causale del fenomeno rappresentato dalla variabile dipendente
interpretazione causale del fenomeno rappresentato dalla variabile dipendente
ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali
ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali
forzatura di un dato valido in sostituzione di un dato mancante
forzatura di un dato valido in sostituzione di un dato mancante
produzione di regole di previsione o di classificazione
produzione di regole di previsione o di classificazione
Regole di salvaguardia nella esecuzione dell‘analisi:
Regole di salvaguardia nella esecuzione dell‘analisi:
errore di stima nei gruppi formati
errore di stima nei gruppi formati
forma della distribuzione della variabile dipendente
forma della distribuzione della variabile dipendente
Scelte nell’analisi di
partizione
Scelte nell’analisi di
partizione
tipo di variabile dipendente tipo di variabile dipendente
ordine di ingresso dei predittori ordine di ingresso dei predittori
numero dei gruppi da tentare ad ogni passo dell’analisi
numero dei gruppi da tentare ad ogni passo dell’analisi
criteri che modificano la struttura dell’albero
criteri che modificano la struttura dell’albero
criteri di arresto del processo di segmentazione
criteri di arresto del processo di segmentazione
Eliminazione dall’analisi
di variabili di disturbo
Eliminazione dall’analisi
di variabili di disturbo
Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà
spiegata da questa variabile predittiva
Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà
spiegata da questa variabile predittiva
In questi casi è opportuno considerare invece della variabile
originaria Y, i residui della regressione della Y sulla Z
In questi casi è opportuno considerare invece della variabile
originaria Y, i residui della regressione della Y sulla Z
Scelta dei potenziali predittori:
Scelta dei potenziali predittori:
ipotesi a priori ipotesi a priori
analisi statistiche preliminari del campione osservato
analisi statistiche preliminari del campione osservato
Modalità dei predittoriModalità dei predittori
Tutte le variabili esplicative vanno trasformate in variabili categoriali
Tutte le variabili esplicative vanno trasformate in variabili categoriali
Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi
Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi
Limitare il numero di categorie e bilanciarle tra le variabili
Limitare il numero di categorie e bilanciarle tra le variabili
Monotonicità della
relazione
Monotonicità della
relazione
Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala
almeno ordinale, quando la crescere della prima la seconda varia
costantemente
Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala
almeno ordinale, quando la crescere della prima la seconda varia
costantemente
Si impone la monotonicità tra Y e X quando si vuole che siano aggregate
per formare gruppi solo modalità adiacenti sulla scala ordinale
Si impone la monotonicità tra Y e X quando si vuole che siano aggregate
per formare gruppi solo modalità adiacenti sulla scala ordinale
x1 > 0,7x1 > 0,7
t1t1
x2 > 0,5x2 > 0,5
x1 ≤ 0,7x1 ≤ 0,7
x2 ≤ 0,5x2 ≤ 0,5
t2t2 t3t3
t5t5t4t4
classe 1classe 1
classe 2classe 2
x2x2t5t5 t3t3
t4t4
x1x1
0,50,5
0,70,7
Ordine d’ingresso dei predittori
Ordine d’ingresso dei predittori
E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente
inserite per prime nel processo di partizione le variabili che stanno
all’origine della catena causale
E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente
inserite per prime nel processo di partizione le variabili che stanno
all’origine della catena causale
top related