universita’ degli studi di genova
DESCRIPTION
UNIVERSITA’ DEGLI STUDI DI GENOVA. Corso di Laurea in Ingegneria Elettronica STUDIO E REALIZZAZIONE DI TECNICHE PER IL RICONOSCIMENTO VOCALE Relatore : Prof. Francesco Curatelli Studente : Lorenzo Banderali. Università degli Studi di Genova – Facoltà di Ingegneria. - PowerPoint PPT PresentationTRANSCRIPT
UNIVERSITA’ DEGLI STUDI DI GENOVA
Corso di Laurea in Ingegneria Elettronica
STUDIO E REALIZZAZIONE DI TECNICHE PER IL RICONOSCIMENTO VOCALE
Relatore : Prof. Francesco CuratelliStudente : Lorenzo Banderali
MOTIVAZIONI
• I sistemi di riconoscimento vocale sono sempre più diffusi ed importanti. Possono essere impiegati in:
- Telefonia mobile
- Stazioni telefoniche
- Refertazione automatica
- Interazione facilitata uomo-macchina
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria
ACQUISIZIONE • E’ necessario acquisire il segnale vocale e
trasformarlo in un segnale tempo discreto tramite un appropriato campionamento
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria
MODELLO PLP • Il modello PLP simula la percezione
dell’udito umano e stima con accuratezza i parametri del parlato in modo veloce
MEMORIA ASSOCIATIVA
• Associa i parametri del parlato ottenuti con il modello PLP ad un set predefinito di caratteristiche
• Adatta per una rappresentazione vettoriale dei dati
• Rende possibile il riconoscimento della forma d’onda
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria
SISTEMA DI RICONOSCIMENTO
• Fase di Apprendimento (training)– Analisi del segnale vocale per ogni frame– Costruzione database con i vettori PLP
• Fase di riconoscimento– Analisi del segnale vocale (PLP)– Calcolo score rispetto al database di training– Stima parola con algoritmo DTW
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria
OBIETTIVI
• Rendere il sistema di riconoscimento più rapido e meno costoso
• Mettere a punto un sistema software che permetta di minimizzare i tempi di calcolo senza provocare un significativo peggioramento del risultato finale
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria
OTTIMIZZAZIONE
• Riduzione del file di training
- Algoritmo di Lloyd
- Algoritmo K-Means
- Disattivazione
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria
Lloyd & K-Means
• Si muovono ripetitivamente tutti i valori di riferimento alla media del loro Voronoi set (L) o considerando il punto vincitore (K)
• Il riferimento si posiziona come un centroide per un insieme di punti
DISATTIVAZIONE
• Elimina i punti “sparsi” attratti più da altre classi che da quella di appartenenza
• Può essere effettuata prima o dopo la riduzione tramite Lloyd & K-Means
• Riduce ulteriormente il file di training
DIAGRAMMA DI VORONOI
• Permette di dividere il piano assegnando a ciascun punto il seme più vicino
PROVE EFFETTUATE
• Utilizzo di un database di registrazioni composto da parole pronunciate da differenti parlatori in più sessioni
• Addestramento con files di training completi e ridotti
• Riconoscimento di parole dello stesso o di altri parlatori nelle varie sessioni
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria
RISULTATI
Riduzione Lloyd e nessuna disattivazione ulteriore (XV)
Ancos01 Ancos01.10 Ancos01.100
Parlatore Parola R % R % R %
Ancos01 0#1 S 100 S 83.5 S 68.5
Ancos01 2#3 S 100 S 78.8 S 59
Ancos02 0#1 S 60 S 60 S 38.6
Ancos02 2#3 S 70.4 S 70.4 S 70.4
Lucas01 5#3 S 52 S 50 S 54.6
Lucas01 9#4 S 47 S 47 S 39.4
Cabos03 6#1 N 33.7 N 36.6 S 31.1
Cabos03 0#3 N 26.4 S 22.9 S 18.4
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria
RISULTATI
Riduzione Lloyd e disattivazione ulteriore (XV V*)
Ancos01 Ancos01.10 Ancos01.100
Parlatore Parola R % R % R %
Ancos01 0#1 S 100 S 57.5 S 30.1
Ancos01 2#3 S 100 S 65 S 28
Ancos02 0#1 S 60 S 54.6 S 28
Ancos02 2#3 S 70.4 S 58.7 S 62.1
Lucas01 5#3 S 52 S 50.2 S 42.5
Lucas01 9#4 S 47 S 39.3 S 29
Cabos03 6#1 N 33.7 N 24.5 S 20.9
Cabos03 0#3 N 26.4 N 16.6 N 14.2
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria
RISULTATI
Riduzione Lloyd e disattivazione ulteriore (XX* V)
Ancos01 Ancos01.10 Ancos01.100
Parlatore Parola R % R % R %
Ancos01 0#1 S 100 S 73.9 S 68.4
Ancos01 2#3 S 100 S 72.3 S 52.8
Ancos02 0#1 S 60 S 57.3 S 61.3
Ancos02 2#3 S 70.4 S 66.1 S 62.5
Lucas01 5#3 S 52 S 45.9 S 49.1
Lucas01 9#4 S 47 S 45 S 35.9
Cabos03 6#1 N 33.7 N 32.7 S 28.5
Cabos03 0#3 N 26.4 S 18.3 S 16.5
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria
CONCLUSIONI
• Significativa riduzione dei file di training
• Diminuzione dei tempi di esecuzione del programma di riconoscimento “Spear”
• Pochi errori nel riconoscimento delle parole
Università degli Studi di Genova – Facoltà di Ingegneria Università degli Studi di Genova – Facoltà di Ingegneria