soutenance de stage - imtrimtr.ircam.fr/imtr/images/soutenance_de_stage.pdf · etat de l’art...
TRANSCRIPT
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Soutenance de Stage
Factorisation en Matrices Non-Négatives pour la ReconnaissanceMulti-Source Incrémentale
Arnaud DesseinEncadrants : Arshia Cont, Guillaume Lemaitre
29 juin 2009
[email protected] 29 juin 2009 Soutenance de Stage 1/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale
Plan
1 Etat de l’artFactorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale
2 Contrôle de la parcimonie
3 Résultats
4 Conclusion
[email protected] 29 juin 2009 Soutenance de Stage 2/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale
Factorisation en matrices non-négatives
Problème standard de factorisation en matrices non-négatives (NMF)[Lee & Seung, 1999].
Soit V ∈ Rn×m+ et r < min(n,m), trouver W ∈ Rn×r
+ et H ∈ Rr×m+ telles
que :V ≈WH
Minimisation par rapport à une fonction coût : la distance euclidienne.
Interprétation :vj ≈Whj =
∑i hijwi
wi : vecteurs de base.hij : coefficients de décomposition.
[email protected] 29 juin 2009 Soutenance de Stage 3/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale
Factorisation en matrices non-négatives
Problème standard de factorisation en matrices non-négatives (NMF)[Lee & Seung, 1999].
Soit V ∈ Rn×m+ et r < min(n,m), trouver W ∈ Rn×r
+ et H ∈ Rr×m+ telles
que :V ≈WH
Minimisation par rapport à une fonction coût : la distance euclidienne.
Interprétation :vj ≈Whj =
∑i hijwi
wi : vecteurs de base.hij : coefficients de décomposition.
[email protected] 29 juin 2009 Soutenance de Stage 3/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale
Contexte de la reconnaissance des sons
Rappel du modèle.
V ≈ WH
vj ≈ Whj =∑
i hijwi
Choix commun des paramètres :V : représentation temps-fréquence.vj : trames successives.wi : modèles spectraux.hij : coefficients d’activation.
Exemple d’application : transcription de la musique polyphonique[Smaragdis & Brown, 2003, Abdallah & Plumbley, 2004, Raczyński et al., 2007,Vincent et al., 2008, Bertin et al., 2009].Limites pour notre problème.
[email protected] 29 juin 2009 Soutenance de Stage 4/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale
Contexte de la reconnaissance des sons
Rappel du modèle.
V ≈ WH
vj ≈ Whj =∑
i hijwi
Choix commun des paramètres :V : représentation temps-fréquence.vj : trames successives.wi : modèles spectraux.hij : coefficients d’activation.
Exemple d’application : transcription de la musique polyphonique[Smaragdis & Brown, 2003, Abdallah & Plumbley, 2004, Raczyński et al., 2007,Vincent et al., 2008, Bertin et al., 2009].
Limites pour notre problème.
[email protected] 29 juin 2009 Soutenance de Stage 4/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale
Contexte de la reconnaissance des sons
Rappel du modèle.
V ≈ WH
vj ≈ Whj =∑
i hijwi
Choix commun des paramètres :V : représentation temps-fréquence.vj : trames successives.wi : modèles spectraux.hij : coefficients d’activation.
Exemple d’application : transcription de la musique polyphonique[Smaragdis & Brown, 2003, Abdallah & Plumbley, 2004, Raczyński et al., 2007,Vincent et al., 2008, Bertin et al., 2009].Limites pour notre problème.
[email protected] 29 juin 2009 Soutenance de Stage 4/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale
Reconnaissance multi-source incrémentale
Vers une décomposition non-négative :1 Apprendre des modèles wi avant la décomposition.2 Regrouper ces modèles dans W fixe pendant la décomposition.3 Résoudre un problème NMF pour chaque trame :
v ≈Wh
Applications :Analyse de la parole [Sha & Saul, 2005].Transcription [Paulus & Virtanen, 2005, Niedermayer, 2008].Suivi de partition [Cont, 2006].Reconnaissance multi-f0 et multi-instrument [Cont et al., 2007].Evaluation de la lecture à vue [Cheng et al., 2008].
Problème majeur : contrôler la parcimonie de la décomposition[Cont, 2006, Cont et al., 2007].
[email protected] 29 juin 2009 Soutenance de Stage 5/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale
Reconnaissance multi-source incrémentale
Vers une décomposition non-négative :1 Apprendre des modèles wi avant la décomposition.2 Regrouper ces modèles dans W fixe pendant la décomposition.3 Résoudre un problème NMF pour chaque trame :
v ≈Wh
Applications :Analyse de la parole [Sha & Saul, 2005].Transcription [Paulus & Virtanen, 2005, Niedermayer, 2008].Suivi de partition [Cont, 2006].Reconnaissance multi-f0 et multi-instrument [Cont et al., 2007].Evaluation de la lecture à vue [Cheng et al., 2008].
Problème majeur : contrôler la parcimonie de la décomposition[Cont, 2006, Cont et al., 2007].
[email protected] 29 juin 2009 Soutenance de Stage 5/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale
Reconnaissance multi-source incrémentale
Vers une décomposition non-négative :1 Apprendre des modèles wi avant la décomposition.2 Regrouper ces modèles dans W fixe pendant la décomposition.3 Résoudre un problème NMF pour chaque trame :
v ≈Wh
Applications :Analyse de la parole [Sha & Saul, 2005].Transcription [Paulus & Virtanen, 2005, Niedermayer, 2008].Suivi de partition [Cont, 2006].Reconnaissance multi-f0 et multi-instrument [Cont et al., 2007].Evaluation de la lecture à vue [Cheng et al., 2008].
Problème majeur : contrôler la parcimonie de la décomposition[Cont, 2006, Cont et al., 2007].
[email protected] 29 juin 2009 Soutenance de Stage 5/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe
Plan
1 Etat de l’art
2 Contrôle de la parcimonieIllustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe
3 Résultats
4 Conclusion
[email protected] 29 juin 2009 Soutenance de Stage 6/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe
Illustration et motivations
Expérience de [Paatero, 1997].Input matrix V
5
10
15
20
25
30
35
402 4 6 8 10 12 14 16 18 20
(a) V = WH + |N|.
Basis vector w1
0
50
100
0 10 20 30 40
Basis vector w2
0
50
0 10 20 30 40
Basis vector w3
0
100
200
0 10 20 30 40
Basis vector w4
0
50
0 10 20 30 40
Encoding coe!cients h1
0
0.5
1
0 10 20 30 0
Encoding coe!cients h2
0
0.5
1
0 10 20 30 40
Encoding coe!cients h3
0
0.5
1
0 10 20 30 40
Encoding coe!cients h4
0
0.5
1
0 10 20 30 40
(b) W et H.
Estimated basis vector w1
0
0.5
1
0 10 20 30 40
Estimated basis vector w2
0
0.5
0 10 20 30 40
Estimated basis vector w3
0
0.5
0 10 20 30 40
Estimated basis vector w4
0
0.5
0 10 20 30 40
Estimated encoding coefficients h1
20
30
40
0 10 20 30 40
Estimated encoding coefficients h2
0
50
100
0 10 20 30 40
Estimated encoding coefficients h3
0
50
100
0 10 20 30 40
Estimated encoding coefficients h4
0
100
200
0 10 20 30 40
(c) W et H.
Figure: Expérience de Paatero avec NMF.
Vers l’utilisation de techniques d’optimisation convexe[Boyd & Vandenberghe, 2004].
[email protected] 29 juin 2009 Soutenance de Stage 7/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe
Illustration et motivations
Expérience de [Paatero, 1997].Input matrix V
5
10
15
20
25
30
35
402 4 6 8 10 12 14 16 18 20
(a) V = WH + |N|.
Basis vector w1
0
50
100
0 10 20 30 40
Basis vector w2
0
50
0 10 20 30 40
Basis vector w3
0
100
200
0 10 20 30 40
Basis vector w4
0
50
0 10 20 30 40
Encoding coe!cients h1
0
0.5
1
0 10 20 30 0
Encoding coe!cients h2
0
0.5
1
0 10 20 30 40
Encoding coe!cients h3
0
0.5
1
0 10 20 30 40
Encoding coe!cients h4
0
0.5
1
0 10 20 30 40
(b) W et H.
Estimated basis vector w1
0
0.5
1
0 10 20 30 40
Estimated basis vector w2
0
0.5
0 10 20 30 40
Estimated basis vector w3
0
0.5
0 10 20 30 40
Estimated basis vector w4
0
0.5
0 10 20 30 40
Estimated encoding coefficients h1
20
30
40
0 10 20 30 40
Estimated encoding coefficients h2
0
50
100
0 10 20 30 40
Estimated encoding coefficients h3
0
50
100
0 10 20 30 40
Estimated encoding coefficients h4
0
100
200
0 10 20 30 40
(c) W et H.
Figure: Expérience de Paatero avec NMF.
Vers l’utilisation de techniques d’optimisation convexe[Boyd & Vandenberghe, 2004].
[email protected] 29 juin 2009 Soutenance de Stage 7/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe
Optimisation par gradient projeté
Utilisation de l’optimisation pargradient projeté par [Hoyer, 2004].Mesure de parcimonie :
sp(x) =
√n − ‖x‖1/‖x‖2√
n − 1
0 6 sp(x) 6 1
Choix d’une parcimonie s parl’utilisateur.Descente de gradient avecétape de projection sur le cônede parcimonie s.
[email protected] 29 juin 2009 Soutenance de Stage 8/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe
Optimisation par gradient projeté
Utilisation de l’optimisation pargradient projeté par [Hoyer, 2004].Mesure de parcimonie :
sp(x) =
√n − ‖x‖1/‖x‖2√
n − 1
0 6 sp(x) 6 1
Choix d’une parcimonie s parl’utilisateur.Descente de gradient avecétape de projection sur le cônede parcimonie s.
Figure: Projection sur un cône deparcimonie.
[email protected] 29 juin 2009 Soutenance de Stage 8/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe
Programmations conique de second ordre et quadratique convexe
Utilisation de la programmationconique de second ordre par[Heiler & Schnörr, 2006].Optimisation entre deux cônes deparcimonie smin 6 sp(x) 6 smax .
Problème convexe retourné assezcomplexe.Simplification par une séquence deprogrammes coniques de second ordre.Utilisation de la programmationquadratique convexe[Boyd & Vandenberghe, 2004].Plus efficace et robuste.Introduction de pénalités dans lafonction coût.
[email protected] 29 juin 2009 Soutenance de Stage 9/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe
Programmations conique de second ordre et quadratique convexe
Utilisation de la programmationconique de second ordre par[Heiler & Schnörr, 2006].Optimisation entre deux cônes deparcimonie smin 6 sp(x) 6 smax .Problème convexe retourné assezcomplexe.Simplification par une séquence deprogrammes coniques de second ordre.
Utilisation de la programmationquadratique convexe[Boyd & Vandenberghe, 2004].Plus efficace et robuste.Introduction de pénalités dans lafonction coût.
Figure: Optimisation entre deux cônesde parcimonie.
[email protected] 29 juin 2009 Soutenance de Stage 9/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe
Programmations conique de second ordre et quadratique convexe
Utilisation de la programmationconique de second ordre par[Heiler & Schnörr, 2006].Optimisation entre deux cônes deparcimonie smin 6 sp(x) 6 smax .Problème convexe retourné assezcomplexe.Simplification par une séquence deprogrammes coniques de second ordre.Utilisation de la programmationquadratique convexe[Boyd & Vandenberghe, 2004].Plus efficace et robuste.Introduction de pénalités dans lafonction coût.
Figure: Optimisation entre deux cônesde parcimonie.
[email protected] 29 juin 2009 Soutenance de Stage 9/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Plan
1 Etat de l’art
2 Contrôle de la parcimonie
3 RésultatsExpérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
4 Conclusion
[email protected] 29 juin 2009 Soutenance de Stage 10/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Expérience de Paatero
Input matrix V
5
10
15
20
25
30
35
402 4 6 8 10 12 14 16 18 20
(a) V = WH + |N|.
Basis vector w1
0
50
100
0 10 20 30 40
Basis vector w2
0
50
0 10 20 30 40
Basis vector w3
0
100
200
0 10 20 30 40
Basis vector w4
0
50
0 10 20 30 40
Encoding coe!cients h1
0
0.5
1
0 10 20 30 0
Encoding coe!cients h2
0
0.5
1
0 10 20 30 40
Encoding coe!cients h3
0
0.5
1
0 10 20 30 40
Encoding coe!cients h4
0
0.5
1
0 10 20 30 40
(b) W et H.
Estimated basis vector w1
0
0.5
1
0 10 20 30 40
Estimated basis vector w2
0
0.5
0 10 20 30 40
Estimated basis vector w3
0
0.5
0 10 20 30 40
Estimated basis vector w4
0
0.5
0 10 20 30 40
Estimated encoding coefficients h1
20
30
40
0 10 20 30 40
Estimated encoding coefficients h2
0
50
100
0 10 20 30 40
Estimated encoding coefficients h3
0
50
100
0 10 20 30 40
Estimated encoding coefficients h4
0
100
200
0 10 20 30 40
(c) W et H.
Figure: Expérience de Paatero avec NMF et SNMF.
[email protected] 29 juin 2009 Soutenance de Stage 11/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Expérience de Paatero
Estimated basis vector !w1
0
0.5
1
0 10 20 30 40
Estimated basis vector !w2
0
0.5
1
0 10 20 30 40
Estimated basis vector !w3
0
0.5
1
0 10 20 30 40
Estimated basis vector !w4
0
0.5
1
0 10 20 30 40
Estimated encoding coe!cients !h1
0
100
200
0 5 10 15 20
Estimated encoding coe!cients !h2
0
50
100
0 5 10 15 20
Estimated encoding coe!cients !h3
0
50
100
0 5 10 15 20
Estimated encoding coe!cients !h4
0
100
200
0 5 10 15 20
(a) W, H (PG, sw = 0.65).
Estimated basis vector !w1
0
0.5
1
0 10 20 30 40
Estimated basis vector !w2
0
0.5
1
0 10 20 30 40
Estimated basis vector !w3
0
0.5
1
0 10 20 30 40
Estimated basis vector !w4
0
0.5
1
0 10 20 30 40
Estimated encoding coe!cients !h1
0
100
200
0 5 10 15 20
Estimated encoding coe!cients !h2
0
100
200
0 5 10 15 20
Estimated encoding coe!cients !h3
0
50
100
0 5 10 15 20
Estimated encoding coe!cients !h4
0
50
100
0 5 10 15 20
(b) W, H (SOCP, sminw = 0.65).
Figure: Expérience de Paatero avec NMF et SNMF.
[email protected] 29 juin 2009 Soutenance de Stage 11/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Reconnaissance multi-f0 et multi-instrument
Représentation :Le spectre de modulation [Sukittanon et al., 2004].Non-négativité, additivité [Atlas & Janssen, 2005].Déjà utilisé, discriminatif [Cont et al., 2007].
Apprentissage des modèles pour chaque note de chaque instrument avecNMF.
689.1
1378.1
2067.2
2756.3
3445.3
4134.4
4823.4
5512.5
2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27
(a) A4 du piano.
689.1
1378.1
2067.2
2756.3
3445.3
4134.4
4823.4
5512.5
2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27
(b) A4 de la flute.
Figure: Modèles de A4 pour la flute et le piano.
[email protected] 29 juin 2009 Soutenance de Stage 12/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Reconnaissance multi-f0 et multi-instrument
Représentation :Le spectre de modulation [Sukittanon et al., 2004].Non-négativité, additivité [Atlas & Janssen, 2005].Déjà utilisé, discriminatif [Cont et al., 2007].
Apprentissage des modèles pour chaque note de chaque instrument avecNMF.
689.1
1378.1
2067.2
2756.3
3445.3
4134.4
4823.4
5512.5
2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27
(a) A4 du piano.
689.1
1378.1
2067.2
2756.3
3445.3
4134.4
4823.4
5512.5
2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27
(b) A4 de la flute.
Figure: Modèles de A4 pour la flute et le piano.
[email protected] 29 juin 2009 Soutenance de Stage 12/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Reconnaissance multi-f0 et multi-instrument
Représentation :Le spectre de modulation [Sukittanon et al., 2004].Non-négativité, additivité [Atlas & Janssen, 2005].Déjà utilisé, discriminatif [Cont et al., 2007].
Apprentissage des modèles pour chaque note de chaque instrument avecNMF.
689.1
1378.1
2067.2
2756.3
3445.3
4134.4
4823.4
5512.5
2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27
(a) A4 du piano.
689.1
1378.1
2067.2
2756.3
3445.3
4134.4
4823.4
5512.5
2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27
(b) A4 de la flute.
Figure: Modèles de A4 pour la flute et le piano.
[email protected] 29 juin 2009 Soutenance de Stage 12/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Reconnaissance multi-f0 et multi-instrument
0 2 4 6 8 10 12 14
D2
G2
C3
F3
A3
D4
G4
C5
F5
B5
E6
Time in beats
Pitc
h
Piano
flute
Figure: Piano-roll de la Sonate pour Flute et Piano de Poulenc.
[email protected] 29 juin 2009 Soutenance de Stage 12/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Reconnaissance multi-f0 et multi-instrument
Evaluation subjective.
0.0 0.4 0.8 1.1 1.5 1.9 2.3 2.6 3.0 3.4 3.8 4.1 4.5 4.9 5.3 5.6 6.0 6.4 6.8 7.1 7.5 7.9 8.3 8.6 9.0 9.4 9.8 10.1 10.5 10.9 11.3 11.6 12.0 12.4 12.8 13.1 13.5
A0
A1
A2
A3
A4
A5
A6
A7
Noise
B4
A5
A6
Flute
Piano
(a) Algorithme de [Cont et al., 2007].0.0 0.4 0.8 1.1 1.5 1.9 2.3 2.6 3.0 3.4 3.8 4.1 4.5 4.9 5.3 5.6 6.0 6.4 6.8 7.1 7.5 7.9 8.3 8.6 9.0 9.4 9.8 10.1 10.5 10.9 11.3 11.6 12.0 12.4 12.8 13.1 13.5
A0
A1
A2
A3
A4
A5
A6
A7
Noise
B4
A5
A6
Flute
Piano
(b) Algorithme CQP.
Figure: Coefficients d’activation H obtenus.
Evaluation objective en cours.
[email protected] 29 juin 2009 Soutenance de Stage 12/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Analyse de scènes sonores complexes
Spectre d’amplitude.Apprentissage des modèles.
Création d’une scène sonore.
0 2 4 6 8 10 12 14 16 18 20−1
−0.5
0
0.5
1Porte
VerresCasserole
Figure: Forme d’onde de la scène sonore.
[email protected] 29 juin 2009 Soutenance de Stage 13/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Analyse de scènes sonores complexes
Spectre d’amplitude.Apprentissage des modèles.Création d’une scène sonore.
0 2 4 6 8 10 12 14 16 18 20−1
−0.5
0
0.5
1Porte
VerresCasserole
Figure: Forme d’onde de la scène sonore.
[email protected] 29 juin 2009 Soutenance de Stage 13/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes
Analyse de scènes sonores complexes
Séquence : V – V – C – P – P – P – C – C – V – C – P – P – C.
0 2.9 5.7 8.6 11.4 14.3 17.1 20 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
CasserolePorteVerres
(a) Coefficients d’activation avec ND.
0 2.9 5.7 8.6 11.4 14.3 17.1 20 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
CasserolePorteVerres
(b) Coefficients d’activation avec SND.
Figure: Analyse d’une scène sonore complexe.
[email protected] 29 juin 2009 Soutenance de Stage 13/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Plan
1 Etat de l’art
2 Contrôle de la parcimonie
3 Résultats
4 Conclusion
[email protected] 29 juin 2009 Soutenance de Stage 14/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Conclusion
Résumé du travail et perspectives.Espace et géométrie du problème.Représentations.Temporalité des évènements.Pouvoir de généralisation et robustesse.
[email protected] 29 juin 2009 Soutenance de Stage 15/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Conclusion
Résumé du travail et perspectives.Espace et géométrie du problème.Représentations.Temporalité des évènements.Pouvoir de généralisation et robustesse.
La distance euclidienne avec interprétation géométrique.Autres fonctions coûts, divergences.La divergence d’Itakura-Saito avec interprétation bayésienne[Févotte et al., 2009].
[email protected] 29 juin 2009 Soutenance de Stage 15/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Conclusion
Résumé du travail et perspectives.Espace et géométrie du problème.Représentations.Temporalité des évènements.Pouvoir de généralisation et robustesse.
Transformée en ondelettes.Représentations complexes pour V et W.Tenseurs [Welling & Weber, 2001, Cichocki & Zdunek, 2006, Friedlander, 2006].
[email protected] 29 juin 2009 Soutenance de Stage 15/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Conclusion
Résumé du travail et perspectives.Espace et géométrie du problème.Représentations.Temporalité des évènements.Pouvoir de généralisation et robustesse.
Utilisation du spectre de modulation.Extension du modèle NMF [Smaragdis, 2004].Représentation par états.
[email protected] 29 juin 2009 Soutenance de Stage 15/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Conclusion
Résumé du travail et perspectives.Espace et géométrie du problème.Représentations.Temporalité des évènements.Pouvoir de généralisation et robustesse.
W fixe.Relâchement de la contrainte sur W.Contrôle explicite de la robustesse.
[email protected] 29 juin 2009 Soutenance de Stage 15/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Questions
Merci pour votre attention !
[email protected] 29 juin 2009 Soutenance de Stage 16/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Analyse d’une scène complexe
0 5 10 150
100
200
300
0 5 10 150
200
400
600
0 5 10 150
100
200
300
Porte
Verres
Casserole
(a) Coefficients d’activation avec ND.
0 5 10 150
100
200
0 5 10 150
200
400
0 5 10 150
50
100
Verres
Casserole
Porte
(b) Coefficients d’activation avec SND.
Figure: Analyse d’une scène complexe.
[email protected] 29 juin 2009 Soutenance de Stage 17/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Rythme de batterie
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
20
40
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
200
400
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
5
10
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
200
400
Charley
GrosseCaisse
Tom
Caisse claire
(a) Coefficients d’activation avec ND.
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
10
20
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
200
400
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
2
4
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
200
400
Tom
Caisse claire
Grosse caisse
Charley
(b) Coefficients d’activation avec SND.
Figure: Rythme de batterie.
[email protected] 29 juin 2009 Soutenance de Stage 18/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Bibliographie I
Abdallah, S. A. & Plumbley, M. D. (2004).Polyphonic music transcription by non-negative sparse coding of power spectra.In Proceedings of the 5th International Conference on Music Information Retrieval (ISMIR) (pp. 318–325). Barcelona, Spain.
Atlas, L. E. & Janssen, C. (2005).Coherent modulation spectral filtering for single-channel music source separation.In IEEE International Conference in Acoustics and Speech Signal Processing (ICASSP).
Bertin, N., Badeau, R., & Vincent, E. (2009).Enforcing harmonicity and smoothness in Bayesian non-negative matrix factorization applied to polyphonic music transcription.Technical report, TELECOM ParisTech.
Boyd, S. & Vandenberghe, L. (2004).Convex Optimization.Cambridge University Press.
Cheng, C.-C., Hu, D. J., & Saul, L. K. (2008).Nonnegative matrix factorization for real time musical analysis and sight-reading evaluation.In Acoustics, Speech and Signal Processing 2008, IEEE International Conference on (pp. 2017–2020). Las Vegas, NV, USA.
Cichocki, A. & Zdunek, R. (2006).NMFLAB/NTFLAB – MATLAB Toolbox for Non-Negative Matrix/Tensor Factorization.http://www.bsp.brain.riken.jp/ICALAB/nmflab.html.
Cont, A. (2006).Realtime multiple pitch observation using sparse non-negative constraints.In International Symposium on Music Information Retrieval (ISMIR) Victoria, Canada.
[email protected] 29 juin 2009 Soutenance de Stage 19/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Bibliographie II
Cont, A., Dubnov, S., & Wessel, D. (2007).Realtime multiple-pitch and multiple-instrument recognition for music signals using sparse non-negative constraints.In Proceedings of the 10th International Conference on Digital Audio Effects (DAFx-07) Bordeaux, France.
Friedlander, M. P. (2006).BCLS : A large-scale solver for bound-constrained least squares.http://www.cs.ubc.ca/~mpf/bcls/.
Févotte, C., Bertin, N., & Durrieu, J.-L. (2009).Nonnegative matrix factorization with the itakura-saito divergence : With application to music analysis.Neural Computation, 21(3), 793–830.
Heiler, M. & Schnörr, C. (2006).Learning sparse representations by non-negative matrix factorization and sequential cone programming.Journal of Machine Learning Research, 7, 1385–1407.
Hoyer, P. O. (2004).Non-negative matrix factorization with sparseness constraints.Journal of Machine Learning Research, 5, 1457–1469.
Lee, D. D. & Seung, H. S. (1999).Learning the parts of objects by non-negative matrix factorization.Nature, 401(6755), 788–791.
Niedermayer (2008).Non-negative matrix division for the automatic transcription of polyphonic music.In Proceedings of the 9th International Conference on Music Information Retrieval (ISMIR) (pp. 544–549).
[email protected] 29 juin 2009 Soutenance de Stage 20/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Bibliographie III
Paatero, P. (1997).Least squares formulation of robust non-negative factor analysis.Chenometrics and Intelligent Laboratory Systems, 37(1), 23–35.
Paulus, J. & Virtanen, T. (2005).Drum transcription with non-negative spectrogram factorisation.In Proceedings of the 13th European Signal Processing Conference (EUSIPCO 05) Antalya, Turkey.
Raczyński, S. A., Ono, N., & Sagayama, S. (2007).Harmonic nonnegative matrix approximation for multipitch analysis of musical sounds.In Proceedings of ASJ Autumn Meeting (pp. 827–830).
Sha, F. & Saul, L. K. (2005).Real-time pitch determination of one or more voices by nonnegative matrix factorization.Advances in Neural Information Processing Systems, 17, 1233–1240.
Smaragdis, P. (2004).Non-negative matrix factor deconvolution ; extraction of multiple sound sources from monophonic inputs.In Springer (Ed.), Proceedings of the 5th International Conference on Independent Component Analysis and Blind SignalSeparation (ICA 04), volume 3195 of Lecture Notes in Computer Science (pp. 494–499). Granada, Spain.
Smaragdis, P. & Brown, J. C. (2003).Non-negative matrix factorization for polyphonic music transcription.In IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (pp. 177–180). New Paltz, NY.
Sukittanon, S., Atlas, L. E., & Pitton, J. W. (2004).Modulation-scale analysis for content identification.IEEE Transactions on Signal Processing, 52(10), 3023–3035.
[email protected] 29 juin 2009 Soutenance de Stage 21/16
Etat de l’artContrôle de la parcimonie
RésultatsConclusion
Bibliographie IV
Vincent, E., Bertin, N., & Badeau, R. (2008).Harmonic and inharmonic nonnegative matrix factorization for polyphonic pitch transcription.In Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on (pp. 109 –112).
Welling, M. & Weber, M. (2001).Positive tensor factorization.Pattern Recognition Letters, 22(12), 1255–1261.
[email protected] 29 juin 2009 Soutenance de Stage 22/16