classification of videos on the internet
DESCRIPTION
It's about the classification of the videos on the internet. It is simple study that tries to classify 400 videos collected from Youtube using a new method of classification which is an assimilation of 2 methods well known in the domain (Knn, Clustering).TRANSCRIPT
Étude d’un classifieur hybride supervisé et non-supervisé pour la classification en genre des vidéos sur l’internet
• Introduction• État de l’art• Contribution• Classification• Expérimentations• Résultats• Conclusion• Perspectives
2
Plan de la présentation
Classification en genre des video sur l’internet – Hassan El HAJJ
Introduction
3Classification en genre des video sur l’internet – Hassan El HAJJ
• En générale, La classification en genre des vidéos est un problème compliqué
• La plupart ont choisit un type des vidéos (TV Programs, films, etc..)
• La classification des vidéos sur l’internet est totalement différente de la classification des vidéos sur TV.
• Les rechercheurs ont proposé :1. Méthode supervisée 2. Méthode non supervisée3. Amélioration de performance des méthodes déja
existantesMais tous ont adapté le problème pour avoir des résultats significatifs
4Classification en genre des video sur l’internet – Hassan El HAJJ
État de l’art
Contribution(1) Objectif et proposition
5Classification en genre des video sur l’internet – Hassan El HAJJ
• Approche différente de ce qui est dans l’etat de l’art en tant de:• Caractéristiques utilisées.• Nombre de classe • La construction du corpus• Proposer une hybridation de 2 méthodes• Faire une étude entre les 3 méthodes sous des
différentes conditions appliqués sur la collection d’apprentissage
Contribution(2) Construction du corpus
• Analyser 3000 vidéos sur YouTube et proposer une liste d’environ 40 genres.
• Récupérer pour chaque genre une liste de 10 vidéos pour avoir enfin une collection de test de 400 vidéos.
• Annoter manuellement les vidéos.
6Classification en genre des video sur l’internet – Hassan El HAJJ
7
Divertissements Horreur Jeux Farces Accident Magie
Compétition Publicité Mariage Cours incendies Talents
Technologie Monuments Religion Films Musique Journaux télévisés
Cours d’informatique Célébrités Illusion Armes Dessins animés Dance
Environnement Reportages Discours Sport Tourisme Guerre
Conférences Inventions Science Santé Animaux Finance
Commerciale Éducation Politique Marrant
Classification en genre des video sur l’internet – Hassan El HAJJ
Contribution(3) Les genres détérminés
Utiliser ffmpeg pour extraire les images et le son d’un vidéo Extraire des information visuelles:
Quantité de mouvement des pixels dans les images Quantité de gradient horizontale et verticale dans les
images Histogramme moyenne de toutes les images Surface moyenne des régions du texte dans les images Nombre moyen des visages par vidéo
8
Classification Extraction des descripteurs
Classification en genre des video sur l’internet – Hassan El HAJJ
Extraire des information audio: Quantité d’énergie globale dans le son, qui nous
indique si le son est fort ou pas(silence ou pas). Quantité d’énergie a 4 Hz(parole ou pas) Indicateur de musique
Toutes les méthodes utilisées sont un petit peu fine et frustes car elles ne donnent pas des résultats rigoureux
9
Extraction des descripteurs(2)
Classification en genre des video sur l’internet – Hassan El HAJJ
10
Fichier Descripteur
Classification en genre des video sur l’internet – Hassan El HAJJ
Classification - Clustering
11Classification en genre des video sur l’internet – Hassan El HAJJ
Fig. 1. La variation de coefficient de pureté en fonction le nombre cluster déterminé en appliquant une normalisation « minimum, maximum ».
Fig. 2. La variation de coefficient de pureté en fonction le nombre cluster déterminé en appliquant une normalisation « moyenne, écart-type ».
Fig. 3. La variation de coefficient de pureté en fonction le nombre cluster déterminé sans normalisation.
•Préférable de normaliser les données lorsqu’on travaille sur des variables différentes•Ici, la normalisation a pour effet de réduire la capacité de discriminance des classifieurs.
12
Classification - K plus proches voisins
Classification en genre des video sur l’internet – Hassan El HAJJ
• Diviser la collection des vidéos collectées en 2 parties, une partie pour les tests et l’autre pour etre la collection d’apprentissage.
• Utilisation d’une rang des valeurs de k après avoir analyser légèrement les descripteurs.
• On a introduit la notion « taux de précision » pour évaluer la performance de la méthode.
13
L’hybridation des 2 méthodes
Classification en genre des video sur l’internet – Hassan El HAJJ
• Combinaison entre KNN et Clustering
• Diviser la collection des données en 2 parties:• 200 vidéos comme collection d’apprentissage du clustering• Les autres comme collection d’apprentissage du KNN
• On regroupe les résultats de toutes les prédictions et on les utilise pour évaluer la précision de cette méthode en utilisant
le « taux de précision ».
14
ExpérimentationsSur toute la palette
Classification en genre des video sur l’internet – Hassan El HAJJ
K 38 30 20 17 13 10 6 5 4 3 2 1Taux
De précision
(%)
4.51 7.02 6.71 5.99 5.4 5.2 5.25 4 3.62 3.16 3.75 6
Tab 1. Résultats obtenus de l’hybridation des 2 méthodes avec différentes valeur de k dans le cas où la collection d’apprentissage est toute la palette collectée.
Fig. 4. La variation de coefficient de pureté en fonction le nombre cluster déterminé sans normalisation.
K 40 30 20 17 13 10 6 5 4 3 2 1Taux
De précision
(%)
9.92 9.84 11.8 11.2 11 10.5 10.1 11.2 10.5 10.3 9.5 11
Tab 2. Résultats obtenus de la méthode supervisée avec différentes valeur de k dans le cas où la collection d’apprentissage est toute la palette collectée
Sur 4 genres
15Classification en genre des video sur l’internet – Hassan El HAJJ
Fig. 5. La variation du coefficient de pureté en fonction le nombre cluster déterminé sans normalisation appliqué sur une collection d’apprentissage composée des 4 classes mentionnées ci-dessus.
K 12 11 10 9 8 7 6 5 4 3 2 1Taux
De précision
(%)
32.5 31.6 28.3 33.3 35 35 30 37.5 37.5 33.3 22.5 25
Tab 3. Résultats obtenus de l’hybridation des 2 méthodes avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 4 classes très discriminants
K 12 11 10 9 8 7 6 5 4 3 2 1Taux
De précision
(%)
35 40 37.5 39.1 37.5 36.6 40 42.5 40 36.6 30 40
Tab 4. Résultats obtenus de la méthode supervisée avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 4 classes très discriminants
Les genres utilisés sont : Cours d’informatique, Journaux télévisés, Commerciale, Dessins animés
16
Sur 2 genres peu discriminants
Classification en genre des video sur l’internet – Hassan El HAJJ
Fig. 6. La variation du coefficient de pureté en fonction le nombre cluster déterminé sans normalisation appliqué sur une collection d’apprentissage composée des 2 classes mentionnées ci-dessus
K 10 9 8 7 6 5 4 3 2 1Taux
De précision
(%)
50 60 55 60 55 50 55 50 50 50
Tab 5. Résultats obtenus de l’hybridation des 2 méthodes avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 2 classes peu discriminants
K 10 9 8 7 6 5 4 3 2 1Taux
De précision
(%)
50 60 55 60 50 60 60 70 55.5 70
Tab 6. Résultats obtenus de la méthode supervisée avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 2 classes peu discriminants
Les genres utilisés sont : Journaux télévisés, Reportages
17
Sur 2 genres très discriminants
Classification en genre des video sur l’internet – Hassan El HAJJ
Fig. 7. La variation du coefficient de pureté en fonction le nombre cluster déterminé sans normalisation appliqué sur une collection d’apprentissage composée des 2 classes mentionnées ci-dessus.
K 10 9 8 7 6 5 4 3 2 1Taux
De précision
(%)
50 80 70 70 65 60 65 70 65 60
Tab 7. Résultats obtenus de l’hybridation des 2 méthodes avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 2 classes très discriminants
K 10 9 8 7 6 5 4 3 2 1Taux
De précision
(%)
50 80 80 80 70 70 65.5 80 65 70
Tab 8. Résultats obtenus de la méthode supervisée avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 2 classes très discriminants
Les genres utilisés sont : Commerciale, Cours d’informatique
Résultats
18Classification en genre des video sur l’internet – Hassan El HAJJ
Méthode de classification
Taille dela collectiond’apprentissage
Clustering(en coefficient de
pureté)
K plus proche voisins
(en taux de précision)
Hybridation des 2 méthodes
(en taux de précision)
40 Classes 0.18 11.8% 7.02%
4 Classes 0.5 42.5% 37.5%
2 Classes peu discriminantes 0.6 70% 60%
2 Classes très discriminantes 0.6 80% 80%
Les résultats produits sont réalistes par rapport à la difficulté du problème et c’est à quoi il faut s’attendre si on cherche à déployer des méthodes de classification en genre sur ce type de donnés et sous ses conditions.
Ouvre la porte à la question : comment les méthodes existantes ont pu obtenir des résultats intéressants?
Simplement, ils n’ont pas attaqué le vrai problème Les chercheurs s’intéressent plus sur les méthodes que
les données
19
Conclusion
Classification en genre des video sur l’internet – Hassan El HAJJ
Travailler sur la manque de donnés en augmentant le corpus
Adapter les caractéristiques utilisées aux genres déterminés
Prendre en considération qu’un vidéo peut appartenir à différentes genres
Cependant, la catégorisation à grande échelle de vidéos sur l’internet reste un problème non résolu.
20
Perspectives
Classification en genre des video sur l’internet – Hassan El HAJJ
21
Questions ?
Classification en genre des video sur l’internet – Hassan El HAJJ
Merci pour votre attention