mécanismes d'attention visuelle sur rétine...

59
Mécanismes d'Attention Visuelle sur Rétine Artificielle Mémoire de stage de 2 ème année Master IPCC spécialité Image Université Paris V, René Descartes Présenté le 22 juin 2006 par Taha RIDENE Encadré par : Antoine MANZANERA Laboratoire d’Electronique et d’Informatique. ENSTA - 32 Boulevard Victor F75015 Paris

Upload: dinhminh

Post on 10-Sep-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Mécanismes d'Attention Visuelle sur Rétine Artificielle

Mémoire de stage de 2ème année Master IPCC spécialité Image

Université Paris V, René Descartes

Présenté le 22 juin 2006

par

Taha RIDENE Encadré par : Antoine MANZANERA

Laboratoire d’Electronique et d’Informatique. ENSTA - 32 Boulevard Victor F75015 Paris

Page 2: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 3: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Remerciements

Ce travail n’aurait pas pu voir le jour sans la contribution efficace de nombreux acteurs. Je tiens àremercier tout particulièrement mon encadrant Antoine Manzanera qui a été à l’origine de ce sujetet qui n’a cessé de me consacrer son temps précieux et ses conseils pertinents grâce à ses grandesqualités scientifiques et humaines.

Mes remerciements vont également à :

- Nicole Vincent, professeur responsable du Master IPCC à Paris V pour m’avoir accueilli etdirigé pendant la partie théorique du Master.

- Nicolas Loménie, enseignant au Master IPCC et encadrant de mon projet pendant la partiethéorique, pour sa disponibilité, son suivi et ses conseils qui m’ont apporté beaucoup pendant maformation et pour le choix de mon stage.

- Nicolas Burrus doctorant dans l’equipe rétine à l’UEI pour son aide et sa générosité.

Ils s’adressent enfin à tous ceux qui de près ou de loin, m’ont guidé, prêté attention et aidé àréaliser ce travail.

Page 4: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 5: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Résumé

L’attention visuelle est la capacité d’un système de vision, qu’il soit humain ou artificiel, à sélec-tionner rapidement les informations les plus pertinentes de l’environnement dans lequel il opèreOuerhani (2003). Le rôle principal de ce mécanisme est d’accélérer le processus de vision, en ré-duisant sensiblement la quantité d’informations visuelles qui sera traitée par les tâches de plushaut niveau. Cependant, les méthodes mises en oeuvre dans la littérature sont généralement trèscoûteuses en opérations de bas/moyen niveau. Les rétines numériques programmables, grâce à leurparallélisme massif, semblent bien adaptées pour de telles tâches. Dans ce mémoire, nous présen-tons les étapes d’implémentation d’un modèle informatique d’attention visuelle statique, inspirédes cartes de saillance de Itti and Koch (1998), sur la rétine artificielle PVLSAR34. La démarche al-gorithmique est donc massivement parallèle, et les traitements se basant fortement sur des notionsde multi-échelle, nous avons été amené à une implémentation du détecteur S.I.F.T à la fin du travail.

Mots clés : Attention visuelle, rétine artificielle, cartes de saillance, traitement multi-échelle, pointd’intérêt.

Abstract

The visual attention is the capacity of a system of vision, whether is human or artificial, to selectquickly the most relevant information of the environment in which it operates Ouerhani (2003).The leading part of this mechanism is to accelerate the process of vision, by reducing significantlythe quantity of visual information that will be treated by the tasks of higher level. However, themethods implementations in the literature are generally very expensive in operations of low/meanslevel. The programmable numeric retinas, thanks to their massive SIMD parallelism, seem adaptedwell for such tasks. In this report, we present the stages of implementation of a computer model ofstatic visual attention, inspired by the saliency maps by Itti and Koch (1998), on the artificial retinaPVLSAR34. The algorithmics is massively parallel, and treatments basing itself strongly on notionsof multi-scale, we were brought to an implementation of the detector S.I.F.T in the end of report.

Keywords : Visual attention, artificial retina, saliency map, Multi-scale Processing, interest point.

Page 6: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 7: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Table des matières

1 Etat de l’art sur l’attention visuelle 151.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.2 Le système visuel Humain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2.1 Principe de fonctionnement de l’oeil . . . . . . . . . . . . . . . . . . . . . . . . 161.2.2 Description de la rétine humaine . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3 Attention visuelle Humaine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3.1 Modèles de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.4 Diverses études de l’attention visuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Attention visuelle artificielle basée sur la saillance 212.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.2 Théorie d’intégration de primitives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3 Nature de primitives pré attentives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4 Combinaison des primitives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.5 Apport du Multi résolution et du multi échelle . . . . . . . . . . . . . . . . . . . . . . 22

2.5.1 Fondement du multi résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.5.2 Démarche Multi résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.5.3 Nature du filtre passe bas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.5.4 Structures Pyramidales (Multi échelles) . . . . . . . . . . . . . . . . . . . . . . 23

2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Rétine artificielle 263.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2 Les enjeux des rétines artificielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 La rétine PVLSAR34 (voir FIG. 3.3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4 Implantation massivement parallèle des filtres Gaussiens 324.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.2 Problématique et approche étudiée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.2.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.2.2 Convolution par moyenne itérées . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.3 Modèle itéré de gaussiennes centrées en 0 . . . . . . . . . . . . . . . . . . . . . . . . . 344.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.3.2 Algorithme Gauss1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.3.3 Complexité de l’algorithme Gauss1 . . . . . . . . . . . . . . . . . . . . . . . . 35

4.4 Modèle itéré de gaussiennes alternées . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Page 8: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

TABLE DES MATIÈRES 8

4.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.4.2 Algorithme Gauss2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.4.3 Complexité de l’algorithme Gauss 2 . . . . . . . . . . . . . . . . . . . . . . . . 36

4.5 Etude de compléxité sur PVLSAR34 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5 Modélisation informatique d’attention visuelle sur la rétine PVLSAR34 425.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.2 Description du modèle global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.3 Génération des cartes caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.3.1 Opérateur « centre-région contournante » center Surround . . . . . . . . . . . 425.3.2 Primitive Intensité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.3.3 Primitive Orientation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.3.4 Primitive Mouvement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.4 Génération des cartes d’évidence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.4.1 Normalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.4.2 Combinaison des cartes d’évidences . . . . . . . . . . . . . . . . . . . . . . . . 48

5.5 Etude de complexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6 Application du détecteur S.I.F.T sur PVLSAR34 516.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.2 Aperçu sur S.I.F.T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.3 Implantation sur PVLSAR34 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.3.1 Extraction des extréma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Page 9: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Table des figures

1.1 Schéma en coupe d’un oeil Humain . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.2 Schéma organisationnel d’une rétine humaine . . . . . . . . . . . . . . . . . . . . . . 161.3 L’image (b) montre les traces de la position du regard d’un sujet explorant la photo

(a).Le sujet humain n’explore pas l’image de façon ordonnée. Les yeux fonts dessauts, des saccades, entre les points d’intérêt, sur lesquels une fixation est maintenue. 17

2.1 Si on considère la primitive intensité seulement, on a un niveau de saillance uniformequi ne fait pas apparaître des points visiblement saillants. Par contre, si on ajoute laprimitive orientation, on aura une apparition d’un niveau de saillance non uniforme ;ce qui nous donnera des points visiblement saillants. Itti and Koch (1998) . . . . . . 22

3.1 Mode de fonctionnement en SIMD (Single Instruction Multiple Data) . . . . . . . . 273.2 Un pixel de la rétine Pvlsar 34. Organisation de la mémoire et principe de calcul de

l’Unité Booléenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.3 Un système à base de rétine programmable : la rétine peut-être vue comme une grille

de couples microprocesseur et capteur photosensible. Les processeurs exécutant tousla même instruction, les opérations mémoires reviennent à manipuler des plans debits (50 dans la dernière génération). Les opérations disponibles se réduisent à desdécalages de plans de bits et à des opérations booléennes entre plans. Le cortex peutdécider des instructions à envoyer et traite les données transformées par la rétine. . 29

4.1 Comportement d’un modèle gaussien par moyenne itérés, avec n = 8. . . . . . . . . 344.2 Simulation de l’algorithme de Gauss1 pour N = 4 . . . . . . . . . . . . . . . . . . . . 354.3 Simulation de l’algorithme de Gauss2 pour N = 3 . . . . . . . . . . . . . . . . . . . . 374.4 (a) Image originale (b) Image convoluée par le filtre Gauss1, noyau centré en 0 avec

portée spatiale = 4 voisins, nbr itération = 4. (c).Image convoluée par le filtre Gauss2,noyau alterné de portée spatiale = 4 voisins, nbr itération = 4. . . . . . . . . . . . . . 37

4.5 A gauche : Comportement des filtre en fonction de σ gaussien, le nombre d’itération= 4. A droite : Evolution du paramètre σ. Réspectivement pour Gauss1 [(a),(b)] etpour Gauss2 [(c),(d)]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.6 On passe d’une complexité globale de O(N2) 7→ O(N log N) . . . . . . . . . . . . . . . 39

5.1 Modélisation informatique d’attention visuelle basée sur les cartes de saillances. . . 435.2 (a) : Image Originale. (b) : Différence entre le Niveau 1 du cube gaussien avec

σ1 =′ 1.4017′ et le niveau 3 avec σ2 =′ 4.9940′. . . . . . . . . . . . . . . . . . . . . . . . 445.3 Les quatre cônes de directions obtenus par des tests de comparaison sur les mesures

de gradient DX et DY. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.4 Principe de la normalisation appliquée à deux primitives ayant des réponses diffé-

rentes en degrés de saillance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Page 10: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

TABLE DES FIGURES 10

5.5 Calcul du masque binaire des maximums locaux : A← C1 ∨ C2 ∨ C3 ∨ C4. Chandaet al. (1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

6.1 Genération des points d’intérêts par la rétine Pvlsar34, pour le niveau 3 de cubelaplacien, nous voyons bien les extréma selectionnés, mais on a toujours la présenced’un nombre non négligeable de fausses alarmes, et les résultats manquent de pré-cision, les causes essentielles sont dues au problèmes de bord, et à la petite plage dequantification sur 6 bits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Page 11: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Liste des tableaux

4.1 Compléxité de l’algorithme Gauss1 après 4 itérations . . . . . . . . . . . . . . . . . . 394.2 Compléxité de l’algorithme Gauss 2 après 4 itérations . . . . . . . . . . . . . . . . . . 39

5.1 Coût de calcul de la carte d’evidence à base d’intensité . . . . . . . . . . . . . . . . . 485.2 Coût de calcul de la carte d’evidence à base d’orientation . . . . . . . . . . . . . . . . 49

Page 12: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 13: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Introduction Générale

Il y a plusieurs facteurs qui influencent fortement la recherche actuelle en vision artificielle. D’unepart des nouvelles découvertes de la physiologie du cerveau humain (voire primate) apparaissentsans cesse, dont l’étude de l’attention visuelle humaine présente l’un des objets les plus intéressants.D’autre part et du coté architectural, les ordinateurs personnels (PC) sont de plus en plus puissantset de moins en moins chers, et les simulations coûteuses au niveau de complexité de traitementque ce soit séquentiel ou parallèle, deviennent maintenant faisables. Dans ce concept récemment,des travaux ont amené à la maturité des rétines artificielles, rapprochant les imageurs des rétinesbiologiques, en intégrant une puissance de calcul directement au niveau des capteurs.

Ce mémoire couvre deux approches principales, la première est liée à l’étude de l’attention vi-suelle, allant de la modélisation informatique bio-inspirée de ce mécanisme à sa réalisation entemps réel ; et la deuxième est une approche matérielle et algorithmique basée sur l’architecturecellulaire massivement parallèle des rétines artificielles, et son application pour résoudre des tâchespratiques liées à la vision par ordinateur.

Le travail a consisté à s’inspirer des modèles informatiques d’attention visuelle déjà développésKoch and Ullman (1985); Itti and Koch (1998); Ouerhani (2003), afin d’implanter un modèle atten-tionnel basé sur la saillance, sur une architecture massivement parallèle particulière, à savoir larétine PVLSAR34, le modèle considéré est basé sur un processus ascendant (bottum-up), avec unepossibilité de l’enrichir par un processus descendant (Top-down).

Ce mémoire présente l’ensemble du travail et des résultats obtenus au cours des quatre premiersmois du stage au laboratoire Electronique et informatique de l’ENSTA. Il s’articule autour du plansuivant. Un rapide état de l’art présentant le mécanisme d’attention visuelle humaine, suivi d’unedescription des fondements des modèles attentionnels artificiels basés sur la saillance, ensuitenous enchaînons par la description de la rétine artificielle PVLSAR34. Dans le chapitre quatre,nous exposons l’implantation massivement parallèle des filtres gaussiens, dans le chapitre cinq,le modèle de saillance auquel on a opté sur la rétine PVLSAR34 est détaillé. Dans le chapitre six,nous exposons une application en lien avec les notions multi-échelles des mécanismes d’attentionvisuelle, à savoir le détecteur de point d’intérêts S.I.F.T. Ce rapport se termine par une conclusionet des perspectives sur la suite du travail.

Page 14: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 15: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Chapitre 1

Etat de l’art sur l’attention visuelle

1.1 Introduction

L’étude de l’anatomie de l’oeil, et la compréhension des mécanismes de perception ont toujoursété un défi pour les chercheurs dans différents domaines, dont la vision par ordinateur, qui a pourbut la modélisation artificielle du comportement perceptif. L’un des mécanismes qui s’avère pri-mordial dans la réalisation du phénomène de la perception est celui de l’attention visuelle. Il a faitl’objet de diverses recherches ces deux dernières décennies.Dans ce chapitre on donnera un état de l’art sur les travaux se rapportant à l’attention visuelle, touten précisant l’analogie biologique liée à l’anatomie de l’oeil.

1.2 Le système visuel Humain

Avant de nous pencher sur les systèmes attentionnels en vision artificielle, observons le premiermaillon de la chaîne de traitement d’image : l’oeil.(voir FIG. 1.1)

F. 1.1 – Schéma en coupe d’un oeil Humain

Page 16: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

1.2 Le système visuel Humain 16

F. 1.2 – Schéma organisationnel d’une rétine humaine

1.2.1 Principe de fonctionnement de l’oeil

La cornée (membrane transparente) oriente les rayons lumineux vers le centre de l’oeil. L’imagesera mise au point et retournée par le cristallin (lentille biconvexe). L’iris, quant à lui, va permettrede recevoir la quantité de lumière nécessaire en se rétrécissant ou en s’agrandissant.La rétine transforme les rayons lumineux en excitations physiologiques qui sont transmises au nerfoptique par l’intermédiaire de liaisons nerveuses. Le nerf optique apporte l’influx au cerveau où ilest transformé en sensations chromatiques qui donnent naissance au phénomène de la vue.

1.2.2 Description de la rétine humaine

La rétine est formée de 3 couches distinctes :(voir FIG. 1.2)– La première, composée de cônes et de bâtonnets.

Les bâtonnets. Ils doivent leur nom à leur forme allongée. Ils sont environ 130 millions. Ilssont absents de la fovéa et se logent à la périphérie. Ils ont une très grande sensibilité à lalumière, d’où leur capacité à percevoir de très faibles lueurs la nuit (vision nocturne). Ils ontune très faible perception des détails et des couleurs car plusieurs dizaines de bâtonnets nesont liés qu’à une seule fibre du nerf optique. Ils contiennent une substance chimique appeléerhodopsine ou pourpre rétinien. Quand la lumière frappe une molécule de rhodopsine, celle-cigénère un faible courant électrique. Les signaux ainsi recueillis forment un message qui esttransmis aux cellules nerveuses de la rétine.Les cônes. Ils sont environ 5 à 7 millions à se loger dans la fovéa. Leur sensibilité à la lumièreest très faible mais leur perception des détails est très grande pour deux raisons : il y a unedensité très élevée de cônes dans la fovéa et surtout chaque cône de la fovéa transmet soninformation à plusieurs fibres du nerf optique : la vision est donc de jour. Ainsi ils ont une trèsbonne sensibilité aux couleurs. Ils sont de trois types selon le pigment qu’ils contiennent etont donc une sensibilité à des ondes lumineuses de longueurs différentes : cônes contenant del’erythropsine (sensibles au rouge), de la chloropsine (vert), de la cyanopsine (bleu).

– La seconde couche est appelée tâche jaune ou fovéa, c’est elle qui va permettre de déterminerle mouvement et le détail des couleurs. Le centre de la fovéa, appelé macula, est considérécomme le centre de la vison attentionnelle.

Page 17: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

1.3 Attention visuelle Humaine 17

F. 1.3 – L’image (b) montre les traces de la position du regard d’un sujet explorant la photo (a).Lesujet humain n’explore pas l’image de façon ordonnée. Les yeux fonts des sauts, des saccades, entreles points d’intérêt, sur lesquels une fixation est maintenue.

– La troisième couche est formée d’un grand nombre de cellules ganglionnaires terminées pardes fibres nerveuses reliées entre elles, il s’agit du nerf optique. A chaque cellule ganglionnairecorrespond un champ récepteur : région de la rétine à partir de laquelle on peut influencer unneurone. Les champs récepteurs sont modélisés comme la différence entre deux distributionsde Gaussienne, leurs donnant la forme d’un "chapeau mexicain").Dès 1952, deux types de cellules ganglionnaires ont été répertoriés : les cellules à centre ONe les cellules à centre OFF. Les cellules ganglionnaires permettent la détection de contours, etsont insensibles à l’orientation du stimulus.

Les interactions entre cellules dans la rétine s’effectuent dans un voisinage de plus en plus large,à mesure que l’on s’approche du nerf optique. Ces interactions permettent d’effectuer des calculslocaux multi résolution (voir Chap. 2). Cette manière de traiter l’information localement à l’intérieurde la rétine a inspiré une classe d’imageurs utilisée en traitement d’images : les rétines artificielles(voir Chap. 3).

1.3 Attention visuelle Humaine

Le déplacement attentionnel, réalisé chez l’homme par saccades oculaires, s’avère importantpour centrer l’image d’intérêt (objet) au centre du champ visuel (là où on dispose d’une grandedensité de récepteurs lumineux), et de cette façon centrer à la fois la répartition de cônes dans l’oeil,et la reconnaissance de patrons au centre de l’image.L’attention visuelle humaine est liée directement, avec les mouvements des yeux et joue le rôle desuperviseur, on dit que l’attention visuelle guide les mouvements d’oeil pour placer la fovéa surles parties les plus saillantes de la scène.(voir FIG. 1.3)

1.3.1 Modèles de base

Les travaux réalisés autour de l’étude de l’attention visuelle déclinent généralement deux mo-dèles attentionnels : un modèle d’attention ascendante (bottom-up), et un modèle d’attentiondescendante (top-down).

Page 18: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

1.4 Diverses études de l’attention visuelle 18

– Les modèles ascendants (Bottum-up)Ce sont des processus automatiques. Ils renvoient au fait que nous pouvons extraire, ou plu-tôt sélectionner de notre environnement (via nos sens), différentes informations qui ont êtreagencées vers notre cerveau pour y être décodées. Dans ces modèles, l’analyse des élémentssaillants se fait à partir des propriétés d’une scène : ce sont des modèles dont la finalité est dedécrire la façon dont l’oeil est attiré ou non par certains éléments de cette scène.En effet, même en l’absence de tâche à effectuer, notre regard se balade lors de l’observationd’une scène et décrit un parcours que ces modèles s’attachent à analyser et à définir.

– Les modèles descendants (Top-down)Ce sont des processus contrôlés. Dans certains cas c’est le cerveau lui-même qui envoie di-rectement l’information vers les systèmes sensoriels. En effet les perceptions peuvent êtreinfluencées par ce que l’on s’attend à voir ou par ce que l’on a en mémoire. Ainsi l’approchetop-down est une approche principalement dirigée par les concepts. C’est plutôt la connais-sance à priori qui va guider le processus de vision. Dans ces modèles, l’analyse d’une scène sefait à partir de patterns de reconnaissance et de stratégies d’exploration. En effet, les conditionsnaturelles donnent accès à une quantité considérable d’informations qui ne peuvent toutes êtretraitées par un individu ; cependant, l’homme a appris au cours de son évolution à sélection-ner les informations pertinentes en élaborant des modèles visuels du monde et en traitantla scène en de rapides analyses visuelles localisées. Typiquement, les modèles descendantssont ceux capables de décrire des stratégies visuelles dépendantes d’une tâche à effectuer.Chopra-Khullar a proposé à partir d’un graphe de scène dans Chopra-Khullar (1999) uneimplémentation permettant de générer un comportement visuel relatif à une tâche à effectuer.

1.4 Diverses études de l’attention visuelle

L’attention visuelle est la capacité d’un système de vision, qu’il soit humain ou artificiel, desélectionner rapidement les informations les plus pertinentes de l’environnement dans lequel ilopère. Le rôle principal de ce mécanisme est de réduire sensiblement la quantité d’informationsvisuelles qui sera traitée par des tâches complexes, telle que la reconnaissance d’objets, entraînantainsi l’accélération de l’ensemble du processus de la vision.

Diverses études de l’attention visuelle ont été menées durant ces 3 dernières décennies parrapport à différents domaines de recherche. Dans les année quatre-vingt trois modèles principauxissus d’observations psychophysiques sont proposés :

– le modèle sériel Treisman and Gelade (1980); Treisman and Sato (1990) ;– le modèle parallèle Pashler and Badgio (1985); Duncan and Humphreys (1989) ;– le modèle hybride de Wolfe Wolf et al. (1989)Pour la validation de ces modèles plusieurs études neuropsychologiques, pathologique ou d’ima-

gerie cérébrale ont été menées.En parallèle, des chercheurs comme Koch and Ullman (1985) se sont inspirés de ces modèles théo-riques pour une fin de modélisation informatique de l’attention visuelle humaine, en se basant surla théorie d’intégration de primitives Treisman and Gelade (1980), qu’on détaillera dans le chapitresuivant. Des études plus poussées, ont été élaborées par Itti and Koch (1998) pour la réalisationd’un modèle d’attention visuelle basé sur la saillance, qui sera le modèle de base pour la majoritédes modélisations informatiques suivantes comme celle de Itti (2000); Ouerhani (2003). On s’estinspiré, dans le cadre de notre étude, de ce modèle (voir Chap. 5).

Page 19: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

1.5 Conclusion 19

1.5 Conclusion

Nous avons présenté dans ce chapitre un bref état de l’art sur l’attention visuelle qui a été étudiéedans différents domaines de recherche. En tant que membres du comité de vision par ordinateur,nous nous focaliserons dans le chapitre suivant sur les cartes informatiques d’attention visuellebasées sur la saillance. Elle sera notre modèle de base dans le travail présenté dans ce rapport.

Page 20: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 21: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Chapitre 2

Attention visuelle artificielle basée sur lasaillance

2.1 Introduction

Inspirée des observations du comportement visuel humain, l’attention visuelle a été étudiée dansdifférents domaines, la psychologie, la psychophysique et la neurophysiologie, ces études ont guidél’inspiration des modèles informatiques de l’attention visuelle, le modèle de base qui à l’originede la réalisation d’une multitudes de dispositifs matériels et logiciels est celui basé sur la saillance.Dans ce chapitre nous présenterons le modèle de base de saillance, ainsi que différentes théories etformalismes intervenants.

2.2 Théorie d’intégration de primitives

La théorie d’intégration de primitives, développée par Treisman and Gelade (1980), a été l’un desmodèles psychologiques les plus influents sur le développement du modèle d’attention visuelledurant ces deux dernières décennies. Selon Treisman, dans une première étape au traitementvisuel, plusieurs primitives visuelles primaires sont traitées et représentées avec les cartes séparéesde primitives. Celles-ci sont intégrées plus tard dans une carte de saillance 1, pouvant être utiliséepour diriger l’attention vers les secteurs les plus remarquables.

2.3 Nature de primitives pré attentives

Un élément visuellement saillant est un élément qui ressort prioritairement lors de la perceptionvisuelle d’une scène, au point de prendre une importance cognitive particulière. L’une des manièresde ressortir les degrés de saillances des différents éléments d’une scène observée, est d’en extraireles primitives pré attentives qui la caractérisent, pour ensuite combiner les différents degrés desaillances par un système de votes. Les expériences ont indiqué plusieurs primitives pré attentives,y compris :

– L’orientation Julesz and Bergen (1983); DeValois et al. (1982); Tootell et al. (1988) ;– La couleur (teinte) Bauer et al. (1996); Engel et al. (1997); Luschow and Nothdurft (1993) ; La

pertinence de la primitive couleur a été évaluée dans Timothée et al. (2005) ;1Un élément visuellement saillant, c’est un élément qui ressort prioritairement lors de la perception visuelle d’une

scène, au point de prendre une importance cognitive particulière.

Page 22: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

2.4 Combinaison des primitives 22

F. 2.1 – Si on considère la primitive intensité seulement, on a un niveau de saillance uniformequi ne fait pas apparaître des points visiblement saillants. Par contre, si on ajoute la primitiveorientation, on aura une apparition d’un niveau de saillance non uniforme ; ce qui nous donnerades points visiblement saillants. Itti and Koch (1998)

– L’intensité Beck et al. (1983); Leventhal (1991); Treisman and Gormican (1988) ;– Le clignotement Julesz and Bergen (1971) repris par Laurent Itti dans Itti and Baldi (2005) ;– Le mouvement Driver et al. (1992); Nakayama and Silverman (1986); Rapantzikos et al. (2004).Ensuite, après l’étape d’extraction de ces primitives pré attentives, leur sélection et combinaison

seront la base de la génération des cartes d’attention visuelle à base de saillance.

2.4 Combinaison des primitives

Dans un processus de vision, le résultat de l’observation attentionnelle d’une scène va différerselon le type de cette observation, c’est à dire selon la primitive considérée. Le mécanisme decombinaison des primitives a comme but de donner aux éléments de la scène observée différentsdegrés de saillances selon différentes natures de primitives.

Ces primitives sont intégrées finalement par un système de vote, ou bien par des techniques desommation dans une carte de saillance finale reflétant une réponse de degrés d’intérêt globale ausens de primitives.

Un élément d’une scène peut avoir un degré de saillance bas par rapport à une primitive 1, etélevé par rapport à une primitive 2. L’intérêt de la combinaison, est d’un côté de compenser le degréde saillance dans la primitive à faible réponse (primitive 1), et d’un autre côté d’atténuer le degrés desaillance correspondant à une forte réponse (primitive 2). (voir FIG. 2.1) A partir de ce formalisme,le degré de saillance accordé à un élément de la carte finale est d’autant plus élevé que le nombrede primitives pour lesquelles l’élément ressort prioritairement est grand.

2.5 Apport du Multi résolution et du multi échelle

Le modèle de base de saillance présenté dans Itti and Koch (1998) et tout les modèles qui endérivent se basent sur les techniques Multi résolution dans la phase de l’extraction des différentes

Page 23: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

2.5 Apport du Multi résolution et du multi échelle 23

primitives. Une description détaillée de ces techniques et leurs fondements est présentée dans cequi suit.

2.5.1 Fondement du multi résolution

Witkin fut un des premiers chercheurs à établir les fondements de l’analyse multi résolutionWitkin (1983, 1984). Il a trouvé qu’on pouvait caractériser complètement un signal en étudiant lasignature des passages par zéro de la dérivée seconde en fonction de l’échelle d’espace. Les résultatsdes travaux de Witkin ont été étendus aux images bidimensionnelles Yuille and Poggio (1986)

2.5.2 Démarche Multi résolution

A pleine résolution, l’image comporte beaucoup trop de détails. Beaucoup de primitives détec-tées à haute résolution correspondent à du bruit de numérisation et de saisie de données et necorrespondent donc pas à des primitives physiques de la scène.

La convolution de l’image par un filtre passe-bas nous fait passer à un niveau de résolutiongrossière qui ne contient que les primitives de grande échelle spatiale contenues dans la scèneobservée. Les primitives détectées sont moins nombreuses, et sont moins bien localisées à causede l’effet de diffusion du filtre passe-bas, par contre ces primitives en général correspondent à desprimitives physiques.

Une description complète de la scène sera donc obtenue en procédant à une analyse multirésolution : les primitives détectées dans l’image et qui correspondent à des primitives physiquesde la scène sont trouvées aux niveaux de résolution plus grossiers, et leur position spatiale estprécisée en projetant les primitives détectées au niveau de représentation à pleine résolution.

2.5.3 Nature du filtre passe bas

La génération des images à multiples résolutions spatiales requiert l’utilisation d’un filtre passe-bas. Toute la théorie de l’analyse multi résolution repose sur la prémisse qu’aucune primitive n’estgénérée lorsqu’on se dirige vers les plus basses résolutions le long de l’échelle d’espace. Il fautdonc que le filtre passe bas ne génère pas de nouvelles primitives lorsque la résolution est baissée.Witkin avait trouvé que le filtre gaussien répond à cette exigence sévère pour les signaux à unedimension. Babaud et al. (1986) ont démontré que le filtre gaussien est le seul filtre parmi une trèslarge classe à assurer le principe de causalité 2. Yuille and Poggio (1986) ont étendu cette unicité dufiltre gaussien aux images. En 1D le filtre gaussien se présente par la formule suivante :

Gσ(x) =1√

2πσexp−

x2

2σ2 (2.1)

2.5.4 Structures Pyramidales (Multi échelles)

Le sous-échantillonnage de l’image filtrée a donné naissance à une catégorie de structures dedonnées très compacte, les pyramides Burt and Adelson (1983); Burt (1984); Hummel (1987). Une

2 Principe de causalité : Le signal doit être de plus en plus simplifié lorsque l’échelle augmente et ne doit pas faireapparaître de nouvelles structures

Page 24: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

2.6 Conclusion 24

pyramide est une représentation multi résolution, qui ne nécessite que 33 % de neurones addition-nels par rapport à l’image à pleine résolution.

Une structure pyramidale offre essentiellement les avantages suivants :– Représentation compacte : La structure ne nécessite que 33 % d’espace en mémoire en plus

que l’image à pleine résolution. Cette grande compacité provient du sous échantillonnage àchaque niveau de la pyramide qui divise par quatre les dimensions de l’image résultante parrapport aux dimensions de l’image au niveau précédent.

– Filtrage simple et rapide : Chaque niveau de la pyramide est généré à partir du niveau précédenten appliquant toujours le même filtre passe-bas.

– Information globale disponible : À mesure que l’on monte le long de la pyramide, les pixelsont un champ récepteur de plus en plus grand sur la couche de base. Cette information, deplus en plus globale pourrait être utilisée, par exemple, pour fixer des niveaux de seuil quitiendraient compte de propriétés communes à toute l’image.

La représentation pyramidale approxime bien la représentation multi résolution formelle, maisà un coût et une complexité de calcul beaucoup moindres.

Meer (1988, 1989) s’intéresse quant à lui à des structures pyramidales sans sous échantillonnage :les images aux différents niveaux de la pyramide sont de mêmes dimensions que l’image de baseà pleine résolution. L’efficacité de calcul offerte par les structures pyramidales est retenue, puisqueles images aux différents niveaux de résolution sont générées par un même filtre de petite tailleappliqué entre chaque niveau. C’est cette approche que nous tiendrons pour notre application (voirChap. 5).

Enfin, quelques travaux utilisent le rapport ou encore la différence entre deux niveaux consécutifsde la pyramide pour générer les images d’arêtes multi résolution. On peut citer les travaux deCrowley (1984); Toet (1989), ou bien pour la génération des cartes de sélection de saillance, Itti andKoch (1998).

2.6 Conclusion

Nous avons a présenté dans ce chapitre les formalismes de base sur lesquels se fonde le modèle dela saillance, à savoir l’extraction de primitives et les notions de multi résolutions. Dans le chapitrequi suit, nous ferons le point sur notre dispositif matériel Pvlsar 34.

Page 25: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 26: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Chapitre 3

Rétine artificielle

3.1 Introduction

En étudiant le système visuel humain, une multitude de chercheurs s’est intéressée au rôleprincipal que joue la rétine dans un processus de vision. La manière de traiter l’informationlocalement à l’intérieur de la rétine a été l’inspiration dans le domaine de la vision par ordinateur,pour la réalisation d’une classe d’imageurs, les rétines artificielles.

Dans ce chapitre nous donnerons un bref aperçu sur les rétines artificielles, et nous présenteronsnotre dispositif matériel : la rétine PVLSAR34. (voir FIG. 3.3)

3.2 Les enjeux des rétines artificielles

Avant de présenter notre modèle rétinien matériel, nous ferons le point sur les enjeux et lescontraintes de rétine artificielle.

– Avantages des rétines synchrones :Vitesse de traitement. Le premier enjeu des rétines artificielles est d’effectuer, au niveau dupixel, des calculs de moyens/bas niveaux à grande vitesse pouvant dépasser les contraintestemps réel. Néanmoins avec les PC puissants de nos jours, ces traitements peuvent êtres réalisésen temps réel, sans avoir recours aux rétines artificielles.Consommation d’énergie. Le deuxième enjeu des rétines artificielles est la faible consomma-tion d’énergie. Cela s’explique par l’emplacement des processeurs de traitement synchroneau sein même du pixel, ce qui permet d’éviter les transferts massifs de données sur longuedistance, et donc d’éviter le goulot d’étranglement au niveau des entrées/sorties d’un capteurcomme une caméra.Adaptation au systèmes embarqués. L’encombrement réduit de ces rétines artificielles en faitdes éléments très adaptés pour des systèmes embarqués ou de petite taille.

Ces enjeux majeurs des rétines artificielles nous donneront la possibilité, dans le cadre del’étude de l’attention visuelle, de générer un grand nombre de primitive bas-moyen niveau,avec une vitesse supérieure au temps réel, ce qui nous laissera du temps pour la combinaison.

– Limites des rétines synchrones :Coût élevé de fabrication. L’intérêt d’une implantation pixellique d’opérateur de traitementd’image est de réduire la consommation d’énergie du circuit. La limitation majeure est en

Page 27: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

3.3 La rétine PVLSAR34 (voir FIG. 3.3) 27

F. 3.1 – Mode de fonctionnement en SIMD (Single Instruction Multiple Data)

revanche d’augmenter la taille du pixel par ajout des fonctions à l’intérieur de celui-ci, ce quiaccroît le coût de fabrication.Limite du SIMD. Les rétines artificielles synchrones travaillent en mode de parallélisme massif(SIMD) (voir FIG. 3.1). Ce mode de fonctionnement présente une incapacité à l’implémentationdes opérateurs de traitement régional comme le calcul d’un maximum régional par exemple.

On verra que cette deuxième limitation peut être contournée par des techniques algorith-miques, en dépit d’un plus grand nombre d’opération de calcul.

3.3 La rétine PVLSAR34 (voir FIG. 3.3)

De nombreux modèles analogiques ou numériques ont été développés selon ce principe, on seréférera par exemple à (Paillet,2001) pour une étude comparative détaillée.

La rétine numérique PVLSAR34 développé à l’ENSTA par Thierry Bernard (2004) est une machinemassivement parallèle de 40 000 processeurs interconnectés selon une grille 2d 200x200 en topologie4-connexe.

Le mode de parallélisme est purement SIMD (Single Instruction Multiple Data) (voir FIG. 3.1).Toute la grille est commandée par un séquenceur externe qui envoie une séquence d’instructions àla rétine selon une fréquence fixe, et à chaque pas de calcul, tous les 40 000 processeurs exécutentexactement la même instruction. Un programme rétinien est donc entièrement défini par la séquenced’instructions envoyée par le séquenceur.

Chaque processeur est doté :– D’une mémoire numérique d’environ 50 bits dont la vocation est de représenter les données

d’un pixel (voir FIG. 3.2) ;– D’un photocapteur et d’un mécanisme de conversion analogique-numérique qui lui permet

Page 28: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

3.3 La rétine PVLSAR34 (voir FIG. 3.3) 28

F. 3.2 – Un pixel de la rétine Pvlsar 34. Organisation de la mémoire et principe de calcul de l’UnitéBooléenne

de coder dans sa mémoire une grandeur numérique représentant une intensité lumineuse ;– D’une unité de calcul permettant de lire, combiner de manière logique et écrire des données

numériques à partir de et vers sa mémoire.Chaque couple de processeurs adjacents au sens de la 4-connexité partage une partie de leur

mémoire, ce qui permet de communiquer des données entre pixels voisins. Au niveau du jeud’instruction chaque processeur peut effectuer des opérations booléennes simples ("ET", "NON","OU", etc.).

Cet environnement matériel, qui nous semble un peu limité, a fait preuve d’une possibilité ou-verte de réalisation de grand nombre d’opérateurs de bas-moyen niveau. On peut citer la détectionde mouvement Manzanera and Richefeu (2004), la morphologie mathématique Manzanera (2000)et aussi la détection de segments significatifs Burrus and Bernard (2006). Paradoxalement, en plusde l’apport en termes de performance, le cadre rétinien, en restreignant le cadre de réflexion, apermis le développement d’algorithmes nouveaux et intéressants également sur une architectureclassique.

Pour l’instant, seules des opérations locales ont pu être implémentées. Mais une nouvelle généra-tion de rétines Gies (2005) apportera des primitives régionales. La principale amélioration consisteà rendre les connexions entre pixels programmables de manière à définir des régions connectées.Ensuite, des calculs régionaux peuvent être effectués : le plus simple étant la somme des valeursdes pixels sur une région. Ces calculs sont menés de façon asynchrone, permettant à chaque régionde travailler indépendamment.

Page 29: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

3.3 La rétine PVLSAR34 (voir FIG. 3.3) 29

+CPU

BooléenCapteur

photosensible

Lumière

Cortex : processeur

scalaire

Commandes

Descripteur scalaire(via sommateur)

ouimage sérialisée

Plans de bits

- Architecture SIMD

- 50 bits de mémoire

- Opérations booléennes locales : chaque pixel peut accéder à ses 4 voisins

- Sommation analogique

F. 3.3 – Un système à base de rétine programmable : la rétine peut-être vue comme une grillede couples microprocesseur et capteur photosensible. Les processeurs exécutant tous la mêmeinstruction, les opérations mémoires reviennent à manipuler des plans de bits (50 dans la dernièregénération). Les opérations disponibles se réduisent à des décalages de plans de bits et à desopérations booléennes entre plans. Le cortex peut décider des instructions à envoyer et traite lesdonnées transformées par la rétine.

Page 30: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

3.4 Conclusion 30

3.4 Conclusion

Nous avons présenté dans ce chapitre une classe particulière d’imageurs, utilisés dans lavisonpar ordinateur, a savoir les rétines artificielles, ainsi que notremodèle spécifique PVLSAR34. Letravail qui sera présenté dans la suite de ce rapport sera lié à notre dispositif rétinien, tout enenvisageant des améliorations qui peuvent être apportées par une extension en asynchronismedans les rétines futures.

Page 31: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 32: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Chapitre 4

Implantation massivement parallèle desfiltres Gaussiens

4.1 Introduction

Ce chapitre résume les réflexions menées pour l’implantation du filtre Gaussien, adapté à unereprésentation multi-échelle.

Les méthodes d’implémentation sont basées sur le parallélisme massif de la rétine PVLSAR34, lerésultat doit être similaire à celui obtenu sur un PC opérant en séquentiel, par contre la démarcheest totalement différente. L’évaluation du travail se fait par une étude de la complexité par rapportà deux critères, à savoir le coût en temps et le coût en mémoire.

4.2 Problématique et approche étudiée

4.2.1 Problématique

Une des bases des modélisations informatiques des mécanismes d’attention visuelle est la géné-ration d’une pyramide gaussienne, et ce fait présentait pour nous un obstacle à franchir car notrearchitecture est massivement parallèle, et le passage à une forme pyramidale dyadique1 paraittrès difficile et peu efficace. Une solution pour laquelle on a opté est d’utiliser une forme pyrami-dale particulière à savoir le « Cube gaussien » (voir Chap.2), ce qui suggère l’utilisation de filtresgaussiens présentant une large gamme d’écart-types.

Suite à notre étude des différentes possibilités d’implantation de gaussienne, et en faisant le lienavec les contraintes de calcul et de mémoire de PVLSAR34, nous avons été amenés aux conclusionssuivantes :

– La convolution FIR2 : Présente un problème lorsque sigma augmente en plus des problèmescalculatoires liés à la division classique sur la Rétine PVLSAR34

– La transformée de Fourier : Demande une grande dynamique de représentation, qu’on peutpas se permettre puisque nos images sont codées sur 6 bits, en plus de la nécessité d’opérationscomplexes inadaptées à notre architecture.

– L’implantation récursive : fondée sur un balayage de l’image, elle est totalement inadaptée àun parallélisme de données comme celui de la rétine.

1Une pyramide est dite dyadique si le passage d’un niveau (i) à un niveau (i + 1) se fait avec le rapport 1/4 .2FIR (Finite Impulse Response) : convolution avec un filtre à réponse impulsionnelle finie.

Page 33: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

4.2 Problématique et approche étudiée 33

On s’est fixé en fin de compte, au développement d’un filtre gaussien par convolution de moyenneitérées, qui paraît clairement l’implantation la plus efficace sur une machine SIMD cellulaire, unespécification détaillée est présentée dans ce qui suit.

4.2.2 Convolution par moyenne itérées

Vu les contraintes de calcul liées à notre dispositif matériel, pour trouver une équivalence entreles gaussiennes classiques et les gaussiennes adaptées à notre architecture on s’est penché surle théorème central Limite T.Young et al. (1998) prouvant que les convolutions itérées par des «fonction porte » (moyennes) convergent vers une gaussienne (voir FIG.4.1).

Dans le domaine spatial :

gσ(x) =1√

2πσexp−

x2

2σ2 (4.1)

mn(x) ={

1/n si x ∈] − n/2,n/2[0 sinon (4.2)

Dans le domaine fréquentiel :

Gσ(w) = exp−σ2w2

2(4.3)

Mn(w) =sin(πnw)πnw

(4.4)

La convolution itérée p fois par la fonction porte Mn(w) correspond dans le domaine fréquentiel àla fonction :

Mpn(w) = (

sin(πnw)πnw

)P (4.5)

Ou, généralement, si on utilise K fonctions portes différentes Mn j itérées p j fois, on aura :

Mp jn j

(w) =∏

j∈[1···K]

(sin(πn jw)πn jw)

)P j (4.6)

4.2.2.1 Q1

Connaissant σ, trouver les meilleurs (n,p) pour approximer gσ(x) ?La réponse est donnée par :

(n, p) = Argmin(n,p)

∫(Gσ(x) −Mn(w)p)2 dw (4.7)

Page 34: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

4.3 Modèle itéré de gaussiennes centrées en 0 34

F. 4.1 – Comportement d’un modèle gaussien par moyenne itérés, avec n = 8.

4.2.2.2 Q2

Connaissant (n,p) caluler le σ équivalent ?Si on suppose que Mn(w)p est une approximation de gaussienne, il suffit de calculer la variance :

V =

∫(w2(Mn(w))pdw∫

(Mn(w))pdw(4.8)

Dans ce qui suit sont présentés les filtres gaussiens qu’on a développé sur l’architecture parallèlede PVLSAR34.

4.3 Modèle itéré de gaussiennes centrées en 0

4.3.1 Principe

Calcul d’un filtre gaussien par itération de moyennes locales sur un voisinage de plus en plusgrand, avec un pas exponentiel. Le pixel central n’est pas pris en considération pour simplifier lecalcul de division en ayant toujours un nombre de valeurs égal à une puissance de 2.

4.3.2 Algorithme Gauss1

Donnée :Direction = (Horizontale, Verticale)N = Log(échelle spatiale)S← 1 ; Dec← 1

Pour i : 1 Jusqu’à N-1S1← S+S(x+Dec,y)

Page 35: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

4.3 Modèle itéré de gaussiennes centrées en 0 35

F. 4.2 – Simulation de l’algorithme de Gauss1 pour N = 4

Dec← Dec*2S← S1

fin PourS← S1(x - Dec, y) + S1(x+1,y)S← S / 2N

Une simulation de l’algorithme Gauss 1 est illustrée dans (FIG. 4.2).

4.3.3 Complexité de l’algorithme Gauss1

Complexité en cycles rétines :

C(Gauss1) v 232 +N∑

i=1

[(2i∗ 112) + 2442] (Cycles) (4.9)

Problème de cette méthode Cette méthode présente un faiblesse au niveau de l’itération de cenoyau : [ 1

2012 ] et le résultat ne converge jamais, on aura un comportement en cascade différent d’une

gaussienne.(voir FIG. 4.5 (a))

Page 36: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

4.4 Modèle itéré de gaussiennes alternées 36

4.4 Modèle itéré de gaussiennes alternées

4.4.1 Principe

Pour pallier au problème du Filtre Gauss1, une solution possible donnée par le Filtre Gauss2est d’itérer une suite de moyenne alternée, tout en prenant en considération le pixel central. Parexemple : Filter_G : [01

212 ] et Filter_D : [1

2120]

4.4.2 Algorithme Gauss2

Donnée :Sens = (Droite, Gauche, Nord, Sud)N = Log(échelle spaciale)

Si sens = DroiteS← 1 ; Dec← 1Pour i : 1 Jusqu’à N-1

S1← S+S(x-Dec,y)Dec← Dec * 2S← S1

fin PourS← S1(x + Dec, y)

Si sens = GaucheS← 1 ; Dec← 1Pour i : 1 Jusqu’à N-1

S1← S+S(x+Dec,y)Dec← Dec * 2S← S1

fin PourS← S1(x - Dec, y)

S← S / 2N

De même pour : (Nord,Sud)

Une simulation de l’algorithme Gauss 1 est illustrée dans (FIG. 4.2).

4.4.3 Complexité de l’algorithme Gauss 2

Complexité en cycles rétines :

C(Gauss1) v 100 +N∑

i=1

[(2i∗ 112) + 2442] (Cycles) (4.10)

Page 37: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

4.4 Modèle itéré de gaussiennes alternées 37

F. 4.3 – Simulation de l’algorithme de Gauss2 pour N = 3

(a) (b) (c)

F. 4.4 – (a) Image originale (b) Image convoluée par le filtre Gauss1, noyau centré en 0 avec portéespatiale = 4 voisins, nbr itération = 4. (c).Image convoluée par le filtre Gauss2, noyau alterné deportée spatiale = 4 voisins, nbr itération = 4.

Page 38: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

4.4 Modèle itéré de gaussiennes alternées 38

(a) (b)

(c) (d)

F. 4.5 – A gauche : Comportement des filtre en fonction de σ gaussien, le nombre d’itération = 4.A droite : Evolution du paramètre σ. Réspectivement pour Gauss1 [(a),(b)] et pour Gauss2 [(c),(d)].

Page 39: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

4.5 Etude de compléxité sur PVLSAR34 39

F. 4.6 – On passe d’une complexité globale de O(N2) 7→ O(N log N)

Noyau Nombre de cycle Temps CPU (ms) Sigma équivalent[1

2 0 12 ] en X et en Y 21648 5.075 Pas de Convergence

[ 14

14 0 1

414 ] en X et en Y 44928 9.435 3.5744

1/8 * [1 . . .1 1 0 1 1 . . . 1] en X et en Y 72080 14.43 5.88821/16 * [1 . . .1 1 0 1 1 . . . 1] en X et en Y 106976 20.43 10.50781/32 * [1 . . .1 1 0 1 1 . . . 1] en X et en Y 157360 28.63 19.7455

T. 4.1 – Compléxité de l’algorithme Gauss1 après 4 itérations

4.5 Etude de compléxité sur PVLSAR34

L’étude de compléxité a été réalisée sur PVLSAR34 fonctionnant à une fréquence de 5Mhz.Le nombre d’itération retenu est 4, équivalent à un niveau de convergence pour les différentes

portées spatiales allant de 217→ 25, ayant comme résultat cinq niveaux de gaussienne.

Compléxité Globale théorique (voir FIG.4.6)Deux illustrations du coût en temps de calcul des l’algorithmes Gauss1 et Gauss2 sont respecti-

vement présentées dans (TAB.4.1 et TAB. 4.2)

4.6 Conclusion

Nous avons présenté dans ce chapitre l’implantation massivement parallèle des Gaussiennes,ainsi on a développé deux algorithmes parallèles basés sur la génération de filtre gaussien paritération de moyennes, ayant comme particularité un gain important en complexité (O(N2) �O(NlogN)).

Noyau en X et en Y Nombre de cycle Temps CPU (ms) Sigma équivalent[1

212 0] VS [01

212 ] 20592 4.655 1.4017

[0 14

14

14

14 ]VS [1

414

14

14 0] 43872 9.015 2.6503

1/8 * [1 ..1 1 . . 1 0] VS1/8 * [1 ..1 1 .. 1 0] 71024 13.91 4.99401/16 * [0 1 ..1 1 .. 1] VS 1/16 * [1 ..1 1 .. 1 0] 105920 20.01 9.62781/32 * [0 1 ..1 1 .. 1] VS 1/32 * [1 ..1 1 .. 1 0] 156304 28.21 18.8725

T. 4.2 – Compléxité de l’algorithme Gauss 2 après 4 itérations

Page 40: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

4.6 Conclusion 40

Dans le chapitre qui suit, nous donnons un aperçu sur le modèle informatique d’attention visuellebasé sur la saillance, que nous avons adopté.

Page 41: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 42: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Chapitre 5

Modélisation informatique d’attentionvisuelle sur la rétine PVLSAR34

5.1 Introduction

Dans ce chapitre on donnera une description globale du modèle informatique d’attention visuellebasé sur la saillance correspondant au modèle de Itti and Koch (1998), que nous avons adopté parrapport à notre environnement matériel.

5.2 Description du modèle global

Comme avec la théorie de contrôle de l’attention bottom-up présentée dans Koch and Ullman(1985), le modèle comporte trois étapes principales. Tout d’abord l’extraction des cartes de carac-téristiques, ensuite la génération des cartes d’évidence, et enfin l’intégration des cartes d’évidencedans une carte de saillance.

Les primitives que nous avons choisi d’extraire sont l’intensité et l’orientation pour une intégrationd’une carte de saillance statique. L’absence de la couleur est justifiée par le fait que PVLSAR34 estune rétine à niveaux de gris. Dans une étape à suivre un module d’estimation de mouvement seradéveloppé pour intégrer une carte de saillance dynamique.

La figure 5.1 illustre le modèle global de saillance considéré. Nous détaillerons dans ce qui suitchaque composante de ce modèle.

5.3 Génération des cartes caractéristiques

L’extraction de certaines caractéristiques d’une image se fait en calculant des cartes, dites de ca-ractéristiques, qui représentent l’image de départ suivant une ou plusieurs primitives pré attentives(voir Chap. 2). Ainsi, on obtient une représentation multi-caractéristiques de la scène. Chacune deces cartes est calculée par un ensemble d’opérations, définies sous le terme "center Surround".

5.3.1 Opérateur « centre-région contournante » center Surround

Ce nom a été donné pour la raison suivante : les neurones visuels sont plus sensibles à une petiterégion de l’espace visuel (le centre), alors que le signal présent autour (région contournante) inhibela réponse neuronale (par exemple cellule ON-OFF). Dans le cas d’une ligne horizontale entourée

Page 43: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

5.3 Génération des cartes caractéristiques 43

F. 5.1 – Modélisation informatique d’attention visuelle basée sur les cartes de saillances.

Page 44: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

5.3 Génération des cartes caractéristiques 44

(a) (b)

F. 5.2 – (a) : Image Originale. (b) : Différence entre le Niveau 1 du cube gaussien avec σ1 =′ 1.4017′

et le niveau 3 avec σ2 =′ 4.9940′.

par des lignes verticales, la réponse en cet endroit sera plus grande que si elle était entourée pardes lignes horizontales. L’opérateur « centre - région contournante » comporte deux étapes :

– Construction d’une représentation pyramidale discrète de l’image, dans notre cas c’est le cubegaussien

– Calcul de la différence entre les niveaux fins et les niveaux grossiers de cette représentationmulti résolution =⇒ obtention d’un cube de laplacien de gaussiennes.

Le nombre de niveaux de notre représentation multirésolution est limité à 6, en prenant en comptel’image originale de niveau 0. (voir Chap. 4) . Dans notre modèle, le centre est un pixel appartenantau niveau c ∈ {0, 1, 2} du cube gaussien, et la région contournante le pixel correspondant au niveaus = c + δ avec δ ∈ {2, 3}.

L’opérateur « center surround » est appliqué aux primitives intensité et orientation.

5.3.2 Primitive Intensité

Pour la primitive intensité nous appliquons l’opérateur « center surround » en prenant commeentrée en première étape le Cube gaussien. La deuxième étape de différentiation est obtenue par laformule 5.1, ce qui a pour résultat 6 cartes caractéristiques.

I(c, s) = |I(c) − I(s)| (5.1)

Seul le module du signal est gardé afin de ne tenir compte que de la valeur absolue du contrasted’intensité, une illustration est présentée dans la figure 5.2.

Page 45: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

5.3 Génération des cartes caractéristiques 45

F. 5.3 – Les quatre cônes de directions obtenus par des tests de comparaison sur les mesures degradient DX et DY.

5.3.3 Primitive Orientation

Dans le développement de la primitive Orientation, les travaux précédents présentaient tou-jours les filtres de Gabor 1 comme alternative Itti and Koch (1998); Itti and Baldi (2005); Ouerhani(2003), alors qu’en raison des problèmes architecturaux auxquels nous somme confrontés, nousnous sommes inspirés des travaux de Burrus and Bernard (2006), pour l’extraction des primitivesorientation.

Les étapes d’extraction de la primitive orientation sont les suivantes :– En entrée Cube gaussien– Détection de mesure de gradient en DX et DY pour les différents niveau du cube, les images

étant suffisamment Lisses l’opérateur appliqué est un opérateur de différentiation [1 0 -1] enX et en Y.

– Effectuer des tests sur les gradients DX et DY : Générer les images de réponse par rapport àdes cônes d’orientation par l’équation 5.2.

– Pour chaque Image du cube Gaussien on aura 4 images donnant la réponse en direction de ceniveau d’echelle.

– L’opérateur "Center Surround" est appliqué sur chacun des quatres cubes d’orientation (voirFIG. 5.3).

O(σ, θ) = Detectθ(I(σ)) (5.2)

On obtient 24 cartes caractéristiques d’orientation :

O(c, s, θ) = |O(c, θ) −O(s, θ)| (5.3)

5.3.4 Primitive Mouvement

Dans une étape qui va suivre nous essayerons d’extraire la primitive mouvement, dans le but degénérer une carte de saillance dynamique, prenant en compte l’aspect temporel.

1Un filtre de Gabor est une fonction sinus à laquelle on ajoute une enveloppe gaussienne.

Page 46: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

5.4 Génération des cartes d’évidence 46

F. 5.4 – Principe de la normalisation appliquée à deux primitives ayant des réponses différentesen degrés de saillance.

5.4 Génération des cartes d’évidence

La carte de saillance est calculée en combinant les différentes cartes caractéristiques. Une desdifficultés pour cette combinaison est que ces cartes représentent des données à priori non compa-rables à des échelles différentes. Des objets saillants dans seulement quelques cartes peuvent êtremasqués par le bruit ou par d’autres objets moins saillants des autres cartes. Pour pallier à cettedifficulté une étape de normalisation est appliquée. Nous intègrons ensuite pour chaque primitiveles différentes cartes normalisées en une carte unique dite d’évidence, donnant la réponse, en termede degrés de saillance des éléments de la scène observée, par rapport à la primitive considérée.

5.4.1 Normalisation

La figure 5.4 illustre le principe de normalisation avant l’intégration des différentes primitives.Essentiellement deux stratégie de normalisation sont utilisées dans la littérature, la première Itti

and Koch (1998), une deuxième stratégie de nature itérative Itti and Koch (2000). L’applicationdirecte de ces deux stratégies présentaient des problèmes calculatoires, par rapport à la rétinePVLSAR34, du à la nécessité d’une grande résolution, et du codage sur des nombres flottants, alorsque nos images sont codées sur 6 bits.

La stratégie de normalisation qu’on a considéré notée N(.) se résume au étapes suivantes :– I Image originale ;– A partir de I calcul du Maximum global : M ;– A partir de I calcul de la moyenne des Maxima Locaux : m ;– Iseuil ⇐ Seuillage de I à (M +m)/2 ;

N(I(x, y)) ={

(M −m)/2 si Iseuil(x, y) = 10 sinon (5.4)

Page 47: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

5.4 Génération des cartes d’évidence 47

La coût de normalisation est de 11.22 (ms), et 19627 (cycle rétines)

Vu les difficultés de PVLSAR34 face aux opérations régionales, (voir Chap.3), l’extraction dumaximum global et le calcul de la moyenne de maxima locaux, sont gérés d’une manière tout à faitdifférente du séquentiel.

5.4.1.1 Extraction du Maximum Global M

Les étapes d’extraction du maximum Global sont présentées dans l’algorithme suivant :

Entrée : image I sur 6 bits, nbrAleaSortie : Maximum_Global ∈ [0 – 63]

Pour Valseuil = 63jusqu’à 0S = Seuillage(I) à Valseuil

NbrPix = Sommation_by_arm(I)si NbrPix > nbrAlea

Maximum_Global = Valseuil ArrêtValseuil ← Valseuil − 1Fin Pour

5.4.1.2 Extraction des Moyennes des Maxima Locaux m

Les étapes nécessaire pour l’extraction de la moyenne des maxima locaux sont les suivantes :

– A partir de l’image en entrée I calcul du masque binaire Maxlocbin des maxima Locaux ; (voirFIG.5.5)

– IMaxLoc = I ∧Maxlocbin ;– Sommation analogique réalisé par L’Arm :

SommeMaxLoc = Sommation_by_arm(IMaxLoc)NbrMaxLoc = Sommation_by_arm(Maxlocbin)

– m = SommeMaxLoc/NbrMaxLoc.La carte d’evidence d’intensité est donnée par la formule 5.5 :

I =6∑

nbr=1

N(Inbr) (5.5)

La carte d’evidence d’orientation est donnée par la formule 5.6 :

O =24∑

nbr=1

N(Onbr) (5.6)

Page 48: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

5.5 Etude de complexité 48

(C1) : a1 + a4 + a6 < a2 + A + a7 > a3 + a5 + a8 (C2) : a1 + a2 + a3 < a4 + A + a5 > a6 + a7 + a8

(C3) : a11 + a1 + a12 < a6 + A + a3 > a10 + a8 + a9 (C4) : a12 + a6 + a9 < a1 + A + a8 > a11 + a3 + a10

F. 5.5 – Calcul du masque binaire des maximums locaux : A← C1 ∨ C2 ∨ C3 ∨ C4. Chanda et al.(1998)

Tâche Nombre de cycles Temps CPU (ms)Cube Gaussien 397712 75.77Différentiation 8622 2.775Normalisation 117762 48.37

Integration 9135 1.295Complexité Globale de la carte d’evidence d’intensité 533231 128.21

T. 5.1 – Coût de calcul de la carte d’evidence à base d’intensité

5.4.2 Combinaison des cartes d’évidences

La carte de saillance statique peut maintenant être obtenue en calculant la moyenne des deuxcartes d’evidence obtenues dans l’étape précédente (voir formule.5.7).

CSaillance = 1/2(I +O) (5.7)

A partir de cette carte de saillance, les points d’attention visuelle peuvent être extraits, par unprocessus "Winner Take All" Itti and Koch (1998), qui a pour résultat une liste de coordonnées depoints saillants.

5.5 Etude de complexité

Une illustration du coût en temps de calcul de la génération des cartes d’evidence est présentéedans (TAB. 5.2 et TAB. 5.1)Si on considère la carte de saillance statique à base d’intensité seulement,nous avons un coût global de calcul de 128.21 (ms), nous permettant de traiter (10 images/s),

Page 49: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

5.6 Conclusion 49

Tâche Nombre de cycles Temps CPU (ms)Cube Gaussien 397712 75.77

4 cubes d’orientation 27468 3.735Différentiation 206928 10.97Normalisation 471048 189.3

Integration 42021 7.374Complexité Globale de la carte d’évidence d’orientation 1145177 287.149

T. 5.2 – Coût de calcul de la carte d’evidence à base d’orientation

répondant à un facteur de 1/3 au contrainte temps réels (25 images/s), ce qui suggère une fréquencede 3 fois plus rapide pour respecter les contraintes temps réel. Les contraintes temps réel peuventêtre respectées aussi si les opération analogiques deviennent numérique, aussi il y a une possibitéd’optimisation de la fonction de normalisation qui prend 38 % du coût global.En augmentant le nombre de primitives, par l’intégration de l’orientation, nous obtenons un coûttrop important en temps de calcul, et les contraintes temps réels ne peuvent pas être respecté parle schéma de traitement proposé ultérieurement, une solution possible est de ramener l’orientationà une gradeur unique à la place de quatres, on peut considérer pour ça l’application du "center-surround" sur L’ Arg(5I).

5.6 Conclusion

Nous avons présenté le modèle global d’attention visuelle basé sur la saillance adopté, parrapport à notre dispositif matériel, intégrant les primitives intensité et orientation, et dans uneétape qui va suivre un module de detection de mouvement sera intégré. Nous exposons dans lechapitre suivant une application développée en lien avec les notions Multi échelle de l’attentionvisuelle, à savoir l’extraction de points d’intérêts : (S.I.F.T).

Page 50: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 51: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Chapitre 6

Application du détecteur S.I.F.T surPVLSAR34

6.1 Introduction

Suite à l’étude que nous avons menée sur la modélisation informatique des mécanismes d’atten-tion visuelle, nous nous somme intéressé à l’algorithme de détection de point d’intérêt à différenteséchelles « S.I.F.T ». Nous présentons dans ce chapitre un bref aperçu sur cet algorithme, ainsi queles étapes que nous avons implémenté sur la rétine PVLSAR34.

6.2 Aperçu sur S.I.F.T

Contrairement aux méthodes « classiques » telles que Harris and Stephens (1988), qui consistegénéralement à selectionner comme points d’interets les points où la courbure est maximale, leS.I.F.T effectue un traitement préalable relativement poussé avant de réellement sélectionner lespoints d’intérêt. Les contraintes que doivent respecter ces points caractéristiques sont l’invarianceà la translation, à la rotation mais également une robustesse face au bruit, et aux distortions affinesdues au changement de point de vue et au changement d’échelle. En effet, il a été démontré quele détecteur de Harris est très efficace lorsqu’il s’agit d’identifier deux images ayant subies destranslations ou des rotations, mais il est en revanche très sensible aux changements d’échelle. Pourcontourner ce problème, le S.I.F.T a été fondé sur des bases de traitement multi échelle de l’image.Les grandes étapes du S.I.F.T sont les suivantes :

1. Construction d’une représentation Multi échelle de l’image, pyramides gaussienne.

2. Génération d’un pyramide Laplacienne.

3. Extraction des maxima/minima locaux en échelle et en espace à partir de chaque niveau de lapyramide laplacienne, ces extrémas correspondent aux points d’intérêt du S.I.F.T.

4. Génération des descripteurs associés à chaque point d’intérêt, les descripteurs sont des his-togrammes d’orientation locaux pour chaque point d’intérêt.

Pour plus de détail sur le S.I.F.T se référer à Lowe (2004).

Page 52: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

6.3 Implantation sur PVLSAR34 52

6.3 Implantation sur PVLSAR34

Nous avons fait le lien entre les structures multi échelles avec lesquelles nous avons opéré dans ledéveloppement du modèle de saillance (voir Chap.5), et la démarche du S.I.F.T, nous nous sommespersuadés qu’on a déjà développé les Parties 1 et 2 avec des petites différences au niveau degénération des (DoG)s. La partie qui nous reste à développer coté rétine c’est la partie 3, la partie 4est envisagé du coté PC.

6.3.1 Extraction des extréma

L’extraction des maxima locaux se fait par les étapes suivantes :– Extraction des maxima à l’échelle sélectionnée, on s’est inspiré de l’opération de sélection des

maxima locaux à l’étape de normalisation de la carte de saillance (voir FIG. 5.5).– Comparaison du pixel maximum avec les pixels correspondants dans les deux niveaux adja-

cents de la pyramide laplacienne, si il est supérieur alors on le garde comme maximum sinonle pixel n’est pas selectionné.

La même démarche est retenue pour les minimums locaux tout en inversant le sens de la com-paraison.

6.4 Résultats

Les résultats donnés par la rétine correspondent à la troisième étape du S.I.F.T, nous avons retenu2 échelles de sélection de point d’intérêt, dans (FIG.6.1) une illustration de la séléction du Niveau2 de la pyramide laplacienne.La raison de ce nombre restreint de niveaux sélectionnés est purement liés à la mémoire limitée dePVLSAR34 (voir Chap.3), ainsi au nombre de gaussiennes générées par PVLSAR34 qui est égal à 5( voir Chap.4 ).

6.5 Conclusion

Nous avons exposé dans ce chapitre une application de détection de point d’intérêt qui est leS.I.F.T, et les étapes que nous avons développées avec la rétine artificielle PVLSAR34, néanmoinsles résultats restent à valider par rapport à celle obtenus par un PC opérant en séquentiel, aussila partie 4 de génération de descripteur de points d’intérêts reste à compléter du coté PC dans letravail qui va suivre.

Page 53: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

6.5 Conclusion 53

(N2)Niveau 2 du cube Laplacien

Les pixels de N3 des extrema locaux en espace (Etape 2) sont comparés par rapport aux pixels correspondants dans les deux niveaux adjacents (N2, N4). Le résultat correspond aux points d’intérêt S.I.F.T

Cube Laplacien : généré par des différences de gaussienne du Filtre Gauss2 (voir Chap. 4)

(N3) Niveau 3 du cube Laplacien :

Niveau sélectionné

Etape 1 : Masque binaire des Extrema locaux spatiales

Etape 2 : Masque binaire des Extrema locaux en échelle et en espace : Point d’intérêt S.I.F.T

(N4) Niveau 4 du cube Laplacien

F. 6.1 – Genération des points d’intérêts par la rétine Pvlsar34, pour le niveau 3 de cube laplacien,nous voyons bien les extréma selectionnés, mais on a toujours la présence d’un nombre nonnégligeable de fausses alarmes, et les résultats manquent de précision, les causes essentielles sontdues au problèmes de bord, et à la petite plage de quantification sur 6 bits

Page 54: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 55: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Conclusion et Perspectives

En s’inspirant du modèle d’attention visuelle basé sur la saillance de Itti and Koch (1998), et enrespectant les contraintes impliquées par la rétine artificielle Pvlsar34, nous avons mis au point unmodèle attentionnel statique basé sur les primitives orientation et intensité, nous avons implantéun filtre gaussien optimisé en complexité, spécifique à notre dispositif matériel, et donnant unmeilleur résultat par rapport à la contrainte de causalité impliquée par la démarche multi-échelles.

L’évaluation du point de vue calculatoire de la carte de saillance statique, est positive du faitque nous nous rapprochons du temps réel d’un facteur de 1/3 pour une intégration de la primitiveintensité, mais des améliorations sont nécessaires pour arriver au seuil du temps réel, une pistepossible est de s’en passer des traitement analogique réalisé coté ARM.

Par contre avec l’augmentation du nombre de primitives, nous obtenons un coût trop importanten temps de calcul, et les contraintes temps réels ne peuvent pas être respectées par le schémade traitement que nous avons proposé, des améliorations peuvent être amenées en ramenant laprimitive orientation à une grandeur unique.

En lien avec la démarche multi-échelles du modèle de saillance, nous avons implanté les troispremières étapes du détecteur de points d’intérêts S.I.F.T Lowe (2004). Les résultats ne semblentpas très satisfaisants et manquent de précision, nous remarquons une présence d’un nombre nonnégligeable de fausses alarmes au niveau des points sélectionnés, causés essentiellement des pro-blèmes de bord, et de la faible marge de quantification. La quatrième étape du S.I.F.T est toujoursà implémenter du coté PC.

Les perspectives des deux derniers mois du stage se résument par l’enrichissement du mo-dèle global de saillance, en intégrant un module dynamique de détection de mouvement, aussil’amélioration dans la génération de la primitive orientation pour respecter les contraintes tempsréel.

Page 56: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il
Page 57: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

Bibliographie

Babaud, J., Witkin, A., Baudin, M., and al (1986). Uniqueness of the gaussian kernel for scale-spacefiltering. In IEEE Transactions on Pattern Analysis and Machine Intelligence, volume 8, pages 26–33.

Bauer, B., Jolicoeur, P., and Cowan, W. (1996). Visual search for colour targets that are or are notlinearly-separable from distractors. Vision Research, 36(10) :1439–65.

Beck, J., Prazdny, K., and Rosenfeld, A. (1983). A theory of textural segmentation. New York :Academic Press, pages 91–104.

Burrus, N. and Bernard, T. (2006). Adaptive vision leveraging digital retinas : Extracting meaningfulsegments. In ACIVS.

Burt, P. (1984). The pyramid as a structure for efficient computation. Multiresolution Image Processingand Analysis, pages 6–35.

Burt, P. and Adelson, E. (1983). The laplacian pyramid as a compact image code. In IEEE Transactionson Communications, volume 31, pages 532–540.

Chanda, B., Kundu, M., and Padmaja, Y. (1998). A multi-scale morphologic edge detector. PatternRecognition, 31(10) :1469–1478.

Chopra-Khullar, S. (1999). Where to look ? automating certain visual attending behaviors of humancharacters. PhD thesis, University of Pennsylvania.

Crowley, J. (1984). A multiresolution representation for shape. Multiresolution Image Processing andAnalysis, pages 169–189.

DeValois, R. L., Albrecht, D. G., and Thorell, L. G. (1982). Spatialfrequency selectivity of cells inmacaque visual cortex. Vision Research, 22 :545–559.

Driver, J., McLeod, P., and Dienes, Z. (1992). Motion coherence and conjunction search : Implicationsfor guided search theory. Perception and Psychophysics, 51(1) :79–85.

Duncan, J. and Humphreys, G. (1989). Visual search and stimulus similarity. Psychol Rev, 96(3) :433–58.

Engel, S., Zhang, X., and Wandell, B. (1997). Colour tuning in human visual cortex measured withfunctional magnetic resonance imaging. Vision Research, 388(6637) :68–71.

Gies, V. (2005). Increasing Interconnection Network Connectivity for Reducing Operator Complexity inAsynchronous Vision Systems. PhD thesis, Universitité Paris-Sud XI.

Page 58: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

BIBLIOGRAPHIE 58

Harris, C. and Stephens, M. (1988). A combined corner and edge detector. Alvey Vision Conference,pages 147–151.

Hummel, R. (1987). The scale-space formulation of pyramid data structures. Parallel ComputerVision, pages 107–123.

Itti, L. (2000). Models of Bottom-up and Top-down Visual attention. PhD thesis, California institute ofTechnology.

Itti, L. and Baldi, P. (2005). A principled approach to detecting surprising events in vide. pages1063–69.

Itti, L. and Koch, C. (1998). A model of saliency-based visual attention for rapid scene analysis.Trans. Pattern Anal. Mach. Intell, 20(11) :1254–59.

Itti, L. and Koch, C. (2000). A saliency-based search mechanism for overt and covert shifts of visualattention. Vision Research, 40(10) :1489–1506.

Julesz, B. and Bergen, J. (1971). Foundations of cyclopean perception. Illinois : University of ChicagoPress.

Julesz, B. and Bergen, J. (1983). Textons, the fundamental elements in preattentive vision andperception of textures. The Bell System Technical Journal, 62(6) :1619–45.

Koch, C. and Ullman, S. (1985). Shifts in selective visual attention : towards the underlying neuralcircuitry. Human Neurobiology, 4 :219–227.

Leventhal, A. (1991). The neural basis of visual function. vision and visual dysfunction. Boca Raton,FL : CRC Press, 4.

Lowe, D. (2004). Distinctive Image Features from Scale-Invariant Keypoints. International Journalof Computer Vision, 60(2) :91–110.

Luschow, A. and Nothdurft, H. (1993). Pop-out of orientation but no pop-out of motion at isolu-minance. Vision Research, 33(1) :91–104.

Manzanera, A. (2000). Vision Artificielle Retinienne. PhD thesis, Ecole Nationale Superieure desTelecommunications.

Manzanera, A. and Richefeu, J. (2004). A robust and low cost change detection algorithm based onσ-δ background estimation. Technical report, ENSTA/LEI.

Meer, P. (1988). Simulation of constant size multiresolution representations on image pyramids.Pattern Recognition Letters, 8 :229–236.

Meer, P. (1989). Stochastic image pyramids. Computer Vision, Graphics, and Image Processing, 45 :269–294.

Nakayama, K. and Silverman, G. (1986). Serial and parallel processing of visual feature conjunc-tions. Nature, 320 :264–265.

Ouerhani, N. (2003). Visual Attention : From Bio-Inspired Modeling to Real-Time Implementation. PhDthesis, Université de Neuchatel Facultée des Sciences.

Page 59: Mécanismes d'Attention Visuelle sur Rétine Artificiellelomn/Rapports/Stages/RR_2006_Master... · Résumé L’attention visuelle est la capacité d’un système de vision, qu’il

BIBLIOGRAPHIE 59

Pashler, H. and Badgio, P. (1985). Visual attention and stimulus identification. J Exp Psychol HumPercept Perform, 11(2) :105–21.

Rapantzikos, K., Tsapatsoulis, N., Avrithis, Y., and al (2004). A saliency-based spatiotemporal visualattention model for video analysis. In IEEE Multimedia Signal Processing, pages 83–86.

Timothée, J., Ouerhani, N., Vonwartburg, R., and al (2005). Assessing the contribution of color invisual attention. computer vision and image understanding. Computer Vision and Image Unders-tanding, 100(1-2) :107–123.

Toet, A. (1989). Image fusion by a ratio of low-pass pyramid. Pattern Recognition Letters, 9 :245–253.

Tootell, R., Silverman, M., Hamilton, S., and al (1988). Functional anatomy of macaque striatecortex. iii. color. Journal of Neuroscience, 8(5) :1569–93.

Treisman, A. and Gelade, K. (1980). A feature-integration theory of attention. Cognit Psychol,12(1) :97–136.

Treisman, A. and Gormican, S. (1988). Feature analysis in early vision : Evidence from searchasymmetries. Psychological Review, 95(1) :15–48.

Treisman, A. and Sato, S. (1990). Conjunction search revisited. J Exp Psychol Hum Percept Perform,16,3(3) :459–78.

T.Young, I., Gerbrands, J. J., and van Vliet, L. J. (1998). Fundamentals of Image Processing.

Witkin, A. (1983). Scale-space filtering. In Ninth International Joint Conf on Artificial Intelligence,pages 1019–22.

Witkin, A. (1984). Scale space filtering : a new approach to multi-scale description. Image Unders-tanding.

Wolf, J., Cave, K., and Franzel, S. (1989). Guided search : an alternative to the feature integrationmodel for visual search. J Exp Psychol Hum Percept Perform, 15(3) :419–33.

Yuille, A. and Poggio, T. (1986). Scaling theorems for zero crossings. In IEEE Transactions on PatternAnalysis and Machine Intelligence, volume 8, pages 15–25.