sélection des variables et classification par … › last_edition › setit2007 › iv ›...

7
SETIT 2007 4 th International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 25-29, 2007 – TUNISIA Sélection des Variables et Classification par Réseaux de Neurones des Lésions Dermatologiques Nadra Ben Romdhane * , Khaled Taouil*, Sonia Boudaya**, Hamida Turki** et Mohamed Salim Bouhlel* * Unité de recherches : Sciences et Technologies de l'Image et des Télécommunications ISBS, Université de Sfax - Tunisie [email protected] khaled.taouil@ isecs.rnu.tn [email protected] **Service de dermatologie, CHU Hédi Chaker de sfax Résumé: L’objectif de ce travail est la sélection des paramètres les plus discriminants pour la classification des images de lésions dermatologiques de type mélanome. L’image numérique de la lésion est tout d’abord segmentée en utilisant une approche hybride basée sur les traitements morphologiques et les contours actifs. Ensuite, les descriptions cliniques des signes de malignité sont quantifiées en un ensemble de paramètres qui résument les caractéristiques géométriques et photométriques de la lésion. 68 paramètres sont extraits pour chaque lésion. Après l’étude de la corrélation et de la robustesse, nous retenons 42 paramètres. Les méthodes de sélection séquentielle forward (Sequential forward selection (SFS) et backward (Sequential Backward selection (SBS)) permettent de retenir les paramètres les plus discriminants pour l’étape de classification. Deux types de classifieurs ont été testés à savoir les réseaux de neurones de régression généralisée (General Regression Neural Network (GRNN)) et les Perceptrons multicouches (PMC) (multilayer perceptron neural network (MLPNN)). Leur performance de classification se base sur la comparaison de la valeur de l’indice de l’aire (Az) de la courbe ROC (Receiver Operating Characteristic curve) correspondant à chaque classifieur. Les classifications par GRNN et PMC ayant pour entrées les paramètres sélectionnés par la méthode SFS ont permis d’avoir des indices de performance Az respectivement de l’ordre de 89,10 % et 78,90%. Mots clés : Mélanome, Paramètres discriminants, Perceptron multicouche, Réseau de Neurones par Régression Généralisée, Sélection séquentielle. INTRODUCTION Le mélanome est une tumeur maligne qui se développe aux dépend des mélanocytes et survenant soit primitivement en peau saine, soit par dégénérescence d'un naevus préexistant [IPP05] [JOL92]. Le pourcentage de guérison peut atteindre 70% si le cancer est reconnu et excisé dans un premier stade [POP04] [XU99]. Les dermatologues utilisent la règle ABCD pour reconnaître la nature cancéreuse d’une lésion [FRI85]. La précision du diagnostic (vrai positif) est de l’ordre de 75% [SCH03]. Les logiciels d’aide au diagnostic des mélanomes peuvent améliorer le résultat du diagnostic particulièrement chez les centres non spécialisés dans le diagnostic des mélanomes. La sélection des paramètres a pour but de choisir le meilleur sous-ensemble des paramètres existants pour résoudre un problème [LER99]. Cet ensemble doit contenir les variables, les plus robustes et les plus discriminantes. La sélection de variables est donc un problème complexe et a fait l'objet de nombreuses recherches [LER99]. Mehru et al. [MEH02] a sélectionné les paramètres de description des lésions en utilisant un critère basé sur le produit de la distance de Fisher et l’aire sous la courbe ROC. Ensuite, il a sélectionné les paramètres ayant donné les valeurs les plus importantes. Yang et Guan [YAN00] appliquent les méthodes SFS et SBS en utilisant les réseaux de neurones de type réseaux de neurones de régression généralisée pour sélectionner les paramètres de microcalcification les plus - 1 -

Upload: others

Post on 07-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Sélection des Variables et Classification par … › last_edition › setit2007 › IV › 18.pdfSETIT 2007 4th International Conference: Sciences of Electronic, Technologies of

SETIT 2007 4th International Conference: Sciences of Electronic,

Technologies of Information and Telecommunications March 25-29, 2007 – TUNISIA

Sélection des Variables et Classification par Réseaux de Neurones des Lésions Dermatologiques

Nadra Ben Romdhane*, Khaled Taouil*, Sonia Boudaya**, Hamida Turki**

et Mohamed Salim Bouhlel*

* Unité de recherches : Sciences et Technologies de l'Image et des Télécommunications ISBS, Université de Sfax - Tunisie [email protected]

khaled.taouil@ isecs.rnu.tn [email protected]

**Service de dermatologie, CHU Hédi Chaker de sfax Résumé: L’objectif de ce travail est la sélection des paramètres les plus discriminants pour la classification des images de lésions dermatologiques de type mélanome.

L’image numérique de la lésion est tout d’abord segmentée en utilisant une approche hybride basée sur les traitements morphologiques et les contours actifs. Ensuite, les descriptions cliniques des signes de malignité sont quantifiées en un ensemble de paramètres qui résument les caractéristiques géométriques et photométriques de la lésion. 68 paramètres sont extraits pour chaque lésion. Après l’étude de la corrélation et de la robustesse, nous retenons 42 paramètres. Les méthodes de sélection séquentielle forward (Sequential forward selection (SFS) et backward (Sequential Backward selection (SBS)) permettent de retenir les paramètres les plus discriminants pour l’étape de classification. Deux types de classifieurs ont été testés à savoir les réseaux de neurones de régression généralisée (General Regression Neural Network (GRNN)) et les Perceptrons multicouches (PMC) (multilayer perceptron neural network (MLPNN)). Leur performance de classification se base sur la comparaison de la valeur de l’indice de l’aire (Az) de la courbe ROC (Receiver Operating Characteristic curve) correspondant à chaque classifieur. Les classifications par GRNN et PMC ayant pour entrées les paramètres sélectionnés par la méthode SFS ont permis d’avoir des indices de performance Az respectivement de l’ordre de 89,10 % et 78,90%.

Mots clés : Mélanome, Paramètres discriminants, Perceptron multicouche, Réseau de Neurones par Régression Généralisée, Sélection séquentielle.

INTRODUCTION Le mélanome est une tumeur maligne qui se

développe aux dépend des mélanocytes et survenant soit primitivement en peau saine, soit par dégénérescence d'un naevus préexistant [IPP05] [JOL92]. Le pourcentage de guérison peut atteindre 70% si le cancer est reconnu et excisé dans un premier stade [POP04] [XU99]. Les dermatologues utilisent la règle ABCD pour reconnaître la nature cancéreuse d’une lésion [FRI85]. La précision du diagnostic (vrai positif) est de l’ordre de 75% [SCH03]. Les logiciels d’aide au diagnostic des mélanomes peuvent améliorer le résultat du diagnostic particulièrement chez les centres non spécialisés dans le diagnostic des mélanomes.

La sélection des paramètres a pour but de choisir le meilleur sous-ensemble des paramètres existants pour résoudre un problème [LER99]. Cet ensemble doit contenir les variables, les plus robustes et les plus discriminantes. La sélection de variables est donc un problème complexe et a fait l'objet de nombreuses recherches [LER99].

Mehru et al. [MEH02] a sélectionné les paramètres de description des lésions en utilisant un critère basé sur le produit de la distance de Fisher et l’aire sous la courbe ROC. Ensuite, il a sélectionné les paramètres ayant donné les valeurs les plus importantes. Yang et Guan [YAN00] appliquent les méthodes SFS et SBS en utilisant les réseaux de neurones de type réseaux de neurones de régression généralisée pour sélectionner les paramètres de microcalcification les plus

- 1 -

Page 2: Sélection des Variables et Classification par … › last_edition › setit2007 › IV › 18.pdfSETIT 2007 4th International Conference: Sciences of Electronic, Technologies of

SETIT2007

discriminants. Fu et al. [FU05] applique la méthode SFS et deux classifieurs qui sont le GRNN et le SVM (support vector machine) pour la sélection des paramètres et la classification des microcalcifications mammographiques.

Dans la suite de ce papier, nous présentons la méthodologie que nous avons adoptée pour la sélection des paramètres et pour la classification des grains de beauté.

1. Méthodes et techniques

1.1. Le système d’aide au diagnostic

Acquisition d’une image de lésion

La segmentation par détection de contours permet d’avoir un contour unique dans l’image. Cette segmentation peut être assurée par l’approche des contours actifs (ou snakes). Ces contours correspondent à des courbes fermées disposées sur une image et que nous souhaitons faire converger vers une zone particulière de cette image en les déplaçant itérativement. Ces courbes sont définies dans le domaine des images, ils peuvent se déplacer sous l'influence des forces internes à la courbe et des forces externes calculées à partir des données de l'image [KAS87, ZHA05].

Analyse

histologique

Traitement de l’image

Extraction de paramètres

Sélection des paramètres

discriminants

Classification Apprentissage Test

Diagnostique de la lésion

Images quantifiées

Figure 1. Chaîne de diagnostic assisté par ordinateur des images de lésions dermatologiques.

La figure 1 illustre la chaîne de diagnostic assisté par ordinateur des images de lésions dermatologiques. Les images de lésions acquises sont généralement prétraitées pour réduire l’effet de différents types de bruits qui sont dus au capteur, aux conditions d’éclairage, à la présence de poils et à la nature de la peau [KAL03]. L’image est ensuite segmentée pour extraire la zone d’intérêt qui est la lésion [BOU02] [KHA02]. Le résultat de la segmentation est une image binaire représentant un masque qui attribue chaque pixel soit à la lésion (pixel noir) soit à la peau saine environnante (pixel blanc). Ce masque servira pour la quantification des caractéristiques géométriques et photométriques de la lésion [TAO02]. Ensuite, les paramètres les plus robustes et les plus discriminants seront utilisés pour l’étape de classification. La classification nécessite une base d’images de lésions malignes et bénignes dont la nature a été parfaitement déterminée par analyse histologique. Cette base est répartie en une base d’apprentissage et une base de test pour valider la méthode adoptée pour la classification [KHA03], [ZAG04], [LEP03].

1.2. Segmentation des images des lésions La segmentation de l'image est l’étape la plus

critique du processus de traitement des lésions dermatologiques. Elle consiste à extraire la région d'intérêt de l’image qui est dans notre cas la lésion. Plusieurs facteurs peuvent fausser le résultat de la segmentation à savoir le faible contraste entre la lésion et la peau saine environnante, la frontière de la lésion

qui est irrégulière et floue ainsi qu’à la présence des bruits comme la réflexion de la lumière, l’ombre et la présence des poils.

La segmentation par l’approche extraction de régions, vise à partitionner l'image en un ensemble de groupes de pixels connexes et homogènes. L'homogénéité est généralement calculée à partir des valeurs des pixels [KHA02]. La segmentation d’images en régions est assurée soit par une approche de classification de pixels, soit par une approche de croissance de région [KHA02].

Les approches de segmentation hybride se basent sur deux étapes. La première consiste à un prétraitement de l’image qui va fournir un masque approximatif de la lésion. La deuxième consiste à détecter le contour exact de l’objet à segmenter en partant du contour du masque approximatif déjà obtenu.

1.3. Sélection des paramètres Pour sélectionner les variables, trois critères

doivent être fixés [LER99] à savoir la méthode d’évaluation de la pertinence d'un ensemble de variables, la procédure de recherche à suivre et le critère d’arrêt de la sélection. La recherche exhaustive est à éviter ; il faut se baser sur les méthodes heuristiques à savoir les méthodes SFS et SBS [YAN00].

La méthode de sélection SFS est une méthode de recherche ascendante (bottom-up) de l’ensemble de paramètres les plus discriminants à partir d’un ensemble initial de paramètres. Pour cette méthode, un paramètre p est ajouté à la fois à l’ensemble ESFS des paramètres sélectionnés. Ainsi, le premier paramètre sélectionné est celui le plus discriminant de l’ensemble initial des paramètres.

Pour chaque étape, on insère un à un les paramètres non encore insérés dans ESFS et on calcule l’erreur de classification correspondante avec:

∑=

−=q

i)²aidi(q/E

11 (1)

avec q: Nombre total d’images de la base d’apprentissage.

di : Sortie désirée.

ai : Sortie réelle.

- 2 -

Page 3: Sélection des Variables et Classification par … › last_edition › setit2007 › IV › 18.pdfSETIT 2007 4th International Conference: Sciences of Electronic, Technologies of

SETIT2007

Le paramètre qui sera sélectionné pour chaque étape est celui pour lequel le nouvel ensemble ESFS permet de minimiser l’erreur de classification. La sélection des paramètres s’arrête lorsque en ajoutant un nouveau paramètre, l’erreur de classification augmente.

La méthode de sélection SBS est une méthode de sélection descendante (top down) contrairement à la méthode SFS. Cette méthode commence avec tout l’ensemble de paramètres. Pour chaque étape, le paramètre le moins discriminant sera éliminé de la liste. La sélection des paramètres s’arrête lorsqu’en supprimant un nouveau paramètre, l’erreur de classification augmente.

L’évaluation de la sélection peut se baser sur le critère du λ de Wilks [SAP90] avec:

)det()det(

TW

p

pp =λ (2)

où et sont, respectivement, les déterminants des matrices de variance intraclasse et totale pour un sous-ensemble de p variables. Un sous-ensemble de variables à rechercher est celui qui permet de minimiser

)det(W p )det(T p

λ p .

Cependant un critère d’arrêt de la suppression de variables peut être défini. En effet, la statistique mesurant l’apport d’une pième variable pour la discrimination des classes suit une loi de Fisher à (k-1,card(L-k-p+1)) degrés de liberté Fk-1,card(L-k-p+1).

p

ps k

pkLcardF

λλ−

−+−−

=1

)1())1(( (3)

Ainsi, pour un niveau de confiance α donné, le critère d’arrêt est un seuil fs tel que :

P(Fk-1,card(L-k-p+1)(l)> fs)≥1-α (4)

De manière pratique, la suppression de variables se poursuit tant que Fs est inférieure à fs, ce qui statistiquement signifie que la variable supprimée n’apporte pas de contribution significative pour la discrimination, au sens de la loi de Fisher et du niveau de confiance α.

L’évaluation peut se baser aussi sur le calcul de l’erreur de classification par réseau de neurones pour chaque nouveau sous ensemble de paramètres sélectionnés.

1.4. Classification des images par réseau de neurones artificiel

Pour un réseau de neurones artificiel, chaque neurone est interconnecté avec d’autres neurones pour former des couches dans le but de résoudre un problème spécifique sur les données fournies en entrée au réseau [LEP03], [KHA03]. La couche d’entrée est responsable de la saisie des données pour le réseau. Le rôle des neurones de cette couche est de transmettre les données à traiter au réseau. La couche de sortie

permet de présenter les résultats calculés par le réseau sur le vecteur d’entrée fourni au réseau. Entre l’entrée du réseau et sa sortie des couches intermédiaires peuvent se présenter, elles sont appelées des couches cachées. Le rôle de ces couches est de transformer les données d’entrée pour en extraire ses caractéristiques qui seront par la suite plus facilement classifiées par la couche de sortie. Dans ces réseaux, l’information se propage de couche en couche, parfois à l’intérieur même d’une couche, par l’intermédiaire de connexions pondérées.

Un réseau de neurones opère en deux phases consécutives : une phase de conception et une phase d’utilisation. La première phase consiste à choisir l’architecture du réseau et de ses paramètres à savoir le nombre de couches cachées et le nombre de neurones dans chacune de ces couches. Une fois ces choix sont fixés, on peut entraîner le réseau. Au cours de cette phase, les poids des connexions du réseau et le seuil de chaque neurone seront modifiés pour pouvoir s’adapter à différentes conditions d’entrée. Une fois l’apprentissage du réseau est terminé, il passe en phase d’utilisation pour réaliser le travail pour lequel il a été conçu.

1.4.1. Perceptron multicouche Pour un réseau multicouche, le nombre de

neurones dans la couche d’entrée et dans la couche de sortie est déterminé par le problème à résoudre [MAG05], [LEP03], [KHA03]. L’architecture de ce type de réseau est illustrée sur la figure 2.

Figure 2. Architecture d’un réseau perceptron multicouche.

Selon [LEP03], le réseau de neurones aura une seule couche cachée avec un nombre de neurones approximatif égale à :

12 ++= )M(NJ (5)

avec : N : le nombre de paramètres en entrée. M: le nombre de neurones de la couche de

sortie.

1.4.2. Réseaux de Neurones de Régression Généralisée

Les réseaux de neurones de Regession généralisée (General Regression Neural Networks, GRNN), sont basés sur l’estimation d’une fonction de densité de probabilité. Développés à l’origine pour des applications statistiques et connus sous le nom de Nadaraya-Watson kernel régression, le réseau GRNN a été redécouvert en 1991 par Donald Specht [GAR00], [YAN00], [FU05]. L’architecture de ce type

Sortie

Couche de Sortie

Couche Cachée

Couche d’entrée

Entrée

- 3 -

Page 4: Sélection des Variables et Classification par … › last_edition › setit2007 › IV › 18.pdfSETIT 2007 4th International Conference: Sciences of Electronic, Technologies of

SETIT2007

de réseau est illustrée sur la figure 3.

Figure 3. Architecture du GRNN utilisé.

L’architecture du GRNN est formée de qcouches : la couche d’entrée, la première cointermédiaire constituée d’unités radiales, la secconstituée d’unités de sommation et la couchsortie. L’avantage principal de ce type de réseau rapidité de la phase d’apprentissage obtenue grâl’utilisation de la fonction de type kernel. La sortcette fonction est une estimation du degré auquvecteur d’entrée inconnue correspond à la distribdéterminée. Le seul paramètre ajustable du réseala déviation pour la fonction kernel qui pel’interpolation entre les vecteurs de l’ensed’apprentissage. L’optimisation de ce paramètrtrès important pour les performances du réseau edéterminé à l’aide d’ajustements itératifs et dprocédure de validation croisée [GAR00],[WAS05

2. Résultats et discussion La sélection des paramètres et la classificatio

été testés sur un ensemble de 77 lédermatologiques de type grains de beauté bénignes, 29 malignes) dont la nature est parfaiteconnue après analyse histologique. Une premièred’images a été collectée en France aveccollaboration du laboratoire de recherche PSI-INRouen et supportée par la Ligue Nationale francontre le Cancer. Cette base a été numérisée en vcouleurs par un scanner de diapositives 35 mm NLS-1000. Une deuxième base à été collecté en Tuavec la collaboration du service dermatologiqucentre hospitalier universitaire Hédi Chaker de Celle-ci a été numérisée en vraies couleurs avescanner HP Scanjet 3570c.

Nous avons utilisé une méthode de segmenthybride et automatique qui se base sur les techndu seuillage d’histogramme, des foncmorphologiques et des contours actifs [TAO06figure 4 présente un exemple d’une image segmd’un mélanome.

Figure 4. Résultat de la segmentation : lésion econtour.

Pour caractériser les différents types de lésions, nous avons opté pour une approche paramétrique [Tao02, KHA03]. Elle consiste à décrire les lésions par des paramètres quantitatifs dans le but de les classifier. Ces paramètres tendent à exprimer le mieux possible, la règle des ABCD relative aux descriptions cliniques des dermatologues. Les signes cliniques n2

Ω

Ω

n1 n1/n2

Ω

e

Entrées Couche d’entrée

Couche Cachée

Couche de sommation

CoucheSorti

Sorti

uatre uche onde e de est la ce à ie de el le ution u est rmet mble e est t est e la ].

n ont sions

(48 ment base la

SA à çaise raies ikon nisie e du Sfax. c un

ation iques tions ]. La entée

t son

retenus pour caractériser les mélanomes et les différents nævi sont principalement l’irrégularité du contour, l’asymétrie de la forme et de la couleur ainsi que l’hétérogénéité de la couleur. Nous avons réparti les paramètres en deux catégories: les paramètres géométriques et les paramètres photométriques [TAO02]. Les paramètres géométriques sont extraits à partir des formes binarisées issues de la segmentation. Ces paramètres permettent de caractériser la forme de la lésion, son allongement et la régularité de son contour. Les paramètres photométriques sont calculés à partir des images représentées dans l’espace RVB et des images binarisées. Ces paramètres permettent de décrire l’homogénéité et la symétrie de la couleur ainsi que l’écart entre la moyenne de la couleur de la lésion et celle de la peau saine environnante. Un ensemble de 68 paramètres sont extraits pour chaque lésion. Après l’étude de la corrélation et de la robustesse, nous retenons 42 paramètres [KHA03].

2.1. Résultats de la sélection des paramètres Pour trouver les paramètres les plus discriminants

pour l’étape de classification depuis la liste des 42 paramètres, nous appliquons en premier lieu la méthode de sélection séquentielle forward (Sequential forward selection (SFS). En deuxième lieu, nous appliquons la méthode de sélection séquentielle backward (Sequential Backward selection (SBS)). Les images de la base d’apprentissage et de test ont été aléatoirement sélectionnées.

Pour la méthode SFS, l’évaluation de la sélection des paramètres se base sur la comparaison de l'erreur générée par les réseaux de neurones par régression généralisée pour les différents sous-ensembles de variables sélectionnés. L'ensemble de variables choisi est celui qui minimise l’erreur de l’équation 1. Pour cela, nous avons poursuivi la recherche jusqu’à la sélection de tous les paramètres. Ensuite nous avons choisi le plus petit sous-ensemble obtenu avec l'erreur minimale. Le résultat de la première méthode de sélection est illustré sur la figure 5.

Figure 5. Résultats de la sélection des paramètres par la méthode SFS.

de e

- 4 -

Page 5: Sélection des Variables et Classification par … › last_edition › setit2007 › IV › 18.pdfSETIT 2007 4th International Conference: Sciences of Electronic, Technologies of

SETIT2007

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

0 0,5 1

1 - Spécificité

Sens

ibili

1

Sur cette figure nous présentons la variation de la moyenne du carrée de l’erreur de classification en fonction du nombre de paramètres inclus pendant l’apprentissage et le test des GRNNs. Selon la courbe de test, nous constatons que l’ensemble de paramètres les plus discriminants permettant de minimiser l’erreur de test est obtenu après l’insertion des dix premiers paramètres (MSE=0,1434). La sélection par la méthode SFS a permis ainsi une réduction de 76,19% du nombre de paramètres. La liste des paramètres sélectionnée est présentée dans le tableau 1.

Tableau 1. Ordre de sélection des paramètres par la méthode SFS. Rg N° Description

01 24 scV symétrie de la composante V

02 09 rmoyL moyenne du rouge normalisé dans la lésion

03 03 DeltaD Etendu

04 35 Beta coordonnée sphérique Beta

05 23 scR symétrie de la composante R

06 01 rf rapport de finesse

07 39 RB Le rapport lésion sur peau saine pour le rouge

08 29 gamma1B coefficient de Fisher sur le bleu

09 16 sigmamoyLb L’écart type du bleu normalisé dans la peau saine

10 06 scB symétrie de la composante B

No discriminationGRNN 42

GRNN 10

La méthode SBS a été appliquée sur les variables géométriques et photométriques séparément, afin d’équilibrer la participation des deux catégories de paramètres à la séparation des deux classes. Le critère d’évaluation est celui du lambda de wilks. Le critère d’arrêt se base sur la statistique de Fisher. Cette méthode a permis de sélectionner 14 paramètres.

Tableau 2. Ordre de sélection des paramètres par la méthode SBS. Rg N° Description

01 24 scV symétrie de la composante V

02 25 scB symétrie de la composante B

03 23 scR symétrie de la composante R

04 19 er écart entre la moyenne de la lésion et la moyenne de la peau sur le rouge normalise

05 21 eb écart entre la moyenne de la lésion et la moyenne de la peau sur le bleu normalise

06 27 scv symétrie de la composante v

07 11 bmoyL moyenne du bleu normalisé dans la lésion

08 34 Alpha coordonnée sphérique Alpha

09 09 rmoyL moyenne du rouge normalisé dans la lésion

10 07 conc indice de concavité en surface

11 01 rf rapport de finesse

12 05 Em écart moyen

13 04 rc régularité du contour

14 03 DeltaD Etendu

Cette méthode offre une réduction de 66,66% de l’ensemble initial de paramètres. Le tableau2 présente l’ordre de sélection des variables photométriques (Rg :01-09) et des variables géométriques (Rg :10-14).

2.2. Résultats de la classification des images de lésions

La classification se base sur les paramètres retenus dans l’étape de sélection des paramètres. Dans ce qui suit, nous présenterons les résultats obtenus par deux types de classifieurs : réseau de neurones par régression généralisée et perceptrons multicouches.

Deux réseaux de neurones par régression généralisée ont été appris. La figure 6 illustre les résultats de la classification des images de la base de test en utilisant successivement les 10 paramètres les plus discriminants sélectionnés par la méthode SFS et l’ensemble des 42 paramètres initiaux. Leurs performances de classification se base sur la comparaison de la valeur de l’indice de l’aire (Az) de la courbe ROC de chaque réseau.

Une courbe ROC consiste à représenter la valeur de la sensibilité en fonction de (1-spécificité) pour toutes les valeurs de seuils possibles, et à joindre ces points par une courbe [BUV06] [MET03]. Ces mesures sont définies comme suit :

NégatifsFaux#PositifsVrais#PositifsVrais#éSensibilit+

= (6)

PositifsFaux#NégatifsVrais#NégatifsVrais#éSpécificit+

= (7)

avec #Vrais Positifs et #Faux Négatifs correspondent respectivement au nombre de lésions malignes bien classées et mal classées. De même, # et #Faux Positifs correspondent respectivement au nombre de lésions bénignes bien classées et mal classées.

NégatifsVrais

Figure 6. Comparaison des courbes ROC obtenues en utilisant l’ensemble des 10 paramètres discriminants sélectionnés par la méthode SFS et l’ensemble des 42 paramètres.

- 5 -

Page 6: Sélection des Variables et Classification par … › last_edition › setit2007 › IV › 18.pdfSETIT 2007 4th International Conference: Sciences of Electronic, Technologies of

SETIT2007

0

0,1

0,2

0,7

0 0,5 1

1 - Spécificité

Sens

ibili

0,3

0,4

0,5

0,6

0,8

0,9

1

L’aire sous la courbe ROC ou indice de l’aire représente la probabilité d’identifier correctement l’image avec anomalie lorsqu’une image avec anomalie et une image sans sont présentées simultanément à l’observateur [BUV06].

No discrimination

GRNN 14

GRNN 10

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,5 11 - Spécificité

Sens

ibili

No discrimination

PMC 10

PMC 14

A l’aide de ces courbes, la valeur obtenue de Az est de l’ordre de 89,10% avec les 10 paramètres sélectionnés et de 87,9% avec les 42 paramètres.

Un troisième réseau de neurones par régression généralisée a été appris avec les 14 paramètres sélectionnés par SBS. La figure 7 illustre les résultats de la classification par deux GRNN en utilisant les paramètres sélectionnés successivement par les méthodes SFS et SBS.

Figure 7. Comparaison des courbes ROC obtenues après classification par GRNNs utilisant successivement les 10 premiers paramètres sélectionnés par la méthode SFS et les 14 premiers paramètres sélectionnés la méthode SBS .

A l’aide de ces courbes, la valeur de Az est de 89,10% avec les 10 paramètres sélectionnés par SFS et 61,50% avec les 14 paramètres sélectionnés par SBS. D’où, la première méthode de sélection est plus performante en se basant sur les GRNN comme classifieurs.

Pour la classification avec les réseaux de neurones de type perceptron multicouches (PMC), deux réseaux ont été appris ayant successivement les 10 et 14 paramètres discriminants en entrée.

Selon l’équation (4), le nombre de neurones dans la couche cachée pour le premier PMC, sera égal à:

1)21(14 J1 ++=

= 7,48 8 neurones.

Ainsi, le premier réseau de neurones aura huit neurones dans sa couche cachée.

De la même manière, le nombre de neurones dans la couche cachée pour le deuxième PMC, sera égal à:

1)21(10 J2 ++=

= 6,47 7 neurones.

Ainsi, le réseau de neurones aura huit neurones dans sa couche cachée.

La figure 8 illustre les résultats de la classification par deux PMC en utilisant les paramètres sélectionnés successivement par les méthodes SFS et SBS.

Figure 8. Comparaison des courbes ROC obtenues après classification par PMCs utilisant successivement les 10 premiers paramètres sélectionnés par la méthode SFS et les 14 premiers paramètres sélectionnés par le critère de Lambda de Wilks .

A l’aide de ces courbes, la valeur de Az est de 78,90 % avec SFS et 77,20 % avec SBS. D’où, la première méthode de sélection est aussi plus performante en se basant sur les PMC comme classifieurs.

3. Conclusion La sélection des paramètres a pour but de choisir le

meilleur sous-ensemble des paramètres existants pour résoudre un problème. Dans ce papier, nous avons testé les méthodes de sélection séquentielles forward et backward. La méthode SFS a donné un résultat meilleur que celui obtenu avec la méthode SBS. Elle a permis une réduction de 76,19% de l’ensemble des 42 paramètres initiaux. Deux types de classifieurs ont été testés avec les deux ensembles sélectionnés de paramètres, à savoir les réseaux de neurones par régression généralisée et les perceptrons multicouches. D’après les résultats obtenus, nous avons remarqué que la classification par GRNN des 10 paramètres obtenu par SFS est plus performante que celle se basant sur les PMC fournissant respectivement 89,10% et 78,90% pour la valeur de Az.

BIBLIOGRAPHIE [BOU02] M. S. Bouhlel, K. Taouil and L. Kamoun,

“Melanoma-Pattern Extraction using histogram-thresholding approach”, Official Journal of Egyptian Society for Medical Education, “Scientufic Medical Journal” , Sci.Med J. (ESCME), Vol.14, No.3,July.2002.

- 6 -

Page 7: Sélection des Variables et Classification par … › last_edition › setit2007 › IV › 18.pdfSETIT 2007 4th International Conference: Sciences of Electronic, Technologies of

SETIT2007

[BUV06] Evaluation en imagerie médicale - Irène Buvat - février 2006 - 1

[FRI85] R. J. Friedman, “Early detection of malignant melanoma: the role of the physician examination and self examination of the skin” CA Cancer J. Clin. 35 130–51, 1985.

[FU05] J. C. Fu et al, “Image segmentation feature and pattern classification for mammographic microcalcifications”, Computerized Medical Imaging and Graphics 29 (2005) 419-429.

[GAR00] P. GARCEAU, « Modélisation du contrôle neural des muscles du tronc », Mastère, Ecole polytechnique de Montréal, 2000.

[IPP05] Institute of physics publishing, physics in medicine and biology , “ Automated melanoma detection with a novel multispectral imaging system : results of a prospective study ”, Phys. Med. Biol. 50 (2005) 1675–1687.

[JOL92] P. Joly, Ph. Lauret., “Mélanome Malin, Prévention et Dépistage”. Melanome Malin. M. DELAUNY, Ed MASSON. PARIS, 1992.

[KAL03]A. Kallel, G. Mercier K. Taouil, M. S. Bouhlel, B.Solaiman "Filtrage d’Images basé sur les EDP: Application aux prétraitements d’Images de Mélanomes" Sciences Electroniques, Technologies de l’Information et des Télécommunications SETIT eds, M.S.Bouhlel, L.Kamoun et B.Solaiman, ISBN:9973-41-685-6, Mars 2003

[KAS87] M. Kass, A. Witkin, and D. Terzopoulos, “Snakes: Active contour models,” Int. J. Comput. Vis., vol. 1, pp. 321–331, 1987.

[KHA02]I. Khanfir, A. Kallel, K. Taouil, M. S. Bouhlel, L. Kamoun "Segmentation d'Images par Seuillage d'Histogramme, Application à l'Analyse des Mélanomes", 2ème Conférence Internationale JTEA 21-23 Mars 2002.

[KHA03] I. Khanfir, K. Taouil, M. S. Bouhlel, L. Kamoun, « Strategie de traitement des images de lesions dermatologiques », Sciences Electronique, Technologies de l’Information et des Télécommunications, ed M.S.Bouhlel, B.Solaiman et L.Kamoun. ISBN 9973-41-685-6, Mars 2003.

[LEP03] : R. LEPAGE, B. SOLAIMAN, Les réseaux de neurones artificiels et leurs applications en imagerie et en vision par ordinateur, Ecole de technologie supérieure, 2003.

[LER99] Philippe Leray and Patrick Gallinari, Feature Selection with Neural Networks. P. 1999.

[MAG05] Maglogiannis I. Pavlopoulos. D. Koutsouris; D. Koutsouris, “An Integrated Computer Supported Acquisition, Handling, and Characterization System for Pigmented Skin Lesions in Dermatological Images” IEEE Transactions on Information Technology in Biomedicine, vol. 9, no. 1, March 2005.

[MEH02] Mehru be Mehru beog lu, Nasser Kehtarnavaz, Guillermo Marquez, Madeleine Duvic, and Lihong V. Wang, "Skin lesion classification using oblique-incidence. diffuse reflectance spectroscopic imaging ", Applied optics _ Vol. 41, No. 1 _ 1 January 2002.

[MET03] Methodologic Issues, Charles E. Metz, Ph.D., Fourth National Forum on Biomedical Imaging in Oncology, February 6-7, 2003

[POP04] R. Popa and D. Aiordăchioaie, “Genetic Recognition of Changes in Melanocytic Lesions”. The 8th International Symposium on Automatic Control and Computer Science, SACCS 2004, Iasi, Romania, 22-23 October, 2004.

[Sap90] G. Saporta, "Portabilités, Analyse de données et Statistique", Editions Technip, 1990.

[SCH03] P. Schmid-Saugeon, J. Guillod, J. P. Thiran, “Towards a computer-aided diagnosis system for pigmented skin lesions” Computerized Medical Imaging and Graphics 27 (2003) 65–78

[TAO02] K. Taouil, M. S. Bouhlel, M. Elloumi, L. Kamoun "Quantification des Caractéristiques de Mélanomes en vue d'une Classification", 2ème Conférence Internationale JTEA 21-23 Mars 2002.

[TAO06] K. Taouil, N. B. Romdhane and Med Salim Bouhlel, “A new automatic approach for edge detection of skin lesion images”: 2nd IEEE International Conference on Information & Communication Technologies: from Theory to Applications (ICTTA06), Damascus (Syria), 24-28 April, 2006.

[WAS05] G. I. WASSI, « Radiolocalisation en milieu confiné non stationnaire », faculté des sciences et de génie québec, 2005.

[XU99] L. Xu, M. Jackowski, A. Goshtasby, D. Roseman, S. Bines, C. Yu, A. Dhawan, A. Huntley “Segmentation of skin cancer images”, Image and Vision Computing 17 (1999) 65–74

[YAN00] Song yang and Ling Guan, “A CAD system for the automatic detection of clustered microcalcifications in digitized mammogram films”, IEEE transactions on medical imaging, vol.19, NO.2, February 2000.

[ZAG04] E. Zagrouba and W. Barhoumi, "a Prelimary approach for the Automated Recognition of Malignant Melanoma", Image Anal Stereol, 23:121-135, 2004.

[ZHA05] C. G Zhao, Tian Ge Zhuang, “A hybrid boundary detection algorithm based on watershed and snake”, Pattern Recognition Letters 26(2005)1256–1265.

- 7 -