departement d'informatique these

DEPARTEMENT D'INFORMATIQUE

Présentée par

ABDELOUHAB Faw zia Zohra

Pour obtenir

LE DIPLOME DE DOCTORAT EN SCIENCES

Filière: Informatique

Spécialité: Informatique

Soutenue le : 05 / 04 /2017 à 10h à la bibliothèque de la faculté des Sciences

Exactes et Appliquées d’Oran1 Ahmed Ben Bella.

Devant les membres du jury :

Directeur de Thèse : B. ATMANI Professeur à l’Université d’Oran 1, Ahmed Ben Bella

Président : B. Beldjilali, Professeur à l’Université d’Oran 1, Ahmed Ben Bella

Examinateur : A. Amine, Professeur à l’Université de Saïda

Examinateur : A. Benyettou Professeur à l’Université Mohamed Boudiaf, USTO

Examinateur : K. Bouamrane Professeur à l’Université d’Oran 1, Ahmed Ben Bella

Examinateur : A. Rahmoun Professeur à Ecole Supérieure d’Informatique, SBA

CONCEPTION ET REALISATION D’UN SYSTEME CELLULAIRE

D’ALIMENTATION D’ENTREPOT DE DONNEES A PARTIR DES

SOURCES DE DONNEES HETEROGENES

A cœur vaillant rien d’impossible

A conscience tranquille tout est accessible

Quand il y a la soif d’apprendre

Tout vient à point à qui sait attendre

Quand il y a le souci de réaliser un dessein

Tout devient facile pour arriver à nos fins

Malgré les obstacles qui s’opposent

En dépit des difficultés qui s’interposent

Les études sont avant tout

Notre unique et seul atout

Ils représentent la lumière de notre existence

L’étoile brillante de notre réjouissance

Comme un vol de gerfauts hors du charnier natal

Nous partons ivres d’un rêve héroïque et brutal

Espérant des lendemains épiques

Un avenir glorieux et magique

Souhaitant que le fruit de nos efforts fournis

Jour et nuit, nous mènera vers le bonheur fleuri. Extrait du Net

Dédicaces

A l’Homme le plus important de ma vie,

l’Homme de référence qui depuis mes

premiers pas boiteux n’avais jamais cessé de

me guider, de me conseiller, avait toujours été

soucieux du moindre détail de ma vie autant

personnelle que professionnelle. Cette thèse

aurait été la consécration de tous ses efforts…

Je regrette tellement de ne pas l’avoir fini en

son vivant. Papa !!! Ton sourire, ta chaleur et

ton « je suis fier de toi ma fille » me manquent

tellement….

A la mémoire de ma sœur Fatiha

A ma mère

A mes enfants

A mes sœurs et leurs petites familles

A mon frère et sa petite famille

Remerciements

« L'homme n'est rien sans les autres »

Seydou BADIAN.

C'est pourquoi, je tiens à remercier tous ceux qui, par leurs conseils, leurs suggestions et leurs

disponibilités, ont contribué à l'aboutissement de ce travail de recherche. Mes remerciements

vont particulièrement à :

Monsieur le Professeur Atmani Baghdad, mon directeur de thèse, pour m’avoir fait confiance

en me proposant ce sujet, pour son soutien scientifique et méthodologique, pour nos

nombreuses discussions par téléphone ou par Skype, mais surtout pour sa patience et le temps

qu'il a consacré dans les phases de lecture, de correction et de régulation de mon mémoire. Je

lui adresse également un grand merci pour m’avoir supporté pendant mes moments les plus

durs. Il est évident que sans lui cette thèse n’aurait pas pu voir le jour et serait moins bien

présentée. Il m’a beaucoup appris. Qu’il trouve dans ces quelques mots l’expression de ma

gratitude.

Au-delà de la formalité d’usage, c’est avec un grand plaisir que je remercie, également, les

membres de mon jury à savoir:

Monsieur le Professeur Bouziane Beldjilali, mon maître que je respecte beaucoup, pour avoir

autrefois encadré mes travaux de magister et avoir aujourd’hui accepté de m’honorer par sa

présence et présider le jury.

Monsieur le Professeur Karim Bouamrane, pour avoir accepté de faire partie de mon jury,

pour la joie qu’il a eu lorsqu’il a appris que j’ai enfin fini cette thèse et pour toute la

compréhension sincère et discrète qu’il m’a témoigné depuis nos années d’études.

Messieurs le Professeur Abdelmalek Amine, le Professeur Abdelkader Benyettou et le

Professeur Abdelatif Rahmoun, pour avoir pris le temps de lire avec attention ma thèse et me

faire profiter de leurs remarques pertinentes et constructives.

Je tiens à remercier ma mère, cette dame douce et affable à la présence unique, qui malgré

mes difficultés d’enfance a su me donner l’amour nécessaire pour faire de moi une femme

adulte accomplie. Sa douceur, sa compassion et ses prières me guident à braver les déboires

de la vie. Qu’elle trouve ici toute la sincérité et la profondeur que ces mots ne sont pas

capables d’exprimer.

Je ne manque pas de remercier énormément mes enfants, mes joyaux et ma fortune, pour leur

soutien, leur compréhension et leur efficacité à gérer le quotidien seuls pour me libérer

surtout pendant la période de rédaction…Qu’ils trouvent dans ces lignes la promesse d’un

avenir meilleur.

Un grand merci à mes sœurs pour avoir trouvé le temps (ce qui n’est pas évident) d’écouter

mes jérémiades, de me venir en force dans les moments difficiles et de me soutenir. Merci à

mon frère qui a pris, d’une certaine manière, le flambeau paternel. Merci à Imène pour ses

talents de traductrice et de grande psychologue. Merci à mes nièces et mes neveux. Merci à

mes beaux-frères et à ma belle-sœur.

Qu’aurais-je fais sans la présence de ma sœur de cœur Khira Zineb. Nous avons tant partagé

ensemble peines et joies, fous rires et larmes mais nous avons surtout passé de bons moments

qui n’appartiennent qu’à nous.

Mes remerciements sincères s’orientent vers tous mes collègues du département Informatique

et particulièrement à Taghzout Noria, Hamdadou Djamila, Abdelkader Adla, Mokaddem

Mostéfa ainsi qu’à Benhacine Fatima Zohra. Aussi à mes voisines et sœurs Hammadi Fatima

et Wali Faiza.

Merci à notre regretté Houari (Lah yarhmah) pour l’homme généreux, serviable et souriant

qu’il avait été.

Succinctement, mais avec une profonde sincérité, je remercie le Professeur Layadi Khaled,

médecin spécialiste en médecine physique et réadaptation fonctionnelle au CHU d’Oran, pour

m’avoir présenté à son équipe de médecins et m’avoir fait découvrir un nouveau monde de

compétences et d’altruismes qui est le monde de l’Ethique médicale. Son enthousiasme, son

courage et sa persévérance ont influé ma vision sur l’accomplissement de ma thèse. J’espère

avoir toujours autant de volonté que lui pour mener mes recherches futures.

En rédigeant ces remerciement je me rends compte, aujourd’hui, à quel point je suis comblée

de vous avoir tous autour de moi. C’est vrai que la vie m’a donné des coups, mais m’a donné

aussi des bonbons pour me consoler….

Merci…

Résumé

Dans le cadre de l’ingénierie des connaissances et plus précisément dans l’intégration des

données hétérogènes par ontologies, notre approche tente d’apporter une contribution au

problème de l’interopérabilité sémantique des données hétérogènes. L’accent est mis sur le

processus d’intégration de différentes sources hétérogènes. Nous avons développé la

problématique de notre travail autour d’un projet de recherche national où il était question de

mettre en place une architecture orientée service pour le programme élargi de vaccination des

services épidémiologiques et de médecine préventive (SEMEP). Notre contribution se

focalise, essentiellement sur l’intégration des données hétérogènes que manipulent les

SEMEP via des ontologies locales pour lever le voile sur l’hétérogénéité structurelle et

sémantique des données. La problématique d'intégration, de modélisation, de structuration et

d'extraction de connaissances à partir de données complexes nécessite une méthodologie et

des outils génériques adaptés.

D’un autre côté, des automates cellulaires se présentant comme des machines capables de

s’auto-reproduire dont le modèle de calcul se fonde sur l'utilisation d'un espace discret dans

lequel des fonctions simples de transition permettent d'obtenir un comportement global

complexe. En effet, malgré la simplicité des règles qui les définissent, ils font apparaître de

nombreux phénomènes imprévisibles, qui sont a priori difficilement obtenues par des

méthodes analytiques classiques. L’idée d’utiliser le formalisme puisant des automates

cellulaires pour résoudre le problème d’intégration dans les entrepôts de données, représente

l’ossature de cette thèse. Ceci se traduit par l’exploitation du principe de base du système

cellulaire 𝐶𝐴𝑆𝐼 (Cellular Automata for Symbolic Induction) (Atmani & Beldjilali, 2007) pour

proposer un nouveau système cellulaire pour l’alimentation des entrepôts à partir de sources

hétérogènes. Cet objectif est réalisé en deux temps. En premier lieu la réalisation d’un

système d’intégration par la fusion des ontologies de domaines sous la garantie de la machine

cellulaire. Cette dernière nous offre un moyen simple pour minimiser la complexité en temps

et en espace de l’algorithme de fusion par l’utilisation de la modélisation booléenne des

ontologies à fusionner. Ce point est très important puisqu’il nous facilite le passage à échelle.

En deuxième lieu nous avons exploré une autre voie de recherche le datamining pour

mettre en œuvre une nouvelle technique d’alignement extensionnel des ontologies basée sur la

modélisation booléenne 𝐶𝐴𝑆𝐼. Nous exploitons le paradigme des règles d’association pour

extraire des correspondances entre les ontologies à partir du vocabulaire utilisé dans les

descriptions de leurs instances. L’idée sous-jacente à notre approche est que deux concepts 𝑐1

et 𝑐2, appartenant à deux ontologies 𝑂1 et 𝑂2 respectivement, sont en relation d’implication

ou d’équivalence si le vocabulaire utilisé dans les descriptions et les instances de 𝑐1, a

tendance à être inclus dans celui de 𝑐2.

Mots Clés : Intégration des données, Interopérabilité sémantique des données, Les ontologies,

La fusion des ontologies, Alignement des ontologies, Les règles d’association, La machine

cellulaire 𝐶𝐴𝑆𝐼.

Abstract

Our study focus on the heterogeneous data integration by ontology which is a composant

of the engineering knowledge, our approach offers a solution for the semantic interoperability

of heterogeneous data. We focus on the integration process of different heterogeneous

sources. We developed and applied our work on a national research project where a service-

oriented architecture was proposed for the expanded epidemiological and preventive medicine

immunization program (SEMEP). Our contribution focuses mainly on the integration of the

heterogeneous data manipulated by the SEMEPs through local ontologies to highlight the

structural and semantic heterogeneity of the data. The integration, modeling, structuring and

extraction of knowledge from complex data requires adapted generic methodology and tools.

On the other hand, cellular automata can be presented as self-reproducing machines with

a calculation model based on the use of a small space in which simple transitional functions

allow to obtain a global behavior complex. Indeed, despite the simplicity of the rules that

define them, they reveal many unpredictable phenomena, which seem difficult to be obtained

by classical analytical methods. The idea of using the formalism of cellular automata to solve

the problem of integration in data warehouses represents the framework of this thesis is built.

This is reflected in the basic principle of the Cellular 𝐶𝐴𝑆𝐼 (Cellular Automata for Symbolic

Induction) (Atmani & Beldjilali, 2007) to propose a new cellular system for feeding

warehouses from heterogeneous sources. This objective is achieved in two stages. First, the

realization of an integration system by the fusion of ontologies of domains under the

guarantee of the cellular machine, that offer us a simple way to minimize the complexity in

time and space of the fusion algorithm by using a Boolean modelization of the ontologies to

be merged. This point is very important since it facilitates the scaling.

Secondly we explored an alternative way of research using the datamining to implement a

new technique of extensional ontology alignment based on Boolean modeling 𝐶𝐴𝑆𝐼. The

paradigm of association rules is used to extract correspondences between ontologies starting

from the vocabulary used in the instances descriptions. The underlying idea of our approach is

that two concepts 𝑐1 and 𝑐2, belonging to two ontologies 𝑂1 and 𝑂2 respectively, are in

relation of implication or equivalence if the vocabulary used in the descriptions and the

instances of 𝑐1, tends to be included in those of 𝑐2.

Keywords: Data Integration, Data Semantic Interoperability, ontologies, ontology fusion,

alignment of ontologies, association rules, cellular machine 𝐶𝐴𝑆𝐼.

F.Z. Abdelouhab Page 8

SOMMAIRE

Liste des Figures ......................................................................................................................... 12

INTRODUCTION GENERALE ......................................................................................................... 14

1. Contexte de la thèse ...................................................................................................................... 14

2. Problématique ............................................................................................................................... 16

3. Objectifs ......................................................................................................................................... 18

4. Contributions de la thèse .............................................................................................................. 19

5. Organisation de la thèse ................................................................................................................ 20

Chapitre 1 : Fondements des Ontologies ..................................................................................... 23

1.1 Quelques définitions ................................................................................................................... 23

1.1.1 Définition philosophique ...................................................................................................... 24

1.1.2 Définition informatique ........................................................................................................ 24

1.1.3 Définition littéraire ............................................................................................................... 25

1.1.4 Définition Formelle ............................................................................................................... 25

1.2 Les Constituants d’une Ontologie ............................................................................................... 26

1.2.1 Concepts ............................................................................................................................... 26

1.2.2 Les Relations ......................................................................................................................... 27

1.2.3 Les fonctions ......................................................................................................................... 28

1.2.4 Les axiomes .......................................................................................................................... 28

1.2.5 Instances ............................................................................................................................... 29

1.3 L’intérêt d’une ontologie ............................................................................................................. 29

1.4 Construction des ontologies ........................................................................................................ 31

1.4.1 Les Principes ......................................................................................................................... 31

1.4.2 Les Méthodologies ............................................................................................................... 32

1.4.3 Les Outils .............................................................................................................................. 35

1.5 Langages et plates-formes pour les ontologies ........................................................................... 35

1.6 La classification des ontologies ................................................................................................... 37

1.6.1 Classification selon l’objet de conceptualisation ................................................................. 37

1.6.2 Classification selon le niveau de détail ou de granularité .................................................... 40

SOMMAIRE

F.Z Abdelouhab Page 9

1.6.3 Classification selon le formalisme de représentation .......................................................... 41

1.6.4 Classification selon le niveau de complétude ...................................................................... 41

1.6.5 Classification selon la richesse de la structure interne ........................................................ 42

1.7 Apports des ontologies ................................................................................................................ 43

1.8 Problématique des ontologies .................................................................................................... 44

1.9 Conclusion ................................................................................................................................... 45

Chapitre2 : Intégration des données par fusion des Ontologies .................................................... 47

2.1 Intégration des données du Web ................................................................................................ 49

2.1.1 Intégration de données ........................................................................................................ 50

2.1.2 Intégration des applications ................................................................................................. 50

2.1.3 Intégration des processus .................................................................................................... 50

2.2 Intégration des données via des ontologies ................................................................................ 50

2.3 Composants théoriques de l'intégration ..................................................................................... 52

2.4 Hétérogénéité des données ........................................................................................................ 53

2.5 Interopérabilité des données ...................................................................................................... 54

2.6 Interopérabilité sémantique ....................................................................................................... 57

2.6.1 Techniques pour l’interopérabilité sémantique ................................................................... 57

2.7 La fusion d’ontologies ................................................................................................................. 58

2.7.1 Les méthodes de fusion d’ontologies ................................................................................... 58

2.7.2 Les approches de Fusion ...................................................................................................... 59

2.7.3 Réutilisation des ontologies ................................................................................................. 64

2.8 Conclusion ................................................................................................................................... 65

Chapitre3 : Mises en correspondance des ontologies ................................................................... 67

3.1 Définition de l’Alignement .......................................................................................................... 67

3.1.1 Terminologies (Klein, 2001) ................................................................................................. 67

3.1.2 Le processus d’alignement ................................................................................................... 68

3.1.3 Extraction de l’alignement ................................................................................................... 69

3.2 Alignement des ontologies .......................................................................................................... 70

3.2.1 Domaine d’application de l’alignement des ontologies ....................................................... 70

3.2.2 Les approches d’alignement des ontologies ........................................................................ 72

SOMMAIRE

3.2.2 Les méthodes de calcul de similarité ................................................................................... 73

3.2.3 La classification des méthodes de Matching ........................................................................ 73

3.2.4 Les stratégies de combinaison de Matchers ........................................................................ 75

3. 2.5. Les outils d’alignement des ontologies .............................................................................. 78

3.2.6 Les Frameworks d’alignement d’ontologies ......................................................................... 79

3.2.7 Comparaison des différents outils et Frameworks .............................................................. 80

3.3 Alignement extensionnel des ontologies .................................................................................... 81

3.3.1 Alignement Extensionnel des Ontologies : Etat de l’Art ...................................................... 81

3.3.2 Alignement extensionnel : Règles d’association .................................................................. 82

3.4 Alignement des ontologies et le passage à l’échelle ................................................................... 83

3.4.1 Alignement pair-wise............................................................................................................ 83

3.4.2 Alignement holistique .......................................................................................................... 86

3.5 Conclusion ................................................................................................................................... 87

Chapitre4 : Une approche cellulaire d’intégration ........................................................................ 90

4.1 La machine cellulaire 𝑪𝑨𝑺𝑰 ......................................................................................................... 90

4.1.1 Configuration de la machine 𝑪𝑨𝑺𝑰 ...................................................................................... 93

4.1.2 La dynamique de la machine 𝑪𝑨𝑺𝑰 ...................................................................................... 94

4.2 L’approche proposée ................................................................................................................... 95

4.2.1 Phase1 : Génération des ontologies ..................................................................................... 96

4.2.1.1 Règle de construction de classes .................................................................... 100

4.2.1.2 Règles de Construction de Propriétés ............................................................. 101

4.2.1.3 Règle de Construction de Relation d’Héritage ............................................... 102

4.2.1.4 Règles de Construction des Axiomes ............................................................ 102

4.2.1.5 Règles de Construction des Instances ........................................................... 104

4.2.2 Phase2 : Alignement des ontologies ................................................................................. 105

4.2.2.1 Alignement structurel ..................................................................................... 106

4.2.2.2 Alignement extensionnel ................................................................................ 108

4.2.3 Phase3 : La fusion des ontologies ....................................................................................... 109

4.2.4 Phase 4 : Stockage booléen ................................................................................................ 109

4.3 La fusion booléenne des ontologies .......................................................................................... 110

4.3.1 Modélisation booléenne d’une ontologie .......................................................................... 110

4.3.2 Inférence booléenne de l’ontologie ................................................................................... 114

SOMMAIRE

4.3.3 Génération de l’ontologie finale ........................................................................................ 117

4.3.4 Formalisation de l’ontologie booléenne ............................................................................ 118

4.4 Discussion .................................................................................................................................. 119

4.4.1 Discussion sur le 1er point ................................................................................................... 119

4.4.2 Discussion sur le 2ème point ................................................................................................ 119

4.4.3 Discussion sur le 3ème point ................................................................................................ 120

4.5 Conclusion ................................................................................................................................. 121

Chapitre5 : Alignement extensionnel des ontologies par les règles d’association ......................... 124

5.1 Exemple d’illustration ................................................................................................................ 124

5.2 Formalisation de l’ontologie contextualisée ............................................................................. 126

5.3 Les difficultés d’alignement des ontologies .............................................................................. 128

5.4 L’approche proposée ................................................................................................................. 129

5.4.1 Génération de la base d’instance ....................................................................................... 132

5.4.3 Le Mapping booléen ........................................................................................................... 134

5.4.4 Interprétation des Résultats ........................................................................................ 134

5.4.5 Génération de l’Ontologie Finale ....................................................................................... 135

5.4.6 Stockage de l’ontologie finale ............................................................................................ 136

5.5 Expérimentation ........................................................................................................................ 137

5.5.1 En tant que système cellulaire ........................................................................................... 138

5.5.2 En tant que système de Matching ...................................................................................... 138

5.5.3 En tant que système d'extraction des règles d'association ............................................... 139

5.5.4 En tant que système de fusion holistique .......................................................................... 140

5.6 Expérimentation de l’approche dans la vaccination ................................................................. 141

5.6.1 La mission des SEMEP ........................................................................................................ 142

5.6.2 Le Processus de Vaccination ............................................................................................... 142

5.7 Conclusion ................................................................................................................................. 147

CONCLUSION GENERALE & PERSPECTIVES .................................................................................. 148

Annexe A : Ontologie de Vaccination ......................................................................................... 152

Références ................................................................................................................................ 159

Liste des Figures

FIGURE 1-1 CADRE D’ANALYSE DES METHODOLOGIES RECENSEES (PSYCHE, ET AL., 2004) .................................. 34

FIGURE 1-2: TYPOLOGIES D’ONTOLOGIES SELON QUATRE DIMENSIONS DE CLASSIFICATION ................................. 37

FIGURE 1-3: CLASSIFICATION SELON L’OBJET DE CONCEPTUALISATION (PSYCHE, ET AL., 2004) .......................... 38

FIGURE 1-4: CLASSIFICATION SELON LE NIVEAU DE GRANULARITE (PSYCHE, ET AL., 2004) ................................. 40

FIGURE 1-5: CLASSIFICATION SELON LE FORMALISME DE REPRESENTATION (PSYCHE, ET AL., 2004) ................... 41

FIGURE 1-6: CLASSIFICATION SELON LE NIVEAU DE COMPLETUDE (PSYCHE, ET AL., 2004) .................................. 42

FIGURE 1-7: CLASSIFICATION SELON LA STRUCTURE INTERNE............................................................................... 43

FIGURE 2-1 ORGANIGRAMME DU SEMEP (BRAHAMI, 2014) ............................................................................... 47

FIGURE 2-2 LES APPROCHES D’INTEROPERABILITE SEMANTIQUE ........................................................................... 56

FIGURE 3-1 LE PROCESSUS D’ALIGNEMENT ........................................................................................................... 69

FIGURE 3-2 ARCHITECTURE DES APPLICATIONS D’ALIGNEMENT ........................................................................... 70

FIGURE 3-3 CLASSIFICATION DES MATCHERS ........................................................................................................ 74

FIGURE 3-4 CLASSIFICATION DES APPROCHES DE MATCHING ................................................................................ 76

FIGURE 3-5 COMPOSITION SEQUENTIELLE DES MATCHERS COMPOSITION SEQUENTIELLE DES MATCHERS 78

FIGURE 4-1 PASSAGE DE LA CONFIGURATION G0 A LA CONFIGURATION G1 .......................................................... 95

FIGURE 4-2 ARCHITECTURE GENERALE DU PROJET ................................................................................................ 96

FIGURE 4-3 INTERFACE DE L’OUTIL DE GENERATION D’ONTOLOGIE A PARTIR ....................................................... 99

FIGURE 4-4 LE MODELE CONCEPTUEL DE LA BASE DE DONNEES VACCINATION .................................................... 100

FIGURE 4-5 GENERATION DES CLASSES A PARTIR DES RELATIONS ...................................................................... 101

FIGURE 4-6 CONSTRUCTION DES PROPRIETES D’OBJET ........................................................................................ 101

FIGURE 4-7 CONSTRUCTION DES PROPRIETES DE DONNEE ................................................................................... 102

FIGURE 4-8 CONSTRUCTION DES AXIOMES DES CLES ........................................................................................... 102

FIGURE 4-9 CONSTRUCTION DES AXIOMES DES ATTRIBUTS « NOT-NULL » ...................................................... 103

FIGURE 4-10 CONSTRUCTION DES AXIOMES DES ATTRIBUTS « UNIQUE » ......................................................... 103

FIGURE 4-11 CONSTRUCTION DES INSTANCES ..................................................................................................... 104

FIGURE 4-12 L’ONTOLOGIE GENEREE A PARTIR DE LA BASE DE DONNEES VACCINATION ..................................... 105

FIGURE 4-13 EXEMPLE DE TROIS ONTOLOGIES .................................................................................................... 106

FIGURE 4-14 ENRICHISSEMENT SEMANTIQUE ...................................................................................................... 108

FIGURE 4-15 LA FUSION CELLULAIRE .................................................................................................................. 110

FIGURE 4-16 LA BASE DE REGLES LA BASE DE FAITS .................................................................................... 112

FIGURE 4-17 REPRESENTATION BOOLEENNE DE LA MATRICE 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 ............................................................. 112

FIGURE 4-18 REPRESENTATION BOOLEENNE DE LA MATRICE 𝐶𝐸𝐿𝑅𝑈𝐿𝐸 ........................................................... 113

FIGURE 4-19 MATRICE D’ENTREE RE .................................................................................................................. 113

FIGURE 4-20 MATRICE DE SORTIE RS .................................................................................................................. 114

FIGURE 4-21 GRAPHE DE L'ONTOLOGIE FINALE ................................................................................................... 117

FIGURE 5-1 CLASSIFICATION DES VACCINS SELON LEURS TYPES D'ORGANISME ................................................... 127

FIGURE 5-2 CLASSIFICATION DES VACCINS SELON LEURS TYPES DE RECOMMANDATION ..................................... 127

FIGURE 5-3 CLASSIFICATION DES VACCINS SELON LEURS TYPES DE PREPARATION .............................................. 127

Liste des Figures

FIGURE 5-4 ONTOLOGIE DES VACCINS CONTEXTUALISEE .................................................................................. 126

FIGURE 5-5 PROCESSUS D’ALIGNEMENT DE NOTRE APPROCHE ............................................................................ 129

FIGURE 5-6 ONTOLOGIES CONTEXTUALISEES ...................................................................................................... 130

FIGURE 5-7 LES ONTOLOGIES PARTAGENT LE MEME ENSEMBLE D’INSTANCES..................................................... 131

FIGURE 5-8 BASE D’APPRENTISSAGE (TABLE DES TRANSACTIONS) ..................................................................... 132

FIGURE 5-9 BASE DE CONNAISSANCES GENEREE A PARTIR DES REGLES D’ASSOCIATION ..................................... 134

FIGURE 5-10 SCHEMATISATION DU RESULTAT DU MATCHING ............................................................................. 135

FIGURE 5-11 ONTOLOGIE GLOBALE DE FUSION DES TROIS CLASSIFICATIONS ....................................................... 136

FIGURE 5-12 SCHEMA EN ETOILE DE L’ENTREPOT DE DONNEES ........................................................................... 136

FIGURE 5-13 REPRESENTATION PHYSIQUE DE L’ENTREPOT .................................................................................. 137

FIGURE 5-14 REPRESENTATION BOOLEENNE DE NOTRE ONTOLOGIE .................................................................... 137

FIGURE 5-15 DIAGRAMME D’ETAT-TRANSITION .................................................................................................. 142

FIGURE 5-16 PROCESSUS DE LA COUVERTURE VACCINALE ................................................................................. 143

FIGURE 5-17 ONTOLOGIE VACCINATION DONNEE PAR PROTEGE3.1 .................................................................... 144

FIGURE 5-18 ONTOLOGIE DE PROCESSUS ASSOCIEE A L’ONTOLOGIE DE DOMAINE DE VACCINATION ................. 144

FIGURE 5-19 EXTRAIT DE L’ONTOLOGIE DE PROCESSUS DE VACCINATION ......................................................... 145

INTRODUCTION GENERALE

1. Contexte de la thèse

Depuis une vingtaine d’années, l’accès aux connaissances médicales est un enjeu majeur

pour les professionnels de la santé comme pour le grand public. Face à la multiplication des

sources d’informations potentiellement accessibles et face à l’augmentation vertigineuse de la

production textuelle, les limites actuelles des outils de traitement de l’information ne

proviennent pas de leurs performances pour stocker et traiter rapidement des gros volumes,

mais de leur incapacité à prendre en compte les spécificités des vocabulaires métiers des

utilisateurs (Baneyx, 2007). Nous nous sommes penchées sur cette question en participant au

projet national PNR1 intitulé architecture orientée service pour le programme élargi de

vaccination développé au sein de l’équipe AIR « Apprentissage automatique, Intelligence

artificielle et Raisonnement » du laboratoire d’Informatique d’Oran (LIO) auquel je fais

partie. L’idée principale du projet PNR est la conception et la réalisation d'une Architecture

Orientée Service (SOA) pour répondre à une intégration efficace faisant coexister et coopérer

plusieurs processus métiers afin d’automatiser le Programme Elargi de Vaccination (PEV) et

avoir en permanence disponibles toutes les données de vaccination pour une meilleure

exploitation par les Services d’Epidémiologie et de MEdecine Préventive (SEMEP) de

l’Algérie.

Le SEMEP, se défini comme un centre médical qui coordonne, entre autre, des Unité de

la Protection Maternelle et Infantile (PMI) sur une circonférence englobant plusieurs wilayas.

Celles-ci représentent les points d’accueils des individus pour les vaccinations, le suivi

médical etc… Dans ce sens, elles représentent pour le SEMEP ses principales sources

d’information (ou même des systèmes d’information) dont il a besoin pour ses éventuelles

prises de décisions. La qualité de la décision qu’elle soit collaborative et/ou coopérative

dépend de la qualité des interactions entre les différentes PMI et le SEMEP.

Des efforts considérables sont, continuellement, déployés par les SEMEP, afin de lutter

contre certaines maladies dévastatrices et ceci, par la mise en place du PEV. Les objectifs de

ce dernier sont dirigés vers (1) une augmentation de la couverture vaccinale, (2) la réduction

du poids de certaines maladies (éradiquer la poliomyélite, éliminer la rougeole, contrôler le

tétanos néonatal etc…) (3) la sécurité des vaccinations, la pérennité des programmes, la

vaccination individuelle, dite de routine, fondée sur un calendrier de vaccination précis et

enfin, la vaccination de porte à porte qui permet aux populations isolées, d’accessibilité faible

aux structures de soins, de bénéficier des avantages de la vaccination.

Cependant, l’Algérie d’aujourd’hui est bien loin de celle des années 60. La population a

multiplié de volume et se répand sur un territoire bien plus grand ce qui n’est pas sans poser

des problèmes au niveau du SEMEP pour causes sociodémographiques et socioéconomiques

telles que :

1 http://www.cerist.dz/doc/PNR/tic/Une_architecture_orientee_service_programme_elargi_vaccination.pdf

le découpage géostratégique du territoire donne naissance à des régions rurales très

éloignées et difficile d’accès.

le développement socioprofessionnel au niveau des grandes villes provoque un exode

permanent et important de la population rendant difficile de suivre la trace médicale

d’une personne. C’est un problème courant connu sous le nom « des perdus de vus ».

la présence des ressources informatiques révolues ne répondant plus à la croissance

permanente de la population et aux besoins précis des utilisateurs.

D’un autre côté, la vaccination en Algérie est un processus assez complexe mettant en

collaboration plusieurs types d’intervenants et plusieurs systèmes difficile à se synchroniser,

en commençant par les services de la wilaya jusqu’aux services publiques de la santé. Pour

cela, le SEMEP se doit de coordonner les différents systèmes d’informations sous-jacents à

tous les services participant à cette vaccination. Ce processus, passe par l’historique vaccinal,

consulte l’approvisionnement en vaccin, utilise la géolocalisation, influence l’épidémiologie

etc… autant de systèmes et de services pour progresser vers une qualité de vaccination. Telle

une réaction en chaine, il est évident que la réussite de la vaccination, dont dépend celle du

PEV, reste étroitement liée à la qualité de la coordination et du taux d’implication de chaque

sous-système y participant.

Tous ces facteurs rendent les données de vaccination incohérentes et compromettantes

aux programmes de vaccination. Pour ce fait, notre projet a comme objectif d’améliorer, déjà,

la communication inter-PMI d’un côté et entre les PMI et le SEMEP d’un autre côté. L’enjeu

est donc de développer des outils logiciels facilitant l’interopérabilité entre ces systèmes

d’informations pour faciliter aussi bien l’échange et l’accès aux informations distantes qu’aux

informations locales par des agents humains et des machines en temps réel. D’un autre côté, le

SEMEP doit disposer, entre autre, d’une vue complète sur le carnet vaccinal de tout individu.

Le carnet vaccinal ou de vaccination est un document acquis dès la naissance

rassemblant l’information sur tous les vaccins reçus par une personne. Au fil des ans, les

individus changent de localité soit inter-commune ou même inter-wilaya pour des raisons

professionnelles, sociales ou autres. On supposant que cette personne, respectant fidèlement le

programme de vaccination, se vaccine donc régulièrement. Au bout d’un temps son carnet

vaccinal va contenir des données se retrouvant dans autant de sites physiques que

d’établissements où cette personne a été vaccinée; cela empêche donc le vaccinateur ainsi que

la personne elle-même d’avoir une vue complète sur son carnet vaccinal.

Dans ce contexte, l’interopérabilité et l’intégration des sources de données deviennent,

alors, pour le SEMEP, des solutions triviales afin de pouvoir réussir son PEV et de satisfaire

les besoins des enfants à vacciner. Tout ceci permet de renforcer son système de

vaccinovigilance et de guider de façon efficace les activités des PEV. Utiliser une banque de

données au lieu du carnet de vaccination, par exemple, peut être utile pour établir une

traçabilité vaccinale d’une personne, identifier les personnes qui ont besoin d’un vaccin et

calculer les taux de vaccination selon une région géographique, d’un groupe d’âge en

particulier ou d’autres caractéristiques. En d’autres termes, une banque de données vaccinales

serait l’élément clé d’un véritable système décisionnel (Mbaiossoum, et al., 2013).

Comme nous l’avons souligné plus haut, les différentes PMI doivent coopérer ensemble

pour une meilleure prestation de vaccination. Pour cela, il est nécessaire de s’intéresser à

l’interopérabilité de leurs systèmes d’information afin d’assurer une mutation des carnets de

vaccination et de réduire les différents coûts du PEV. Dans la pratique, ceci se traduit par la

réalisation d’une plateforme de suivi, évolutive, pouvant intégrer les connaissances relatives

aux différentes PMIs. Ces connaissances et les ressources utilisées, étant forcément

hétérogènes, rendent leur compréhension et leur analyse très difficile. La préservation du sens

de l’information échangée est alors un problème important. C’est ce que l’on appelle

l’interopérabilité sémantique (Hajjam, 2013). La prise en compte de cette sémantique permet

aux différentes PMI ainsi qu’au SEMEP de combiner les informations reçues avec des

informations locales et de traiter l’ensemble de manière cohérente.

Les bases de données relationnelles demeurent, certes, le moyen le plus populaire pour

stocker, rechercher et manipuler des données. Cependant, la structure et les contraintes

d’intégrités du modèle relationnel sont définies sur des schémas qui ne s’apprêtent pas

directement à une intégration (Muller, 1998). Pour garantir l’interopérabilité sémantique,

l’information échangée entre systèmes doit d’abord être décrite dans une structure formelle

permettant de préserver sa sémantique. C’est un problème récurrent dans le domaine de

l’ingénierie des connaissances, où des méthodologies et des techniques sont proposées pour

percevoir, identifier, analyser, organiser et partager des connaissances entre différentes

entités. Parmi ces techniques, les ontologies qui connaissent une évolution fulgurante depuis

une dizaine d’années et qui apparaissent comme le moyen efficace pour la représentation des

connaissances et leurs sémantiques (Bellatreche, et al., 2006). L’objectif étant de représenter

les connaissances du SEMEP et de les manipuler automatiquement, tout en gardant leurs

sémantiques. L’utilisation des ontologies dans le projet PNR est plus que nécessaire

puisqu’elles garantissent l'interopérabilité des différentes sources de données (Hajjam, 2013).

Pour ce faire, il nous a fallu restructurer les bases de données locales au niveau des PMI

en ontologies pour soutenir la sémantique des données et homogénéiser le vocabulaire utilisé

ainsi que la prise en compte de l’hétérogénéité des connaissances dans un domaine en pleine

expansion tel que la vaccination.

2. Problématique

Vu le contexte pluridisciplinaire dans lequel nous avons développé notre thèse, sa

problématique se trouve au cœur de nombreuses thématiques de recherche comme

l’intégration des données, la mise en correspondance des ontologies ou encore

l’interrogation des données hétérogènes.

Dans le cadre de l’intégration des données, l’utilisation des ontologies apporte la

solution escomptée. Dans notre cas d’étude, utiliser des ontologies au niveau du SEMEP est

d’un intérêt triple : (1) les ontologies permettent aux agents du SEMEP et des PMI d'organiser

leurs informations en taxonomie des concepts en utilisant des termes partagés, chacune avec

leurs attributs, et décrivant des relations entre ces concepts. (2) Quand des données sont

présentées ou annotées par des ontologies, les logiciels peuvent mieux comprendre leurs

sémantiques en fournissant des notions précises qui peuvent être employées pour composer et

échanger des messages (questions, réponses etc…). Et en (3) les ontologies facilitent la

localisation des données et leur intégration au sein d’un système unique d’entrepôt de données

pour d’éventuels objectifs décisionnels divers.

Cependant, créer une ontologie universelle ou globale au niveau des différentes PMI est

pratiquement impossible vu l’hétérogénéité et la complexité des systèmes d’informations

existants. Nous avons donc généré automatiquement des ontologies à partir des bases de

données relationnelles. Vu la nature décentralisée des PMI, nous nous sommes, donc,

retrouvés avec plusieurs ontologies modulaires produites indépendamment mais que le

SEMEP aura inévitablement besoin d’assembler, d’échanger et de partager. D’où l’utilité de

fusionner toutes ces ontologies locales pour intégrer les données au sein d’un entrepôt de

données (la banque de données vaccinales) tout en gardant leurs sémantiques. De cette utilité

sont apparues les problématiques de l’interopérabilité et de l’intégration des données

auxquelles nous avons été confrontés et que nous avons tenté de résoudre à travers les

contributions de cette thèse.

L’interopérabilité représente la capacité qu’ont deux ou plusieurs composants qu’ils

soient, des applications, des sources de données, des services ou même des processus métiers,

de communiquer et de coopérer en dépit de leurs modèles de conception et d’abstraction.

Quant à l’intégration de plusieurs sources d’information ou de plusieurs services mène à

combiner ces différentes sources ou ces différents services de manière à ce qu’ils forment une

vue uniforme pour les utilisateurs, leur donnant l’illusion de n’interagir qu’avec un seul

système. Il s’agit, donc, d’un objectif à atteindre afin de bénéficier d’un ensemble de données

interopérables et de plusieurs bases de données intégrées. Les problématiques et les tentatives

d’amélioration de l'interopérabilité du système de vaccination comptent donc sur la

réconciliation des différentes ontologies des PMI contenant des terminologies différentes,

redondantes ou complémentaires. Cette réconciliation est réalisée par l'intégration

automatique des ontologies. L’ontologie finale, obtenue par la fusion des ontologies locales,

représentera une spécification formelle et explicite d’une conceptualisation partagée, formant

ainsi le système d’information global du SEMEP.

Par ailleurs, pour intégrer les données des différentes ontologies distinctes, il faudrait,

d’abord, connaître les liens sémantiques qui relient leurs éléments et les faire correspondre.

On parle alors d’alignement des ontologies ou Matching (Euzenat, et al., 2013) qui, selon

(Bouzeghoub, et al., 2008), est un des éléments fondamentaux du processus d'intégration

d'ontologies. Il permet d’analyser et de comparer des ontologies pour déterminer les

correspondances entre leurs concepts avant de les fusionner. Nous pouvons observer que,

quelque soit, l’opération effectuée pour assurer l’interopérabilité des ontologies, la découverte

des correspondances entre les différents éléments des ontologies reste une étape fondamentale

voir indispensable dans ce processus d’interopérabilité. Le résultat du processus d’alignement

est un ensemble de liens de correspondances que nous employons pour détecter les points de

fusion entre les ontologies locales des PMI.

La fusion des ontologies se voit de plus en plus importante et fréquente dans les

recherches actuelles vu l’apport qu’elle offre à construire, à moindre coûts, des ontologies

génériques à partir des ontologies partielles et à les adapter aux nouvelles exigences des

besoins évolutifs des connaissances (Desprès & Szulman, 2007). Elle est reconnue comme

étant une opération essentielle intervenant à plusieurs niveaux de l'ingénierie des ontologies

incluant l'intégration de plusieurs modules assurant ainsi l’interopérabilité entre les systèmes,

la réutilisabilité et le partage des connaissances (Kaisi, 2014).

Cette fusion est déclenchée, également, suite à un besoin qui pourrait nécessiter

l'intégration de plusieurs ontologies modélisant les différentes parties d'un domaine. Dans le

domaine médical, par exemple, alors que nous n’arrivons à construire des ontologies que par

domaines de spécialité, on peut imaginer que les grandes catégories des objets médicaux et du

raisonnement médical traversent toute la médecine. L’attendue de l’universalité scientifique

d’aujourd’hui converge vers l’idée que la connaissance intrinsèque est elle-même un

processus incrémental de connaissances englobantes et généralisées. A l’heure où le niveau

d’abstraction est en parfaite montée, on peut imaginer que l’on devrait pouvoir construire des

ontologies génériques pour des grandes classes d’applications. La fusion des ontologies nous

permet d’arriver à ce but et de construire des connaissances qui couvrent tout un domaine au

lieu d’une application.

Dans une autre perspective, la fusion des ontologies définit l’interprétation d’un

véritable réseau de connaissances dont la complexité se heurte à une explosion du nombre et

de la taille des ontologies à fusionner. En effet, les techniques d’alignement et de fusion qui,

mettent en œuvre des calculs complexes tels que des algorithmes de parcours de graphes

d’ontologies itératifs et récursifs, se heurtent à des problèmes combinatoires dès que la taille

de ces dernières dépasse un certain seuil. En théorie de la complexité, ces algorithmes

présentent des complexités polynomiales assez lourdes (Costa & Cohen, 2013). A ce titre, la

recherche d’un algorithme ayant la plus faible complexité pour résoudre un tel problème, est

devenue une autre motivation de notre travail qui sera d’autant plus présent si l’on veut faire à

un nouveau défi qui est de passer à l’échelle.

Assurément, un autre point important à prendre en considération qui motive les

recherches actuelles est le caractère large échelle de l’alignement. Nous distinguons deux

visions clés: (1) les schémas de données en entrée sont volumineux (contenant une centaine

voire même des milliers d’éléments), on parle alors d’un alignement « pair-wise » et (2) le

nombre des schémas de données qui doivent être mis en correspondance concernent un

ensemble de schémas de données sources et cibles qui sont de surcroit nombreux, il est dit

l’alignement « holistique » (Sellami, 2009). L’alignement pair-wise permet de déterminer les

correspondances uniquement entre deux ontologies volumineuses (Kasri & Benchikha, 2011),

(Grau, et al., 2005) alors que les approches holistiques peuvent être appliquées sur plusieurs

schémas à la fois mais qui sont de petite taille (Maiz, et al., 2008). Nous nous situons dans la

deuxième catégorie.

3. Objectifs

Le but de notre travail est de proposer un système capable d’identifier les relations

sémantiques entre les ontologies des différentes PMI avec l'intention de soutenir

l'interopérabilité de leurs différents systèmes d’informations. Ce but peut être décomposé en

objectifs intermédiaires :

L’entreposage de données complexes hétérogènes

Développer un système d’intégration nous paraît comme la solution triviale au problème du

SEMEP. En effet, un système d’intégration permet d’offrir une interface d’accès à des

données réparties et indépendantes d’une manière simple et uniforme (Zerdazi & Lamolle,

2005). Pour ce fait, l’objectif est d’implémenter un entrepôt de données faisant état de cette

banque de données. Il représentera un espace de stockage centralisé et uniforme. Les données,

provenant des PMI, représentant des sources distribuées et hétérogènes, y seront regroupées et

restructurées afin de présenter une vue unifiée facilitant leur accès.

L’interopérabilité des systèmes d’informations

Comme nous l’avons précisé précédemment, utiliser des ontologies au niveau des différentes

PMI est une solution qui garantit à la fois la portabilité des connaissances ainsi que la

préservation de leurs sémantiques. Le problème qui se pose alors est de découvrir, de

représenter et d’exploiter les correspondances qui existent entre concepts issus des différentes

ontologies. Les méthodes d’alignements présentent deux relations simples entre deux

concepts issus de deux ontologies Ils sont considérés comme équivalents ou l'un subsumant

l'autre. Seulement, d’autres liens sémantiques, telle que l’implication, peuvent également être

établis, basés sur des mesures de similarités entre les définitions de concepts (l’alignement

extensionnel). Explorer d’autres horizons, telles que les techniques de fouille de données ou

de textes, pour établir plus de relations sémantiques entre concepts basées sur leur définition

en extension serait un objectif à atteindre.

La complexité et le passage à l’échelle

Les critères de clarté et de simplicité doivent être considérés comme aussi importants que

celui de l'efficacité dans la conception des algorithmes de fusion. La recherche d’un

algorithme ayant la plus faible complexité pour résoudre un tel problème, est devenue aussi

une partie de la motivation de ce travail. D’où l’intérêt d’utiliser d’autres prouesses

algorithmiques de complexité moindre et se prêtant mieux pour le passage à l’échelle tel que

les principes des automates cellulaires (Wolfram, 1986). Ces derniers jouissent d’une maturité

dans les calculs et d’une optimisation de la complexité très maîtrisée.

De ces objectifs nous pouvons dire qu’à travers notre thèse nous présentons une

démarche globale pour mettre en exploitation un nouveau processus pour l’alimentation des

entrepôts à partir de sources hétérogènes, et ceci sous le principe de base de la machine

cellulaire CASI. Nous proposons une solution qui garantit, essentiellement, l’optimisation de

l’espace de stockage et du temps d’exécution. Ceci se traduit par la conception et la

réalisation d’un Système Cellulaire d’Intégration Sémantique de Données hétérogènes dans

un entrepôt de données.

4. Contributions de la thèse

Compte tenu des objectifs cités auparavant, les principales contributions de notre thèse

peuvent être récapitulées dans les points suivants :

Une approche d’optimisation de la fusion et le passage à l’échelle.

En allant plus loin dans cette réflexion sur la fusion, nous constatons que quand les ontologies

deviennent de très grande taille, par exemple en Agronomie ou en Médecine, comportant

plusieurs dizaines de milliers de concepts, l’efficacité des méthodes de fusion automatique

diminue considérablement que ce soit en terme de temps d’exécution ou de la taille mémoire

utilisée, dû au fait de la complexité des algorithmes utilisés. Notre solution à ce problème

consiste à diminuer la taille des concepts en entrées par une modélisation booléenne. Nous

présentons un nouvel algorithme de fusion automatique utilisant la machine cellulaire 𝐶𝐴𝑆𝐼 offrant un moyen simple pour minimiser la complexité à laquelle se heurtent les algorithmes

classiques dès que le nombre et la taille des ontologies augmentent. Notre approche, fondée

sur le principe de base de CASI, présente une complexité moindre et linéaire réduite à 𝛰(𝑛)

(Costa & Cohen, 2013) par rapport à celle d’un algorithme de fusion classique dont la

complexité s’élève à 𝛰(𝑛²) avec n la taille du graphe. Nous montrons, également, comment

les concepts liés à la machine 𝐶𝐴𝑆𝐼 peuvent être appliqués et faciliter le passage à l’échelle.

Une approche d’alignement extensionnel en utilisant les règles d’association

Dans notre approche nous avons expérimenté une nouvelle utilisation du datamining dans le

domaine de l’intégration des données en utilisant des règles d’association. La recherche de

liens de correspondance entre les concepts d’une ontologie fréquents est relookée par

l’utilisation des règles d’association (Malek & Kadima, 2012). L’exploration des données des

instances est intéressante pour trouver les similarités des concepts. Pour cela, nous traduisons

les concepts du datamining pour extraire une certaine connaissance qui est celle de la

similarité entre les concepts d’une ontologie. L’idée sous-jacente à notre approche, inspirée

des travaux de (David, et al., 2007), est que deux entités x et y sont en relation d’implication,

𝑥 𝑦, si le vocabulaire utilisé dans les descriptions et les instances de x, a tendance à être

inclus dans celui de y. Un exemple d’une règle d’association est « Si plusieurs (ou quelques)

instances du concept A sont également des instances du concept B Alors A correspond à B»

de là nous déduisons une relation de correspondance entre les concepts A et B du type

équivalence, inclusion ou similarité. De cette correspondance nous pourrons déduire une autre

correspondance entre les attributs des deux concepts en proposant également une méthode

intensionnelle d’alignement syntaxique qui permet, à posteriori, d’enrichir l’alignement avec

des correspondances non détectées par la méthode extensionnelle. Cette nouvelle

connaissance sera introduite dans la base de connaissance du système et sera utilisée pour

d’autres alignements.

5. Organisation de la thèse

Cette thèse est structurée en deux parties. La première partie « Etat de l’Art » présente

les concepts permettant d’élaborer nos propositions. La deuxième partie « Contributions »

présente deux contributions réalisées dans le cadre de cette thèse. La partie « Etat de l’art »

permettant de positionner notre thèse dans son contexte d’étude est présentée à travers trois

chapitres qui sont:

Le premier chapitre intitulé « Fondements des ontologies » aborde les concepts

fondamentaux des Ontologies dans toutes leurs dimensions philosophique, littéraire ou

encore informatique. Après une description détaillée des composants de l’ontologie, un rapide

aperçu des formalismes de sa représentation est donné par la suite. Un passage en revue des

différentes étapes intervenant dans la construction des ontologies était nécessaire pour mettre

en avant la complexité inhérente à leur mise en place, ainsi que les principaux langages

utilisés y sont présentés. Ensuite, nous étalons une typologie des ontologies selon différents

critères afin de nous situer par rapport au choix de l’ontologie utilisée pour notre cas d’étude

le SEMEP. En conclusion nous évoquons les différentes problématiques qu’affrontent les

concepteurs et les utilisateurs des ontologies relativement à l’ambiguïté de leurs utilisations.

En effet, nous parlons d’ontologies partout où il est question de modules appuyant sur des

représentations sémantiques nécessitant un consensus. Il y va du vocabulaire commun à un

domaine, de la structuration et l’exploitation des métadonnées, de la description des services

Web en passant par le pivot de l’intégration sémantique des données. Ceci ne va pas sans

poser des problèmes d’hétérogénéité. C’est ce dernier point qui fait l’objet des deux chapitres

suivants.

Le deuxième chapitre intitulé « Intégration des données par fusion des ontologies »

s’intéresse plus précisément à l’intégration sémantique des données par la Fusion des

ontologies, en décrivant les hétérogénéités qui peuvent exister entre les différentes ontologies

et leurs impacts sur le processus de l’intégration. Vu le contexte dans lequel nous avons défini

notre problématique, notre travail s’apparente, d’une part, à des travaux sur l’intégration des

données du Web. Plus précisément l’intégration des sources de données autonomes et

hétérogènes, et d’autre part, à des travaux sur l’intégration des données guidée par une

ontologie qui étudient, quant à eux, comment trouver des correspondances entre les ontologies

des sources de données à intégrer et comment les utiliser. C’est dans cette connectivité que

nous avons dressé le contenu de ce chapitre, d’abord, sur l’intégration des données du Web

et ensuite sur l’intégration des données via des ontologies. Dans le cadre de nos travaux, nous

considérons l’intégration comme étant un concept générique incluant le concept

d’interopérabilité que nous développerons dans ce chapitre.

Le troisième chapitre intitulé « Mises en correspondances des ontologies » présente un

état de l’art correspondant aux travaux sur l’alignement des ontologies qui est au cœur de

notre travail. Une première partie de cet état de l’art est ainsi consacrée à la présentation du

processus d’alignement des ontologies et des types de techniques les plus répandues. Ayant

plus particulièrement étudié le problème d’alignement des ontologies en utilisant les règles

d’association, nous nous limitons ensuite à la description des travaux portant sur la découverte

de correspondances en adoptant les principes du datamining. Enfin, en conclusion nous

situons notre travail par rapport à l’existant.

La deuxième partie est entièrement dédiée aux contributions dans le cadre de

l’intégration sémantique des données. Elle est constituée de deux chapitres complémentaires.

Le quatrième chapitre intitulé « Une approche cellulaire d’intégration par la fusion des

ontologies » présente l’aspect conceptuel de notre première contribution (Abdelouhab &

Atmani, 2016). Nous commençons d’abord par motiver nos choix quant à l’utilisation de la

machine cellulaire 𝐶𝐴𝑆𝐼 puis nous donnons la formulation et la modélisation booléenne de

l’ontologie en fonction des termes de l’automate cellulaire en utilisant un exemple

pédagogique. A travers une architecture générale de notre approche, nous donnons la

description détaillée des étapes la constituant. Une discussion est donnée sur l’apport de la

machine 𝐶𝐴𝑆𝐼 à réduire la complexité des algorithmes développés.

Le dernier chapitre intitulé « Alignement extensionnel des ontologies par les règles

d’association» décrit notre deuxième contribution à vouloir explorer les instances des

ontologies pour trouver des liens de correspondances sémantiques en utilisant des règles

d’association. Ce chapitre commence par présenter le domaine d’étude en complément avec

le précédent chapitre et montre du doigt les points essentiels sur lesquels se greffent les

problématiques dressées dans cette thèse. A travers des écrans du prototype réalisé en

occurrence, nous présentons en détail les différentes étapes décrivant notre processus

d’alignement extensionnel.

Enfin, le manuscrit se termine par une conclusion générale qui synthétise les travaux

réalisés et propose quelques visions pour les travaux futurs.

Chapitre Premier

Fondements des ontologies

FZ Abdelouhab Page 23

Chapitre1

1.Fondements des Ontologies

Au regard de ce qui a été dit en introduction, l’ontologie représente la brique

fondamentale autour de laquelle se construit notre processus d’intégration. Pour ce fait,

nous avons jugé bon de commencer par présenter les fondements théoriques des ontologies

afin de bien délimiter les contours de ce concept dont la définition en soi relève de la

philosophie. Concevoir une ontologie pour les services SEMEP est une idée ingénieuse qui

pourrait faciliter énormément le travail et sied parfaitement à leurs problématiques citées en

introduction. Mais la question qui se pose est pourquoi une ontologie et pas des bases de

données ?

Le propos de ce chapitre est en premier lieu de répondre à cette question et de justifier

notre recours à l’ontologie non pas seulement dans un contexte d’intégration mais aussi dans

un but de structuration et d’homogénéisation des données afin de réduire les

incompréhensions et les quiproquos dans les analyses. En deuxième lieu de caractériser

l’ontologie telle qu’on la conçoit en la situant par rapport aux différentes notions auxquelles

elle est associée ainsi qu’à ses différentes caractéristiques. Un rapide aperçu des formalismes

de représentation d’ontologies est ensuite donné. Puis, nous passons en revue les différentes

étapes intervenant dans la construction des ontologies. Un résumé des principaux langages

utilisés est présenté. Finalement, nous détaillons les différents critères permettant d’établir une

typologie des ontologies afin de nous situer par rapport au choix de l’ontologie utilisée pour

notre cas d’étude le SEMEP. En conclusion nous évoquons les apports essentiels des

ontologies dans le cadre des applications de l’intelligence artificielle.

1.1 Quelques définitions

Le terme ontologie a suscité l’intérêt de plusieurs chercheurs et a fait couler beaucoup

d’encre juste pour le définir (Gruber, 1993), (Borst, 1997), (Zghal, et al., 2011). En effet, ce

mot est exploité dans différents contextes appartenant à plusieurs domaines tels que la

philosophie, la linguistique, l'intelligence artificielle (en particulier l'ingénierie des

connaissances) et le Web sémantique. D’une manière globale le mot ontologie recouvre deux

usages dont le premier appartient à la philosophie classique et le second, plus récent, aux

autres sciences cognitives (Psyché, et al., 2004). Mais avant d’être utilisé en informatique

d’aujourd’hui, Il a d’abord été emprunté par le domaine médical où il désignait la genèse des

maladies et ce n’est qu’en débuts des années 90 que l’informatique s’en ai approprié pour

désigner un modèle de représentation des connaissances selon le paradigme "On ne cherche

pas à comprendre le monde mais à le représenter " (Roche, 2005). Ceci signifie qu’on ne

cherche pas à expliquer le fonctionnement du monde mais plutôt à le représenter. Elle

s’applique à l’être en tant qu’être physique, ses particularités et spécificités indépendamment

de ses déterminations particulières.

Fondements des Ontologies

Nous allons passer en revue quelques définitions en abrégé selon différentes disciplines

afin de constituer celle qui nous convient le plus à notre problématique.

1.1.1 Définition philosophique

En philosophie, l'ontologie est une branche fondamentale de la Métaphysique qui

s'intéresse à la notion d'existence, aux catégories fondamentales de l'existant et étudie les

propriétés les plus générales de l'être. C’est l’étude de l’être en tant qu’être et pas que ...

D’une manière générale, c’est la formalisation de tout un ensemble d’objets qu’ils soient

concrets ou spirituels, ainsi que la modélisation de leurs relations en vue de construire des

objets plus génériques ou plus spécifiques (Mellal, 2007). En s’inspirant de cette définition

nous pouvons formaliser tout objet en rapport avec la vaccination ce qui constituerait une

première étape.

1.1.2 Définition informatique

Si l’on se réfère au mode de raisonnement de tout ingénieur face à la conception de la

réalité on s’aperçoit que finalement la notion d’ontologie existait sans être nommée et de

façon transversale dans les différents systèmes de représentation de connaissances dès les

années 70. Lorsqu’un ingénieur en informatique conçoit un schéma de classes pour implanter

une application par exemple, il s'interroge sur les objets que cette application va manipuler,

les classes qui les regroupent, les caractéristiques communes à tous les objets de chaque

classe, les relations qui peuvent exister entre ces objets, etc. En d'autres termes, il s'interroge

sur ce qui définit ces classes d'objets, ce qui permet d'identifier qu'un objet appartient à une

classe, ce que cette appartenance signifie en termes de contenu ou de manipulations possibles,

bref il s'interroge sur la définition existentielle des classes d'objets mobilisés dans les

scénarios de l'application qu'il développe. Et tout ceci n’est autre que la définition même de

l’ontologie en informatique ou plus précisément en intelligence artificielle.

Une ontologie est vue comme un ensemble de concepts permettant de modéliser un

ensemble de connaissances dans un domaine donné. Un concept peut présenter plusieurs sens

thématiques. Les concepts sont liés entre eux par des relations sémantiques, des relations de

composition et d’héritage (Mellal, 2007). Afin de préciser cette notion, de nombreux

chercheurs ont proposé des définitions tout aussi intéressantes l’une que l’autre (Gruber,

1993), (Sowa, 2000), (Guarino & Giaretta, 1995), (Uschold & Gruninger, 1996), et (Roche,

2005). Chaque définition ajoute une nouvelle précision par rapport à la précédente de sorte

que la dernière donnée par Roche est sans doute la plus complète. Elle englobe et résume

toutes les définitions précédentes. "Une ontologie est une conceptualisation d’un domaine à

laquelle sont associés un ou plusieurs vocabulaires de termes. Les concepts se structurent en

un système et participent à la signification des termes. Une ontologie est définie pour un

objectif donné et exprime un point de vue partagé par une communauté. Une ontologie

s’exprime dans un langage (représentation) qui repose sur une théorie (sémantique) qui

garantit des propriétés de l’ontologie en termes de consensus, cohérence, réutilisation et

partage" (Roche, 2005).

En s’inspirant de cette définition notre objectif serait de conceptualiser le système

d’information de la vaccination qui est un domaine riche en vocabulaire. L’ontologie définira

cet objectif.

1.1.3 Définition littéraire

D’un point de vue littéraire, Une ontologie définit les objets du monde, leurs propriétés

et leurs contraintes de manière explicite, définissant ainsi un vocabulaire précis du domaine

qu’elle organise et formalise afin de le rendre interprétable tant par les humains que par les

machines (Sadoun, 2014). Elle fournit une sémantique formelle aux connaissances qu’elle

explicite de sorte à permettre à l’application de raisonner dessus. Cette définition complète en

quelque sorte celle d’avant. Elle nous permet de décrire directement les connaissances

explicites définissant le vocabulaire sur la vaccination.

1.1.4 Définition Formelle

Plus formellement, une ontologie peut être décrite selon (David, et al., 2007) en deux

modèles de hiérarchies. Le premier modèle est celui de la hiérarchie hors-contexte. Il

représente le modèle de base utilisé pour la description de schémas de l’ontologie. C’est la

partie terminologique qui définit les éléments conceptuels qui composent l’ontologie. Le

deuxième modèle, appelé hiérarchie contextualisée, est une extension du premier et possède

en plus une extension constituée d’un ensemble d’objets qui seront indexés aux entités de la

hiérarchie. C’est la partie assertionnelle qui déclare les individus du domaine et explicite leurs

valeurs de propriétés.

Une ontologie 𝑂 définit les concepts 𝐶, les propriétés 𝑃 et les individus 𝐼 d’un domaine,

tels que 𝐶, 𝑃 et 𝐼 sont trois ensembles disjoints. Dans cette vision l’ontologie 𝑂 est constituée

d’un ensemble terminologique hors-contexte et d’un ensemble assertionnel contextuel,

respectivement notés 𝑇𝐵𝑜𝑥 et 𝐴𝐵𝑜𝑥.

On note 𝑂 = 𝑇𝐵𝑜𝑥 ⊔ 𝐴𝐵𝑜𝑥

La 𝑇𝐵𝑜𝑥 correspond aux ensembles de concepts 𝐶, de propriétés 𝑃 et d’axiomes

terminologiques 𝐴. 𝑇𝐵𝑜𝑥 = 𝐶 ⊔ 𝑃 ⊔ 𝐴

La 𝐴𝐵𝑜𝑥 correspond aux ensembles d’individus et à deux fonctions d’association 𝐼𝐶 et 𝐼𝑃.

𝐴𝐵𝑜𝑥 = 𝐼 ⊔ 𝐼𝐶 ⊔ 𝐼𝑃

Les axiomes terminologiques sont une collection de formules typiquement décrites en

logique de description portant sur les concepts et propriétés. Ils définissent les connaissances

fondamentales de l’ontologie supposées vraies au cours d’un raisonnement.

Un concept 𝐶 (𝐶 ∈ 𝐶) définit un ensemble d’individus ayant une sémantique et des propriétés

communes. Il peut lui-même se décliner en sous-concepts.

Une propriété 𝑃 (𝑃 ∈ 𝑃) permet de définir des relations entre individus ou des couples

attributs/valeurs. Elle est définie entre un domaine noté 𝐷 (qui est un sous-ensemble de 𝐶) et

une image notée 𝑅2 (qui est l’union d’un sous-ensemble de 𝐶 et d’un ensemble de types

simples). Les axiomes terminologiques 𝐴 permettent de définir les relations qu’entretiennent

concepts et propriétés. Les fonctions d’annotations associent une description textuelle aux

entités.

Face à ces différentes définitions nous pouvons conclure que quelles que soient celles

considérées, la frontière qui les sépare (quand elle existe) nous semble beaucoup trop mince

ou trop confuse. C’est pourquoi dans le cadre de notre thèse, nous définissons l’ontologie

comme à la fois un moyen édifiant pour représenter les données de la vaccination en forme de

classes et de relations entre ces classes et aussi comme des expressions de contraintes sur ces

classes. Nous allons voir maintenant que signifient les notions de classes et de relations en

termes d’ontologie.

1.2 Les Constituants d’une Ontologie

Une ontologie inclut généralement une organisation hiérarchique des concepts

pertinents (principes, idées, catégorie d'objet, notions potentiellement abstraites) et des

relations qui existent entre ces concepts ainsi que des règles et axiomes qui les contraignent

(Zghal, et al., 2011).

1.2.1 Concepts

Un concept peut se définir comme une entité composée de trois éléments distincts :

le terme : c’est une représentation symbolique, souvent linguistique et verbale

exprimant le concept. En d’autres termes le Label.

la notion ou l’intension du concept : c’est l’ensemble des propriétés exprimant la

signification du concept. L'intension d'un concept peut contenir des attributs. Un

attribut peut être une instance de concept. Par exemple, "Ferrari" est une instance de

"voiture" qui porte un attribut "couleur rouge" instance du concept "couleur".

les objets dénotés par le concept, appelés également « instances» ou « extensions » du

concept : c’est l’ensemble des êtres qu’il englobe.

Exemple : prenons le concept Voiture. , nous pouvons lui associer:

Un terme : nous pouvons lui associer plusieurs représentations linguistiques telles que

“voiture”, “automobile”, “auto” ou “'bagnole”. Nous dissocions donc les concepts et

leurs manifestations linguistiques. Un terme n'est pas un concept et vice-versa. Un

terme peut être ambigu alors qu'un concept n'a qu'un seul sens, une seule définition. Il

faut alors gérer les problèmes de synonymie (un concept dénoté par plusieurs termes)

et d'homonymie (un terme dénotant plusieurs concepts).

Une intension: c’est une sous-catégorie de véhicules de transports automobiles conçus

et aménagés pour le transport d'un petit nombre de personnes.

Une extension: un ensemble d'entités qui rentrent dans cette catégorie, ex: {la twingo

de Fatima, le kangoo de Baghdad, la clio de Karim, …}

Il est à noter qu'un concept peut avoir une extension vide. Ce concept est un concept

générique. Il correspond à une notion abstraite (par exemple, la "vérité", prise dans le sens de

"ce qui est vrai" et non pas du "degré de vérité"). Un concept peut disposer d’une propriété

d’identité permettant de distinguer d’une manière unique une instance d’une autre. Par

exemple le cas d’un identifiant pour chaque étudiant ou le nom d’un fichier sur le disque dur.

Ce concept possède la propriété d’identité. Une autre propriété peut être attribuée à un

concept est la rigidité. Un concept est rigide si toute instance de ce concept reste instance dans

tous les domaines (par exemple le concept "humain" est rigide, par contre le concept

"étudiant" est non rigide). Dans ce cas le concept "étudiant" est dit anti-rigide.

Deux concepts peuvent partager la même extension sans pour autant avoir la même

intension. Ils sont équivalents par exemple les concepts "ordinateur portable" et "laptop",

désignent tous les deux un ordinateur (PC). De plus, des concepts partageant la même

extension mais pas leur intension peuvent être désignés par le même terme. Ceci correspond à

des points de vue différents sur un même objet. Par exemple, les humains peuvent être

considérés comme des femmes ou des hommes.

Les concepts peuvent être disjoints ou incompatibles si leurs extensions sont disjointes

(par exemple le concept "homme" et le concept "femme" sont deux concepts disjoints). Ils

peuvent aussi être dépendants : un concept 𝐶1 est dépendant de 𝐶2 si, pour toute instance

de 𝐶1, il existe une instance de 𝐶2 (par exemple le concept "parent" est un concept dépendant

du concept "enfant" et vice-versa).

Selon (Gómez-Pérez, 1999) ces concepts peuvent être classifiés selon plusieurs

dimensions :

1. niveau d’abstraction (concret ou abstrait) ;

2. atomicité (élémentaire ou composée) ;

3. niveau de réalité (réel ou fictif).

Il est possible de classer les propriétés à l'aide d'autres critères. Welty et Guarino

(2001) proposent de distinguer les propriétés intrinsèques et les propriétés extrinsèques. Les

propriétés intrinsèques ne sont liées qu'au concept lui-même, comme la généricité. Les

propriétés extrinsèques font intervenir d'autres concepts dans leur définition.

L'ensemble des concepts est structuré hiérarchiquement et les concepts sont liés par

des propriétés conceptuelles. La propriété utilisée pour la structuration de la hiérarchie des

concepts est la subsomption. Un concept 𝐶1 subsume un concept 𝐶2 si toute propriété

sémantique de 𝐶1 est aussi une propriété sémantique de 𝐶2, c’est-à-dire 𝐶2 est plus spécifique

que 𝐶1. L'extension d'un concept est forcément plus réduite que celle d'un concept qui le

subsume tandis que son intension est par contre plus riche en instances.

1.2.2 Les Relations

De la même façon que pour les concepts, l'ontologie définit des relations pouvant

exister entre les instances de ces concepts ou des concepts génériques. Elles traduisent les

associations existant entre les concepts présents dans le segment analysé de la réalité. Ces

relations regroupent deux types d’associations:

La relation de subsomption (is-a, sous-classe de (spécialisation, généralisation); partie-

de (agrégation ou composition); associée-à; instance-de)) qui définit un lien de généralisation

(encore appelée hyperonymie) est utilisée pour structurer les ontologies. Cette relation permet

formellement l’héritage de propriétés. Elle doit être complétée par d’autres relations pour

exprimer la sémantique du domaine. Les autres relations unissent les concepts ensemble pour

construire des représentations conceptuelles complexes.

Ces relations nous permettent d’apercevoir la structuration et l’interrelation des

concepts, les uns par rapport aux autres. Prenons une relation R, nous pouvons aussi lui

associer:

une intension est le label ou l’étiquette de la relation ex: "R est une relation entre une

personne ou un groupe qui a créé un document, son contenu intellectuel, son

arrangement ou sa forme";

une extension, ex: {(𝐻𝑢𝑔𝑜, 𝑁𝑜𝑡𝑟𝑒 𝐷𝑎𝑚𝑒 𝑑𝑒 𝑃𝑎𝑟𝑖𝑠), (𝐽𝑒𝑎𝑛 𝑀𝑎𝑟𝑘𝑎𝑙𝑒, 𝐿𝑒 𝑐𝑦𝑐𝑙𝑒 𝑑𝑢 𝐺𝑟𝑎𝑎𝑙), …}

des représentations linguistiques: "a-écrit", "auteur-de", "écrivain-de"

Comme les concepts, les relations peuvent aussi avoir des propriétés. Ces dernières

peuvent être algébriques (symétrie, réflexivité, transitivité). Elles peuvent être des propriétés

de cardinalité, comme par exemple, un ordinateur qui dispose, d’au moins, un disque dur. En

général, ces relations sont binaires.

Deux relations peuvent être incompatibles si elles ne peuvent lier les mêmes instances

de concepts (par exemple les relations "être rouge" et "être vert" sont incompatibles). Aussi,

deux relations binaires sont inverses l'une de l'autre si, l'une lie deux instances 𝐼1 et 𝐼2, l'autre

lie 𝐼2 et 𝐼1 (par exemple les relations "a pour père" et "a pour enfant" sont inverses l'une de

l'autre). Et enfin, deux relations sont exclusives si, l'une lie des instances de concepts, l'autre

ne lie pas ces instances, et vice-versa (par exemple "l'appartenance" et "la non appartenance"

sont deux relations exclusives). L'exclusivité entraîne l'incompatibilité.

1.2.3 Les fonctions

Ce sont des cas particuliers de relations dans lesquelles le nième élément (de la relation)

est défini en fonction des n-1 éléments précédents.

Exemple : Mention_examen est fonction des concepts : Notes_examen, Absence et

Stage_pratique, cette fonction retourne la mention d’examen d’un étudiant. On écrit:

Notes_examen× Absence ×Stage_pratique→ Mention_examen.

1.2.4 Les axiomes

La description des connaissances en termes de concepts, de relations entre ces concepts

et des propriétés sur ces concepts et relations ne suffit pas pour atteindre l'objectif d’un

modélisateur qui est de concrétiser les connaissances dans une action. C’est-à-dire leurs

aspects dynamiques.

Les connaissances opérationnelles peuvent être des faits, des règles, ou des contraintes.

Un fait est un énoncé vrai et implicatif. Un fait est un axiome qui participe à la description du

monde cognitif dans lequel s'inscrit le système à base de connaissances. Une règle permet

d'inférer de nouvelles connaissances (Zghal, 2010).

Les axiomes désignent les assertions acceptées comme vraies dans le domaine étudié.

Les axiomes et les règles permettent aussi d’inférer de nouvelles connaissances. Exemple :

« Si deux personnes sont frères, alors il existe quelqu’un qui est la mère de chacun d’eux ».

Les ontologies représentées sous forme d'une taxonomie de concepts et de relations sont des

ontologies légères, lightweight ontologies. Les ontologies formées d'une taxonomie à laquelle

s'ajoutent des connaissances inférentielles sont des ontologies lourdes, heavyweight

ontologies (Gómez-Pérez, et al., 2004).

1.2.5 Instances

Elles constituent la définition extensionnelle de l’ontologie; ces objets véhiculent les

connaissances (statiques, factuelles) à propos du domaine du problème.

Au-delà des notions de concepts, de relations et de propriétés, l’ontologie présente,

également, la notion de classification (le fait de déterminer si quelque chose appartient à une

classe) et de catégorisation (le fait d'identifier les catégories existantes). Ces notions ne sont

pas étrangères à la pensée humaine. Ce sont des inférences élémentaires que nous faisons à

longueur de journée. Prenons l'exemple simple d'une conversation entre deux personnes:

" - Tu connais un restaurant proche ?

- Il y a une pizzeria au coin de la rue.

- Merci."

Dans une conversation aussi banale, la première personne a généralisé sa requête au

concept de restaurant, qui représente la catégorie la plus abstraite recouvrant toutes les formes

de réponses acceptables. La deuxième a, probablement sans même y prêter attention, utilisé sa

classification de concepts pour en déduire qu'une pizzeria est un restaurant et que par

conséquent sa réponse est pertinente et sera comprise sans préciser qu'une pizzeria est un

restaurant et que c'est effectivement le cas. Le recours à des conceptualisations partagées et

aux inférences qu'elles permettent est donc au cœur d'activités aussi simple que cet échange

d'information. C’est l’essence même du raisonnement ontologique de rendre explicite les

connaissances et de s'assurer de leur nature consensuelle. De là nous pouvons résumer la

définition d’une ontologie comme étant une représentation de propriétés générales de ce qui

existe dans un formalisme supportant un traitement rationnel. C'est le résultat d'une

formulation exhaustive et rigoureuse de la conceptualisation d'un domaine. Cette formulation,

souvent qualifiée de partielle, peut être exprimée de différentes manières selon le point de vue

qu’on donne à la définition de l’ontologie.

Un choix de conception doit être fait durant l’élaboration d’une ontologie permettant de

décider si une connaissance doit être modélisée dans une propriété ou à l’aide d’une relation

pointant sur un autre concept. Un critère peut être de dire que c’est une propriété dès lors que

les valeurs possibles sont d’un type dit primitif (entier, chaîne de caractères), et c’est une

relation dès lors que les valeurs possibles sont d’un type dit complexe c’est-à-dire un autre

concept de l’ontologie. Mais cette frontière peut aussi être remise en question (Troncy, 2004).

1.3 L’intérêt d’une ontologie

En résumé de ce qu’on a vu précédemment une ontologie est à la base de ce qu’on

appelle la représentation des connaissances. Ces connaissances sont exprimées sous forme de

symboles auxquels on donne une « sémantique » (un sens). C’est là que réside toute la

puissance de l’ontologie et qui rend vulnérable une base de données.

Supposons qu’on veuille interroger une base données contenant la description des

membres d’une famille (le père, la mère et les enfants féminins et masculins). Les occurrences

de cette base sont les différentes familles recensées. Comment trouver les frères de Sara la

fille d’Aïcha par exemple. Comme les relations sont dépourvues de sémantique (représentées

uniquement à travers les clés primaires et secondaires) il faudrait passer par des jointures et

des restrictions sur différentes tables pour déduire cette information. Par contre une ontologie

pourrait définir le concept fraternité et la suite coule de source.

Un autre point important est l’absence du raisonnement logique dans les bases de

données ;

Admettons un certain nombre de vaccins stockés dans une PMI, dont chacun est identifié par

un numéro. Vacc200 ; Vacc201 ; Vacc202 ; Vacc203.

Nous voulons savoir combien de vaccin existe-t-il dans cette PMI :

version base de données : 4 (count * from Vaccin ---> 4) ;

version la logique des prédicats: c'est au moins 1, car rien ne dit que ces vaccins sont

différents ou qu'il n'y en a pas d'autres ;

version représentation des connaissances : au moins 4, car on suppose que ces vaccins

sont différents, mais rien ne dit qu'il n'y en a pas d'autres.

Ceci découle de trois hypothèses :

hypothèse du nom unique, qui signifie que chaque constante représentant une entité est

différente, on a donc par exemple : Vacc200 != Vacc201. Ceci est admis dans tous les

domaines (base de données et représentation des connaissances) sauf en logique.

hypothèse du monde clos, c'est lorsqu'une proposition est considérée comme fausse si

pendant un certain temps il est impossible de montrer que cette proposition est vraie.

Mais il n'y a que pour les bases de données où ça marche.

hypothèse du monde ouvert ; si une proposition n'a pas le statut « Vrai », on ne peut

pas en déduire qu'elle est fausse. On dira que son cas n'a pas été statué, ou que l'on ne

dispose pas des connaissances nécessaires pour statuer. De fait, c'est bien utile

lorsqu'on réalise une ontologie, car cela permet de rendre compte du fait que certaines

connaissances sont indisponibles sans pour autant rendre impossible la formalisation

des connaissances d'un domaine.

Le rôle clé des ontologies par rapport aux systèmes de base de données est de spécifier

une représentation de modélisation des données à un niveau d'abstraction au-dessus des

schémas d'une base de données spécifique (logique ou physique), afin que les données

puissent être exportées, traduites, interrogées et unifiées pour tous les systèmes développés de

manière indépendante.

L’ontologie représente donc une composante centrale dans notre cas d’étude le SEMEP.

Elle est exploitée pour élaborer la structure d’une base de données. Pour ce faire, il nous a

fallu restructurer les bases de données locales au niveau des PMI en ontologies pour soutenir

la sémantique des données et homogénéiser le vocabulaire utilisé ainsi que la prise en compte

de l’hétérogénéité des connaissances dans un domaine en pleine expansion tel que la

vaccination.

Toutefois, uniformiser les outils et la façon de structurer l’information au sein des

différentes PMI reste un objectif difficile à atteindre et cela ne résoudrait pas le problème des

bases déjà existantes car, outre les réticences des responsables pour homogénéiser un jeu de

données, les moyens et le temps manqueraient pour venir à bout de l’énorme chantier de

migration des bases d’une PMI à une autre. Notre solution est donc de permettre d’utiliser une

ontologie qui puisse venir en surcouche sur les bases de données existantes.

1.4 Construction des ontologies

La conception d’ontologies est une tâche difficile qui nécessite la mise en place de

procédés élaborés afin d’extraire la connaissance d’un domaine, manipulable par les systèmes

informatiques et interprétable par les êtres humains. Selon Sadoun (2014) la conceptualisation

de l’ontologie concerne l’identification puis la définition de ses concepts, propriétés, axiomes.

Ce processus demande une bonne connaissance du domaine. Ces connaissances sont détenues

par des experts du domaine ou contenues dans des ressources, telles que les textes,

taxonomies ou terminologies.

Selon Psyché (2004), le processus de construction d’ontologies, appelé ingénierie

ontologique, peut être décrit selon les principes qui le gouvernent (Gruber, 1993), les

méthodologies et les outils qui le soutiennent.

1.4.1 Les Principes

Il existe un ensemble de critères et de principes qui ont fait leurs preuves dans le

développement des ontologies, généralement accepté pour guider le processus d’ingénierie

ontologique. Plusieurs travaux se sont penchés sur la question tels que (Gruber, 1993),

(Borgo, et al., 1996), (Bernaras, et al., 1996) et (Arpirez, et al., 1998) et ont proposé ainsi un

certain nombre de principes à respecter pour construire une ontologie et qui peuvent être

résumés comme suit : (Troncy, 2004)

Clarté. Les ambiguïtés doivent être réduites. Quand une définition peut être

axiomatisée, elle doit l’être. Dans tous les cas, des définitions en langage naturel

doivent être fournies.

Cohérence. Une ontologie doit être cohérente. Les axiomes doivent être consistants.

La cohérence des définitions en langage naturel doit être vérifiée autant que faire se

Extensibilité. L’ontologie doit être construite de telle manière que l’on puisse l’étendre

facilement, sans remettre en cause ce qui a déjà été fait.

Biais d’encodage minimal. L’ontologie doit être conceptualisée indépendamment de

tout langage d’implémentation. Le but est de permettre le partage des connaissances

(de l’ontologie) entre différentes applications utilisant des langages de représentation

différents.

Engagement ontologique minimal. Une ontologie doit faire un minimum d’hypothèses

sur le monde : elle doit contenir un vocabulaire partagé mais ne doit pas être une base

de connaissances comportant des connaissances supplémentaires sur le monde à

modéliser.

Principe de distinction ontologique: les classes dans une ontologie devraient être

disjointes. Le critère utilisé pour isoler le noyau de propriétés considérées comme

invariables pour une instance d’une classe est appelé le critère d’Identité.

Modularité: Ce principe vise à minimiser les couplages entre les modules.

Diversification des hiérarchies: Ce principe est adopté pour augmenter la puissance

fournie par les mécanismes d’héritage multiple. Si suffisamment de connaissances

sont représentées dans l’ontologie et que suffisamment de différentes classifications de

critères sont utilisées, il est plus facile d’ajouter de nouveaux concepts (puisqu’ils

peuvent être facilement spécifiés à partir des concepts et des classifications de critères

pré-existants) et de les faire hériter de propriétés de différents points de vue.

Distance sémantique minimale. Il s’agit de la distance minimale entre les concepts

enfants de mêmes parents. Les concepts similaires sont groupés et représentés comme

des sous-classes d’une classe, et devraient être définis en utilisant les mêmes

primitives, considérant que les concepts qui sont moins similaires sont représentés

plus loin dans la hiérarchie.

Normaliser les noms. Ce principe indique qu’il est préférable de normaliser les noms

aussi autant que possible.

1.4.2 Les Méthodologies

Une méthodologie est considérée comme un ensemble de principes de construction

systématiquement reliés, appliqués avec succès par un ou plusieurs auteurs dans les

différentes phases du processus de construction des ontologies. Plusieurs méthodologies ont

vu le jour depuis l’apparition de l’ingénierie des connaissances. Mendes (2003) en a

dénombré un total de trente-trois.

Les méthodologies recensées peuvent être analysées selon plusieurs critères ou

dimensions Figure1-1 :

Construction de nouvelles ontologies à partir de zéro ;

Ré-ingénierie d’ontologies ;

Fusion ou intégration d’ontologies ;

Génération à partir des bases de données.

Dans une autre vision, nous pouvons distinguer trois types de méthodes pour la

construction d’ontologie :

Des méthodes manuelles : les experts créent une nouvelle ontologie d’un domaine ou

étendent une ontologie existante comme par exemple l’ontologie Wordnet (Miller, 1995).

Plusieurs principes et méthodologies ont été définis pour faciliter la génération manuelle.

Ces principes se basent sur des fondements philosophiques et suivent des procédés de

modélisation collaboratifs. Ils mènent à la conception d’ontologies dites légères et

d’ontologies dites lourdes. Cependant, ce procédé de génération est très coûteux en temps

et pose surtout des problèmes de maintenance et de mise à jour (Ding & Foo, 2002).

Des méthodes automatiques : l’ontologie est construite par des techniques d’extraction des

connaissances: les concepts et leurs relations sont extraits de bases de connaissances et

ensuite vérifiés par les inférences. Face à la masse croissante de documents présents sur le

Web et aux avancées technologiques dans le domaine de la recherche d’information, de

l’apprentissage automatique et du traitement automatique des langues, de nouveaux

travaux portent sur la recherche d’un procédé plus automatique de génération d’ontologies.

Ce mécanisme mène généralement à la conception d’ontologies dites légères. Dans

(Maedche & Staab, 2001), différents types d’approches sont distingués en fonction du

support sur lequel elles se basent : à partir de textes, de dictionnaires, de bases de

connaissance, de schémas semi-structurés et de schémas relationnels.

Des méthodes mixtes : les techniques automatiques permettent d’étendre des ontologies

qui ont été construites manuellement comme la base des connaissances Cyc (Mellal, 2007).

Dans notre cas d’étude nous avons construit notre ontologie pour la vaccination à partir

des bases de données locales aux PMI. Chaque table a été convertie en un concept et chaque

ligne de la table a été convertie en une instance du concept correspondant. Les valeurs des

attributs ont été instanciées avec les valeurs des champs correspondants de la table. Plus de

détails sont fournis dans la partie contributions de cette thèse.

FZ Abdelouhab Page 34

Figure 1-1 Cadre d’analyse des méthodologies recensées (Psyché, et al., 2004)

1.4.3 Les Outils

Un ensemble d’environnements d’ingénierie ontologique ont été développés afin de

systématiser l’ingénierie des ontologies. Les plus connus sont : ONTOLINGUA (Farqhuar, et

al., 1996), LOOM (Flater, 2003), ODE (Doe, 2002), PROTEGE2000(PRO, 2002) et OntoEdit

(ONTOEDIT, 2004). Ces outils seront plus ou moins détaillés dans la section qui suit.

1.5 Langages et plates-formes pour les ontologies

Une fois l’ontologie construite, les intentions sont organisées, structurées et contraintes

pour représenter la conception du monde. La représentation des intensions peut faire appel à

des langages plus ou moins formels tels que XML (Marsh, 2001), RDF(S) (Klyne & Carroll,

2004), DAML+OIL (Connolly, et al., 2001) et OWL (Smith, et al., 2004). Le but de ces

langages est de représenter les ontologies dans un langage commun (Zghal, et al., 2011).

Cependant les plus concurrents sont RDF(S) et OWL. Le langage RDF(S) ne permet

pas de représenter la cardinalité d’une relation. Il n’exprime pas aussi les caractéristiques des

relations : la transitivité, la symétrie, la fonctionnalité, etc. De même, il ne permet pas les

restrictions pour certaines classes. Ainsi, le W3C a recommandé un langage standardisé

possédant un niveau d’expressivité plus élevé. Le langage d’ontologie recommandé par W3C

est le langage OWL. Ce langage est inspiré du langage DAML+OIL. Il couvre la majorité des

caractéristiques du langage DAML+OIL, en attribuant de nouveaux noms à la plupart de ses

primitives. Le langage OWL est spécialement développé pour la représentation des ontologies

dans le cadre du Web sémantique. Ce langage permet aussi de créer, partager et échanger des

connaissances dans le Web sémantique (Bach, 2006). Pour ces raisons toute ontologie qui

n’est pas décrite en OWL présente des inconvénients (Berners-Lee, et al., 2001).

Le langage d’ontologie OWL offre trois sous-langages (OWL-Lite, OWL-DL et OWL-

Full) avec une puissance d’expressivité ascendante (Bach, 2006). La raison de cette division

concerne la complexité, la calculabilité et l’implémentation du langage.

Le sous-langage OWL-Lite possède la complexité formelle la plus basse et l’expressivité

minimale. Il est suffisant pour la représentation des thésaurus et d’autres taxonomies ou

des hiérarchies de classification avec des contraintes simples.

Le sous-langage OWL-DL, possède une expressivité maximale tout en maintenant les

propriétés de complétude computationnelle (i.e., toutes les conclusions sont garanties

d’être calculées) et de décidabilité (i.e., tous les calculs finiront en un temps fini). Il

correspond à la variante de la logique de description et est approprié pour la représentation

des ontologies ayant besoin de la puissance d’expressivité tout en gardant la calculabilité.

Le sous-langage OWL-Full est conçu pour les développeurs, les implémenteurs et les

utilisateurs qui ont besoin de l’expressivité maximale, de la liberté syntaxique de RDF

mais sans se soucier d’une garantie de calculabilité. Actuellement, il n’existe pas encore

d’outils ou de logiciels de raisonnement capables de supporter des raisonnements complets

pour toutes les caractéristiques d’OWL-Full (Bach, 2006).

La construction formelle de l'intension donne une représentation précise et non ambiguë

de la manière dont on peut concevoir son sens, ce qui permet sa manipulation logicielle et son

utilisation comme une primitive de représentation de connaissances pour décrire et structurer,

par exemple, des données, des logiciels, des utilisateurs des communautés, etc. OWL-Lite

représente pour nous le langage le plus adapté pour décrire et structurer les données de la

vaccination

De nombreux éditeurs d’ontologies sont apparus. Protégé est l’un des éditeurs

d’ontologie les plus utilisés. Il peut lire et sauvegarder des ontologies dans la plupart des

formats d’ontologies : RDF, RDFS, OWL (Mellal, 2007).

LOOM est une plate-forme pour la représentation des connaissances. Son objectif principal

est de construire des applications intelligentes. Les connaissances déclaratives dans LOOM

sont composées de définitions, de règles, de faits, etc. Pour compiler les connaissances

déclaratives, LOOM utilise un moteur déductif. Ce dernier est un classifieur qui utilise le

chaînage-avant, l’unification sémantique et des technologies orientées objet. SUMO est

l’une des ontologies utilisées dans LOOM par l’intermédiaire d’un outil SUMO2LOOM

(Flater, 2003).

ONTOLINGUA est un mécanisme qui permet aux utilisateurs de créer et manipuler des

ontologies. Il supporte les ontologies portables pour qu’elles soient traduites dans

différents systèmes.Ontolingua est basé sur le langage d’interchange KIF (Knowledge

Interchange Format). Celui-ci est conçu pour l’échange de connaissances entre des

systèmes informatiques répartis. Ontolingua permet aussi de traduire des ontologies

génériques en LOOM, KIF, etc.

OIL(OntologyInference Layer) est un langage dédié à la spécification et à l’échange des

ontologies sur le Web. Il permet la représentation et l’inférence d’ontologies, en

combinantdes primitives de modélisation des langages de frame avec la sémantique

formelle et les modesde raisonnement des logiques descriptives. Ainsi, il représente une

ontologie par un conteneur (ontology container) et des définitions ontologiques (ontology

definition). Pour cela, il se base sur des formalismes tels que RDF/RDFS et XML, ce qui

garantit sa totale compatibilité avec ces formalismes standards ou des formalismes en cours

de standardisation.

SHOE (Simple HTML Ontology Extensions) est une extension du langage HTML qui

permet aux auteurs de pages Web de générer une annotation de leurs documents,

compréhensible par la machine. Ce langage peut être utilisé par des agents pour la gestion

des pages Web (Lucke, et al., 1997).

DOE (Differential Ontologie Editor) (Troncy & Issac, 2002), (Doe, 2002) offre la

possibilité de construire les hiérarchies de concepts et relations en utilisant les principes

différentiels énoncés par Bachimont (2000), puis en ajoutant les concepts référentiels. La

sémantique des relations est ensuite précisée par des contraintes. Ce n’est qu’une fois

l’ontologie ainsi structurée qu’elle est formalisée en utilisant la syntaxe XML.

PROTEGE2000 (Noy & Musen, 2000), (PRO, 2002). est une interface modulaire

permettant l’édition, la visualisation, le contrôle (vérification des contraintes) d’ontologies,

et la fusion semi-automatique d’ontologies à l’aide du plugin Prompt (Noy & Musen,

2000). Le modèle de connaissances sous-jacent à PROTEGE-2000 est issu du modèle de

frames et contient des classes (concepts), des slots (propriétés) et des facettes (valeurs des

propriétés et contraintes), ainsi que des instances de classes et des propriétés.

OntoEdit (Ontology Editor) (ONTOEDIT, 2004) est également un environnement de

construction d'ontologies indépendant de tout formalisme. Il permet l'édition des

hiérarchies de concepts et de relations et l'expression d'axiomes algébriques portant sur les

relations, et de propriétés telles que la généricité d'un concept. Des outils graphiques dédiés

à la visualisation d'ontologies sont inclus dans l'environnement. OntoEdit est très utilisé

dans le domaine biomédical.

Dans notre cas d’étude nous avons opté pour le logiciel protégé pour sa convivialité, du

fait qu’il soit en open source et surtout il supporte bien le langage OWL que nous adoptons

dans la modélisation de l’ontologie.

1.6 La classification des ontologies

La classification des ontologies peut se faire selon plusieurs dimensions (Psyché, et al.,

2004). Ces dimensions regroupent principalement cinq classes : objets de conceptualisation,

niveau de granularité, formalisme de représentation, niveau de complétude et la richesse de la

structure interne (Zghal, 2010). La Figure1-2 illustre les dimensions permettant la

classification d'ontologies.

1.6.1 Classification selon l’objet de conceptualisation

Les ontologies classifiées selon leur objet de conceptualisation par (Gómez-Pérez,

1999), (Guarino, 1997) et (Mizoguchi, 1998) sont données dans la Figure1-3 suivante :

Figure 1-2: Typologies d’ontologies selon quatre dimensions de classification

Figure 1-3: Classification selon l’objet de conceptualisation (Psyché, et al., 2004)

Les ontologies de représentation des connaissances permettent d’expliquer la

conceptualisation sous-jacente aux formalismes de représentation (Davis, et al., 1993).

Elles regroupent les concepts impliqués dans la formalisation des connaissances. On les

désigne également comme ontologies abstraites ou de haut niveau parce qu’elles

permettent de définir des concepts abstraits et peuvent être réutilisées pour définir des

concepts spécifiques. Un exemple d’ontologie de ce type est la Frame Ontology utilisée

dans Ontolingua (Gruber, 1993). Un autre exemple est l’ontologie de Sowa "

KnowledgeRepresentation (KR) ". C’est est une ontologie générique à visée universelle.

Les ontologies supérieures ou de hauts niveaux : elles contiennent des connaissances

abstraites très générales valables dans différents domaines, destinées à rassembler d'autres

ontologies (ex: notions d'entité, d'évènement, de rôle, etc.). Elles visent à étudier les

catégories des choses qui existent dans le monde, comme les concepts de haut niveau

d’abstraction. L’ontologie de haut niveau est fondée sur la théorie de l’identité, la

méréologie (theory of whole part) et la théorie de la dépendance. Ses concepts sont

indépendants d’un domaine ou d’un problème particulier. Parmi ces ontologies on cite

souvent " UpperCyc " qui a été construite en une douzaine d’années (Mellal, 2007).

Les ontologies génériques : elles ont pour objectif de recouvrir tous les sens des mots et ne

normalisent pas leur sens. Elles sont appelées, également, des méta-ontologies ou "Core

ontologies". Elles décrivent des concepts génériques moins abstraits que ceux décrits par

des ontologies supérieures. Dans cette classe, citons SUMO (Suggested Upper Merged

Ontology) développée dans le cadre du projet IEEE SUO (Standard Upper Ontology).

L’objectif assigné à SUMO est de constituer un standard pour permettre l’interopérabilité

sémantique entre les systèmes d’information. Une autre ontologie générique a été

développée WordNet. En fait, c’est un système de références lexicales croisées dont la

conception a été inspirée par les théories actuelles de la mémoire linguistique humaine.

Les ontologies de domaines : elles contiennent des connaissances propres à un domaine de

connaissances. Elles décrivent le vocabulaire lié à des domaines particuliers comme la

physique, la mécanique, la chimie, la médecine et la modélisation d’entreprise. Elles sont

réutilisables pour plusieurs applications sur ce domaine. L’ontologie Ménélas

(Zweigenbaum, 1993) est un exemple d’ontologie de domaine, celui des maladies

coronariennes, rassemblant des concepts et leurs relations structurés à partir de la relation «

sorte de ». Ménélas comprend également des lexiques sémantiques et morphosyntaxiques

des mots simples et composés. Cette ontologie est dédiée à l’analyse automatique de

compte-rendu d’hospitalisation.

Les ontologies d’application : contiennent des connaissances du domaine nécessaires à une

application donnée, elles sont spécifiques et non réutilisables. Généralement, les ontologies

d’application combinent des éléments d’ontologies de domaine et d’ontologies génériques

choisies en fonction des méthodes spécifiques pour réaliser la tâche visée. Elles sont

rarement réutilisables pour une autre application. On peut citer, par exemple, PhysSys qui a

été construite pour assister des ingénieurs dans le développement d’applications concernant

l’ingénierie de systèmes physiques dynamiques (Noy & Musen, 2000). PhysSys exploite

l’ontologie EngMath couvrant tous les aspects liés à la modélisation mathématique en

ingénierie (Gruber & Olsen, 1994). D’autres exemples d’ontologies d’application sont CO

et GO. CO (ChimicalOntology) est une ontologie dans le domaine de la chimie qui permet

d’identifier les groupes fonctionnels chimiques trouvés dans des inter-acteurs de petites-

molécules (Dumontier, et al., 2005). GO (Gene Ontology) est une ontologie qui vise à

établir un vocabulaire structuré et contrôlé pour décrire certains domaines de la biologie

moléculaire et cellulaire. Dans le domaine juridique, l’ontologie LKIF CoreLegalOntology

est employée pour organiser et représenter des concepts juridiques.

Les ontologies d’information : elles spécifient la structure des enregistrements d’une base

de données. Les schémas de base de données en sont un exemple. Elles proposent un cadre

de représentation de la connaissance stockée mais ne spécifient pas de détails sur la

sémantique des champs.

Les ontologies terminologiques ou linguistiques spécifient les termes utilisés pour

représenter la connaissance d’un domaine. Un exemple de ce type d’ontologie est le réseau

sémantique UMLS (UnifiedMedicalLanguage System) (Lindberg, et al., 1993).

Les ontologies de tâche : contiennent des connaissances propres à une activité (ex: le

diagnostic). Elles fournissent un vocabulaire systématisé de termes employé pour la

résolution de problèmes liés aux tâches, qui peuvent appartenir ou non au même domaine.

1.6.2 Classification selon le niveau de détail ou de granularité

La granularité est un autre critère pour la classification d'ontologies. La granularité

représente le niveau de détail de la conceptualisation de l'ontologie. Dans cette typologie,

deux types de granularité ont été distingués par Fürst ( 2002) :

Granularité fine : Quand les ontologies sont très détaillées au niveau du vocabulaire utilisé,

qui est plus riche. Ce vocabulaire doit assurer la pertinence des concepts d’une tâche

spécifique, dans un domaine particulier. Souvent, les ontologies de domaine, les ontologies

de tâches et les ontologies d’applications représentent des ontologies à granularité fine.

Granularité large : concerne le cas où les ontologies sont moins détaillées. Un exemple est

celui des ontologies de haut niveau, car elles disposent de concepts génériques qui peuvent

être raffinés dans d’autres types d’ontologies (ontologie de domaine, de tâches et

d’application).

Figure 1-4: Classification selon le niveau de granularité (Psyché, et al., 2004)

1.6.3 Classification selon le formalisme de représentation

Les ontologies sont aussi classées en plusieurs niveaux d'expression selon leur

utilisation (Uschold & Gruninger, 1996), (Mhiri, et al., 2006):

L'ontologie très informelle : est exprimée dans un langage naturel (sémantique ouverte).

L'ontologie semi-informelle : est exprimée sous une forme restreinte et structurée de

langage naturel pour augmenter la clarté et pour réduire l'ambiguïté.

L'ontologie semi-formelle : est exprimée en langage formel

L'ontologie rigoureusement formelle : est définie avec une sémantique formelle à travers

un langage artificiel formel, permettant les théorèmes et les preuves telles que la robustesse

et l'exhaustivité.

1.6.4 Classification selon le niveau de complétude

Selon Bachimont (Bachimont, 2000), il existe trois engagements correspondant aux

étapes de la modélisation des connaissances :

Figure 1-5: Classification selon le formalisme de représentation (Psyché, et al., 2004)

Un engagement sémantique est vu comme un arbre de concepts sémantiques définis par un

libellé linguistique.

Un engagement ontologique qui décrit un ensemble des concepts référentiels (ou formels)

qui se caractérisent par un terme/libellé dont la sémantique est définie par une extension

d’objets.

Un engagement computationnel traite des concepts computationnels qui sont caractérisés

par les opérations qu’il est possible de leur appliquer pour générer des inférences.

Figure 1-6: Classification selon le niveau de complétude (Psyché, et al., 2004)

1.6.5 Classification selon la richesse de la structure interne

Lassila et McGuinness (2001) proposent une classification d'ontologies en fonction des

données que l'ontologie décrit et la richesse de sa structure interne à travers les catégories

suivantes (Zghal, 2010):

Le vocabulaire contrôlé : est un ensemble de termes définis par un groupe de personnes ou

une communauté (par exemple les catalogues).

Le glossaire : représente un ensemble de termes avec leur signification.

Le thésaurus : est défini par un ensemble de termes organisés suivant un nombre restreint

de relations. Ces relations peuvent être entre termes synonymes ou entre termes préférés.

La hiérarchie informelle : organise des catégories à partir de la notion générale de

généralisation/spécification (par exemple la hiérarchie proposée par Yahoo qui représente

une catégorisation des thèmes de recherches).

La hiérarchie formelle : est une hiérarchie dont la structure est déterminée par des relations

de généralisation.

La hiérarchie formelle avec instances : est similaire à la catégorie précédente mais elle

inclut des instances.

Le frame : représente une ontologie contenant des classes avec des propriétés pouvant être

héritées.

L'ontologie avec restrictions de valeurs : est une ontologie contenant des restrictions sur les

valeurs des propriétés.

L'ontologie avec contraintes logiques : est une ontologie pouvant contenir des contraintes

entre les constituants, définies dans un langage logique.

1.7 Apports des ontologies

Les ontologies ont été employées dans divers domaines et pour différents objectifs.

Leurs utilisations les plus répandues sont classées, selon Uschold, (Uschold & Gruninger,

1996) en trois catégories : (Mellal, 2007)

La communication : Les ontologies permettent le partage de la compréhension et la

communication dans des contextes particuliers et selon les besoins. Ainsi, on peut utiliser

l’ontologie pour créer un réseau de relations qui définit les connexions entre les

composants du système. Cette caractéristique de communication est offerte grâce à la non-

ambiguïté des termes utilisés et définis par l’ontologie dans les systèmes.

Figure 1-7: Classification selon la structure interne

L’interopérabilité : Elle se produit lorsque différentes organisations ont besoin de

communiquer et d’échanger de l’information afin d’atteindre un objectif donné. Les

ontologies contribuent à faciliter la compréhension et l’interprétation des informations

échangées, en se présentant comme un format d’échange.

L’ingénierie des systèmes : une ontologie peut aider à l’analyse des besoins et à définir les

spécifications d’un système. Son rôle dépend du degré de la formalisation et

l’automatisation de la méthode de spécification. Dans l’aspect informel, elle facilite la

compréhension des liens et relations entre les composants du système. Dans l’aspect

formel, elle définit la spécification déclarative du système. Les ontologies informelles

améliorent et assurent la fiabilité des systèmes logiciels en servant de base pour la

vérification manuelle de la conception. Elles permettent la vérification semi-automatique

du système en respectant, bien sûr, la spécification déclarative et l’intégration des

différents composants du système.

L’un des objectifs fondamentaux du Web sémantique est l’échange de ressources entre

machines, afin de permettre l’exploitation de grands volumes d’informations et de services.

Les ontologies jouent ici un rôle important car elles permettent la réalisation du Web

sémantique. Elles permettent de fournir des vues structurées et partageables des ressources et

de définir une sémantique formelle pour l’information et le domaine. Le "E-commerce" est

une des applications les plus répandues des ontologies. En général, elles sont utilisées pour

déterminer les index conceptuels qui décrivent les ressources sur le Web.

1.8 Problématique des ontologies

En reprenant les différentes définitions d’une ontologie nous constatons que son

ambiguïté est due essentiellement à ses multiples facettes. Son essor ne cesse de croître et son

apogée se trouve au cœur des systèmes de recherche d’information ou d’aide à la décision de

multiples domaines.

Les réflexions sur les ontologies s’appuient sur leurs différents acquis en notant qu’elles

jouissent de plusieurs facettes ; elles servent (1) pour le vocabulaire, la structuration et

l’exploitation des métadonnées, (2) comme représentation pivot pour l’intégration de sources

de données hétérogènes (3) pour décrire les services Web et, en général, partout où il va être

nécessaire d’appuyer des modules logiciels sur des représentations sémantiques nécessitant un

certain consensus. Ceci ne va pas sans poser des problèmes d’hétérogénéité et

d’interopérabilité qui ne se limitent pas seulement à la divergence des domaines que peuvent

couvrir les ontologies mais aussi aux formalismes requis pour leurs développements et leurs

réutilisation.

Dans la littérature, plusieurs travaux ont été menés pour classifier les types

d'hétérogénéité qui peuvent exister entre les ontologies. Ils sont recensés au nombre de quatre,

à savoir: l'hétérogénéité syntaxique, l'hétérogénéité terminologique, l'hétérogénéité

conceptuelle et l'hétérogénéité sémiotique. (Zghal, 2010).

L'hétérogénéité syntaxique : se produit quand deux ontologies sont décrites avec deux

langages ontologiques différents. Cette classe d'hétérogénéité survient au niveau

théorique, notamment, quand il s'agit d'établir des équivalences entre les primitives de

différents langages ontologiques. Il est possible dans certains cas de traduire les

ontologies dans différents langages ontologiques à condition de préserver la

signification.

L'hétérogénéité terminologique : se manifeste dans l'éventualité où deux entités sont

référencées par deux noms différents alors qu'elles désignent le même objet. La cause

d'une telle hétérogénéité, revient à l'utilisation de différents langages naturels, ou des

sous langages techniques spécifiques à un domaine de connaissances bien déterminé.

Elle se manifeste aussi par l'utilisation des synonymies.

L'hétérogénéité conceptuelle est appelée aussi hétérogénéité sémantique (Euzenat,

2001) ou la différence logique (Klein, 2001). Elle concerne la diversité des

modélisations d'un même domaine de connaissances. Elle découle principalement de

l'utilisation de différents (ou équivalents) axiomes décrivant les concepts ontologiques.

L'hétérogénéité sémiotique, appelée aussi hétérogénéité pragmatique (Euzenat &

Shvaiko, 2007), s'intéresse à la manière dont les entités ontologiques sont interprétées

par leurs utilisateurs. Les différences d'interprétation sont dues principalement à la

diversité des contextes et des domaines d'application des ontologies. Par conséquent,

la manière de mettre en œuvre les entités ontologiques influence leurs interprétations.

De plus, ce type d'hétérogénéité reste difficile à détecter par la machine.

1.9 Conclusion

Dans ce chapitre, nous avons présenté les concepts de base des ontologies. Nous avons

proposé une description détaillée des différents éléments décrivant les ontologies, et une

classification d'ontologies selon plusieurs démarches. Par la suite de nombreux langages de

représentation des ontologies ont été donnés présentant le langage OWL comme étant le plus

récent et le plus polyvalent des langages proposés. En effet, ce dernier s’inscrit dans le Web

Sémantique et propose différents niveaux de formalisation permettant à la ressource

représentée d’évoluer en fonction de l’engagement sémantique choisi.

Nous avons aussi montré que les ontologies peuvent être génériques, spécifiques à une

tâche dans un domaine particulier ou bien directement destinées à des applications

déterminées. Elles peuvent être décrites dans plusieurs langages de représentation. Les apports

de l’utilisation des ontologies sont divers. Les ontologies jouent un rôle important dans les

systèmes à base de connaissance. Outre la réutilisation et le partage de connaissances, elles

permettent de faciliter la communication entre les acteurs de différentes organisations. Elles

permettent, en particulier, la réalisation de l’interopérabilité entre différents systèmes.

Nous avons également évoqué le problème de l'hétérogénéité. Dans la littérature, il

existe plusieurs travaux qui visent à réduire cette hétérogénéité selon ses aspects

terminologiques et/ou conceptuels. Dans ce contexte, plusieurs techniques sont utilisées, à

savoir : l'alignement, la fusion, l'intégration, la production de ponts d'axiomes et la traduction

(Desprès & Szulman, 2007), (Euzenat & Shvaiko, 2007).

Dans notre cas d’étude nous avons opté d’utiliser une ontologie de domaine (le domaine

de vaccination), légère ne possédant pas d’axiomes complexes, représentée par le langage

OWL-Lite et constituée de concepts structurés en hiérarchie suivant un ordre partiel.

Chapitre deuxième

Intégration des données par la

fusion des ontologies

Chapitre2

2.Intégration des données par fusion

des Ontologies

Le caractère décentralisé, réparti, autonome et hétérogène des données du web ainsi

que la multitude de sources d’informations et leurs diversités a rendu indispensable leur

intégration au sein des entreprises intéressées par ces mêmes données. Le rôle des systèmes

d’intégration de données est de répondre aux besoins des utilisateurs à travers des interfaces

d’accès uniformes aux sources contenant ces données (Zerdazi & Lamolle, 2005). Le défi de

l’intégration de données est de faire cohabiter les sources hétérogènes, de plus en plus

nombreuses, souvent réparties et indépendantes, dans un seul système uniforme, appelé

système d’intégration, sans contraindre le comportement ni l’autonomie de chacune d’elles.

Dans notre cas d’étude, les services SEMEP sont spécialisés entre autre de la vaccination

des individus et le suivi du programme élargi de la vaccination (PEV). A cet effet, ces

services collectent des données des différentes PMI, des services médicaux et de l’état civil.

L’interprétation de ces données permet aux responsables des SEMEP de mieux cerner les

désordres qui se produisent lors de la couverture vaccinale et garantir ainsi un bon PEV. Ces

différents services donnent lieu à plusieurs résultats consignés dans des comptes rendus ou

des carnets de vaccination ou même des bases de données que les dirigeants sont contraints de

consulter pour effectuer une bonne prise de décision.

Figure 2-1 Organigramme du SEMEP (Brahami, 2014)

Intégration des données par fusion des Ontologies

Les données issues des différents services que nous avons évoqués ci-dessus sont de

natures diverses et sont stockées sur des supports différents : bases de données, des pages web

ou même des fichiers textes. Il appartient ensuite aux dirigeants de combiner manuellement

les données fournies par les différentes sources s'ils veulent avoir une vue globale de

l'information souhaitée. Ce travail peut rapidement devenir complexe, même si ces dirigeants

disposent d'une expertise qui leur permet d'établir des liens entre les données. Dans cet

optique, proposer des mécanismes pour un accès unifié à des données dispersées dans

plusieurs sources est l'objectif principal de l’intégration des données et notre travail de thèse

se situe dans ce cadre.

L'illustration, que nous avons présentée est issue d’un domaine de prévention médicale

mais le problème de l'intégration des données est cependant beaucoup plus général et est

fréquemment rencontré dans le domaine des entreprises commerciales, où le besoin

d'intégration de données issues de différents systèmes d'information devient de plus en plus

crucial. La croissance exponentielle des informations et des ressources échangées entre les

différents systèmes, qu’ils soient publics ou privés (Internet, bases de données, etc), augmente

le taux d’hétérogénéité des informations et rend leur compréhension et leur analyse très

difficiles. Un problème crucial découlant de cette hétérogénéité concerne la préservation du

sens de l’information échangée. C’est ce que l’on appelle l’interopérabilité sémantique. Une

définition est communément admise pour l’interopérabilité sémantique : "elle donne un sens

aux informations échangées et s’assure que ce sens soit commun dans tous les systèmes entre

lesquels des échanges doivent être mis en œuvre" (Mellal, 2007). La prise en compte de cette

sémantique permet aux systèmes distribués de combiner les informations reçues avec des

informations locales et de traiter l’ensemble de manière cohérente.

Pour assurer l’interopérabilité sémantique, l’information échangée entre systèmes doit

d’abord être décrite dans une structure formelle permettant de préserver sa sémantique. Ce

grand défi est omniprésent dans le domaine de l’ingénierie des connaissances, où des

méthodologies et des techniques sont proposées pour percevoir, identifier, analyser, organiser

et partager des connaissances entre différentes organisations. Parmi ces techniques, les

ontologies connaissent un essor très important depuis une dizaine d’années et apparaissent

comme le moyen efficace pour la représentation des connaissances.

L’interopérabilité sémantique requiert l’utilisation de techniques et de méthodologies

qui établissent sémantiquement des liens de dépendances entre les services fournis par les

entités communicantes du système distribué. Dans la littérature, la recherche de ces liens

s’appelle l’alignement des ontologies. Il vise à trouver les correspondances entre les concepts

appartenant à différentes ontologies au sein d’une même application. Nous montrerons par la

suite que cet aspect est au cœur de notre travail.

En ce qui concerne l’intelligence artificielle, et plus particulièrement la représentation

des connaissances et le raisonnement, l’interopérabilité apparaît comme une étape cruciale

vers une unification de la sémantique des connaissances distribuées. Les ontologies sont

précisément un des moyens contribuant à faciliter la compréhension des informations

échangées entre les systèmes interopérables en essayant de standardiser la représentation des

concepts et de leurs relations.

Vu le contexte dans lequel nous avons défini notre problématique, notre travail

s’apparente, d’une part, à des travaux sur l’intégration des données du Web. Plus précisément

l’intégration des sources de données autonomes et hétérogènes, et d’autre part, à des travaux

sur l’intégration des données guidée par une ontologie qui étudient, quant à eux, comment

trouver des correspondances entre les ontologies des sources de données à intégrer et

comment les utiliser. C’est dans cette connectivité que nous avons dressé le contenu de ce

chapitre, d’abord, sur l’intégration des données du Web (Parent & Spaccapietra, 2011) et

ensuite sur l’intégration des données via des ontologies. Dans le cadre de nos travaux, nous

considérons l’intégration comme étant un concept générique incluant le concept

d’interopérabilité que nous développerons dans ce chapitre. L’ontologie dans le contexte de

l’interopérabilité des entreprises est un pont entre différents systèmes qui sert à définir le

format d’échange entre ces systèmes (Mellal, 2007).

2.1 Intégration des données du Web

L’intégration des données est un processus qui consiste à rapatrier des données à partir

de différentes sources hétérogènes pour, soit les traiter localement (Approche médiateur)

(Lamarre, et al., 2004) soit les stocker dans une base commune (Approche Entrepôt de

Données) (Kimball, 1998). Dans l’approche médiateur, le système d’intégration génère, à

partir d’une requête de l’utilisateur, autant de sous-requêtes qu’il y a de sources de données à

interroger, ensuite, il construit la réponse finale à partir du résultat de chaque sous-requête et

la transmet à l’utilisateur. Cette approche est bien adaptée lorsque l’information change

rapidement, lorsque les requêtes des utilisateurs ne sont pas prévisibles et lorsque le nombre

de sources de données et le nombre de données sont très élevés. L’approche Entrepôt de

données consiste à construire une base de données réelle et centralisée, selon un schéma

particulier. Cette approche est caractérisée par sa performance en termes de temps de réponse

des requêtes. L’intégration des données s’effectue également en deux étapes : le système

d’intégration fusionne et stocke les différentes sources de données dans un seul entrepôt de

données, puis la requête de l’utilisateur est alors posée à cet entrepôt sans accès aux sources

de données d’origine.

Dans l’une ou dans l’autre des approches, la complexité du problème reste la même dû

au fait que les informations sous-jacentes se trouvent dans des sites différents (Boussaid, et

al., 2006). Selon (Nguyen, 2006), les approches d’intégration peuvent être classifiées suivant

trois critères : selon la manière de stocker les données à intégrer ou selon la manière de relier

les schémas des sources locales avec le schéma global ou encore sur le degré d’automaticité

d’intégration.

Il peut exister plusieurs approches permettant d’appréhender le problème d’intégration.

Principalement, nous pouvons distinguer trois types fondamentaux. Il s’agit respectivement en

fonction de leur degré de complexité, de l’intégration de données, de processus, et des

applications (Tebib, 2014).

2.1.1 Intégration de données

C’est la forme la plus simple de l’intégration. Elle apparaît au niveau des bases de

données. D’une part, elle est assurée par duplication des copies d’une partie ou de toute la

base de données dans une ou plusieurs applications. D’autre part, l’intégration s’effectue par

le transfert des données, en utilisant des outils pour permettre aux données d’émigrer d’une

application à une autre. Ce transfert de données est généralement réalisé par ETL (Extract,

Transform and Load). ETL est un moteur qui extrait, transforme, épure puis charge les

données à partir de différentes applications vers des entrepôts de données. Il est aujourd’hui

la solution la plus préconisée dans l’intégration des données.

2.1.2 Intégration des applications

L'intégration d'applications (AI : Application Integration) porte sur l'interconnexion

d'applications hétérogènes, le plus souvent développées de façon indépendante voire de façon

incompatible. L'AI permet principalement de faire communiquer tout type d’applications

(CRM - Customer Relationship Management, ERP -Entreprise Ressource Planning, SCM -

Supply Chain Management, etc.), ce qui peut constituer des enjeux énormes notamment pour

les grosses entreprises qui disposent d'une masse importante d'applicatifs. Sur le terrain, l'AI

s'affiche par une multitude de produits commerciaux portant des logos assez variés tels que

EAI ou l’ESB (Business Work de Tibco, Integrator de Mercator, e*Gate Integrator de

SeeBeyond, Websphere d'IBM, Biztalk de Microsoft, Businessware de Vitria, Intégration

Server de WebMethods, EntireX de SoftwareAG, XMLBus d'Iona, Sonic ESB de Sonic

Software, etc.), et dont l’objectif est de permettre de rationaliser et fluidifier le système

d’information afin de le rendre plus flexible et plus réactif.

2.1.3 Intégration des processus

C’est la forme la plus complexe de l’intégration. Elle sert à rendre valable une

application dans le contexte d’une autre sans la dupliquer. Elle permet aussi de construire de

nouveaux processus métier à base des applications et progiciels existants. Ceci crée de

nouvelles opportunités pour l’organisation à moindre coût. Les données circulant dans la

nouvelle organisation sont accédées et maintenues selon une logique de métier (business

logic) qui a des règles et une sécurité de données. Ces données ne sont plus simples mais des

objets métier (BOD : Business Object Document, ex : bon de commande) qui portent déjà un

sens. Grâce à cette forme d’intégration, les nouveaux processus métier qui les manipulent sont

créés.

2.2 Intégration des données via des ontologies

Plusieurs systèmes d’intégration à base d’ontologies, ou par ontologies ont vu le jour et

ont apporté un plus considérable dans divers domaines (Mena, et al., 2000). Selon

Bellatreche, (2006), il existe deux catégories de ces systèmes : les premiers utilisent une

structure à base d’une ontologie unique comme les Projets OntoBroker, SIMS, COIN, Picsel

cités dans (Khouri, 2009) mais ils souffrent de manque d’autonomie au niveau des sources

locales. Les deuxièmes sont à base d’ontologies multiples et apportent une meilleure solution

tels que les projets ONION et caBIG cités dans (Khouri, 2009).

Dans les approches à base d’ontologies multiples chaque source est décrite

sémantiquement par sa propre ontologie, appelée ontologie locale qui est mise en

correspondance avec une ontologie partagée modélisant un domaine particulier, qu’on appelle

ontologie globale. Dans cette catégorie nous trouvons, entre autre, les travaux de (Diallo,

2011) qui propose une Architecture à Base d’Ontologies pour la Gestion Unifiée de deux

types de données Structurées et non Structurées basée sur une approche de médiation par

ontologies. Sa conception repose sur l'utilisation des technologies du Web Sémantique et de

plusieurs types d'ontologies pour la caractérisation sémantique des sources non structurées

(textuelles). Les ontologies servent d'une part à définir le schéma global d'intégration

(ontologie globale) et, d’autres parts, les différentes sources à intégrer. Des correspondances

sont établies entre l'ontologie globale et les différentes ontologies locales.

Saïs (2007), propose un système d’Intégration Sémantique de Données structurées

représentant des tableaux collectés et extraits à partir du Web. Cette intégration de type

entrepôt de données rentre dans le cadre du projet eDot guidée par une Ontologie du domaine.

Sa contribution est une méthode générique et automatique d'enrichissement sémantique

d'informations structurées représentant des tableaux pour découvrir des relations candidates à

l'enrichissement d'un entrepôt et d'une ontologie. Cette étude monte l'intérêt et la faisabilité

d'approches complètement automatiques, non supervisées et guidées uniquement par une

ontologie.

L’objectif de Zimmerman, (2013), est de modéliser la sémantique d’un ensemble des

connaissances produites indépendamment les unes des autres, formant un réseau et mises en

correspondances. Dans chaque nœud du réseau se trouve une ontologie, reliée aux autres par

des correspondances formant des alignements d’ontologies. Afin de favoriser l’utilisation

d’ontologies indépendantes et préexistantes, il définit une sémantique formelle exploitant le

principe de médiation. Il a mis en place un formalisme qui exploite au mieux les logiques

locales déjà établies, les met en corrélation par un procédé original qui distingue d’un côté la

représentation locale, propre à chaque nœud dans le réseau, et la représentation des

connaissances inter-ontologies propre au médiateur. Cependant, son travail se trouve

confronté à la complexité du raisonnement distribué.

Les travaux de Dibie (2009), portent sur l’intégration des données guidée par une

ontologie à travers la réalisation du projet ONDINE (ONtology-based Data INtEgration).

Ceci consiste en l’intégration et l’interrogation d’une BD relationnelle et d’une base des

graphes conceptuels. Son système d’intégration repose sur une ontologie de domaine qui est

construite à partir des bases locales (à partir de leurs schémas, de leurs attributs et des

contraintes associées).

De ces recherches nous remarquons que l’intégration des données passe par les étapes

suivantes : elle associe, d’abord, à chaque source son ontologie locale ; Ensuite elle intègre

les ontologies des sources en établissant des relations sémantiques (équivalence,

subsomption…) entre leurs concepts et, enfin, elle peuple les données dans l’entrepôt en

exploitant les correspondances ontologiques établies dans l’étape précédente.

Avec l’engouement actuel du web de nouveaux critères peuvent, aussi, rentrer en jeu

pour distinguer les approches d’intégration selon qu’elles tiennent compte du critère de

scalabilité du web (Sheikhnajdy, et al., 2011) et de l’interopérabilité de sa structure et de sa

sémantique (Truptil, et al., 2010).

2.3 Composants théoriques de l'intégration

Intégrer plusieurs sources d'information a généralement pour objectif de combiner ces

sources, de telle sorte qu'elles apparaissent comme une source unique et donnent aux

utilisateurs l'illusion de n'interagir qu'avec cette seule source. Les données, distribuées sur

plusieurs sources hétérogènes, sont présentées aux utilisateurs à travers une vue logique

unique. Elles doivent donc être représentées en utilisant les mêmes principes et le même

niveau d'abstraction (avec un schéma global et une sémantique unifiés). Cette dernière

nécessite la détection et la résolution d'éventuels conflits de schémas et d'éventuels conflits de

données, tant du point de vue structurel que sémantique (Rahm & Bernstein, 2001).

Le problème de l'intégration classiquement abordé par la communauté des bases de

données (intégration de schémas, résolution de conflits, réécriture de requêtes, etc.) est

essentiellement celui de l'hétérogénéité entre différentes représentations des mêmes entités du

monde réel dont la problématique est fondée directement sur les remarques suivantes (Hovy,

et al., 2009) :

Le problème de répétition (duplication). En effet de nombreuses ontologies de même

ordre ou non ont été créées pour diverses applications. Cette prolifération fait souffrir les

principes de réutilisation et de consistance. Bien que certains chevauchements soient

nécessaires pour des raisons techniques, la majorité est inutile.

Le problème de consistance. Chaque expert, selon son domaine de prédilection va référer

un concept de manière spécifique, ou utiliser un terme pour se référer à différents

concepts selon le domaine ou le sous-domaine. Il est donc important de développer une

terminologie consistante et de créer un modèle de décision consistant là où ont lieu les

chevauchements. Cette notion de correspondance, c'est à dire d'enregistrement de

différents lexiques, est plus compliquée que le choix d'un simple lexique, et il est

nécessaire d'éviter les raisonnements inconsistants et les conclusions en contradiction.

Le problème d'un modèle de construction efficace. La création d'un modèle de domaine

est souvent compliquée par le nombre de décisions à prendre simultanément (les concepts

et leurs relations définis par d'autres concepts et relations). La tâche de modélisation est

simplifiée s'il est possible d'utiliser directement une ontologie de base large conçue pour

couvrir les plus importants phénomènes de plusieurs domaines différents.

L’hétérogénéité et l’interopérabilité sont souvent évoquées quand on s’intéresse aux

approches d’intégration. Dans ce qui suit, nous allons présenter un petit aperçu sur les notions

d’hétérogénéité des données et l’interopérabilité. L’accent sera mis sur l’interopérabilité

sémantique.

2.4 Hétérogénéité des données

La notion d’hétérogénéité des données diffère selon les approches. On trouve certains

travaux comme (Beneventano, et al., 2000), (Kim & Park, 2003), (Maibaum, et al., 2005)

qui qualifient les données de différentes catégories (structurées, semi-structurées et non-

structurées) comme étant hétérogènes. La catégorie des données structurées concernent,

essentiellement, les bases de données relationnelles ou les bases de données objets, la

catégorie des données semi-structurées s’agit des graphes, HTML, des schémas XML ou

encore des schémas OWL et enfin, la catégorie des données non-structurées englobe tous les

documents contenant des images, des sons ou des vidéo.

D’autres travaux tels que (Saccol & Heuser, 2002), traitent les données de même

catégorie mais avec des modélisations différentes comme étant hétérogènes. Par exemple dans

la catégorie des données structurées nous trouvons une modélisation objet ou relationnelle.

Nous trouvons, aussi, des travaux, tels que (Da Silva, et al., 2002), qui désignent les données

de même catégorie avec la même modélisation comme étant hétérogènes. Par exemple, deux

sources S1 et S2 contenant deux bases de données relationnelles BD1 et BD2, donc même

catégorie (données structurées) et même modélisation (modèle relationnelle). L’hétérogénéité

des données peut exister dans, par exemple, le nommage des entités (Ex : Nom dans BD1 et

Name dans BD2), le typage (ex : chaine de caractère ou entier pour le code), le degré de

granularité (ex : chaine de caractère pour l’adresse ou attribut composé de numéro de rue,

nom de rue..) etc…

Dans nos travaux, nous nous rapprochons à ces derniers. Nous considérons des données

hétérogènes comme étant des données de même catégorie semi-structurées ayant la même

modélisation. L’algorithme que nous proposons manipule des données qui se présentent sous

forme d’un schéma à balises semi-structuré. Ce schéma peut être un schéma XML ou schéma

OWL, aussi peut être un schéma d’éléments ou d’instance ou les deux à la fois.

Cette ambiguïté d’hétérogénéité des données complique davantage le processus

d’intégration, car il se voit contraint de composer avec la répartition des sources,

l’hétérogénéité de leurs structures et la complexité de leurs données (Boussaid, et al., 2006).

Ceci fait de lui un concept incontournable pour l’uniformité des données à intégrer et l’objet

même de plusieurs recherches comme, entre autres, (Lamarre, et al., 2004), (Huang, et al.,

2000).

Une classification générale des différents types d'hétérogénéité selon leur niveau est

mise en place par (Visser, et al., 1998). Elle peut être comprise dans une théorie plus générale

de qui place ses définitions d'hétérogénéité à des niveaux plus élevés. Il en découle ce qui

suit : (Hakimpour & Geppert, 2001)

L’hétérogénéité paradigmatique apparaît si des sources de connaissances différentes

expriment un savoir au travers de paradigmes de modélisation différents. Par exemple

une source peut formuler un savoir en utilisant des bases de données relationnelles

alors qu’une autre utilisera une base de données orientée-objet.

L’hétérogénéité du langage elle est de mise si les sources de connaissances expriment

un savoir par différents langages de représentation. Par exemple, qu’un système soit

en LISP alors qu’un autre s’exprime au travers de clauses de Horn.

L'hétérogénéité sémantique se réfère aux différences dans la signification des données

locales. Et ce, que des noms identiques soient mis sur des significations différentes, ou

que des noms différents soient mis sur des significations identiques.

Cela revient aux deux types d'hétérogénéité de (Tamma & Visser, 1999) suivants:

L’hétérogénéité du contenu: si deux systèmes représentent des connaissances

différentes. Par exemple si un système représente un savoir sur les étudiants de

l’Université alors qu’un autre représente les connaissances de la fluctuation du

marché de l’or.

L’hétérogénéité ontologique: cette hétérogénéité se présente lorsque différents

systèmes utilisent différentes conceptualisations. Par exemple, un système

conceptualise les animaux comme un ensemble de mammifères et un ensemble de

reptiles, alors qu’un autre système les classera en carnivores et herbivores.

2.5 Interopérabilité des données

Il n’existe pas une définition unique de la notion d’interopérabilité. Du point de vue

application, l’interopérabilité vise à assurer la coopération entre deux applications sans un

effort particulier d’interfaçage. Il s’agit d’assurer la communication et le partage

d’information et de services entre des applications indépendamment des plateformes

matérielles. En d’autres termes, les principes de l’interopérabilité décrivent les moyens pour

que deux applications, développées avec deux technologies différentes, puissent fonctionner

ensemble.

Si l’interopérabilité porte le sens de la coexistence et de la coopération, l’intégration est

liée aux notions de collaboration et d’uni‐formalisation. L’interopérabilité est synonyme de

communication et interaction. Par contre, la définition de l’intégration est plus large et couvre

la communication, la coopération et la coordination.

On trouve dans la littérature trois grands types d’approches de l’interopérabilité (Bouquet, et

al., 2004) :

L’approche intégrée : Consiste à construire un format commun pour tous les modèles

afin de développer un système unique. Suite à l’action d’intégration, les deux systèmes

en interaction deviennent un seul avec un modèle unique. Parfois nommée « médiation

centralisée », «ontologie globale» ou «ontologie unique», elle consiste à s’accorder sur

une seule ontologie. Cela implique un consensus sur le vocabulaire utilisé, sa

sémantique, la granularité de l'ontologie, le point de vue, etc. Les sources

d'informations sont alors toutes reliées à cette ontologie globale. Cela revient souvent

à fusionner les ontologies existantes en une seule. Cette approche est naturelle quand

on n'a qu'une ontologie, ou lorsqu'on en a plusieurs pour le même domaine, de

granularité proche et réalisées dans une même optique. Elle est à éviter quand l'une

des ontologies qu'on veut intégrer (ou l'une des sources de données) contient des

données hétérogènes et/ou évolue de manière indépendante : on doit alors s’attendre à

devoir régulièrement modifier l'ontologie globale, et également les autres sources de

données.

L’approche unifiée : Consiste à conserver le propre modèle de chaque système en

communication et définir un format commun à un méta‐niveau pour faire la

correspondance. Chaque système conserve alors sa propre structure avant et après la

communication. Parfois nommée « médiation décentralisée », « médiation distribuée »

ou « ontologies multiples », elle consiste à considérer les ontologies comme étant des

représentations approximatives représentant le point de vue d’une communauté ou

d’un individu, et à les faire correspondre l’une à l’autre. On a donc une ontologie par

source de données, et chaque ontologie est indépendante. Cette approche permet une

plus grande flexibilité : elle permet d’utiliser des ontologies évoluant de manière

autonome et mises à jour fréquemment. Parmi les principales difficultés, les cas de

synonymie et d'homonymie mais surtout l’ambiguïté due à un manque d’information.

Une variante considère à accorder plus ou moins de crédit aux différentes ontologies

(à donner raison à l'une plutôt qu'à l'autre en cas de conflit).

L’approche fédérée : Parfois nommée « hybride » ou « ontologie de plus haut niveau »

(« upper level ontology »), c’est un compromis entre les deux approches précédentes :

elle consiste à établir des correspondances entre les ontologies locales (une ontologie

par source), et à établir pour chacune d’elles des correspondances avec une unique

ontologie de plus haut niveau (par exemple « Standard Upper Ontology » [SUO] )

Comme pour l’approche précédente, sources et ontologies peuvent être développées de

manière entièrement autonomes, seules les correspondances sont à mettre à jour en cas

d'évolution d'une ou de plusieurs ontologies. Cette approche est surtout intéressante si

les ontologies se conforment à un certain standard ; ainsi, (Wache, et al., 2001)

proposent que toutes les ontologies locales soient décrites à l’aide d’un vocabulaire

partagé (qui peut être une ontologie) comprenant les termes basiques du domaine.

Cette approche requiert cependant de commencer par créer le vocabulaire commun,

ainsi que les règles de combinaison des termes. De plus, si les sources sont

indépendantes, ce n'est pas le cas des ontologies, qui doivent utilisent le langage

commun (il faut donc un consensus au préalable, ou construire soi-même les diverses

ontologies correspondant aux différentes sources). Ne propose pas de format commun

pour la communication et nécessite des efforts dynamique d’ajustement et

d’accompagnement.

Figure 2-2 Les approches d’interopérabilité sémantique

Les approches que nous venons de décrire correspondent aux trois approches

«Intégrée», « Fédérée » et « Unifiée » pour mettre en œuvre l'interopérabilité décrites par le

standard ISO 14258 (Concepts et règles pour la modélisation d'entreprises) dont on trouvera

une présentation dans (Chen & Doumeingts, 2003). À propos de l’approche unifiée, les

auteurs déclarent qu’elle impose l’utilisation d’un mécanisme de correspondance au niveau

méta, et que la standardisation n’est pas nécessaire mais bienvenue, parce qu’elle réduit le

nombre de correspondances à effectuer. L’intégration est l’évolution de l’approche unifiée

vers l’approche intégrée ; par contre, l’interopérabilité est l’évolution de l’approche unifiée

vers l’approche fédérée.

L’interopérabilité se présente sous deux formes ; l’interopérabilité syntaxique et

l’interopérabilité sémantique. L’interopérabilité syntaxique n’aura lieu que lorsque les

informations et les services qui les traitent ont la même syntaxe. Elle résulte de l’utilisation de

modèles de données distincts entre systèmes. Par exemple, des modèles de représentation

différents sont utilisés pour structurer un même concept (relation dans le modèle relationnel,

classe dans le modèle objet, XML, etc). Cela fait naitre l’interopérabilité sémantique qui vise

à donner une sémantique aux informations échangées et représentées dans des syntaxes

différentes et à s’assurer que cette sémantique soit commune à tous les systèmes entre

lesquels des échanges doivent être mis en œuvre. Elle est issue des différences de

compréhension et d’interprétation entre les informations provenant de divers domaines

d’application (Jouanot, 2000). Nous nous intéressons ici à l’interopérabilité sémantique, qui

représente actuellement un défi dans plusieurs domaines de recherche, en particulier en

intelligence artificielle à travers la notion d’ontologie.

L’organisation du SEMEP représente un véritable système distribué à base de

connaissances dans le sens où les différentes PMI s’échangent, en général, des services afin

d’accomplir une tâche globale qui est le PEV. Ceci fait apparaitre la nécessité de spécifier une

interprétation commune des informations échangées. Cela peut être effectué en utilisant des

standards ou en adaptant ces systèmes pour qu’ils interprètent les informations sans

ambiguïté, on parle alors d’interopérabilité. L’objectif de nos travaux étant d’intégrer au

niveau du SEMEP des ontologies liées au domaine de la vaccination. Ces ontologies

permettent de normaliser la connaissance manipulée par les services SEMEP.

2.6 Interopérabilité sémantique

Dans notre cas d’étude, la modélisation des SEMEP, comme étant des environnements

distribués, est largement facilitée par l’utilisation des ontologies. Si l’on considère que

l’ensemble des connaissances soient distribué à travers différentes ontologies locales aux

SEMEP de tout le territoire il est nécessaire d’exprimer les dépendances entre elles. Ce

problème est relié, d’une part, à la façon de représenter les connaissances sur les ontologies et,

d’autre part, à la méthode employée pour relier sémantiquement des connaissances

appartenant aux différents SEMEP (interopérabilité sémantique). Dans un contexte plus

étendu nous pouvons dire que l’interopérabilité sémantique pose un problème de

compréhension des informations échangées entre des systèmes coopérant à la réalisation

d’une tâche globale. Pour remédier à ce problème, les chercheurs se sont orientés vers deux

solutions complémentaires. Les informations échangées doivent être structurées de manière à

faciliter leur compréhension. Cette structuration amène à utiliser des ontologies qui décrivent,

dans un cadre formel, les connaissances d’un domaine. Ensuite, lorsqu’un système reçoit des

informations, la compréhension de celles-ci nécessite la mise en correspondances avec

d’autres informations ou concepts connus au sein du système, afin de les exploiter. Cette mise

en correspondance a donné lieu à la proposition et au développement de nouvelles techniques,

telles que le mapping d’ontologies, la fusion d’ontologies et l’alignement d’ontologies.

Le mapping d’ontologie vise à représenter les correspondances entre les ontologies. La

découverte de correspondances s’appelle l’alignement d’ontologies. La fusion d’ontologies

consiste à créer de nouvelles ontologies à partir d’ontologies existantes. Ces nouvelles

ontologies capturent toute la connaissance des ontologies d’origine. Elles servent à

représenter les correspondances entre celles-ci. Ces trois points sont repris plus en détails dans

la suite du chapitre parce qu’ils forment une des briques essentielles du processus

d’intégration que nous avons développé.

2.6.1 Techniques pour l’interopérabilité sémantique

Un certain nombre de techniques ont été proposées dans la littérature pour réaliser

l’interopérabilité. Elles sont souvent utilisées pour permettre le partage des données entre des

bases de connaissance hétérogènes et pour la réutilisation des informations de ces bases.

Dans l’ouvrage "Semantic Web Technologies" (Bruijn, et al., 2006), l’auteur distingue trois

catégories principales qui sont :

Le mapping d’ontologies, qui a comme objectif la représentation des correspondances

entre les ontologies. Ceci permet, par exemple, d’interroger des bases de

connaissances hétérogènes en utilisant une interface commune ou en transformant des

données entre différentes représentations.

La fusion d’ontologies, qui permet de créer une nouvelle ontologie, appelée

l’ontologie fusionnée capturant les connaissances des ontologies d’origine. Le défi est

alors d’assurer que toutes les correspondances et les différences entre les ontologies

soient correctement prises en compte dans l’ontologie résultante.

L’alignement d’ontologies, pour qui l’objectif consiste à découvrir des

correspondances entre les ontologies. Ces trois techniques seront détaillées dans les

sections suivantes.

Le mapping et l’alignement des ontologies font l’objet du chapitre suivant vu l’intérêt

qu’ils ont par rapport à nos recherches. Quant à la fusion, nous en parlons plus en détail dans

ce qui suit.

2.7 La fusion d’ontologies

La fusion des ontologies est une filière du domaine de la gestion des connaissances qui

prend une part de plus en plus accentuée dans la gestion des ontologies tout en considérant

l'évolution rapide de la technologie des connaissances (Desprès & Szulman, 2007). Elle est

reconnue comme étant une opération essentielle intervenant à plusieurs niveaux de

l'ingénierie des ontologies incluant l'intégration de plusieurs modules assurant ainsi

l’interopérabilité entre les systèmes, la réutilisabilité et le partage des connaissances (Salhi,

2014). L'une des motivations de la fusion des ontologies tient à la construction d'une

ontologie à partir de sources différentes. Cette fusion est déclenchée suite à un besoin qui

pourrait nécessiter l'intégration de plusieurs ontologies modélisant les différentes parties d'un

domaine. Dans le domaine médical, par exemple, alors que nous n’arrivons à construire des

ontologies que par domaines de spécialité, on peut imaginer que les grandes catégories des

objets médicaux et du raisonnement médical traversent toute la médecine.

Plus précisément, la fusion d’ontologies représente la création d’une nouvelle ontologie

à partir de deux ontologies ou plus. L’ontologie résultante unifie et remplace les ontologies

d’origine (Klein, 2001). La difficulté dans la réconciliation d’ontologies dépend du type

d’hétérogénéité. On trouve plusieurs types de décalage entre les ontologies, mais le décalage

au sujet de la conceptualisation est le plus difficile à régler.

2.7.1 Les méthodes de fusion d’ontologies

Les travaux traitant la problématique de la fusion d’ontologies peuvent être classés en

deux catégories :

1. les approches basées sur les technologies de web sémantique comme par exemple,

IPrompt (Noy & Musen, 2000), PROMPT Suite (Noy & Musen, 2003), MMOMS

(Li, et al., 2010), CHIMAERA (McGuinness, et al., 2000), FCA-Merge (Stumme &

Maedche, 2001) et OntoMerge (Dou, et al., 2002).

2. les approches basées sur les spécifications algébriques et la théorie des catégories

(Bouquet, et al., 2004). Une autre approche basée sur les règles de réécriture de

graphes (Mahfoudh, et al., 2014).

Fusionner deux ou plusieurs ontologies consiste à créer une ontologie globale qui

représente leur union. C’est un processus qui apparait au cours de deux phases du cycle de vie

d’une ontologie : lors de sa construction et/ou lors de son utilisation. En effet, une des

stratégies adoptées pour la construction d’une ontologie est de fusionner certaines ontologies

existantes (Mahfoudh, et al., 2014). Cette stratégie est justifiée par la multitude d’ontologies

représentant des domaines identiques ou connexes. Comme par exemple, le domaine

biomédical présente plus de 370 ontologies similaires et/ou complémentaires (à titre

d’exemple, les ontologies Foundational Model of Anatomy (FMA), Systematized

Nomenclature of Medicine-ClinicalTerms (SNOMED-CT), National Cancer Institute

Thesaurus (NCI), etc.). La fusion est également nécessaire pour enrichir les ontologies après

leur construction afin d’intégrer de nouvelles connaissances. Dans le cadre de la fusion il faut

faire attention à:

Préserver la hiérarchie des entités conceptuelles.

Préserver les types des entités conceptuelles.

Trouver les entités conceptuelles qui peuvent se superposer.

Corréler les entités conceptuelles qui sont sémantiquement proches par

équivalence ou par des relations de subsomptions.

Les approches les plus courantes utilisent l'union ou l'intersection. Dans l'approche par

union, l'ontologie résultante contient l'union des entités provenant des ontologies

originales et suppose résolues les différences de représentation d'un même concept.

Dans l'approche de type intersection, l'ontologie résultante ne contient que les parties

communes des ontologies originelles.

2.7.2 Les approches de Fusion

PROMPT

PROMPT est un outil dont le processus de fusion est de type interactif. L'outil PROMPT

Suite (Noy & Musen, 2003) fait partie de la plateforme de gestion des ontologies Protégé-

2000. PROMPT est constitué d'un ensemble de modules qui ont une grande importance dans

les services d'alignement et de fusion. L'ensemble de phases associé à ce processus comprend

les étapes suivantes :

Les candidats à la fusion sont identifiés à partir des similarités des noms de classes.

Le résultat est présenté à l'utilisateur comme une liste d'opérations potentielles de

fusion.

L'utilisateur choisit une des opérations suggérées par la liste ou spécifie

directement l'opération de fusion.

Le système effectue l'action demandée et exécute automatiquement les

changements additionnels dérivés de cette action.

iPROMPT propose des opérations de base pour la fusion et l'alignement des ontologies:

La fusion de deux concepts

La fusion de deux relations

La fusion de deux instances

Le système crée une nouvelle liste d'actions suggérées par l'utilisateur en se basant sur

la nouvelle structure de l'ontologie. Il détermine les conflits présentés par la dernière

action, les solutions possibles à ces conflits puis présente ces derniers à l'utilisateur.

iPROMPT identifie un ensemble d'opérations pour la fusion d'ontologies (fusion des

classes, fusion de slots, fusion des liens, etc.) et un ensemble de conflits possibles

consécutifs à l'application de ces opérations (conflits de nom, redondance dans la hiérarchie

des classes).

Le logiciel Protégé-2000 figure parmi les meilleurs logiciels de gestion des ontologies

existantes. L'efficacité de ce logiciel repose sur l’efficacité des outils qu’il intègre (comme

PROMPT Suite présenté précédemment). La fusion avec PROMPT Suite est très cohérente en

termes d'interaction entre les sous-modules faisant partie intégrante de cet outil, et eu égard à

la richesse de 1' algorithme (incluant la détection des incohérences et la proposition des

solutions). Cependant, le module iPROMPT présente quelques limites:

la semi-automatisation de 1' algorithme de fusion,

il ne possède pas l’intelligence suffisante pour exécuter certaines tâches,

iPROMPT prend en considération la structure de l'ontologie, mais ne prend pas en

compte le traitement des relations entre les concepts ainsi que la pertinence des

concepts.

SAMBO est un système d'alignement et de fusion des ontologies basé essentiellement

sur un framework développé à l'aide des stratégies applicables sur les ontologies du domaine

biomédical (Lambrix & Tan, 2006). Le système SAMBO prend en entrée deux ontologies de

type OWL. La fusion passe par une phase d'alignement comportant deux étapes: l'alignement

des relations et l'alignement des concepts. SAMBO est semi-automatique puisqu'il possède un

système générateur de suggestions qui nécessite l'intervention humaine pour sélectionner le

comparateur désiré (comme WordNet, terminologies lexicales, hiérarchie). Pour chacune des

propositions, l'utilisateur doit juger si les termes sont équivalents. Dans ce cas, un nouveau

nom sera créé; sinon, la suggestion sera rejetée. Aussi, à toutes les étapes, SAMBO offre une

interface afin que l'utilisateur puisse visualiser l'ontologie sous forme d'arbre. Le processus de

fusion de SAMBO présente cependant quelques limites.

La première limite concerne l’intervention humaine pour la vérification des conflits.

La deuxième limite concerne l’absence de traitement des super/sous-concepts c'est-à-

dire que l'algorithme ne traite pas la notion des super/sous-concepts (en d'autres

termes, l'abstraction des concepts).

La troisième limite est qu’à la fin de l'algorithme de fusion, il existe une forme de

copier-coller des termes, dans l'ontologie finale, qui n’ont pas été alignés, sans aucune

vérification de cohérence et sans aucun traitement sémantique.

La classification hiérarchique pour la fusion automatique des ontologies

L'approche de fusion automatique des ontologies par classification hiérarchique est

(Maiz, et al., 2008) basée essentiellement sur la hiérarchie des concepts. Le but principal de

cette approche est d'enrichir le domaine des entrepôts des données. Cette approche peut

prendre comme paramètres d'entrées plus que deux ontologies. Cette méthode de fusion

repose sur quatre étapes:

1. consiste à regrouper les concepts synonymes de différentes ontologies à fusionner.

Chaque groupe de concepts équivalents correspond à une classe et par conséquent, le

résultat est donc N classes noté SYNi.

2. consiste à dégager le SUB qui est l'ensemble de toutes les paires (parent, enfant) des

ontologies puis à la fusion par l'union de tous les SUBi: SUBg = u i=l . . p SUBi. Cette

opération peut engendrer beaucoup de redondance dans SUBg puisque la fusion est

effectuée sans vérification lexicale ou sémantique.

3. consiste à raffiner l'ensemble SUBg à l'aide des classes SYN

4. correspond à la construction de l'ontologie finale

L'approche de fusion automatique des ontologies par classification hiérarchique est,

certes complète mais présente quelques défauts qui sont :

L'absence d'analyse sémantique pour comparer les concepts du point de vue

sémantique, ce qui peut conduire à une augmentation des redondances.

La non-exploitation des relations qui relient les concepts. Donc, l'absence d'analyse

relationnelle minimise la qualité ontologique du point de vue sémantique.

CHIMAERA

CHIMAERA est un environnement pour la fusion d'ontologies qui aide les utilisateurs à

créer et à maintenir des ontologies distribuées dans le Web (McGuinness, et al., 2000). Il

fournit des outils de diagnostic et supporte deux fonctions principales :

Fusionner plusieurs ontologies.

Analyser des ontologies individuelles ou multiples.

La fusion est exprimée par un opérateur entre les paires de termes, de noms et de

définitions considérées comme candidats à la fusion. CHIMAERA dispose également

de techniques permettant de lier les termes par des relations de subsomption, disjonction, etc.

L'analyse effectuée par Chimaera comprend aussi bien une vérification de la rigueur

logique d'une ontologie que le diagnostic des erreurs habituelles dans sa conception.

OWLDiff

OWLDiff (Kremen, et al., 2011) a été introduit comme plug-in à Protégé-2000 et à

NeOn Toolkit pour les enrichir avec des technologies de fusion et de comparaison. OWLDiff

utilise essentiellement un utilitaire appelé Diff qui permet de vérifier les changements

syntaxiques et sémantiques des deux ontologies OWL entrées comme arguments. La fusion

dépend de l'utilisateur puisque celui-ci gère toutes les opérations à ce niveau. OWLDiff est un

outil intéressant en termes de comparaison des ontologies et de détection des similarités entre

les différents éléments d'une ontologie. Cependant, OWLDiff présente quelques limites en

tant qu'outil de fusion des ontologies. Avec OWLDiff, la fusion se réalise avec une

intervention majeure de l'utilisateur, ce qui remet en cause l'automatisation et l'intelligence de

l'approche. En outre, comme avec PROMPT, il y a absence totale de traitement des

abstractions des concepts (le cas échéant) et de traitement des concepts pertinents, ces deux

notions étant très importantes pour garantir la pertinence de l'ontologie fusionnée. Aussi,

OWLDiff n'exploite pas les relations interconcepts, ce qui diminue le niveau de l'analyse

sémantique des ontologies.

FCA-Merge

Stumme et Maedche (2001) ont proposé FCA-Merge (Formal Conceptual Analysis

Merge) dans le but de fusionner des ontologies locales qui partagent le même ensemble

d'instances. Pour cela, les auteurs exploitent l'analyse formelle des concepts. Le

processus de fusion nécessite trois étapes:

L'extraction des instances à partir de documents de type texte.

La génération du treillis de concepts en appliquant l'analyse formelle des concepts aux

instances. Chaque nœud du treillis est associé à un ensemble de concepts des

ontologies locales lorsque les instances associées sont contenues dans les

mêmes documents.

La génération interactive de l'ontologie fusionnée est l'étape finale de l'analyse du

treillis qui construit l'ontologie globale. Cette étape est à la charge du concepteur.

FCA-Merge est un algorithme semi-automatique qui présente quelques limites:

il n'existe pas d'analyse sémantique

au niveau des contextes formels, il n'y a pas de traitement des relations des deux

ontologies

originales au sein de l'algorithme de fusion [en effet, le copier-coller des relations

risque de minimiser la définition du domaine cible de l'ontologie fusionnée]

l'intervention d'un expert est requise pour régler certains problèmes au niveau de la

résolution des conflits générés suite aux copier-coller des relations.

FCA-OntMerge

FCA-OntMerge est une approche de fusion des ontologies développée par (Guan-yu, et

al., 2010). Elle est basée essentiellement sur l'analyse formelle des concepts. Selon les

auteurs, cette approche a résolu les problèmes sémantiques, augmenté la flexibilité et

minimisé l'intervention humaine. L'algorithme de FCA-OntMerge comporte quatre

principales étapes:

1. convertir les deux ontologies sources dans le même format bien défini,

2. générer les contextes formels à partir des ontologies sources,

3. faire la correspondance des attributs dans le contexte formel,

4. fusionner les contextes formels et générer le treillis des concepts correspondant.

Quelques critiques de cette approche:

il n'y a plus de traitement sur les concepts, il n'existe donc pas d'alignement des

concepts ou d'élimination des redondances d'ordre syntaxique ou sémantique [plus

précisément, FCA-OntMerge ne génère pas des abstractions, elle conserve seulement

les abstractions existantes dans les ontologies sources],

il y a absence totale de traitement des relations, d'exploitation des positions des

concepts dans leurs ontologies et de prise en compte de la structure des ontologies

sources et de l'ontologie fusionnée,

une autre limite se présente à la fin: la transition du treillis de concept à une ontologie

utilisable et complète.

La fusion des domaines ontologiques basés sur le système de WordNet et sur les

techniques d'analyse formelle des concepts flous. L’approche de FFCA exploite la notion des

concepts flous pour fusionner deux domaines ontologiques. De ce fait, elle est composée

principalement de trois étapes:

1. Un prétraitement,

2. la fusion des ontologies en trois sous-étapes [fusion des concepts, alignement avec

WordNet et alignement avec FFCA], 3. la génération de l'ontologie floue (Chen, et al., 2001).

FFCA détermine des points forts au niveau de l'étape d'alignement. Cependant, elle

présente quelques limites sur certains points:

à l'étape d'alignement, FFCA n'exploite plus les relations interconcepts des deux

ontologies sources, et suite à cette lacune, la valeur de l'analyse sémantique diminue

FFCA ne traite pas les éléments ontologiques pertinents, et plus précisément les

concepts pertinents,

on note l'absence de l'inclusion des attributs de chaque concept dans l’analyse

sémantique et linguistique à l'étape d'alignement.

RCA-Merge

RCA-Merge (Salhi, 2014) est une approche de fusion des ontologies par le biais de

l'ARC: l'Analyse Relationnelle des Concepts. Cette dernière offre un cadre formel et

conceptuel pour supporter le processus global de la fusion. Dans cette approche, le but

principal de l'ARC (Rouane, et al., 2007) est d'exploiter les liens (ou les relations) qui relient

les concepts formels. Cette approche fonctionne sur trois modules :

Le premier module est le RCFmodeler qui prend en entrées deux ontologies en format

OWL et génère en sortie une structure FCR. La FCR consiste à extraire les concepts et

les relations des deux ontologies, et de les regrouper dans des contextes. Donc, le

résultat sera une structure contenant un contexte pour les concepts, un contexte pour

les rôles (relations), et des contextes pour les interrelations (target, domaine, source et

range).

Le deuxième module correspond à un moteur ARC qui exploite la structure FCR

générée précédemment pour construire deux treillis pour le contexte des concepts et le

contexte des rôles, et ce, en mentionnant à chaque nœud les extents et les intents. Le

résultat est une structure FTR (Famille de Treillis Relationnelle), cette structure

correspondant à un groupe de treillis.

Le troisième module consiste à construire l'ontologie fusionnée à partir de la FTR du

deuxième module. En outre, ce module effectue l'extraction des concepts, des

relations, des propriétés, la création des liens d'héritage, l'extraction des concepts

pertinents, etc. Le résultat est une ontologie fusionnée en format OWL.

2.7.3 Réutilisation des ontologies

La réutilisation des ontologies est une question qui suscité l’intérêt de plusieurs

recherche telles que (Fernandez, et al., 1997) et a soulevé un certain débat auprès de la

communauté scientifique. En effet, de nombreux auteurs considèrent que les ontologies sont

non réutilisables. Bachimont (2000) affirme que par leur méthode de construction et les

travaux epistémologiques qui les supportent, leur réutilisation est impossible. De la même

façon, Charlet considère que « les ontologies sont des artefacts construits en fonction d'une

tâche précise et ne peuvent être réutilisées, en tant qu'objet formel, pour une autre tâche. »

(Charlet, 2002). Par contre, selon (Fürst, 2002) les ontologies sont destinées à être réutilisées.

La sémantique qu’elles représentent est liée au cadre applicatif à partir duquel le sens des

termes et concepts est défini. Cependant, la représentation ne dépend pas de l’opération faite

avec l’ontologie. La sémantique de l’ontologie est liée au contexte mais la représentation

n’implique pas que l’ontologie soit utilisée uniquement dans le contexte de sa création. Afin

d’évaluer la réutilisabilité des ontologies plusieurs démarches sont suivies.

La première consiste à considérer une ontologie existante et à décrire les étapes et le

coût impliqués par le processus de réutilisation dans une application donnée. Cette démarche

est suivie notamment par Uschold (1996) qui recommande la création d’ontologies à partir de

la réutilisation d’ontologies existantes plutôt qu’en partant de rien.

Une autre approche consiste à évaluer la réutilisabilité de l’ontologie par rapport à

certains critères voire tels que les notions de précision (évaluer la quantité de connaissance

correctement identifiée dans l’ontologie par rapport à toute la connaissance contenue dans

l’ontologie en fonction de la tâche à réaliser) et de rappel (la quantité de connaissance

correctement définie dans l’ontologie par rapport à la connaissance qui devrait être identifiée)

(Salton, 1971).

D’autres solutions ont aussi été proposées pour permettre l’évaluation d’une ontologie.

Elles peuvent être regroupées en deux types d’analyse: l’analyse qualitative ou l’analyse

quantitative (Hernandez & Mothe, 2006). Une analyse qualitative consiste à évaluer une

ontologie ou ses parties et à mesurer son taux de pertinence. Guarino (1997) et Gomez-Perez

(1999) proposent des critères fondés sur les principes utilisés lors de la construction de

l’ontologie qui sont:

la consistance de l’ontologie : la possibilité d’obtenir des conclusions contradictoires à

partir des inférences possibles sur l’ontologie est ici évaluée,

la complétude de l’ontologie : l’ontologie recouvre toute la connaissance qu’elle est

censée représenter et chacune de ses définitions contient bien tous les éléments

nécessaires,

la concision de l’ontologie : l’ontologie ne contient pas de connaissance inutile ou

redondante,

l’expansibilité de l’ontologie : l’ajout de connaissance dans l’ontologie est possible,

la sensibilité de l’ontologie : le changement d’une définition n’altère pas toutes les

autres définitions.

Ces critères restent cependant très théoriques et nécessitent leur évaluation par les

concepteurs de l’ontologie. Une analyse quantitative consiste quant à elle à évaluer la

réutilisabilité d’une ontologie par rapport à son efficacité dans la réalisation d’une tâche

donnée. Une évaluation de ce type consisterait par exemple à prendre plusieurs ontologies

différentes et à exécuter une même tâche avec chacune d’entre elles, puis à comparer les

résultats obtenus.

Les travaux autour de la question de la réutilisation des ontologies visent donc à prendre

en charge d’abord la tâche de comparaison de concepts au sein d’une ontologie : c’est, en

effet, via cette comparaison que l’on pourra décider de la fusion. Selon (Pinto & Martins,

2001), on peut étudier la réutilisation d'ontologie sous deux points de vue:

La construction d'ontologie, par l'assemblage, l'extension, la spécialisation et

l'adaptation d'autres ontologies qui seront des parties de l'ontologie créée. Elle est

appelée "intégration d'ontologie". Elle se présente lors de la réutilisation d’une

ontologie pré-existante afin d’en construire une nouvelle. L'avantage de l'intégration

d'ontologie est que, pourvu qu'un ensemble de petites ontologies modulables et

hautement réutilisables soit disponible, de larges ontologies peuvent être plus

facilement assemblées. Ces petites ontologies doivent bien entendu être modifiées et

adaptées avant d'être assemblées. L’intégration est particulièrement intéressante

lorsqu’elle permet de réconcilier les différences entre les diverses sources de

connaissances tout en maintenant leur autonomie.

La construction d'une ontologie par la fusion de diverses ontologies de même sujet ou

de sujet proche, en une seule qui les unifie toutes. La fusion serait finalement un type

d'intégration particulier.

2.8 Conclusion

La fusion d’ontologie est un thème devenant de plus en plus fondamental et inhérent à

l’actualité du Web sémantique. L’attendue de l’universalité scientifique d’aujourd’hui

converge vers l’idée que la connaissance intrinsèque est elle-même un processus incrémental

de connaissances englobantes et généralisées. A l’heure où le niveau d’abstraction est en

parfaite montée, on peut imaginer que l’on devrait pouvoir construire des ontologies

génériques pour des grandes classes d’applications. La fusion des ontologies nous permet

d’arriver à ce but et de construire des connaissances qui couvrent tout un domaine au lieu

d’une application. Elle présente aussi de nombreux enjeux (Bellatreche, et al., 2006), (Klein,

2001) mais elle reste, toutefois une opération plus complexe qu'une simple intégration

puisqu'il y aura certaines vérifications syntaxiques, sémantiques et lexicales, ou encore une

vérification de la cohérence du modèle global généré.

Le chapitre suivant introduit en détail la notion d'alignement, qui est vue comme un processus

capital pour garantir l'interopérabilité sémantique entre les ontologies.

Chapitre Troisième

Mises en correspondance des

ontologies

Chapitre3

3.Mises en correspondance des

ontologies

Comme nous l’avons expliqué dans le chapitre précédent, les ontologies sont

confrontées de façon continue aux problèmes d'hétérogénéité à savoir : l'hétérogénéité

syntaxique, terminologique, conceptuelle et sémiotique. Dans ce cadre, l'alignement s'impose

comme une solution, afin de permettre l’interopérabilité et le partage des données. Etant

données deux ontologies, l’alignement consiste en la production d’un ensemble de

correspondances entre les entités. Ces entités peuvent être des concepts, des propriétés ou

encore des instances (Djeddi, 2013).

L’alignement d’ontologie (encore appelé recherches de mapping, appariement ou mise

en correspondance) est aujourd’hui un problème bien connu. Ce thème de recherches très actif

a donné lieu à de nombreux travaux de recherches (Shvaiko & Euzenat, 2013). Dans ce

chapitre nous présentons un état de l’art correspondant aux travaux sur l’alignement des

ontologies qui est au cœur de notre travail. Une première partie de cet état de l’art est ainsi

consacrée à la présentation du processus d’alignement des ontologies et des types de

techniques les plus répandues. La deuxième partie est consacrée à l’alignement des ontologies

en utilisant les règles d’association, un aspect très représentatif à notre problématique. Enfin,

en conclusion nous situons notre travail par rapport à l’existant.

3.1 Définition de l’Alignement

Nous allons tout d’abord définir les termes les plus utilisés dans le domaine de

l’alignement et qui seront rencontrés tout au long de cette thèse :

3.1.1 Terminologies (Klein, 2001)

Correspondances ou Mappings : Les Mappings sont des relations entre les

éléments de deux représentations (ontologies, schémas de bases de données, etc.),

indiquant une similarité relative selon une mesure donnée.

Appariement ou Matching : Le Matching d’ontologies est le processus de

définition d'un ensemble de fonctions permettant de spécifier des

«correspondances » entre termes.

Les méthodes de comparaison ou Matchers : Un Matcher est une fonction utilisée

pour calculer la distance entre deux entités. Les Matchers sont des fonctions qui

peuvent être combinées dans le processus de Matching.

Mises en correspondance des ontologies

Alignement d’ontologies: L’alignement d'ontologies est le processus

d’établissement de liens de correspondances entre deux ontologies originales. Il

est appliqué si les ontologies concernées deviennent homogènes entre elles et ceci

tout en les gardant séparées (pas de fusion d’ontologies). Cette catégorie de

Mapping d’ontologies est faite habituellement quand les ontologies sources

appartiennent à des domaines complémentaires.

Fusion d’ontologies : La fusion d'ontologies est le processus de création d’une

seule ontologie rassemblant les connaissances de deux ou plusieurs ontologies

existantes et différentes qui décrivent le même sujet ou appartiennent au même

domaine d’application. L’ontologie générée inclut les informations de toutes les

ontologies sources, mais est plus ou moins inchangée.

Intégration d’ontologies : L'intégration d'ontologies est un processus de

construction d’une nouvelle ontologie qui n'est pas forcément destinée à

remplacer les autres (ces dernières peuvent continuer à être utilisées par ailleurs, à

être mises à jour, à évoluer, etc.). Ces différentes ontologies peuvent être

connexes.

Dans notre cas d’étude nous avons opté pour une intégration des ontologies afin de

garder une certaine autonomie des sources locales.

3.1.2 Le processus d’alignement

Le point le plus délicat à résoudre est la recherche des correspondances entre schémas.

C’est l’action d’associer un élément d’un schéma de données à un élément sémantiquement

équivalent d’un autre schéma. En d’autres termes, faire émerger les similitudes et les

dissemblances des données des sources à intégrer pour définir les correspondances entre

éléments de chacune des sources (Zerdazi & Lamolle, 2005).

Selon Euzenat (2007), l’alignement de structures est le processus de mise en

correspondance des entités qui les composent. Ces structures peuvent être des ontologies, des

schémas XML ou des bases de données. Les liens sémantiques comprennent les relations :

d’équivalence, de généralisation/spécialisation, de chevauchement ou encore

d’incompatibilité. L’évaluation de la véracité de ces liens peut être booléenne ou par le biais

d’autres mesures telles que : les probabilités, les mesures symboliques, les mesures de

similarité.

L’alignement regroupe trois dimensions (Djeddi, 2013): les Entrées, le processus

d’alignement et les Sorties. Comme le montre la Figure3-1 suivante.

Figure 3-1 Le processus d’alignement

Les Entrées : sont constituées essentiellement des structures destinées à être alignées

et qui peuvent être, des schémas XML, des schémas relationnels, des ontologies (des

schémas OWL). Dans notre cas nous utilisons des schémas OWL. Les entrées peuvent

être enrichies par un alignement en entrée appelé référence.

Le processus d’alignement : Comme le montre la Figure3-1 il peut être considéré

comme une fonction 𝑓, qui à partir d’une paire d’ontologies 𝑂1, 𝑂2 et un alignement

en entrée 𝐴 (optionnel), un ensemble de paramètres 𝑃 (ex : paramètres de pondération,

seuils …) et un ensemble de ressources externes 𝑅 (ex : thésaurus, lexique, etc.),

détermine un alignement entre ces deux ontologies : 𝐴’ = 𝑓 (𝑶𝟏, 𝑶𝟐, 𝑨, 𝑷,𝑹).

Les Sorties : est un ensemble d’alignement reliant les entités qui composent les deux

ontologies. Un alignement est décrit comme un ensemble de cinq éléments

<𝑖𝑑, 𝑒, 𝑒’, 𝑟, 𝑛> telle que ;

𝑖𝑑: identifiant unique d’un mapping,

𝑒 : une entité, à aligner, appartenant à 𝑂1 (classe, propriété, contrainte, instance),

𝑒′: une entité, à aligner, appartenant à 𝑂2,

𝑟: la relation qui relie 𝑒 à 𝑒’ 𝑛: la mesure de confiance de la relation r, généralement une valeur réelle comprise

dans l’intervalle [0,1]. Plus le 𝑛 est proche du 1, plus la relation est considérée comme

étant forte.

3.1.3 Extraction de l’alignement

L’identification de l’alignement passe généralement par deux étapes : la première

consiste à calculer une matrice de similarité ou un alignement initial. La seconde consiste à

extraire les correspondances qui composent l’alignement final en opérant sur la matrice de

similarités ou sur l’alignement initial produit à l’étape précédente. D’autre part, les méthodes

d’extraction des alignements existantes peuvent être classées en deux catégories (Euzenat &

Shvaiko, 2007) : les méthodes interactives qui font intervenir l’utilisateur dans le processus

d’extraction et les méthodes automatiques qui procèdent sans son intervention. Selon les

Application/Tool1 (semantic-web)

Application/Tool2 (E-commerce)

Application/Tool3 (DataWarehousing)

Application/Tool4 (Schema Integration)

Schema import/export

Internal schema representation

Generic match implementation General

Librairies

auteurs l’approche interactive est meilleure que l’autre dans les applications où un large

ensemble de données est mis en jeu.

3.2 Alignement des ontologies

Selon Bouzeghoub (2008), le processus d’Alignement est l’un des éléments

fondamentaux du processus d'intégration d'ontologies. Il permet d’analyser et de comparer

des ontologies pour déterminer les correspondances structurelles et sémantiques entre leurs

concepts. Le résultat du processus d’alignement est un ensemble de liens de correspondances

qu’il faudra, par la suite, interpréter pour en tirer la sémantique sous-jacente. Dans notre

travail nous employons ces liens pour détecter les points de fusion entre les ontologies locales.

Pour faire correspondre les différentes ontologies, deux étapes sont nécessaires :

1. s’abstraire de la différence entre les langages d’ontologies utilisés (par exemple en

traduisant les ontologies dans un même formalisme de représentation),

2. chercher les concepts équivalents à apparier en tenant compte des différences de

conceptualisation, de description de cette conceptualisation et de terminologie.

3.2.1 Domaine d’application de l’alignement des ontologies

Depuis le début des années 2000, on a pu remarquer un engouement certain envers les

méthodes d’alignement des schémas qu’ils soient ontologiques ou autre. Plusieurs

applications utilisent cet alignement des schémas. Par exemple, dans le domaine des bases de

données, il est utilisé pour le passage d’un schéma objet au schéma relationnel ou pour la

médiation des schémas des données intégrées. Dans les domaines bases de connaissances et le

web sémantique il est utilisé pour l’alignement des ontologies. Il est aussi très utilisé dans le

domaine de la santé, dans les applications WEB ou encore dans le e-commerce. Dans

(Sheikhnajdy, et al., 2011) une architecture des applications utilisant l’alignement est

représentée comme suit : Figure3-2

L’alignement est devenu un concept incontournable de nos jours et ceci dans plusieurs

domaines d’application comme le précise (Djeddi, 2013). Nous en citons quelques exemples.

Figure 3-2 Architecture des applications d’Alignement

(Sheikhnajdy, et al., 2011)

La construction d’ontologies : ces dernières années, le maître mot dans la démarche

de construction des ontologies est la réutilisation d’ontologies déjà existantes, car la

construction d’ontologies à partir de zéro (from scratch) est un processus long,

couteux et très laborieux. Parallèlement, elle accentue le phénomène de

l’hétérogénéité des ontologies, multipliant le nombre d’ontologies décrivant le même

domaine. Dans ce contexte, l’alignement des ontologies est la solution pour réaliser

l’intégration et le rapprochement de ses différentes structures.

L’évolution des ontologies : Beaucoup d’ontologies sont en continuelle évolution et

de ce fait, plusieurs versions de la même ontologie sont disponibles, mettant les

développeurs et les ingénieurs de la connaissance dans la confusion, ne sachant pas ce

qui a changé. L’alignement va permettre d’identifier les différences entre deux

versions ; les entités qui ont été ajoutées, supprimés ou renommés.

L’intégration d’information : C’est une application classique de l’alignement

d’ontologies, elle comprend l’intégration des schémas, les entrepôts de données,

l’intégration des données et l’intégration des catalogues. Les ontologies jouent un rôle

clé en intégration de sources d’information multiples et hétérogènes. Les sources de

données sont transformés en ontologies locales qui sont alignées par rapport à une

ontologie globale, les alignements obtenus aident à générer les médiateurs qui, à leurs

tours, transforment les requêtes adressées à l’ontologie globale en requêtes pour les

sources d’information locales et traduisent les réponses dans l’autre sens. C’est ce

contexte qui intéresse nos recherches.

Les applications Pair-to-Pair : P2P est un modèle de communication distribué dans

lequel les pairs ont des capacités fonctionnelles équivalentes dans les échanges de

données et de services (Zaihrayeu, 2006). Dans ce contexte, il est difficilement

imaginable que tous les participants s’accordent sur l’utilisation d’une même

représentation sémantique (schéma, ontologie, graphe conceptuel). Dans ce cas, le

système est sémantiquement hétérogène. Ceci est un frein à l’interopérabilité

sémantique. La découverte de nouveaux Mappings consiste à identifier les éléments

de l'ontologie d'un pair donné qui permettent d'identifier des mises en correspondance

jugées intéressantes puis à sélectionner les éléments de pairs distants avec lesquels il

est pertinent de les aligner.

La composition des services web : Les services web sont des processus qui exposent

leurs interfaces aux utilisateurs du web qui les invoquent. Les services web

sémantiques fournissent un moyen plus riche et plus précis de décrire les services à

travers les langages de représentation des connaissances et des ontologies (Fensel, et

al., 2007) (Henni, 2015). Par exemple, un service web fournit la description de son

output à l’aide d’une ontologie et un autre service web utilise une seconde ontologie

pour décrire son input. Aligner ces deux ontologies permettrait de vérifier si ce qui a

été délivré par le premier service correspond à ce qui était attendu par le second

service.

La communication entre agents : Lorsque deux agents autonomes et conçus

indépendamment se rencontrent, ils ont la possibilité de s’échanger des messages mais

peu de chances pour se comprendre s’ils ne partagent pas le même langage et la même

ontologie. L’alignement de leurs ontologies respectives intervient à ce niveau pour

traduire les messages ou bien intégrer des passerelles entre leurs axiomes dans le

modèle propre à chaque agent (pour pouvoir interpréter les messages).

Le Web Biomédical : Le domaine biomédical dispose de standards terminologiques

et thesaurus largement partagés par les communautés biomédicales, qui représentent

un acquis important mais aussi une contrainte forte puisqu’il n’est pas envisageable de

les ignorer. Les ontologies doivent fournir les concepts et les relations utilisés pour le

marquage sémantique des données en vue du Web Sémantique avec une signification

partagée et réutilisable pour différentes applications et différents usagers.

L’alignement des ontologies aide à trouver rapidement sur le Web, une information

scientifique récente.

3.2.2 Les approches d’alignement des ontologies

Depuis l’apparition de la notion du Web sémantique divers travaux de recherche sur

l’alignement des ontologies se sont lancés. Conséquence de cette diversité ; il est parfois

difficile d’appréhender l’ensemble des travaux qui ont été effectués autour de ce thème car ils

se distinguent par les buts poursuivis ainsi que les différentes méthodes de comparaison

utilisées dans le processus d’alignement. Euzenat et Shvaiko (2007) proposent une

classification intéressante des méthodes d’alignement à partir de laquelle nous pouvons

distinguer deux approches importantes d’alignement: l’alignement intensionnel et

l’alignement extensionnel. Le premier vise à établir des similarités linguistiques ou

structurelles entre des termes extraits de différents schémas. Le deuxième, dit sémantique,

vise à établir une similarité entre des concepts en fonction du nombre d’instances qu’ils ont en

commun.

Dans la littérature, plusieurs méthodes d’alignement d’ontologies ont été proposées. Ces

méthodes exploitent des ontologies décrites dans différents langages (RDF(S), DAML+OIL,

OWL, etc.) :

Les méthodes d’alignement ANCHOR-PROMPT (Noy, 2004), QOM (Ehrig & Staab,

2004) et ASCO1 (Bach, 2006) exploitent des ontologies décrites avec le langage RDF(S).

Les méthodes d’alignement OLA (Euzenat, et al., 2007) et EDOLA (Zghal, et al.,

2007a), (Zghal, et al., 2007b) alignent des ontologies représentées avec le langage OWL-Lite.

La méthode ASCO21 (Bach, 2006) considère des ontologies OWL-DL (Smith, et al.,

2004) (Ontology Web Language Description Logic). Étant donné que le langage OWL est un

standard pour les ontologies, toute méthode d’alignement n’exploitant pas ce format présente

un inconvénient. Plusieurs méthodes d’alignement, telles que OLA, ASCO1 et, ASCO2

exploitent un processus de stabilisation de la similarité à travers un seuil pour aboutir à

l’alignement. Ce seuil limite la propagation de la similarité à travers le voisinage.

3.2.2 Les méthodes de calcul de similarité

On retrouve plusieurs méthodes de calcul de la similarité entre les entités de plusieurs

ontologies. Des classifications de celles-ci sont données dans (Rahm & Bernstein, 2001) ,

(Shvaiko & Euzenat, 2005), (Kalgoflou & Schorlemmer, 2003). Nous retenons :

Les méthodes terminologiques (Levenshtein, 1966), (Monge & Elkan, 1996) :

elles sont employées pour calculer la valeur de similitude des entités textuelles,

telles que des noms, des méta-données sur les noms, des étiquettes, des

commentaires,…

Les méthodes linguistiques utilisant des ressources externes (dictionnaires,

taxonomies,…) : la similarité entre deux entités représentées par des termes est

calculée à partir des liens sémantiques déjà existants dans les ressources externes

(Sabou, et al., 2006), (Safar, et al., 2007).

Les méthodes structurelles internes (Madhavan, et al., 2001) : elles calculent la

similarité entre deux concepts en exploitant les informations relatives à leur

structure interne (restrictions et cardinalités sur les attributs, valeurs des

instances,…).

Les méthodes structurelles externes ou conceptuelles : elles se servent de la

structure hiérarchique de l’ontologie et se basent sur des techniques de comptage

d’arcs pour déterminer la similarité sémantique entre deux entités (Wu & Palmer,

1994), (Resnik, 1999).

Les méthodes extensionnelles : elles déduisent la similarité entre deux entités qui

sont notamment des concepts ou des classes en analysant leurs extensions (leurs

ensembles d’instances). Chaque instance peut être représentée par un vecteur de

noms et/ou de valeurs. Des calculs de similarités entre vecteurs permettent de

comparer les instances (Stumme & Maedche, 2001)

Les méthodes hybrides : elles combinent plusieurs mesures lorsqu’une seule est

insuffisante (Leacock & Chodorow, 1998). Ces méthodes sont intégrées dans des

outils permettant la mise en correspondance d’ontologies.

3.2.3 La classification des méthodes de Matching

Les différentes méthodes de comparaison (matchers) utilisées dans le processus

d’alignement sont basées soit sur le schéma d’ontologie, soit sur les instances et sont

organisées selon la classification ci-dessous (Figure3-3) (Euzenat & Shvaiko, 2007).

Figure 3-3 Classification des Matchers

L’appariement entre deux entités ontologiques est soit basé sur le schéma d’ontologie

ou basé sur les instances :

Appariement à base de schéma d’ontologies :

Matcher au niveau entité : compare les noms des entités en regardant le label ou

l’identifiant d’un concept. L’approche syntaxique effectue la correspondance à travers

les mesures de dis-similarité des chaines de caractères (par exemple, la distance de

Hamming). L’approche lexicale ou linguistique effectue la correspondance à travers

les relations lexicales (par exemple, synonymie, hyponymie, etc.).

Matcher au niveau structurel : compare les structures internes des entités (par exemple,

intervalle de valeur, cardinalité d’attributs, etc.).

Matcher au niveau sémantique : compare les interprétations (ou plus exactement les

modèles) des entités. Il peut utiliser le voisinage ou les instances associées au concept

pour définir son contexte et comprendre son interprétation.

Appariement à base d’instances :

Deux approches existent pour comparer les ontologies à partir des instances associées

aux concepts d’ontologies :

Soit les deux ontologies à comparer référencent les mêmes instances et dans ce cas le

matcher génère une similarité entre les concepts qui partagent les mêmes instances ;

Soit les deux ontologies à comparer ne référencent pas les mêmes instances et dans ce

cas le matcher fait des recherches par mots-clés dans les instances (souvent des

documents ou autres (fichiers). La similarité est ensuite calculée entre les instances à

l’aide de ces mots-clés. Les classes (concepts) liées à ces instances sont ensuite

appariées.

3.2.4 Les stratégies de combinaison de Matchers

Selon Shvaiko (2005) et repris plus tard par Bernstein (2011) les approches de

Matching se classent en trois:

Matching simple (Individual Matchers): utilise une seule technique de Matching

suivant un seul critère de comparaison, par exemple critère linguistique ou structurel

individuellement.

Matching Hybride (Hybrid Matchers): utilise une seule technique de Matching mais

avec plusieurs critères en même temps par exemple structurel et linguistique.

Matching Complexe (Composite Matchers) : combine les résultats de plusieurs

techniques de Matching en appliquant les techniques des machines d’apprentissage.

Comme par exemple, les stratégies Workflow-like, Self-tuning match workflows,

Early search space pruning, Partition-based matching, Parallel matching et

Optimisateurs de larges schémas. Ils exécutent les matchers séquentiellement et

indépendamment puis combinent leurs résultats.

Le Matching simple est à la base des autres Matching. La Figure3-4 montre la

classification des approches de Matching selon (Bernstein, et al., 2011) que nous avons

relevée à partir de (Sheikhnajdy, et al., 2011)

Figure 3-4 Classification des approches de Matching

Le Matching structurel (Schema-based) se base uniquement sur les éléments de la

structure à savoir les types des classes, les attributs et les données ainsi que sur les

propriétés des éléments des schémas tels que le nom, le type etc…SemInt (Li &

Clifton, 2000), Similarity Flooding (Melnik, et al., 2002), LSD (Doan, et al., 2003).

Par contre le Matching niveau instance (Instance-based) considère, en plus, le contenu

des données c-à-d les instances elles-mêmes Xylème (Delobel, et al., 2003), AGORA

(Manolescu, et al., 2000), Cupid (Madhavan, et al., 2003), e-XMLMédia (EXML,

2004) dans (Zerdazi & Lamolle, 2005).

Le Matching linguistique est basé sur les techniques de traitement du langage naturel

en exploitant les propriétés morphologiques des termes en entrée. Ces techniques

linguistiques peuvent être enrichies par l’utilisation de bases de données par exemple

les bases de données oracle externes, des dictionnaires, des thésaurus tels que

WordNet, des ontologies spécifiques au domaine qui permettent de déterminer des

relations telles que la synonymie, l’hyperonymie, l’hyponymie (Sellami, 2009).

Le Matching basé-contrainte traite les contraintes appliquées aux entités telles que les

types, la cardinalité des attributs et les clefs.

D’autres techniques sont apparues incluant des algorithmes utilisant de nouveaux types

d’information, par exemple :

La Matching de graphe : Les schémas en entrée du processus de Matching sont

considérés comme des graphes contenant des nœuds (ou sommets) et des relations (ou

arcs). Souvent la comparaison de similarité entre une paire de nœuds (ou sommets) de

deux schémas est basée sur l’analyse de leur position dans le graphe. L’hypothèse est

que si deux nœuds (ou sommets) de deux schémas de données sont similaires alors

leurs voisins peuvent être aussi similaires (Melnik, et al., 2002).

Le Matching basé sur un référentiel pour la réutilisation : le référentiel stocke les

schémas de données et leurs fragments ensemble avec leurs similarités (des

coefficients entre 0 et 1). L’objectif est qu’avant de déterminer les correspondances

entre des nouveaux schémas de données (schémas ou ontologies), l’utilisateur vérifie

s’ils ont été déjà mis en correspondance avec d’autres schémas de données existants

dans le référentiel. Ainsi, il serait possible d’identifier les schémas de données qui sont

les plus similaires ou les alignements existants à réutiliser.

D’un autre côté, la génération des correspondances peut être faite suivants deux

approches :

Semi-automatique : cette approche nécessite l’intervention d’un expert humain pour

assister et valider les correspondances obtenues. Par exemple, Les travaux de Zedazi

(2005) exploitent les schémas XML extraits lors d’une phase de pré-intégration. Les

correspondances entre les éléments de différentes structures sont soigneusement

spécifiées par un expert humain. Les enrichie par des métaconnaissances sémantiques

utilisées lors de la phase de Matching. Ils améliorent l’intégration des différents

schémas XML étendus (appelé EXS) afin de définir des règles de correspondance

détectant les différences structurelles et sémantiques. A l’issue de cette étape, ils

emploient un ensemble d’opérateurs de transformation d’un schéma EXS à un autre,

mémorisés par un script XSL.

L’avantage des méthodes semi-automatique est l’uniformité de représentation XML et

la manipulation d’un nombre minimal d’entités à savoir des concepts, des relations et des

propriétés les caractérisant. Cependant, ces approches ne permettent pas d’éviter les

problèmes de conflits structurels et sémantiques, l’hétérogénéité sémantique demeure toujours

dans les sources de données relatives à un même domaine sans utiliser les mêmes mots ou

balises pour décrire des informations similaires ou complémentaires.

Automatique : Ces approches ont montré un certain succès dans le cadre de données

textuelles et numériques classiques. Cependant, elles ne sont efficaces que si les noms

des éléments à comparer ont une très forte similarité. Aussi le problème de la

recherche de correspondance sémantique reste entier et demeure insuffisante dans

d’autres types de données telles que les données géographiques.

Dans Elbyed (2009) une bonne classification des approches de Matching est donnée et

une comparaison suivant trois critères est faites. Ces critères sont :

Les techniques de matching supportées, afin d’étudier et de comparer l’impact des

différentes méthodes de comparaison sur les résultats d’alignement ;

Les langages de représentation de l’ontologie et du mapping afin d’étudier d’une part,

le problème d’hétérogénéité des langages de représentation d’ontologie et d’autre part,

les langages de représentation des correspondances (mapping) ainsi que leurs

réutilisations dans les processus d’intégration d’ontologies ;

L’implémentation et l’expérimentation afin d’évaluer la fiabilité des résultats de

mapping obtenus.

Les différentes techniques citées auparavant peuvent ensuite être utilisées ensemble

dans une composition séquentielle ou parallèle Figure3-5.

3. 2.5. Les outils d’alignement des ontologies

Différents outils ont été développés dans le but d’aligner plusieurs ontologies.

PROMPT est un système interactif constituant une aide pour la comparaison, l’alignement, la

fusion et l’évolution de plusieurs formalismes de représentation des connaissances (Noy,

2004).

OLA (OWL Lite Alignment) est un système implémentant un algorithme d’alignement

des ontologies décrites en OWL. OLA mesure la similarité entre deux entités à partir des

calculs de similarité entre leurs caractéristiques (leurs types : classe, relation ou instance, leurs

liens avec d’autres entités : sous-classes, domaine, …). La valeur de similarité finale est la

somme pondérée des valeurs de similarité de chaque caractéristique (Euzenat, et al., 2007).

AROMA (Association Rule Ontology Matching Approach) est une approche

d’alignement pour des ontologies représentées en OWL. Elle permet de découvrir des liens

sémantiques de type « subsomption » ou « équivalence » entre deux entités (classes ou

Figure 3-5 Composition séquentielle des Matchers Composition séquentielle des Matchers

propriétés). Le processus d’alignement se déroule en trois étapes : la première procède à

l’acquisition des termes contenus dans les descriptions et instances des entités à partir d’outils

de Traitement Automatique du Langage (TAL). Ensuite, pour chaque entité, ainsi qu’à ses

ancêtres est associé un ensemble de termes dits représentatifs. La deuxième étape permet de

créer des relations de subsomptions entre les entités à partir de règles d’association construites

sur le principe qu’une entité X est plus spécifique ou équivalente à une entité Y si le

vocabulaire utilisé dans les descriptions et les instances de X a tendance à être inclus dans

celui de Y. Enfin, la dernière étape vise à analyser les règles d’associations trouvées afin de :

(1) déduire des relations d’équivalence ; (2) trouver des incohérences (cycles) et de les

éliminer (3) ; supprimer les relations redondantes ; (4) sélectionner le meilleur alignement

pour chaque entité (David, et al., 2007).

ASMOV (Automated Semantic Mapping of Ontologies with Validation) est un système

d’alignement d’ontologies conçu pour l’intégration de sources de données hétérogènes

représentées dans des ontologies. ASMOV permet de produire des mappings entre des

concepts et/ou des propriétés et/ou des instances de deux ontologies (Jean-Mary & Kabuka,

2007).

3.2.6 Les Frameworks d’alignement d’ontologies

Plus récemment, les Frameworks sont apparus dans les systèmes d’alignements

d’ontologies. Leur avantage est qu’ils permettent de multiples combinaisons de stratégies de

calcul de la similarité. Par exemple :

COMA++ (COmbining MAtching) est un système générique de mise en

correspondance de schémas. Il supporte plusieurs types de schémas (XML, Schémas

relationnels) et peut être utilisé dans diverses applications (Do, et al., 2002).

MAFRA (Mapping Framework for distributed ontologies) est un Framework

interactif, dynamique et progressif pour l’alignement d’ontologies distribuées dans le

cadre du Web sémantique (Maedche & Staab, 2001).

FOAM (Framework for Ontology Alignment and Mapping) est un Framework utilisé

dans plusieurs systèmes : QOM1 , NOM2 , APFEL3 … à des fins d’intégration de

données, de fusion d’ontologies, d’évolution d’ontologies,….L’outil implémente

plusieurs mesures et stratégies existantes de recherche de similarités et permet de faire

des mappings entre des ontologies décrites en OWL (Ehring, 2007).

RiMOM (Risk Minimisation based Ontology Maping) est un Framework interactif

implémentant plusieurs stratégies pour l’alignement d’ontologies (Tang, et al., 2006).

Le processus est itératif avec, une validation des résultats à chaque itération.

3.2.7 Comparaison des différents outils et Frameworks

Les outils et Frameworks que nous avons cités précédemment sont pour la plupart,

considérés par l’OAEI parmi les meilleurs systèmes d’alignements. Leur principale différence

réside dans la stratégie utilisée pour découvrir la similarité entre deux entités. Dans la plupart

des cas, sont utilisées des mesures de similarité terminologique et/ou structurelle et/ou

extensionnelle.

L’utilisation de plusieurs mesures de similarité donne souvent de meilleurs résultats. Par

contre, ces outils ne précisent pas toujours quels matchers ont été utilisés ni comment les

similarités ont été agrégées. Par ailleurs, il est à noter que les Frameworks sont plus adaptés

pour la réutilisation ainsi que pour la combinaison de mesures de similarité existantes selon

des critères donnés. Ces systèmes diffèrent également au niveau de leur fonctionnement et de

l’interaction qu’ils offrent à leurs utilisateurs. L’intervention d’un expert de domaine dans le

processus d’alignement d’ontologies s’avère souvent essentielle pour éviter des incohérences.

La comparaison des différents outils et Frameworks est reprise dans le Tableau3.1 qui

suit :

Outil Techniques Utilisées Combinaison Algorithme Mappings

ASMOV mesures

terminologiques,

structurelles internes,

conceptuelles et

extensionnelles

correspond à la

somme pondérée des

4 mesures

automatique équivalence

AROMA outils de TAL pour

l’extraction de termes,

règles d’associations

et mesures

terminologiques

utilise une fonction

d’interpolation

linéaire

automatique subsomption

équivalence

Anchor Prompt mesures

terminologiques et

structurelles

pas de combinaison

de similarité

automatique

équivalence

COMA++ mesures

terminologiques et

structurelles

est fonction des

choix de mesures

automatique

équivalence

MAFRA mesures

terminologiques,

structurelles et

extensionnelles

pas de combinaison

de similarité

automatique

équivalence

(ponts

sémantiques)

FOAM mesures

terminologiques et

structurelles

est fonction de

caractéristiques

retenues par

l’utilisateur

automatique

équivalence

RiMOM mesures

terminologiques,

structurelles et

dépend de la

similarité supposée

entre les ontologies

automatique équivalence

extensionnelles (structurelle ou

terminologique)

Tableau 3.1. Comparaison des différents outils et Frameworks (Ziani, 2010)

On retrouve des outils qui combinent plusieurs méthodes de similarité ou qui intègrent des

Frameworks implémentant plusieurs mesures et permettant ainsi de suggérer à l’expert

plusieurs mappings.

3.3 Alignement extensionnel des ontologies

On constate aujourd’hui une omniprésence des connaissances, en même temps qu’un

décloisonnement des communautés de recherche en Intelligence Artificielle. Ainsi, la

construction des systèmes à base de connaissances fait appel à l’ingénierie des connaissances,

au traitement automatique des langues, à l’apprentissage automatique et à la fouille de

données. Les ontologies sont à l’heure actuelle au cœur de tous les travaux menés sur les

connaissances pour lever le voile sur des ambiguïtés sémantiques et syntaxiques. Leur champ

d’application ne cesse de s’élargir et couvre les systèmes d’aide à la décision, les systèmes de

résolution de problèmes ou les systèmes de gestion des connaissances (Euler & Scholz,

2004), (Brisson & Collard, 2008) et (Brahmi, et al., 2012).

3.3.1 Alignement Extensionnel des Ontologies : Etat de l’Art

L’alignement extensionnel regroupe un ensemble d’approches autour de l’idée que les

concepts d’une ontologie peuvent être représentés comme des ensembles d’instances et la

similarité mesurée sur ces ensembles reflète la similarité sémantique entre les concepts que

ces instances peuplent (Todorov, et al., 2014). Ces méthodes extensionnelles réalisent,

d’abord, un prétraitement sur les instances visant à redéfinir les ontologies sur une extension

commune. De ce fait, nous distinguons deux types d’approches :

les méthodes fonctionnant par augmentation en utilisant la classification supervisée

telles que GLUE (Doan, et al., 2003), oMap (Straccia & Troncy, 2005), OplMap

(Nottelmann & Straccia, 2006), QOM (Ehrig & Staab, 2004), RiMOM (Tang, et al.,

2006) et SBI-Hical (Ichise, et al., 2004). Ces dernières utilisent la classification

probabiliste en s’appuyant sur le modèle bayésien-naïf. Elbyed (2009) par sa méthode

ROMIE utilise la mesure de Jaccard probabiliste pour comparer les ensembles des

instances des concepts à apparier.

les méthodes se basant sur des approches de réindexation de l’extension telles que

CAIMAN (Lacher & Groh, 2001), V-Doc (Qu, et al., 2006) et SCM (Hoshiai, et al.,

2004). Ces dernières estiment que la similarité entre deux concepts se base sur la

distance entre les vecteurs-moyens des classes d’instances qui peuplent ces concepts.

D’une étude comparative synthétique d’une vingtaine de méthodes extensionnelle

donnée par David (2007), il en résulte qu’une grande majorité des méthodes sont

basées sur des combinaisons de mesures de similarité. Par conséquent, elles permettent

de détecter seulement des relations d’équivalence entre entités. Les seules méthodes

considérant la relation d’implication sont uniquement basées sur une reconnaissance

stricte de cette relation à partir d’une base de données lexicale.

3.3.2 Alignement extensionnel : Règles d’association

Une étroite connectivité est créée, notamment, entre les ontologies et la fouille des

données de sorte que bon nombre d’ontologies ont prouvé leurs compétences dans l’extraction

des règles d’association. Tout au long du processus d’ECD (Extraction des connaissances à

partir des données) des ontologies ont été mises à l’épreuve. Les chercheurs exploitent leur

puissance sémantique soit dans la phase de préparation des données (Hou, et al., 2005)

(Bellandi, et al., 2008), (Zeman, et al., 2009) où les données sont levées au rang des concepts

généralisés et, donc, les règles extraites ont plus de chance d’être plus significatives et faciles

à interpréter. Soit dans la phase de post-traitement (Brisson & Collard, 2008). Une autre

utilisation de l’ontologie (Antunes, 2007) en tant que recueil de conditions pour établir des

contraintes d’abstraction, pour la généralisation de certains items, et d’élagage pour en

exclure d’autres de l’analyse. Plus loin encore, l’utilisation d’une ontologie floue pour extraire

des règles d’associations exprimant des associations floues entre les données (Escovar, et al.,

2006), (Miani, et al., 2009).

Marinica et Guillet (2010) proposent l’intégration des connaissances de l’utilisateur

dans la découverte de règles d’association afin de réaliser une phase de post-traitement plus

efficace. Plus précisément, ils intègrent d’une part, des ontologies de domaine associées aux

attributs de la base de données, et d’autre part, des schémas de règles généralisant les

impressions générales afin de sélectionner les règles intéressantes. Les auteurs de (Mansingh,

et al., 2011) proposent une approche qui combine les connaissances représentées dans une

ontologie d’application avec une mesure objective de fiabilité pour créer des partitions

significatives dans l’ensemble des règles d’association extraites.

Réciproquement, d’autres recherchent utilisent des règles d’association pour améliorer

l’exploitation des ontologies. A titre d’exemple, l’utilisation des règles d’association pour

l’évaluation de la qualité globale des données (Hipp, et al., 2001) ou pour la construction de

modèles permettant la détection des anomalies et des contradictions dans les données (Berti-

Equille, 2007). On note aussi une autre approche permettant d’apprécier la qualité des

données moyennant les règles d’association (Wei, et al., 2007). Aussi, l’utilisation des règles

d’association pour l’analyse des corrélations négatives, du type B est rarement acheté quand

A est acheté, données par la règle 𝐴7𝐵 (McClanahan, 2008). Et enfin, les règles

d’association pour l’appariement des ontologies par la méthode AROMA (David, et al.,

2007). Cette méthode permet de détecter des relations d’implication entre entités issues de

deux hiérarchies de textes ou d’ontologies en s’appuyant sur les données textuelles contenues

dans l’extension (instances) et dans les annotations (nom, commentaire, etc.). Nous nous

sommes largement inspirés de cette méthode, considérée par l’OAEI parmi les meilleurs

systèmes d’alignement, pour développer notre propre approche d’alignement extensionnel des

ontologies.

3.4 Alignement des ontologies et le passage à l’échelle

Un autre point important à prendre en considération qui motive les recherches actuelles

est le caractère large échelle de l’alignement. La problématique d’alignement se pose avec

acuité lorsque le nombre et le volume des schémas de données sont importants. En effet, dans

les domaines d’applications réelles où les ontologies sont volumineuses et complexes, les

exigences de l’exécution du temps et de l’espace mémoire sont les deux facteurs significatifs

qui influencent directement la performance d’un algorithme d’alignement (Djeddi, 2013).

Nous distinguons deux visions clés (Sellami, 2009):

les schémas de données en entrée sont volumineux (exemple les ontologies de grande

taille), on parle alors d’un alignement deux-à-deux ou « pair-wise »

le nombre des schémas de données qui doivent être mis en correspondance concernent

un ensemble de schémas de données sources et cibles qui sont de surcroit nombreux,

(plus de deux ontologies en entrée) il est dit l’alignement « holistique ».

3.4.1 Alignement pair-wise

L’alignement pair-wise permet de déterminer les correspondances uniquement entre

deux schémas/ontologies volumineux à la fois (un schéma/ontologie source et un autre cible).

La mise en correspondance des entités des ontologies peut s’avérer inefficace voire

impossible lorsque les ontologies à aligner sont de tailles volumineuses. Plusieurs travaux

d’alignement des ontologies à large échelle (les ontologies volumineuses) ont été proposés

dans la littérature (Sellami, 2009) utilisant autant d’approches différentes basées sur

différentes stratégies et techniques d’optimisation et qui visent à améliorer la qualité et la

performance de l’alignement de deux ontologies volumineuses.

D’une manière générale ces travaux procèdent tous à un prétraitement sur les ontologies

en entrées avant d’entamer leur alignement. En effet, ils précédent le processus d’alignement

soit par un algorithme de partitionnement soit par un algorithme de décomposition

(modularisation) et qui permettent de décomposer respectivement des ontologies

volumineuses en des blocs ou en modules d’ontologies. Ces algorithmes peuvent générer des

sous-parties des ontologies à aligner séparément. La taille de ces parties étant généralement

paramétrable et peut donc être adaptée aux outils d’alignement utilisés.

Nous pouvons citer la solution de Kasri (2011) qui partitionne les ontologies en blocs

avant de réaliser l’alignement pour diminuer l’espace de recherche des correspondances et

limiter la taille des ensembles des concepts en entrée. Cette solution demeure fragile du fait

qu’il ne doit y avoir aucun bloc isolé et garantir la non perte des alignements et

d’informations. La littérature montre d’autres travaux sur la décomposition des ontologies en

sous-blocs (ou îlots) indépendants les uns des autres (Stuckenschmidt, et al., 2004).

Cependant, cette méthode n’est pas adaptée car le processus de génération des blocs impose

une contrainte sur la taille minimale des blocs générés qui n’est pas appropriée pour

l’alignement. De plus, elle construit beaucoup trop de petits blocs, ce qui a un impact négatif

sur l’étape d’alignement finale. La méthode proposée dans FALCON (Hu, et al., 2006)

consiste à décomposer en blocs chaque ontologie indépendamment l’une de l’autre, en

utilisant la méthode de clustering ROCK (Robust Clustering Using Links) (Guha, et al.,

2003), puis à mesurer la proximité de chacun des blocs d’une ontologie avec chaque bloc de

l’autre ontologie de façon à n’effectuer l’alignement qu’entre les concepts des paires de blocs

les plus proches. Pour construire la partition, alors que ROCK considère que les liens entre les

concepts ont tous la même valeur, FALCON introduit la notion de liens pondérés qui s’appuie

principalement sur une mesure structurelle de similarité entre concepts.

Les travaux de Grau (2005) se concentrent plus particulièrement sur les problèmes de

raisonnement et cherchent à construire des modules centrés autour de sous-thématiques

cohérentes et auto-suffisantes pour raisonner, garantissant que tous les concepts reliés par des

liens de subsomption sont regroupés dans un seul module. Pour des ontologies comportant des

dizaines de milliers de relations, ce type de contrainte peut conduire à la création de modules

de tailles très mal réparties, inutilisables pour l’alignement.

Tableau3.2 Comparaison des stratégies de partitionnement et modularisation (Sellami, 2009)

En conclusion nous pouvons dire que les deux stratégies présentent une limite principale

qui est le risque de perte des bons candidats à l’alignement et la sélection des mauvais

candidats.

3.4.2 Alignement holistique

Les approches holistiques peuvent être appliquées sur plusieurs ontologies à la fois mais

qui sont de petite taille. Ces petites ontologies sont, plutôt, considérées comme des petites

interfaces web. Plusieurs approches d’alignement holistique ont été proposées et citées dans

(Sellami, 2009) utilisant les stratégies statistiques et par regroupement pour améliorer les

performances de leurs alignements.

Une stratégie statistique telle que le test du Khi-deux (X²) permet d’évaluer la différence

entre les probabilités estimées et les fréquences observées. L’alignement holistique dans cette

approche est basé sur la détermination de la cooccurrence des attributs entre les schémas.

Cependant, cette approche ne donne de bons résultats que si une évidence peut être observée.

En effet seuls les attributs qui apparaissent fréquemment peuvent être mis en correspondance.

La stratégie de regroupement vise à réaliser le regroupement des attributs qui se ressemblent

le plus selon leur similarité contextuelle. L’alignement dans cette approche utilise

l’algorithme de K-means ou un corpus de schémas.

Tableau3.3 Comparaison des stratégies statistique et de regroupement. (Sellami, 2009)

De là nous pouvons dire que les approches d’alignement holistiques présentent

l’avantage d’être fiables ; donc pas de perte d’information. Ceci se justifie par le fait que les

ontologies en entrée sont de petite taille et regroupent donc très peu d’attributs. Cependant,

elles présentent le même inconvénient que les précédentes qui est la non prise en

considération du temps de traitement et la complexité exponentielle de certains algorithmes

utilisés.

Une étude intéressante réalisée dans (Sellami, 2009) permettant de comparer les deux

types d’alignement paire-wise et holistique. Il en découle que les stratégies utilisées dans les

approches deux à deux (pairwise) ont comme inconvénient le risque de perte des bonnes

correspondances contrairement aux stratégies holistiques qui offrent des valeurs élevées de

fiabilité. Ceci s’explique par le fait que les approches deux à deux traitent des schémas

volumineux contrairement aux stratégies holistiques. Cependant, les approches deux à deux

ont pour avantage d’améliorer les performances en termes de temps d’exécution et ceci en

limitant l’espace de recherche grâce aux stratégies qui décomposent les schémas de données.

Alors que les stratégies holistiques s’appuient plus sur l’aspect fiabilité et n’offrent aucune

indication concernant le temps de traitement. Un nouvel outil a été proposé Porsche

(Performance Oriented Schema Matching) qui se base sur la combinaison des approches pair-

wise et holistique (Sellami, 2009). C’est un outil de médiation et d’intégration de schémas qui

implémente une approche hybride. Il crée de manière incrémentale un schéma intégré qui

englobe tous les schémas tout en définissant leurs correspondances et le schéma intégré.

3.5 Conclusion

Nous avons présenté dans ce chapitre un bon nombre d’outils d’alignement existants qui

génèrent de bons résultats dans certains cas et de moins bons dans d’autres, ces résultats étant

fonction des caractéristiques des ontologies à alignés. Ce constat oriente les recherches dans

trois directions principales : le choix de la technique d’alignement la plus adaptée, la

combinaison des technique d’alignement la plus appropriée, et le réglage des paramètres

(seuil, confiance de formule etc...) utilisés au sein des techniques d’alignement mises en

œuvre (Hamdi, et al., 2010). A côté de ces caractéristiques, il est à considérer aussi leur taille.

La synthèse de cette étude comparative nous mène à poser des éléments de réponse sur

lesquels nous nous inspirons:

Pour arriver à un pivot sémantique favorisant l’intéropérabilité, il faut traduire toutes

les ontologies en un langage expressif.

Pour arriver à un Matching fiable il faut le renforcer par un Matching sémantique en

exploitant les ressources ou les instances des ontologies.

Pour réduire les fausses correspondances et les contradictions entre les mappings

obtenus, il faut aussi utiliser, en plus des filtrages à base de seuil, les liens

hiérarchiques et sémantiques entre les concepts de chaque ontologie.

Dans notre approche, le but consiste à analyser et à exploiter les instances attachées aux

ontologies d’entrées afin d’enrichir leur sémantiques et d’améliorer les résultats du processus

de l’alignement intensionnel réalisé en amont. Pour cela, notre approche s’inscrit dans le

cadre de l’utilisation d’une méthode formelle afin d’aligner des ontologies locales aux

différentes PMI. Ces ontologies sont relativement de petites tailles et de surcroît, nombreuses,

nous nous situons donc dans une approche d’alignement holistique. Pour ce fait nous nous

sommes orientés vers la modélisation par les automates cellulaires. Ces derniers jouissent

d’une maturité dans les calculs et d’une optimisation de la complexité très maîtrisée.

L’utilisation du principe de base des automates cellulaires pour modéliser le processus

de fusion des ontologies est une idée originale parce qu’à notre connaissance aucun

algorithme de fusion des ontologies utilisant ce principe n’a été défini à ce jour. Cette idée est

née, au sein de notre équipe AIR de LIO, suite au problème de regroupement des concepts

similaires. Nous considérons ce dernier comme un véritable problème de mise en

correspondance. Nous avons développé cette idée en décrivant les ontologies sous forme

de règles d'association, chaque règle décrit une relation d’association entre les éléments de

l’ontologie (classe, objet, attribut..) ce qui représente pour les automates cellulaires un

véritable domaine de prédilection comme le montrent les travaux de (Azzag & Lebbah, 2011)

sur la classification des données par automates cellulaires.

Certaines approches montrent des lacunes parce qu’elles sont soit semi-automatiques,

soit complexes. Pour cette raison, nous allons proposer dans les chapitres suivants une

méthodologie visant un alignement automatique d’ontologies en s’appuyant sur le modèle

mathématique de la machine cellulaire 𝐶𝐴𝑆𝐼 (Atmani & Beldjilali, 2007).

Chapitre Quatrième

Une approche cellulaire

d’intégration

par la fusion des ontologies

Chapitre4

4.Une approche cellulaire d’intégration

par la fusion des ontologies

A travers les chapitres précédents nous avons pu souligner que les ontologies

devenaient, de plus en plus, des modèles de représentation et de stockage d'informations très

efficaces facilitant le traitement et la gestion des connaissances à travers les techniques de

l'Intelligence Artificielle, et offrant le potentiel d'assemblage d'une grande quantité

d'informations à travers ce qu'on appelle « la fusion d'ontologies » (Zimmermann, 2013).

Celle-ci définit l’interprétation d’un véritable réseau de connaissances dont la complexité se

heurte à une explosion du nombre et de la taille des ontologies à fusionner. En effet, les

techniques d’alignement et de fusion mettant en œuvre des calculs complexes, se retrouvent

limitées de point de vue fiabilité et doivent, en plus, faire face à un nouveau défi qui est le

passage à l’échelle.

Notre contribution dans ce sens, est une approche cellulaire pour la fusion automatique de

plusieurs ontologies en entrées que nous proposons pour apporter une solution originale aux

problèmes de fusion des ontologies et au passage à l’échelle. Notre solution déjà publiée

(Abdelouhab & Atmani, 2016) se concentre sur l’optimisation de l’espace de stockage et du

temps de traitement. Pour cela, l’idée expérimentale que nous proposons est d’utiliser le

principe de base de la machine cellulaire 𝐶𝐴𝑆𝐼 (Cellular Automata for Symbolic Induction)

(Atmani & Beldjilali, 2007) pour simuler le processus de fusion des ontologies.

Ce chapitre est dédié à présenter l’aspect conceptuel de notre approche que nous

proposons pour l’intégration des données hétérogènes en utilisant la fusion booléenne des

ontologies. Nous commençons d’abord par motiver nos choix quant à l’utilisation de la

machine cellulaire 𝐶𝐴𝑆𝐼 puis nous donnons la formulation et la modélisation de l’ontologie

en fonction des termes de la modélisation booléenne en utilisant un exemple pédagogique et

quelques captures d’écran des prototypes que nous avons réalisés pour ces fins.

4.1 La machine cellulaire 𝑪𝑨𝑺𝑰

La représentation et le traitement des connaissances sont des questions des plus

importantes dans la conception de n’importe quel système de classification des données, parce

que la représentation utilisée peut réduire la complexité de stockage et diminuer ainsi la

complexité de traitement (Kadem & Atmani, 2010). En l’occurrence, la machine 𝐶𝐴𝑆𝐼 (Cellular Automata for Symbolic Induction) se donne ces mêmes objectifs d’où sa place

prédominante dans cette thèse. Dans la suite de la rédaction, nous ferons référence à la

machine 𝐶𝐴𝑆𝐼 par les termes « modélisation booléenne » car nous l’utilisons beaucoup plus

en tant que tel plutôt qu’en tant que machine cellulaire dans le sens d’un automate cellulaire.

La modélisation booléenne (Atmani & Beldjilali, 2007) est une contribution à la

conception d’architecture parallèle dont l’idée de base est de présenter une machine cellulaire

Une approche cellulaire d’intégration par la fusion des ontologies

avec deux couches, simulant le fonctionnement du cycle de base d’un moteur d’inférence

d’un système expert. Le principe booléen est utilisé dans la construction des arbres de

décision par apprentissage automatique pour générer des règles conjonctives. La

représentation cellulaire facilite énormément la transformation des règles dans des

expressions booléennes équivalentes, et l’algèbre booléenne élémentaire s’apprête bien pour

la vérification de plusieurs simplifications.

La modélisation booléenne a fait l’objet d’étude dans plusieurs travaux de recherches

sur le datamining où elle a été utilisée comme une base pour la modélisation et l’extraction

des connaissances. La majorité de ces travaux ont fait l’objet de publications internationales

dont nous pouvons citer quelques-uns :

Benamina et Atmani (2008) ont proposé un système booléen d’extraction et de gestion

des connaissances dédié à la fouille de données qui permet, à partir d’une base de données

(cas pratiques), de faire coopérer un système booléen d’extraction automatique de règles et un

système à base de connaissances booléennes pour la construction d’un modèle de prédiction.

Le système exploite l’environnement de fouille de données offert par la plateforme

TANAGRA pour générer des règles conjonctives utiles pour une acquisition automatique

dans des systèmes experts cellulaires.

Mansoul et Atmani (2009) ont proposé un processus de fouille de données biologiques

du Mycobacterium Tuberculosis responsable de la tuberculose assez novateur pour générer

des connaissances profitables et exploitables à deux niveaux ; d’un côté, profitables au

spécialiste du domaine, à travers l’extraction de motifs en particulier les règles d’association

qui aident à mieux comprendre la pathologie. De l’autre, ces règles d’association extraites

sont modélisées par le principe booléen adopté par la machine cellulaire CASI.

Sabri et Atmani (2010) ont proposé un système nommé SARESM (Système

d’Assistance à la Recherche Epidémiologique et de Surveillance des Maladies), qui apporte

aux différents acteurs de la santé publique une assistance à l’établissement de politiques

sanitaires, notamment en matière de planification d’acquisition des produits pharmaceutique,

selon la distribution géographique de leur utilisation établie par rapport à une mesure

pathologique. Leur contribution est de fournir des modèles de prédiction des maladies

chroniques basés sur la modélisation booléenne des graphes d’induction, inspirée du principe

de la machine cellulaire CASI.

Kadem et Atmani (2010) ont réalisé une nouvelle plateforme open source, qui regroupe

plusieurs services web dédiés à l’extraction et la gestion des connaissances, nommée

WS4KDM (Web Services for Knowledge Discovery and Management). Selon les auteurs, le

but, après la modélisation booléenne des règles de classification, est d’affiner le processus

d’extraction de règles à partir de données par une fouille de données orchestrée par CASI.

(Amrani, et al., 2011) ont proposé une nouvelle approche d’une manœuvre inédite de

régulation particulière à savoir le changement d’itinéraire qui induit une reconfiguration

partielle ou totale du réseau de transport urbain. Pour cela, les auteurs ont exploité un langage

de modélisation booléen adopté par le moteur d’inférence cellulaire 𝐶𝐴𝑆𝐼 pour proposer, au

régulateur, des actions de régulation incluant, le changement d’itinéraire comme action de

reconfiguration du réseau dans un temps limité.

(Barigou, et al., 2013) ont proposé une nouvelle technique de passage d’une

classification des entités à une classification booléenne. Selon les auteurs, la motivation à

adopter le principe de la modélisation booléenne pour cette tâche de classification est

d'exploiter ses avantages qui sont des représentations des connaissances et le temps de calcul

lors de la classification.

Dans (Atmani, et al., 2013) nous trouvons une modélisation booléenne d’un

raisonnement flou Fuzzy-BML qui utilise les caractéristiques de la classification des graphes

d'induction. Le processus par lequel la phase de récupération d'un raisonnement à partir de cas

(CBR) n’est pas modélisée sous la forme conventionnelle d'équations mathématiques, mais

sous la forme d'une base de données avec des fonctions d'appartenance des règles de logique

floue.

Dans (Brahami, 2013) les auteurs proposent une nouvelle approche de cartographie

qui s’appuie, d’une part, sur la modélisation booléenne des domaines de connaissances

(critiques ou cruciales). D’autre part, sur l’exploitation des différentes sources de données par

des techniques de fouille de données pour améliorer le processus d’acquisition du savoir

explicite. La fouille de données consiste à lancer une induction booléenne à partir des cas

pratiques (explicites) inspirée de la machine CASI. Les règles de cartographie obtenues sont

utilisées pour améliorer automatiquement le modèle booléen de la cartographie des

connaissances.

(Benfriha, et al., 2016) proposent un nouveau cadre de catégorisation textuelle basé

sur des concepts de réseau et des automates cellulaires. Le modèle est basé sur les propriétés

mathématiques des réseaux conceptuels. Cependant, la complexité de générer un réseau de

concepts et de l'utiliser pour la catégorisation de texte où les données sont énormes impose

une contrainte à son applicabilité. Pour résoudre ce problème, ils proposent de modéliser les

réseaux de Galois par un automate cellulaire. Les auteurs testent la classification temporelle

de la méthode proposée sur deux corpus différents: les résultats montrent une amélioration par

rapport aux réseaux Galois standards.

Tous ces travaux, pour n’en citer que cela, s’alignent à montrer l’intérêt à utiliser la

machine 𝐶𝐴𝑆𝐼 à travers des résultats prometteurs mais, uniquement du côté représentation et

modélisation des données. Dans notre approche nous nous sommes penchées sur une autre

facette de la machine, à savoir, son efficacité à optimiser l’espace de stockage et le temps

d’exécution. Ces deux performances nous paraissent de taille dans une ère où le temps et

l’espace prennent toutes leurs dimensions. D’un autre côté, l’exploitation de la machine 𝐶𝐴𝑆𝐼 en tant que machine cellulaire, dans le domaine de l’ingénierie des connaissances est une idée

inédite au sein de l’équipe et même au niveau de la communauté scientifique.

4.1.1 Configuration de la machine 𝑪𝑨𝑺𝑰

Le système de la machine 𝐶𝐴𝑆𝐼 est organisé en grille de cellules où chaque cellule est

reliée uniquement à ses voisines. Toutes les cellules obéissent en parallèle à la même règle

appelée fonction de transition locale, qui a comme conséquence une transformation globale du

système. Les cellules changent d’état dans des étapes discrètes. Après chaque étape, l’état

d’une cellule est modifié selon les états de ses voisines calculés dans l’étape précédente. Les

cellules sont mises à jour d’une manière synchrone, et les transitions sont effectuées

simultanément. L’évolution discrète de la machine décrit le processus d’inférence d’un

véritable système expert opérant sur une base de faits et une base de règles. Elle parcourt un

graphe d’induction modélisé selon ses principes en chaînage avant ou arrière pour exécuter

alternativement ou séquentiellement ou selon un tout autre ordre établi, une série d’opérations

de fusion/éclatement pour arriver à un comportement escompté.

𝐶𝐴𝑆𝐼 utilise deux matrices booléennes exprimant la base de connaissances générées à

partir d’un graphe d’induction qu’elle reçoit en entrée. La première matrice appelée

𝐶𝐸𝐿𝐹𝐴𝐶𝑇 (pour Cellule des Faits) exprime la base des faits et, la deuxième matrice appelée

𝐶𝐸𝐿𝑅𝑈𝐿𝐸 (pour Cellule des Règles) exprime la base des règles. Chaque élément de la

matrice représente une cellule de l’automate.

Chaque inférence du moteur crée une configuration de la machine 𝐶𝐴𝑆𝐼. A chaque

itération nous obtenons une couche de l’automate formée par les états des matrices. A chaque

étape, une cellule peut être active (1) ou passive (0), selon qu’elle participe ou pas à

l’inférence. En utilisant i cellules dans 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 et j cellules dans 𝐶𝐸𝐿𝑅𝑈𝐿𝐸, l’état d’une

cellule est un booléen dont l’interprétation est donnée comme suit :

Si la valeur de la cellule i de 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 est à 1 alors le 𝑓𝑎𝑖𝑡 qui lui correspond est

validé, sinon il est à établir.

Si la valeur de la cellule j de 𝐶𝐸𝐿𝑅𝑈𝐿𝐸 est à 1 alors la 𝑟è𝑔𝑙𝑒 qui lui correspond est

une règle candidate à l’inférence sinon elle ne doit pas y participer.

Chaque cellule passe par trois états qui sont représentés par trois vecteurs d’état : état

d’entrée, état interne et état de sortie. Ces vecteurs décrivent la dynamique des cellules lors de

l’évolution de l’automate par l’application des fonctions de transitions.

La configuration initiale de la machine est donnée par l’état initial de 𝐶𝐸𝐿𝐹𝐴𝐶𝑇

et 𝐶𝐸𝐿𝑅𝑈𝐿𝐸. Cet état est décrit par les 3 vecteurs d’état des deux matrices respectivement.

𝐸𝐹, 𝐼𝐹 et 𝑆𝐹 pour la cellule 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 et 𝐸𝑅, 𝐼𝑅 et 𝑆𝑅 pour 𝐶𝐸𝐿𝑅𝑈𝐿𝐸. Le vecteur 𝐼𝐹

indique le rôle du 𝑓𝑎𝑖𝑡 dans le graphe : Si 𝐼𝐹 = 0, le 𝑓𝑎𝑖𝑡 est du type sommet (ie, un nœud

complexe : qui fait référence à d’autres nœuds); et Si 𝐼𝐹 = 1, le 𝑓𝑎𝑖𝑡 est du type

𝑎𝑡𝑡𝑟𝑖𝑏𝑢𝑡 = 𝑣𝑎𝑙𝑒𝑢𝑟 (ie, un nœud atomique : qui contient des données simples).

En plus de ces deux matrices, la machine 𝐶𝐴𝑆𝐼 utilise deux autres matrices d’incidence

d’entrées RE et de sortie RS qui représentent le voisinage des cellules. En utilisant i cellules

dans 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 et j cellules dans 𝐶𝐸𝐿𝑅𝑈𝐿𝐸, le voisinage (RE, RS) est donné comme suit :

la relation d’entrée, notée 𝑖𝑅𝐸𝑗, est formulée comme suit :

∀𝑖 ∈ {1, . . , 𝑙 } ∀𝑗 ∈ {1, . . , 𝑟 } 𝑠𝑖 (𝑙𝑒 𝑓𝑎𝑖𝑡 𝑖 ∈ à 𝑙𝑎 𝑝𝑟é𝑚𝑖𝑠𝑠𝑒 𝑑𝑒 𝑙𝑎 𝑟è𝑔𝑙𝑒 𝑗) 𝑎𝑙𝑜𝑟𝑠 𝑅𝐸 (𝑖, 𝑗) ← 1.

la relation de sortie, notée 𝑖𝑅𝑆𝑗, est formulée comme suit :

∀𝑖 ∈ {1, . . , 𝑙 } ∀𝑗 ∈ {1, . . , 𝑟 } , 𝑠𝑖 (𝑙𝑒 𝑓𝑎𝑖𝑡 𝑖 ∈ à 𝑙𝑎 𝑐𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑟è𝑔𝑙𝑒 𝑗) 𝑎𝑙𝑜𝑟𝑠 𝑅𝑆 (𝑖, 𝑗) ← 1.

Les matrices d’incidences 𝑅𝐸 et 𝑅𝑆 sont utilisées pour parcourir le graphe de la racine

aux feuilles pour un chaînage avant. Pour effectuer le chaînage arrière, la machine interverti

les matrice d’incidences et obtient un parcours ascendant c.-à-d. de la feuille vers la racine.

4.1.2 La dynamique de la machine 𝑪𝑨𝑺𝑰

La dynamique de la machine cellulaire 𝐶𝐴𝑆𝐼 simule le fonctionnement d’un moteur

d’inférence dont le cycle de base pour établir un 𝑓𝑎𝑖𝑡 en chaînage avant effectue trois

phases :

1. Evaluation et Sélection : Cette phase recherche les règles applicables vérifiant le

critère établi (évaluation) et retient les règles qui le vérifient (sélection) pour effectuer

l’inférence.

2. Filtrage : Cette phase permet de choisir une parmi les règles sélectionnées

précédemment (filtrage) ;

3. Exécution : Cette phase exécute la règle choisie en ajoutant les faits constituant sa

partie conclusion à la base des faits (exécution).

Le cycle est répété jusqu’à ce qu’aucune règle ne soit applicable.

Pour simuler ce fonctionnement, 𝐶𝐴𝑆𝐼 utilise deux fonctions de transitions 𝛿𝑓𝑎𝑐𝑡 et

𝛿𝑟𝑢𝑙𝑒 (Atmani & Beldjilali, 2007), où 𝛿𝑓𝑎𝑐𝑡 correspond aux phases 1 et 2 d’évaluation et

sélection et de filtrage, et 𝛿𝑟𝑢𝑙𝑒 correspond à la phase 3 d’exécution.

La fonction de transition 𝛿𝑓𝑎𝑐𝑡 : (𝐸𝐹, 𝐼𝐹, 𝑆𝐹, 𝐸𝑅, 𝐼𝑅, 𝑆𝑅) (𝐸𝐹, 𝐼𝐹, 𝐸𝐹, 𝐸𝑅 + (𝑅𝑇𝐸・ 𝐸𝐹), 𝐼𝑅, 𝑆𝑅)

La fonction de transition 𝛿𝑟𝑢𝑙𝑒 :

(𝐸𝐹, 𝐼𝐹, 𝑆𝐹, 𝐸𝑅, 𝐼𝑅, 𝑆𝑅) (𝐸𝐹 + (𝑅𝑆・ 𝐸𝑅), 𝐼𝐹, 𝑆𝐹, 𝐸𝑅, 𝐼𝑅, 𝐸𝑅).

En appliquant la fonction de transition globale 𝛥 = 𝛿𝑟𝑢𝑙𝑒°𝛿𝑓𝑎𝑐𝑡, l’automate passe

d’une configuration à une autre en commençant par 𝐺0 la configuration initiale. La

configuration 𝐺1 s’obtient en appliquant 𝛥 sur 𝐺0 en passant par 𝐺0’ ; 𝛥(𝐺0) = 𝐺1 comme

le montre la Figure4-1 suivante :

Figure 4-1 Passage de la configuration G0 à la configuration G1

Soit 𝐺 = {𝐺0, 𝐺1, . . , 𝐺𝑞} l’ensemble des configurations de 𝐶𝐴𝑆𝐼 son évolution discrète

d’une génération à une autre, est définie par la séquence 𝐺0, 𝐺1, . . . , 𝐺𝑞, où 𝐺𝑖 + 1 = 𝛥(𝐺𝑖).

4.2 L’approche proposée

Le processus d’intégration des données que nous avons développé se décompose en

quatre phases importantes suivantes (Figure4-2):

Phase 1 – pré-intégration (Ontologisation) : une étape dans laquelle les schémas en

entrée sont transformés de manière à les rendre plus homogènes.

Phase2 – recherche des correspondances (Matching) : une étape consacrée à

l'identification des éléments semblables dans les schémas initiaux et à la description

précise de ces liens inter-schémas;

Phase 3 – intégration (Fusion) : l'étape finale qui unifie les types en correspondance en

un schéma intégré.

Phase 4 – Stockage booléen

Fonction de transition globale

PHASE2 : ALIGNEMENT

PHASE3 : FUSION

Ontologies PHASE1 : GENERATION DES

PHASE4 : STOCKAGE BOOLEEN

Intégration

Figure ‎4-2 Architecture générale du projet

4.2.1 Phase1 : Génération des ontologies

Comme nous l’avons précisé dans le chapitre premier, l’intégration des données se voit

contrainte de composer avec la répartition des sources, l’hétérogénéité de leurs structures et la

complexité de leurs données. C’est la phase de préparation des données pour le processus

d’intégration. Dans notre approche nous délimitons cette contrainte à l’hétérogénéité des

données et à la répartition de leurs sources. Quant à la structure des sources nous considérons

uniquement des données structurées et définies en modèle relationnel.

Rappelons que nous avons déployé notre problématique sur un projet national PNR dont

la motivation principale est d’améliorer le travail des services SEMEP et de leurs PMI

respectives. L’état de l’existant sur le terrain montre l’installation de plusieurs applications

logicielles de bases de données au niveau des différentes PMI. Ces dernières représentent les

sources d’alimentation du SEMEP. Notre première approche méthodologique consiste à

récupérer les schémas conceptuels et relationnels des bases de données des PMI. Nous avons

été confrontés à une absence de documentation sur les plans de conception des bases. Nous

avons dû reconstituer ces schémas en examinant une à une les structures des différentes tables

avec pour objectif de retrouver les identifiants et reconstituer les liens entre les tables.

Le problème avec ces bases de données, bien qu’elles aient été conçues avec le même

cahier de charge et utilisant le même modèle conceptuel qui est le modèle relationnel, elles

sont différentes et suffisamment hétérogènes pour pouvoir les intégrer au sein d’une même

banque de données. Cette hétérogénéité, perturbant le suivi de vaccination, peut être décrite

comme suit :

Différents concepteurs donc différentes modélisations : l’identification et le choix des

concepts pertinents pour l’élaboration de la base de données dépendent étroitement du

degré de connaissance que possède le concepteur sur le domaine traité.

Différents concepteurs donc différents résultats : deux concepteurs différents

conçoivent pour les mêmes bases de données deux modèles conceptuels différents par

rapport à l’identification des entités, le nommage (Ex : Nom dans BD1 et Name dans

BD2), le typage (ex : chaine de caractère ou entier pour le code), le degré de

granularité (ex :chaine de caractère pour l’adresse ou attribut composé de numéro de

rue, nom de rue..) etc… même si les deux modèles ont été conçus suivant le même

cahier de charge il y aura toujours une part implicite du savoir-faire du concepteur.

Les contextes applicatifs et les traitements à effectuer sont légèrement différents d’une

wilaya à une autre : des facteurs qui dépendent du taux de population, de

l’assainissement de la couverture vaccinale d’une agglomération à forte ou à faible

population.

Dans un tel contexte, le besoin d’intégration devient une solution incontournable du fait

qu’elle fournis une interface permettant d'accéder d’une manière unifiée aux différentes

sources de données, que manipule le SEMEP, nonobstant leurs localisations et leurs formats.

Cependant, cette solution devient compliquée car elle se voit contrainte de composer avec la

répartition des sources et l’hétérogénéité de leurs structures. Au lieu de soulever les

ambigüités au niveau des bases de données, l’idée est de générer automatiquement des

ontologies à partir des bases de données respectivement puis de lancer le processus

d’alignement sur les ontologies générées. Ceci peut se justifier à travers différentes raisons.

Tout d’abord, par rapport au modèle relationnel en général et ensuite par rapport à la

conception des bases de données en particulier.

Le modèle relationnel présente un inconvénient majeur qui réside dans la séparation des

données de leurs structures. Il est pratiquement impossible d’extraire des données d’une base

relationnelle sans en extraire leurs structures pour comprendre ceux à quoi elles

correspondent. Cette limite induit la question de l’interopérabilité de la structure et de la

modélisation des données et constitue le premier pallié à franchir dans un système

d’intégration correct (Ober, et al., 2008).

Actuellement, les bases de données relationnelles demeurent le moyen le plus populaire

pour stocker, rechercher et manipuler des données, cependant, la structure et les contraintes

d'intégrité du modèle relationnel sont définies par des schémas qui ne sont pas aussi expressifs

que des ontologies, pour ce qui est de la représentation de la sémantique des données. Par

conséquence, il est essentiel de construire des ontologies qui soutiennent sémantiquement

l'information contenue dans ces bases de données.

La technique de rétro-ingénierie, semble être une solution intéressante pour atteindre cet

objectif. Elle est définie comme un processus d’analyse d’un système permettant

l’identification des entités et leurs liens en vue de passer d’une forme de représentation à une

autre, de niveau d’abstraction identique ou plus élevé (Chiang, et al., 1994). Cependant, les

informations extraites à partir d'un schéma relationnel pour la construction d'ontologie

peuvent être limitées:

Pour des raisons de performance, souvent, les concepteurs de base de données peuvent

être amenés à ne pas respecter les règles de normalisation pour optimiser le schéma.

Les schémas ne sont pas toujours en troisième forme normale.

Les informations complètes sur la base de données relationnelle, telle que des

dépendances fonctionnelles et d'inclusion, sont rarement disponibles (Premerlani &

Blaha, 1994).

Etant donné que le modèle relationnel ne supporte pas tous les constructeurs du

modèle conceptuel, une partie de la sémantique capturée dans le schéma conceptuel

est nécessairement perdue lors du passage au schéma relationnel (c’est par exemple le

cas de l’héritage).

Les noms des relations et des attributs du schéma relationnel sont souvent abrégés ou

ambigües (e.g NUM_Rue, Nom_Pmi, Code_Post, etc). Ainsi, il est difficile ou même

impossible de déduire la signification (i.e. la sémantique) des données en se basant sur

ces appellations (Muller, 1998).

Nous avons, donc, développé un outil dont l’interface est donné en Figure4-3 qui génère

automatiquement une ontologie à partir d’une base de données relationnelle. Pour ce fait,

l’idée est de fournir un ensemble de règles pour transformer les constructeurs de la base de

données relationnelle, en constructeurs sémantiquement équivalents dans l'ontologie

(Benslimane, et al., 2006). Ces règles sont basées sur une analyse des relations, des clés et des

dépendances d'inclusion – c’est-à-dire transformer les relations, les attributs et les clés en

concepts, propriétés et axiomes.

Dans ce qui suit, nous allons donner un petit aperçu sur les différentes règles de

transformation ou de passage du modèle relationnel au modèle ontologique. Mais avant cela,

dressons la liste des symboles utilisés :

R : L’ensemble des relations

A : L’ensemble des attributs

T : L’ensemble des types de base

Attrib : Fonction qui retourne les attributs de la relation

Dom : Fonction qui retourne les types des attributs

PK : Fonction qui retourne les clés primaires de la relation

FK : Fonction qui retourne les clés étrangères de la relation

C : L’ensemble des classes de l’ontologie

P : propriété des objets (ObjectProperty)

DP : propriété des données (DataTypeProperty)

Dans ce qui suit, nous allons présenter le processus de transformation BDR-ONTO en

utilisant l’exemple d’une base de données de la vaccination développée au sein d’un SEMEP

Figure4-4.

Figure 4-3 Interface de l’outil de génération d’ontologie à partir

d’une base de données relationnelle (BDR-to-Onto)

Le processus que nous avons développé procède en 5 groupes de règles :

4.2.1.1 Règle de construction de classes

Règle1 : Une classe Ci peut être créée à partir d’une relation Ri, si une des conditions

suivantes est satisfaite :

|PK(Ri)| = 1

|PK(Ri)| >1, et il existe Ai, telle que Ai ∈ PK(Ri) et Ai ∉ FK(Ri)

Figure 4-4 le modèle conceptuel de la base de données vaccination

4.2.1.2 Règles de Construction de Propriétés

Règle2 : Soient Ri et Rj deux relations :

Si PK(Ri) = Ai, PK(Rj) = Aj et FK(Ri) = PK(Rj) sont satisfaites, alors une propriété

d'objet : (owl:ObjectProperty) P est créée à base de Ri. Supposons que les classes

correspondantes à Ri et Rj sont Ci et Cj, alors ces dernières correspondent

respectivement au domaine et au "range" (l’intervalle de valeurs) de P.

Figure 4-6 Construction des Propriétés d’objet

Règle 3 : Soit Ci une classe d’ontologie, DP(Ci) l’ensemble de ses propriétés

"datatype". Supposons que Ci correspond aux relations R1, R2…, Ri dans la base de données,

alors chaque attribut dans R1, R2…, Ri, (non transformé en propriété d’objet par la règle 2)

sera transformé en propriété de type « owl:DatatypeProperty » de la classe Ci. Le domaine

et le "range" de chaque propriété Pi sont respectivement Ci et dom(Ai), où Pi ∈ DP(Ci) et Ai ∈

Attrib(Ri).

Figure 4-5 Génération des Classes à partir des Relations

4.2.1.3 Règle de Construction de Relation d’Héritage

Règle4 : Soient Ri et Rj deux relations, supposons que Pi = PK(Ri) et Pj = PK(Rj) :

Si Ri(Pi) << Rj(Pj) est satisfaite, alors la classe correspondante à Ri est une sous-

classe de la classe correspondante à Rj.

4.2.1.4 Règles de Construction des Axiomes

Règle5 : Soit la relation Ri et l’attribut Ai ∈ Attrib(Ri) :

Si Ai = PK(Ri) ou Ai = FK(Ri), alors les cardinalités "minCardinality" et

"maxCardinality" de la propriété Pi correspondantes à Ai sont égales à 1.

Figure 4-7 Construction des Propriétés de donnée

Figure 4-8 Construction des Axiomes des clés

Règle6 : Soit la relation Ri et l’attribut Ai ∈ Attrib(Ri) :

Si Ai est déclarée comme "NOT NULL", alors la cardinalité "minCardinality" de la

propriété Pi correspondante à Ai est égale à 1.

Règle7 : Soit la relation Ri et l’attribut Ai ∈ attrib(Ri) :

Si Ai est déclarée comme UNIQUE, alors la cardinalité "maxCardinality" de la

propriété Pi correspondante à Ai est égale à 1.

Figure 4-10 Construction des Axiomes des Attributs « UNIQUE »

Figure 4-9 Construction des Axiomes des Attributs « NOT-NULL »

4.2.1.5 Règles de Construction des Instances

Règle8 : A chaque instance un identifiant unique est affecté. Cette règle traduit les

valeurs de tous les attributs, sauf celles des clés étrangères.

Règle 9 : les relations entre les instances sont élaborées en utilisant les données des

tuples des clés étrangères de la base de données. Ceci est réalisé en utilisant une fonction

transformant ces clés en identifiants ontologiques.

Figure 4-11 Construction des Instances

Avec ces règles, nous générons une ontologie locale à chaque PMI Figure4-12.

4.2.2 Phase2 : Alignement des ontologies

Une fois les ontologies locales générées au cours de la phase précédente, un

prétraitement, leur est nécessaire avant de les faire passer au processus de fusion. Rappelons

juste que pour intégrer les données des différentes ontologies distinctes, il faudrait, d’abord,

connaître les liens sémantiques qui relient leurs éléments et les faire correspondre. On parle

alors d’alignement d’ontologies ou Matching (Euzenat, et al., 2013) qui, selon Bouzeghoub

(2008), est un des éléments fondamentaux du processus d'intégration d'ontologies. Il permet

d’analyser et de comparer des ontologies pour déterminer les correspondances entre leurs

concepts avant de les fusionner. Le résultat du processus d’alignement est un ensemble de

liens de correspondances.

Dans notre travail nous employons ces liens pour détecter les points de fusion entre les

ontologies locales. Dans le cas le plus simple, deux concepts issus de deux ontologies sont

considérés comme soit équivalents ou l'un subsumant l'autre. Aussi, d’autres liens

sémantiques non logiques peuvent également être établis, basés sur des mesures de similarités

entre les définitions de concepts c-à-d leurs instances. Selon Maiz, (2008), le calcul de la

similarité entre deux concepts est basé sur la terminologie du concept, ses propriétés et ses

relations avec son voisinage. Seulement, cette similarité n’est pas suffisante pour conclure que

les deux concepts sont similaires ou pas. Pour qu’ils le soient complètement il faut que leurs

instances le soient également. Ce qui s’appelle le Mapping ; ce sont des expressions décrivant

Figure 4-12 l’ontologie générée à partir de la base de données Vaccination

F.Science

Département Personne

Salarié Etudiant

Enseignant Administrateur

Recherche

F.Science

Personne Département

Recherche

Cours Enseignant Etudiant

F.Science

Homme Département

Domaine

Etudiant Employé

Enseignant

le moyen dont les instances du schéma cible (final) sont dérivées à partir des instances de

schéma source (initial). Elles décrivent la correspondance sémantique entre les instances de

schémas en complémentarité avec le Matching. Pour ce fait nous avons établi un processus

d’alignement en deux étapes complémentaires :

En premier lieu un Matching ; un alignement structurel à base d’un Matcher

terminologique utilisant WordNet (Miller, 1995) afin de déterminer les relations

d’équivalences entre concepts;

En deuxième lieu un Mapping ; un alignement extensionnel des ontologies afin de

déterminer les relations d’implication entre les concepts.

Pour cette deuxième partie nous allons utiliser un exemple pédagogique dont le graphe

est donné par la Figure4-13. Il s’agit d’un exemple simple et assez expressif de trois

ontologies représentant le même domaine mais définies de manières différentes.

4.2.2.1 Alignement structurel

Il est important de préciser que la fusion des ontologies passe d’abord par une phase

d’alignement des concepts. Ce dernier vise à établir des correspondances entre deux

ontologies, portant à priori sur le même domaine de connaissance. Il consiste à trouver des

relations sémantiques entre des concepts définis dans les ontologies à aligner.

Cependant, dans la pratique, la notion d’alignement des ontologies varie d’un

concepteur à un autre. Pour certain, il s'agit simplement de définir des équivalences entre

classes ou propriétés de deux ontologies, par exemple "ex:Humain owl:equivalentClass

ex:Person". Pour les spécialistes de l'alignement d'ontologies, le problème est plus général : il

s'agit de définir des relations entre éléments d'ontologies différentes. En général, ça prend la

forme de correspondances du type Entité1 relation Entité2, où Entité1 correspond à un

élément d'une ontologie (par exemple, une classe, une propriété, une instance, ou un truc plus

complexe), Entité2 correspond à un élément d'une autre ontologie et relation indique la

relation qui relie Entité1 à Entité2 (par exemple, l'équivalence, l'égalité, la subsomption, la

disjonction, etc). Et ce n'est pas tout, on rajoute souvent un degré de confiance à tout ça parce

Figure 4-13 Exemple de trois Ontologies

que les relations entre ontologies ne sont pas toujours certaines, surtout si elles sont

"découvertes" automatiquement.

Il y a beaucoup d'outils d'alignement automatique mais, à notre connaissance, il n'y en a

pas qui soit réellement complet qui répond à tous les objectifs. Dans notre cas nous avons

utilisé la ressource lexicale WordNet. Cette dernière est une ressource structurée qui joue le

rôle d’inventaires de sens et de dictionnaires, et donne également accès à une hiérarchie de

sens (en quelque sorte un thésaurus structuré). La majorité des mesures de similarité utilisées

dans la littérature se basent sur WordNet.

WordNet est structuré autour de la notion de synsets, c’est-à-dire en quelque sorte un

ensemble de synonymes qui forment un concept. Un synset représente un sens de mot. Les

synsets sont reliés entre eux par des relations, soit lexicales (antonymie par exemple) ou

taxonomiques (hyperonymie, méronymie, etc).

Dans notre cas nous avons utilisé un algorithme de désambiguïsation lexicale très

simple qui procède comme suit :

Construction d’une matrice de similarité : nous construisons une matrice dont les

lignes sont formées par les concepts de toutes les ontologies en entrée et les colonnes

par les synsets de chaque concept relevé à partir du WordNet. Nous avons limité le

nombre des synsets à 8 pour plus de précision. Cette étape nous l’avons nommée

Enrichissement Sémantique, appliquée aux trois ontologies de l’exemple nous donne

le résultat de la Figure4-14.

Définition d’une fonction de similarité : nous avons développé une fonction qui

considère la similarité entre deux concepts comme le nombre de synset en commun

donné par WordNet. Si ce nombre dépasse un certain seuil 𝑆 établi, alors la similarité

notée 𝑆𝑖𝑚 entre les concepts est égale à 1 sinon 0. Autrement dit, soient deux concepts

𝑐1 appartenant à l’ontologie 𝑂1et 𝑐2 appartenant à l’ontologie 𝑂2. Soit synset(𝑐1)

l’ensemble des synonymes de 𝑐1 et synset(𝑐2) l’ensemble des synonymes de 𝑐2 dans

WordNet alors la formule suivante :

𝑆𝑖 𝐶𝑎𝑟𝑑 (𝑠𝑦𝑛𝑠𝑒𝑡 𝑐1 ∩ 𝑠𝑦𝑛𝑠𝑒𝑡 𝑐2 ) ≥ 𝑆 𝑎𝑙𝑜𝑟𝑠 𝑆𝑖𝑚 (𝑐1, 𝑐2) = 1

Appliqué à notre exemple nous trouvons que les concepts Homme et Personne sont

équivalents.

4.2.2.2 Alignement extensionnel

Pour notre cas, nous avons expérimenté une nouvelle utilisation de datamining dans le

domaine de l’intégration des données en utilisant des règles d’association (Malek & Kadima,

2012). Pour cela, nous avons utilisé l’idée que deux concepts 𝑐1 et 𝑐2 sont en relation

d’implication si le vocabulaire utilisé dans les descriptions et les instances de 𝑐1, a tendance à

être inclus dans celui de 𝑐1 (David, et al., 2007). Ce point représente notre deuxième

contribution, nous lui avons donc réservé le contenu du cinquième chapitre.

Figure 4-14 Enrichissement sémantique

4.2.3 Phase3 : La fusion des ontologies

C’est la phase de traitement où il s’agit de la fusion à proprement parler. Elle sera plus

détaillée dans la section 4.3 de ce chapitre. Le système de fusion permet de regrouper les

ontologies en tenant compte de leur alignement pour enfin les intégrer dans un entrepôt de

données. Pour arriver à une ontologie finale cohérente, certaines hypothèses doivent être

dressées:

Les ontologies utilisent le même vocabulaire concernant le domaine d’application;

dans notre cas c’est le domaine de la vaccination et tout ce qui tourne autour comme

maladie, pathogène, immunisation, etc..

Les ontologies sont traduites dans le même langage, dans notre cas nous utilisons le

langage OWL-Lite pour sa simplicité;

Lorsque le Mapping est établit et validé entre deux concepts 𝑐1 et 𝑐2, nous pouvons

déduire que ces deux concepts sont sémantiquement similaires donc ils utiliseront

l’une des deux annotations aléatoirement.

Ces hypothèses d’homogénéisation sont importantes pour contourner les ambigüités que

peut engendrer la conceptualisation des connaissances dans des contextes différents.

4.2.4 Phase 4 : Stockage booléen

La puissance d’une fusion booléenne prend tout son sens lorsqu’elle bénéficie d’un

stockage physique équivalent. La manière dont les informations sont stockées sur disque ou

chargées en mémoire influence considérablement le temps d’accès et le traitement des

requêtes décisionnelles sur ces mêmes données. Pour réaliser des requêtes sur l’ontologie et

pour gérer une quantité volumineuse de données, nous avons choisi de stocker l’ontologie et

les données qu'elles décrivent dans un entrepôt de données appelé Entrepôt de Données à

Base Ontologique (EDBO). De là, nous nous sommes largement inspirés des techniques

d’indexation des bases de données les index Bitmap que nous avons, par la suite, adopté à

notre entrepôt de données ontologique.

Concernant le schéma de l’entrepôt de données, plusieurs présentations ont été

proposées. Le modèle proposé dans (McBride, 2001) et (Alexaki, et al., 2001) consiste à

stocker à la fois les ontologies et les données à base ontologique dans une unique table à trois

colonnes (sujet, prédicat, objet). Dans cette représentation, dite "par triplet", l’ensemble des

informations, ontologies et données, est décomposé sous la forme de triplets, ce qui

correspond précisément à la structure de RDF. Cependant, la principale faiblesse de cette

approche est la non distinction ontologie/données qui entraîne la nécessité d’un très grand

nombre d’auto jointures de la table de triplets, souvent de très grande taille. Pour éviter ce

problème, les systèmes plus récents ont proposé soit la création de vues matérialisées

(Chong, et al., 2005) soit la séparation entre ontologie et données (Pan & Heflin, 2003),

(Broekstra, et al., 2002). Dans notre approche, nous séparons l’ontologie de ses données en

Base de Connaissances

Booléenne Graphe

Ontologie

créant deux fichiers; le premier fichier index de description de structure et le deuxième index

des données. Un exemple illustratif est donné dans le prochain chapitre pour mieux

comprendre cette partie.

4.3 La fusion booléenne des ontologies

L'une des motivations de la fusion des ontologies tient à la construction d'une ontologie

à partir de sources différentes. Dans cette section nous allons exposer notre processus de

fusion que nous avons mis en place (Abdelouhab & Atmani, 2016). Notre processus de

fusion cellulaire est structuré en trois phases Figure4-15.

Figure ‎4-15 La fusion cellulaire

1- Modélisation Booléenne de l’Ontologie (MBO): Consiste à générer le modèle booléen

à partir d’un schéma ontologique (schéma OWL) et générer une base de connaissances

booléenne.

2- Inférence Booléenne de l’Ontologie (IBO) : A partir d’une modélisation booléenne,

simuler le fonctionnement du cycle de base d’un moteur d’inférence en utilisant les

couches 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 et 𝐶𝐸𝐿𝑅𝑈𝐿𝐸 ainsi que les matrices RE et RS.

3- Validation Booléenne de l’Ontologie (VBO) : est consacrée à la génération booléenne

de l’ontologie finale c-à-d du modèle optimisé.

4.3.1 Modélisation booléenne d’une ontologie

D’après les hypothèses d’homogénéité citées plus haut nous considérons dans notre

travail uniquement des ontologies de type « hiérarchies Is-a formelles » où les concepts sont

organisés selon une hiérarchie de sous-classe stricte et ne contenant que des noms de classes.

Une telle ontologie est représentée graphiquement par un graphe de Hasse (David, et al.,

2007) où chaque concept sera représenté symboliquement par un rectangle contenant son

identité. La relation d’ordre est symbolisée par la position des concepts : si 𝑐𝑖 ≤ 𝑐𝑗 alors la

représentation du concept 𝑐𝑖 (concept père) sera placée plus haut que celle de 𝑐𝑗 (concept fils),

et un segment les reliera.

Dans notre approche de fusion nous avons simulé ce lien qui relie les deux concepts 𝑐𝑖 et 𝑐𝑗 à un Prédicat noté (≤) exprimant la relation de généralisation entre le concept 𝑐𝑖 général

(super-concept ou parent) et le concept 𝑐𝑗 plus spécifique (sous-concept ou fils). Pour nous, ce

prédicat de généralisation exprime ainsi une règle d’association entre les concepts de sorte

que 𝑐𝑗 existe si 𝑐𝑖 existe alors la règle d’association « 𝑆𝑖 𝑐𝑖 𝐴𝑙𝑜𝑟𝑠 𝑐𝑗 » sera définie. Par la suite

nous avons défini nos propres principes nous permettant, de manière formelle, de générer une

base de règles d’associations à partir des différents graphes d’ontologies d’entrées :

(1) Principe1 : définit un prédicat de généralisation/spécialisation simple :

∀ 𝑐𝑖, 𝑐𝑗 ∈ 𝐶 𝑒𝑡 𝑐𝑖 ≤ 𝑐𝑗 ≤ (𝑐𝑖, 𝑐𝑗) 𝑅è𝑔𝑙𝑒1 : 𝑆𝑖 𝑐𝑖 𝐴𝑙𝑜𝑟𝑠 𝑐𝑗

(2) Principe2 : définit un prédicat de généralisation composée

∀ 𝑐𝑖, 𝑐𝑗 ∈ 𝐶, 𝑐𝑖 ≤ 𝑐𝑗, 𝑒𝑡 𝑐𝑗 ≤ 𝑐𝑘 ≤ ((𝑐𝑖, 𝑐𝑗), 𝑐𝑘) 𝑅è𝑔𝑙𝑒2 : 𝑆𝑖 𝑐𝑖, 𝑐𝑗 𝐴𝑙𝑜𝑟𝑠 𝑐𝑘

(3) Principe3 : définit un prédicat spécialisation composée

∀ 𝑐𝑖, 𝑐𝑗 ∈ 𝐶, 𝑐𝑖 ≤ 𝑐𝑗, 𝑒𝑡 𝑐𝑖 ≤ 𝑐𝑘 ≤ (𝑐𝑖, (𝑐𝑗, 𝑐𝑘)) 𝑅è𝑔𝑙𝑒3 : 𝑆𝑖 𝑐𝑖 𝐴𝑙𝑜𝑟𝑠 𝑐𝑗, 𝑐𝑘

Sur notre exemple nous avons le concept Personne plus spécifique que le concept

Salarié lui-même plus spécifique que Enseignant alors nous pouvons générer les écritures

suivantes :

𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 ≤ 𝑆𝑎𝑙𝑎𝑟𝑖é

≤ (𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒, 𝑆𝑎𝑙𝑎𝑟𝑖é)

≤ (𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒, 𝑆𝑎𝑙𝑎𝑟𝑖é,𝐸𝑛𝑠𝑒𝑖𝑔𝑛𝑎𝑛𝑡) 𝑅1 : 𝑆𝑖 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 𝐴𝑙𝑜𝑟𝑠 𝑆𝑎𝑙𝑎𝑟𝑖é

𝑅2 : 𝑆𝑖 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 , 𝑆𝑎𝑙𝑎𝑟𝑖é 𝐴𝑙𝑜𝑟𝑠 𝐸𝑛𝑠𝑒𝑖𝑔𝑛𝑎𝑛𝑡

Si nous appliquons ces principes sur l’ensemble des concepts de l’ontologie 𝑂1, nous

obtenons une reformulation de cette dernière en base de règles d’associations où chaque règle

a la forme générale suivante :

< 𝑟è𝑔𝑙𝑒 >∶: = [< 𝑖𝑑𝑒𝑛𝑡 >] 𝒔𝒊 < 𝑝𝑎𝑟𝑡𝑖𝑒_𝑝𝑟é𝑚𝑖𝑠𝑠𝑒 > 𝒂𝒍𝒐𝒓𝒔 < 𝑝𝑎𝑟𝑡𝑖𝑒_𝑐𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛 > oú

< 𝑖𝑑𝑒𝑛𝑡 > est une chaîne de caractères identifiant la 𝑟è𝑔𝑙𝑒. Exemple 𝑅1.

< 𝑝𝑎𝑟𝑡𝑖𝑒_𝑝𝑟é𝑚𝑖𝑠𝑠𝑒 > est une conjonctive de concepts dits pères qui déterminent

quand on peut appliquer la 𝑟è𝑔𝑙𝑒.

< 𝑝𝑎𝑟𝑡𝑖𝑒_𝑐𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛 > est une conjonction de concepts dits fils qui sont déclenchés

si la 𝑟è𝑔𝑙𝑒 est appliquée.

De là nous générons la base de connaissance relative à la première ontologie en entrée.

L’ensemble des règles d’association constitue la base de règles et l’ensemble des concepts

constitue la base de faits comme le montre la Figure4-16 suivante :

Fait EF IF SF

F-Science 1 0 0 Personne 0 0 0 Salarié 0 0 0 Administrateur 0 0 0 Etudiant 0 0 0 Enseignant 0 0 0 Département 0 0 0 Cours 0 0 0 Recherche 0 0 0

CELFACT

𝑕 𝑕

Figure ‎4-16 La base de Règles La base de Faits

Ce processus se répète pour toutes les ontologies en entrée. Une fois terminé, la base de

connaissance sera la concaténation de toutes les bases générées à partir des ontologies en

entrée. Ceci représente le premier pas vers le passage à l’échelle et une première étape de la

fusion. La base de connaissance établie, elle sera introduite au module MBO qui, suivant le

principe booléen, va la représenter en termes de cellules de la machine 𝐶𝐴𝑆𝐼 afin de

l’optimiser et réaliser la deuxième étape de la fusion.

La matrice 𝐶𝐸𝐿𝐹𝐴𝐶𝑇:

𝐶𝐸𝐿𝐹𝐴𝐶𝑇 représente l’une des matrices décrivant la machine CASI. Chaque cellule

attribuée à un Fait est représentée par un état d’entrée, un état interne et un état de sortie.

Initialement, toutes les entrées des cellules de 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 sont passives, l’état d’entrée

est à zéro (EF = 0), exceptées celles qui représentent la base de faits initial (EF(1) = 1). Dans

notre cas le nœud racine de la première règle F-Science représente le Fait Initial à établir.

La Figure4-17 suivante montre la génération de la matrice 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 à partir de la base

de Faits.

𝑅1 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒 𝐴𝑙𝑜𝑟𝑠 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 𝑅2 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒 𝐴𝑙𝑜𝑟𝑠 𝐷é𝑝𝑎𝑟𝑡𝑒𝑚𝑒𝑛𝑡 𝑅3 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 𝐴𝑙𝑜𝑟𝑠 𝑆𝑎𝑙𝑎𝑟𝑖é 𝑅4 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 𝐴𝑙𝑜𝑟𝑠 𝐸𝑡𝑢𝑑𝑖𝑎𝑛𝑡 𝑅5 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒, 𝑆𝑎𝑙𝑎𝑟𝑖é 𝐴𝑙𝑜𝑟𝑠 𝐴𝑑𝑚𝑖𝑛𝑖𝑠𝑡𝑟𝑎𝑡𝑒𝑢𝑟 𝑅6 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒, 𝑆𝑎𝑙𝑎𝑟𝑖é 𝐴𝑙𝑜𝑟𝑠 𝐸𝑛𝑠𝑒𝑖𝑔𝑛𝑎𝑛𝑡 𝑅7 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝐷é𝑝𝑎𝑟𝑡𝑒𝑚𝑒𝑛𝑡 𝐴𝑙𝑜𝑟𝑠 𝐶𝑜𝑢𝑟𝑠 𝑅8 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝐷é𝑝𝑎𝑟𝑡𝑒𝑚𝑒𝑛𝑡 𝐴𝑙𝑜𝑟𝑠 𝑅𝑒𝑐𝑕𝑒𝑟𝑐𝑕𝑒

𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 𝑆𝑎𝑙𝑎𝑟𝑖é 𝐴𝑑𝑚𝑖𝑛𝑖𝑠𝑡𝑟𝑎𝑡𝑒𝑢𝑟 𝐸𝑡𝑢𝑑𝑖𝑎𝑛𝑡 𝐸𝑛𝑠𝑒𝑖𝑔𝑛𝑎𝑛𝑡 𝐷é𝑝𝑎𝑟𝑡𝑒𝑚𝑒𝑛𝑡 𝐶𝑜𝑢𝑟𝑠 𝑅𝑒𝑐𝑕𝑒𝑟𝑐𝑕𝑒

Figure 4-17 Représentation booléenne de la matrice 𝑪𝑬𝑳𝑭𝑨𝑪𝑻

Règles ER IR SR

R1 1 1 1 R2 0 1 1 R3 0 1 1 R4 0 1 1 R5 0 1 1 R6 0 1 1 R7 0 1 1 R8 0 1 1

ER IR SR

La matrice 𝐶𝐸𝐿𝑅𝑈𝐿𝐸

𝐶𝐸𝐿𝑅𝑈𝐿𝐸 représente la deuxième matrice décrivant la machine CASI. Chaque cellule

attribuée à une Règle est représentée par un état d’entrée, un état interne et un état de sortie.

Initialement, toutes les entrées des cellules de 𝐶𝐸𝐿𝑅𝑈𝐿𝐸 sont passives, l’état d’entrée

est à zéro (ER = 0), excepté celle qui est candidate à l’inférence (ER(1) = 1). Dans notre cas la

première règle à valider.

La Figure4-18 suivante montre la génération de la matrice 𝐶𝐸𝐿𝑅𝑈𝐿𝐸 à partir de la base

de Règles.

Pour décrire le voisinage de chaque cellule nous utilisons, également, deux autres matrices

d’incidence RE et RS. Rappelons que le voisinage d’une cellule (représentant un Fait) est

représenté graphiquement par le diagramme de Hasse, à partir duquel nous avons généré les

règles d’association. Une règle d’association associe chaque Fait de type sous-classe à un Fait

de type superclasse selon la relation d’ordre établie plus haut.

La matrice d’Entrée RE

La matrice RE représente la matrice d’incidence d’entrée, elle renvoi la position du Fait dans

le graphe. Elle représente tous les Faits de type superclasse. Ces derniers représentent les

prémisses des règles.

Figure 4-19 Matrice d’entrée RE

RE R1 R2 R3 R4 R5 R6 R7 R8

F-Science 1 1 1 1 1 1 1 1

Personne 0 0 1 1 1 1 0 0

Salarié 0 0 0 0 1 1 0 0

Administrateur 0 0 0 0 0 0 0 0

Etudiant 0 0 0 0 0 0 0 0

Enseignant 0 0 0 0 0 0 0 0

Département 0 0 0 0 0 0 1 1

Cours 0 0 0 0 0 0 0 0

Recherche 0 0 0 0 0 0 0 0

𝑕 𝑕

Figure 4-18 Représentation booléenne de la Matrice 𝑪𝑬𝑳𝑹𝑼𝑳𝑬

RS R1 R2 R3 R4 R5 R6 R7 R8

F-Science 0 0 0 0 0 0 0 0

Personne 1 0 0 0 0 0 0 0

Salarié 0 0 1 0 0 0 0 0

Administrateur 0 0 0 0 1 0 0 0

Etudiant 0 0 0 1 0 0 0 0

Enseignant 0 0 0 0 0 1 0 0

Département 0 1 0 0 0 0 0 0

Cours 0 0 0 0 0 0 1 0

Recherche 0 0 0 0 0 0 0 1

𝑕 𝑕

La matrice de sortie RS

La matrice RS représente la matrice d’incidence de sortie, elle renvoi la position du Fait dans

le graphe. Elle représente tous les Faits de type sous-classes. Ces derniers représentent les

conclusions des règles.

L’ensemble des quatre matrices donne la représentation booléenne des ontologies en entrée et

représentent la configuration initiale de notre automate qu’on appellera G0.

4.3.2 Inférence booléenne de l’ontologie

La base de connaissance telle qu’elle a été générée à partir de toutes les ontologies en

entrée n’est pas optimale et présente beaucoup de redondances dans les règles.

Définition1 : on appelle des règles redondantes un ensemble de règles ayant les mêmes

prémisses.

Cette redondance peut être induite par la présence d’une relation de

généralisation/spécialisation entre les prémisses (resp. conclusions) de règles qui se répètent à

priori dans plusieurs ontologies. Rappelons que les ontologies candidates à la fusion

appartiennent sémantiquement au même domaine d’application, il est donc attendu que

certaines assertions sémantiques ou terminologiques se répètent. Nous distinguons deux types

de redondance : des règles identiques et des règles incluses.

Définition2 : on appelle des règles incluses l’ensemble de règles redondantes ayant des

conclusions différentes.

Définition3 : on appelle des règles identiques l’ensemble de règles redondantes ayant les

mêmes conclusions.

Pour optimiser la base de connaissance, nous utilisons le moteur d’inférence cellulaire 𝐶𝐴𝑆𝐼 pour éliminer toutes les redondances et la simplifier au maximum tout en préservant la

cohérence et la sémantique de l’ontologie.

Deux types de simplification seront envisagés :

Figure 4-20 Matrice de sortie RS

Pour les règles Redondantes Incluses : l’ensemble de toutes les Règles Redondantes

Incluses sera remplacé par une seule Règle dont la conclusion sera formée par l’union

de toutes les conclusions de l’ensemble des règles qu’elle remplace.

Pour les règles Redondantes Identiques : l’ensemble de toutes les Règles Redondantes

Identiques sera remplacé par une seule Règle.

Pour réaliser ce travail d’optimisation, le module IBO va simuler le fonctionnement

d’un moteur d’inférence en utilisant les fonctions de transition δfact et δrule données en

section 4.1.2.

Nous considérons G0 la configuration initiale de notre automate cellulaire et,

Δ = δrule ◦ δfact la fonction de transition globale : Δ(G0) = G1 obtenu en deux étapes :

1- On applique la fonction de transition δfact sur G0 nous obtenons G’0. δfact permet de

filtrer les règles candidates à l’inférence. Ce sont toutes les règles (dont ER=0) et

possédant le même ensemble de prémisse que la première règle sélectionnée par

l’automate (ie ER=1). En d’autres termes, toutes les règles redondantes à la première

règle. Dans notre exemple il s'agit des règles suivantes : R2, R7, R8, R13, R14 et R15.

Elles seront marquées en mettant ER à 1 pour sortir de la compétition.

2- On applique, ensuite, la deuxième fonction de transition δrule sur G’0 nous obtenons le

graphe G1. La fonction δrule permet de valider les Faits Conclusion des règles

sélectionnées par δfact en mettant EF à 1. Ensuite, elle désactive les règles

sélectionnées en mettant SR à 0.

Le processus se répète d’une configuration à une autre jusqu’à ce qu’il n’y a plus de

règle candidate (dont ER=0) à sélectionner. Les règles se feront désactiver au fur et mesure

que l’on valide leurs Faits Conclusions. Dans la page qui suit, nous avons donné les

différentes itérations appliquées à notre exemple pédagogique.

R1 : Si F.Science Alors Personne

R2 : Si F.Science Alors Département

R3 : Si F.Science, Personne Alors Salarié

R4 : Si F.Science, Personne Alors Etudiant

R5 : Si F.Science, Personne, Salarié Alors Administrateur

R6 : Si F.Science, Personne, Salarié Alors Enseignant

R10 : Si F.Science, Personne Alors Enseignant R11 : Si F.Science, Département Alors Cours

R12 : Si F.Science, Département Alors Recherche

R15 : Si F.Science, Alors Domaine

R17 : Si F.Science, Personne Alors Enseignant R18 : Si F.Science, Personne Alors Employé

R1 : Si F.Science Alors Personne, Département, Domaine

R3 : Si F.Science, Personne Alors Salarié

R10 : Si F.Science, Personne Alors Enseignant R11 : Si F.Science, Département Alors Cours

R17 : Si F.Science, Personne Alors Enseignant R18 : Si F.Science, Personne Alors Employé

R3 : Si F.Science, Personne Alors Salarié, Etudiant, Enseignant, Employé

R11 : Si F.Science, Département Alors Cours

R5 : Si F.Science, Personne, Salarié Alors Administrateur, Enseignant

R11 : Si F.Science, Département Alors Cours

R12 : Si F.Science, Département Alors Recherche R1 : Si F.Science Alors Personne, Département, Domaine

R11 : Si F.Science, Département Alors Cours, Recherche

G0 G1 1

ère Itération

G2 2ème

Itération

G3 3ème

Itération

G4 4ème

Itération

R11 : Si F.Science, Département Alors Cours, Recherche

RE R1 R2 R3 R4

F.Science 1 1 1 1

Personne 0 1 0 1

Département 0 0 1 0

Salarié 0 0 0 1

Etudiant 0 0 0 0

Cours 0 0 0 0

Recherches 0 0 0 0

Administrateur 0 0 0 0

Enseignant 0 0 0 0

Domaine 0 0 0 0

RS R1 R2 R3 R4

F.Science 0 0 0 0

Personne 1 0 0 0

Département 1 0 0 0

Salarié 0 1 0 0

Etudiant 0 1 0 0

Cours 0 0 1 0

Recherches 0 0 1 0

Administrateur 0 0 0 1

Enseignant 0 1 0 1

Domaine 1 0 0 0

4.3.3 Génération de l’ontologie finale

A partir de cet état final, nous appliquons le processus inverse de la modélisation

booléenne pour retrouver la base de connaissances finale à partir des matrices de l’automate.

Nous construisons les règles à partir des matrices RE et RS comme suit :

∀i ∈ {1,..,l } ∀j ∈ {1,..,r } si RE (i, j) ← 1. alors le Fait i ∈ à la Prémisse de la règle j

∀i ∈ {1,..,l }∀j ∈{1,..,r } , si RS (i, j) ← 1 alors le Fait i ∈ à la Conclusion de la règle j.

Exemple : RE(F.Science, R1) = 1 & (RS(Personne, R1)=1& RS(Département, R1)=1 &

RS(Domaine, R1)=1) Alors on définit la règle R1 comme suit : Si F.Science Alors Personne,

Département, Domaine. Ceci donnera la partie suivante du graphe final.

Appliquons sur tout l’exemple nous obtenons ce qui suit :

F.Science

Personne

Administrateur

Domaine Département

Salarié Cours Recherches

Etudiant

Enseignant

F.Science

Personne Domaine Département

Figure 4-21 Graphe de l'ontologie finale

4.3.4 Formalisation de l’ontologie booléenne

Notre ontologie booléenne peut être définie par le quadruplet : 𝐻 = (𝐶, 𝑅, 𝑃, 𝐴, 𝐻𝑖) où:

C représente l’ensemble des entités qui sont des concepts Faits formant la matrice

𝐶𝐸𝐿𝐹𝐴𝐶𝑇.

R représente une relation d’ordre entre les entités notée « ≤ ». Plusieurs sémantiques

peuvent être associées à la relation d’ordre partiel. Dans notre cas cette relation d’ordre

partiel peut être une relation de spécialisation (relation est un) ou de composition

(relation partie de).

P représente la position d’un concept i dans la hiérarchie. Elle est définie par la donnée

d’une règle d’association. Chaque Règle Rj est définie par le couple (RE, RS) où RE est la

matrice d’entrée et RS la matrice de sortie.

Pour tout ci ∈ C, RE(Ci)=1/0 si ci ∈ Prémisse(Rj) ou pas respectivement ci

est un concept père.

Pour tout ci ∈ C, RS(Ci)=1 si ci ∈ Conclusion(Rj) ou pas respectivement ci

est un concept fils.

A regroupe les fonctions d’annotations Ax associant une description textuelle aux

entités.

Hi représente une extension constituée d’un ensemble d’objets qui seront indexés aux

entités de la hiérarchie. Hi est définie par (C,≤,A,O, σ) où :

O représente l’ensemble des objets peuplant la hiérarchie.

σ est la relation d’association (également appelée relation d’indexation) des

entités aux objets. Pour tout ci ∈ C, σ(ci) représente les objets associés à l’entité

Propriétés :

ci ≤ cj si et seulement si σ(ci) ∈ σ(cj).

σ(c0) = O : l’ensemble des objets est associé à l’entité racine.

L’ensemble ordonné (C,≤) d’une hiérarchie possède un plus grand élément qui est

appelé racine. Dans notre exemple de l’ontologie l’ensemble des Concepts est C= {F-Science,

Personne, Salarié, Etudiant, Administratif, Enseignant, Département, Cours, Recherche}. La

relation utilisée pour structurer les concepts est la « subsomption (est-un)», qui lie deux

concepts : un Etudiant est une Personne, donc Personne≤ Etudiant. La fonction A label

appliquée sur le concept F-Science = {Faculté, Faculté d’E-science} donne les différentes

dénominations de F-science.

4.4 Discussion

Une discussion importante sur notre approche devrait se faire à ce niveau afin de

positionner nos résultats et d’une certaine manière de valider notre travail.

Pour cela, l’intérêt porte sur trois volets :

1- par rapport aux ontologies générées automatiquement à partir des bases de données :

quelle serait leur validation au sens de la cohérence ?

2- par rapport à la fusion en elle-même : qu’en est-il de la validation de l’ontologie finale

obtenue après la fusion.

3- par rapport à l’approche dans sa globalité : dans son utilisation de la modélisation

booléenne.

4.4.1 Discussion sur le 1er

L’ambiguïté des bases de données est un point non négligeable dans la génération des

ontologies ce qui influence gravement les résultats obtenus. De sorte que nous nous

retrouvons par la suite avec des ontologies fortement hétérogènes qu’il sera difficile de les

fusionner. Pour réduire cette ambiguïté nous avons été contraints de restructurer les bases de

données et d’y faire un nettoyage sans trop toucher aux schémas de base. Le résultat obtenu

est acceptable mais pas suffisant il nécessite encore d’autres efforts, dépassant le cadre de

cette thèse, pour arriver à un raffinage complet des bases de données.

La qualité de la structure de l’ontologie obtenue dépend alors de la qualité des données

de la base utilisée. Une validation de la sémantique de l’ontologie acquise est nécessaire, ainsi

qu’un raffinage de la structure ontologique obtenue est nécessaire. En perspectives nous

suggérons l’utilisation des entrepôts de connaissances lexicales pour valider la sémantique de

l’ontologie obtenue. Cette perspective sera facilitée par le fait que nous avons choisi d’utiliser

des ontologies de domaines.

Concernant les ontologies générées, notre modèle s’appuie sur des ontologies de

domaine. Par opposition aux ontologies génériques, les ontologies de domaine se limitent à

représenter la connaissance d’un domaine particulier. Notre choix est motivé par le fait que

les ontologies de domaine restreignent l’interprétation des concepts qu’elles définissent au

contexte spécifié par le domaine. Ceci a l’avantage de limiter l’ambiguïté des termes définis

dans l’ontologie pour faciliter leur alignement par la suite.

4.4.2 Discussion sur le 2ème

Comme nous l’avons vu précédemment le résultat de cette fusion est une ontologie. La

question qui se pose est avons-nous obtenue une ontologie juste. Avant toute chose, nous

supposons que les ontologies locales sont déjà validées au cours de la première étape

(discussion sur le 1er

point). Il nous reste ensuite à discuter la cohérence de leur ontologie de

fusion par rapport aux critères d’évaluation de Gruber ? (Gruber, 1993) À savoir :

La clarté: les concepts de l’ontologie doivent présenter le sens voulu des termes ; Dans

notre cas les concepts de l’ontologie finale sont ceux des ontologies en entrées. Aucun

nouveau concept n’est ajouter au cours du processus de fusion donc la clarté de

l’ontologie finale est celle des ontologies d’entrées.

La cohérence: les raisonnements construits à partir des axiomes d’une ontologie ne

doivent pas aboutir à des contradictions; Les seules modifications réalisées sur les

ontologies en entrées concernent les liens de subsomption entre concepts. Nous avons

fusionné ces liens en suivants les principes de la généralisation composée et de la

spécialisation composée. Ces dernières restent en parfaite cohérence avec la sémantique

les liens originels.

L’extensibilité: l’ontologie doit être conçue de manière à ce qu’une nouvelle utilisation se

fasse sans remettre en cause ce qui a été précédemment conçu;

Le biais d’encodage minimum: la spécification de l’ontologie doit être aussi indépendante

que possible d’un méta-langage particulier de représentation;

L’engagement ontologique minimal: l’objectif est de permettre la spécialisation des

spécifications d’une ontologie donnée selon des besoins réels;

4.4.3 Discussion sur le 3ème

Rappelons que notre approche est largement inspirée du principe de base de la machine

𝐶𝐴𝑆𝐼 pour deux raisons fondamentales. Tout d’abord, les algorithmes classiques de fusion des

ontologies (Maiz, et al., 2008) traitent uniquement deux ontologies à la fois alors que la

modélisation booléenne nous permet d’en traiter plus que deux, ensuite ils nécessitent,

généralement, le développement de deux fonctions Match (Comparer) et Merge (fusionner)

(Hernandez & Mothe, 2006) à quelques variantes près. La fonction Match permet de définir

l’équivalent du concept de la première ontologie dans la deuxième ontologie et la fonction

Merge génère un nouveau concept en fusionnant les deux concepts équivalents. Les deux

fonctions utilisent d’une manière itérative et récursive des algorithmes de parcours d’un

graphe d’ontologies et se heurtent à des problèmes combinatoires dès que la taille de ces

dernières dépasse un certain seuil. En théorie de la complexité, ces deux fonctions présentent

des complexités polynomiales assez lourdes (Costa & Cohen, 2013).

Nous avons vu dans le chapitre3 que les stratégies holistiques s’appuient plus sur

l’aspect fiabilité et n’offrent aucune indication concernant le temps de traitement. Notre

approche relève le défi du passage à l’échelle en offrant un alignement holistique basé sur la

modélisation booléenne 𝐶𝐴𝑆𝐼. Rappelons que cette dernière est un modèle particulier de

systèmes dynamiques et discrets capable d’acquérir, de représenter et de traiter la

connaissance extraite à partir d’exemples sous forme booléenne.

La complexité de tout système se calcule suivant deux aspects, un aspect temporel, il

faut aller le plus vite possible, et un aspect spatial, il faut consommer le moins possible de

mémoire. Ces déclarations d’intention peuvent sembler ambitieuses, mais c’est en gardant

cette idée à l’esprit que nous avons développé notre approche.

La modélisation booléenne nous prouve que ceci peut être réalisé tout en réduisant la

quantité de stockage et le temps d’exécution. En effet, cela est due à l’utilisation de la

représentation booléenne des matrices RE et RS, et à la multiplication booléenne employée par

les fonctions de transition 𝛿𝑓𝑎𝑐𝑡 et 𝛿𝑟𝑢𝑙𝑒. Les deux processus intensifs de calcul dans 𝐶𝐴𝑆𝐼 sont le stockage et la multiplication booléenne des matrices d’incidences RE et RS.

Stockage en mémoire de RE et RS ; Ces dernières, étant des matrices booléennes peuvent

être exprimées sous forme de deux vecteurs de plusieurs séquences binaires. La quantité de

mémoire requise pour stocker les matrices booléennes est de l’ordre de 𝛰(𝑞) quand on utilise

𝑞 séquences de 𝑟 bits ou de 𝑂(𝑟) quand on utilise 𝑟 séquences de q bits. Le traitement de

telles matrices peut s’effectuer en 𝑞 × 𝑟 étapes. D’un autre côté, ces matrices sont dans toutes

les itérations creuses (contiennent beaucoup de zéro) il suffit, alors, de stocker que les autres

valeurs égales à 1.

L’algorithme standard (REt. EF), par exemple, utilisé par la fonction de transition 𝛿𝑓𝑎𝑐𝑡

peut être exprimé par un algorithme séquentiel de multiplication booléenne vecteur-matrice

exécuté en un 𝑡𝑒𝑚𝑝𝑠 𝛰(𝑟𝑞), où q est la dimension du vecteur EF et 𝑟 × 𝑞 est la dimension de

la matrice REt. La multiplication de RE

t avec EF peut être exécutée en utilisant la technique de

vectorisation booléenne de matrice, dans un 𝑡𝑒𝑚𝑝𝑠 ≈ 𝛰(𝑟 𝑙𝑜𝑔 𝑞) où le produit intérieur

d’une ligne de REt avec le vecteur EF est réduit au produit du bit de parité (bit wise And).

On peut donc conclure que la modélisation booléenne par automates cellulaires peut

constituer un puissant outil pour l’exploration des espaces de recherches de manière efficace

et performante. Elle représente une alternative algorithmique de complexité moindre qui

facilite le passage à l’échelle. Aussi, la transformation du graphe des ontologies en règles de

production en vue d’alimenter le moteur d’inférence de 𝐶𝐴𝑆𝐼 se fait sans pertes des

connaissances.

4.5 Conclusion

Nous avons présenté dans ce chapitre notre méthode de fusion booléenne de plusieurs

ontologies. La fusion des ontologies est un processus qui peut facilement devenir

combinatoire en programmation classique. Pour peu que le nombre d’ontologies à fusionner

ainsi que leur taille deviennent importants que la performance de ces algorithmes diminue

considérablement. Mettre en œuvre des algorithmes classiques est certes une solution

plausible, mais cette dernière périclite rapidement dès que le nombre des ontologies devient

important. La recherche des règles candidates devient combinatoire surtout si les graphes des

structures ontologiques se ramifient exponentiellement. Pour cela, nous avons envisagé de

procéder autrement, d’explorer d’autres techniques de programmation. L’utilisation de la

modélisation booléenne nous permet de maîtriser ce côté combinatoire par l’utilisation des

fonctions simples de transition. Modéliser les différentes ontologies sous forme booléenne

(Abdelouhab et Atmani, (2008), (2009), (2013)) nous facilite leurs mises à jour d’une

manière synchrone et les transitions sont effectuées, dans la théorie, simultanément

(Wolfram, 1986). En appliquant des règles simples et des transitions spécifiques telles que des

multiplications vectorielles simples, notre automate cellulaire peut effectuer, d’une manière

globale, une opération complexe telle la fusion et de surcroît, pouvoir fusionner en un seul

jeu d’exécution plus de deux ontologies. Ce critère est très important pour satisfaire la

scalabilité du web.

Nous avons présenté, dans ce chapitre, notre problématique comme une éventuelle

solution au problème d’intégration des données et leurs sémantiques. L’originalité de notre

travail par rapport à l’état de l’art est que nous avons reconsidéré le problème dans son

ensemble en introduisant à partir des couches les plus basses une modélisation booléenne pour

garantir, à la fois, une construction booléenne automatique de l’ontologie et une optimisation

de l’espace de stockage de l’entrepôt de données.

Une discussion est donnée en fin du chapitre afin de montrer les différents points de vue

sur l’évaluation que nous avons établi pour notre approche. Une autre partie sera donnée dans

le chapitre suivant afin de bien cerner tous les contours de notre approche.

Chapitre Cinquième

Alignement cellulaire

extensionnel

par les règles d’association

Chapitre5

5.Alignement extensionnel des ontologies

par les règles d’association

Dans le chapitre précédent nous avons présenté l’architecture générale de notre

approche et donné la description des différents modules la constituant. Ce présent chapitre

complète le précédent en donnant la description détaillée du module d’alignement. Nous

avons souligné auparavant que l’alignement des ontologies est un processus qui peut être très

complexe et combine plusieurs matchers pour arriver à un résultat significatif. Nous avons vu

aussi que dans cette combinaison les matchers peuvent se succéder séquentiellement et les

résultats (les sorties) de l’un deviennent les données d’entrées de l’autre, ou se lancent en

parallèle. L’alignement final devient, alors, une agrégation des résultats intermédiaires.

Dans notre approche nous avons utilisé deux alignements complémentaires ; le premier

structurel que nous avons décrit dans le chapitre précédent, complété par un alignement

extensionnel et fera l’objet de ce chapitre. Selon Maiz, (2008), le calcul de la similarité entre

deux concepts est basé sur la terminologie du concept, ses propriétés et ses relations avec son

voisinage. Seulement, cette similarité n’est pas suffisante pour conclure que deux concepts

sont similaires ou pas. Pour qu’ils le soient complètement il faut que leurs instances le soient

également. Nous avons donc réalisé un processus d’alignement utilisant deux mesures de

similarité ; un alignement intensionnel et un alignement extensionnel.

Nous allons présenter dans ce chapitre notre deuxième contribution qui consiste en une

nouvelle approche cellulaire d’alignement extensionnel des ontologies. Mais avant cela nous

allons d’abord commencer par présenter un exemple d’illustration que nous avons pris de la

vaccination et avec lequel nous allons étayer notre approche. Par la suite nous allons donner

les résultats des expérimentations que nous avons faites. Nous avons procédé en deux étapes :

D’abord nous l’avons évalué par rapport à des métriques d’évaluation ensuite nous l’avons

expérimenté sur le domaine de la vaccination pour apporter une solution à un problème bien

précis qui est celui des perdus de vue. Nous montrerons explicitement comment pouvons-nous

expérimenter un alignement extensionnel sur le problème des perdus de vue.

5.1 Exemple d’illustration

La vaccination en Algérie est un processus assez complexe mettant en collaboration

plusieurs types d’intervenants et plusieurs systèmes, difficiles à se synchroniser partant des

services de la wilaya jusqu’aux services publiques de la santé. Pour cela, les Services

d’Epidémiologie et de Médecine Préventive (SEMEP) se doivent de coordonner les différents

systèmes d’informations sous-jacents à tous les services participant à cette vaccination. Ce

processus, passe par l’historique vaccinal, consulte l’approvisionnement en vaccin, utilise la

Alignement extensionnel des ontologies par les règles d’association

géolocalisation, influence l’épidémiologie etc… autant de systèmes et de services pour

progresser vers une qualité de vaccination. Telle une réaction en chaîne, il est évident que la

réussite de la vaccination, dont dépend celle du PEV, reste étroitement liée à la qualité de la

coordination et du taux d’implication de chaque sous-système y participant.

Les problématiques et les tentatives d’amélioration de l'interopérabilité du système de

vaccination comptent, donc, sur la réconciliation de ces différentes ontologies contenant des

terminologies différentes, redondantes ou complémentaires. L’ontologie finale, obtenue par la

fusion des ontologies locales, représentera une spécification formelle et explicite du système

d’information global du SEMEP. Par le biais de la fusion automatique, nous avons construit

notre ontologie finale pour le SEMEP appelée VaccinOnto dans le cadre du projet PNR. La

construction de VaccinOnto est réalisée par la fusion progressive et itérative des différentes

ontologies créées séparément sur les vaccins, la vaccination, la couverture vaccinale, les

maladies, etc.

Pour cette première partie du chapitre nous allons limiter notre exemple à la partie

concernant les vaccins, leurs descriptions ainsi que d’autres informations les concernant. Nous

allons utiliser des extraits de l’ontologie VaccinOnto pour expliquer le processus

d’alignement. Soient trois ontologies représentant les vaccins selon trois modes de

classification. (Tableau5.1) que nous allons tenter d’aligner suivant notre approche.

Tableau5.1 : Différentes Classifications des Vaccins dans VaccinOnto

Comme nous allons utiliser un alignement extensionnel nous avons donc pris ces mêmes

ontologies mais contextualisées ou peuplées par les produits pharmaceutiques du marché

Ontologies Définition

A/Classification 1 : Selon leurs micro-organismes :

- Vaccins Associés

- Vaccins AntiBactériens

- Vaccins Préparés

B/Classification2 : selon le mode de préparation :

- Vaccins Vivants Atténués

- Vaccins Inactivés Tués

- Vaccins Préparés

C/Classification3 : selon Recommandation

- Vaccins Obligatoires (VO)

- Vaccins Recommandés (VR)

- Vaccins Vivement Recommandés (VVR)

désignés par l’ensemble d’objets O comme le montre les Figure5-1, Figure5-2, Figure5-3

suivantes.

5.2 Formalisation de l’ontologie contextualisée

Avant d’aller plus loin, il est approprié de définir les constituants d’une ontologie

contextualisée selon notre point de vue. Une ontologie contextualisée est définie par le

quadruplet (C,R,O,σ) où :

– C représente l’ensemble des entités qui sont des concepts.

– R représente une relation d’ordre entre les entités notée ≤. Ainsi le couple(C,≤) est un

ensemble ordonné qui possède un plus grand élément appelé racine.

– O représente l’ensemble des objets ou instances peuplant l’ontologie.

– σ est la relation d’association (également appelée relation d’indexation) des concepts de

l’ontologie aux objets.

Pour tout concept ci ∈C, σ(ci) représente les objets (instances) associés au concept ci.

Cette partie constitue ce qu’on appelle l’intention de l’ontologie. La Figure5-4 reprend la

classification des vaccins contextualisée ou peuplée par les produits pharmaceutiques du

marché désignés par l’ensemble d’objets O. La classe Vaccin représente la racine de

l’ontologie. L’ensemble des Concepts est C= {Vaccin, Antiviraux, Antibactériens, Associés,

Vivants, Inactivés, Préparés}.

La relation utilisée pour structurer les concepts est la « subsomption (est-un)», qui lie

deux concepts : un Antiviraux est un Vaccin, donc Vaccin≤ Antiviraux. De là nous pouvons

déduire que l’ensemble des objets associés à Vaccin est inclus dans l’ensemble des objets

associés au concept Antiviraux, i.e., σ(Vaccin) ∈ σ(Antiviraux). Comme les concepts

Antiviraux et Antibactériens partagent un prédécesseur commun, l’intersection σ(Antiviraux)

∩ σ(AntiBactériens) n’est pas vide. L’entité racine Vaccin, est quant à elle, associée à

l’ensemble des objets O par σ.

Figure ‎5-1 Ontologie des Vaccins Contextualisée

Vaccin

Antiviraux AntiBactérien Associés

Vivant

Inactivé

Préparé

BCG IMOVAX

𝝈 𝝈 𝝈 𝝈

5.3 Les difficultés d’alignement des ontologies

Rappelons que le problème exposé dans le chapitre 3 est la correspondance sémantique

entre les concepts des ontologies. Pour faire correspondre les différentes ontologies, deux

étapes sont nécessaire : s’abstraire de la différence entre langages d’ontologies utilisés (par

exemple en traduisant les ontologies dans un même formalisme de représentation), puis

chercher les concepts équivalents à apparier en tenant compte des différences de

conceptualisation, de description de cette conceptualisation et de terminologie. Les difficultés

qui se posent sont les différences de syntaxe (Chalupsky, 2000), de représentation des notions

logiques, de l’homonymie possible entre primitives de langage de signification différente. La

diversité des formats de représentation de la connaissance pour un même domaine conduit à

l’apparition des problèmes d’hétérogénéité entre différentes ontologies.

Dans notre domaine de vaccination, les données sont dispersées dans des bases de

données qui n’ont pas la même architecture et n’utilisent pas le même système SGBD. Fournir

des statistiques au sujet des vaccinations devient alors une tâche compliquée qui implique

d’écrire des requêtes différentes sur chacun des systèmes et de tenter de joindre les résultats.

Le résultat final est alors très approximatif car incluant de nombreux doublons.

On est ainsi en présence de plusieurs bases de données séparées aux architectures

différentes qui doivent cohabiter sur le même serveur du SEMEP et qui sont amenées à

enregistrer et à gérer des informations de même nature, notamment au sujet des vaccinations

pratiquées. Connaître par exemple le nombre de vaccinations pratiquées durant l’année en

cours nécessiterait de traiter tour à tour les enregistrements dans toutes les bases. Et il n’y

aurait de surcroît aucun moyen d’exclure les doublons. Si toutes les PMI pratiquaient les

vaccinations en utilisant le même système de gestion informatisé, le problème ne se poserait

pas. Dans notre cas, les différentes bases de données qui ne possèdent évidemment ni les

mêmes tables, ni les mêmes champs de tables enregistrent cependant des informations dont la

valeur sémantique est la même.

Ce travail nous a offert l’opportunité d’approcher, d’analyser et d’aborder la résolution

des problèmes posés par l’organisation et l’architecture des systèmes d’intégration. Les

difficultés qui surgissent lorsque l’on veut exploiter les données issus de systèmes

d’information mal architecturés ou mal configurés sont nombreuses (Hoffmann, 2008) :

Les conflits de nommage : à type de synonymie (différents noms de champs sont

utilisés pour désigner des données de même nature) ou homonymie (des données dont

la nature diffère d’une base à l’autre sont désignées d’un même nom.

Les conflits de d’échelle : Dans l’une des bases, le délai avant la prochaine vaccination

est renseigné en jours. Dans l’autre il est noté en mois.

Les conflits de structure : dans l’application A, il existe une relation un-à-un entre

Patient et médecin et dans l’application S, il y a une relation un-à-plusieurs. Dans

l’une des 2 bases, l’adresse est contenue dans un seul champ texte. Dans l’autre elle

tient sur un champ numérique (numéro de rue) et un champ texte (détail nom de la

Cette situation nécessite un traitement correctif préalable des données textuelles de la

base afin de les rendre cohérentes et adaptées à une utilisation rigoureuse au sein d’une base

de données relationnelle où les types et la validité des données ne souffriraient d’aucune

ambigüité. Ceci nous permet également d’éviter d’autres problèmes posés par la fusion des

ontologies dont une liste bien détaillée est donnée dans (Chalupsky, 2000) et (Klein, 2001).

5.4 L’approche proposée

Notre approche d’alignement s’appuie sur deux étapes parallèles comme le montre la

Figure5-5 suivante :

Figure ‎5-5 Processus d’alignement de notre approche

1) La première étape présentée au chapitre quatre, est fondée sur un alignement

terminologique en utilisant WordNet.

2) Dans la deuxième étape, nous proposons un mécanisme de définition de règles de

«mapping » qui permettent les correspondances entre les instances des ontologies.

3) Le résultat final sera l’agrégation des deux alignements.

Dans ce qui suit nous allons détailler l’alignement extensionnel.

Notre approche met en œuvre une nouvelle technique d’alignement extensionnel des

ontologies basée sur la modélisation booléenne 𝐶𝐴𝑆𝐼. Notre méthode fusionne deux domaines

importants tels la fouille des données et la modélisation mathématique. Du premier, nous

exploitons le paradigme des règles d’association pour extraire des correspondances entre les

ontologies à partir du vocabulaire utilisé dans les descriptions de leurs instances. Et du

deuxième, nous profitons du formalisme dynamique et discret de la machine 𝐶𝐴𝑆𝐼 pour

implémenter notre méthode dont les raisons sont largement présentées dans les chapitres

précédents. L’idée sous-jacente à notre approche est que deux concepts 𝑐1 et 𝑐2, appartenant

à deux ontologies 𝑂1 et 𝑂2 respectivement, sont en relation d’implication ou d’équivalence si

le vocabulaire utilisé dans les descriptions et les instances de 𝑐1, a tendance à être inclus dans

celui de 𝑐2. Nous entendons par vocabulaire utilisé dans les descriptions et les relations toutes

les propriétés utilisées ainsi que leurs valeurs.

Dans notre approche, le but consiste à analyser et à exploiter les instances attachées aux

Intensionnel

Extensionnel

Instances Instances1 Instances2

(a) (b)

de l’alignement intensionnel réalisé en amont. Notre intuition rejoint facilement les travaux de

David (David, et al., 2007) dans son utilisation des règles d’association et ceci pour plusieurs

raisons : la première est que le contexte d’alignement des ontologies via leurs instances est, en

fait, un véritable travail de fouille de relations entre ces données et les règles d’association,

pour cela, en sont des candidates de premier choix. La deuxième raison est que les règles

d’association offrent aussi un bon moyen prédictif pour déduire d’éventuelles relations

sémantiques entre de nouveaux concepts. La troisième raison est qu’elles déduisent une

sémantique explicite et fiable de l’alignement facilement interprétable lors de la phase de

validation. Et enfin, elles permettent aussi selon David (2007) de définir un alignement

nouveau permettant de déduire une relation d’implication entre les concepts contrairement

aux travaux antérieurs qui se limitaient à l’équivalence seulement. Cependant, une de leurs

principales limites concerne les quantités prohibitives de règles générées par les algorithmes

d’extraction (Agrawal, et al., 1993). David (2007), dans sa méthode, utilise des filtres

constitués des mesures d’intérêts et la réduction des redondances dans les règles.

Nous distinguons deux types de méthodes de fusion des ontologies en utilisant les instances.

Le premier type est appliqué dans le cas où un même entrepôt d’instances est partagé par les

ontologies à fusionner Figure5-6(a) ; le deuxième est appliqué dans le cas où chaque

ontologie dispose de son propre entrepôt d’instances, Figure5-6(b). Nous décrivons dans ce

qui suit la fusion des instances pour les deux cas suivants :

Des instances communes aux deux ontologies à faire fusionner et dans ce cas le

système réindexe l’ontologie de fusion par les mêmes instances ;

Des instances associées aux ontologies disjointes et dans ce cas le système fait des

recherches par mots-clés dans les instances. La fusion est ensuite calculée entre les

instances à l’aide de l’union.

Dans notre cas nous considérons que les ontologies partagent le même ensemble

d’instances.

L’alignement extensionnel que nous avons réalisé sur plusieurs ontologies telles que

Onto1=(C1,≤, 𝑂1,σ1), Onto2=(C2,≤, 𝑂2,σ )…et Onton(Cn,≤,, 𝑂𝑛,σn), utilise les objets

associés à chaque entité par la relation d’indexation σ i,i ∈ {1,2,..n}. Le principe est d’induire

la relation éventuelle qu’entretiennent les entités x ∈ C1,y ∈ C2, et z∈ C3… en s’appuyant sur

leurs extensions respectives σ 1(x),σ 2(y) et σ3(z)….

Figure 5-6 Ontologies Contextualisées

Vaccin

Antivirus Associés

Antibactérien

Vaccin

Recommandé

Obligatoire Vivement

Recommandé Vaccin

Inactivés

Vivants Recombiné

ONTOLOGIES

RESSOURCES

Cependant, une contrainte rend ce principe simple non applicable tel quel. En effet, il est rare

que deux ontologies ou plus partagent les mêmes extensions. Afin de résoudre ce problème,

les approches extensionnelles réalisent un prétraitement sur les ontologies afin de les rendre

comparables (David, et al., 2007). Il existe trois approches possibles :

– Réduire leur extension (et leur relation d’indexation) à 𝑂1 ∩ 𝑂2.

– Augmenter leur extension (et leur relation d’indexation) à 𝑂1 ∪ 𝑂2.

– Extraire une autre représentation des extensions et donc une autre relation d’indexation.

La première approche, adoptée dans notre travail, est la plus simple à mettre en place mais il

est nécessaire que l’intersection 𝑂1 ∩ 𝑂2 ne soit pas égale à l’ensemble vide et souhaitable

qu’elle soit relativement conséquente afin que les résultats obtenus soit statistiquement

valides. La deuxième approche s’appuie sur la classification supervisée et la dernière change

complètement la relation d’indexation par l’extraction et la sélection de descripteurs issus de

l’analyse du contenu des instances. Ainsi les hiérarchies sont susceptibles d’avoir une

intersection plus volumineuse qu’initialement. A l’issue de cette première étape, l’extraction

de règles d’association entre hiérarchies sera, de ce fait, plus aisée.

Le processus

de Mapping cellulaire (en référence à la machine cellulaire 𝐶𝐴𝑆𝐼) que nous avons développé

passe par quatre phases importantes :

Phase1 : Préparation des Données dans laquelle les schémas des ontologies en

entrées sont transformés en matrices booléennes.

Phase2 : Extraction des règles d’associations selon un principe binaire.

Phase3 : Inférence cellulaire. Une étape consacrée au moteur d’inférence

cellulaire qui, en utilisant des fonctions de transitions, détermine des points de

correspondances entre les instances des ontologies par un ensemble optimal de

règles d’association.

Phase4 : Interprétation et analyse : la sémantique des liens de correspondances

établis dans la phase traitement et leur prise en compte.

Figure 5-7 Les ontologies partagent le même ensemble d’instances

Dans le chapitre quatre nous avons montré comment le système génère la base de

connaissances à partir des graphes des ontologies en entrées. Dans la suite nous allons se

concentrer uniquement sur le traitement des instances par les règles d’association à travers

l’exemple de la vaccination. L’ensemble des instances de toutes les ontologies en entrées est

regroupé dans une seule base de données appelée pour l’occasion, base d’Instances. Par souci

de clarté, nous allons considérer par la suite qu'un échantillon de 12 tuples de cette base de

données Figure5-8.

Figure ‎5-8 Base d’apprentissage (Table des Transactions)

5.4.1 Génération de la base d’instance

La notion de règle d’association est définie dans un contexte de fouille d’un ensemble

d’individus décrits par un ensemble de variables appelé une table (ou un ensemble de tables

jointes) issue d’une base de données relationnelle. Dans le cadre de l’alignement des

ontologies, notre contexte de fouille ou d’apprentissage sera constitué des termes des

constituants de l’ontologie, à savoir, chaque ontologie représente un attribut prédictif dont les

modalités seront ses différents concepts.

Formellement, une règle d’association est un couple de variables noté 𝑎 → 𝑏 où a et b

sont des itemsets disjoints, appelés respectivement prémisse et conclusion. Il y a deux

problèmes clés qui doivent être considérés lorsqu’on utilise des règles d’association. Tout

d’abord l’extraction des motifs (plus ou moins fréquents) peut être numériquement coûteuse

si l’ensemble des instances (les bases de données) est volumineux. Deuxièmement, certaines

règles d’association sont potentiellement fausses ou sans intérêt.

Pour apporter une solution à ces problèmes nous avons établi certaines hypothèses:

Les règles recherchées sont des règles binaires c.-à-d. qu’elles ne possèdent qu’une

variable en prémisse et en conclusion.

Les prémisses et conclusions sont issues respectivement des ensembles de variables

disjointes.

La fouille de données que nous appliquons procède comme suit : d’abord nous fixons un

attribut dont les modalités vont former les différentes prémisses des règles d’association.

Ensuite, nous allons voir quels sont les autres attributs qui lui correspondent par un

N° Transactions

1 Gardasil Associé, Recommandé

2 Gervarix Associé, Inactivé

3 Dukoral Antivirus, Recommandé, Recombiné

4 DT-Polio Antivirus, Obligatoire, Vivant

5 Infarix Associé, Vivement-Recommandé, Recombiné

6 Stamaril Antibactérien, Inactivé

7 Ticovax Antivirus, Vivement-Recommandé, Inactivé

8 Encepur Antibactérien, Recommandé

9 JE-Vax Antibactérien, Obligatoire, Recombiné

10 Vaxigrip Antivirus, Obligatoire, Vivant

11 Havrix Antivirus, Recommandé, Recombiné

12 Genhevax Antivirus, Vivement-Recommandé, Recombiné

1. 𝐹𝑜𝑛𝑐𝑡𝑖𝑜𝑛 : 𝐸𝑥𝑡𝑟𝑎𝑐𝑡𝑖𝑜𝑛_𝐷𝑒𝑠_𝑅è𝑔𝑙𝑒𝑠 2. 𝐼𝑁𝑃𝑈𝑇: (1) 𝐿𝑖𝑠𝑡𝑒 𝑑𝑒𝑠 𝐶𝑜𝑛𝑐𝑒𝑝𝑡 𝑑𝑒 𝑙𝑎 𝑝𝑟𝑒𝑚𝑖è𝑟𝑒 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑖𝑒 𝑂1

3. 𝑂𝑈𝑇𝑃𝑈𝑇: 𝐿𝑖𝑠𝑡𝑒 𝑑𝑒𝑠 𝑅è𝑔𝑙𝑒𝑠 𝑑’𝐴𝑠𝑠𝑜𝑐𝑖𝑎𝑡𝑖𝑜𝑛 4. 𝐷é𝑏𝑢𝑡 5. 𝑘 = 1; // 𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑅è𝑔𝑙𝑒𝑠 6. 𝑊𝑕𝑖𝑙𝑒 (𝑡𝑟𝑢𝑒)

7. {𝑅𝑒𝑎𝑑(𝐼𝑡𝑒𝑚𝑠𝑒𝑡𝑖) ;

8. 𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝐼𝑡𝑒𝑚𝑠𝑒𝑡 𝐺𝑒𝑡𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝐼𝑡𝑒𝑚𝑠𝑒𝑡𝑖) ;

9. 𝑙 = 1 ; 10. 𝐹𝑎𝑖𝑟𝑒𝑝𝑜𝑢𝑟 𝑗 = 1 à 𝑛 // 𝑛 = 𝑡𝑎𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙’𝐼𝑡𝑒𝑚𝑠𝑒𝑡

11. 𝐼𝑡𝑒𝑚𝐺𝑒𝑡𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝐼𝑡𝑒𝑚𝑠𝑒𝑡𝑖(𝑗)) ; 12. 𝐼𝑓 𝐼𝑡𝑒𝑚 ∈ 𝐿𝑖𝑠𝑡𝑒𝐶𝑜𝑛𝑐𝑒𝑝𝑡𝑃𝑟𝑒𝑚𝑖𝑠𝑠𝑒 13. 𝑇𝑕𝑒𝑛 𝑃𝑟𝑒𝑚𝑖𝑠𝑠𝑒 𝐼𝑡𝑒𝑚;

14. 𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝐼𝑡𝑒𝑚 𝐺𝑒𝑡𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝐼𝑡𝑒𝑚) ; 15. 𝐸𝑙𝑠𝑒

16. 𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛(𝑙) 𝐼𝑡𝑒𝑚 ;

17. 𝐸𝑛𝑑𝑖𝑓 ; 18. 𝑙 + +;

19. 𝐹𝑖𝑛𝑓𝑎𝑖𝑟𝑒𝑝𝑜𝑢𝑟 ; 20. 𝐹𝑎𝑖𝑟𝑒𝑝𝑜𝑢𝑟 𝑗 = 1 à 𝑙

21. 𝑅è𝑔𝑙𝑒(𝑘)𝑃𝑟𝑒𝑚𝑖𝑠𝑠𝑒 + ‘’ + 𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛(𝑙) ;

22. 𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝑅𝑒𝑔𝑙𝑒(𝑘)) = 𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝐼𝑡𝑒𝑚𝑠𝑒𝑡/𝑁 ;

23. 𝐶𝑜𝑛𝑓𝑖𝑎𝑛𝑐𝑒(𝑅𝑒𝑔𝑙𝑒(𝑘)) = 𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝐼𝑡𝑒𝑚𝑠𝑒𝑡/𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝐼𝑡𝑒𝑚 ;

24. 𝑘 + + ;

25. 𝐹𝑖𝑛𝐹𝑎𝑖𝑟𝑒𝑝𝑜𝑢𝑟 ; 26. 𝐹𝑖𝑛

𝐴𝑙𝑔𝑜𝑟𝑖𝑡𝑕𝑚𝑒 𝐺é𝑛è𝑟𝑒𝑅è𝑔𝑙𝑒

(2) 𝐿𝑖𝑠𝑡𝑒 𝑑𝑒𝑠 𝐼𝑡𝑒𝑚𝑠𝑒𝑡𝑠

alignement. Pour cela nous utilisons l’algorithme suivant qui permet d’extraire des règles

d’association appelé 𝐺é𝑛è𝑟𝑒𝑅è𝑔𝑙𝑒.

Le déroulement de l’algorithme 𝐺é𝑛è𝑟𝑒𝑅è𝑔𝑙𝑒 sur notre table de transactions (Figure5-8)

nous donne les règles d’association suivantes:

Figure ‎5-9 Base de connaissances générée à partir des règles d’association

L’ensemble des règles générées constitue la base des instances. Cette dernière contient un

ensemble important de règles dont beaucoup d’entre elles sont redondantes pour les mêmes

raisons citées en chapitre quatre.

5.4.3 Le Mapping booléen

Dans cette phase nous utilisons le moteur d’inférence de la machine 𝐶𝐴𝑆𝐼 en suivant les

étapes décrites dans le chapitre quatre.

D’une manière générale, le fonctionnement de la machine 𝐶𝐴𝑆𝐼 s’effectue en utilisant

deux fonctions principales :

1. La fonction Match() qui permet de comparer les règles et d’en éliminer les

redondantes. l’ensemble de toutes les règles redondantes sera remplacé par une seule

règle. Dans notre exemple, la base initiale était formée de 19 règles (Figure5-9). Après

l’application de la fonction Match() nous obtenons 14 règles valides.

2. La fonction Merge() qui fusionne les règles valides ayant les mêmes prémisses. Elle

permet de construire une nouvelle règle à partir des règles possédant la même

prémisse en faisant la conjonction de leurs conclusions respectives. Dans notre

exemple, le nombre de règles final se réduit à 3 règles.

5.4.4 Interprétation des Résultats

Nous avons utilisé les règles d’association dans le but de déceler d’éventuelles

correspondances entre les concepts des ontologies en entrée avant de les fusionner. Une règle

Vaccin

Inactivés

Vivants Recombiné

Vaccin

Recommandé

Obligatoire Vivement

Recommandé

Vaccin

Antivirus Associés

Antibactérien

d’association entre deux concepts 𝑐1 et 𝑐2 décrite comme suit : si 𝑐1 alors 𝑐2, représente un

moyen intuitif pour exprimer une relation de correspondance entre eux. Autrement dit, si

σ1(𝑐1) (l’ensemble des instances de 𝑐1) est inclus ou identique à σ2(𝑐2) (l’ensemble des

instances de 𝑐1) alors on peut proposer les cas d’alignement suivants (Elbyed, 2009) :

- Les deux concepts 𝑐1 et 𝑐2 sont (𝑐1 𝑐2) si 𝜎1(𝑐1) 𝜎1(𝑐2) = 𝜎1(𝑐1)= 𝜎1(𝑐2).

- Le concept 𝑐1 est plus général que le concept 𝑐1 c.-a-d, (𝑐1 𝑐2) si 𝜎1(𝑐1) 𝜎1(𝑐2) = 𝜎1(𝑐1) et 𝜎1(𝑐1)≠.

- Les deux concepts 𝑐1 et 𝑐2 sont considères comme dissimilaires (𝑐1 𝑐2) dans les autres

Dans notre exemple, la machine 𝐶𝐴𝑆𝐼 a validé les trois règles suivantes :

R1 : Si Associés Alors Inactivé, Recombiné, Recommandé, VivRecommandé

R2 : Si Antivirus Alors Vivants, Inactivés, Recombiné, Recommandé,

VivRecommandé, Obligatoire

R3 : Si Antibactérien Alors Inactivé, Recombiné, Recommandé, Obligatoire

La Figure5-10 suivante montre les différents alignements engendrés par la machine

𝐶𝐴𝑆𝐼. La règle R2 est la plus expressive et la plus générale, les autres n'apportent aucune

information supplémentaire. La règles R2 montre que l'attribut Antivirus engendre toutes les

valeurs des attributs " Préparation " et " Recommandation " ce qui signifie que les vaccins de

type Antivirus sont les mêmes que Recombiné, Vivants et Inactivés. La classe 'Antivirus' peut

être une superclasse des classes 'Recombiné', 'Vivants' et 'Inactivés'. La même chose pour les

classes " Obligatoire ", " VivRecommandé " et " Recommandé " Il est évident que ce résultat

reste fonction de la population et de la taille de l'échantillon pris pour l'étude.

Figure ‎5-10 Schématisation du résultat du Matching

5.4.5 Génération de l’Ontologie Finale

En appliquant cet algorithme sur la base de connaissances globale de la Figure5-9 sur les

ontologies des vaccins (Tableau5.1), nous obtenons une classification des vaccins plus

complète Figure5-11:

Base de Faits

Fait n

R, RE, RS

Figure ‎5-11 Ontologie globale de fusion des trois classifications

5.4.6 Stockage de l’ontologie finale

Le fichier de structure suit le modèle en étoile, il contient la table des faits. Cette

dernière contient l’ensemble des faits constituants l’ontologie finale. Chaque Concept

représente une dimension pour la représentation en étoile. Une dimension représentant un

concept contient l’ensemble des règles dans lesquelles il participe suivi par sa valeur dans les

matrices d’entrées RE et de sorties RS. Ces dernières nous donnent la position du Fait dans

l’arbre. La Figure5-12 suivante donne la représentation booléenne logique en étoile de

l’entrepôt.

Le schéma en étoile obtenu est, par la suite, sauvegardé au niveau du disque en utilisant

un chaînage dynamique en mode binaire. Ceci nous permet d’optimiser l’espace de stockage

de l’entrepôt de données.

Au niveau physique chaque document OWL, représentant l’ontologie finale est, repéré

par son nom, et une liste d’élément représentant les différents Faits (concepts).

Figure 5-12 Schéma en étoile de l’entrepôt de données

Chaque élément est représenté par la liste de toutes les règles auxquelles il participe ainsi que

sa position dans la règle. Rappelons que la position d’un Fait dans une règle est donnée par les

valeurs de RE et RS.

Par exemple le stockage booléen de l’ontologie de notre exemple sera donné comme suit :

Pour minimiser le coût de stockage nous désignons les règles uniquement par leur numéro

(1 signifie R1) ce qui donne par exemple pour le Fait Personne le résultat suivant :{101, 210}.

5.5 Expérimentation

La phase de validation permet de comparer les résultats obtenus par les méthodes

proposées avec les résultats d'autres méthodes similaires dans la littérature pour avoir une idée

sur la performance de l’algorithme. Ce processus de validation repose sur l'utilisation d'un

Figure 5-13 Représentation physique de l’entrepôt

Figure 5-14 Représentation booléenne de notre ontologie

ensemble de métriques d'évaluation. Ces métriques permettent d'une part, d'apprécier la

qualité de l’algorithme obtenu ; et, d'autre part, elles assurent une démarche de comparaison

avec les résultats obtenus par d'autres méthodes de fusion.

Notre approche peut être analysée selon quatre points de vue différents vu qu'elle

représente à la fois un système cellulaire, un système de Matching, un système d'extraction

des règles d'association et un système de fusion. Dans ce qui suit nous allons présenter nos

différentes validations pour chaque point de vue.

5.5.1 En tant que système cellulaire

Notre approche, fondée sur le principe de base de 𝐶𝐴𝑆𝐼, utilise un algorithme cellulaire

dont le but est d'optimiser le temps d'exécution du CPU. Dans ce sens, notre algorithme

présente une complexité moindre et linéaire réduite à 𝛰(𝑛) par rapport à celle d'un algorithme

de matching classique qui se base sur des parcours de graphes dont la complexité s'élève à

𝛰(𝑛2) avec n la taille du graphe. Cela est dû à l'utilisation de la représentation booléenne des

matrices d'incidences RE et RS et à la multiplication booléenne employées par les fonctions de

transition 𝛿𝑓𝑎𝑐𝑡 et 𝛿𝑟𝑢𝑙𝑒.

D’un autre côté, si l’on valide l’utilisation des automates cellulaires dans le domaine de

fouille de données nous pourrions comparer notre algorithme à un autre utilisant les fourmis

artificielles (Azzag & Lebbah, 2011), pour cause, les deux méthodes proposent en sortie une

classification ou un regroupement des données en utilisant des fonctions locales. Ce qui est,

d’ailleurs prévu dans une étude proche.

5.5.2 En tant que système de Matching

En tant qu’un système de matching, son évaluation nécessite l'utilisation des mesures

telles que la Précision, Rappel, Fallout et Fmesure (Do, et al., 2002) et une comparaison avec

les ontologies du Benchmark OAEI (Ontology Alignment Evaluation Initiative). La première

phase dans le processus d'évaluation de la qualité d'alignement consiste à résoudre le

problème manuellement. Le résultat obtenu est considéré comme l'alignement de référence.

La comparaison de l'alignement de référence avec celui obtenu par la méthode d'alignement

proposée produit trois ensembles (Zghal, 2010) : 𝑁𝑓𝑜𝑢𝑛𝑑, 𝑁𝑒𝑥𝑝𝑒𝑐𝑡𝑒𝑑 et 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡.

L'ensemble 𝑁𝑓𝑜𝑢𝑛𝑑 représente les paires alignées avec la méthode d'alignement.

L'ensemble 𝑁𝑒𝑥𝑝𝑒𝑐𝑡𝑒𝑑 désigne l'ensemble des couples appariés dans l'alignement de

référence.

L'ensemble 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡 désigne l'intersection des deux ensembles 𝑁𝑓𝑜𝑢𝑛𝑑 et

𝑁𝑒𝑥𝑝𝑒𝑐𝑡𝑒𝑑. Il représente l'ensemble des paires appartenant à la fois à l'alignement

obtenu et à l'alignement de référence.

La précision représente le rapport du nombre de paires pertinentes trouvées, c-à-d.,

𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡, rapporté au nombre total de paires obtenues par la méthode d'alignement, c-à-d.,

𝑁𝑓𝑜𝑢𝑛𝑑. Elle renvoie ainsi, la partie des vraies correspondances parmi celles trouvées.

Ainsi, la métrique précision est définie par :

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡

𝑁𝑓𝑜𝑢𝑛𝑑

Le rappel est le rapport du nombre de paires pertinentes trouvées, 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡, rapporté

au nombre total de paires pertinentes, 𝑁𝑒𝑥𝑝𝑒𝑐𝑡𝑒𝑑. Il spécifie ainsi, la part des vraies

correspondances trouvées. Il est définie par :

𝑟𝑒𝑐𝑎𝑙𝑙 = 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡

𝑁𝑒𝑥𝑝𝑒𝑐𝑡𝑒𝑑

La métrique Fallout permet d'estimer le pourcentage d'erreurs obtenues au cours du

processus d'alignement. Elle est définie par le rapport des paires erronées, Nfound - Ncorrect,

rapporté au nombre total des paires trouvées, Nfound. Cette métrique est définie par :

𝐹𝑎𝑙𝑙𝑜𝑢𝑡 = 𝑁𝑓𝑜𝑢𝑛𝑑 − 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡

𝑁𝑓𝑜𝑢𝑛𝑑

La métrique F-mesure est une mesure harmonique. Elle combine les deux mesures de

précision et de rappel. Elle est définie comme suit :

𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =2 ∗ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙

Notre approche calcule les mesures de similarité entre les concepts en respectant la

relation de subsomption qui les relie. Ceci induit que certains couples de concepts ne sont pas

pris en considération par le processus d'alignement. De ce fait, l'ensemble des paires

appartenant à la fois à l'alignement obtenu et l'alignement de référence, 𝑁𝐶𝑜𝑟𝑟𝑒𝑐𝑡, serait

faible. Par conséquent, la valeur de précision est affaiblie. En outre, les couples qui ont été

exclus augmentent le nombre de couples correctement alignés, c-à-d., 𝑁𝐶𝑜𝑟𝑟𝑒𝑐𝑡. Les

résultats obtenus sont encourageants en particulier sur les tests où les ontologies possèdent des

structures semblables ou identiques. Les résultats seront, probablement, moins bons sur les

jeux de test qui comportent des ontologies dégradées ce qui nous reste à confirmer ou pas

dans les travaux futurs.

5.5.3 En tant que système d'extraction des règles d'association

Nous avons comparé notre algorithme par rapport à l'algorithme a priori (Agrawal, et

al., 1993). Pour cela, nous avons utilisé le même exemple des vaccins. Il nous a fallu adapter

notre exemple de 3 ontologies et 32 instances aux termes du datamining c.-à-d. 32 instance et

3 attributs que nous avons introduit dans WEKA pour extraire les règles d'associations en

fixant les seuils à 10%. Les résultats de comparaison sont donnés dans le Tableau5-2 qui suit:

𝑮é𝒏è𝒓𝒆𝑹è𝒈𝒍𝒆 A priori (WEKA)

Règles Retrouvées 20 66

Précision 0.15 0.40

F-Mesure 0.260 0.172

Tableau 5-2 Comparaison des résultats d’extraction des règles d’association

Nous remarquons que la précision de notre système est faible alors que la F-Mesure est

plus élevée i.e. ce qui rend le rappel élevé et ceci grâce à l'efficacité du système à trouver les

règles pertinentes. Ceci est dû sans doute aux conditions posées préalablement sur le schéma

des règles nous permettant d'éviter les fausses règles. Nous avons comparé nos résultats par

rapport aux travaux de Marinica dans (Marinica & Guillet, 2010). Dans ces travaux, les

auteurs en s’inspirant des travaux menés sur les règles d’associations généralisées et les

schémas de règles ils proposent de modéliser les connaissances du domaine du décideur à

l'aide d'ontologies associées aux données et de schémas de règles. Pour leur test ils illustrent

leurs travaux sur l’ontologie Pizza.owl (http://www.co-ode.org/ontologies/pizza/2005/10/18/

pizza.owl). Cette ontologie est intéressante dans la mesure où elle est facile à interpréter.

Nous avons soumis cette ontologie à notre algorithme de génération de règles d’association il

a généré 98 règles d’association alors que l’algorithme dans (Marinica & Guillet, 2010)

génère 88 règles. Nous avons un écart de 10 règles qui pour nous exprime les règles

redondantes qui seront par la suite réduites par la machine cellulaire lors de la fusion.

5.5.4 En tant que système de fusion holistique

Nous avons testé les performances du système face au passage à l’échelle Tableau5-3.

Pour cela, nous avons effectué plusieurs jeux de test où chaque test comprenait une ontologie

en plus. Nous avons effectué 4 tests avec la même ontologie Pizza.owl qui contient 104

classes et 5 Instances. Dans chaque test on apporte un aspect incrémental du nombre

d’ontologie en entrée. Test1 avec 2 ontologies, Test2 avec 3 ontologies, Test3 avec 4

ontologies et Test4 avec 5 ontologies.

Tableau 5-3 : Test de performance pour le passage à l’échelle

Nous remarquons que les performances du système se dégradent mais lentement ce qui

nous laisse très optimistes.

Pour bien mesurer notre approche de fusion d'ontologies, nous avons adopté un

protocole de validation utilisé dans (Salhi, 2014). Ce protocole consiste d'abord à récupérer

Nombre d'Ontologies 2 3 4 5

Nombre de Classes 208 312 416 520

Nombre d'Instances 10 15 20 25

Règles Trouvées 198 297 396 495

Précision 0,106 0,071 0,053 0,042

F-Mesure 0,192 0,132 0,101 0,081

une ontologie de référence. Dans notre cas nous avons utilisé l’ontologie Pizza.owl à partir du

référentiel en ligne de Protégé-2000. Ensuite nous avons partitionné cette ontologie de

référence en deux sous-ontologies. Le partitionnement est effectué avec l'outil NÉON Toolkië

(http ://neon-toolkit.org/wiki/Main Page) qui a donné lieu à deux ontologies Pizza1.owl et

Pizza2.owl. Nous avons lancé notre processus de fusion avec les deux entrées obtenues dans

le partitionnement. Le résultat était satisfaisant puisque nous avons obtenu en final l’ontologie

de départ.

5.6 Expérimentation de l’approche dans la vaccination

Dans cette partie, nous avons poussé la validation encore plus loin sur des cas réels.

Nous avons testé notre approche concernant l’utilisation des règles d’association pour la

détection des perdus de vue dans le programme élargi de vaccination. C’est une

problématique assez particulière dont souffrent tous les services SEMEP. Ceci s’explique

comme suit :

Selon le programme élargi de vaccination (PEV), tous les enfants ont droit à une série

de vaccination à partir de la première semaine de leur naissance jusqu’à 11 mois. Une

politique qui vise à réduire l’effet des principales maladies mortelles pour l’enfant. Le PEV

fait face aux principales maladies de l’enfance les plus responsables de mortalité chez les

enfants. Malheureusement, un problème se pose : beaucoup des enfants qui se présentent pour

la première vaccination, une semaine après leur naissance, ne reçoivent plus la totalité des

vaccins, et ceci, pour de multiples raisons ; Ce sont les perdus de vue. Un vrai problème pour

les autorités sanitaires du pays pour lequel nous allons apporter une solution potentielle.

Notre solution consiste à adopter notre méthode Matching cellulaire pour la détection

des perdus de vue en utilisant les règles d’association.

La vaccination en Algérie est un processus assez complexe mettant en collaboration plusieurs

types d’intervenants et plusieurs systèmes, difficiles à synchroniser partant des services de la

wilaya jusqu’aux services publiques de la santé. Pour cela, les Services SEMEP se doivent de

coordonner les différents systèmes d’informations sous-jacents à tous les services participant

à cette vaccination. Ce processus, passe par l’historique vaccinal, consulte

l’approvisionnement en vaccin, utilise la géolocalisation, influence l’épidémiologie etc…

autant de systèmes et de services pour progresser vers une qualité de vaccination. Telle une

réaction en chaîne, il est évident que la réussite de la vaccination, dont dépend celle du PEV,

reste étroitement liée à la qualité de la coordination et du taux d’implication de chaque sous-

système y participant.

Les statistiques des différentes années relèvent qu’il est difficile d’atteindre des taux de

vaccination raisonnables en raison de plusieurs facteurs dont les perdus de vue. Les perdus de

vue est la situation d’un enfant qui a eu au moins un contact avec les services de vaccination

mais qui n’a pas terminé sa série de 5 contacts. Ceux-là influent négativement sur la

couverture des différents antigènes. Ce qui a pour conséquence une diminution de la

couverture vaccinale totale, minimisant ainsi les efforts faits en faveur de la survie de l’enfant.

C’est pourquoi, nous nous intéressons dans cette étude à identifier les cas des abandons et

d’aider à l’adaptation de stratégies pouvant les réduire chez les enfants de 0 à 11mois en

utilisant des techniques d’ingénierie des connaissances et du datamining.

NV PV TV 1

ère Vaccination

, 3ème

, 4ème

Vaccination

5.6.1 La mission des SEMEP

Parmi les missions les plus importantes du SEMEP est le PEV dont les objectifs sont

dirigés vers :

Une augmentation de la couverture vaccinale : Ce point est, sans doute, le plus

important dans le processus global du PEV. Il concerne essentiellement la fonction des

PMI par l’acte de la vaccination qu’elle soit groupée (des compagnes de l’hygiène

scolaire) ou individuelle au centre ou à domicile. La vaccination individuelle, dite de

routine, fondée sur un calendrier de vaccination précis et la vaccination de porte à

porte qui permet aux populations isolées, d’accessibilité faible aux structures de soins,

de bénéficier des avantages de la vaccination.

La réduction du poids de certaines maladies : Ce point se déduit automatiquement du

premier. Une bonne couverture vaccinale suppose, déjà une éradication de la

poliomyélite, une élimination de la rougeole, un contrôle sur le tétanos néonatal etc…

La sécurité des vaccinations, la pérennité des programmes.

Contact Age Antigènes Recommandés

1 Naissance BCG, Polio0

2 8 semaines DTCoq1, Polio1

5 9 mois Anti-rougeoleux

Tableau5.4 : Calendrier de la vaccination de routine

5.6.2 Le Processus de Vaccination

La couverture vaccinale (CV) (Figure5-16) est un modèle mathématique subdivisant la

population en trois groupes d’individus :

Totalement Vacciné (TV) l’ensemble des enfants (les individus) ayant reçu la totalité

des vaccins. Ils ont 5 contacts.

Partiellement Vaccinés (PV) l’ensemble des enfants ayant reçu un nombre de

vaccination appartenant à [1,4]. Ils n’ont pas encore terminé leurs vaccinations.

Nullement Vacciné (NV) l’ensemble des enfants ayant reçu 0 vaccination.

Un individu passe de l’état NV à l’état PV par une 1ère

vaccination et de l’état PV à

l’état TV après 5 vaccinations.

Figure 5-15 Diagramme d’état-transition

Couverture Vaccinale

Facteurs de Risques

Vaccination

Nouvelle Vaccination Kème Vaccination Dernière Vaccination

Partie-de Partie-de Partie-de

Predecesseur Predecesseu

Subit Devient Devient Devient Become

Détermine

Causes

Gérée par

l’in

Les facteurs de risque, considérés comme des évènements, entretiennent une relation de

causalité avec le processus de vaccination.

Pour rendre plus efficace notre ontologie, nous lui avons ajouté un concept « Causes » qui

définit les différentes causes des abondons de vaccinations. Ces causes peuvent être

subdivisées en trois catégories :

Liées Aux Parents : Par exemple,

Absence temporaire ou définitive de la mère avec son enfant

Manque de temps pour ramener l’enfant à la vaccination.

Liées Aux Services : Par exemple :

La coordination entre les services de santé curatifs et préventifs est souvent

insuffisante ; des agents de santé sont incapables de suivre correctement le

calendrier vaccinal, surtout si plusieurs vaccins doivent être donnés à des dates

différentes.

Le désordre, les files d’attente, le manque d’amabilité du personnel de santé

sont responsable des occasions manquées.

L’insuffisance de formation des agents de santé en matière de gestion des

vaccins (gaspillage).

Absence de l’agent vaccinateur

Manque de vaccin dans les centres de vaccination

Liées Aux Croyances : Par exemple Enfant refoulé pour diverses raisons (Maladie,

insouciances etc…)

Nous avons aussi ajouté une propriété importante à la classe Vaccination qui est

« NumContact » qui permet de savoir l’état de l’enfant vacciné (NV, PV ou TV).

Figure 5-16 Processus de la Couverture Vaccinale

Ontologie Vaccination Propriété de la classe Vaccination

Figure 5-17 Ontologie Vaccination donnée par Protégé3.1

Le processus de la vaccination est un processus complexe qui présente deux aspects

complémentaires : l’aspect statique décrit par l’ontologie de domaine (Figure5-17) et l’aspect

dynamique décrit par une ontologie de processus (Camara, 2012) générée en interrogeant

l’ontologie de domaine (Figure5-18). Une requête SPARQL de type 𝐶𝑂𝑁𝑆𝑇𝑅𝑈𝐶𝑇 est lancée

qui permet de définir un nouveau graphe contenant les différents états des enfants vaccinés

selon la valeur de la propriété « NumContact ». L’ensemble de la population sera partagé en

trois catégories dont chacune instanciera les concepts de l’ontologie de processus.

L’ensemble commun des instances va contenir les enfants qui ont circulé d’un SEMEP

à un autre (pour des causes définies) et donc possèdent des états multiples suivant leurs

situation au niveau de chaque SEMEP. Par exemple : un enfant dont le code est E0158 est un

nouveau vacciné à la commune d’Oran où la mère y séjournait provisoirement. Son état au

SEMEP d’Oran est NV. Avant d’arriver au prochain rappel de vaccination la mère a, déjà,

déménagé à Mostaganem où elle résidera pendant 8 mois. La suite des contacts de

vaccination se fera au niveau du SEMEP de Mostaganem et l’état de l’enfant E0158 passe de

NV à PV. Après cela, la mère va définitivement à Alger parceque son mari a été promu au

ministère, son enfant terminera sa vaccination au SEMEP d’Alger. Lors de la couverture

vaccinale, cet enfant sera considéré comme perdu de vue au niveau des SEMEP d’Oran et

Mostaganem. Cet exemple montre la complexité du système réel qui est difficile de déceler

lorsqu’il s’agit de fouiner dans des bases dépassant des milliers d’individus.

SEMEP 1

NV1 PV1

Figure 5-18 Ontologie de Processus associée à l’Ontologie de domaine de

Vaccination

ONTOLOGIES

RESSOURCES

SEMEP1

PV1 TV1

SEMEP2

PV2 TV2

SEMEP3

PV3 TV3

L’idée inhérente à notre approche est d’exploiter et d’analyser les instances des

différentes ontologies de processus vaccination que nous avons généré. Ces instances

représentent, dans la réalité, les différents enfants faisant partie du programme de vaccination.

Un alignement extensionnel à ce niveau nous permet de déceler les ensembles d’instances

communes aux différents SEMEP. C’est précisément cet ensemble d’instances communes qui

fera l’objet d’analyse car il peut déceler certains cas de perdus de vus. Par le biais des règles

d’association il est possible de déceler une certaine connaissance tacite et implicite que

peuvent exploiter les dirigeants des SEMEP pour marquer les cas d’abondons.

Prenons un échantillon de 12 individus appartenant à la base d’apprentissage construite

à partir de SEMEP1 d’Oran, SEMEP2 de Mostaganem et SEMEP3 d’Alger (Figure5-19).

A partir de là nous donnons la table des transactions suivante :

Tableau 5-5 : Table des Transactions

Le déroulement de l’algorithme 𝐺é𝑛è𝑟𝑒𝑇𝑎𝑏𝑙𝑒 sur notre table de transactions nous

donne les règles d’association du genre :

Une Règle Signification

Si NV1 Alors PV3 Un nouveau vacciné dans SEMEP1 continue ses contacts dans SEMEP3

Si PV1 Alors TV2 Un vacciné dans SEMEP1 termine sa vaccination dans SEMEP2

N° Transactions

1 E0101 NV1, PV2

2 E0202 NV1, PV3

3 E0406 TV1, PV2, NV3

4 E1258 TV1, TV2, TV3

5 E485 NV1, NV2, NV3

6 E3259 PV1, PV3

7 E845 TV1, NV2, PV3

8 E0125 PV1, PV2

9 E365 PV1, TV2, NV3

10 E0895 TV1, TV2, TV3

11 E01144 TV1, PV2, NV3

12 E6548 TV1, PV2, NV3

Figure 5-19 Extrait de l’Ontologie de Processus de

Vaccination

L’ensemble des règles générées constitue la nouvelle base de connaissances. Cette

dernière contient un ensemble important de règles dont beaucoup d’entre elles sont

redondantes et d’autres sans signification importante.

Les règles engendrées par la machine 𝐶𝐴𝑆𝐼 représentent les cas à étudier dans le PEV.

Une fois soumises à une expertise, des rapports peuvent être établis. Cette expertise pourrait

déduire les connaissances explicites suivantes :

Identifier les cas en cours (PV): Indiquer les enfants déjà enregistrés qui n’ont pas

encore reçu la totalité de leurs doses.

Calculer le taux de couverture. L’état vaccinal des enfants d’un groupe donné peut être

calculé automatiquement.

Identifier les retardataires. Les enfants, qui ont manqué une certaine dose de vaccins,

peuvent être facilement identifiés.

Avoir des taux de couverture plus précis.

Plus important encore, l’expertise pourrait déduire les connaissances implicites suivantes :

L’analyse des dossiers de vaccination révèle de manière plus détaillée les raisons pour

lesquelles certains enfants ne sont pas vaccinés, à quelle communauté appartiennent-

ils, et quelle est l’importance du rôle joué par des facteurs tels qu’un refus parental (les

raisons d’un refus de vaccination sont des instances du concept Raisons dans

l’ontologie de vaccination).

Assurer que tous les enfants soient vaccinés.

La gestion des stocks de vaccins et son utilisation

Prédire le nombre d’enfants à vacciner chaque mois, les quantités de vaccins à

distribuer, le stock de réserve et le stock minimum.

Nous avons montré dans cette partie que notre approche a permis de marquer les cas des

abondons de la vaccination pour un SEMEP donné à travers l’analyse et la fouille des

instances d’ontologies.

D’une manière générale, notre travail par rapport au projet PNR nous a permis de

restructurer toute la charpente informatique des SEMEP en proposant un nouveau système

dont le fonctionnement est beaucoup plus fluide qu’avant. Les principales améliorations

apportées sont :

Les données sur les nouveau-nés et les personnes les prenant en charge (généralement

les parents ou tuteurs) sont dorénavant enregistrées dans une base de données centrale.

Dès que les données sur les enfants sont introduites dans le système, un planning

(programme) des rendez-vous de vaccination à venir est établi. Lorsque les rendez-

vous approchent, les enfants sont automatiquement inclus dans le programme mensuel

dans la PMI à laquelle appartient l’enfant. Ceci évite aux infirmières la vérification de

leurs registres de vaccination pour trouver les enfants dont le rendez-vous de

vaccination approche.

Les infirmières peuvent alors utiliser le programme (planning) mensuel pour

organiser leur travail. Le programme mensuel calcule aussi le nombre total de doses

de vaccins nécessaires ; ces informations permettent aux infirmières de déterminer les

bonnes quantités de vaccins à commander.

Chaque fois que les enfants sont vaccinés, les infirmiers peuvent actualiser l’état

vaccinal directement dans le programme mensuel en remplissant la date de vaccination

et le lot de vaccin utilisé. Ainsi, les enfants qui déménagent à l’intérieur du territoire

peuvent être réaffectés à leur nouvelle PMI.

Le système génère non seulement des rapports de couverture, mais il est aussi capable

d’indiquer les enfants déjà enregistrés qui n’ont pas encore reçu la totalité de leurs

doses.

Les taux de couverture sont maintenant plus précis. Plus important encore, l’analyse

des dossiers de vaccination révèle de manière plus détaillée les raisons pour lesquelles

certains enfants ne sont pas vaccinés, à quelle commune appartiennent-ils.

5.7 Conclusion

Nous avons présenté dans ce chapitre notre nouvelle méthode d’alignement booléen de

plusieurs ontologies. Nous l’avons présenté comme une éventuelle solution au problème

d’alignement des données.

A travers un exemple d’illustration nous avons montré le fonctionnement de notre

approche. Cette dernière combine le paradigme des règles d’association à l’ingénierie des

connaissances. Nous avons montré combien cette union est possible et nous l’avons validé

non pas dans sa globalité mais plutôt par fonctionnalités. Ceci est dû au fait qu’aucune autre

approche similaire ne combine à la fois une modélisation booléenne, des règles d’association

et des ontologies. Pour ce fait, nous avons testé chaque axe séparément mais le résultat final

se réduit, toutefois, à une approbation satisfaisante. Sur le plan global, un réel système

adoptant notre approche a été implémenté au niveau du SEMEP et commence à germer ses

fruits.

CONCLUSION GENERALE &

PERSPECTIVES

Les travaux menés dans cette thèse s’insèrent dans l’intersection de trois domaines de

recherches que sont l’ingénierie des connaissances, la modélisation booléenne par automates

cellulaires et la fouille de données (datamining). Notre objectif a été de tirer profit,

premièrement, des travaux menés en ingénierie des connaissances notamment dans le

domaine de l’interopérabilité sémantique des connaissances dans le but d’aligner les

ontologies. Deuxièmement, des travaux en fouille de règles d’association pour enrichir

l’alignement intensionnel par un alignement extensionnel et troisièmement de la modélisation

booléenne par automates cellulaires pour réduire la complexité des algorithmes de fusion en

temps et en espace machine. Le résultat de nos travaux est la conception et la réalisation d’un

système cellulaire d’intégration des données hétérogènes par la fusion des ontologies.

Pour revenir sur nos principales contributions, nous avons déployé notre approche sur

un projet réel PNR dédié aux services SEMEP de la wilaya de Mostaganem. A partir des

différentes PMI nous avons généré des ontologies locales que nous avons complètement

fusionné par notre processus de fusion booléenne pour construire l’ontologie finale de fusion

appelée VaccinOnto (voir Annexe A). L’utilisation de la machine 𝐶𝐴𝑆𝐼 (Cellular Automata

for Symbolic Induction) nous a permis de concevoir un nouveau système cellulaire

d’intégration automatique des données guidée par la fusion booléenne des ontologies.

L’intégration par la modélisation booléenne est motivée par la structure du modèle de

données qui se présente sous forme de graphe OWL et facilite bien la génération automatique

du graphe de l’ontologie. Un avantage certain à cette modélisation est la réduction dans

l’espace de stockage de l’entrepôt de données et aussi dans le temps de calcul des requêtes

décisionnelles. Dans ce sens, nous avons montré que notre contribution, par rapport aux

systèmes d’intégration existants, peut apporter une réponse à la question de l’interopérabilité

des données hétérogènes que nous avons rencontrées au niveau des SEMEP et de surcroît un

réel passage à l’échelle holistique.

Nous avons montré que le fait d’utiliser la modélisation booléenne pour des fins

d’intégration des données était d’un double intérêt. D’abord la modélisation booléenne par

𝐶𝐴𝑆𝐼 nous a facilité l’implémentation de l’algorithme de fusion qui s’est réduit à deux

fonctions de transition contenant des multiplications matricielles et vectorielles. D’un autre

côté, nous avons bien souligné l’amélioration apportée quant à la complexité à laquelle se

heurtent les algorithmes classiques de fusion dès que le nombre et la taille des ontologies

augmentent. Nous avons montré comment les concepts liés aux automates cellulaires

pouvaient être appliqués à la notion des ontologies et comment ils pouvaient simuler leur

fusion automatique à large échelle. Mais le point innovant de cela est qu’il nous a été permis

de tester les capacités de la machine cellulaire 𝐶𝐴𝑆𝐼 sur un terrain qui lui a été jusque-là

inconnu ; l’ingénierie des connaissances. D’un point de vue dubitatif nous pouvons conclure

d’ores-et-déjà qu’elle apporte sa contribution et mérite que cette utilisation soit affinée par

CONCLUSION GENERALE & PERSPECTIVES

d’autres expériences approchantes telles que l’évolution des ontologies, leurs annotations et

pourquoi pas la gestion de leurs versions.

A travers cette thèse, nous avons eu un regard curieux sur cette notion de fusion,

tellement simple et compliquée en même temps. Simple parce qu’il est très facile, à première

vue, de rassembler plusieurs ontologies en une seule. C’est un peu comme si on mettait tout

dans un seul sac. Compliqué parce qu’il n’est pas simple de rassembler l’ensemble tout en

préservant les caractéristiques de tout à chacun. Combien même de travaux ont été rédigés

pour contribuer sur ce point, mais des questions restent encore en suspens (David, et al.,

2007) (Desprès & Szulman, 2007). Par notre tentative, nous espérons pouvoir apporter un

plus à ces contributions.

Mais pourquoi cette notion de « fusion » quel en est l’intérêt ? A l’heure du

décloisonnement des domaines de recherches, à la décentralisation de la connaissances le

besoin qu’ont les grandes classes d’applications à vouloir et à pouvoir fusionner et réutiliser

certaines ontologies spécifiques, appartenant soit au même domaine soit à des domaines

différents, pour construire des ontologies génériques devient incessant. A l’heure où le niveau

d’abstraction ayant monté, on peut imaginer que l’on converge vers un esprit prépondérant

qui est l’universalité de la connaissance et sa capitalisation au niveau du web sémantique.

Par rapport au processus d’alignement, partant du fait que plusieurs connaissances

peuvent prendre des représentations différentes, on trouve de nos jours plusieurs ontologies de

domaine pour un même champ d’application. Les techniques d’alignement représentent un

cadre général, dans lequel plusieurs ontologies peuvent être exploitées. Nous avons développé

un processus d’alignement qui détermine des liens entre les labels des concepts ainsi que leurs

extensions. Pour ce faire nous avons exploré les fondements de la fouille de données et utilisé

les règles d’association. C’est une idée encore jeune bien qu’elle date de 2007 par les travaux

de David (2007). Elle n’est pas exploitée en force car elle reste, comme même, une méthode

assez compliquée. Compliquée dans le sens où elle doit gérer à la fois, les problèmes

sémantiques d’un alignement et les problèmes de redondance dont souffrent les algorithmes

de génération des règles d’association.

Un alignement est l’expression d’un lien sémantique entre les concepts d’une ontologie.

Dans notre approche, le but consistait à analyser et à exploiter les instances attachées aux