departement d'informatique these
Post on 12-Dec-2021
8 Views
Preview:
TRANSCRIPT
DEPARTEMENT D'INFORMATIQUE
THESE
Présentée par
ABDELOUHAB Faw zia Zohra
Pour obtenir
LE DIPLOME DE DOCTORAT EN SCIENCES
Filière: Informatique
Spécialité: Informatique
Soutenue le : 05 / 04 /2017 à 10h à la bibliothèque de la faculté des Sciences
Exactes et Appliquées d’Oran1 Ahmed Ben Bella.
Devant les membres du jury :
Directeur de Thèse : B. ATMANI Professeur à l’Université d’Oran 1, Ahmed Ben Bella
Président : B. Beldjilali, Professeur à l’Université d’Oran 1, Ahmed Ben Bella
Examinateur : A. Amine, Professeur à l’Université de Saïda
Examinateur : A. Benyettou Professeur à l’Université Mohamed Boudiaf, USTO
Examinateur : K. Bouamrane Professeur à l’Université d’Oran 1, Ahmed Ben Bella
Examinateur : A. Rahmoun Professeur à Ecole Supérieure d’Informatique, SBA
CONCEPTION ET REALISATION D’UN SYSTEME CELLULAIRE
D’ALIMENTATION D’ENTREPOT DE DONNEES A PARTIR DES
SOURCES DE DONNEES HETEROGENES
A cœur vaillant rien d’impossible
A conscience tranquille tout est accessible
Quand il y a la soif d’apprendre
Tout vient à point à qui sait attendre
Quand il y a le souci de réaliser un dessein
Tout devient facile pour arriver à nos fins
Malgré les obstacles qui s’opposent
En dépit des difficultés qui s’interposent
Les études sont avant tout
Notre unique et seul atout
Ils représentent la lumière de notre existence
L’étoile brillante de notre réjouissance
Comme un vol de gerfauts hors du charnier natal
Nous partons ivres d’un rêve héroïque et brutal
Espérant des lendemains épiques
Un avenir glorieux et magique
Souhaitant que le fruit de nos efforts fournis
Jour et nuit, nous mènera vers le bonheur fleuri. Extrait du Net
Dédicaces
A l’Homme le plus important de ma vie,
l’Homme de référence qui depuis mes
premiers pas boiteux n’avais jamais cessé de
me guider, de me conseiller, avait toujours été
soucieux du moindre détail de ma vie autant
personnelle que professionnelle. Cette thèse
aurait été la consécration de tous ses efforts…
Je regrette tellement de ne pas l’avoir fini en
son vivant. Papa !!! Ton sourire, ta chaleur et
ton « je suis fier de toi ma fille » me manquent
tellement….
A la mémoire de ma sœur Fatiha
A ma mère
A mes enfants
A mes sœurs et leurs petites familles
A mon frère et sa petite famille
Remerciements
« L'homme n'est rien sans les autres »
Seydou BADIAN.
C'est pourquoi, je tiens à remercier tous ceux qui, par leurs conseils, leurs suggestions et leurs
disponibilités, ont contribué à l'aboutissement de ce travail de recherche. Mes remerciements
vont particulièrement à :
Monsieur le Professeur Atmani Baghdad, mon directeur de thèse, pour m’avoir fait confiance
en me proposant ce sujet, pour son soutien scientifique et méthodologique, pour nos
nombreuses discussions par téléphone ou par Skype, mais surtout pour sa patience et le temps
qu'il a consacré dans les phases de lecture, de correction et de régulation de mon mémoire. Je
lui adresse également un grand merci pour m’avoir supporté pendant mes moments les plus
durs. Il est évident que sans lui cette thèse n’aurait pas pu voir le jour et serait moins bien
présentée. Il m’a beaucoup appris. Qu’il trouve dans ces quelques mots l’expression de ma
gratitude.
Au-delà de la formalité d’usage, c’est avec un grand plaisir que je remercie, également, les
membres de mon jury à savoir:
Monsieur le Professeur Bouziane Beldjilali, mon maître que je respecte beaucoup, pour avoir
autrefois encadré mes travaux de magister et avoir aujourd’hui accepté de m’honorer par sa
présence et présider le jury.
Monsieur le Professeur Karim Bouamrane, pour avoir accepté de faire partie de mon jury,
pour la joie qu’il a eu lorsqu’il a appris que j’ai enfin fini cette thèse et pour toute la
compréhension sincère et discrète qu’il m’a témoigné depuis nos années d’études.
Messieurs le Professeur Abdelmalek Amine, le Professeur Abdelkader Benyettou et le
Professeur Abdelatif Rahmoun, pour avoir pris le temps de lire avec attention ma thèse et me
faire profiter de leurs remarques pertinentes et constructives.
Je tiens à remercier ma mère, cette dame douce et affable à la présence unique, qui malgré
mes difficultés d’enfance a su me donner l’amour nécessaire pour faire de moi une femme
adulte accomplie. Sa douceur, sa compassion et ses prières me guident à braver les déboires
de la vie. Qu’elle trouve ici toute la sincérité et la profondeur que ces mots ne sont pas
capables d’exprimer.
Je ne manque pas de remercier énormément mes enfants, mes joyaux et ma fortune, pour leur
soutien, leur compréhension et leur efficacité à gérer le quotidien seuls pour me libérer
surtout pendant la période de rédaction…Qu’ils trouvent dans ces lignes la promesse d’un
avenir meilleur.
Un grand merci à mes sœurs pour avoir trouvé le temps (ce qui n’est pas évident) d’écouter
mes jérémiades, de me venir en force dans les moments difficiles et de me soutenir. Merci à
mon frère qui a pris, d’une certaine manière, le flambeau paternel. Merci à Imène pour ses
talents de traductrice et de grande psychologue. Merci à mes nièces et mes neveux. Merci à
mes beaux-frères et à ma belle-sœur.
Qu’aurais-je fais sans la présence de ma sœur de cœur Khira Zineb. Nous avons tant partagé
ensemble peines et joies, fous rires et larmes mais nous avons surtout passé de bons moments
qui n’appartiennent qu’à nous.
Mes remerciements sincères s’orientent vers tous mes collègues du département Informatique
et particulièrement à Taghzout Noria, Hamdadou Djamila, Abdelkader Adla, Mokaddem
Mostéfa ainsi qu’à Benhacine Fatima Zohra. Aussi à mes voisines et sœurs Hammadi Fatima
et Wali Faiza.
Merci à notre regretté Houari (Lah yarhmah) pour l’homme généreux, serviable et souriant
qu’il avait été.
Succinctement, mais avec une profonde sincérité, je remercie le Professeur Layadi Khaled,
médecin spécialiste en médecine physique et réadaptation fonctionnelle au CHU d’Oran, pour
m’avoir présenté à son équipe de médecins et m’avoir fait découvrir un nouveau monde de
compétences et d’altruismes qui est le monde de l’Ethique médicale. Son enthousiasme, son
courage et sa persévérance ont influé ma vision sur l’accomplissement de ma thèse. J’espère
avoir toujours autant de volonté que lui pour mener mes recherches futures.
En rédigeant ces remerciement je me rends compte, aujourd’hui, à quel point je suis comblée
de vous avoir tous autour de moi. C’est vrai que la vie m’a donné des coups, mais m’a donné
aussi des bonbons pour me consoler….
Merci…
Résumé
Dans le cadre de l’ingénierie des connaissances et plus précisément dans l’intégration des
données hétérogènes par ontologies, notre approche tente d’apporter une contribution au
problème de l’interopérabilité sémantique des données hétérogènes. L’accent est mis sur le
processus d’intégration de différentes sources hétérogènes. Nous avons développé la
problématique de notre travail autour d’un projet de recherche national où il était question de
mettre en place une architecture orientée service pour le programme élargi de vaccination des
services épidémiologiques et de médecine préventive (SEMEP). Notre contribution se
focalise, essentiellement sur l’intégration des données hétérogènes que manipulent les
SEMEP via des ontologies locales pour lever le voile sur l’hétérogénéité structurelle et
sémantique des données. La problématique d'intégration, de modélisation, de structuration et
d'extraction de connaissances à partir de données complexes nécessite une méthodologie et
des outils génériques adaptés.
D’un autre côté, des automates cellulaires se présentant comme des machines capables de
s’auto-reproduire dont le modèle de calcul se fonde sur l'utilisation d'un espace discret dans
lequel des fonctions simples de transition permettent d'obtenir un comportement global
complexe. En effet, malgré la simplicité des règles qui les définissent, ils font apparaître de
nombreux phénomènes imprévisibles, qui sont a priori difficilement obtenues par des
méthodes analytiques classiques. L’idée d’utiliser le formalisme puisant des automates
cellulaires pour résoudre le problème d’intégration dans les entrepôts de données, représente
l’ossature de cette thèse. Ceci se traduit par l’exploitation du principe de base du système
cellulaire 𝐶𝐴𝑆𝐼 (Cellular Automata for Symbolic Induction) (Atmani & Beldjilali, 2007) pour
proposer un nouveau système cellulaire pour l’alimentation des entrepôts à partir de sources
hétérogènes. Cet objectif est réalisé en deux temps. En premier lieu la réalisation d’un
système d’intégration par la fusion des ontologies de domaines sous la garantie de la machine
cellulaire. Cette dernière nous offre un moyen simple pour minimiser la complexité en temps
et en espace de l’algorithme de fusion par l’utilisation de la modélisation booléenne des
ontologies à fusionner. Ce point est très important puisqu’il nous facilite le passage à échelle.
En deuxième lieu nous avons exploré une autre voie de recherche le datamining pour
mettre en œuvre une nouvelle technique d’alignement extensionnel des ontologies basée sur la
modélisation booléenne 𝐶𝐴𝑆𝐼. Nous exploitons le paradigme des règles d’association pour
extraire des correspondances entre les ontologies à partir du vocabulaire utilisé dans les
descriptions de leurs instances. L’idée sous-jacente à notre approche est que deux concepts 𝑐1
et 𝑐2, appartenant à deux ontologies 𝑂1 et 𝑂2 respectivement, sont en relation d’implication
ou d’équivalence si le vocabulaire utilisé dans les descriptions et les instances de 𝑐1, a
tendance à être inclus dans celui de 𝑐2.
Mots Clés : Intégration des données, Interopérabilité sémantique des données, Les ontologies,
La fusion des ontologies, Alignement des ontologies, Les règles d’association, La machine
cellulaire 𝐶𝐴𝑆𝐼.
Abstract
Our study focus on the heterogeneous data integration by ontology which is a composant
of the engineering knowledge, our approach offers a solution for the semantic interoperability
of heterogeneous data. We focus on the integration process of different heterogeneous
sources. We developed and applied our work on a national research project where a service-
oriented architecture was proposed for the expanded epidemiological and preventive medicine
immunization program (SEMEP). Our contribution focuses mainly on the integration of the
heterogeneous data manipulated by the SEMEPs through local ontologies to highlight the
structural and semantic heterogeneity of the data. The integration, modeling, structuring and
extraction of knowledge from complex data requires adapted generic methodology and tools.
On the other hand, cellular automata can be presented as self-reproducing machines with
a calculation model based on the use of a small space in which simple transitional functions
allow to obtain a global behavior complex. Indeed, despite the simplicity of the rules that
define them, they reveal many unpredictable phenomena, which seem difficult to be obtained
by classical analytical methods. The idea of using the formalism of cellular automata to solve
the problem of integration in data warehouses represents the framework of this thesis is built.
This is reflected in the basic principle of the Cellular 𝐶𝐴𝑆𝐼 (Cellular Automata for Symbolic
Induction) (Atmani & Beldjilali, 2007) to propose a new cellular system for feeding
warehouses from heterogeneous sources. This objective is achieved in two stages. First, the
realization of an integration system by the fusion of ontologies of domains under the
guarantee of the cellular machine, that offer us a simple way to minimize the complexity in
time and space of the fusion algorithm by using a Boolean modelization of the ontologies to
be merged. This point is very important since it facilitates the scaling.
Secondly we explored an alternative way of research using the datamining to implement a
new technique of extensional ontology alignment based on Boolean modeling 𝐶𝐴𝑆𝐼. The
paradigm of association rules is used to extract correspondences between ontologies starting
from the vocabulary used in the instances descriptions. The underlying idea of our approach is
that two concepts 𝑐1 and 𝑐2, belonging to two ontologies 𝑂1 and 𝑂2 respectively, are in
relation of implication or equivalence if the vocabulary used in the descriptions and the
instances of 𝑐1, tends to be included in those of 𝑐2.
Keywords: Data Integration, Data Semantic Interoperability, ontologies, ontology fusion,
alignment of ontologies, association rules, cellular machine 𝐶𝐴𝑆𝐼.
F.Z. Abdelouhab Page 8
SOMMAIRE
Liste des Figures ......................................................................................................................... 12
INTRODUCTION GENERALE ......................................................................................................... 14
1. Contexte de la thèse ...................................................................................................................... 14
2. Problématique ............................................................................................................................... 16
3. Objectifs ......................................................................................................................................... 18
4. Contributions de la thèse .............................................................................................................. 19
5. Organisation de la thèse ................................................................................................................ 20
Chapitre 1 : Fondements des Ontologies ..................................................................................... 23
1.1 Quelques définitions ................................................................................................................... 23
1.1.1 Définition philosophique ...................................................................................................... 24
1.1.2 Définition informatique ........................................................................................................ 24
1.1.3 Définition littéraire ............................................................................................................... 25
1.1.4 Définition Formelle ............................................................................................................... 25
1.2 Les Constituants d’une Ontologie ............................................................................................... 26
1.2.1 Concepts ............................................................................................................................... 26
1.2.2 Les Relations ......................................................................................................................... 27
1.2.3 Les fonctions ......................................................................................................................... 28
1.2.4 Les axiomes .......................................................................................................................... 28
1.2.5 Instances ............................................................................................................................... 29
1.3 L’intérêt d’une ontologie ............................................................................................................. 29
1.4 Construction des ontologies ........................................................................................................ 31
1.4.1 Les Principes ......................................................................................................................... 31
1.4.2 Les Méthodologies ............................................................................................................... 32
1.4.3 Les Outils .............................................................................................................................. 35
1.5 Langages et plates-formes pour les ontologies ........................................................................... 35
1.6 La classification des ontologies ................................................................................................... 37
1.6.1 Classification selon l’objet de conceptualisation ................................................................. 37
1.6.2 Classification selon le niveau de détail ou de granularité .................................................... 40
SOMMAIRE
F.Z Abdelouhab Page 9
1.6.3 Classification selon le formalisme de représentation .......................................................... 41
1.6.4 Classification selon le niveau de complétude ...................................................................... 41
1.6.5 Classification selon la richesse de la structure interne ........................................................ 42
1.7 Apports des ontologies ................................................................................................................ 43
1.8 Problématique des ontologies .................................................................................................... 44
1.9 Conclusion ................................................................................................................................... 45
Chapitre2 : Intégration des données par fusion des Ontologies .................................................... 47
2.1 Intégration des données du Web ................................................................................................ 49
2.1.1 Intégration de données ........................................................................................................ 50
2.1.2 Intégration des applications ................................................................................................. 50
2.1.3 Intégration des processus .................................................................................................... 50
2.2 Intégration des données via des ontologies ................................................................................ 50
2.3 Composants théoriques de l'intégration ..................................................................................... 52
2.4 Hétérogénéité des données ........................................................................................................ 53
2.5 Interopérabilité des données ...................................................................................................... 54
2.6 Interopérabilité sémantique ....................................................................................................... 57
2.6.1 Techniques pour l’interopérabilité sémantique ................................................................... 57
2.7 La fusion d’ontologies ................................................................................................................. 58
2.7.1 Les méthodes de fusion d’ontologies ................................................................................... 58
2.7.2 Les approches de Fusion ...................................................................................................... 59
2.7.3 Réutilisation des ontologies ................................................................................................. 64
2.8 Conclusion ................................................................................................................................... 65
Chapitre3 : Mises en correspondance des ontologies ................................................................... 67
3.1 Définition de l’Alignement .......................................................................................................... 67
3.1.1 Terminologies (Klein, 2001) ................................................................................................. 67
3.1.2 Le processus d’alignement ................................................................................................... 68
3.1.3 Extraction de l’alignement ................................................................................................... 69
3.2 Alignement des ontologies .......................................................................................................... 70
3.2.1 Domaine d’application de l’alignement des ontologies ....................................................... 70
3.2.2 Les approches d’alignement des ontologies ........................................................................ 72
SOMMAIRE
F.Z Abdelouhab Page 10
3.2.2 Les méthodes de calcul de similarité ................................................................................... 73
3.2.3 La classification des méthodes de Matching ........................................................................ 73
3.2.4 Les stratégies de combinaison de Matchers ........................................................................ 75
3. 2.5. Les outils d’alignement des ontologies .............................................................................. 78
3.2.6 Les Frameworks d’alignement d’ontologies ......................................................................... 79
3.2.7 Comparaison des différents outils et Frameworks .............................................................. 80
3.3 Alignement extensionnel des ontologies .................................................................................... 81
3.3.1 Alignement Extensionnel des Ontologies : Etat de l’Art ...................................................... 81
3.3.2 Alignement extensionnel : Règles d’association .................................................................. 82
3.4 Alignement des ontologies et le passage à l’échelle ................................................................... 83
3.4.1 Alignement pair-wise............................................................................................................ 83
3.4.2 Alignement holistique .......................................................................................................... 86
3.5 Conclusion ................................................................................................................................... 87
Chapitre4 : Une approche cellulaire d’intégration ........................................................................ 90
4.1 La machine cellulaire 𝑪𝑨𝑺𝑰 ......................................................................................................... 90
4.1.1 Configuration de la machine 𝑪𝑨𝑺𝑰 ...................................................................................... 93
4.1.2 La dynamique de la machine 𝑪𝑨𝑺𝑰 ...................................................................................... 94
4.2 L’approche proposée ................................................................................................................... 95
4.2.1 Phase1 : Génération des ontologies ..................................................................................... 96
4.2.1.1 Règle de construction de classes .................................................................... 100
4.2.1.2 Règles de Construction de Propriétés ............................................................. 101
4.2.1.3 Règle de Construction de Relation d’Héritage ............................................... 102
4.2.1.4 Règles de Construction des Axiomes ............................................................ 102
4.2.1.5 Règles de Construction des Instances ........................................................... 104
4.2.2 Phase2 : Alignement des ontologies ................................................................................. 105
4.2.2.1 Alignement structurel ..................................................................................... 106
4.2.2.2 Alignement extensionnel ................................................................................ 108
4.2.3 Phase3 : La fusion des ontologies ....................................................................................... 109
4.2.4 Phase 4 : Stockage booléen ................................................................................................ 109
4.3 La fusion booléenne des ontologies .......................................................................................... 110
4.3.1 Modélisation booléenne d’une ontologie .......................................................................... 110
4.3.2 Inférence booléenne de l’ontologie ................................................................................... 114
SOMMAIRE
F.Z Abdelouhab Page 11
4.3.3 Génération de l’ontologie finale ........................................................................................ 117
4.3.4 Formalisation de l’ontologie booléenne ............................................................................ 118
4.4 Discussion .................................................................................................................................. 119
4.4.1 Discussion sur le 1er point ................................................................................................... 119
4.4.2 Discussion sur le 2ème point ................................................................................................ 119
4.4.3 Discussion sur le 3ème point ................................................................................................ 120
4.5 Conclusion ................................................................................................................................. 121
Chapitre5 : Alignement extensionnel des ontologies par les règles d’association ......................... 124
5.1 Exemple d’illustration ................................................................................................................ 124
5.2 Formalisation de l’ontologie contextualisée ............................................................................. 126
5.3 Les difficultés d’alignement des ontologies .............................................................................. 128
5.4 L’approche proposée ................................................................................................................. 129
5.4.1 Génération de la base d’instance ....................................................................................... 132
5.4.3 Le Mapping booléen ........................................................................................................... 134
5.4.4 Interprétation des Résultats ........................................................................................ 134
5.4.5 Génération de l’Ontologie Finale ....................................................................................... 135
5.4.6 Stockage de l’ontologie finale ............................................................................................ 136
5.5 Expérimentation ........................................................................................................................ 137
5.5.1 En tant que système cellulaire ........................................................................................... 138
5.5.2 En tant que système de Matching ...................................................................................... 138
5.5.3 En tant que système d'extraction des règles d'association ............................................... 139
5.5.4 En tant que système de fusion holistique .......................................................................... 140
5.6 Expérimentation de l’approche dans la vaccination ................................................................. 141
5.6.1 La mission des SEMEP ........................................................................................................ 142
5.6.2 Le Processus de Vaccination ............................................................................................... 142
5.7 Conclusion ................................................................................................................................. 147
CONCLUSION GENERALE & PERSPECTIVES .................................................................................. 148
Annexe A : Ontologie de Vaccination ......................................................................................... 152
Références ................................................................................................................................ 159
F.Z. Abdelouhab Page 12
Liste des Figures
FIGURE 1-1 CADRE D’ANALYSE DES METHODOLOGIES RECENSEES (PSYCHE, ET AL., 2004) .................................. 34
FIGURE 1-2: TYPOLOGIES D’ONTOLOGIES SELON QUATRE DIMENSIONS DE CLASSIFICATION ................................. 37
FIGURE 1-3: CLASSIFICATION SELON L’OBJET DE CONCEPTUALISATION (PSYCHE, ET AL., 2004) .......................... 38
FIGURE 1-4: CLASSIFICATION SELON LE NIVEAU DE GRANULARITE (PSYCHE, ET AL., 2004) ................................. 40
FIGURE 1-5: CLASSIFICATION SELON LE FORMALISME DE REPRESENTATION (PSYCHE, ET AL., 2004) ................... 41
FIGURE 1-6: CLASSIFICATION SELON LE NIVEAU DE COMPLETUDE (PSYCHE, ET AL., 2004) .................................. 42
FIGURE 1-7: CLASSIFICATION SELON LA STRUCTURE INTERNE............................................................................... 43
FIGURE 2-1 ORGANIGRAMME DU SEMEP (BRAHAMI, 2014) ............................................................................... 47
FIGURE 2-2 LES APPROCHES D’INTEROPERABILITE SEMANTIQUE ........................................................................... 56
FIGURE 3-1 LE PROCESSUS D’ALIGNEMENT ........................................................................................................... 69
FIGURE 3-2 ARCHITECTURE DES APPLICATIONS D’ALIGNEMENT ........................................................................... 70
FIGURE 3-3 CLASSIFICATION DES MATCHERS ........................................................................................................ 74
FIGURE 3-4 CLASSIFICATION DES APPROCHES DE MATCHING ................................................................................ 76
FIGURE 3-5 COMPOSITION SEQUENTIELLE DES MATCHERS COMPOSITION SEQUENTIELLE DES MATCHERS 78
FIGURE 4-1 PASSAGE DE LA CONFIGURATION G0 A LA CONFIGURATION G1 .......................................................... 95
FIGURE 4-2 ARCHITECTURE GENERALE DU PROJET ................................................................................................ 96
FIGURE 4-3 INTERFACE DE L’OUTIL DE GENERATION D’ONTOLOGIE A PARTIR ....................................................... 99
FIGURE 4-4 LE MODELE CONCEPTUEL DE LA BASE DE DONNEES VACCINATION .................................................... 100
FIGURE 4-5 GENERATION DES CLASSES A PARTIR DES RELATIONS ...................................................................... 101
FIGURE 4-6 CONSTRUCTION DES PROPRIETES D’OBJET ........................................................................................ 101
FIGURE 4-7 CONSTRUCTION DES PROPRIETES DE DONNEE ................................................................................... 102
FIGURE 4-8 CONSTRUCTION DES AXIOMES DES CLES ........................................................................................... 102
FIGURE 4-9 CONSTRUCTION DES AXIOMES DES ATTRIBUTS « NOT-NULL » ...................................................... 103
FIGURE 4-10 CONSTRUCTION DES AXIOMES DES ATTRIBUTS « UNIQUE » ......................................................... 103
FIGURE 4-11 CONSTRUCTION DES INSTANCES ..................................................................................................... 104
FIGURE 4-12 L’ONTOLOGIE GENEREE A PARTIR DE LA BASE DE DONNEES VACCINATION ..................................... 105
FIGURE 4-13 EXEMPLE DE TROIS ONTOLOGIES .................................................................................................... 106
FIGURE 4-14 ENRICHISSEMENT SEMANTIQUE ...................................................................................................... 108
FIGURE 4-15 LA FUSION CELLULAIRE .................................................................................................................. 110
FIGURE 4-16 LA BASE DE REGLES LA BASE DE FAITS .................................................................................... 112
FIGURE 4-17 REPRESENTATION BOOLEENNE DE LA MATRICE 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 ............................................................. 112
FIGURE 4-18 REPRESENTATION BOOLEENNE DE LA MATRICE 𝐶𝐸𝐿𝑅𝑈𝐿𝐸 ........................................................... 113
FIGURE 4-19 MATRICE D’ENTREE RE .................................................................................................................. 113
FIGURE 4-20 MATRICE DE SORTIE RS .................................................................................................................. 114
FIGURE 4-21 GRAPHE DE L'ONTOLOGIE FINALE ................................................................................................... 117
FIGURE 5-1 CLASSIFICATION DES VACCINS SELON LEURS TYPES D'ORGANISME ................................................... 127
FIGURE 5-2 CLASSIFICATION DES VACCINS SELON LEURS TYPES DE RECOMMANDATION ..................................... 127
FIGURE 5-3 CLASSIFICATION DES VACCINS SELON LEURS TYPES DE PREPARATION .............................................. 127
Liste des Figures
F.Z Abdelouhab Page 13
FIGURE 5-4 ONTOLOGIE DES VACCINS CONTEXTUALISEE .................................................................................. 126
FIGURE 5-5 PROCESSUS D’ALIGNEMENT DE NOTRE APPROCHE ............................................................................ 129
FIGURE 5-6 ONTOLOGIES CONTEXTUALISEES ...................................................................................................... 130
FIGURE 5-7 LES ONTOLOGIES PARTAGENT LE MEME ENSEMBLE D’INSTANCES..................................................... 131
FIGURE 5-8 BASE D’APPRENTISSAGE (TABLE DES TRANSACTIONS) ..................................................................... 132
FIGURE 5-9 BASE DE CONNAISSANCES GENEREE A PARTIR DES REGLES D’ASSOCIATION ..................................... 134
FIGURE 5-10 SCHEMATISATION DU RESULTAT DU MATCHING ............................................................................. 135
FIGURE 5-11 ONTOLOGIE GLOBALE DE FUSION DES TROIS CLASSIFICATIONS ....................................................... 136
FIGURE 5-12 SCHEMA EN ETOILE DE L’ENTREPOT DE DONNEES ........................................................................... 136
FIGURE 5-13 REPRESENTATION PHYSIQUE DE L’ENTREPOT .................................................................................. 137
FIGURE 5-14 REPRESENTATION BOOLEENNE DE NOTRE ONTOLOGIE .................................................................... 137
FIGURE 5-15 DIAGRAMME D’ETAT-TRANSITION .................................................................................................. 142
FIGURE 5-16 PROCESSUS DE LA COUVERTURE VACCINALE ................................................................................. 143
FIGURE 5-17 ONTOLOGIE VACCINATION DONNEE PAR PROTEGE3.1 .................................................................... 144
FIGURE 5-18 ONTOLOGIE DE PROCESSUS ASSOCIEE A L’ONTOLOGIE DE DOMAINE DE VACCINATION ................. 144
FIGURE 5-19 EXTRAIT DE L’ONTOLOGIE DE PROCESSUS DE VACCINATION ......................................................... 145
F.Z. Abdelouhab Page 14
INTRODUCTION GENERALE
1. Contexte de la thèse
Depuis une vingtaine d’années, l’accès aux connaissances médicales est un enjeu majeur
pour les professionnels de la santé comme pour le grand public. Face à la multiplication des
sources d’informations potentiellement accessibles et face à l’augmentation vertigineuse de la
production textuelle, les limites actuelles des outils de traitement de l’information ne
proviennent pas de leurs performances pour stocker et traiter rapidement des gros volumes,
mais de leur incapacité à prendre en compte les spécificités des vocabulaires métiers des
utilisateurs (Baneyx, 2007). Nous nous sommes penchées sur cette question en participant au
projet national PNR1 intitulé architecture orientée service pour le programme élargi de
vaccination développé au sein de l’équipe AIR « Apprentissage automatique, Intelligence
artificielle et Raisonnement » du laboratoire d’Informatique d’Oran (LIO) auquel je fais
partie. L’idée principale du projet PNR est la conception et la réalisation d'une Architecture
Orientée Service (SOA) pour répondre à une intégration efficace faisant coexister et coopérer
plusieurs processus métiers afin d’automatiser le Programme Elargi de Vaccination (PEV) et
avoir en permanence disponibles toutes les données de vaccination pour une meilleure
exploitation par les Services d’Epidémiologie et de MEdecine Préventive (SEMEP) de
l’Algérie.
Le SEMEP, se défini comme un centre médical qui coordonne, entre autre, des Unité de
la Protection Maternelle et Infantile (PMI) sur une circonférence englobant plusieurs wilayas.
Celles-ci représentent les points d’accueils des individus pour les vaccinations, le suivi
médical etc… Dans ce sens, elles représentent pour le SEMEP ses principales sources
d’information (ou même des systèmes d’information) dont il a besoin pour ses éventuelles
prises de décisions. La qualité de la décision qu’elle soit collaborative et/ou coopérative
dépend de la qualité des interactions entre les différentes PMI et le SEMEP.
Des efforts considérables sont, continuellement, déployés par les SEMEP, afin de lutter
contre certaines maladies dévastatrices et ceci, par la mise en place du PEV. Les objectifs de
ce dernier sont dirigés vers (1) une augmentation de la couverture vaccinale, (2) la réduction
du poids de certaines maladies (éradiquer la poliomyélite, éliminer la rougeole, contrôler le
tétanos néonatal etc…) (3) la sécurité des vaccinations, la pérennité des programmes, la
vaccination individuelle, dite de routine, fondée sur un calendrier de vaccination précis et
enfin, la vaccination de porte à porte qui permet aux populations isolées, d’accessibilité faible
aux structures de soins, de bénéficier des avantages de la vaccination.
Cependant, l’Algérie d’aujourd’hui est bien loin de celle des années 60. La population a
multiplié de volume et se répand sur un territoire bien plus grand ce qui n’est pas sans poser
des problèmes au niveau du SEMEP pour causes sociodémographiques et socioéconomiques
telles que :
1 http://www.cerist.dz/doc/PNR/tic/Une_architecture_orientee_service_programme_elargi_vaccination.pdf
INTRODUCTION GENERALE
F.Z Abdelouhab Page 15
le découpage géostratégique du territoire donne naissance à des régions rurales très
éloignées et difficile d’accès.
le développement socioprofessionnel au niveau des grandes villes provoque un exode
permanent et important de la population rendant difficile de suivre la trace médicale
d’une personne. C’est un problème courant connu sous le nom « des perdus de vus ».
la présence des ressources informatiques révolues ne répondant plus à la croissance
permanente de la population et aux besoins précis des utilisateurs.
D’un autre côté, la vaccination en Algérie est un processus assez complexe mettant en
collaboration plusieurs types d’intervenants et plusieurs systèmes difficile à se synchroniser,
en commençant par les services de la wilaya jusqu’aux services publiques de la santé. Pour
cela, le SEMEP se doit de coordonner les différents systèmes d’informations sous-jacents à
tous les services participant à cette vaccination. Ce processus, passe par l’historique vaccinal,
consulte l’approvisionnement en vaccin, utilise la géolocalisation, influence l’épidémiologie
etc… autant de systèmes et de services pour progresser vers une qualité de vaccination. Telle
une réaction en chaine, il est évident que la réussite de la vaccination, dont dépend celle du
PEV, reste étroitement liée à la qualité de la coordination et du taux d’implication de chaque
sous-système y participant.
Tous ces facteurs rendent les données de vaccination incohérentes et compromettantes
aux programmes de vaccination. Pour ce fait, notre projet a comme objectif d’améliorer, déjà,
la communication inter-PMI d’un côté et entre les PMI et le SEMEP d’un autre côté. L’enjeu
est donc de développer des outils logiciels facilitant l’interopérabilité entre ces systèmes
d’informations pour faciliter aussi bien l’échange et l’accès aux informations distantes qu’aux
informations locales par des agents humains et des machines en temps réel. D’un autre côté, le
SEMEP doit disposer, entre autre, d’une vue complète sur le carnet vaccinal de tout individu.
Le carnet vaccinal ou de vaccination est un document acquis dès la naissance
rassemblant l’information sur tous les vaccins reçus par une personne. Au fil des ans, les
individus changent de localité soit inter-commune ou même inter-wilaya pour des raisons
professionnelles, sociales ou autres. On supposant que cette personne, respectant fidèlement le
programme de vaccination, se vaccine donc régulièrement. Au bout d’un temps son carnet
vaccinal va contenir des données se retrouvant dans autant de sites physiques que
d’établissements où cette personne a été vaccinée; cela empêche donc le vaccinateur ainsi que
la personne elle-même d’avoir une vue complète sur son carnet vaccinal.
Dans ce contexte, l’interopérabilité et l’intégration des sources de données deviennent,
alors, pour le SEMEP, des solutions triviales afin de pouvoir réussir son PEV et de satisfaire
les besoins des enfants à vacciner. Tout ceci permet de renforcer son système de
vaccinovigilance et de guider de façon efficace les activités des PEV. Utiliser une banque de
données au lieu du carnet de vaccination, par exemple, peut être utile pour établir une
traçabilité vaccinale d’une personne, identifier les personnes qui ont besoin d’un vaccin et
calculer les taux de vaccination selon une région géographique, d’un groupe d’âge en
particulier ou d’autres caractéristiques. En d’autres termes, une banque de données vaccinales
serait l’élément clé d’un véritable système décisionnel (Mbaiossoum, et al., 2013).
Comme nous l’avons souligné plus haut, les différentes PMI doivent coopérer ensemble
pour une meilleure prestation de vaccination. Pour cela, il est nécessaire de s’intéresser à
INTRODUCTION GENERALE
F.Z Abdelouhab Page 16
l’interopérabilité de leurs systèmes d’information afin d’assurer une mutation des carnets de
vaccination et de réduire les différents coûts du PEV. Dans la pratique, ceci se traduit par la
réalisation d’une plateforme de suivi, évolutive, pouvant intégrer les connaissances relatives
aux différentes PMIs. Ces connaissances et les ressources utilisées, étant forcément
hétérogènes, rendent leur compréhension et leur analyse très difficile. La préservation du sens
de l’information échangée est alors un problème important. C’est ce que l’on appelle
l’interopérabilité sémantique (Hajjam, 2013). La prise en compte de cette sémantique permet
aux différentes PMI ainsi qu’au SEMEP de combiner les informations reçues avec des
informations locales et de traiter l’ensemble de manière cohérente.
Les bases de données relationnelles demeurent, certes, le moyen le plus populaire pour
stocker, rechercher et manipuler des données. Cependant, la structure et les contraintes
d’intégrités du modèle relationnel sont définies sur des schémas qui ne s’apprêtent pas
directement à une intégration (Muller, 1998). Pour garantir l’interopérabilité sémantique,
l’information échangée entre systèmes doit d’abord être décrite dans une structure formelle
permettant de préserver sa sémantique. C’est un problème récurrent dans le domaine de
l’ingénierie des connaissances, où des méthodologies et des techniques sont proposées pour
percevoir, identifier, analyser, organiser et partager des connaissances entre différentes
entités. Parmi ces techniques, les ontologies qui connaissent une évolution fulgurante depuis
une dizaine d’années et qui apparaissent comme le moyen efficace pour la représentation des
connaissances et leurs sémantiques (Bellatreche, et al., 2006). L’objectif étant de représenter
les connaissances du SEMEP et de les manipuler automatiquement, tout en gardant leurs
sémantiques. L’utilisation des ontologies dans le projet PNR est plus que nécessaire
puisqu’elles garantissent l'interopérabilité des différentes sources de données (Hajjam, 2013).
Pour ce faire, il nous a fallu restructurer les bases de données locales au niveau des PMI
en ontologies pour soutenir la sémantique des données et homogénéiser le vocabulaire utilisé
ainsi que la prise en compte de l’hétérogénéité des connaissances dans un domaine en pleine
expansion tel que la vaccination.
2. Problématique
Vu le contexte pluridisciplinaire dans lequel nous avons développé notre thèse, sa
problématique se trouve au cœur de nombreuses thématiques de recherche comme
l’intégration des données, la mise en correspondance des ontologies ou encore
l’interrogation des données hétérogènes.
Dans le cadre de l’intégration des données, l’utilisation des ontologies apporte la
solution escomptée. Dans notre cas d’étude, utiliser des ontologies au niveau du SEMEP est
d’un intérêt triple : (1) les ontologies permettent aux agents du SEMEP et des PMI d'organiser
leurs informations en taxonomie des concepts en utilisant des termes partagés, chacune avec
leurs attributs, et décrivant des relations entre ces concepts. (2) Quand des données sont
présentées ou annotées par des ontologies, les logiciels peuvent mieux comprendre leurs
sémantiques en fournissant des notions précises qui peuvent être employées pour composer et
échanger des messages (questions, réponses etc…). Et en (3) les ontologies facilitent la
localisation des données et leur intégration au sein d’un système unique d’entrepôt de données
pour d’éventuels objectifs décisionnels divers.
INTRODUCTION GENERALE
F.Z Abdelouhab Page 17
Cependant, créer une ontologie universelle ou globale au niveau des différentes PMI est
pratiquement impossible vu l’hétérogénéité et la complexité des systèmes d’informations
existants. Nous avons donc généré automatiquement des ontologies à partir des bases de
données relationnelles. Vu la nature décentralisée des PMI, nous nous sommes, donc,
retrouvés avec plusieurs ontologies modulaires produites indépendamment mais que le
SEMEP aura inévitablement besoin d’assembler, d’échanger et de partager. D’où l’utilité de
fusionner toutes ces ontologies locales pour intégrer les données au sein d’un entrepôt de
données (la banque de données vaccinales) tout en gardant leurs sémantiques. De cette utilité
sont apparues les problématiques de l’interopérabilité et de l’intégration des données
auxquelles nous avons été confrontés et que nous avons tenté de résoudre à travers les
contributions de cette thèse.
L’interopérabilité représente la capacité qu’ont deux ou plusieurs composants qu’ils
soient, des applications, des sources de données, des services ou même des processus métiers,
de communiquer et de coopérer en dépit de leurs modèles de conception et d’abstraction.
Quant à l’intégration de plusieurs sources d’information ou de plusieurs services mène à
combiner ces différentes sources ou ces différents services de manière à ce qu’ils forment une
vue uniforme pour les utilisateurs, leur donnant l’illusion de n’interagir qu’avec un seul
système. Il s’agit, donc, d’un objectif à atteindre afin de bénéficier d’un ensemble de données
interopérables et de plusieurs bases de données intégrées. Les problématiques et les tentatives
d’amélioration de l'interopérabilité du système de vaccination comptent donc sur la
réconciliation des différentes ontologies des PMI contenant des terminologies différentes,
redondantes ou complémentaires. Cette réconciliation est réalisée par l'intégration
automatique des ontologies. L’ontologie finale, obtenue par la fusion des ontologies locales,
représentera une spécification formelle et explicite d’une conceptualisation partagée, formant
ainsi le système d’information global du SEMEP.
Par ailleurs, pour intégrer les données des différentes ontologies distinctes, il faudrait,
d’abord, connaître les liens sémantiques qui relient leurs éléments et les faire correspondre.
On parle alors d’alignement des ontologies ou Matching (Euzenat, et al., 2013) qui, selon
(Bouzeghoub, et al., 2008), est un des éléments fondamentaux du processus d'intégration
d'ontologies. Il permet d’analyser et de comparer des ontologies pour déterminer les
correspondances entre leurs concepts avant de les fusionner. Nous pouvons observer que,
quelque soit, l’opération effectuée pour assurer l’interopérabilité des ontologies, la découverte
des correspondances entre les différents éléments des ontologies reste une étape fondamentale
voir indispensable dans ce processus d’interopérabilité. Le résultat du processus d’alignement
est un ensemble de liens de correspondances que nous employons pour détecter les points de
fusion entre les ontologies locales des PMI.
La fusion des ontologies se voit de plus en plus importante et fréquente dans les
recherches actuelles vu l’apport qu’elle offre à construire, à moindre coûts, des ontologies
génériques à partir des ontologies partielles et à les adapter aux nouvelles exigences des
besoins évolutifs des connaissances (Desprès & Szulman, 2007). Elle est reconnue comme
étant une opération essentielle intervenant à plusieurs niveaux de l'ingénierie des ontologies
incluant l'intégration de plusieurs modules assurant ainsi l’interopérabilité entre les systèmes,
la réutilisabilité et le partage des connaissances (Kaisi, 2014).
Cette fusion est déclenchée, également, suite à un besoin qui pourrait nécessiter
l'intégration de plusieurs ontologies modélisant les différentes parties d'un domaine. Dans le
INTRODUCTION GENERALE
F.Z Abdelouhab Page 18
domaine médical, par exemple, alors que nous n’arrivons à construire des ontologies que par
domaines de spécialité, on peut imaginer que les grandes catégories des objets médicaux et du
raisonnement médical traversent toute la médecine. L’attendue de l’universalité scientifique
d’aujourd’hui converge vers l’idée que la connaissance intrinsèque est elle-même un
processus incrémental de connaissances englobantes et généralisées. A l’heure où le niveau
d’abstraction est en parfaite montée, on peut imaginer que l’on devrait pouvoir construire des
ontologies génériques pour des grandes classes d’applications. La fusion des ontologies nous
permet d’arriver à ce but et de construire des connaissances qui couvrent tout un domaine au
lieu d’une application.
Dans une autre perspective, la fusion des ontologies définit l’interprétation d’un
véritable réseau de connaissances dont la complexité se heurte à une explosion du nombre et
de la taille des ontologies à fusionner. En effet, les techniques d’alignement et de fusion qui,
mettent en œuvre des calculs complexes tels que des algorithmes de parcours de graphes
d’ontologies itératifs et récursifs, se heurtent à des problèmes combinatoires dès que la taille
de ces dernières dépasse un certain seuil. En théorie de la complexité, ces algorithmes
présentent des complexités polynomiales assez lourdes (Costa & Cohen, 2013). A ce titre, la
recherche d’un algorithme ayant la plus faible complexité pour résoudre un tel problème, est
devenue une autre motivation de notre travail qui sera d’autant plus présent si l’on veut faire à
un nouveau défi qui est de passer à l’échelle.
Assurément, un autre point important à prendre en considération qui motive les
recherches actuelles est le caractère large échelle de l’alignement. Nous distinguons deux
visions clés: (1) les schémas de données en entrée sont volumineux (contenant une centaine
voire même des milliers d’éléments), on parle alors d’un alignement « pair-wise » et (2) le
nombre des schémas de données qui doivent être mis en correspondance concernent un
ensemble de schémas de données sources et cibles qui sont de surcroit nombreux, il est dit
l’alignement « holistique » (Sellami, 2009). L’alignement pair-wise permet de déterminer les
correspondances uniquement entre deux ontologies volumineuses (Kasri & Benchikha, 2011),
(Grau, et al., 2005) alors que les approches holistiques peuvent être appliquées sur plusieurs
schémas à la fois mais qui sont de petite taille (Maiz, et al., 2008). Nous nous situons dans la
deuxième catégorie.
3. Objectifs
Le but de notre travail est de proposer un système capable d’identifier les relations
sémantiques entre les ontologies des différentes PMI avec l'intention de soutenir
l'interopérabilité de leurs différents systèmes d’informations. Ce but peut être décomposé en
objectifs intermédiaires :
L’entreposage de données complexes hétérogènes
Développer un système d’intégration nous paraît comme la solution triviale au problème du
SEMEP. En effet, un système d’intégration permet d’offrir une interface d’accès à des
données réparties et indépendantes d’une manière simple et uniforme (Zerdazi & Lamolle,
2005). Pour ce fait, l’objectif est d’implémenter un entrepôt de données faisant état de cette
banque de données. Il représentera un espace de stockage centralisé et uniforme. Les données,
provenant des PMI, représentant des sources distribuées et hétérogènes, y seront regroupées et
restructurées afin de présenter une vue unifiée facilitant leur accès.
INTRODUCTION GENERALE
F.Z Abdelouhab Page 19
L’interopérabilité des systèmes d’informations
Comme nous l’avons précisé précédemment, utiliser des ontologies au niveau des différentes
PMI est une solution qui garantit à la fois la portabilité des connaissances ainsi que la
préservation de leurs sémantiques. Le problème qui se pose alors est de découvrir, de
représenter et d’exploiter les correspondances qui existent entre concepts issus des différentes
ontologies. Les méthodes d’alignements présentent deux relations simples entre deux
concepts issus de deux ontologies Ils sont considérés comme équivalents ou l'un subsumant
l'autre. Seulement, d’autres liens sémantiques, telle que l’implication, peuvent également être
établis, basés sur des mesures de similarités entre les définitions de concepts (l’alignement
extensionnel). Explorer d’autres horizons, telles que les techniques de fouille de données ou
de textes, pour établir plus de relations sémantiques entre concepts basées sur leur définition
en extension serait un objectif à atteindre.
La complexité et le passage à l’échelle
Les critères de clarté et de simplicité doivent être considérés comme aussi importants que
celui de l'efficacité dans la conception des algorithmes de fusion. La recherche d’un
algorithme ayant la plus faible complexité pour résoudre un tel problème, est devenue aussi
une partie de la motivation de ce travail. D’où l’intérêt d’utiliser d’autres prouesses
algorithmiques de complexité moindre et se prêtant mieux pour le passage à l’échelle tel que
les principes des automates cellulaires (Wolfram, 1986). Ces derniers jouissent d’une maturité
dans les calculs et d’une optimisation de la complexité très maîtrisée.
De ces objectifs nous pouvons dire qu’à travers notre thèse nous présentons une
démarche globale pour mettre en exploitation un nouveau processus pour l’alimentation des
entrepôts à partir de sources hétérogènes, et ceci sous le principe de base de la machine
cellulaire CASI. Nous proposons une solution qui garantit, essentiellement, l’optimisation de
l’espace de stockage et du temps d’exécution. Ceci se traduit par la conception et la
réalisation d’un Système Cellulaire d’Intégration Sémantique de Données hétérogènes dans
un entrepôt de données.
4. Contributions de la thèse
Compte tenu des objectifs cités auparavant, les principales contributions de notre thèse
peuvent être récapitulées dans les points suivants :
Une approche d’optimisation de la fusion et le passage à l’échelle.
En allant plus loin dans cette réflexion sur la fusion, nous constatons que quand les ontologies
deviennent de très grande taille, par exemple en Agronomie ou en Médecine, comportant
plusieurs dizaines de milliers de concepts, l’efficacité des méthodes de fusion automatique
diminue considérablement que ce soit en terme de temps d’exécution ou de la taille mémoire
utilisée, dû au fait de la complexité des algorithmes utilisés. Notre solution à ce problème
consiste à diminuer la taille des concepts en entrées par une modélisation booléenne. Nous
présentons un nouvel algorithme de fusion automatique utilisant la machine cellulaire 𝐶𝐴𝑆𝐼 offrant un moyen simple pour minimiser la complexité à laquelle se heurtent les algorithmes
classiques dès que le nombre et la taille des ontologies augmentent. Notre approche, fondée
sur le principe de base de CASI, présente une complexité moindre et linéaire réduite à 𝛰(𝑛)
(Costa & Cohen, 2013) par rapport à celle d’un algorithme de fusion classique dont la
INTRODUCTION GENERALE
F.Z Abdelouhab Page 20
complexité s’élève à 𝛰(𝑛²) avec n la taille du graphe. Nous montrons, également, comment
les concepts liés à la machine 𝐶𝐴𝑆𝐼 peuvent être appliqués et faciliter le passage à l’échelle.
Une approche d’alignement extensionnel en utilisant les règles d’association
Dans notre approche nous avons expérimenté une nouvelle utilisation du datamining dans le
domaine de l’intégration des données en utilisant des règles d’association. La recherche de
liens de correspondance entre les concepts d’une ontologie fréquents est relookée par
l’utilisation des règles d’association (Malek & Kadima, 2012). L’exploration des données des
instances est intéressante pour trouver les similarités des concepts. Pour cela, nous traduisons
les concepts du datamining pour extraire une certaine connaissance qui est celle de la
similarité entre les concepts d’une ontologie. L’idée sous-jacente à notre approche, inspirée
des travaux de (David, et al., 2007), est que deux entités x et y sont en relation d’implication,
𝑥 𝑦, si le vocabulaire utilisé dans les descriptions et les instances de x, a tendance à être
inclus dans celui de y. Un exemple d’une règle d’association est « Si plusieurs (ou quelques)
instances du concept A sont également des instances du concept B Alors A correspond à B»
de là nous déduisons une relation de correspondance entre les concepts A et B du type
équivalence, inclusion ou similarité. De cette correspondance nous pourrons déduire une autre
correspondance entre les attributs des deux concepts en proposant également une méthode
intensionnelle d’alignement syntaxique qui permet, à posteriori, d’enrichir l’alignement avec
des correspondances non détectées par la méthode extensionnelle. Cette nouvelle
connaissance sera introduite dans la base de connaissance du système et sera utilisée pour
d’autres alignements.
5. Organisation de la thèse
Cette thèse est structurée en deux parties. La première partie « Etat de l’Art » présente
les concepts permettant d’élaborer nos propositions. La deuxième partie « Contributions »
présente deux contributions réalisées dans le cadre de cette thèse. La partie « Etat de l’art »
permettant de positionner notre thèse dans son contexte d’étude est présentée à travers trois
chapitres qui sont:
Le premier chapitre intitulé « Fondements des ontologies » aborde les concepts
fondamentaux des Ontologies dans toutes leurs dimensions philosophique, littéraire ou
encore informatique. Après une description détaillée des composants de l’ontologie, un rapide
aperçu des formalismes de sa représentation est donné par la suite. Un passage en revue des
différentes étapes intervenant dans la construction des ontologies était nécessaire pour mettre
en avant la complexité inhérente à leur mise en place, ainsi que les principaux langages
utilisés y sont présentés. Ensuite, nous étalons une typologie des ontologies selon différents
critères afin de nous situer par rapport au choix de l’ontologie utilisée pour notre cas d’étude
le SEMEP. En conclusion nous évoquons les différentes problématiques qu’affrontent les
concepteurs et les utilisateurs des ontologies relativement à l’ambiguïté de leurs utilisations.
En effet, nous parlons d’ontologies partout où il est question de modules appuyant sur des
représentations sémantiques nécessitant un consensus. Il y va du vocabulaire commun à un
domaine, de la structuration et l’exploitation des métadonnées, de la description des services
Web en passant par le pivot de l’intégration sémantique des données. Ceci ne va pas sans
poser des problèmes d’hétérogénéité. C’est ce dernier point qui fait l’objet des deux chapitres
suivants.
INTRODUCTION GENERALE
F.Z Abdelouhab Page 21
Le deuxième chapitre intitulé « Intégration des données par fusion des ontologies »
s’intéresse plus précisément à l’intégration sémantique des données par la Fusion des
ontologies, en décrivant les hétérogénéités qui peuvent exister entre les différentes ontologies
et leurs impacts sur le processus de l’intégration. Vu le contexte dans lequel nous avons défini
notre problématique, notre travail s’apparente, d’une part, à des travaux sur l’intégration des
données du Web. Plus précisément l’intégration des sources de données autonomes et
hétérogènes, et d’autre part, à des travaux sur l’intégration des données guidée par une
ontologie qui étudient, quant à eux, comment trouver des correspondances entre les ontologies
des sources de données à intégrer et comment les utiliser. C’est dans cette connectivité que
nous avons dressé le contenu de ce chapitre, d’abord, sur l’intégration des données du Web
et ensuite sur l’intégration des données via des ontologies. Dans le cadre de nos travaux, nous
considérons l’intégration comme étant un concept générique incluant le concept
d’interopérabilité que nous développerons dans ce chapitre.
Le troisième chapitre intitulé « Mises en correspondances des ontologies » présente un
état de l’art correspondant aux travaux sur l’alignement des ontologies qui est au cœur de
notre travail. Une première partie de cet état de l’art est ainsi consacrée à la présentation du
processus d’alignement des ontologies et des types de techniques les plus répandues. Ayant
plus particulièrement étudié le problème d’alignement des ontologies en utilisant les règles
d’association, nous nous limitons ensuite à la description des travaux portant sur la découverte
de correspondances en adoptant les principes du datamining. Enfin, en conclusion nous
situons notre travail par rapport à l’existant.
La deuxième partie est entièrement dédiée aux contributions dans le cadre de
l’intégration sémantique des données. Elle est constituée de deux chapitres complémentaires.
Le quatrième chapitre intitulé « Une approche cellulaire d’intégration par la fusion des
ontologies » présente l’aspect conceptuel de notre première contribution (Abdelouhab &
Atmani, 2016). Nous commençons d’abord par motiver nos choix quant à l’utilisation de la
machine cellulaire 𝐶𝐴𝑆𝐼 puis nous donnons la formulation et la modélisation booléenne de
l’ontologie en fonction des termes de l’automate cellulaire en utilisant un exemple
pédagogique. A travers une architecture générale de notre approche, nous donnons la
description détaillée des étapes la constituant. Une discussion est donnée sur l’apport de la
machine 𝐶𝐴𝑆𝐼 à réduire la complexité des algorithmes développés.
Le dernier chapitre intitulé « Alignement extensionnel des ontologies par les règles
d’association» décrit notre deuxième contribution à vouloir explorer les instances des
ontologies pour trouver des liens de correspondances sémantiques en utilisant des règles
d’association. Ce chapitre commence par présenter le domaine d’étude en complément avec
le précédent chapitre et montre du doigt les points essentiels sur lesquels se greffent les
problématiques dressées dans cette thèse. A travers des écrans du prototype réalisé en
occurrence, nous présentons en détail les différentes étapes décrivant notre processus
d’alignement extensionnel.
Enfin, le manuscrit se termine par une conclusion générale qui synthétise les travaux
réalisés et propose quelques visions pour les travaux futurs.
Chapitre Premier
Fondements des ontologies
FZ Abdelouhab Page 23
Chapitre1
1.Fondements des Ontologies
Au regard de ce qui a été dit en introduction, l’ontologie représente la brique
fondamentale autour de laquelle se construit notre processus d’intégration. Pour ce fait,
nous avons jugé bon de commencer par présenter les fondements théoriques des ontologies
afin de bien délimiter les contours de ce concept dont la définition en soi relève de la
philosophie. Concevoir une ontologie pour les services SEMEP est une idée ingénieuse qui
pourrait faciliter énormément le travail et sied parfaitement à leurs problématiques citées en
introduction. Mais la question qui se pose est pourquoi une ontologie et pas des bases de
données ?
Le propos de ce chapitre est en premier lieu de répondre à cette question et de justifier
notre recours à l’ontologie non pas seulement dans un contexte d’intégration mais aussi dans
un but de structuration et d’homogénéisation des données afin de réduire les
incompréhensions et les quiproquos dans les analyses. En deuxième lieu de caractériser
l’ontologie telle qu’on la conçoit en la situant par rapport aux différentes notions auxquelles
elle est associée ainsi qu’à ses différentes caractéristiques. Un rapide aperçu des formalismes
de représentation d’ontologies est ensuite donné. Puis, nous passons en revue les différentes
étapes intervenant dans la construction des ontologies. Un résumé des principaux langages
utilisés est présenté. Finalement, nous détaillons les différents critères permettant d’établir une
typologie des ontologies afin de nous situer par rapport au choix de l’ontologie utilisée pour
notre cas d’étude le SEMEP. En conclusion nous évoquons les apports essentiels des
ontologies dans le cadre des applications de l’intelligence artificielle.
1.1 Quelques définitions
Le terme ontologie a suscité l’intérêt de plusieurs chercheurs et a fait couler beaucoup
d’encre juste pour le définir (Gruber, 1993), (Borst, 1997), (Zghal, et al., 2011). En effet, ce
mot est exploité dans différents contextes appartenant à plusieurs domaines tels que la
philosophie, la linguistique, l'intelligence artificielle (en particulier l'ingénierie des
connaissances) et le Web sémantique. D’une manière globale le mot ontologie recouvre deux
usages dont le premier appartient à la philosophie classique et le second, plus récent, aux
autres sciences cognitives (Psyché, et al., 2004). Mais avant d’être utilisé en informatique
d’aujourd’hui, Il a d’abord été emprunté par le domaine médical où il désignait la genèse des
maladies et ce n’est qu’en débuts des années 90 que l’informatique s’en ai approprié pour
désigner un modèle de représentation des connaissances selon le paradigme "On ne cherche
pas à comprendre le monde mais à le représenter " (Roche, 2005). Ceci signifie qu’on ne
cherche pas à expliquer le fonctionnement du monde mais plutôt à le représenter. Elle
s’applique à l’être en tant qu’être physique, ses particularités et spécificités indépendamment
de ses déterminations particulières.
Fondements des Ontologies
F.Z. Abdelouhab Page 24
Nous allons passer en revue quelques définitions en abrégé selon différentes disciplines
afin de constituer celle qui nous convient le plus à notre problématique.
1.1.1 Définition philosophique
En philosophie, l'ontologie est une branche fondamentale de la Métaphysique qui
s'intéresse à la notion d'existence, aux catégories fondamentales de l'existant et étudie les
propriétés les plus générales de l'être. C’est l’étude de l’être en tant qu’être et pas que ...
D’une manière générale, c’est la formalisation de tout un ensemble d’objets qu’ils soient
concrets ou spirituels, ainsi que la modélisation de leurs relations en vue de construire des
objets plus génériques ou plus spécifiques (Mellal, 2007). En s’inspirant de cette définition
nous pouvons formaliser tout objet en rapport avec la vaccination ce qui constituerait une
première étape.
1.1.2 Définition informatique
Si l’on se réfère au mode de raisonnement de tout ingénieur face à la conception de la
réalité on s’aperçoit que finalement la notion d’ontologie existait sans être nommée et de
façon transversale dans les différents systèmes de représentation de connaissances dès les
années 70. Lorsqu’un ingénieur en informatique conçoit un schéma de classes pour implanter
une application par exemple, il s'interroge sur les objets que cette application va manipuler,
les classes qui les regroupent, les caractéristiques communes à tous les objets de chaque
classe, les relations qui peuvent exister entre ces objets, etc. En d'autres termes, il s'interroge
sur ce qui définit ces classes d'objets, ce qui permet d'identifier qu'un objet appartient à une
classe, ce que cette appartenance signifie en termes de contenu ou de manipulations possibles,
bref il s'interroge sur la définition existentielle des classes d'objets mobilisés dans les
scénarios de l'application qu'il développe. Et tout ceci n’est autre que la définition même de
l’ontologie en informatique ou plus précisément en intelligence artificielle.
Une ontologie est vue comme un ensemble de concepts permettant de modéliser un
ensemble de connaissances dans un domaine donné. Un concept peut présenter plusieurs sens
thématiques. Les concepts sont liés entre eux par des relations sémantiques, des relations de
composition et d’héritage (Mellal, 2007). Afin de préciser cette notion, de nombreux
chercheurs ont proposé des définitions tout aussi intéressantes l’une que l’autre (Gruber,
1993), (Sowa, 2000), (Guarino & Giaretta, 1995), (Uschold & Gruninger, 1996), et (Roche,
2005). Chaque définition ajoute une nouvelle précision par rapport à la précédente de sorte
que la dernière donnée par Roche est sans doute la plus complète. Elle englobe et résume
toutes les définitions précédentes. "Une ontologie est une conceptualisation d’un domaine à
laquelle sont associés un ou plusieurs vocabulaires de termes. Les concepts se structurent en
un système et participent à la signification des termes. Une ontologie est définie pour un
objectif donné et exprime un point de vue partagé par une communauté. Une ontologie
s’exprime dans un langage (représentation) qui repose sur une théorie (sémantique) qui
garantit des propriétés de l’ontologie en termes de consensus, cohérence, réutilisation et
partage" (Roche, 2005).
En s’inspirant de cette définition notre objectif serait de conceptualiser le système
d’information de la vaccination qui est un domaine riche en vocabulaire. L’ontologie définira
cet objectif.
Fondements des Ontologies
F.Z. Abdelouhab Page 25
1.1.3 Définition littéraire
D’un point de vue littéraire, Une ontologie définit les objets du monde, leurs propriétés
et leurs contraintes de manière explicite, définissant ainsi un vocabulaire précis du domaine
qu’elle organise et formalise afin de le rendre interprétable tant par les humains que par les
machines (Sadoun, 2014). Elle fournit une sémantique formelle aux connaissances qu’elle
explicite de sorte à permettre à l’application de raisonner dessus. Cette définition complète en
quelque sorte celle d’avant. Elle nous permet de décrire directement les connaissances
explicites définissant le vocabulaire sur la vaccination.
1.1.4 Définition Formelle
Plus formellement, une ontologie peut être décrite selon (David, et al., 2007) en deux
modèles de hiérarchies. Le premier modèle est celui de la hiérarchie hors-contexte. Il
représente le modèle de base utilisé pour la description de schémas de l’ontologie. C’est la
partie terminologique qui définit les éléments conceptuels qui composent l’ontologie. Le
deuxième modèle, appelé hiérarchie contextualisée, est une extension du premier et possède
en plus une extension constituée d’un ensemble d’objets qui seront indexés aux entités de la
hiérarchie. C’est la partie assertionnelle qui déclare les individus du domaine et explicite leurs
valeurs de propriétés.
Une ontologie 𝑂 définit les concepts 𝐶, les propriétés 𝑃 et les individus 𝐼 d’un domaine,
tels que 𝐶, 𝑃 et 𝐼 sont trois ensembles disjoints. Dans cette vision l’ontologie 𝑂 est constituée
d’un ensemble terminologique hors-contexte et d’un ensemble assertionnel contextuel,
respectivement notés 𝑇𝐵𝑜𝑥 et 𝐴𝐵𝑜𝑥.
On note 𝑂 = 𝑇𝐵𝑜𝑥 ⊔ 𝐴𝐵𝑜𝑥
La 𝑇𝐵𝑜𝑥 correspond aux ensembles de concepts 𝐶, de propriétés 𝑃 et d’axiomes
terminologiques 𝐴. 𝑇𝐵𝑜𝑥 = 𝐶 ⊔ 𝑃 ⊔ 𝐴
La 𝐴𝐵𝑜𝑥 correspond aux ensembles d’individus et à deux fonctions d’association 𝐼𝐶 et 𝐼𝑃.
𝐴𝐵𝑜𝑥 = 𝐼 ⊔ 𝐼𝐶 ⊔ 𝐼𝑃
Les axiomes terminologiques sont une collection de formules typiquement décrites en
logique de description portant sur les concepts et propriétés. Ils définissent les connaissances
fondamentales de l’ontologie supposées vraies au cours d’un raisonnement.
Un concept 𝐶 (𝐶 ∈ 𝐶) définit un ensemble d’individus ayant une sémantique et des propriétés
communes. Il peut lui-même se décliner en sous-concepts.
Une propriété 𝑃 (𝑃 ∈ 𝑃) permet de définir des relations entre individus ou des couples
attributs/valeurs. Elle est définie entre un domaine noté 𝐷 (qui est un sous-ensemble de 𝐶) et
une image notée 𝑅2 (qui est l’union d’un sous-ensemble de 𝐶 et d’un ensemble de types
simples). Les axiomes terminologiques 𝐴 permettent de définir les relations qu’entretiennent
concepts et propriétés. Les fonctions d’annotations associent une description textuelle aux
entités.
Face à ces différentes définitions nous pouvons conclure que quelles que soient celles
considérées, la frontière qui les sépare (quand elle existe) nous semble beaucoup trop mince
ou trop confuse. C’est pourquoi dans le cadre de notre thèse, nous définissons l’ontologie
comme à la fois un moyen édifiant pour représenter les données de la vaccination en forme de
classes et de relations entre ces classes et aussi comme des expressions de contraintes sur ces
Fondements des Ontologies
F.Z. Abdelouhab Page 26
classes. Nous allons voir maintenant que signifient les notions de classes et de relations en
termes d’ontologie.
1.2 Les Constituants d’une Ontologie
Une ontologie inclut généralement une organisation hiérarchique des concepts
pertinents (principes, idées, catégorie d'objet, notions potentiellement abstraites) et des
relations qui existent entre ces concepts ainsi que des règles et axiomes qui les contraignent
(Zghal, et al., 2011).
1.2.1 Concepts
Un concept peut se définir comme une entité composée de trois éléments distincts :
le terme : c’est une représentation symbolique, souvent linguistique et verbale
exprimant le concept. En d’autres termes le Label.
la notion ou l’intension du concept : c’est l’ensemble des propriétés exprimant la
signification du concept. L'intension d'un concept peut contenir des attributs. Un
attribut peut être une instance de concept. Par exemple, "Ferrari" est une instance de
"voiture" qui porte un attribut "couleur rouge" instance du concept "couleur".
les objets dénotés par le concept, appelés également « instances» ou « extensions » du
concept : c’est l’ensemble des êtres qu’il englobe.
Exemple : prenons le concept Voiture. , nous pouvons lui associer:
Un terme : nous pouvons lui associer plusieurs représentations linguistiques telles que
“voiture”, “automobile”, “auto” ou “'bagnole”. Nous dissocions donc les concepts et
leurs manifestations linguistiques. Un terme n'est pas un concept et vice-versa. Un
terme peut être ambigu alors qu'un concept n'a qu'un seul sens, une seule définition. Il
faut alors gérer les problèmes de synonymie (un concept dénoté par plusieurs termes)
et d'homonymie (un terme dénotant plusieurs concepts).
Une intension: c’est une sous-catégorie de véhicules de transports automobiles conçus
et aménagés pour le transport d'un petit nombre de personnes.
Une extension: un ensemble d'entités qui rentrent dans cette catégorie, ex: {la twingo
de Fatima, le kangoo de Baghdad, la clio de Karim, …}
Il est à noter qu'un concept peut avoir une extension vide. Ce concept est un concept
générique. Il correspond à une notion abstraite (par exemple, la "vérité", prise dans le sens de
"ce qui est vrai" et non pas du "degré de vérité"). Un concept peut disposer d’une propriété
d’identité permettant de distinguer d’une manière unique une instance d’une autre. Par
exemple le cas d’un identifiant pour chaque étudiant ou le nom d’un fichier sur le disque dur.
Ce concept possède la propriété d’identité. Une autre propriété peut être attribuée à un
concept est la rigidité. Un concept est rigide si toute instance de ce concept reste instance dans
Fondements des Ontologies
F.Z. Abdelouhab Page 27
tous les domaines (par exemple le concept "humain" est rigide, par contre le concept
"étudiant" est non rigide). Dans ce cas le concept "étudiant" est dit anti-rigide.
Deux concepts peuvent partager la même extension sans pour autant avoir la même
intension. Ils sont équivalents par exemple les concepts "ordinateur portable" et "laptop",
désignent tous les deux un ordinateur (PC). De plus, des concepts partageant la même
extension mais pas leur intension peuvent être désignés par le même terme. Ceci correspond à
des points de vue différents sur un même objet. Par exemple, les humains peuvent être
considérés comme des femmes ou des hommes.
Les concepts peuvent être disjoints ou incompatibles si leurs extensions sont disjointes
(par exemple le concept "homme" et le concept "femme" sont deux concepts disjoints). Ils
peuvent aussi être dépendants : un concept 𝐶1 est dépendant de 𝐶2 si, pour toute instance
de 𝐶1, il existe une instance de 𝐶2 (par exemple le concept "parent" est un concept dépendant
du concept "enfant" et vice-versa).
Selon (Gómez-Pérez, 1999) ces concepts peuvent être classifiés selon plusieurs
dimensions :
1. niveau d’abstraction (concret ou abstrait) ;
2. atomicité (élémentaire ou composée) ;
3. niveau de réalité (réel ou fictif).
Il est possible de classer les propriétés à l'aide d'autres critères. Welty et Guarino
(2001) proposent de distinguer les propriétés intrinsèques et les propriétés extrinsèques. Les
propriétés intrinsèques ne sont liées qu'au concept lui-même, comme la généricité. Les
propriétés extrinsèques font intervenir d'autres concepts dans leur définition.
L'ensemble des concepts est structuré hiérarchiquement et les concepts sont liés par
des propriétés conceptuelles. La propriété utilisée pour la structuration de la hiérarchie des
concepts est la subsomption. Un concept 𝐶1 subsume un concept 𝐶2 si toute propriété
sémantique de 𝐶1 est aussi une propriété sémantique de 𝐶2, c’est-à-dire 𝐶2 est plus spécifique
que 𝐶1. L'extension d'un concept est forcément plus réduite que celle d'un concept qui le
subsume tandis que son intension est par contre plus riche en instances.
1.2.2 Les Relations
De la même façon que pour les concepts, l'ontologie définit des relations pouvant
exister entre les instances de ces concepts ou des concepts génériques. Elles traduisent les
associations existant entre les concepts présents dans le segment analysé de la réalité. Ces
relations regroupent deux types d’associations:
La relation de subsomption (is-a, sous-classe de (spécialisation, généralisation); partie-
de (agrégation ou composition); associée-à; instance-de)) qui définit un lien de généralisation
(encore appelée hyperonymie) est utilisée pour structurer les ontologies. Cette relation permet
formellement l’héritage de propriétés. Elle doit être complétée par d’autres relations pour
exprimer la sémantique du domaine. Les autres relations unissent les concepts ensemble pour
construire des représentations conceptuelles complexes.
Fondements des Ontologies
F.Z. Abdelouhab Page 28
Ces relations nous permettent d’apercevoir la structuration et l’interrelation des
concepts, les uns par rapport aux autres. Prenons une relation R, nous pouvons aussi lui
associer:
une intension est le label ou l’étiquette de la relation ex: "R est une relation entre une
personne ou un groupe qui a créé un document, son contenu intellectuel, son
arrangement ou sa forme";
une extension, ex: {(𝐻𝑢𝑔𝑜, 𝑁𝑜𝑡𝑟𝑒 𝐷𝑎𝑚𝑒 𝑑𝑒 𝑃𝑎𝑟𝑖𝑠), (𝐽𝑒𝑎𝑛 𝑀𝑎𝑟𝑘𝑎𝑙𝑒, 𝐿𝑒 𝑐𝑦𝑐𝑙𝑒 𝑑𝑢 𝐺𝑟𝑎𝑎𝑙), …}
des représentations linguistiques: "a-écrit", "auteur-de", "écrivain-de"
Comme les concepts, les relations peuvent aussi avoir des propriétés. Ces dernières
peuvent être algébriques (symétrie, réflexivité, transitivité). Elles peuvent être des propriétés
de cardinalité, comme par exemple, un ordinateur qui dispose, d’au moins, un disque dur. En
général, ces relations sont binaires.
Deux relations peuvent être incompatibles si elles ne peuvent lier les mêmes instances
de concepts (par exemple les relations "être rouge" et "être vert" sont incompatibles). Aussi,
deux relations binaires sont inverses l'une de l'autre si, l'une lie deux instances 𝐼1 et 𝐼2, l'autre
lie 𝐼2 et 𝐼1 (par exemple les relations "a pour père" et "a pour enfant" sont inverses l'une de
l'autre). Et enfin, deux relations sont exclusives si, l'une lie des instances de concepts, l'autre
ne lie pas ces instances, et vice-versa (par exemple "l'appartenance" et "la non appartenance"
sont deux relations exclusives). L'exclusivité entraîne l'incompatibilité.
1.2.3 Les fonctions
Ce sont des cas particuliers de relations dans lesquelles le nième élément (de la relation)
est défini en fonction des n-1 éléments précédents.
Exemple : Mention_examen est fonction des concepts : Notes_examen, Absence et
Stage_pratique, cette fonction retourne la mention d’examen d’un étudiant. On écrit:
Notes_examen× Absence ×Stage_pratique→ Mention_examen.
1.2.4 Les axiomes
La description des connaissances en termes de concepts, de relations entre ces concepts
et des propriétés sur ces concepts et relations ne suffit pas pour atteindre l'objectif d’un
modélisateur qui est de concrétiser les connaissances dans une action. C’est-à-dire leurs
aspects dynamiques.
Les connaissances opérationnelles peuvent être des faits, des règles, ou des contraintes.
Un fait est un énoncé vrai et implicatif. Un fait est un axiome qui participe à la description du
monde cognitif dans lequel s'inscrit le système à base de connaissances. Une règle permet
d'inférer de nouvelles connaissances (Zghal, 2010).
Les axiomes désignent les assertions acceptées comme vraies dans le domaine étudié.
Les axiomes et les règles permettent aussi d’inférer de nouvelles connaissances. Exemple :
« Si deux personnes sont frères, alors il existe quelqu’un qui est la mère de chacun d’eux ».
Fondements des Ontologies
F.Z. Abdelouhab Page 29
Les ontologies représentées sous forme d'une taxonomie de concepts et de relations sont des
ontologies légères, lightweight ontologies. Les ontologies formées d'une taxonomie à laquelle
s'ajoutent des connaissances inférentielles sont des ontologies lourdes, heavyweight
ontologies (Gómez-Pérez, et al., 2004).
1.2.5 Instances
Elles constituent la définition extensionnelle de l’ontologie; ces objets véhiculent les
connaissances (statiques, factuelles) à propos du domaine du problème.
Au-delà des notions de concepts, de relations et de propriétés, l’ontologie présente,
également, la notion de classification (le fait de déterminer si quelque chose appartient à une
classe) et de catégorisation (le fait d'identifier les catégories existantes). Ces notions ne sont
pas étrangères à la pensée humaine. Ce sont des inférences élémentaires que nous faisons à
longueur de journée. Prenons l'exemple simple d'une conversation entre deux personnes:
" - Tu connais un restaurant proche ?
- Il y a une pizzeria au coin de la rue.
- Merci."
Dans une conversation aussi banale, la première personne a généralisé sa requête au
concept de restaurant, qui représente la catégorie la plus abstraite recouvrant toutes les formes
de réponses acceptables. La deuxième a, probablement sans même y prêter attention, utilisé sa
classification de concepts pour en déduire qu'une pizzeria est un restaurant et que par
conséquent sa réponse est pertinente et sera comprise sans préciser qu'une pizzeria est un
restaurant et que c'est effectivement le cas. Le recours à des conceptualisations partagées et
aux inférences qu'elles permettent est donc au cœur d'activités aussi simple que cet échange
d'information. C’est l’essence même du raisonnement ontologique de rendre explicite les
connaissances et de s'assurer de leur nature consensuelle. De là nous pouvons résumer la
définition d’une ontologie comme étant une représentation de propriétés générales de ce qui
existe dans un formalisme supportant un traitement rationnel. C'est le résultat d'une
formulation exhaustive et rigoureuse de la conceptualisation d'un domaine. Cette formulation,
souvent qualifiée de partielle, peut être exprimée de différentes manières selon le point de vue
qu’on donne à la définition de l’ontologie.
Un choix de conception doit être fait durant l’élaboration d’une ontologie permettant de
décider si une connaissance doit être modélisée dans une propriété ou à l’aide d’une relation
pointant sur un autre concept. Un critère peut être de dire que c’est une propriété dès lors que
les valeurs possibles sont d’un type dit primitif (entier, chaîne de caractères), et c’est une
relation dès lors que les valeurs possibles sont d’un type dit complexe c’est-à-dire un autre
concept de l’ontologie. Mais cette frontière peut aussi être remise en question (Troncy, 2004).
1.3 L’intérêt d’une ontologie
En résumé de ce qu’on a vu précédemment une ontologie est à la base de ce qu’on
appelle la représentation des connaissances. Ces connaissances sont exprimées sous forme de
Fondements des Ontologies
F.Z. Abdelouhab Page 30
symboles auxquels on donne une « sémantique » (un sens). C’est là que réside toute la
puissance de l’ontologie et qui rend vulnérable une base de données.
Supposons qu’on veuille interroger une base données contenant la description des
membres d’une famille (le père, la mère et les enfants féminins et masculins). Les occurrences
de cette base sont les différentes familles recensées. Comment trouver les frères de Sara la
fille d’Aïcha par exemple. Comme les relations sont dépourvues de sémantique (représentées
uniquement à travers les clés primaires et secondaires) il faudrait passer par des jointures et
des restrictions sur différentes tables pour déduire cette information. Par contre une ontologie
pourrait définir le concept fraternité et la suite coule de source.
Un autre point important est l’absence du raisonnement logique dans les bases de
données ;
Admettons un certain nombre de vaccins stockés dans une PMI, dont chacun est identifié par
un numéro. Vacc200 ; Vacc201 ; Vacc202 ; Vacc203.
Nous voulons savoir combien de vaccin existe-t-il dans cette PMI :
version base de données : 4 (count * from Vaccin ---> 4) ;
version la logique des prédicats: c'est au moins 1, car rien ne dit que ces vaccins sont
différents ou qu'il n'y en a pas d'autres ;
version représentation des connaissances : au moins 4, car on suppose que ces vaccins
sont différents, mais rien ne dit qu'il n'y en a pas d'autres.
Ceci découle de trois hypothèses :
hypothèse du nom unique, qui signifie que chaque constante représentant une entité est
différente, on a donc par exemple : Vacc200 != Vacc201. Ceci est admis dans tous les
domaines (base de données et représentation des connaissances) sauf en logique.
hypothèse du monde clos, c'est lorsqu'une proposition est considérée comme fausse si
pendant un certain temps il est impossible de montrer que cette proposition est vraie.
Mais il n'y a que pour les bases de données où ça marche.
hypothèse du monde ouvert ; si une proposition n'a pas le statut « Vrai », on ne peut
pas en déduire qu'elle est fausse. On dira que son cas n'a pas été statué, ou que l'on ne
dispose pas des connaissances nécessaires pour statuer. De fait, c'est bien utile
lorsqu'on réalise une ontologie, car cela permet de rendre compte du fait que certaines
connaissances sont indisponibles sans pour autant rendre impossible la formalisation
des connaissances d'un domaine.
Le rôle clé des ontologies par rapport aux systèmes de base de données est de spécifier
une représentation de modélisation des données à un niveau d'abstraction au-dessus des
schémas d'une base de données spécifique (logique ou physique), afin que les données
puissent être exportées, traduites, interrogées et unifiées pour tous les systèmes développés de
manière indépendante.
Fondements des Ontologies
F.Z. Abdelouhab Page 31
L’ontologie représente donc une composante centrale dans notre cas d’étude le SEMEP.
Elle est exploitée pour élaborer la structure d’une base de données. Pour ce faire, il nous a
fallu restructurer les bases de données locales au niveau des PMI en ontologies pour soutenir
la sémantique des données et homogénéiser le vocabulaire utilisé ainsi que la prise en compte
de l’hétérogénéité des connaissances dans un domaine en pleine expansion tel que la
vaccination.
Toutefois, uniformiser les outils et la façon de structurer l’information au sein des
différentes PMI reste un objectif difficile à atteindre et cela ne résoudrait pas le problème des
bases déjà existantes car, outre les réticences des responsables pour homogénéiser un jeu de
données, les moyens et le temps manqueraient pour venir à bout de l’énorme chantier de
migration des bases d’une PMI à une autre. Notre solution est donc de permettre d’utiliser une
ontologie qui puisse venir en surcouche sur les bases de données existantes.
1.4 Construction des ontologies
La conception d’ontologies est une tâche difficile qui nécessite la mise en place de
procédés élaborés afin d’extraire la connaissance d’un domaine, manipulable par les systèmes
informatiques et interprétable par les êtres humains. Selon Sadoun (2014) la conceptualisation
de l’ontologie concerne l’identification puis la définition de ses concepts, propriétés, axiomes.
Ce processus demande une bonne connaissance du domaine. Ces connaissances sont détenues
par des experts du domaine ou contenues dans des ressources, telles que les textes,
taxonomies ou terminologies.
Selon Psyché (2004), le processus de construction d’ontologies, appelé ingénierie
ontologique, peut être décrit selon les principes qui le gouvernent (Gruber, 1993), les
méthodologies et les outils qui le soutiennent.
1.4.1 Les Principes
Il existe un ensemble de critères et de principes qui ont fait leurs preuves dans le
développement des ontologies, généralement accepté pour guider le processus d’ingénierie
ontologique. Plusieurs travaux se sont penchés sur la question tels que (Gruber, 1993),
(Borgo, et al., 1996), (Bernaras, et al., 1996) et (Arpirez, et al., 1998) et ont proposé ainsi un
certain nombre de principes à respecter pour construire une ontologie et qui peuvent être
résumés comme suit : (Troncy, 2004)
Clarté. Les ambiguïtés doivent être réduites. Quand une définition peut être
axiomatisée, elle doit l’être. Dans tous les cas, des définitions en langage naturel
doivent être fournies.
Cohérence. Une ontologie doit être cohérente. Les axiomes doivent être consistants.
La cohérence des définitions en langage naturel doit être vérifiée autant que faire se
peut.
Extensibilité. L’ontologie doit être construite de telle manière que l’on puisse l’étendre
facilement, sans remettre en cause ce qui a déjà été fait.
Fondements des Ontologies
F.Z. Abdelouhab Page 32
Biais d’encodage minimal. L’ontologie doit être conceptualisée indépendamment de
tout langage d’implémentation. Le but est de permettre le partage des connaissances
(de l’ontologie) entre différentes applications utilisant des langages de représentation
différents.
Engagement ontologique minimal. Une ontologie doit faire un minimum d’hypothèses
sur le monde : elle doit contenir un vocabulaire partagé mais ne doit pas être une base
de connaissances comportant des connaissances supplémentaires sur le monde à
modéliser.
Principe de distinction ontologique: les classes dans une ontologie devraient être
disjointes. Le critère utilisé pour isoler le noyau de propriétés considérées comme
invariables pour une instance d’une classe est appelé le critère d’Identité.
Modularité: Ce principe vise à minimiser les couplages entre les modules.
Diversification des hiérarchies: Ce principe est adopté pour augmenter la puissance
fournie par les mécanismes d’héritage multiple. Si suffisamment de connaissances
sont représentées dans l’ontologie et que suffisamment de différentes classifications de
critères sont utilisées, il est plus facile d’ajouter de nouveaux concepts (puisqu’ils
peuvent être facilement spécifiés à partir des concepts et des classifications de critères
pré-existants) et de les faire hériter de propriétés de différents points de vue.
Distance sémantique minimale. Il s’agit de la distance minimale entre les concepts
enfants de mêmes parents. Les concepts similaires sont groupés et représentés comme
des sous-classes d’une classe, et devraient être définis en utilisant les mêmes
primitives, considérant que les concepts qui sont moins similaires sont représentés
plus loin dans la hiérarchie.
Normaliser les noms. Ce principe indique qu’il est préférable de normaliser les noms
aussi autant que possible.
1.4.2 Les Méthodologies
Une méthodologie est considérée comme un ensemble de principes de construction
systématiquement reliés, appliqués avec succès par un ou plusieurs auteurs dans les
différentes phases du processus de construction des ontologies. Plusieurs méthodologies ont
vu le jour depuis l’apparition de l’ingénierie des connaissances. Mendes (2003) en a
dénombré un total de trente-trois.
Les méthodologies recensées peuvent être analysées selon plusieurs critères ou
dimensions Figure1-1 :
Construction de nouvelles ontologies à partir de zéro ;
Ré-ingénierie d’ontologies ;
Fusion ou intégration d’ontologies ;
Génération à partir des bases de données.
Fondements des Ontologies
F.Z. Abdelouhab Page 33
Dans une autre vision, nous pouvons distinguer trois types de méthodes pour la
construction d’ontologie :
Des méthodes manuelles : les experts créent une nouvelle ontologie d’un domaine ou
étendent une ontologie existante comme par exemple l’ontologie Wordnet (Miller, 1995).
Plusieurs principes et méthodologies ont été définis pour faciliter la génération manuelle.
Ces principes se basent sur des fondements philosophiques et suivent des procédés de
modélisation collaboratifs. Ils mènent à la conception d’ontologies dites légères et
d’ontologies dites lourdes. Cependant, ce procédé de génération est très coûteux en temps
et pose surtout des problèmes de maintenance et de mise à jour (Ding & Foo, 2002).
Des méthodes automatiques : l’ontologie est construite par des techniques d’extraction des
connaissances: les concepts et leurs relations sont extraits de bases de connaissances et
ensuite vérifiés par les inférences. Face à la masse croissante de documents présents sur le
Web et aux avancées technologiques dans le domaine de la recherche d’information, de
l’apprentissage automatique et du traitement automatique des langues, de nouveaux
travaux portent sur la recherche d’un procédé plus automatique de génération d’ontologies.
Ce mécanisme mène généralement à la conception d’ontologies dites légères. Dans
(Maedche & Staab, 2001), différents types d’approches sont distingués en fonction du
support sur lequel elles se basent : à partir de textes, de dictionnaires, de bases de
connaissance, de schémas semi-structurés et de schémas relationnels.
Des méthodes mixtes : les techniques automatiques permettent d’étendre des ontologies
qui ont été construites manuellement comme la base des connaissances Cyc (Mellal, 2007).
Dans notre cas d’étude nous avons construit notre ontologie pour la vaccination à partir
des bases de données locales aux PMI. Chaque table a été convertie en un concept et chaque
ligne de la table a été convertie en une instance du concept correspondant. Les valeurs des
attributs ont été instanciées avec les valeurs des champs correspondants de la table. Plus de
détails sont fournis dans la partie contributions de cette thèse.
FZ Abdelouhab Page 34
Figure 1-1 Cadre d’analyse des méthodologies recensées (Psyché, et al., 2004)
Fondements des Ontologies
F.Z. Abdelouhab Page 35
1.4.3 Les Outils
Un ensemble d’environnements d’ingénierie ontologique ont été développés afin de
systématiser l’ingénierie des ontologies. Les plus connus sont : ONTOLINGUA (Farqhuar, et
al., 1996), LOOM (Flater, 2003), ODE (Doe, 2002), PROTEGE2000(PRO, 2002) et OntoEdit
(ONTOEDIT, 2004). Ces outils seront plus ou moins détaillés dans la section qui suit.
1.5 Langages et plates-formes pour les ontologies
Une fois l’ontologie construite, les intentions sont organisées, structurées et contraintes
pour représenter la conception du monde. La représentation des intensions peut faire appel à
des langages plus ou moins formels tels que XML (Marsh, 2001), RDF(S) (Klyne & Carroll,
2004), DAML+OIL (Connolly, et al., 2001) et OWL (Smith, et al., 2004). Le but de ces
langages est de représenter les ontologies dans un langage commun (Zghal, et al., 2011).
Cependant les plus concurrents sont RDF(S) et OWL. Le langage RDF(S) ne permet
pas de représenter la cardinalité d’une relation. Il n’exprime pas aussi les caractéristiques des
relations : la transitivité, la symétrie, la fonctionnalité, etc. De même, il ne permet pas les
restrictions pour certaines classes. Ainsi, le W3C a recommandé un langage standardisé
possédant un niveau d’expressivité plus élevé. Le langage d’ontologie recommandé par W3C
est le langage OWL. Ce langage est inspiré du langage DAML+OIL. Il couvre la majorité des
caractéristiques du langage DAML+OIL, en attribuant de nouveaux noms à la plupart de ses
primitives. Le langage OWL est spécialement développé pour la représentation des ontologies
dans le cadre du Web sémantique. Ce langage permet aussi de créer, partager et échanger des
connaissances dans le Web sémantique (Bach, 2006). Pour ces raisons toute ontologie qui
n’est pas décrite en OWL présente des inconvénients (Berners-Lee, et al., 2001).
Le langage d’ontologie OWL offre trois sous-langages (OWL-Lite, OWL-DL et OWL-
Full) avec une puissance d’expressivité ascendante (Bach, 2006). La raison de cette division
concerne la complexité, la calculabilité et l’implémentation du langage.
Le sous-langage OWL-Lite possède la complexité formelle la plus basse et l’expressivité
minimale. Il est suffisant pour la représentation des thésaurus et d’autres taxonomies ou
des hiérarchies de classification avec des contraintes simples.
Le sous-langage OWL-DL, possède une expressivité maximale tout en maintenant les
propriétés de complétude computationnelle (i.e., toutes les conclusions sont garanties
d’être calculées) et de décidabilité (i.e., tous les calculs finiront en un temps fini). Il
correspond à la variante de la logique de description et est approprié pour la représentation
des ontologies ayant besoin de la puissance d’expressivité tout en gardant la calculabilité.
Le sous-langage OWL-Full est conçu pour les développeurs, les implémenteurs et les
utilisateurs qui ont besoin de l’expressivité maximale, de la liberté syntaxique de RDF
mais sans se soucier d’une garantie de calculabilité. Actuellement, il n’existe pas encore
d’outils ou de logiciels de raisonnement capables de supporter des raisonnements complets
pour toutes les caractéristiques d’OWL-Full (Bach, 2006).
Fondements des Ontologies
F.Z. Abdelouhab Page 36
La construction formelle de l'intension donne une représentation précise et non ambiguë
de la manière dont on peut concevoir son sens, ce qui permet sa manipulation logicielle et son
utilisation comme une primitive de représentation de connaissances pour décrire et structurer,
par exemple, des données, des logiciels, des utilisateurs des communautés, etc. OWL-Lite
représente pour nous le langage le plus adapté pour décrire et structurer les données de la
vaccination
De nombreux éditeurs d’ontologies sont apparus. Protégé est l’un des éditeurs
d’ontologie les plus utilisés. Il peut lire et sauvegarder des ontologies dans la plupart des
formats d’ontologies : RDF, RDFS, OWL (Mellal, 2007).
LOOM est une plate-forme pour la représentation des connaissances. Son objectif principal
est de construire des applications intelligentes. Les connaissances déclaratives dans LOOM
sont composées de définitions, de règles, de faits, etc. Pour compiler les connaissances
déclaratives, LOOM utilise un moteur déductif. Ce dernier est un classifieur qui utilise le
chaînage-avant, l’unification sémantique et des technologies orientées objet. SUMO est
l’une des ontologies utilisées dans LOOM par l’intermédiaire d’un outil SUMO2LOOM
(Flater, 2003).
ONTOLINGUA est un mécanisme qui permet aux utilisateurs de créer et manipuler des
ontologies. Il supporte les ontologies portables pour qu’elles soient traduites dans
différents systèmes.Ontolingua est basé sur le langage d’interchange KIF (Knowledge
Interchange Format). Celui-ci est conçu pour l’échange de connaissances entre des
systèmes informatiques répartis. Ontolingua permet aussi de traduire des ontologies
génériques en LOOM, KIF, etc.
OIL(OntologyInference Layer) est un langage dédié à la spécification et à l’échange des
ontologies sur le Web. Il permet la représentation et l’inférence d’ontologies, en
combinantdes primitives de modélisation des langages de frame avec la sémantique
formelle et les modesde raisonnement des logiques descriptives. Ainsi, il représente une
ontologie par un conteneur (ontology container) et des définitions ontologiques (ontology
definition). Pour cela, il se base sur des formalismes tels que RDF/RDFS et XML, ce qui
garantit sa totale compatibilité avec ces formalismes standards ou des formalismes en cours
de standardisation.
SHOE (Simple HTML Ontology Extensions) est une extension du langage HTML qui
permet aux auteurs de pages Web de générer une annotation de leurs documents,
compréhensible par la machine. Ce langage peut être utilisé par des agents pour la gestion
des pages Web (Lucke, et al., 1997).
DOE (Differential Ontologie Editor) (Troncy & Issac, 2002), (Doe, 2002) offre la
possibilité de construire les hiérarchies de concepts et relations en utilisant les principes
différentiels énoncés par Bachimont (2000), puis en ajoutant les concepts référentiels. La
sémantique des relations est ensuite précisée par des contraintes. Ce n’est qu’une fois
l’ontologie ainsi structurée qu’elle est formalisée en utilisant la syntaxe XML.
PROTEGE2000 (Noy & Musen, 2000), (PRO, 2002). est une interface modulaire
permettant l’édition, la visualisation, le contrôle (vérification des contraintes) d’ontologies,
et la fusion semi-automatique d’ontologies à l’aide du plugin Prompt (Noy & Musen,
Fondements des Ontologies
F.Z. Abdelouhab Page 37
2000). Le modèle de connaissances sous-jacent à PROTEGE-2000 est issu du modèle de
frames et contient des classes (concepts), des slots (propriétés) et des facettes (valeurs des
propriétés et contraintes), ainsi que des instances de classes et des propriétés.
OntoEdit (Ontology Editor) (ONTOEDIT, 2004) est également un environnement de
construction d'ontologies indépendant de tout formalisme. Il permet l'édition des
hiérarchies de concepts et de relations et l'expression d'axiomes algébriques portant sur les
relations, et de propriétés telles que la généricité d'un concept. Des outils graphiques dédiés
à la visualisation d'ontologies sont inclus dans l'environnement. OntoEdit est très utilisé
dans le domaine biomédical.
Dans notre cas d’étude nous avons opté pour le logiciel protégé pour sa convivialité, du
fait qu’il soit en open source et surtout il supporte bien le langage OWL que nous adoptons
dans la modélisation de l’ontologie.
1.6 La classification des ontologies
La classification des ontologies peut se faire selon plusieurs dimensions (Psyché, et al.,
2004). Ces dimensions regroupent principalement cinq classes : objets de conceptualisation,
niveau de granularité, formalisme de représentation, niveau de complétude et la richesse de la
structure interne (Zghal, 2010). La Figure1-2 illustre les dimensions permettant la
classification d'ontologies.
1.6.1 Classification selon l’objet de conceptualisation
Les ontologies classifiées selon leur objet de conceptualisation par (Gómez-Pérez,
1999), (Guarino, 1997) et (Mizoguchi, 1998) sont données dans la Figure1-3 suivante :
Figure 1-2: Typologies d’ontologies selon quatre dimensions de classification
Fondements des Ontologies
F.Z. Abdelouhab Page 38
Figure 1-3: Classification selon l’objet de conceptualisation (Psyché, et al., 2004)
Fondements des Ontologies
F.Z. Abdelouhab Page 39
Les ontologies de représentation des connaissances permettent d’expliquer la
conceptualisation sous-jacente aux formalismes de représentation (Davis, et al., 1993).
Elles regroupent les concepts impliqués dans la formalisation des connaissances. On les
désigne également comme ontologies abstraites ou de haut niveau parce qu’elles
permettent de définir des concepts abstraits et peuvent être réutilisées pour définir des
concepts spécifiques. Un exemple d’ontologie de ce type est la Frame Ontology utilisée
dans Ontolingua (Gruber, 1993). Un autre exemple est l’ontologie de Sowa "
KnowledgeRepresentation (KR) ". C’est est une ontologie générique à visée universelle.
Les ontologies supérieures ou de hauts niveaux : elles contiennent des connaissances
abstraites très générales valables dans différents domaines, destinées à rassembler d'autres
ontologies (ex: notions d'entité, d'évènement, de rôle, etc.). Elles visent à étudier les
catégories des choses qui existent dans le monde, comme les concepts de haut niveau
d’abstraction. L’ontologie de haut niveau est fondée sur la théorie de l’identité, la
méréologie (theory of whole part) et la théorie de la dépendance. Ses concepts sont
indépendants d’un domaine ou d’un problème particulier. Parmi ces ontologies on cite
souvent " UpperCyc " qui a été construite en une douzaine d’années (Mellal, 2007).
Les ontologies génériques : elles ont pour objectif de recouvrir tous les sens des mots et ne
normalisent pas leur sens. Elles sont appelées, également, des méta-ontologies ou "Core
ontologies". Elles décrivent des concepts génériques moins abstraits que ceux décrits par
des ontologies supérieures. Dans cette classe, citons SUMO (Suggested Upper Merged
Ontology) développée dans le cadre du projet IEEE SUO (Standard Upper Ontology).
L’objectif assigné à SUMO est de constituer un standard pour permettre l’interopérabilité
sémantique entre les systèmes d’information. Une autre ontologie générique a été
développée WordNet. En fait, c’est un système de références lexicales croisées dont la
conception a été inspirée par les théories actuelles de la mémoire linguistique humaine.
Les ontologies de domaines : elles contiennent des connaissances propres à un domaine de
connaissances. Elles décrivent le vocabulaire lié à des domaines particuliers comme la
physique, la mécanique, la chimie, la médecine et la modélisation d’entreprise. Elles sont
réutilisables pour plusieurs applications sur ce domaine. L’ontologie Ménélas
(Zweigenbaum, 1993) est un exemple d’ontologie de domaine, celui des maladies
coronariennes, rassemblant des concepts et leurs relations structurés à partir de la relation «
sorte de ». Ménélas comprend également des lexiques sémantiques et morphosyntaxiques
des mots simples et composés. Cette ontologie est dédiée à l’analyse automatique de
compte-rendu d’hospitalisation.
Les ontologies d’application : contiennent des connaissances du domaine nécessaires à une
application donnée, elles sont spécifiques et non réutilisables. Généralement, les ontologies
d’application combinent des éléments d’ontologies de domaine et d’ontologies génériques
choisies en fonction des méthodes spécifiques pour réaliser la tâche visée. Elles sont
rarement réutilisables pour une autre application. On peut citer, par exemple, PhysSys qui a
été construite pour assister des ingénieurs dans le développement d’applications concernant
l’ingénierie de systèmes physiques dynamiques (Noy & Musen, 2000). PhysSys exploite
l’ontologie EngMath couvrant tous les aspects liés à la modélisation mathématique en
ingénierie (Gruber & Olsen, 1994). D’autres exemples d’ontologies d’application sont CO
et GO. CO (ChimicalOntology) est une ontologie dans le domaine de la chimie qui permet
Fondements des Ontologies
F.Z. Abdelouhab Page 40
d’identifier les groupes fonctionnels chimiques trouvés dans des inter-acteurs de petites-
molécules (Dumontier, et al., 2005). GO (Gene Ontology) est une ontologie qui vise à
établir un vocabulaire structuré et contrôlé pour décrire certains domaines de la biologie
moléculaire et cellulaire. Dans le domaine juridique, l’ontologie LKIF CoreLegalOntology
est employée pour organiser et représenter des concepts juridiques.
Les ontologies d’information : elles spécifient la structure des enregistrements d’une base
de données. Les schémas de base de données en sont un exemple. Elles proposent un cadre
de représentation de la connaissance stockée mais ne spécifient pas de détails sur la
sémantique des champs.
Les ontologies terminologiques ou linguistiques spécifient les termes utilisés pour
représenter la connaissance d’un domaine. Un exemple de ce type d’ontologie est le réseau
sémantique UMLS (UnifiedMedicalLanguage System) (Lindberg, et al., 1993).
Les ontologies de tâche : contiennent des connaissances propres à une activité (ex: le
diagnostic). Elles fournissent un vocabulaire systématisé de termes employé pour la
résolution de problèmes liés aux tâches, qui peuvent appartenir ou non au même domaine.
1.6.2 Classification selon le niveau de détail ou de granularité
La granularité est un autre critère pour la classification d'ontologies. La granularité
représente le niveau de détail de la conceptualisation de l'ontologie. Dans cette typologie,
deux types de granularité ont été distingués par Fürst ( 2002) :
Granularité fine : Quand les ontologies sont très détaillées au niveau du vocabulaire utilisé,
qui est plus riche. Ce vocabulaire doit assurer la pertinence des concepts d’une tâche
spécifique, dans un domaine particulier. Souvent, les ontologies de domaine, les ontologies
de tâches et les ontologies d’applications représentent des ontologies à granularité fine.
Granularité large : concerne le cas où les ontologies sont moins détaillées. Un exemple est
celui des ontologies de haut niveau, car elles disposent de concepts génériques qui peuvent
être raffinés dans d’autres types d’ontologies (ontologie de domaine, de tâches et
d’application).
Figure 1-4: Classification selon le niveau de granularité (Psyché, et al., 2004)
Fondements des Ontologies
F.Z. Abdelouhab Page 41
1.6.3 Classification selon le formalisme de représentation
Les ontologies sont aussi classées en plusieurs niveaux d'expression selon leur
utilisation (Uschold & Gruninger, 1996), (Mhiri, et al., 2006):
L'ontologie très informelle : est exprimée dans un langage naturel (sémantique ouverte).
L'ontologie semi-informelle : est exprimée sous une forme restreinte et structurée de
langage naturel pour augmenter la clarté et pour réduire l'ambiguïté.
L'ontologie semi-formelle : est exprimée en langage formel
L'ontologie rigoureusement formelle : est définie avec une sémantique formelle à travers
un langage artificiel formel, permettant les théorèmes et les preuves telles que la robustesse
et l'exhaustivité.
1.6.4 Classification selon le niveau de complétude
Selon Bachimont (Bachimont, 2000), il existe trois engagements correspondant aux
étapes de la modélisation des connaissances :
Figure 1-5: Classification selon le formalisme de représentation (Psyché, et al., 2004)
Fondements des Ontologies
F.Z. Abdelouhab Page 42
Un engagement sémantique est vu comme un arbre de concepts sémantiques définis par un
libellé linguistique.
Un engagement ontologique qui décrit un ensemble des concepts référentiels (ou formels)
qui se caractérisent par un terme/libellé dont la sémantique est définie par une extension
d’objets.
Un engagement computationnel traite des concepts computationnels qui sont caractérisés
par les opérations qu’il est possible de leur appliquer pour générer des inférences.
Figure 1-6: Classification selon le niveau de complétude (Psyché, et al., 2004)
1.6.5 Classification selon la richesse de la structure interne
Lassila et McGuinness (2001) proposent une classification d'ontologies en fonction des
données que l'ontologie décrit et la richesse de sa structure interne à travers les catégories
suivantes (Zghal, 2010):
Le vocabulaire contrôlé : est un ensemble de termes définis par un groupe de personnes ou
une communauté (par exemple les catalogues).
Le glossaire : représente un ensemble de termes avec leur signification.
Le thésaurus : est défini par un ensemble de termes organisés suivant un nombre restreint
de relations. Ces relations peuvent être entre termes synonymes ou entre termes préférés.
La hiérarchie informelle : organise des catégories à partir de la notion générale de
généralisation/spécification (par exemple la hiérarchie proposée par Yahoo qui représente
une catégorisation des thèmes de recherches).
Fondements des Ontologies
F.Z. Abdelouhab Page 43
La hiérarchie formelle : est une hiérarchie dont la structure est déterminée par des relations
de généralisation.
La hiérarchie formelle avec instances : est similaire à la catégorie précédente mais elle
inclut des instances.
Le frame : représente une ontologie contenant des classes avec des propriétés pouvant être
héritées.
L'ontologie avec restrictions de valeurs : est une ontologie contenant des restrictions sur les
valeurs des propriétés.
L'ontologie avec contraintes logiques : est une ontologie pouvant contenir des contraintes
entre les constituants, définies dans un langage logique.
1.7 Apports des ontologies
Les ontologies ont été employées dans divers domaines et pour différents objectifs.
Leurs utilisations les plus répandues sont classées, selon Uschold, (Uschold & Gruninger,
1996) en trois catégories : (Mellal, 2007)
La communication : Les ontologies permettent le partage de la compréhension et la
communication dans des contextes particuliers et selon les besoins. Ainsi, on peut utiliser
l’ontologie pour créer un réseau de relations qui définit les connexions entre les
composants du système. Cette caractéristique de communication est offerte grâce à la non-
ambiguïté des termes utilisés et définis par l’ontologie dans les systèmes.
Figure 1-7: Classification selon la structure interne
Fondements des Ontologies
F.Z. Abdelouhab Page 44
L’interopérabilité : Elle se produit lorsque différentes organisations ont besoin de
communiquer et d’échanger de l’information afin d’atteindre un objectif donné. Les
ontologies contribuent à faciliter la compréhension et l’interprétation des informations
échangées, en se présentant comme un format d’échange.
L’ingénierie des systèmes : une ontologie peut aider à l’analyse des besoins et à définir les
spécifications d’un système. Son rôle dépend du degré de la formalisation et
l’automatisation de la méthode de spécification. Dans l’aspect informel, elle facilite la
compréhension des liens et relations entre les composants du système. Dans l’aspect
formel, elle définit la spécification déclarative du système. Les ontologies informelles
améliorent et assurent la fiabilité des systèmes logiciels en servant de base pour la
vérification manuelle de la conception. Elles permettent la vérification semi-automatique
du système en respectant, bien sûr, la spécification déclarative et l’intégration des
différents composants du système.
L’un des objectifs fondamentaux du Web sémantique est l’échange de ressources entre
machines, afin de permettre l’exploitation de grands volumes d’informations et de services.
Les ontologies jouent ici un rôle important car elles permettent la réalisation du Web
sémantique. Elles permettent de fournir des vues structurées et partageables des ressources et
de définir une sémantique formelle pour l’information et le domaine. Le "E-commerce" est
une des applications les plus répandues des ontologies. En général, elles sont utilisées pour
déterminer les index conceptuels qui décrivent les ressources sur le Web.
1.8 Problématique des ontologies
En reprenant les différentes définitions d’une ontologie nous constatons que son
ambiguïté est due essentiellement à ses multiples facettes. Son essor ne cesse de croître et son
apogée se trouve au cœur des systèmes de recherche d’information ou d’aide à la décision de
multiples domaines.
Les réflexions sur les ontologies s’appuient sur leurs différents acquis en notant qu’elles
jouissent de plusieurs facettes ; elles servent (1) pour le vocabulaire, la structuration et
l’exploitation des métadonnées, (2) comme représentation pivot pour l’intégration de sources
de données hétérogènes (3) pour décrire les services Web et, en général, partout où il va être
nécessaire d’appuyer des modules logiciels sur des représentations sémantiques nécessitant un
certain consensus. Ceci ne va pas sans poser des problèmes d’hétérogénéité et
d’interopérabilité qui ne se limitent pas seulement à la divergence des domaines que peuvent
couvrir les ontologies mais aussi aux formalismes requis pour leurs développements et leurs
réutilisation.
Dans la littérature, plusieurs travaux ont été menés pour classifier les types
d'hétérogénéité qui peuvent exister entre les ontologies. Ils sont recensés au nombre de quatre,
à savoir: l'hétérogénéité syntaxique, l'hétérogénéité terminologique, l'hétérogénéité
conceptuelle et l'hétérogénéité sémiotique. (Zghal, 2010).
L'hétérogénéité syntaxique : se produit quand deux ontologies sont décrites avec deux
langages ontologiques différents. Cette classe d'hétérogénéité survient au niveau
théorique, notamment, quand il s'agit d'établir des équivalences entre les primitives de
Fondements des Ontologies
F.Z. Abdelouhab Page 45
différents langages ontologiques. Il est possible dans certains cas de traduire les
ontologies dans différents langages ontologiques à condition de préserver la
signification.
L'hétérogénéité terminologique : se manifeste dans l'éventualité où deux entités sont
référencées par deux noms différents alors qu'elles désignent le même objet. La cause
d'une telle hétérogénéité, revient à l'utilisation de différents langages naturels, ou des
sous langages techniques spécifiques à un domaine de connaissances bien déterminé.
Elle se manifeste aussi par l'utilisation des synonymies.
L'hétérogénéité conceptuelle est appelée aussi hétérogénéité sémantique (Euzenat,
2001) ou la différence logique (Klein, 2001). Elle concerne la diversité des
modélisations d'un même domaine de connaissances. Elle découle principalement de
l'utilisation de différents (ou équivalents) axiomes décrivant les concepts ontologiques.
L'hétérogénéité sémiotique, appelée aussi hétérogénéité pragmatique (Euzenat &
Shvaiko, 2007), s'intéresse à la manière dont les entités ontologiques sont interprétées
par leurs utilisateurs. Les différences d'interprétation sont dues principalement à la
diversité des contextes et des domaines d'application des ontologies. Par conséquent,
la manière de mettre en œuvre les entités ontologiques influence leurs interprétations.
De plus, ce type d'hétérogénéité reste difficile à détecter par la machine.
1.9 Conclusion
Dans ce chapitre, nous avons présenté les concepts de base des ontologies. Nous avons
proposé une description détaillée des différents éléments décrivant les ontologies, et une
classification d'ontologies selon plusieurs démarches. Par la suite de nombreux langages de
représentation des ontologies ont été donnés présentant le langage OWL comme étant le plus
récent et le plus polyvalent des langages proposés. En effet, ce dernier s’inscrit dans le Web
Sémantique et propose différents niveaux de formalisation permettant à la ressource
représentée d’évoluer en fonction de l’engagement sémantique choisi.
Nous avons aussi montré que les ontologies peuvent être génériques, spécifiques à une
tâche dans un domaine particulier ou bien directement destinées à des applications
déterminées. Elles peuvent être décrites dans plusieurs langages de représentation. Les apports
de l’utilisation des ontologies sont divers. Les ontologies jouent un rôle important dans les
systèmes à base de connaissance. Outre la réutilisation et le partage de connaissances, elles
permettent de faciliter la communication entre les acteurs de différentes organisations. Elles
permettent, en particulier, la réalisation de l’interopérabilité entre différents systèmes.
Nous avons également évoqué le problème de l'hétérogénéité. Dans la littérature, il
existe plusieurs travaux qui visent à réduire cette hétérogénéité selon ses aspects
terminologiques et/ou conceptuels. Dans ce contexte, plusieurs techniques sont utilisées, à
savoir : l'alignement, la fusion, l'intégration, la production de ponts d'axiomes et la traduction
(Desprès & Szulman, 2007), (Euzenat & Shvaiko, 2007).
Dans notre cas d’étude nous avons opté d’utiliser une ontologie de domaine (le domaine
de vaccination), légère ne possédant pas d’axiomes complexes, représentée par le langage
OWL-Lite et constituée de concepts structurés en hiérarchie suivant un ordre partiel.
Chapitre deuxième
Intégration des données par la
fusion des ontologies
Chapitre2
2.Intégration des données par fusion
des Ontologies
Le caractère décentralisé, réparti, autonome et hétérogène des données du web ainsi
que la multitude de sources d’informations et leurs diversités a rendu indispensable leur
intégration au sein des entreprises intéressées par ces mêmes données. Le rôle des systèmes
d’intégration de données est de répondre aux besoins des utilisateurs à travers des interfaces
d’accès uniformes aux sources contenant ces données (Zerdazi & Lamolle, 2005). Le défi de
l’intégration de données est de faire cohabiter les sources hétérogènes, de plus en plus
nombreuses, souvent réparties et indépendantes, dans un seul système uniforme, appelé
système d’intégration, sans contraindre le comportement ni l’autonomie de chacune d’elles.
Dans notre cas d’étude, les services SEMEP sont spécialisés entre autre de la vaccination
des individus et le suivi du programme élargi de la vaccination (PEV). A cet effet, ces
services collectent des données des différentes PMI, des services médicaux et de l’état civil.
L’interprétation de ces données permet aux responsables des SEMEP de mieux cerner les
désordres qui se produisent lors de la couverture vaccinale et garantir ainsi un bon PEV. Ces
différents services donnent lieu à plusieurs résultats consignés dans des comptes rendus ou
des carnets de vaccination ou même des bases de données que les dirigeants sont contraints de
consulter pour effectuer une bonne prise de décision.
Figure 2-1 Organigramme du SEMEP (Brahami, 2014)
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 48
Les données issues des différents services que nous avons évoqués ci-dessus sont de
natures diverses et sont stockées sur des supports différents : bases de données, des pages web
ou même des fichiers textes. Il appartient ensuite aux dirigeants de combiner manuellement
les données fournies par les différentes sources s'ils veulent avoir une vue globale de
l'information souhaitée. Ce travail peut rapidement devenir complexe, même si ces dirigeants
disposent d'une expertise qui leur permet d'établir des liens entre les données. Dans cet
optique, proposer des mécanismes pour un accès unifié à des données dispersées dans
plusieurs sources est l'objectif principal de l’intégration des données et notre travail de thèse
se situe dans ce cadre.
L'illustration, que nous avons présentée est issue d’un domaine de prévention médicale
mais le problème de l'intégration des données est cependant beaucoup plus général et est
fréquemment rencontré dans le domaine des entreprises commerciales, où le besoin
d'intégration de données issues de différents systèmes d'information devient de plus en plus
crucial. La croissance exponentielle des informations et des ressources échangées entre les
différents systèmes, qu’ils soient publics ou privés (Internet, bases de données, etc), augmente
le taux d’hétérogénéité des informations et rend leur compréhension et leur analyse très
difficiles. Un problème crucial découlant de cette hétérogénéité concerne la préservation du
sens de l’information échangée. C’est ce que l’on appelle l’interopérabilité sémantique. Une
définition est communément admise pour l’interopérabilité sémantique : "elle donne un sens
aux informations échangées et s’assure que ce sens soit commun dans tous les systèmes entre
lesquels des échanges doivent être mis en œuvre" (Mellal, 2007). La prise en compte de cette
sémantique permet aux systèmes distribués de combiner les informations reçues avec des
informations locales et de traiter l’ensemble de manière cohérente.
Pour assurer l’interopérabilité sémantique, l’information échangée entre systèmes doit
d’abord être décrite dans une structure formelle permettant de préserver sa sémantique. Ce
grand défi est omniprésent dans le domaine de l’ingénierie des connaissances, où des
méthodologies et des techniques sont proposées pour percevoir, identifier, analyser, organiser
et partager des connaissances entre différentes organisations. Parmi ces techniques, les
ontologies connaissent un essor très important depuis une dizaine d’années et apparaissent
comme le moyen efficace pour la représentation des connaissances.
L’interopérabilité sémantique requiert l’utilisation de techniques et de méthodologies
qui établissent sémantiquement des liens de dépendances entre les services fournis par les
entités communicantes du système distribué. Dans la littérature, la recherche de ces liens
s’appelle l’alignement des ontologies. Il vise à trouver les correspondances entre les concepts
appartenant à différentes ontologies au sein d’une même application. Nous montrerons par la
suite que cet aspect est au cœur de notre travail.
En ce qui concerne l’intelligence artificielle, et plus particulièrement la représentation
des connaissances et le raisonnement, l’interopérabilité apparaît comme une étape cruciale
vers une unification de la sémantique des connaissances distribuées. Les ontologies sont
précisément un des moyens contribuant à faciliter la compréhension des informations
échangées entre les systèmes interopérables en essayant de standardiser la représentation des
concepts et de leurs relations.
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 49
Vu le contexte dans lequel nous avons défini notre problématique, notre travail
s’apparente, d’une part, à des travaux sur l’intégration des données du Web. Plus précisément
l’intégration des sources de données autonomes et hétérogènes, et d’autre part, à des travaux
sur l’intégration des données guidée par une ontologie qui étudient, quant à eux, comment
trouver des correspondances entre les ontologies des sources de données à intégrer et
comment les utiliser. C’est dans cette connectivité que nous avons dressé le contenu de ce
chapitre, d’abord, sur l’intégration des données du Web (Parent & Spaccapietra, 2011) et
ensuite sur l’intégration des données via des ontologies. Dans le cadre de nos travaux, nous
considérons l’intégration comme étant un concept générique incluant le concept
d’interopérabilité que nous développerons dans ce chapitre. L’ontologie dans le contexte de
l’interopérabilité des entreprises est un pont entre différents systèmes qui sert à définir le
format d’échange entre ces systèmes (Mellal, 2007).
2.1 Intégration des données du Web
L’intégration des données est un processus qui consiste à rapatrier des données à partir
de différentes sources hétérogènes pour, soit les traiter localement (Approche médiateur)
(Lamarre, et al., 2004) soit les stocker dans une base commune (Approche Entrepôt de
Données) (Kimball, 1998). Dans l’approche médiateur, le système d’intégration génère, à
partir d’une requête de l’utilisateur, autant de sous-requêtes qu’il y a de sources de données à
interroger, ensuite, il construit la réponse finale à partir du résultat de chaque sous-requête et
la transmet à l’utilisateur. Cette approche est bien adaptée lorsque l’information change
rapidement, lorsque les requêtes des utilisateurs ne sont pas prévisibles et lorsque le nombre
de sources de données et le nombre de données sont très élevés. L’approche Entrepôt de
données consiste à construire une base de données réelle et centralisée, selon un schéma
particulier. Cette approche est caractérisée par sa performance en termes de temps de réponse
des requêtes. L’intégration des données s’effectue également en deux étapes : le système
d’intégration fusionne et stocke les différentes sources de données dans un seul entrepôt de
données, puis la requête de l’utilisateur est alors posée à cet entrepôt sans accès aux sources
de données d’origine.
Dans l’une ou dans l’autre des approches, la complexité du problème reste la même dû
au fait que les informations sous-jacentes se trouvent dans des sites différents (Boussaid, et
al., 2006). Selon (Nguyen, 2006), les approches d’intégration peuvent être classifiées suivant
trois critères : selon la manière de stocker les données à intégrer ou selon la manière de relier
les schémas des sources locales avec le schéma global ou encore sur le degré d’automaticité
d’intégration.
Il peut exister plusieurs approches permettant d’appréhender le problème d’intégration.
Principalement, nous pouvons distinguer trois types fondamentaux. Il s’agit respectivement en
fonction de leur degré de complexité, de l’intégration de données, de processus, et des
applications (Tebib, 2014).
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 50
2.1.1 Intégration de données
C’est la forme la plus simple de l’intégration. Elle apparaît au niveau des bases de
données. D’une part, elle est assurée par duplication des copies d’une partie ou de toute la
base de données dans une ou plusieurs applications. D’autre part, l’intégration s’effectue par
le transfert des données, en utilisant des outils pour permettre aux données d’émigrer d’une
application à une autre. Ce transfert de données est généralement réalisé par ETL (Extract,
Transform and Load). ETL est un moteur qui extrait, transforme, épure puis charge les
données à partir de différentes applications vers des entrepôts de données. Il est aujourd’hui
la solution la plus préconisée dans l’intégration des données.
2.1.2 Intégration des applications
L'intégration d'applications (AI : Application Integration) porte sur l'interconnexion
d'applications hétérogènes, le plus souvent développées de façon indépendante voire de façon
incompatible. L'AI permet principalement de faire communiquer tout type d’applications
(CRM - Customer Relationship Management, ERP -Entreprise Ressource Planning, SCM -
Supply Chain Management, etc.), ce qui peut constituer des enjeux énormes notamment pour
les grosses entreprises qui disposent d'une masse importante d'applicatifs. Sur le terrain, l'AI
s'affiche par une multitude de produits commerciaux portant des logos assez variés tels que
EAI ou l’ESB (Business Work de Tibco, Integrator de Mercator, e*Gate Integrator de
SeeBeyond, Websphere d'IBM, Biztalk de Microsoft, Businessware de Vitria, Intégration
Server de WebMethods, EntireX de SoftwareAG, XMLBus d'Iona, Sonic ESB de Sonic
Software, etc.), et dont l’objectif est de permettre de rationaliser et fluidifier le système
d’information afin de le rendre plus flexible et plus réactif.
2.1.3 Intégration des processus
C’est la forme la plus complexe de l’intégration. Elle sert à rendre valable une
application dans le contexte d’une autre sans la dupliquer. Elle permet aussi de construire de
nouveaux processus métier à base des applications et progiciels existants. Ceci crée de
nouvelles opportunités pour l’organisation à moindre coût. Les données circulant dans la
nouvelle organisation sont accédées et maintenues selon une logique de métier (business
logic) qui a des règles et une sécurité de données. Ces données ne sont plus simples mais des
objets métier (BOD : Business Object Document, ex : bon de commande) qui portent déjà un
sens. Grâce à cette forme d’intégration, les nouveaux processus métier qui les manipulent sont
créés.
2.2 Intégration des données via des ontologies
Plusieurs systèmes d’intégration à base d’ontologies, ou par ontologies ont vu le jour et
ont apporté un plus considérable dans divers domaines (Mena, et al., 2000). Selon
Bellatreche, (2006), il existe deux catégories de ces systèmes : les premiers utilisent une
structure à base d’une ontologie unique comme les Projets OntoBroker, SIMS, COIN, Picsel
cités dans (Khouri, 2009) mais ils souffrent de manque d’autonomie au niveau des sources
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 51
locales. Les deuxièmes sont à base d’ontologies multiples et apportent une meilleure solution
tels que les projets ONION et caBIG cités dans (Khouri, 2009).
Dans les approches à base d’ontologies multiples chaque source est décrite
sémantiquement par sa propre ontologie, appelée ontologie locale qui est mise en
correspondance avec une ontologie partagée modélisant un domaine particulier, qu’on appelle
ontologie globale. Dans cette catégorie nous trouvons, entre autre, les travaux de (Diallo,
2011) qui propose une Architecture à Base d’Ontologies pour la Gestion Unifiée de deux
types de données Structurées et non Structurées basée sur une approche de médiation par
ontologies. Sa conception repose sur l'utilisation des technologies du Web Sémantique et de
plusieurs types d'ontologies pour la caractérisation sémantique des sources non structurées
(textuelles). Les ontologies servent d'une part à définir le schéma global d'intégration
(ontologie globale) et, d’autres parts, les différentes sources à intégrer. Des correspondances
sont établies entre l'ontologie globale et les différentes ontologies locales.
Saïs (2007), propose un système d’Intégration Sémantique de Données structurées
représentant des tableaux collectés et extraits à partir du Web. Cette intégration de type
entrepôt de données rentre dans le cadre du projet eDot guidée par une Ontologie du domaine.
Sa contribution est une méthode générique et automatique d'enrichissement sémantique
d'informations structurées représentant des tableaux pour découvrir des relations candidates à
l'enrichissement d'un entrepôt et d'une ontologie. Cette étude monte l'intérêt et la faisabilité
d'approches complètement automatiques, non supervisées et guidées uniquement par une
ontologie.
L’objectif de Zimmerman, (2013), est de modéliser la sémantique d’un ensemble des
connaissances produites indépendamment les unes des autres, formant un réseau et mises en
correspondances. Dans chaque nœud du réseau se trouve une ontologie, reliée aux autres par
des correspondances formant des alignements d’ontologies. Afin de favoriser l’utilisation
d’ontologies indépendantes et préexistantes, il définit une sémantique formelle exploitant le
principe de médiation. Il a mis en place un formalisme qui exploite au mieux les logiques
locales déjà établies, les met en corrélation par un procédé original qui distingue d’un côté la
représentation locale, propre à chaque nœud dans le réseau, et la représentation des
connaissances inter-ontologies propre au médiateur. Cependant, son travail se trouve
confronté à la complexité du raisonnement distribué.
Les travaux de Dibie (2009), portent sur l’intégration des données guidée par une
ontologie à travers la réalisation du projet ONDINE (ONtology-based Data INtEgration).
Ceci consiste en l’intégration et l’interrogation d’une BD relationnelle et d’une base des
graphes conceptuels. Son système d’intégration repose sur une ontologie de domaine qui est
construite à partir des bases locales (à partir de leurs schémas, de leurs attributs et des
contraintes associées).
De ces recherches nous remarquons que l’intégration des données passe par les étapes
suivantes : elle associe, d’abord, à chaque source son ontologie locale ; Ensuite elle intègre
les ontologies des sources en établissant des relations sémantiques (équivalence,
subsomption…) entre leurs concepts et, enfin, elle peuple les données dans l’entrepôt en
exploitant les correspondances ontologiques établies dans l’étape précédente.
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 52
Avec l’engouement actuel du web de nouveaux critères peuvent, aussi, rentrer en jeu
pour distinguer les approches d’intégration selon qu’elles tiennent compte du critère de
scalabilité du web (Sheikhnajdy, et al., 2011) et de l’interopérabilité de sa structure et de sa
sémantique (Truptil, et al., 2010).
2.3 Composants théoriques de l'intégration
Intégrer plusieurs sources d'information a généralement pour objectif de combiner ces
sources, de telle sorte qu'elles apparaissent comme une source unique et donnent aux
utilisateurs l'illusion de n'interagir qu'avec cette seule source. Les données, distribuées sur
plusieurs sources hétérogènes, sont présentées aux utilisateurs à travers une vue logique
unique. Elles doivent donc être représentées en utilisant les mêmes principes et le même
niveau d'abstraction (avec un schéma global et une sémantique unifiés). Cette dernière
nécessite la détection et la résolution d'éventuels conflits de schémas et d'éventuels conflits de
données, tant du point de vue structurel que sémantique (Rahm & Bernstein, 2001).
Le problème de l'intégration classiquement abordé par la communauté des bases de
données (intégration de schémas, résolution de conflits, réécriture de requêtes, etc.) est
essentiellement celui de l'hétérogénéité entre différentes représentations des mêmes entités du
monde réel dont la problématique est fondée directement sur les remarques suivantes (Hovy,
et al., 2009) :
Le problème de répétition (duplication). En effet de nombreuses ontologies de même
ordre ou non ont été créées pour diverses applications. Cette prolifération fait souffrir les
principes de réutilisation et de consistance. Bien que certains chevauchements soient
nécessaires pour des raisons techniques, la majorité est inutile.
Le problème de consistance. Chaque expert, selon son domaine de prédilection va référer
un concept de manière spécifique, ou utiliser un terme pour se référer à différents
concepts selon le domaine ou le sous-domaine. Il est donc important de développer une
terminologie consistante et de créer un modèle de décision consistant là où ont lieu les
chevauchements. Cette notion de correspondance, c'est à dire d'enregistrement de
différents lexiques, est plus compliquée que le choix d'un simple lexique, et il est
nécessaire d'éviter les raisonnements inconsistants et les conclusions en contradiction.
Le problème d'un modèle de construction efficace. La création d'un modèle de domaine
est souvent compliquée par le nombre de décisions à prendre simultanément (les concepts
et leurs relations définis par d'autres concepts et relations). La tâche de modélisation est
simplifiée s'il est possible d'utiliser directement une ontologie de base large conçue pour
couvrir les plus importants phénomènes de plusieurs domaines différents.
L’hétérogénéité et l’interopérabilité sont souvent évoquées quand on s’intéresse aux
approches d’intégration. Dans ce qui suit, nous allons présenter un petit aperçu sur les notions
d’hétérogénéité des données et l’interopérabilité. L’accent sera mis sur l’interopérabilité
sémantique.
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 53
2.4 Hétérogénéité des données
La notion d’hétérogénéité des données diffère selon les approches. On trouve certains
travaux comme (Beneventano, et al., 2000), (Kim & Park, 2003), (Maibaum, et al., 2005)
qui qualifient les données de différentes catégories (structurées, semi-structurées et non-
structurées) comme étant hétérogènes. La catégorie des données structurées concernent,
essentiellement, les bases de données relationnelles ou les bases de données objets, la
catégorie des données semi-structurées s’agit des graphes, HTML, des schémas XML ou
encore des schémas OWL et enfin, la catégorie des données non-structurées englobe tous les
documents contenant des images, des sons ou des vidéo.
D’autres travaux tels que (Saccol & Heuser, 2002), traitent les données de même
catégorie mais avec des modélisations différentes comme étant hétérogènes. Par exemple dans
la catégorie des données structurées nous trouvons une modélisation objet ou relationnelle.
Nous trouvons, aussi, des travaux, tels que (Da Silva, et al., 2002), qui désignent les données
de même catégorie avec la même modélisation comme étant hétérogènes. Par exemple, deux
sources S1 et S2 contenant deux bases de données relationnelles BD1 et BD2, donc même
catégorie (données structurées) et même modélisation (modèle relationnelle). L’hétérogénéité
des données peut exister dans, par exemple, le nommage des entités (Ex : Nom dans BD1 et
Name dans BD2), le typage (ex : chaine de caractère ou entier pour le code), le degré de
granularité (ex : chaine de caractère pour l’adresse ou attribut composé de numéro de rue,
nom de rue..) etc…
Dans nos travaux, nous nous rapprochons à ces derniers. Nous considérons des données
hétérogènes comme étant des données de même catégorie semi-structurées ayant la même
modélisation. L’algorithme que nous proposons manipule des données qui se présentent sous
forme d’un schéma à balises semi-structuré. Ce schéma peut être un schéma XML ou schéma
OWL, aussi peut être un schéma d’éléments ou d’instance ou les deux à la fois.
Cette ambiguïté d’hétérogénéité des données complique davantage le processus
d’intégration, car il se voit contraint de composer avec la répartition des sources,
l’hétérogénéité de leurs structures et la complexité de leurs données (Boussaid, et al., 2006).
Ceci fait de lui un concept incontournable pour l’uniformité des données à intégrer et l’objet
même de plusieurs recherches comme, entre autres, (Lamarre, et al., 2004), (Huang, et al.,
2000).
Une classification générale des différents types d'hétérogénéité selon leur niveau est
mise en place par (Visser, et al., 1998). Elle peut être comprise dans une théorie plus générale
de qui place ses définitions d'hétérogénéité à des niveaux plus élevés. Il en découle ce qui
suit : (Hakimpour & Geppert, 2001)
L’hétérogénéité paradigmatique apparaît si des sources de connaissances différentes
expriment un savoir au travers de paradigmes de modélisation différents. Par exemple
une source peut formuler un savoir en utilisant des bases de données relationnelles
alors qu’une autre utilisera une base de données orientée-objet.
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 54
L’hétérogénéité du langage elle est de mise si les sources de connaissances expriment
un savoir par différents langages de représentation. Par exemple, qu’un système soit
en LISP alors qu’un autre s’exprime au travers de clauses de Horn.
L'hétérogénéité sémantique se réfère aux différences dans la signification des données
locales. Et ce, que des noms identiques soient mis sur des significations différentes, ou
que des noms différents soient mis sur des significations identiques.
Cela revient aux deux types d'hétérogénéité de (Tamma & Visser, 1999) suivants:
L’hétérogénéité du contenu: si deux systèmes représentent des connaissances
différentes. Par exemple si un système représente un savoir sur les étudiants de
l’Université alors qu’un autre représente les connaissances de la fluctuation du
marché de l’or.
L’hétérogénéité ontologique: cette hétérogénéité se présente lorsque différents
systèmes utilisent différentes conceptualisations. Par exemple, un système
conceptualise les animaux comme un ensemble de mammifères et un ensemble de
reptiles, alors qu’un autre système les classera en carnivores et herbivores.
2.5 Interopérabilité des données
Il n’existe pas une définition unique de la notion d’interopérabilité. Du point de vue
application, l’interopérabilité vise à assurer la coopération entre deux applications sans un
effort particulier d’interfaçage. Il s’agit d’assurer la communication et le partage
d’information et de services entre des applications indépendamment des plateformes
matérielles. En d’autres termes, les principes de l’interopérabilité décrivent les moyens pour
que deux applications, développées avec deux technologies différentes, puissent fonctionner
ensemble.
Si l’interopérabilité porte le sens de la coexistence et de la coopération, l’intégration est
liée aux notions de collaboration et d’uni‐formalisation. L’interopérabilité est synonyme de
communication et interaction. Par contre, la définition de l’intégration est plus large et couvre
la communication, la coopération et la coordination.
On trouve dans la littérature trois grands types d’approches de l’interopérabilité (Bouquet, et
al., 2004) :
L’approche intégrée : Consiste à construire un format commun pour tous les modèles
afin de développer un système unique. Suite à l’action d’intégration, les deux systèmes
en interaction deviennent un seul avec un modèle unique. Parfois nommée « médiation
centralisée », «ontologie globale» ou «ontologie unique», elle consiste à s’accorder sur
une seule ontologie. Cela implique un consensus sur le vocabulaire utilisé, sa
sémantique, la granularité de l'ontologie, le point de vue, etc. Les sources
d'informations sont alors toutes reliées à cette ontologie globale. Cela revient souvent
à fusionner les ontologies existantes en une seule. Cette approche est naturelle quand
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 55
on n'a qu'une ontologie, ou lorsqu'on en a plusieurs pour le même domaine, de
granularité proche et réalisées dans une même optique. Elle est à éviter quand l'une
des ontologies qu'on veut intégrer (ou l'une des sources de données) contient des
données hétérogènes et/ou évolue de manière indépendante : on doit alors s’attendre à
devoir régulièrement modifier l'ontologie globale, et également les autres sources de
données.
L’approche unifiée : Consiste à conserver le propre modèle de chaque système en
communication et définir un format commun à un méta‐niveau pour faire la
correspondance. Chaque système conserve alors sa propre structure avant et après la
communication. Parfois nommée « médiation décentralisée », « médiation distribuée »
ou « ontologies multiples », elle consiste à considérer les ontologies comme étant des
représentations approximatives représentant le point de vue d’une communauté ou
d’un individu, et à les faire correspondre l’une à l’autre. On a donc une ontologie par
source de données, et chaque ontologie est indépendante. Cette approche permet une
plus grande flexibilité : elle permet d’utiliser des ontologies évoluant de manière
autonome et mises à jour fréquemment. Parmi les principales difficultés, les cas de
synonymie et d'homonymie mais surtout l’ambiguïté due à un manque d’information.
Une variante considère à accorder plus ou moins de crédit aux différentes ontologies
(à donner raison à l'une plutôt qu'à l'autre en cas de conflit).
L’approche fédérée : Parfois nommée « hybride » ou « ontologie de plus haut niveau »
(« upper level ontology »), c’est un compromis entre les deux approches précédentes :
elle consiste à établir des correspondances entre les ontologies locales (une ontologie
par source), et à établir pour chacune d’elles des correspondances avec une unique
ontologie de plus haut niveau (par exemple « Standard Upper Ontology » [SUO] )
Comme pour l’approche précédente, sources et ontologies peuvent être développées de
manière entièrement autonomes, seules les correspondances sont à mettre à jour en cas
d'évolution d'une ou de plusieurs ontologies. Cette approche est surtout intéressante si
les ontologies se conforment à un certain standard ; ainsi, (Wache, et al., 2001)
proposent que toutes les ontologies locales soient décrites à l’aide d’un vocabulaire
partagé (qui peut être une ontologie) comprenant les termes basiques du domaine.
Cette approche requiert cependant de commencer par créer le vocabulaire commun,
ainsi que les règles de combinaison des termes. De plus, si les sources sont
indépendantes, ce n'est pas le cas des ontologies, qui doivent utilisent le langage
commun (il faut donc un consensus au préalable, ou construire soi-même les diverses
ontologies correspondant aux différentes sources). Ne propose pas de format commun
pour la communication et nécessite des efforts dynamique d’ajustement et
d’accompagnement.
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 56
Figure 2-2 Les approches d’interopérabilité sémantique
Les approches que nous venons de décrire correspondent aux trois approches
«Intégrée», « Fédérée » et « Unifiée » pour mettre en œuvre l'interopérabilité décrites par le
standard ISO 14258 (Concepts et règles pour la modélisation d'entreprises) dont on trouvera
une présentation dans (Chen & Doumeingts, 2003). À propos de l’approche unifiée, les
auteurs déclarent qu’elle impose l’utilisation d’un mécanisme de correspondance au niveau
méta, et que la standardisation n’est pas nécessaire mais bienvenue, parce qu’elle réduit le
nombre de correspondances à effectuer. L’intégration est l’évolution de l’approche unifiée
vers l’approche intégrée ; par contre, l’interopérabilité est l’évolution de l’approche unifiée
vers l’approche fédérée.
L’interopérabilité se présente sous deux formes ; l’interopérabilité syntaxique et
l’interopérabilité sémantique. L’interopérabilité syntaxique n’aura lieu que lorsque les
informations et les services qui les traitent ont la même syntaxe. Elle résulte de l’utilisation de
modèles de données distincts entre systèmes. Par exemple, des modèles de représentation
différents sont utilisés pour structurer un même concept (relation dans le modèle relationnel,
classe dans le modèle objet, XML, etc). Cela fait naitre l’interopérabilité sémantique qui vise
à donner une sémantique aux informations échangées et représentées dans des syntaxes
différentes et à s’assurer que cette sémantique soit commune à tous les systèmes entre
lesquels des échanges doivent être mis en œuvre. Elle est issue des différences de
compréhension et d’interprétation entre les informations provenant de divers domaines
d’application (Jouanot, 2000). Nous nous intéressons ici à l’interopérabilité sémantique, qui
représente actuellement un défi dans plusieurs domaines de recherche, en particulier en
intelligence artificielle à travers la notion d’ontologie.
L’organisation du SEMEP représente un véritable système distribué à base de
connaissances dans le sens où les différentes PMI s’échangent, en général, des services afin
d’accomplir une tâche globale qui est le PEV. Ceci fait apparaitre la nécessité de spécifier une
interprétation commune des informations échangées. Cela peut être effectué en utilisant des
standards ou en adaptant ces systèmes pour qu’ils interprètent les informations sans
ambiguïté, on parle alors d’interopérabilité. L’objectif de nos travaux étant d’intégrer au
niveau du SEMEP des ontologies liées au domaine de la vaccination. Ces ontologies
permettent de normaliser la connaissance manipulée par les services SEMEP.
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 57
2.6 Interopérabilité sémantique
Dans notre cas d’étude, la modélisation des SEMEP, comme étant des environnements
distribués, est largement facilitée par l’utilisation des ontologies. Si l’on considère que
l’ensemble des connaissances soient distribué à travers différentes ontologies locales aux
SEMEP de tout le territoire il est nécessaire d’exprimer les dépendances entre elles. Ce
problème est relié, d’une part, à la façon de représenter les connaissances sur les ontologies et,
d’autre part, à la méthode employée pour relier sémantiquement des connaissances
appartenant aux différents SEMEP (interopérabilité sémantique). Dans un contexte plus
étendu nous pouvons dire que l’interopérabilité sémantique pose un problème de
compréhension des informations échangées entre des systèmes coopérant à la réalisation
d’une tâche globale. Pour remédier à ce problème, les chercheurs se sont orientés vers deux
solutions complémentaires. Les informations échangées doivent être structurées de manière à
faciliter leur compréhension. Cette structuration amène à utiliser des ontologies qui décrivent,
dans un cadre formel, les connaissances d’un domaine. Ensuite, lorsqu’un système reçoit des
informations, la compréhension de celles-ci nécessite la mise en correspondances avec
d’autres informations ou concepts connus au sein du système, afin de les exploiter. Cette mise
en correspondance a donné lieu à la proposition et au développement de nouvelles techniques,
telles que le mapping d’ontologies, la fusion d’ontologies et l’alignement d’ontologies.
Le mapping d’ontologie vise à représenter les correspondances entre les ontologies. La
découverte de correspondances s’appelle l’alignement d’ontologies. La fusion d’ontologies
consiste à créer de nouvelles ontologies à partir d’ontologies existantes. Ces nouvelles
ontologies capturent toute la connaissance des ontologies d’origine. Elles servent à
représenter les correspondances entre celles-ci. Ces trois points sont repris plus en détails dans
la suite du chapitre parce qu’ils forment une des briques essentielles du processus
d’intégration que nous avons développé.
2.6.1 Techniques pour l’interopérabilité sémantique
Un certain nombre de techniques ont été proposées dans la littérature pour réaliser
l’interopérabilité. Elles sont souvent utilisées pour permettre le partage des données entre des
bases de connaissance hétérogènes et pour la réutilisation des informations de ces bases.
Dans l’ouvrage "Semantic Web Technologies" (Bruijn, et al., 2006), l’auteur distingue trois
catégories principales qui sont :
Le mapping d’ontologies, qui a comme objectif la représentation des correspondances
entre les ontologies. Ceci permet, par exemple, d’interroger des bases de
connaissances hétérogènes en utilisant une interface commune ou en transformant des
données entre différentes représentations.
La fusion d’ontologies, qui permet de créer une nouvelle ontologie, appelée
l’ontologie fusionnée capturant les connaissances des ontologies d’origine. Le défi est
alors d’assurer que toutes les correspondances et les différences entre les ontologies
soient correctement prises en compte dans l’ontologie résultante.
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 58
L’alignement d’ontologies, pour qui l’objectif consiste à découvrir des
correspondances entre les ontologies. Ces trois techniques seront détaillées dans les
sections suivantes.
Le mapping et l’alignement des ontologies font l’objet du chapitre suivant vu l’intérêt
qu’ils ont par rapport à nos recherches. Quant à la fusion, nous en parlons plus en détail dans
ce qui suit.
2.7 La fusion d’ontologies
La fusion des ontologies est une filière du domaine de la gestion des connaissances qui
prend une part de plus en plus accentuée dans la gestion des ontologies tout en considérant
l'évolution rapide de la technologie des connaissances (Desprès & Szulman, 2007). Elle est
reconnue comme étant une opération essentielle intervenant à plusieurs niveaux de
l'ingénierie des ontologies incluant l'intégration de plusieurs modules assurant ainsi
l’interopérabilité entre les systèmes, la réutilisabilité et le partage des connaissances (Salhi,
2014). L'une des motivations de la fusion des ontologies tient à la construction d'une
ontologie à partir de sources différentes. Cette fusion est déclenchée suite à un besoin qui
pourrait nécessiter l'intégration de plusieurs ontologies modélisant les différentes parties d'un
domaine. Dans le domaine médical, par exemple, alors que nous n’arrivons à construire des
ontologies que par domaines de spécialité, on peut imaginer que les grandes catégories des
objets médicaux et du raisonnement médical traversent toute la médecine.
Plus précisément, la fusion d’ontologies représente la création d’une nouvelle ontologie
à partir de deux ontologies ou plus. L’ontologie résultante unifie et remplace les ontologies
d’origine (Klein, 2001). La difficulté dans la réconciliation d’ontologies dépend du type
d’hétérogénéité. On trouve plusieurs types de décalage entre les ontologies, mais le décalage
au sujet de la conceptualisation est le plus difficile à régler.
2.7.1 Les méthodes de fusion d’ontologies
Les travaux traitant la problématique de la fusion d’ontologies peuvent être classés en
deux catégories :
1. les approches basées sur les technologies de web sémantique comme par exemple,
IPrompt (Noy & Musen, 2000), PROMPT Suite (Noy & Musen, 2003), MMOMS
(Li, et al., 2010), CHIMAERA (McGuinness, et al., 2000), FCA-Merge (Stumme &
Maedche, 2001) et OntoMerge (Dou, et al., 2002).
2. les approches basées sur les spécifications algébriques et la théorie des catégories
(Bouquet, et al., 2004). Une autre approche basée sur les règles de réécriture de
graphes (Mahfoudh, et al., 2014).
Fusionner deux ou plusieurs ontologies consiste à créer une ontologie globale qui
représente leur union. C’est un processus qui apparait au cours de deux phases du cycle de vie
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 59
d’une ontologie : lors de sa construction et/ou lors de son utilisation. En effet, une des
stratégies adoptées pour la construction d’une ontologie est de fusionner certaines ontologies
existantes (Mahfoudh, et al., 2014). Cette stratégie est justifiée par la multitude d’ontologies
représentant des domaines identiques ou connexes. Comme par exemple, le domaine
biomédical présente plus de 370 ontologies similaires et/ou complémentaires (à titre
d’exemple, les ontologies Foundational Model of Anatomy (FMA), Systematized
Nomenclature of Medicine-ClinicalTerms (SNOMED-CT), National Cancer Institute
Thesaurus (NCI), etc.). La fusion est également nécessaire pour enrichir les ontologies après
leur construction afin d’intégrer de nouvelles connaissances. Dans le cadre de la fusion il faut
faire attention à:
Préserver la hiérarchie des entités conceptuelles.
Préserver les types des entités conceptuelles.
Trouver les entités conceptuelles qui peuvent se superposer.
Corréler les entités conceptuelles qui sont sémantiquement proches par
équivalence ou par des relations de subsomptions.
Les approches les plus courantes utilisent l'union ou l'intersection. Dans l'approche par
union, l'ontologie résultante contient l'union des entités provenant des ontologies
originales et suppose résolues les différences de représentation d'un même concept.
Dans l'approche de type intersection, l'ontologie résultante ne contient que les parties
communes des ontologies originelles.
2.7.2 Les approches de Fusion
PROMPT
PROMPT est un outil dont le processus de fusion est de type interactif. L'outil PROMPT
Suite (Noy & Musen, 2003) fait partie de la plateforme de gestion des ontologies Protégé-
2000. PROMPT est constitué d'un ensemble de modules qui ont une grande importance dans
les services d'alignement et de fusion. L'ensemble de phases associé à ce processus comprend
les étapes suivantes :
Les candidats à la fusion sont identifiés à partir des similarités des noms de classes.
Le résultat est présenté à l'utilisateur comme une liste d'opérations potentielles de
fusion.
L'utilisateur choisit une des opérations suggérées par la liste ou spécifie
directement l'opération de fusion.
Le système effectue l'action demandée et exécute automatiquement les
changements additionnels dérivés de cette action.
iPROMPT propose des opérations de base pour la fusion et l'alignement des ontologies:
La fusion de deux concepts
La fusion de deux relations
La fusion de deux instances
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 60
Le système crée une nouvelle liste d'actions suggérées par l'utilisateur en se basant sur
la nouvelle structure de l'ontologie. Il détermine les conflits présentés par la dernière
action, les solutions possibles à ces conflits puis présente ces derniers à l'utilisateur.
iPROMPT identifie un ensemble d'opérations pour la fusion d'ontologies (fusion des
classes, fusion de slots, fusion des liens, etc.) et un ensemble de conflits possibles
consécutifs à l'application de ces opérations (conflits de nom, redondance dans la hiérarchie
des classes).
Le logiciel Protégé-2000 figure parmi les meilleurs logiciels de gestion des ontologies
existantes. L'efficacité de ce logiciel repose sur l’efficacité des outils qu’il intègre (comme
PROMPT Suite présenté précédemment). La fusion avec PROMPT Suite est très cohérente en
termes d'interaction entre les sous-modules faisant partie intégrante de cet outil, et eu égard à
la richesse de 1' algorithme (incluant la détection des incohérences et la proposition des
solutions). Cependant, le module iPROMPT présente quelques limites:
la semi-automatisation de 1' algorithme de fusion,
il ne possède pas l’intelligence suffisante pour exécuter certaines tâches,
iPROMPT prend en considération la structure de l'ontologie, mais ne prend pas en
compte le traitement des relations entre les concepts ainsi que la pertinence des
concepts.
SAMBO
SAMBO est un système d'alignement et de fusion des ontologies basé essentiellement
sur un framework développé à l'aide des stratégies applicables sur les ontologies du domaine
biomédical (Lambrix & Tan, 2006). Le système SAMBO prend en entrée deux ontologies de
type OWL. La fusion passe par une phase d'alignement comportant deux étapes: l'alignement
des relations et l'alignement des concepts. SAMBO est semi-automatique puisqu'il possède un
système générateur de suggestions qui nécessite l'intervention humaine pour sélectionner le
comparateur désiré (comme WordNet, terminologies lexicales, hiérarchie). Pour chacune des
propositions, l'utilisateur doit juger si les termes sont équivalents. Dans ce cas, un nouveau
nom sera créé; sinon, la suggestion sera rejetée. Aussi, à toutes les étapes, SAMBO offre une
interface afin que l'utilisateur puisse visualiser l'ontologie sous forme d'arbre. Le processus de
fusion de SAMBO présente cependant quelques limites.
La première limite concerne l’intervention humaine pour la vérification des conflits.
La deuxième limite concerne l’absence de traitement des super/sous-concepts c'est-à-
dire que l'algorithme ne traite pas la notion des super/sous-concepts (en d'autres
termes, l'abstraction des concepts).
La troisième limite est qu’à la fin de l'algorithme de fusion, il existe une forme de
copier-coller des termes, dans l'ontologie finale, qui n’ont pas été alignés, sans aucune
vérification de cohérence et sans aucun traitement sémantique.
La classification hiérarchique pour la fusion automatique des ontologies
L'approche de fusion automatique des ontologies par classification hiérarchique est
(Maiz, et al., 2008) basée essentiellement sur la hiérarchie des concepts. Le but principal de
cette approche est d'enrichir le domaine des entrepôts des données. Cette approche peut
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 61
prendre comme paramètres d'entrées plus que deux ontologies. Cette méthode de fusion
repose sur quatre étapes:
1. consiste à regrouper les concepts synonymes de différentes ontologies à fusionner.
Chaque groupe de concepts équivalents correspond à une classe et par conséquent, le
résultat est donc N classes noté SYNi.
2. consiste à dégager le SUB qui est l'ensemble de toutes les paires (parent, enfant) des
ontologies puis à la fusion par l'union de tous les SUBi: SUBg = u i=l . . p SUBi. Cette
opération peut engendrer beaucoup de redondance dans SUBg puisque la fusion est
effectuée sans vérification lexicale ou sémantique.
3. consiste à raffiner l'ensemble SUBg à l'aide des classes SYN
4. correspond à la construction de l'ontologie finale
L'approche de fusion automatique des ontologies par classification hiérarchique est,
certes complète mais présente quelques défauts qui sont :
L'absence d'analyse sémantique pour comparer les concepts du point de vue
sémantique, ce qui peut conduire à une augmentation des redondances.
La non-exploitation des relations qui relient les concepts. Donc, l'absence d'analyse
relationnelle minimise la qualité ontologique du point de vue sémantique.
CHIMAERA
CHIMAERA est un environnement pour la fusion d'ontologies qui aide les utilisateurs à
créer et à maintenir des ontologies distribuées dans le Web (McGuinness, et al., 2000). Il
fournit des outils de diagnostic et supporte deux fonctions principales :
Fusionner plusieurs ontologies.
Analyser des ontologies individuelles ou multiples.
La fusion est exprimée par un opérateur entre les paires de termes, de noms et de
définitions considérées comme candidats à la fusion. CHIMAERA dispose également
de techniques permettant de lier les termes par des relations de subsomption, disjonction, etc.
L'analyse effectuée par Chimaera comprend aussi bien une vérification de la rigueur
logique d'une ontologie que le diagnostic des erreurs habituelles dans sa conception.
OWLDiff
OWLDiff (Kremen, et al., 2011) a été introduit comme plug-in à Protégé-2000 et à
NeOn Toolkit pour les enrichir avec des technologies de fusion et de comparaison. OWLDiff
utilise essentiellement un utilitaire appelé Diff qui permet de vérifier les changements
syntaxiques et sémantiques des deux ontologies OWL entrées comme arguments. La fusion
dépend de l'utilisateur puisque celui-ci gère toutes les opérations à ce niveau. OWLDiff est un
outil intéressant en termes de comparaison des ontologies et de détection des similarités entre
les différents éléments d'une ontologie. Cependant, OWLDiff présente quelques limites en
tant qu'outil de fusion des ontologies. Avec OWLDiff, la fusion se réalise avec une
intervention majeure de l'utilisateur, ce qui remet en cause l'automatisation et l'intelligence de
l'approche. En outre, comme avec PROMPT, il y a absence totale de traitement des
abstractions des concepts (le cas échéant) et de traitement des concepts pertinents, ces deux
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 62
notions étant très importantes pour garantir la pertinence de l'ontologie fusionnée. Aussi,
OWLDiff n'exploite pas les relations interconcepts, ce qui diminue le niveau de l'analyse
sémantique des ontologies.
FCA-Merge
Stumme et Maedche (2001) ont proposé FCA-Merge (Formal Conceptual Analysis
Merge) dans le but de fusionner des ontologies locales qui partagent le même ensemble
d'instances. Pour cela, les auteurs exploitent l'analyse formelle des concepts. Le
processus de fusion nécessite trois étapes:
L'extraction des instances à partir de documents de type texte.
La génération du treillis de concepts en appliquant l'analyse formelle des concepts aux
instances. Chaque nœud du treillis est associé à un ensemble de concepts des
ontologies locales lorsque les instances associées sont contenues dans les
mêmes documents.
La génération interactive de l'ontologie fusionnée est l'étape finale de l'analyse du
treillis qui construit l'ontologie globale. Cette étape est à la charge du concepteur.
FCA-Merge est un algorithme semi-automatique qui présente quelques limites:
il n'existe pas d'analyse sémantique
au niveau des contextes formels, il n'y a pas de traitement des relations des deux
ontologies
originales au sein de l'algorithme de fusion [en effet, le copier-coller des relations
risque de minimiser la définition du domaine cible de l'ontologie fusionnée]
l'intervention d'un expert est requise pour régler certains problèmes au niveau de la
résolution des conflits générés suite aux copier-coller des relations.
FCA-OntMerge
FCA-OntMerge est une approche de fusion des ontologies développée par (Guan-yu, et
al., 2010). Elle est basée essentiellement sur l'analyse formelle des concepts. Selon les
auteurs, cette approche a résolu les problèmes sémantiques, augmenté la flexibilité et
minimisé l'intervention humaine. L'algorithme de FCA-OntMerge comporte quatre
principales étapes:
1. convertir les deux ontologies sources dans le même format bien défini,
2. générer les contextes formels à partir des ontologies sources,
3. faire la correspondance des attributs dans le contexte formel,
4. fusionner les contextes formels et générer le treillis des concepts correspondant.
Quelques critiques de cette approche:
il n'y a plus de traitement sur les concepts, il n'existe donc pas d'alignement des
concepts ou d'élimination des redondances d'ordre syntaxique ou sémantique [plus
précisément, FCA-OntMerge ne génère pas des abstractions, elle conserve seulement
les abstractions existantes dans les ontologies sources],
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 63
il y a absence totale de traitement des relations, d'exploitation des positions des
concepts dans leurs ontologies et de prise en compte de la structure des ontologies
sources et de l'ontologie fusionnée,
une autre limite se présente à la fin: la transition du treillis de concept à une ontologie
utilisable et complète.
FFCA
La fusion des domaines ontologiques basés sur le système de WordNet et sur les
techniques d'analyse formelle des concepts flous. L’approche de FFCA exploite la notion des
concepts flous pour fusionner deux domaines ontologiques. De ce fait, elle est composée
principalement de trois étapes:
1. Un prétraitement,
2. la fusion des ontologies en trois sous-étapes [fusion des concepts, alignement avec
WordNet et alignement avec FFCA], 3. la génération de l'ontologie floue (Chen, et al., 2001).
FFCA détermine des points forts au niveau de l'étape d'alignement. Cependant, elle
présente quelques limites sur certains points:
à l'étape d'alignement, FFCA n'exploite plus les relations interconcepts des deux
ontologies sources, et suite à cette lacune, la valeur de l'analyse sémantique diminue
FFCA ne traite pas les éléments ontologiques pertinents, et plus précisément les
concepts pertinents,
on note l'absence de l'inclusion des attributs de chaque concept dans l’analyse
sémantique et linguistique à l'étape d'alignement.
RCA-Merge
RCA-Merge (Salhi, 2014) est une approche de fusion des ontologies par le biais de
l'ARC: l'Analyse Relationnelle des Concepts. Cette dernière offre un cadre formel et
conceptuel pour supporter le processus global de la fusion. Dans cette approche, le but
principal de l'ARC (Rouane, et al., 2007) est d'exploiter les liens (ou les relations) qui relient
les concepts formels. Cette approche fonctionne sur trois modules :
Le premier module est le RCFmodeler qui prend en entrées deux ontologies en format
OWL et génère en sortie une structure FCR. La FCR consiste à extraire les concepts et
les relations des deux ontologies, et de les regrouper dans des contextes. Donc, le
résultat sera une structure contenant un contexte pour les concepts, un contexte pour
les rôles (relations), et des contextes pour les interrelations (target, domaine, source et
range).
Le deuxième module correspond à un moteur ARC qui exploite la structure FCR
générée précédemment pour construire deux treillis pour le contexte des concepts et le
contexte des rôles, et ce, en mentionnant à chaque nœud les extents et les intents. Le
résultat est une structure FTR (Famille de Treillis Relationnelle), cette structure
correspondant à un groupe de treillis.
Le troisième module consiste à construire l'ontologie fusionnée à partir de la FTR du
deuxième module. En outre, ce module effectue l'extraction des concepts, des
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 64
relations, des propriétés, la création des liens d'héritage, l'extraction des concepts
pertinents, etc. Le résultat est une ontologie fusionnée en format OWL.
2.7.3 Réutilisation des ontologies
La réutilisation des ontologies est une question qui suscité l’intérêt de plusieurs
recherche telles que (Fernandez, et al., 1997) et a soulevé un certain débat auprès de la
communauté scientifique. En effet, de nombreux auteurs considèrent que les ontologies sont
non réutilisables. Bachimont (2000) affirme que par leur méthode de construction et les
travaux epistémologiques qui les supportent, leur réutilisation est impossible. De la même
façon, Charlet considère que « les ontologies sont des artefacts construits en fonction d'une
tâche précise et ne peuvent être réutilisées, en tant qu'objet formel, pour une autre tâche. »
(Charlet, 2002). Par contre, selon (Fürst, 2002) les ontologies sont destinées à être réutilisées.
La sémantique qu’elles représentent est liée au cadre applicatif à partir duquel le sens des
termes et concepts est défini. Cependant, la représentation ne dépend pas de l’opération faite
avec l’ontologie. La sémantique de l’ontologie est liée au contexte mais la représentation
n’implique pas que l’ontologie soit utilisée uniquement dans le contexte de sa création. Afin
d’évaluer la réutilisabilité des ontologies plusieurs démarches sont suivies.
La première consiste à considérer une ontologie existante et à décrire les étapes et le
coût impliqués par le processus de réutilisation dans une application donnée. Cette démarche
est suivie notamment par Uschold (1996) qui recommande la création d’ontologies à partir de
la réutilisation d’ontologies existantes plutôt qu’en partant de rien.
Une autre approche consiste à évaluer la réutilisabilité de l’ontologie par rapport à
certains critères voire tels que les notions de précision (évaluer la quantité de connaissance
correctement identifiée dans l’ontologie par rapport à toute la connaissance contenue dans
l’ontologie en fonction de la tâche à réaliser) et de rappel (la quantité de connaissance
correctement définie dans l’ontologie par rapport à la connaissance qui devrait être identifiée)
(Salton, 1971).
D’autres solutions ont aussi été proposées pour permettre l’évaluation d’une ontologie.
Elles peuvent être regroupées en deux types d’analyse: l’analyse qualitative ou l’analyse
quantitative (Hernandez & Mothe, 2006). Une analyse qualitative consiste à évaluer une
ontologie ou ses parties et à mesurer son taux de pertinence. Guarino (1997) et Gomez-Perez
(1999) proposent des critères fondés sur les principes utilisés lors de la construction de
l’ontologie qui sont:
la consistance de l’ontologie : la possibilité d’obtenir des conclusions contradictoires à
partir des inférences possibles sur l’ontologie est ici évaluée,
la complétude de l’ontologie : l’ontologie recouvre toute la connaissance qu’elle est
censée représenter et chacune de ses définitions contient bien tous les éléments
nécessaires,
la concision de l’ontologie : l’ontologie ne contient pas de connaissance inutile ou
redondante,
l’expansibilité de l’ontologie : l’ajout de connaissance dans l’ontologie est possible,
Intégration des données par fusion des Ontologies
F.Z Abdelouhab Page 65
la sensibilité de l’ontologie : le changement d’une définition n’altère pas toutes les
autres définitions.
Ces critères restent cependant très théoriques et nécessitent leur évaluation par les
concepteurs de l’ontologie. Une analyse quantitative consiste quant à elle à évaluer la
réutilisabilité d’une ontologie par rapport à son efficacité dans la réalisation d’une tâche
donnée. Une évaluation de ce type consisterait par exemple à prendre plusieurs ontologies
différentes et à exécuter une même tâche avec chacune d’entre elles, puis à comparer les
résultats obtenus.
Les travaux autour de la question de la réutilisation des ontologies visent donc à prendre
en charge d’abord la tâche de comparaison de concepts au sein d’une ontologie : c’est, en
effet, via cette comparaison que l’on pourra décider de la fusion. Selon (Pinto & Martins,
2001), on peut étudier la réutilisation d'ontologie sous deux points de vue:
La construction d'ontologie, par l'assemblage, l'extension, la spécialisation et
l'adaptation d'autres ontologies qui seront des parties de l'ontologie créée. Elle est
appelée "intégration d'ontologie". Elle se présente lors de la réutilisation d’une
ontologie pré-existante afin d’en construire une nouvelle. L'avantage de l'intégration
d'ontologie est que, pourvu qu'un ensemble de petites ontologies modulables et
hautement réutilisables soit disponible, de larges ontologies peuvent être plus
facilement assemblées. Ces petites ontologies doivent bien entendu être modifiées et
adaptées avant d'être assemblées. L’intégration est particulièrement intéressante
lorsqu’elle permet de réconcilier les différences entre les diverses sources de
connaissances tout en maintenant leur autonomie.
La construction d'une ontologie par la fusion de diverses ontologies de même sujet ou
de sujet proche, en une seule qui les unifie toutes. La fusion serait finalement un type
d'intégration particulier.
2.8 Conclusion
La fusion d’ontologie est un thème devenant de plus en plus fondamental et inhérent à
l’actualité du Web sémantique. L’attendue de l’universalité scientifique d’aujourd’hui
converge vers l’idée que la connaissance intrinsèque est elle-même un processus incrémental
de connaissances englobantes et généralisées. A l’heure où le niveau d’abstraction est en
parfaite montée, on peut imaginer que l’on devrait pouvoir construire des ontologies
génériques pour des grandes classes d’applications. La fusion des ontologies nous permet
d’arriver à ce but et de construire des connaissances qui couvrent tout un domaine au lieu
d’une application. Elle présente aussi de nombreux enjeux (Bellatreche, et al., 2006), (Klein,
2001) mais elle reste, toutefois une opération plus complexe qu'une simple intégration
puisqu'il y aura certaines vérifications syntaxiques, sémantiques et lexicales, ou encore une
vérification de la cohérence du modèle global généré.
Le chapitre suivant introduit en détail la notion d'alignement, qui est vue comme un processus
capital pour garantir l'interopérabilité sémantique entre les ontologies.
Chapitre Troisième
Mises en correspondance des
ontologies
Chapitre3
3.Mises en correspondance des
ontologies
Comme nous l’avons expliqué dans le chapitre précédent, les ontologies sont
confrontées de façon continue aux problèmes d'hétérogénéité à savoir : l'hétérogénéité
syntaxique, terminologique, conceptuelle et sémiotique. Dans ce cadre, l'alignement s'impose
comme une solution, afin de permettre l’interopérabilité et le partage des données. Etant
données deux ontologies, l’alignement consiste en la production d’un ensemble de
correspondances entre les entités. Ces entités peuvent être des concepts, des propriétés ou
encore des instances (Djeddi, 2013).
L’alignement d’ontologie (encore appelé recherches de mapping, appariement ou mise
en correspondance) est aujourd’hui un problème bien connu. Ce thème de recherches très actif
a donné lieu à de nombreux travaux de recherches (Shvaiko & Euzenat, 2013). Dans ce
chapitre nous présentons un état de l’art correspondant aux travaux sur l’alignement des
ontologies qui est au cœur de notre travail. Une première partie de cet état de l’art est ainsi
consacrée à la présentation du processus d’alignement des ontologies et des types de
techniques les plus répandues. La deuxième partie est consacrée à l’alignement des ontologies
en utilisant les règles d’association, un aspect très représentatif à notre problématique. Enfin,
en conclusion nous situons notre travail par rapport à l’existant.
3.1 Définition de l’Alignement
Nous allons tout d’abord définir les termes les plus utilisés dans le domaine de
l’alignement et qui seront rencontrés tout au long de cette thèse :
3.1.1 Terminologies (Klein, 2001)
Correspondances ou Mappings : Les Mappings sont des relations entre les
éléments de deux représentations (ontologies, schémas de bases de données, etc.),
indiquant une similarité relative selon une mesure donnée.
Appariement ou Matching : Le Matching d’ontologies est le processus de
définition d'un ensemble de fonctions permettant de spécifier des
«correspondances » entre termes.
Les méthodes de comparaison ou Matchers : Un Matcher est une fonction utilisée
pour calculer la distance entre deux entités. Les Matchers sont des fonctions qui
peuvent être combinées dans le processus de Matching.
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 68
Alignement d’ontologies: L’alignement d'ontologies est le processus
d’établissement de liens de correspondances entre deux ontologies originales. Il
est appliqué si les ontologies concernées deviennent homogènes entre elles et ceci
tout en les gardant séparées (pas de fusion d’ontologies). Cette catégorie de
Mapping d’ontologies est faite habituellement quand les ontologies sources
appartiennent à des domaines complémentaires.
Fusion d’ontologies : La fusion d'ontologies est le processus de création d’une
seule ontologie rassemblant les connaissances de deux ou plusieurs ontologies
existantes et différentes qui décrivent le même sujet ou appartiennent au même
domaine d’application. L’ontologie générée inclut les informations de toutes les
ontologies sources, mais est plus ou moins inchangée.
Intégration d’ontologies : L'intégration d'ontologies est un processus de
construction d’une nouvelle ontologie qui n'est pas forcément destinée à
remplacer les autres (ces dernières peuvent continuer à être utilisées par ailleurs, à
être mises à jour, à évoluer, etc.). Ces différentes ontologies peuvent être
connexes.
Dans notre cas d’étude nous avons opté pour une intégration des ontologies afin de
garder une certaine autonomie des sources locales.
3.1.2 Le processus d’alignement
Le point le plus délicat à résoudre est la recherche des correspondances entre schémas.
C’est l’action d’associer un élément d’un schéma de données à un élément sémantiquement
équivalent d’un autre schéma. En d’autres termes, faire émerger les similitudes et les
dissemblances des données des sources à intégrer pour définir les correspondances entre
éléments de chacune des sources (Zerdazi & Lamolle, 2005).
Selon Euzenat (2007), l’alignement de structures est le processus de mise en
correspondance des entités qui les composent. Ces structures peuvent être des ontologies, des
schémas XML ou des bases de données. Les liens sémantiques comprennent les relations :
d’équivalence, de généralisation/spécialisation, de chevauchement ou encore
d’incompatibilité. L’évaluation de la véracité de ces liens peut être booléenne ou par le biais
d’autres mesures telles que : les probabilités, les mesures symboliques, les mesures de
similarité.
L’alignement regroupe trois dimensions (Djeddi, 2013): les Entrées, le processus
d’alignement et les Sorties. Comme le montre la Figure3-1 suivante.
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 69
Figure 3-1 Le processus d’alignement
Les Entrées : sont constituées essentiellement des structures destinées à être alignées
et qui peuvent être, des schémas XML, des schémas relationnels, des ontologies (des
schémas OWL). Dans notre cas nous utilisons des schémas OWL. Les entrées peuvent
être enrichies par un alignement en entrée appelé référence.
Le processus d’alignement : Comme le montre la Figure3-1 il peut être considéré
comme une fonction 𝑓, qui à partir d’une paire d’ontologies 𝑂1, 𝑂2 et un alignement
en entrée 𝐴 (optionnel), un ensemble de paramètres 𝑃 (ex : paramètres de pondération,
seuils …) et un ensemble de ressources externes 𝑅 (ex : thésaurus, lexique, etc.),
détermine un alignement entre ces deux ontologies : 𝐴’ = 𝑓 (𝑶𝟏, 𝑶𝟐, 𝑨, 𝑷,𝑹).
Les Sorties : est un ensemble d’alignement reliant les entités qui composent les deux
ontologies. Un alignement est décrit comme un ensemble de cinq éléments
<𝑖𝑑, 𝑒, 𝑒’, 𝑟, 𝑛> telle que ;
𝑖𝑑: identifiant unique d’un mapping,
𝑒 : une entité, à aligner, appartenant à 𝑂1 (classe, propriété, contrainte, instance),
𝑒′: une entité, à aligner, appartenant à 𝑂2,
𝑟: la relation qui relie 𝑒 à 𝑒’ 𝑛: la mesure de confiance de la relation r, généralement une valeur réelle comprise
dans l’intervalle [0,1]. Plus le 𝑛 est proche du 1, plus la relation est considérée comme
étant forte.
3.1.3 Extraction de l’alignement
L’identification de l’alignement passe généralement par deux étapes : la première
consiste à calculer une matrice de similarité ou un alignement initial. La seconde consiste à
extraire les correspondances qui composent l’alignement final en opérant sur la matrice de
similarités ou sur l’alignement initial produit à l’étape précédente. D’autre part, les méthodes
d’extraction des alignements existantes peuvent être classées en deux catégories (Euzenat &
Shvaiko, 2007) : les méthodes interactives qui font intervenir l’utilisateur dans le processus
d’extraction et les méthodes automatiques qui procèdent sans son intervention. Selon les
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 70
Application/Tool1 (semantic-web)
Application/Tool2 (E-commerce)
Application/Tool3 (DataWarehousing)
Application/Tool4 (Schema Integration)
Schema import/export
Internal schema representation
Generic match implementation General
Librairies
auteurs l’approche interactive est meilleure que l’autre dans les applications où un large
ensemble de données est mis en jeu.
3.2 Alignement des ontologies
Selon Bouzeghoub (2008), le processus d’Alignement est l’un des éléments
fondamentaux du processus d'intégration d'ontologies. Il permet d’analyser et de comparer
des ontologies pour déterminer les correspondances structurelles et sémantiques entre leurs
concepts. Le résultat du processus d’alignement est un ensemble de liens de correspondances
qu’il faudra, par la suite, interpréter pour en tirer la sémantique sous-jacente. Dans notre
travail nous employons ces liens pour détecter les points de fusion entre les ontologies locales.
Pour faire correspondre les différentes ontologies, deux étapes sont nécessaires :
1. s’abstraire de la différence entre les langages d’ontologies utilisés (par exemple en
traduisant les ontologies dans un même formalisme de représentation),
2. chercher les concepts équivalents à apparier en tenant compte des différences de
conceptualisation, de description de cette conceptualisation et de terminologie.
3.2.1 Domaine d’application de l’alignement des ontologies
Depuis le début des années 2000, on a pu remarquer un engouement certain envers les
méthodes d’alignement des schémas qu’ils soient ontologiques ou autre. Plusieurs
applications utilisent cet alignement des schémas. Par exemple, dans le domaine des bases de
données, il est utilisé pour le passage d’un schéma objet au schéma relationnel ou pour la
médiation des schémas des données intégrées. Dans les domaines bases de connaissances et le
web sémantique il est utilisé pour l’alignement des ontologies. Il est aussi très utilisé dans le
domaine de la santé, dans les applications WEB ou encore dans le e-commerce. Dans
(Sheikhnajdy, et al., 2011) une architecture des applications utilisant l’alignement est
représentée comme suit : Figure3-2
L’alignement est devenu un concept incontournable de nos jours et ceci dans plusieurs
domaines d’application comme le précise (Djeddi, 2013). Nous en citons quelques exemples.
Figure 3-2 Architecture des applications d’Alignement
(Sheikhnajdy, et al., 2011)
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 71
La construction d’ontologies : ces dernières années, le maître mot dans la démarche
de construction des ontologies est la réutilisation d’ontologies déjà existantes, car la
construction d’ontologies à partir de zéro (from scratch) est un processus long,
couteux et très laborieux. Parallèlement, elle accentue le phénomène de
l’hétérogénéité des ontologies, multipliant le nombre d’ontologies décrivant le même
domaine. Dans ce contexte, l’alignement des ontologies est la solution pour réaliser
l’intégration et le rapprochement de ses différentes structures.
L’évolution des ontologies : Beaucoup d’ontologies sont en continuelle évolution et
de ce fait, plusieurs versions de la même ontologie sont disponibles, mettant les
développeurs et les ingénieurs de la connaissance dans la confusion, ne sachant pas ce
qui a changé. L’alignement va permettre d’identifier les différences entre deux
versions ; les entités qui ont été ajoutées, supprimés ou renommés.
L’intégration d’information : C’est une application classique de l’alignement
d’ontologies, elle comprend l’intégration des schémas, les entrepôts de données,
l’intégration des données et l’intégration des catalogues. Les ontologies jouent un rôle
clé en intégration de sources d’information multiples et hétérogènes. Les sources de
données sont transformés en ontologies locales qui sont alignées par rapport à une
ontologie globale, les alignements obtenus aident à générer les médiateurs qui, à leurs
tours, transforment les requêtes adressées à l’ontologie globale en requêtes pour les
sources d’information locales et traduisent les réponses dans l’autre sens. C’est ce
contexte qui intéresse nos recherches.
Les applications Pair-to-Pair : P2P est un modèle de communication distribué dans
lequel les pairs ont des capacités fonctionnelles équivalentes dans les échanges de
données et de services (Zaihrayeu, 2006). Dans ce contexte, il est difficilement
imaginable que tous les participants s’accordent sur l’utilisation d’une même
représentation sémantique (schéma, ontologie, graphe conceptuel). Dans ce cas, le
système est sémantiquement hétérogène. Ceci est un frein à l’interopérabilité
sémantique. La découverte de nouveaux Mappings consiste à identifier les éléments
de l'ontologie d'un pair donné qui permettent d'identifier des mises en correspondance
jugées intéressantes puis à sélectionner les éléments de pairs distants avec lesquels il
est pertinent de les aligner.
La composition des services web : Les services web sont des processus qui exposent
leurs interfaces aux utilisateurs du web qui les invoquent. Les services web
sémantiques fournissent un moyen plus riche et plus précis de décrire les services à
travers les langages de représentation des connaissances et des ontologies (Fensel, et
al., 2007) (Henni, 2015). Par exemple, un service web fournit la description de son
output à l’aide d’une ontologie et un autre service web utilise une seconde ontologie
pour décrire son input. Aligner ces deux ontologies permettrait de vérifier si ce qui a
été délivré par le premier service correspond à ce qui était attendu par le second
service.
La communication entre agents : Lorsque deux agents autonomes et conçus
indépendamment se rencontrent, ils ont la possibilité de s’échanger des messages mais
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 72
peu de chances pour se comprendre s’ils ne partagent pas le même langage et la même
ontologie. L’alignement de leurs ontologies respectives intervient à ce niveau pour
traduire les messages ou bien intégrer des passerelles entre leurs axiomes dans le
modèle propre à chaque agent (pour pouvoir interpréter les messages).
Le Web Biomédical : Le domaine biomédical dispose de standards terminologiques
et thesaurus largement partagés par les communautés biomédicales, qui représentent
un acquis important mais aussi une contrainte forte puisqu’il n’est pas envisageable de
les ignorer. Les ontologies doivent fournir les concepts et les relations utilisés pour le
marquage sémantique des données en vue du Web Sémantique avec une signification
partagée et réutilisable pour différentes applications et différents usagers.
L’alignement des ontologies aide à trouver rapidement sur le Web, une information
scientifique récente.
3.2.2 Les approches d’alignement des ontologies
Depuis l’apparition de la notion du Web sémantique divers travaux de recherche sur
l’alignement des ontologies se sont lancés. Conséquence de cette diversité ; il est parfois
difficile d’appréhender l’ensemble des travaux qui ont été effectués autour de ce thème car ils
se distinguent par les buts poursuivis ainsi que les différentes méthodes de comparaison
utilisées dans le processus d’alignement. Euzenat et Shvaiko (2007) proposent une
classification intéressante des méthodes d’alignement à partir de laquelle nous pouvons
distinguer deux approches importantes d’alignement: l’alignement intensionnel et
l’alignement extensionnel. Le premier vise à établir des similarités linguistiques ou
structurelles entre des termes extraits de différents schémas. Le deuxième, dit sémantique,
vise à établir une similarité entre des concepts en fonction du nombre d’instances qu’ils ont en
commun.
Dans la littérature, plusieurs méthodes d’alignement d’ontologies ont été proposées. Ces
méthodes exploitent des ontologies décrites dans différents langages (RDF(S), DAML+OIL,
OWL, etc.) :
Les méthodes d’alignement ANCHOR-PROMPT (Noy, 2004), QOM (Ehrig & Staab,
2004) et ASCO1 (Bach, 2006) exploitent des ontologies décrites avec le langage RDF(S).
Les méthodes d’alignement OLA (Euzenat, et al., 2007) et EDOLA (Zghal, et al.,
2007a), (Zghal, et al., 2007b) alignent des ontologies représentées avec le langage OWL-Lite.
La méthode ASCO21 (Bach, 2006) considère des ontologies OWL-DL (Smith, et al.,
2004) (Ontology Web Language Description Logic). Étant donné que le langage OWL est un
standard pour les ontologies, toute méthode d’alignement n’exploitant pas ce format présente
un inconvénient. Plusieurs méthodes d’alignement, telles que OLA, ASCO1 et, ASCO2
exploitent un processus de stabilisation de la similarité à travers un seuil pour aboutir à
l’alignement. Ce seuil limite la propagation de la similarité à travers le voisinage.
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 73
3.2.2 Les méthodes de calcul de similarité
On retrouve plusieurs méthodes de calcul de la similarité entre les entités de plusieurs
ontologies. Des classifications de celles-ci sont données dans (Rahm & Bernstein, 2001) ,
(Shvaiko & Euzenat, 2005), (Kalgoflou & Schorlemmer, 2003). Nous retenons :
Les méthodes terminologiques (Levenshtein, 1966), (Monge & Elkan, 1996) :
elles sont employées pour calculer la valeur de similitude des entités textuelles,
telles que des noms, des méta-données sur les noms, des étiquettes, des
commentaires,…
Les méthodes linguistiques utilisant des ressources externes (dictionnaires,
taxonomies,…) : la similarité entre deux entités représentées par des termes est
calculée à partir des liens sémantiques déjà existants dans les ressources externes
(Sabou, et al., 2006), (Safar, et al., 2007).
Les méthodes structurelles internes (Madhavan, et al., 2001) : elles calculent la
similarité entre deux concepts en exploitant les informations relatives à leur
structure interne (restrictions et cardinalités sur les attributs, valeurs des
instances,…).
Les méthodes structurelles externes ou conceptuelles : elles se servent de la
structure hiérarchique de l’ontologie et se basent sur des techniques de comptage
d’arcs pour déterminer la similarité sémantique entre deux entités (Wu & Palmer,
1994), (Resnik, 1999).
Les méthodes extensionnelles : elles déduisent la similarité entre deux entités qui
sont notamment des concepts ou des classes en analysant leurs extensions (leurs
ensembles d’instances). Chaque instance peut être représentée par un vecteur de
noms et/ou de valeurs. Des calculs de similarités entre vecteurs permettent de
comparer les instances (Stumme & Maedche, 2001)
Les méthodes hybrides : elles combinent plusieurs mesures lorsqu’une seule est
insuffisante (Leacock & Chodorow, 1998). Ces méthodes sont intégrées dans des
outils permettant la mise en correspondance d’ontologies.
3.2.3 La classification des méthodes de Matching
Les différentes méthodes de comparaison (matchers) utilisées dans le processus
d’alignement sont basées soit sur le schéma d’ontologie, soit sur les instances et sont
organisées selon la classification ci-dessous (Figure3-3) (Euzenat & Shvaiko, 2007).
Figure 3-3 Classification des Matchers
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 75
L’appariement entre deux entités ontologiques est soit basé sur le schéma d’ontologie
ou basé sur les instances :
Appariement à base de schéma d’ontologies :
Matcher au niveau entité : compare les noms des entités en regardant le label ou
l’identifiant d’un concept. L’approche syntaxique effectue la correspondance à travers
les mesures de dis-similarité des chaines de caractères (par exemple, la distance de
Hamming). L’approche lexicale ou linguistique effectue la correspondance à travers
les relations lexicales (par exemple, synonymie, hyponymie, etc.).
Matcher au niveau structurel : compare les structures internes des entités (par exemple,
intervalle de valeur, cardinalité d’attributs, etc.).
Matcher au niveau sémantique : compare les interprétations (ou plus exactement les
modèles) des entités. Il peut utiliser le voisinage ou les instances associées au concept
pour définir son contexte et comprendre son interprétation.
Appariement à base d’instances :
Deux approches existent pour comparer les ontologies à partir des instances associées
aux concepts d’ontologies :
Soit les deux ontologies à comparer référencent les mêmes instances et dans ce cas le
matcher génère une similarité entre les concepts qui partagent les mêmes instances ;
Soit les deux ontologies à comparer ne référencent pas les mêmes instances et dans ce
cas le matcher fait des recherches par mots-clés dans les instances (souvent des
documents ou autres (fichiers). La similarité est ensuite calculée entre les instances à
l’aide de ces mots-clés. Les classes (concepts) liées à ces instances sont ensuite
appariées.
3.2.4 Les stratégies de combinaison de Matchers
Selon Shvaiko (2005) et repris plus tard par Bernstein (2011) les approches de
Matching se classent en trois:
Matching simple (Individual Matchers): utilise une seule technique de Matching
suivant un seul critère de comparaison, par exemple critère linguistique ou structurel
individuellement.
Matching Hybride (Hybrid Matchers): utilise une seule technique de Matching mais
avec plusieurs critères en même temps par exemple structurel et linguistique.
Matching Complexe (Composite Matchers) : combine les résultats de plusieurs
techniques de Matching en appliquant les techniques des machines d’apprentissage.
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 76
Comme par exemple, les stratégies Workflow-like, Self-tuning match workflows,
Early search space pruning, Partition-based matching, Parallel matching et
Optimisateurs de larges schémas. Ils exécutent les matchers séquentiellement et
indépendamment puis combinent leurs résultats.
Le Matching simple est à la base des autres Matching. La Figure3-4 montre la
classification des approches de Matching selon (Bernstein, et al., 2011) que nous avons
relevée à partir de (Sheikhnajdy, et al., 2011)
Figure 3-4 Classification des approches de Matching
Le Matching structurel (Schema-based) se base uniquement sur les éléments de la
structure à savoir les types des classes, les attributs et les données ainsi que sur les
propriétés des éléments des schémas tels que le nom, le type etc…SemInt (Li &
Clifton, 2000), Similarity Flooding (Melnik, et al., 2002), LSD (Doan, et al., 2003).
Par contre le Matching niveau instance (Instance-based) considère, en plus, le contenu
des données c-à-d les instances elles-mêmes Xylème (Delobel, et al., 2003), AGORA
(Manolescu, et al., 2000), Cupid (Madhavan, et al., 2003), e-XMLMédia (EXML,
2004) dans (Zerdazi & Lamolle, 2005).
Le Matching linguistique est basé sur les techniques de traitement du langage naturel
en exploitant les propriétés morphologiques des termes en entrée. Ces techniques
linguistiques peuvent être enrichies par l’utilisation de bases de données par exemple
les bases de données oracle externes, des dictionnaires, des thésaurus tels que
WordNet, des ontologies spécifiques au domaine qui permettent de déterminer des
relations telles que la synonymie, l’hyperonymie, l’hyponymie (Sellami, 2009).
Le Matching basé-contrainte traite les contraintes appliquées aux entités telles que les
types, la cardinalité des attributs et les clefs.
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 77
D’autres techniques sont apparues incluant des algorithmes utilisant de nouveaux types
d’information, par exemple :
La Matching de graphe : Les schémas en entrée du processus de Matching sont
considérés comme des graphes contenant des nœuds (ou sommets) et des relations (ou
arcs). Souvent la comparaison de similarité entre une paire de nœuds (ou sommets) de
deux schémas est basée sur l’analyse de leur position dans le graphe. L’hypothèse est
que si deux nœuds (ou sommets) de deux schémas de données sont similaires alors
leurs voisins peuvent être aussi similaires (Melnik, et al., 2002).
Le Matching basé sur un référentiel pour la réutilisation : le référentiel stocke les
schémas de données et leurs fragments ensemble avec leurs similarités (des
coefficients entre 0 et 1). L’objectif est qu’avant de déterminer les correspondances
entre des nouveaux schémas de données (schémas ou ontologies), l’utilisateur vérifie
s’ils ont été déjà mis en correspondance avec d’autres schémas de données existants
dans le référentiel. Ainsi, il serait possible d’identifier les schémas de données qui sont
les plus similaires ou les alignements existants à réutiliser.
D’un autre côté, la génération des correspondances peut être faite suivants deux
approches :
Semi-automatique : cette approche nécessite l’intervention d’un expert humain pour
assister et valider les correspondances obtenues. Par exemple, Les travaux de Zedazi
(2005) exploitent les schémas XML extraits lors d’une phase de pré-intégration. Les
correspondances entre les éléments de différentes structures sont soigneusement
spécifiées par un expert humain. Les enrichie par des métaconnaissances sémantiques
utilisées lors de la phase de Matching. Ils améliorent l’intégration des différents
schémas XML étendus (appelé EXS) afin de définir des règles de correspondance
détectant les différences structurelles et sémantiques. A l’issue de cette étape, ils
emploient un ensemble d’opérateurs de transformation d’un schéma EXS à un autre,
mémorisés par un script XSL.
L’avantage des méthodes semi-automatique est l’uniformité de représentation XML et
la manipulation d’un nombre minimal d’entités à savoir des concepts, des relations et des
propriétés les caractérisant. Cependant, ces approches ne permettent pas d’éviter les
problèmes de conflits structurels et sémantiques, l’hétérogénéité sémantique demeure toujours
dans les sources de données relatives à un même domaine sans utiliser les mêmes mots ou
balises pour décrire des informations similaires ou complémentaires.
Automatique : Ces approches ont montré un certain succès dans le cadre de données
textuelles et numériques classiques. Cependant, elles ne sont efficaces que si les noms
des éléments à comparer ont une très forte similarité. Aussi le problème de la
recherche de correspondance sémantique reste entier et demeure insuffisante dans
d’autres types de données telles que les données géographiques.
Dans Elbyed (2009) une bonne classification des approches de Matching est donnée et
une comparaison suivant trois critères est faites. Ces critères sont :
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 78
Les techniques de matching supportées, afin d’étudier et de comparer l’impact des
différentes méthodes de comparaison sur les résultats d’alignement ;
Les langages de représentation de l’ontologie et du mapping afin d’étudier d’une part,
le problème d’hétérogénéité des langages de représentation d’ontologie et d’autre part,
les langages de représentation des correspondances (mapping) ainsi que leurs
réutilisations dans les processus d’intégration d’ontologies ;
L’implémentation et l’expérimentation afin d’évaluer la fiabilité des résultats de
mapping obtenus.
Les différentes techniques citées auparavant peuvent ensuite être utilisées ensemble
dans une composition séquentielle ou parallèle Figure3-5.
3. 2.5. Les outils d’alignement des ontologies
Différents outils ont été développés dans le but d’aligner plusieurs ontologies.
PROMPT est un système interactif constituant une aide pour la comparaison, l’alignement, la
fusion et l’évolution de plusieurs formalismes de représentation des connaissances (Noy,
2004).
OLA (OWL Lite Alignment) est un système implémentant un algorithme d’alignement
des ontologies décrites en OWL. OLA mesure la similarité entre deux entités à partir des
calculs de similarité entre leurs caractéristiques (leurs types : classe, relation ou instance, leurs
liens avec d’autres entités : sous-classes, domaine, …). La valeur de similarité finale est la
somme pondérée des valeurs de similarité de chaque caractéristique (Euzenat, et al., 2007).
AROMA (Association Rule Ontology Matching Approach) est une approche
d’alignement pour des ontologies représentées en OWL. Elle permet de découvrir des liens
sémantiques de type « subsomption » ou « équivalence » entre deux entités (classes ou
Figure 3-5 Composition séquentielle des Matchers Composition séquentielle des Matchers
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 79
propriétés). Le processus d’alignement se déroule en trois étapes : la première procède à
l’acquisition des termes contenus dans les descriptions et instances des entités à partir d’outils
de Traitement Automatique du Langage (TAL). Ensuite, pour chaque entité, ainsi qu’à ses
ancêtres est associé un ensemble de termes dits représentatifs. La deuxième étape permet de
créer des relations de subsomptions entre les entités à partir de règles d’association construites
sur le principe qu’une entité X est plus spécifique ou équivalente à une entité Y si le
vocabulaire utilisé dans les descriptions et les instances de X a tendance à être inclus dans
celui de Y. Enfin, la dernière étape vise à analyser les règles d’associations trouvées afin de :
(1) déduire des relations d’équivalence ; (2) trouver des incohérences (cycles) et de les
éliminer (3) ; supprimer les relations redondantes ; (4) sélectionner le meilleur alignement
pour chaque entité (David, et al., 2007).
ASMOV (Automated Semantic Mapping of Ontologies with Validation) est un système
d’alignement d’ontologies conçu pour l’intégration de sources de données hétérogènes
représentées dans des ontologies. ASMOV permet de produire des mappings entre des
concepts et/ou des propriétés et/ou des instances de deux ontologies (Jean-Mary & Kabuka,
2007).
3.2.6 Les Frameworks d’alignement d’ontologies
Plus récemment, les Frameworks sont apparus dans les systèmes d’alignements
d’ontologies. Leur avantage est qu’ils permettent de multiples combinaisons de stratégies de
calcul de la similarité. Par exemple :
COMA++ (COmbining MAtching) est un système générique de mise en
correspondance de schémas. Il supporte plusieurs types de schémas (XML, Schémas
relationnels) et peut être utilisé dans diverses applications (Do, et al., 2002).
MAFRA (Mapping Framework for distributed ontologies) est un Framework
interactif, dynamique et progressif pour l’alignement d’ontologies distribuées dans le
cadre du Web sémantique (Maedche & Staab, 2001).
FOAM (Framework for Ontology Alignment and Mapping) est un Framework utilisé
dans plusieurs systèmes : QOM1 , NOM2 , APFEL3 … à des fins d’intégration de
données, de fusion d’ontologies, d’évolution d’ontologies,….L’outil implémente
plusieurs mesures et stratégies existantes de recherche de similarités et permet de faire
des mappings entre des ontologies décrites en OWL (Ehring, 2007).
RiMOM (Risk Minimisation based Ontology Maping) est un Framework interactif
implémentant plusieurs stratégies pour l’alignement d’ontologies (Tang, et al., 2006).
Le processus est itératif avec, une validation des résultats à chaque itération.
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 80
3.2.7 Comparaison des différents outils et Frameworks
Les outils et Frameworks que nous avons cités précédemment sont pour la plupart,
considérés par l’OAEI parmi les meilleurs systèmes d’alignements. Leur principale différence
réside dans la stratégie utilisée pour découvrir la similarité entre deux entités. Dans la plupart
des cas, sont utilisées des mesures de similarité terminologique et/ou structurelle et/ou
extensionnelle.
L’utilisation de plusieurs mesures de similarité donne souvent de meilleurs résultats. Par
contre, ces outils ne précisent pas toujours quels matchers ont été utilisés ni comment les
similarités ont été agrégées. Par ailleurs, il est à noter que les Frameworks sont plus adaptés
pour la réutilisation ainsi que pour la combinaison de mesures de similarité existantes selon
des critères donnés. Ces systèmes diffèrent également au niveau de leur fonctionnement et de
l’interaction qu’ils offrent à leurs utilisateurs. L’intervention d’un expert de domaine dans le
processus d’alignement d’ontologies s’avère souvent essentielle pour éviter des incohérences.
La comparaison des différents outils et Frameworks est reprise dans le Tableau3.1 qui
suit :
Outil Techniques Utilisées Combinaison Algorithme Mappings
ASMOV mesures
terminologiques,
structurelles internes,
conceptuelles et
extensionnelles
correspond à la
somme pondérée des
4 mesures
automatique équivalence
AROMA outils de TAL pour
l’extraction de termes,
règles d’associations
et mesures
terminologiques
utilise une fonction
d’interpolation
linéaire
automatique subsomption
et
équivalence
Anchor Prompt mesures
terminologiques et
structurelles
pas de combinaison
de similarité
Semi
automatique
équivalence
COMA++ mesures
terminologiques et
structurelles
est fonction des
choix de mesures
Semi
automatique
équivalence
MAFRA mesures
terminologiques,
structurelles et
extensionnelles
pas de combinaison
de similarité
Semi
automatique
équivalence
(ponts
sémantiques)
FOAM mesures
terminologiques et
structurelles
est fonction de
caractéristiques
retenues par
l’utilisateur
Semi
automatique
équivalence
RiMOM mesures
terminologiques,
structurelles et
dépend de la
similarité supposée
entre les ontologies
automatique équivalence
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 81
extensionnelles (structurelle ou
terminologique)
Tableau 3.1. Comparaison des différents outils et Frameworks (Ziani, 2010)
On retrouve des outils qui combinent plusieurs méthodes de similarité ou qui intègrent des
Frameworks implémentant plusieurs mesures et permettant ainsi de suggérer à l’expert
plusieurs mappings.
3.3 Alignement extensionnel des ontologies
On constate aujourd’hui une omniprésence des connaissances, en même temps qu’un
décloisonnement des communautés de recherche en Intelligence Artificielle. Ainsi, la
construction des systèmes à base de connaissances fait appel à l’ingénierie des connaissances,
au traitement automatique des langues, à l’apprentissage automatique et à la fouille de
données. Les ontologies sont à l’heure actuelle au cœur de tous les travaux menés sur les
connaissances pour lever le voile sur des ambiguïtés sémantiques et syntaxiques. Leur champ
d’application ne cesse de s’élargir et couvre les systèmes d’aide à la décision, les systèmes de
résolution de problèmes ou les systèmes de gestion des connaissances (Euler & Scholz,
2004), (Brisson & Collard, 2008) et (Brahmi, et al., 2012).
3.3.1 Alignement Extensionnel des Ontologies : Etat de l’Art
L’alignement extensionnel regroupe un ensemble d’approches autour de l’idée que les
concepts d’une ontologie peuvent être représentés comme des ensembles d’instances et la
similarité mesurée sur ces ensembles reflète la similarité sémantique entre les concepts que
ces instances peuplent (Todorov, et al., 2014). Ces méthodes extensionnelles réalisent,
d’abord, un prétraitement sur les instances visant à redéfinir les ontologies sur une extension
commune. De ce fait, nous distinguons deux types d’approches :
les méthodes fonctionnant par augmentation en utilisant la classification supervisée
telles que GLUE (Doan, et al., 2003), oMap (Straccia & Troncy, 2005), OplMap
(Nottelmann & Straccia, 2006), QOM (Ehrig & Staab, 2004), RiMOM (Tang, et al.,
2006) et SBI-Hical (Ichise, et al., 2004). Ces dernières utilisent la classification
probabiliste en s’appuyant sur le modèle bayésien-naïf. Elbyed (2009) par sa méthode
ROMIE utilise la mesure de Jaccard probabiliste pour comparer les ensembles des
instances des concepts à apparier.
les méthodes se basant sur des approches de réindexation de l’extension telles que
CAIMAN (Lacher & Groh, 2001), V-Doc (Qu, et al., 2006) et SCM (Hoshiai, et al.,
2004). Ces dernières estiment que la similarité entre deux concepts se base sur la
distance entre les vecteurs-moyens des classes d’instances qui peuplent ces concepts.
D’une étude comparative synthétique d’une vingtaine de méthodes extensionnelle
donnée par David (2007), il en résulte qu’une grande majorité des méthodes sont
basées sur des combinaisons de mesures de similarité. Par conséquent, elles permettent
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 82
de détecter seulement des relations d’équivalence entre entités. Les seules méthodes
considérant la relation d’implication sont uniquement basées sur une reconnaissance
stricte de cette relation à partir d’une base de données lexicale.
3.3.2 Alignement extensionnel : Règles d’association
Une étroite connectivité est créée, notamment, entre les ontologies et la fouille des
données de sorte que bon nombre d’ontologies ont prouvé leurs compétences dans l’extraction
des règles d’association. Tout au long du processus d’ECD (Extraction des connaissances à
partir des données) des ontologies ont été mises à l’épreuve. Les chercheurs exploitent leur
puissance sémantique soit dans la phase de préparation des données (Hou, et al., 2005)
(Bellandi, et al., 2008), (Zeman, et al., 2009) où les données sont levées au rang des concepts
généralisés et, donc, les règles extraites ont plus de chance d’être plus significatives et faciles
à interpréter. Soit dans la phase de post-traitement (Brisson & Collard, 2008). Une autre
utilisation de l’ontologie (Antunes, 2007) en tant que recueil de conditions pour établir des
contraintes d’abstraction, pour la généralisation de certains items, et d’élagage pour en
exclure d’autres de l’analyse. Plus loin encore, l’utilisation d’une ontologie floue pour extraire
des règles d’associations exprimant des associations floues entre les données (Escovar, et al.,
2006), (Miani, et al., 2009).
Marinica et Guillet (2010) proposent l’intégration des connaissances de l’utilisateur
dans la découverte de règles d’association afin de réaliser une phase de post-traitement plus
efficace. Plus précisément, ils intègrent d’une part, des ontologies de domaine associées aux
attributs de la base de données, et d’autre part, des schémas de règles généralisant les
impressions générales afin de sélectionner les règles intéressantes. Les auteurs de (Mansingh,
et al., 2011) proposent une approche qui combine les connaissances représentées dans une
ontologie d’application avec une mesure objective de fiabilité pour créer des partitions
significatives dans l’ensemble des règles d’association extraites.
Réciproquement, d’autres recherchent utilisent des règles d’association pour améliorer
l’exploitation des ontologies. A titre d’exemple, l’utilisation des règles d’association pour
l’évaluation de la qualité globale des données (Hipp, et al., 2001) ou pour la construction de
modèles permettant la détection des anomalies et des contradictions dans les données (Berti-
Equille, 2007). On note aussi une autre approche permettant d’apprécier la qualité des
données moyennant les règles d’association (Wei, et al., 2007). Aussi, l’utilisation des règles
d’association pour l’analyse des corrélations négatives, du type B est rarement acheté quand
A est acheté, données par la règle 𝐴7𝐵 (McClanahan, 2008). Et enfin, les règles
d’association pour l’appariement des ontologies par la méthode AROMA (David, et al.,
2007). Cette méthode permet de détecter des relations d’implication entre entités issues de
deux hiérarchies de textes ou d’ontologies en s’appuyant sur les données textuelles contenues
dans l’extension (instances) et dans les annotations (nom, commentaire, etc.). Nous nous
sommes largement inspirés de cette méthode, considérée par l’OAEI parmi les meilleurs
systèmes d’alignement, pour développer notre propre approche d’alignement extensionnel des
ontologies.
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 83
3.4 Alignement des ontologies et le passage à l’échelle
Un autre point important à prendre en considération qui motive les recherches actuelles
est le caractère large échelle de l’alignement. La problématique d’alignement se pose avec
acuité lorsque le nombre et le volume des schémas de données sont importants. En effet, dans
les domaines d’applications réelles où les ontologies sont volumineuses et complexes, les
exigences de l’exécution du temps et de l’espace mémoire sont les deux facteurs significatifs
qui influencent directement la performance d’un algorithme d’alignement (Djeddi, 2013).
Nous distinguons deux visions clés (Sellami, 2009):
les schémas de données en entrée sont volumineux (exemple les ontologies de grande
taille), on parle alors d’un alignement deux-à-deux ou « pair-wise »
le nombre des schémas de données qui doivent être mis en correspondance concernent
un ensemble de schémas de données sources et cibles qui sont de surcroit nombreux,
(plus de deux ontologies en entrée) il est dit l’alignement « holistique ».
3.4.1 Alignement pair-wise
L’alignement pair-wise permet de déterminer les correspondances uniquement entre
deux schémas/ontologies volumineux à la fois (un schéma/ontologie source et un autre cible).
La mise en correspondance des entités des ontologies peut s’avérer inefficace voire
impossible lorsque les ontologies à aligner sont de tailles volumineuses. Plusieurs travaux
d’alignement des ontologies à large échelle (les ontologies volumineuses) ont été proposés
dans la littérature (Sellami, 2009) utilisant autant d’approches différentes basées sur
différentes stratégies et techniques d’optimisation et qui visent à améliorer la qualité et la
performance de l’alignement de deux ontologies volumineuses.
D’une manière générale ces travaux procèdent tous à un prétraitement sur les ontologies
en entrées avant d’entamer leur alignement. En effet, ils précédent le processus d’alignement
soit par un algorithme de partitionnement soit par un algorithme de décomposition
(modularisation) et qui permettent de décomposer respectivement des ontologies
volumineuses en des blocs ou en modules d’ontologies. Ces algorithmes peuvent générer des
sous-parties des ontologies à aligner séparément. La taille de ces parties étant généralement
paramétrable et peut donc être adaptée aux outils d’alignement utilisés.
Nous pouvons citer la solution de Kasri (2011) qui partitionne les ontologies en blocs
avant de réaliser l’alignement pour diminuer l’espace de recherche des correspondances et
limiter la taille des ensembles des concepts en entrée. Cette solution demeure fragile du fait
qu’il ne doit y avoir aucun bloc isolé et garantir la non perte des alignements et
d’informations. La littérature montre d’autres travaux sur la décomposition des ontologies en
sous-blocs (ou îlots) indépendants les uns des autres (Stuckenschmidt, et al., 2004).
Cependant, cette méthode n’est pas adaptée car le processus de génération des blocs impose
une contrainte sur la taille minimale des blocs générés qui n’est pas appropriée pour
l’alignement. De plus, elle construit beaucoup trop de petits blocs, ce qui a un impact négatif
sur l’étape d’alignement finale. La méthode proposée dans FALCON (Hu, et al., 2006)
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 84
consiste à décomposer en blocs chaque ontologie indépendamment l’une de l’autre, en
utilisant la méthode de clustering ROCK (Robust Clustering Using Links) (Guha, et al.,
2003), puis à mesurer la proximité de chacun des blocs d’une ontologie avec chaque bloc de
l’autre ontologie de façon à n’effectuer l’alignement qu’entre les concepts des paires de blocs
les plus proches. Pour construire la partition, alors que ROCK considère que les liens entre les
concepts ont tous la même valeur, FALCON introduit la notion de liens pondérés qui s’appuie
principalement sur une mesure structurelle de similarité entre concepts.
Les travaux de Grau (2005) se concentrent plus particulièrement sur les problèmes de
raisonnement et cherchent à construire des modules centrés autour de sous-thématiques
cohérentes et auto-suffisantes pour raisonner, garantissant que tous les concepts reliés par des
liens de subsomption sont regroupés dans un seul module. Pour des ontologies comportant des
dizaines de milliers de relations, ce type de contrainte peut conduire à la création de modules
de tailles très mal réparties, inutilisables pour l’alignement.
Tableau3.2 Comparaison des stratégies de partitionnement et modularisation (Sellami, 2009)
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 85
En conclusion nous pouvons dire que les deux stratégies présentent une limite principale
qui est le risque de perte des bons candidats à l’alignement et la sélection des mauvais
candidats.
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 86
3.4.2 Alignement holistique
Les approches holistiques peuvent être appliquées sur plusieurs ontologies à la fois mais
qui sont de petite taille. Ces petites ontologies sont, plutôt, considérées comme des petites
interfaces web. Plusieurs approches d’alignement holistique ont été proposées et citées dans
(Sellami, 2009) utilisant les stratégies statistiques et par regroupement pour améliorer les
performances de leurs alignements.
Une stratégie statistique telle que le test du Khi-deux (X²) permet d’évaluer la différence
entre les probabilités estimées et les fréquences observées. L’alignement holistique dans cette
approche est basé sur la détermination de la cooccurrence des attributs entre les schémas.
Cependant, cette approche ne donne de bons résultats que si une évidence peut être observée.
En effet seuls les attributs qui apparaissent fréquemment peuvent être mis en correspondance.
La stratégie de regroupement vise à réaliser le regroupement des attributs qui se ressemblent
le plus selon leur similarité contextuelle. L’alignement dans cette approche utilise
l’algorithme de K-means ou un corpus de schémas.
Tableau3.3 Comparaison des stratégies statistique et de regroupement. (Sellami, 2009)
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 87
De là nous pouvons dire que les approches d’alignement holistiques présentent
l’avantage d’être fiables ; donc pas de perte d’information. Ceci se justifie par le fait que les
ontologies en entrée sont de petite taille et regroupent donc très peu d’attributs. Cependant,
elles présentent le même inconvénient que les précédentes qui est la non prise en
considération du temps de traitement et la complexité exponentielle de certains algorithmes
utilisés.
Une étude intéressante réalisée dans (Sellami, 2009) permettant de comparer les deux
types d’alignement paire-wise et holistique. Il en découle que les stratégies utilisées dans les
approches deux à deux (pairwise) ont comme inconvénient le risque de perte des bonnes
correspondances contrairement aux stratégies holistiques qui offrent des valeurs élevées de
fiabilité. Ceci s’explique par le fait que les approches deux à deux traitent des schémas
volumineux contrairement aux stratégies holistiques. Cependant, les approches deux à deux
ont pour avantage d’améliorer les performances en termes de temps d’exécution et ceci en
limitant l’espace de recherche grâce aux stratégies qui décomposent les schémas de données.
Alors que les stratégies holistiques s’appuient plus sur l’aspect fiabilité et n’offrent aucune
indication concernant le temps de traitement. Un nouvel outil a été proposé Porsche
(Performance Oriented Schema Matching) qui se base sur la combinaison des approches pair-
wise et holistique (Sellami, 2009). C’est un outil de médiation et d’intégration de schémas qui
implémente une approche hybride. Il crée de manière incrémentale un schéma intégré qui
englobe tous les schémas tout en définissant leurs correspondances et le schéma intégré.
3.5 Conclusion
Nous avons présenté dans ce chapitre un bon nombre d’outils d’alignement existants qui
génèrent de bons résultats dans certains cas et de moins bons dans d’autres, ces résultats étant
fonction des caractéristiques des ontologies à alignés. Ce constat oriente les recherches dans
trois directions principales : le choix de la technique d’alignement la plus adaptée, la
combinaison des technique d’alignement la plus appropriée, et le réglage des paramètres
(seuil, confiance de formule etc...) utilisés au sein des techniques d’alignement mises en
œuvre (Hamdi, et al., 2010). A côté de ces caractéristiques, il est à considérer aussi leur taille.
La synthèse de cette étude comparative nous mène à poser des éléments de réponse sur
lesquels nous nous inspirons:
Pour arriver à un pivot sémantique favorisant l’intéropérabilité, il faut traduire toutes
les ontologies en un langage expressif.
Pour arriver à un Matching fiable il faut le renforcer par un Matching sémantique en
exploitant les ressources ou les instances des ontologies.
Pour réduire les fausses correspondances et les contradictions entre les mappings
obtenus, il faut aussi utiliser, en plus des filtrages à base de seuil, les liens
hiérarchiques et sémantiques entre les concepts de chaque ontologie.
Dans notre approche, le but consiste à analyser et à exploiter les instances attachées aux
ontologies d’entrées afin d’enrichir leur sémantiques et d’améliorer les résultats du processus
Mises en correspondance des ontologies
F.Z. Abdelouhab Page 88
de l’alignement intensionnel réalisé en amont. Pour cela, notre approche s’inscrit dans le
cadre de l’utilisation d’une méthode formelle afin d’aligner des ontologies locales aux
différentes PMI. Ces ontologies sont relativement de petites tailles et de surcroît, nombreuses,
nous nous situons donc dans une approche d’alignement holistique. Pour ce fait nous nous
sommes orientés vers la modélisation par les automates cellulaires. Ces derniers jouissent
d’une maturité dans les calculs et d’une optimisation de la complexité très maîtrisée.
L’utilisation du principe de base des automates cellulaires pour modéliser le processus
de fusion des ontologies est une idée originale parce qu’à notre connaissance aucun
algorithme de fusion des ontologies utilisant ce principe n’a été défini à ce jour. Cette idée est
née, au sein de notre équipe AIR de LIO, suite au problème de regroupement des concepts
similaires. Nous considérons ce dernier comme un véritable problème de mise en
correspondance. Nous avons développé cette idée en décrivant les ontologies sous forme
de règles d'association, chaque règle décrit une relation d’association entre les éléments de
l’ontologie (classe, objet, attribut..) ce qui représente pour les automates cellulaires un
véritable domaine de prédilection comme le montrent les travaux de (Azzag & Lebbah, 2011)
sur la classification des données par automates cellulaires.
Certaines approches montrent des lacunes parce qu’elles sont soit semi-automatiques,
soit complexes. Pour cette raison, nous allons proposer dans les chapitres suivants une
méthodologie visant un alignement automatique d’ontologies en s’appuyant sur le modèle
mathématique de la machine cellulaire 𝐶𝐴𝑆𝐼 (Atmani & Beldjilali, 2007).
Chapitre Quatrième
Une approche cellulaire
d’intégration
par la fusion des ontologies
Chapitre4
4.Une approche cellulaire d’intégration
par la fusion des ontologies
A travers les chapitres précédents nous avons pu souligner que les ontologies
devenaient, de plus en plus, des modèles de représentation et de stockage d'informations très
efficaces facilitant le traitement et la gestion des connaissances à travers les techniques de
l'Intelligence Artificielle, et offrant le potentiel d'assemblage d'une grande quantité
d'informations à travers ce qu'on appelle « la fusion d'ontologies » (Zimmermann, 2013).
Celle-ci définit l’interprétation d’un véritable réseau de connaissances dont la complexité se
heurte à une explosion du nombre et de la taille des ontologies à fusionner. En effet, les
techniques d’alignement et de fusion mettant en œuvre des calculs complexes, se retrouvent
limitées de point de vue fiabilité et doivent, en plus, faire face à un nouveau défi qui est le
passage à l’échelle.
Notre contribution dans ce sens, est une approche cellulaire pour la fusion automatique de
plusieurs ontologies en entrées que nous proposons pour apporter une solution originale aux
problèmes de fusion des ontologies et au passage à l’échelle. Notre solution déjà publiée
(Abdelouhab & Atmani, 2016) se concentre sur l’optimisation de l’espace de stockage et du
temps de traitement. Pour cela, l’idée expérimentale que nous proposons est d’utiliser le
principe de base de la machine cellulaire 𝐶𝐴𝑆𝐼 (Cellular Automata for Symbolic Induction)
(Atmani & Beldjilali, 2007) pour simuler le processus de fusion des ontologies.
Ce chapitre est dédié à présenter l’aspect conceptuel de notre approche que nous
proposons pour l’intégration des données hétérogènes en utilisant la fusion booléenne des
ontologies. Nous commençons d’abord par motiver nos choix quant à l’utilisation de la
machine cellulaire 𝐶𝐴𝑆𝐼 puis nous donnons la formulation et la modélisation de l’ontologie
en fonction des termes de la modélisation booléenne en utilisant un exemple pédagogique et
quelques captures d’écran des prototypes que nous avons réalisés pour ces fins.
4.1 La machine cellulaire 𝑪𝑨𝑺𝑰
La représentation et le traitement des connaissances sont des questions des plus
importantes dans la conception de n’importe quel système de classification des données, parce
que la représentation utilisée peut réduire la complexité de stockage et diminuer ainsi la
complexité de traitement (Kadem & Atmani, 2010). En l’occurrence, la machine 𝐶𝐴𝑆𝐼 (Cellular Automata for Symbolic Induction) se donne ces mêmes objectifs d’où sa place
prédominante dans cette thèse. Dans la suite de la rédaction, nous ferons référence à la
machine 𝐶𝐴𝑆𝐼 par les termes « modélisation booléenne » car nous l’utilisons beaucoup plus
en tant que tel plutôt qu’en tant que machine cellulaire dans le sens d’un automate cellulaire.
La modélisation booléenne (Atmani & Beldjilali, 2007) est une contribution à la
conception d’architecture parallèle dont l’idée de base est de présenter une machine cellulaire
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 91
avec deux couches, simulant le fonctionnement du cycle de base d’un moteur d’inférence
d’un système expert. Le principe booléen est utilisé dans la construction des arbres de
décision par apprentissage automatique pour générer des règles conjonctives. La
représentation cellulaire facilite énormément la transformation des règles dans des
expressions booléennes équivalentes, et l’algèbre booléenne élémentaire s’apprête bien pour
la vérification de plusieurs simplifications.
La modélisation booléenne a fait l’objet d’étude dans plusieurs travaux de recherches
sur le datamining où elle a été utilisée comme une base pour la modélisation et l’extraction
des connaissances. La majorité de ces travaux ont fait l’objet de publications internationales
dont nous pouvons citer quelques-uns :
Benamina et Atmani (2008) ont proposé un système booléen d’extraction et de gestion
des connaissances dédié à la fouille de données qui permet, à partir d’une base de données
(cas pratiques), de faire coopérer un système booléen d’extraction automatique de règles et un
système à base de connaissances booléennes pour la construction d’un modèle de prédiction.
Le système exploite l’environnement de fouille de données offert par la plateforme
TANAGRA pour générer des règles conjonctives utiles pour une acquisition automatique
dans des systèmes experts cellulaires.
Mansoul et Atmani (2009) ont proposé un processus de fouille de données biologiques
du Mycobacterium Tuberculosis responsable de la tuberculose assez novateur pour générer
des connaissances profitables et exploitables à deux niveaux ; d’un côté, profitables au
spécialiste du domaine, à travers l’extraction de motifs en particulier les règles d’association
qui aident à mieux comprendre la pathologie. De l’autre, ces règles d’association extraites
sont modélisées par le principe booléen adopté par la machine cellulaire CASI.
Sabri et Atmani (2010) ont proposé un système nommé SARESM (Système
d’Assistance à la Recherche Epidémiologique et de Surveillance des Maladies), qui apporte
aux différents acteurs de la santé publique une assistance à l’établissement de politiques
sanitaires, notamment en matière de planification d’acquisition des produits pharmaceutique,
selon la distribution géographique de leur utilisation établie par rapport à une mesure
pathologique. Leur contribution est de fournir des modèles de prédiction des maladies
chroniques basés sur la modélisation booléenne des graphes d’induction, inspirée du principe
de la machine cellulaire CASI.
Kadem et Atmani (2010) ont réalisé une nouvelle plateforme open source, qui regroupe
plusieurs services web dédiés à l’extraction et la gestion des connaissances, nommée
WS4KDM (Web Services for Knowledge Discovery and Management). Selon les auteurs, le
but, après la modélisation booléenne des règles de classification, est d’affiner le processus
d’extraction de règles à partir de données par une fouille de données orchestrée par CASI.
(Amrani, et al., 2011) ont proposé une nouvelle approche d’une manœuvre inédite de
régulation particulière à savoir le changement d’itinéraire qui induit une reconfiguration
partielle ou totale du réseau de transport urbain. Pour cela, les auteurs ont exploité un langage
de modélisation booléen adopté par le moteur d’inférence cellulaire 𝐶𝐴𝑆𝐼 pour proposer, au
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 92
régulateur, des actions de régulation incluant, le changement d’itinéraire comme action de
reconfiguration du réseau dans un temps limité.
(Barigou, et al., 2013) ont proposé une nouvelle technique de passage d’une
classification des entités à une classification booléenne. Selon les auteurs, la motivation à
adopter le principe de la modélisation booléenne pour cette tâche de classification est
d'exploiter ses avantages qui sont des représentations des connaissances et le temps de calcul
lors de la classification.
Dans (Atmani, et al., 2013) nous trouvons une modélisation booléenne d’un
raisonnement flou Fuzzy-BML qui utilise les caractéristiques de la classification des graphes
d'induction. Le processus par lequel la phase de récupération d'un raisonnement à partir de cas
(CBR) n’est pas modélisée sous la forme conventionnelle d'équations mathématiques, mais
sous la forme d'une base de données avec des fonctions d'appartenance des règles de logique
floue.
Dans (Brahami, 2013) les auteurs proposent une nouvelle approche de cartographie
qui s’appuie, d’une part, sur la modélisation booléenne des domaines de connaissances
(critiques ou cruciales). D’autre part, sur l’exploitation des différentes sources de données par
des techniques de fouille de données pour améliorer le processus d’acquisition du savoir
explicite. La fouille de données consiste à lancer une induction booléenne à partir des cas
pratiques (explicites) inspirée de la machine CASI. Les règles de cartographie obtenues sont
utilisées pour améliorer automatiquement le modèle booléen de la cartographie des
connaissances.
(Benfriha, et al., 2016) proposent un nouveau cadre de catégorisation textuelle basé
sur des concepts de réseau et des automates cellulaires. Le modèle est basé sur les propriétés
mathématiques des réseaux conceptuels. Cependant, la complexité de générer un réseau de
concepts et de l'utiliser pour la catégorisation de texte où les données sont énormes impose
une contrainte à son applicabilité. Pour résoudre ce problème, ils proposent de modéliser les
réseaux de Galois par un automate cellulaire. Les auteurs testent la classification temporelle
de la méthode proposée sur deux corpus différents: les résultats montrent une amélioration par
rapport aux réseaux Galois standards.
Tous ces travaux, pour n’en citer que cela, s’alignent à montrer l’intérêt à utiliser la
machine 𝐶𝐴𝑆𝐼 à travers des résultats prometteurs mais, uniquement du côté représentation et
modélisation des données. Dans notre approche nous nous sommes penchées sur une autre
facette de la machine, à savoir, son efficacité à optimiser l’espace de stockage et le temps
d’exécution. Ces deux performances nous paraissent de taille dans une ère où le temps et
l’espace prennent toutes leurs dimensions. D’un autre côté, l’exploitation de la machine 𝐶𝐴𝑆𝐼 en tant que machine cellulaire, dans le domaine de l’ingénierie des connaissances est une idée
inédite au sein de l’équipe et même au niveau de la communauté scientifique.
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 93
4.1.1 Configuration de la machine 𝑪𝑨𝑺𝑰
Le système de la machine 𝐶𝐴𝑆𝐼 est organisé en grille de cellules où chaque cellule est
reliée uniquement à ses voisines. Toutes les cellules obéissent en parallèle à la même règle
appelée fonction de transition locale, qui a comme conséquence une transformation globale du
système. Les cellules changent d’état dans des étapes discrètes. Après chaque étape, l’état
d’une cellule est modifié selon les états de ses voisines calculés dans l’étape précédente. Les
cellules sont mises à jour d’une manière synchrone, et les transitions sont effectuées
simultanément. L’évolution discrète de la machine décrit le processus d’inférence d’un
véritable système expert opérant sur une base de faits et une base de règles. Elle parcourt un
graphe d’induction modélisé selon ses principes en chaînage avant ou arrière pour exécuter
alternativement ou séquentiellement ou selon un tout autre ordre établi, une série d’opérations
de fusion/éclatement pour arriver à un comportement escompté.
𝐶𝐴𝑆𝐼 utilise deux matrices booléennes exprimant la base de connaissances générées à
partir d’un graphe d’induction qu’elle reçoit en entrée. La première matrice appelée
𝐶𝐸𝐿𝐹𝐴𝐶𝑇 (pour Cellule des Faits) exprime la base des faits et, la deuxième matrice appelée
𝐶𝐸𝐿𝑅𝑈𝐿𝐸 (pour Cellule des Règles) exprime la base des règles. Chaque élément de la
matrice représente une cellule de l’automate.
Chaque inférence du moteur crée une configuration de la machine 𝐶𝐴𝑆𝐼. A chaque
itération nous obtenons une couche de l’automate formée par les états des matrices. A chaque
étape, une cellule peut être active (1) ou passive (0), selon qu’elle participe ou pas à
l’inférence. En utilisant i cellules dans 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 et j cellules dans 𝐶𝐸𝐿𝑅𝑈𝐿𝐸, l’état d’une
cellule est un booléen dont l’interprétation est donnée comme suit :
Si la valeur de la cellule i de 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 est à 1 alors le 𝑓𝑎𝑖𝑡 qui lui correspond est
validé, sinon il est à établir.
Si la valeur de la cellule j de 𝐶𝐸𝐿𝑅𝑈𝐿𝐸 est à 1 alors la 𝑟è𝑔𝑙𝑒 qui lui correspond est
une règle candidate à l’inférence sinon elle ne doit pas y participer.
Chaque cellule passe par trois états qui sont représentés par trois vecteurs d’état : état
d’entrée, état interne et état de sortie. Ces vecteurs décrivent la dynamique des cellules lors de
l’évolution de l’automate par l’application des fonctions de transitions.
La configuration initiale de la machine est donnée par l’état initial de 𝐶𝐸𝐿𝐹𝐴𝐶𝑇
et 𝐶𝐸𝐿𝑅𝑈𝐿𝐸. Cet état est décrit par les 3 vecteurs d’état des deux matrices respectivement.
𝐸𝐹, 𝐼𝐹 et 𝑆𝐹 pour la cellule 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 et 𝐸𝑅, 𝐼𝑅 et 𝑆𝑅 pour 𝐶𝐸𝐿𝑅𝑈𝐿𝐸. Le vecteur 𝐼𝐹
indique le rôle du 𝑓𝑎𝑖𝑡 dans le graphe : Si 𝐼𝐹 = 0, le 𝑓𝑎𝑖𝑡 est du type sommet (ie, un nœud
complexe : qui fait référence à d’autres nœuds); et Si 𝐼𝐹 = 1, le 𝑓𝑎𝑖𝑡 est du type
𝑎𝑡𝑡𝑟𝑖𝑏𝑢𝑡 = 𝑣𝑎𝑙𝑒𝑢𝑟 (ie, un nœud atomique : qui contient des données simples).
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 94
En plus de ces deux matrices, la machine 𝐶𝐴𝑆𝐼 utilise deux autres matrices d’incidence
d’entrées RE et de sortie RS qui représentent le voisinage des cellules. En utilisant i cellules
dans 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 et j cellules dans 𝐶𝐸𝐿𝑅𝑈𝐿𝐸, le voisinage (RE, RS) est donné comme suit :
la relation d’entrée, notée 𝑖𝑅𝐸𝑗, est formulée comme suit :
∀𝑖 ∈ {1, . . , 𝑙 } ∀𝑗 ∈ {1, . . , 𝑟 } 𝑠𝑖 (𝑙𝑒 𝑓𝑎𝑖𝑡 𝑖 ∈ à 𝑙𝑎 𝑝𝑟é𝑚𝑖𝑠𝑠𝑒 𝑑𝑒 𝑙𝑎 𝑟è𝑔𝑙𝑒 𝑗) 𝑎𝑙𝑜𝑟𝑠 𝑅𝐸 (𝑖, 𝑗) ← 1.
la relation de sortie, notée 𝑖𝑅𝑆𝑗, est formulée comme suit :
∀𝑖 ∈ {1, . . , 𝑙 } ∀𝑗 ∈ {1, . . , 𝑟 } , 𝑠𝑖 (𝑙𝑒 𝑓𝑎𝑖𝑡 𝑖 ∈ à 𝑙𝑎 𝑐𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑟è𝑔𝑙𝑒 𝑗) 𝑎𝑙𝑜𝑟𝑠 𝑅𝑆 (𝑖, 𝑗) ← 1.
Les matrices d’incidences 𝑅𝐸 et 𝑅𝑆 sont utilisées pour parcourir le graphe de la racine
aux feuilles pour un chaînage avant. Pour effectuer le chaînage arrière, la machine interverti
les matrice d’incidences et obtient un parcours ascendant c.-à-d. de la feuille vers la racine.
4.1.2 La dynamique de la machine 𝑪𝑨𝑺𝑰
La dynamique de la machine cellulaire 𝐶𝐴𝑆𝐼 simule le fonctionnement d’un moteur
d’inférence dont le cycle de base pour établir un 𝑓𝑎𝑖𝑡 en chaînage avant effectue trois
phases :
1. Evaluation et Sélection : Cette phase recherche les règles applicables vérifiant le
critère établi (évaluation) et retient les règles qui le vérifient (sélection) pour effectuer
l’inférence.
2. Filtrage : Cette phase permet de choisir une parmi les règles sélectionnées
précédemment (filtrage) ;
3. Exécution : Cette phase exécute la règle choisie en ajoutant les faits constituant sa
partie conclusion à la base des faits (exécution).
Le cycle est répété jusqu’à ce qu’aucune règle ne soit applicable.
Pour simuler ce fonctionnement, 𝐶𝐴𝑆𝐼 utilise deux fonctions de transitions 𝛿𝑓𝑎𝑐𝑡 et
𝛿𝑟𝑢𝑙𝑒 (Atmani & Beldjilali, 2007), où 𝛿𝑓𝑎𝑐𝑡 correspond aux phases 1 et 2 d’évaluation et
sélection et de filtrage, et 𝛿𝑟𝑢𝑙𝑒 correspond à la phase 3 d’exécution.
La fonction de transition 𝛿𝑓𝑎𝑐𝑡 : (𝐸𝐹, 𝐼𝐹, 𝑆𝐹, 𝐸𝑅, 𝐼𝑅, 𝑆𝑅) (𝐸𝐹, 𝐼𝐹, 𝐸𝐹, 𝐸𝑅 + (𝑅𝑇𝐸・ 𝐸𝐹), 𝐼𝑅, 𝑆𝑅)
La fonction de transition 𝛿𝑟𝑢𝑙𝑒 :
(𝐸𝐹, 𝐼𝐹, 𝑆𝐹, 𝐸𝑅, 𝐼𝑅, 𝑆𝑅) (𝐸𝐹 + (𝑅𝑆・ 𝐸𝑅), 𝐼𝐹, 𝑆𝐹, 𝐸𝑅, 𝐼𝑅, 𝐸𝑅).
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 95
En appliquant la fonction de transition globale 𝛥 = 𝛿𝑟𝑢𝑙𝑒°𝛿𝑓𝑎𝑐𝑡, l’automate passe
d’une configuration à une autre en commençant par 𝐺0 la configuration initiale. La
configuration 𝐺1 s’obtient en appliquant 𝛥 sur 𝐺0 en passant par 𝐺0’ ; 𝛥(𝐺0) = 𝐺1 comme
le montre la Figure4-1 suivante :
Figure 4-1 Passage de la configuration G0 à la configuration G1
Soit 𝐺 = {𝐺0, 𝐺1, . . , 𝐺𝑞} l’ensemble des configurations de 𝐶𝐴𝑆𝐼 son évolution discrète
d’une génération à une autre, est définie par la séquence 𝐺0, 𝐺1, . . . , 𝐺𝑞, où 𝐺𝑖 + 1 = 𝛥(𝐺𝑖).
4.2 L’approche proposée
Le processus d’intégration des données que nous avons développé se décompose en
quatre phases importantes suivantes (Figure4-2):
Phase 1 – pré-intégration (Ontologisation) : une étape dans laquelle les schémas en
entrée sont transformés de manière à les rendre plus homogènes.
Phase2 – recherche des correspondances (Matching) : une étape consacrée à
l'identification des éléments semblables dans les schémas initiaux et à la description
précise de ces liens inter-schémas;
Phase 3 – intégration (Fusion) : l'étape finale qui unifie les types en correspondance en
un schéma intégré.
Phase 4 – Stockage booléen
Fonction de transition globale
‘
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 96
PHASE2 : ALIGNEMENT
PHASE3 : FUSION
Ontologies PHASE1 : GENERATION DES
PHASE4 : STOCKAGE BOOLEEN
Intégration
Figure 4-2 Architecture générale du projet
4.2.1 Phase1 : Génération des ontologies
Comme nous l’avons précisé dans le chapitre premier, l’intégration des données se voit
contrainte de composer avec la répartition des sources, l’hétérogénéité de leurs structures et la
complexité de leurs données. C’est la phase de préparation des données pour le processus
d’intégration. Dans notre approche nous délimitons cette contrainte à l’hétérogénéité des
données et à la répartition de leurs sources. Quant à la structure des sources nous considérons
uniquement des données structurées et définies en modèle relationnel.
Rappelons que nous avons déployé notre problématique sur un projet national PNR dont
la motivation principale est d’améliorer le travail des services SEMEP et de leurs PMI
respectives. L’état de l’existant sur le terrain montre l’installation de plusieurs applications
logicielles de bases de données au niveau des différentes PMI. Ces dernières représentent les
sources d’alimentation du SEMEP. Notre première approche méthodologique consiste à
récupérer les schémas conceptuels et relationnels des bases de données des PMI. Nous avons
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 97
été confrontés à une absence de documentation sur les plans de conception des bases. Nous
avons dû reconstituer ces schémas en examinant une à une les structures des différentes tables
avec pour objectif de retrouver les identifiants et reconstituer les liens entre les tables.
Le problème avec ces bases de données, bien qu’elles aient été conçues avec le même
cahier de charge et utilisant le même modèle conceptuel qui est le modèle relationnel, elles
sont différentes et suffisamment hétérogènes pour pouvoir les intégrer au sein d’une même
banque de données. Cette hétérogénéité, perturbant le suivi de vaccination, peut être décrite
comme suit :
Différents concepteurs donc différentes modélisations : l’identification et le choix des
concepts pertinents pour l’élaboration de la base de données dépendent étroitement du
degré de connaissance que possède le concepteur sur le domaine traité.
Différents concepteurs donc différents résultats : deux concepteurs différents
conçoivent pour les mêmes bases de données deux modèles conceptuels différents par
rapport à l’identification des entités, le nommage (Ex : Nom dans BD1 et Name dans
BD2), le typage (ex : chaine de caractère ou entier pour le code), le degré de
granularité (ex :chaine de caractère pour l’adresse ou attribut composé de numéro de
rue, nom de rue..) etc… même si les deux modèles ont été conçus suivant le même
cahier de charge il y aura toujours une part implicite du savoir-faire du concepteur.
Les contextes applicatifs et les traitements à effectuer sont légèrement différents d’une
wilaya à une autre : des facteurs qui dépendent du taux de population, de
l’assainissement de la couverture vaccinale d’une agglomération à forte ou à faible
population.
Dans un tel contexte, le besoin d’intégration devient une solution incontournable du fait
qu’elle fournis une interface permettant d'accéder d’une manière unifiée aux différentes
sources de données, que manipule le SEMEP, nonobstant leurs localisations et leurs formats.
Cependant, cette solution devient compliquée car elle se voit contrainte de composer avec la
répartition des sources et l’hétérogénéité de leurs structures. Au lieu de soulever les
ambigüités au niveau des bases de données, l’idée est de générer automatiquement des
ontologies à partir des bases de données respectivement puis de lancer le processus
d’alignement sur les ontologies générées. Ceci peut se justifier à travers différentes raisons.
Tout d’abord, par rapport au modèle relationnel en général et ensuite par rapport à la
conception des bases de données en particulier.
Le modèle relationnel présente un inconvénient majeur qui réside dans la séparation des
données de leurs structures. Il est pratiquement impossible d’extraire des données d’une base
relationnelle sans en extraire leurs structures pour comprendre ceux à quoi elles
correspondent. Cette limite induit la question de l’interopérabilité de la structure et de la
modélisation des données et constitue le premier pallié à franchir dans un système
d’intégration correct (Ober, et al., 2008).
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 98
Actuellement, les bases de données relationnelles demeurent le moyen le plus populaire
pour stocker, rechercher et manipuler des données, cependant, la structure et les contraintes
d'intégrité du modèle relationnel sont définies par des schémas qui ne sont pas aussi expressifs
que des ontologies, pour ce qui est de la représentation de la sémantique des données. Par
conséquence, il est essentiel de construire des ontologies qui soutiennent sémantiquement
l'information contenue dans ces bases de données.
La technique de rétro-ingénierie, semble être une solution intéressante pour atteindre cet
objectif. Elle est définie comme un processus d’analyse d’un système permettant
l’identification des entités et leurs liens en vue de passer d’une forme de représentation à une
autre, de niveau d’abstraction identique ou plus élevé (Chiang, et al., 1994). Cependant, les
informations extraites à partir d'un schéma relationnel pour la construction d'ontologie
peuvent être limitées:
Pour des raisons de performance, souvent, les concepteurs de base de données peuvent
être amenés à ne pas respecter les règles de normalisation pour optimiser le schéma.
Les schémas ne sont pas toujours en troisième forme normale.
Les informations complètes sur la base de données relationnelle, telle que des
dépendances fonctionnelles et d'inclusion, sont rarement disponibles (Premerlani &
Blaha, 1994).
Etant donné que le modèle relationnel ne supporte pas tous les constructeurs du
modèle conceptuel, une partie de la sémantique capturée dans le schéma conceptuel
est nécessairement perdue lors du passage au schéma relationnel (c’est par exemple le
cas de l’héritage).
Les noms des relations et des attributs du schéma relationnel sont souvent abrégés ou
ambigües (e.g NUM_Rue, Nom_Pmi, Code_Post, etc). Ainsi, il est difficile ou même
impossible de déduire la signification (i.e. la sémantique) des données en se basant sur
ces appellations (Muller, 1998).
Nous avons, donc, développé un outil dont l’interface est donné en Figure4-3 qui génère
automatiquement une ontologie à partir d’une base de données relationnelle. Pour ce fait,
l’idée est de fournir un ensemble de règles pour transformer les constructeurs de la base de
données relationnelle, en constructeurs sémantiquement équivalents dans l'ontologie
(Benslimane, et al., 2006). Ces règles sont basées sur une analyse des relations, des clés et des
dépendances d'inclusion – c’est-à-dire transformer les relations, les attributs et les clés en
concepts, propriétés et axiomes.
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 99
Dans ce qui suit, nous allons donner un petit aperçu sur les différentes règles de
transformation ou de passage du modèle relationnel au modèle ontologique. Mais avant cela,
dressons la liste des symboles utilisés :
R : L’ensemble des relations
A : L’ensemble des attributs
T : L’ensemble des types de base
Attrib : Fonction qui retourne les attributs de la relation
Dom : Fonction qui retourne les types des attributs
PK : Fonction qui retourne les clés primaires de la relation
FK : Fonction qui retourne les clés étrangères de la relation
C : L’ensemble des classes de l’ontologie
P : propriété des objets (ObjectProperty)
DP : propriété des données (DataTypeProperty)
Dans ce qui suit, nous allons présenter le processus de transformation BDR-ONTO en
utilisant l’exemple d’une base de données de la vaccination développée au sein d’un SEMEP
Figure4-4.
Figure 4-3 Interface de l’outil de génération d’ontologie à partir
d’une base de données relationnelle (BDR-to-Onto)
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 100
Le processus que nous avons développé procède en 5 groupes de règles :
4.2.1.1 Règle de construction de classes
Règle1 : Une classe Ci peut être créée à partir d’une relation Ri, si une des conditions
suivantes est satisfaite :
|PK(Ri)| = 1
|PK(Ri)| >1, et il existe Ai, telle que Ai ∈ PK(Ri) et Ai ∉ FK(Ri)
Figure 4-4 le modèle conceptuel de la base de données vaccination
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 101
4.2.1.2 Règles de Construction de Propriétés
Règle2 : Soient Ri et Rj deux relations :
Si PK(Ri) = Ai, PK(Rj) = Aj et FK(Ri) = PK(Rj) sont satisfaites, alors une propriété
d'objet : (owl:ObjectProperty) P est créée à base de Ri. Supposons que les classes
correspondantes à Ri et Rj sont Ci et Cj, alors ces dernières correspondent
respectivement au domaine et au "range" (l’intervalle de valeurs) de P.
Figure 4-6 Construction des Propriétés d’objet
Règle 3 : Soit Ci une classe d’ontologie, DP(Ci) l’ensemble de ses propriétés
"datatype". Supposons que Ci correspond aux relations R1, R2…, Ri dans la base de données,
alors chaque attribut dans R1, R2…, Ri, (non transformé en propriété d’objet par la règle 2)
sera transformé en propriété de type « owl:DatatypeProperty » de la classe Ci. Le domaine
et le "range" de chaque propriété Pi sont respectivement Ci et dom(Ai), où Pi ∈ DP(Ci) et Ai ∈
Attrib(Ri).
Figure 4-5 Génération des Classes à partir des Relations
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 102
4.2.1.3 Règle de Construction de Relation d’Héritage
Règle4 : Soient Ri et Rj deux relations, supposons que Pi = PK(Ri) et Pj = PK(Rj) :
Si Ri(Pi) << Rj(Pj) est satisfaite, alors la classe correspondante à Ri est une sous-
classe de la classe correspondante à Rj.
4.2.1.4 Règles de Construction des Axiomes
Règle5 : Soit la relation Ri et l’attribut Ai ∈ Attrib(Ri) :
Si Ai = PK(Ri) ou Ai = FK(Ri), alors les cardinalités "minCardinality" et
"maxCardinality" de la propriété Pi correspondantes à Ai sont égales à 1.
Figure 4-7 Construction des Propriétés de donnée
Figure 4-8 Construction des Axiomes des clés
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 103
Règle6 : Soit la relation Ri et l’attribut Ai ∈ Attrib(Ri) :
Si Ai est déclarée comme "NOT NULL", alors la cardinalité "minCardinality" de la
propriété Pi correspondante à Ai est égale à 1.
Règle7 : Soit la relation Ri et l’attribut Ai ∈ attrib(Ri) :
Si Ai est déclarée comme UNIQUE, alors la cardinalité "maxCardinality" de la
propriété Pi correspondante à Ai est égale à 1.
Figure 4-10 Construction des Axiomes des Attributs « UNIQUE »
Figure 4-9 Construction des Axiomes des Attributs « NOT-NULL »
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 104
4.2.1.5 Règles de Construction des Instances
Règle8 : A chaque instance un identifiant unique est affecté. Cette règle traduit les
valeurs de tous les attributs, sauf celles des clés étrangères.
Règle 9 : les relations entre les instances sont élaborées en utilisant les données des
tuples des clés étrangères de la base de données. Ceci est réalisé en utilisant une fonction
transformant ces clés en identifiants ontologiques.
Figure 4-11 Construction des Instances
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 105
Avec ces règles, nous générons une ontologie locale à chaque PMI Figure4-12.
4.2.2 Phase2 : Alignement des ontologies
Une fois les ontologies locales générées au cours de la phase précédente, un
prétraitement, leur est nécessaire avant de les faire passer au processus de fusion. Rappelons
juste que pour intégrer les données des différentes ontologies distinctes, il faudrait, d’abord,
connaître les liens sémantiques qui relient leurs éléments et les faire correspondre. On parle
alors d’alignement d’ontologies ou Matching (Euzenat, et al., 2013) qui, selon Bouzeghoub
(2008), est un des éléments fondamentaux du processus d'intégration d'ontologies. Il permet
d’analyser et de comparer des ontologies pour déterminer les correspondances entre leurs
concepts avant de les fusionner. Le résultat du processus d’alignement est un ensemble de
liens de correspondances.
Dans notre travail nous employons ces liens pour détecter les points de fusion entre les
ontologies locales. Dans le cas le plus simple, deux concepts issus de deux ontologies sont
considérés comme soit équivalents ou l'un subsumant l'autre. Aussi, d’autres liens
sémantiques non logiques peuvent également être établis, basés sur des mesures de similarités
entre les définitions de concepts c-à-d leurs instances. Selon Maiz, (2008), le calcul de la
similarité entre deux concepts est basé sur la terminologie du concept, ses propriétés et ses
relations avec son voisinage. Seulement, cette similarité n’est pas suffisante pour conclure que
les deux concepts sont similaires ou pas. Pour qu’ils le soient complètement il faut que leurs
instances le soient également. Ce qui s’appelle le Mapping ; ce sont des expressions décrivant
Figure 4-12 l’ontologie générée à partir de la base de données Vaccination
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 106
F.Science
Département Personne
Salarié Etudiant
Enseignant Administrateur
Recherche
Cours
F.Science
Personne Département
Recherche
Cours Enseignant Etudiant
F.Science
Homme Département
Domaine
Etudiant Employé
Enseignant
le moyen dont les instances du schéma cible (final) sont dérivées à partir des instances de
schéma source (initial). Elles décrivent la correspondance sémantique entre les instances de
schémas en complémentarité avec le Matching. Pour ce fait nous avons établi un processus
d’alignement en deux étapes complémentaires :
En premier lieu un Matching ; un alignement structurel à base d’un Matcher
terminologique utilisant WordNet (Miller, 1995) afin de déterminer les relations
d’équivalences entre concepts;
En deuxième lieu un Mapping ; un alignement extensionnel des ontologies afin de
déterminer les relations d’implication entre les concepts.
Pour cette deuxième partie nous allons utiliser un exemple pédagogique dont le graphe
est donné par la Figure4-13. Il s’agit d’un exemple simple et assez expressif de trois
ontologies représentant le même domaine mais définies de manières différentes.
4.2.2.1 Alignement structurel
Il est important de préciser que la fusion des ontologies passe d’abord par une phase
d’alignement des concepts. Ce dernier vise à établir des correspondances entre deux
ontologies, portant à priori sur le même domaine de connaissance. Il consiste à trouver des
relations sémantiques entre des concepts définis dans les ontologies à aligner.
Cependant, dans la pratique, la notion d’alignement des ontologies varie d’un
concepteur à un autre. Pour certain, il s'agit simplement de définir des équivalences entre
classes ou propriétés de deux ontologies, par exemple "ex:Humain owl:equivalentClass
ex:Person". Pour les spécialistes de l'alignement d'ontologies, le problème est plus général : il
s'agit de définir des relations entre éléments d'ontologies différentes. En général, ça prend la
forme de correspondances du type Entité1 relation Entité2, où Entité1 correspond à un
élément d'une ontologie (par exemple, une classe, une propriété, une instance, ou un truc plus
complexe), Entité2 correspond à un élément d'une autre ontologie et relation indique la
relation qui relie Entité1 à Entité2 (par exemple, l'équivalence, l'égalité, la subsomption, la
disjonction, etc). Et ce n'est pas tout, on rajoute souvent un degré de confiance à tout ça parce
Figure 4-13 Exemple de trois Ontologies
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 107
que les relations entre ontologies ne sont pas toujours certaines, surtout si elles sont
"découvertes" automatiquement.
Il y a beaucoup d'outils d'alignement automatique mais, à notre connaissance, il n'y en a
pas qui soit réellement complet qui répond à tous les objectifs. Dans notre cas nous avons
utilisé la ressource lexicale WordNet. Cette dernière est une ressource structurée qui joue le
rôle d’inventaires de sens et de dictionnaires, et donne également accès à une hiérarchie de
sens (en quelque sorte un thésaurus structuré). La majorité des mesures de similarité utilisées
dans la littérature se basent sur WordNet.
WordNet est structuré autour de la notion de synsets, c’est-à-dire en quelque sorte un
ensemble de synonymes qui forment un concept. Un synset représente un sens de mot. Les
synsets sont reliés entre eux par des relations, soit lexicales (antonymie par exemple) ou
taxonomiques (hyperonymie, méronymie, etc).
Dans notre cas nous avons utilisé un algorithme de désambiguïsation lexicale très
simple qui procède comme suit :
Construction d’une matrice de similarité : nous construisons une matrice dont les
lignes sont formées par les concepts de toutes les ontologies en entrée et les colonnes
par les synsets de chaque concept relevé à partir du WordNet. Nous avons limité le
nombre des synsets à 8 pour plus de précision. Cette étape nous l’avons nommée
Enrichissement Sémantique, appliquée aux trois ontologies de l’exemple nous donne
le résultat de la Figure4-14.
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 108
Définition d’une fonction de similarité : nous avons développé une fonction qui
considère la similarité entre deux concepts comme le nombre de synset en commun
donné par WordNet. Si ce nombre dépasse un certain seuil 𝑆 établi, alors la similarité
notée 𝑆𝑖𝑚 entre les concepts est égale à 1 sinon 0. Autrement dit, soient deux concepts
𝑐1 appartenant à l’ontologie 𝑂1et 𝑐2 appartenant à l’ontologie 𝑂2. Soit synset(𝑐1)
l’ensemble des synonymes de 𝑐1 et synset(𝑐2) l’ensemble des synonymes de 𝑐2 dans
WordNet alors la formule suivante :
𝑆𝑖 𝐶𝑎𝑟𝑑 (𝑠𝑦𝑛𝑠𝑒𝑡 𝑐1 ∩ 𝑠𝑦𝑛𝑠𝑒𝑡 𝑐2 ) ≥ 𝑆 𝑎𝑙𝑜𝑟𝑠 𝑆𝑖𝑚 (𝑐1, 𝑐2) = 1
Appliqué à notre exemple nous trouvons que les concepts Homme et Personne sont
équivalents.
4.2.2.2 Alignement extensionnel
Pour notre cas, nous avons expérimenté une nouvelle utilisation de datamining dans le
domaine de l’intégration des données en utilisant des règles d’association (Malek & Kadima,
2012). Pour cela, nous avons utilisé l’idée que deux concepts 𝑐1 et 𝑐2 sont en relation
d’implication si le vocabulaire utilisé dans les descriptions et les instances de 𝑐1, a tendance à
être inclus dans celui de 𝑐1 (David, et al., 2007). Ce point représente notre deuxième
contribution, nous lui avons donc réservé le contenu du cinquième chapitre.
Figure 4-14 Enrichissement sémantique
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 109
4.2.3 Phase3 : La fusion des ontologies
C’est la phase de traitement où il s’agit de la fusion à proprement parler. Elle sera plus
détaillée dans la section 4.3 de ce chapitre. Le système de fusion permet de regrouper les
ontologies en tenant compte de leur alignement pour enfin les intégrer dans un entrepôt de
données. Pour arriver à une ontologie finale cohérente, certaines hypothèses doivent être
dressées:
Les ontologies utilisent le même vocabulaire concernant le domaine d’application;
dans notre cas c’est le domaine de la vaccination et tout ce qui tourne autour comme
maladie, pathogène, immunisation, etc..
Les ontologies sont traduites dans le même langage, dans notre cas nous utilisons le
langage OWL-Lite pour sa simplicité;
Lorsque le Mapping est établit et validé entre deux concepts 𝑐1 et 𝑐2, nous pouvons
déduire que ces deux concepts sont sémantiquement similaires donc ils utiliseront
l’une des deux annotations aléatoirement.
Ces hypothèses d’homogénéisation sont importantes pour contourner les ambigüités que
peut engendrer la conceptualisation des connaissances dans des contextes différents.
4.2.4 Phase 4 : Stockage booléen
La puissance d’une fusion booléenne prend tout son sens lorsqu’elle bénéficie d’un
stockage physique équivalent. La manière dont les informations sont stockées sur disque ou
chargées en mémoire influence considérablement le temps d’accès et le traitement des
requêtes décisionnelles sur ces mêmes données. Pour réaliser des requêtes sur l’ontologie et
pour gérer une quantité volumineuse de données, nous avons choisi de stocker l’ontologie et
les données qu'elles décrivent dans un entrepôt de données appelé Entrepôt de Données à
Base Ontologique (EDBO). De là, nous nous sommes largement inspirés des techniques
d’indexation des bases de données les index Bitmap que nous avons, par la suite, adopté à
notre entrepôt de données ontologique.
Concernant le schéma de l’entrepôt de données, plusieurs présentations ont été
proposées. Le modèle proposé dans (McBride, 2001) et (Alexaki, et al., 2001) consiste à
stocker à la fois les ontologies et les données à base ontologique dans une unique table à trois
colonnes (sujet, prédicat, objet). Dans cette représentation, dite "par triplet", l’ensemble des
informations, ontologies et données, est décomposé sous la forme de triplets, ce qui
correspond précisément à la structure de RDF. Cependant, la principale faiblesse de cette
approche est la non distinction ontologie/données qui entraîne la nécessité d’un très grand
nombre d’auto jointures de la table de triplets, souvent de très grande taille. Pour éviter ce
problème, les systèmes plus récents ont proposé soit la création de vues matérialisées
(Chong, et al., 2005) soit la séparation entre ontologie et données (Pan & Heflin, 2003),
(Broekstra, et al., 2002). Dans notre approche, nous séparons l’ontologie de ses données en
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 110
Base de Connaissances
Booléenne Graphe
Ontologie
créant deux fichiers; le premier fichier index de description de structure et le deuxième index
des données. Un exemple illustratif est donné dans le prochain chapitre pour mieux
comprendre cette partie.
4.3 La fusion booléenne des ontologies
L'une des motivations de la fusion des ontologies tient à la construction d'une ontologie
à partir de sources différentes. Dans cette section nous allons exposer notre processus de
fusion que nous avons mis en place (Abdelouhab & Atmani, 2016). Notre processus de
fusion cellulaire est structuré en trois phases Figure4-15.
Figure 4-15 La fusion cellulaire
1- Modélisation Booléenne de l’Ontologie (MBO): Consiste à générer le modèle booléen
à partir d’un schéma ontologique (schéma OWL) et générer une base de connaissances
booléenne.
2- Inférence Booléenne de l’Ontologie (IBO) : A partir d’une modélisation booléenne,
simuler le fonctionnement du cycle de base d’un moteur d’inférence en utilisant les
couches 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 et 𝐶𝐸𝐿𝑅𝑈𝐿𝐸 ainsi que les matrices RE et RS.
3- Validation Booléenne de l’Ontologie (VBO) : est consacrée à la génération booléenne
de l’ontologie finale c-à-d du modèle optimisé.
4.3.1 Modélisation booléenne d’une ontologie
D’après les hypothèses d’homogénéité citées plus haut nous considérons dans notre
travail uniquement des ontologies de type « hiérarchies Is-a formelles » où les concepts sont
organisés selon une hiérarchie de sous-classe stricte et ne contenant que des noms de classes.
Une telle ontologie est représentée graphiquement par un graphe de Hasse (David, et al.,
2007) où chaque concept sera représenté symboliquement par un rectangle contenant son
identité. La relation d’ordre est symbolisée par la position des concepts : si 𝑐𝑖 ≤ 𝑐𝑗 alors la
représentation du concept 𝑐𝑖 (concept père) sera placée plus haut que celle de 𝑐𝑗 (concept fils),
et un segment les reliera.
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 111
Dans notre approche de fusion nous avons simulé ce lien qui relie les deux concepts 𝑐𝑖 et 𝑐𝑗 à un Prédicat noté (≤) exprimant la relation de généralisation entre le concept 𝑐𝑖 général
(super-concept ou parent) et le concept 𝑐𝑗 plus spécifique (sous-concept ou fils). Pour nous, ce
prédicat de généralisation exprime ainsi une règle d’association entre les concepts de sorte
que 𝑐𝑗 existe si 𝑐𝑖 existe alors la règle d’association « 𝑆𝑖 𝑐𝑖 𝐴𝑙𝑜𝑟𝑠 𝑐𝑗 » sera définie. Par la suite
nous avons défini nos propres principes nous permettant, de manière formelle, de générer une
base de règles d’associations à partir des différents graphes d’ontologies d’entrées :
(1) Principe1 : définit un prédicat de généralisation/spécialisation simple :
∀ 𝑐𝑖, 𝑐𝑗 ∈ 𝐶 𝑒𝑡 𝑐𝑖 ≤ 𝑐𝑗 ≤ (𝑐𝑖, 𝑐𝑗) 𝑅è𝑔𝑙𝑒1 : 𝑆𝑖 𝑐𝑖 𝐴𝑙𝑜𝑟𝑠 𝑐𝑗
(2) Principe2 : définit un prédicat de généralisation composée
∀ 𝑐𝑖, 𝑐𝑗 ∈ 𝐶, 𝑐𝑖 ≤ 𝑐𝑗, 𝑒𝑡 𝑐𝑗 ≤ 𝑐𝑘 ≤ ((𝑐𝑖, 𝑐𝑗), 𝑐𝑘) 𝑅è𝑔𝑙𝑒2 : 𝑆𝑖 𝑐𝑖, 𝑐𝑗 𝐴𝑙𝑜𝑟𝑠 𝑐𝑘
(3) Principe3 : définit un prédicat spécialisation composée
∀ 𝑐𝑖, 𝑐𝑗 ∈ 𝐶, 𝑐𝑖 ≤ 𝑐𝑗, 𝑒𝑡 𝑐𝑖 ≤ 𝑐𝑘 ≤ (𝑐𝑖, (𝑐𝑗, 𝑐𝑘)) 𝑅è𝑔𝑙𝑒3 : 𝑆𝑖 𝑐𝑖 𝐴𝑙𝑜𝑟𝑠 𝑐𝑗, 𝑐𝑘
Sur notre exemple nous avons le concept Personne plus spécifique que le concept
Salarié lui-même plus spécifique que Enseignant alors nous pouvons générer les écritures
suivantes :
𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 ≤ 𝑆𝑎𝑙𝑎𝑟𝑖é
≤ (𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒, 𝑆𝑎𝑙𝑎𝑟𝑖é)
≤ (𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒, 𝑆𝑎𝑙𝑎𝑟𝑖é,𝐸𝑛𝑠𝑒𝑖𝑔𝑛𝑎𝑛𝑡) 𝑅1 : 𝑆𝑖 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 𝐴𝑙𝑜𝑟𝑠 𝑆𝑎𝑙𝑎𝑟𝑖é
𝑅2 : 𝑆𝑖 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 , 𝑆𝑎𝑙𝑎𝑟𝑖é 𝐴𝑙𝑜𝑟𝑠 𝐸𝑛𝑠𝑒𝑖𝑔𝑛𝑎𝑛𝑡
Si nous appliquons ces principes sur l’ensemble des concepts de l’ontologie 𝑂1, nous
obtenons une reformulation de cette dernière en base de règles d’associations où chaque règle
a la forme générale suivante :
< 𝑟è𝑔𝑙𝑒 >∶: = [< 𝑖𝑑𝑒𝑛𝑡 >] 𝒔𝒊 < 𝑝𝑎𝑟𝑡𝑖𝑒_𝑝𝑟é𝑚𝑖𝑠𝑠𝑒 > 𝒂𝒍𝒐𝒓𝒔 < 𝑝𝑎𝑟𝑡𝑖𝑒_𝑐𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛 > oú
< 𝑖𝑑𝑒𝑛𝑡 > est une chaîne de caractères identifiant la 𝑟è𝑔𝑙𝑒. Exemple 𝑅1.
< 𝑝𝑎𝑟𝑡𝑖𝑒_𝑝𝑟é𝑚𝑖𝑠𝑠𝑒 > est une conjonctive de concepts dits pères qui déterminent
quand on peut appliquer la 𝑟è𝑔𝑙𝑒.
< 𝑝𝑎𝑟𝑡𝑖𝑒_𝑐𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛 > est une conjonction de concepts dits fils qui sont déclenchés
si la 𝑟è𝑔𝑙𝑒 est appliquée.
De là nous générons la base de connaissance relative à la première ontologie en entrée.
L’ensemble des règles d’association constitue la base de règles et l’ensemble des concepts
constitue la base de faits comme le montre la Figure4-16 suivante :
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 112
Fait EF IF SF
F-Science 1 0 0 Personne 0 0 0 Salarié 0 0 0 Administrateur 0 0 0 Etudiant 0 0 0 Enseignant 0 0 0 Département 0 0 0 Cours 0 0 0 Recherche 0 0 0
CELFACT
Figure 4-16 La base de Règles La base de Faits
Ce processus se répète pour toutes les ontologies en entrée. Une fois terminé, la base de
connaissance sera la concaténation de toutes les bases générées à partir des ontologies en
entrée. Ceci représente le premier pas vers le passage à l’échelle et une première étape de la
fusion. La base de connaissance établie, elle sera introduite au module MBO qui, suivant le
principe booléen, va la représenter en termes de cellules de la machine 𝐶𝐴𝑆𝐼 afin de
l’optimiser et réaliser la deuxième étape de la fusion.
La matrice 𝐶𝐸𝐿𝐹𝐴𝐶𝑇:
𝐶𝐸𝐿𝐹𝐴𝐶𝑇 représente l’une des matrices décrivant la machine CASI. Chaque cellule
attribuée à un Fait est représentée par un état d’entrée, un état interne et un état de sortie.
Initialement, toutes les entrées des cellules de 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 sont passives, l’état d’entrée
est à zéro (EF = 0), exceptées celles qui représentent la base de faits initial (EF(1) = 1). Dans
notre cas le nœud racine de la première règle F-Science représente le Fait Initial à établir.
La Figure4-17 suivante montre la génération de la matrice 𝐶𝐸𝐿𝐹𝐴𝐶𝑇 à partir de la base
de Faits.
𝑅1 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒 𝐴𝑙𝑜𝑟𝑠 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 𝑅2 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒 𝐴𝑙𝑜𝑟𝑠 𝐷é𝑝𝑎𝑟𝑡𝑒𝑚𝑒𝑛𝑡 𝑅3 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 𝐴𝑙𝑜𝑟𝑠 𝑆𝑎𝑙𝑎𝑟𝑖é 𝑅4 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 𝐴𝑙𝑜𝑟𝑠 𝐸𝑡𝑢𝑑𝑖𝑎𝑛𝑡 𝑅5 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒, 𝑆𝑎𝑙𝑎𝑟𝑖é 𝐴𝑙𝑜𝑟𝑠 𝐴𝑑𝑚𝑖𝑛𝑖𝑠𝑡𝑟𝑎𝑡𝑒𝑢𝑟 𝑅6 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒, 𝑆𝑎𝑙𝑎𝑟𝑖é 𝐴𝑙𝑜𝑟𝑠 𝐸𝑛𝑠𝑒𝑖𝑔𝑛𝑎𝑛𝑡 𝑅7 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝐷é𝑝𝑎𝑟𝑡𝑒𝑚𝑒𝑛𝑡 𝐴𝑙𝑜𝑟𝑠 𝐶𝑜𝑢𝑟𝑠 𝑅8 : 𝑆𝑖 𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒, 𝐷é𝑝𝑎𝑟𝑡𝑒𝑚𝑒𝑛𝑡 𝐴𝑙𝑜𝑟𝑠 𝑅𝑒𝑐𝑒𝑟𝑐𝑒
𝐹. 𝑆𝑐𝑖𝑒𝑛𝑐𝑒 𝑃𝑒𝑟𝑠𝑜𝑛𝑛𝑒 𝑆𝑎𝑙𝑎𝑟𝑖é 𝐴𝑑𝑚𝑖𝑛𝑖𝑠𝑡𝑟𝑎𝑡𝑒𝑢𝑟 𝐸𝑡𝑢𝑑𝑖𝑎𝑛𝑡 𝐸𝑛𝑠𝑒𝑖𝑔𝑛𝑎𝑛𝑡 𝐷é𝑝𝑎𝑟𝑡𝑒𝑚𝑒𝑛𝑡 𝐶𝑜𝑢𝑟𝑠 𝑅𝑒𝑐𝑒𝑟𝑐𝑒
Figure 4-17 Représentation booléenne de la matrice 𝑪𝑬𝑳𝑭𝑨𝑪𝑻
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 113
Règles ER IR SR
R1 1 1 1 R2 0 1 1 R3 0 1 1 R4 0 1 1 R5 0 1 1 R6 0 1 1 R7 0 1 1 R8 0 1 1
1 1 1
0 0 0
0 0 0
0 0 0
0 0 0
ER IR SR
R1
R2
R3
R4
R5
R6
R7
R8
La matrice 𝐶𝐸𝐿𝑅𝑈𝐿𝐸
𝐶𝐸𝐿𝑅𝑈𝐿𝐸 représente la deuxième matrice décrivant la machine CASI. Chaque cellule
attribuée à une Règle est représentée par un état d’entrée, un état interne et un état de sortie.
Initialement, toutes les entrées des cellules de 𝐶𝐸𝐿𝑅𝑈𝐿𝐸 sont passives, l’état d’entrée
est à zéro (ER = 0), excepté celle qui est candidate à l’inférence (ER(1) = 1). Dans notre cas la
première règle à valider.
La Figure4-18 suivante montre la génération de la matrice 𝐶𝐸𝐿𝑅𝑈𝐿𝐸 à partir de la base
de Règles.
Pour décrire le voisinage de chaque cellule nous utilisons, également, deux autres matrices
d’incidence RE et RS. Rappelons que le voisinage d’une cellule (représentant un Fait) est
représenté graphiquement par le diagramme de Hasse, à partir duquel nous avons généré les
règles d’association. Une règle d’association associe chaque Fait de type sous-classe à un Fait
de type superclasse selon la relation d’ordre établie plus haut.
La matrice d’Entrée RE
La matrice RE représente la matrice d’incidence d’entrée, elle renvoi la position du Fait dans
le graphe. Elle représente tous les Faits de type superclasse. Ces derniers représentent les
prémisses des règles.
Figure 4-19 Matrice d’entrée RE
RE R1 R2 R3 R4 R5 R6 R7 R8
F-Science 1 1 1 1 1 1 1 1
Personne 0 0 1 1 1 1 0 0
Salarié 0 0 0 0 1 1 0 0
Administrateur 0 0 0 0 0 0 0 0
Etudiant 0 0 0 0 0 0 0 0
Enseignant 0 0 0 0 0 0 0 0
Département 0 0 0 0 0 0 1 1
Cours 0 0 0 0 0 0 0 0
Recherche 0 0 0 0 0 0 0 0
Figure 4-18 Représentation booléenne de la Matrice 𝑪𝑬𝑳𝑹𝑼𝑳𝑬
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 114
RS R1 R2 R3 R4 R5 R6 R7 R8
F-Science 0 0 0 0 0 0 0 0
Personne 1 0 0 0 0 0 0 0
Salarié 0 0 1 0 0 0 0 0
Administrateur 0 0 0 0 1 0 0 0
Etudiant 0 0 0 1 0 0 0 0
Enseignant 0 0 0 0 0 1 0 0
Département 0 1 0 0 0 0 0 0
Cours 0 0 0 0 0 0 1 0
Recherche 0 0 0 0 0 0 0 1
La matrice de sortie RS
La matrice RS représente la matrice d’incidence de sortie, elle renvoi la position du Fait dans
le graphe. Elle représente tous les Faits de type sous-classes. Ces derniers représentent les
conclusions des règles.
L’ensemble des quatre matrices donne la représentation booléenne des ontologies en entrée et
représentent la configuration initiale de notre automate qu’on appellera G0.
4.3.2 Inférence booléenne de l’ontologie
La base de connaissance telle qu’elle a été générée à partir de toutes les ontologies en
entrée n’est pas optimale et présente beaucoup de redondances dans les règles.
Définition1 : on appelle des règles redondantes un ensemble de règles ayant les mêmes
prémisses.
Cette redondance peut être induite par la présence d’une relation de
généralisation/spécialisation entre les prémisses (resp. conclusions) de règles qui se répètent à
priori dans plusieurs ontologies. Rappelons que les ontologies candidates à la fusion
appartiennent sémantiquement au même domaine d’application, il est donc attendu que
certaines assertions sémantiques ou terminologiques se répètent. Nous distinguons deux types
de redondance : des règles identiques et des règles incluses.
Définition2 : on appelle des règles incluses l’ensemble de règles redondantes ayant des
conclusions différentes.
Définition3 : on appelle des règles identiques l’ensemble de règles redondantes ayant les
mêmes conclusions.
Pour optimiser la base de connaissance, nous utilisons le moteur d’inférence cellulaire 𝐶𝐴𝑆𝐼 pour éliminer toutes les redondances et la simplifier au maximum tout en préservant la
cohérence et la sémantique de l’ontologie.
Deux types de simplification seront envisagés :
Figure 4-20 Matrice de sortie RS
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 115
Pour les règles Redondantes Incluses : l’ensemble de toutes les Règles Redondantes
Incluses sera remplacé par une seule Règle dont la conclusion sera formée par l’union
de toutes les conclusions de l’ensemble des règles qu’elle remplace.
Pour les règles Redondantes Identiques : l’ensemble de toutes les Règles Redondantes
Identiques sera remplacé par une seule Règle.
Pour réaliser ce travail d’optimisation, le module IBO va simuler le fonctionnement
d’un moteur d’inférence en utilisant les fonctions de transition δfact et δrule données en
section 4.1.2.
Nous considérons G0 la configuration initiale de notre automate cellulaire et,
Δ = δrule ◦ δfact la fonction de transition globale : Δ(G0) = G1 obtenu en deux étapes :
1- On applique la fonction de transition δfact sur G0 nous obtenons G’0. δfact permet de
filtrer les règles candidates à l’inférence. Ce sont toutes les règles (dont ER=0) et
possédant le même ensemble de prémisse que la première règle sélectionnée par
l’automate (ie ER=1). En d’autres termes, toutes les règles redondantes à la première
règle. Dans notre exemple il s'agit des règles suivantes : R2, R7, R8, R13, R14 et R15.
Elles seront marquées en mettant ER à 1 pour sortir de la compétition.
2- On applique, ensuite, la deuxième fonction de transition δrule sur G’0 nous obtenons le
graphe G1. La fonction δrule permet de valider les Faits Conclusion des règles
sélectionnées par δfact en mettant EF à 1. Ensuite, elle désactive les règles
sélectionnées en mettant SR à 0.
Le processus se répète d’une configuration à une autre jusqu’à ce qu’il n’y a plus de
règle candidate (dont ER=0) à sélectionner. Les règles se feront désactiver au fur et mesure
que l’on valide leurs Faits Conclusions. Dans la page qui suit, nous avons donné les
différentes itérations appliquées à notre exemple pédagogique.
R1 : Si F.Science Alors Personne
R2 : Si F.Science Alors Département
R3 : Si F.Science, Personne Alors Salarié
R4 : Si F.Science, Personne Alors Etudiant
R5 : Si F.Science, Personne, Salarié Alors Administrateur
R6 : Si F.Science, Personne, Salarié Alors Enseignant
R7 : Si F.Science Alors Personne
R8 : Si F.Science Alors Département
R9 : Si F.Science, Personne Alors Etudiant
R10 : Si F.Science, Personne Alors Enseignant R11 : Si F.Science, Département Alors Cours
R12 : Si F.Science, Département Alors Recherche
R13 : Si F.Science Alors Personne
R14 : Si F.Science Alors Département
R15 : Si F.Science, Alors Domaine
R16 : Si F.Science, Personne Alors Etudiant
R17 : Si F.Science, Personne Alors Enseignant R18 : Si F.Science, Personne Alors Employé
R1 : Si F.Science Alors Personne, Département, Domaine
R3 : Si F.Science, Personne Alors Salarié
R4 : Si F.Science, Personne Alors Etudiant
R5 : Si F.Science, Personne, Salarié Alors Administrateur
R6 : Si F.Science, Personne, Salarié Alors Enseignant
R9 : Si F.Science, Personne Alors Etudiant
R10 : Si F.Science, Personne Alors Enseignant R11 : Si F.Science, Département Alors Cours
R12 : Si F.Science, Département Alors Recherche
R16 : Si F.Science, Personne Alors Etudiant
R17 : Si F.Science, Personne Alors Enseignant R18 : Si F.Science, Personne Alors Employé
R1 : Si F.Science Alors Personne, Département, Domaine
R3 : Si F.Science, Personne Alors Salarié, Etudiant, Enseignant, Employé
R5 : Si F.Science, Personne, Salarié Alors Administrateur
R6 : Si F.Science, Personne, Salarié Alors Enseignant
R11 : Si F.Science, Département Alors Cours
R12 : Si F.Science, Département Alors Recherche
R1 : Si F.Science Alors Personne, Département, Domaine
R3 : Si F.Science, Personne Alors Salarié, Etudiant, Enseignant, Employé
R5 : Si F.Science, Personne, Salarié Alors Administrateur, Enseignant
R11 : Si F.Science, Département Alors Cours
R12 : Si F.Science, Département Alors Recherche R1 : Si F.Science Alors Personne, Département, Domaine
R3 : Si F.Science, Personne Alors Salarié, Etudiant, Enseignant, Employé
R5 : Si F.Science, Personne, Salarié Alors Administrateur, Enseignant
R11 : Si F.Science, Département Alors Cours, Recherche
G0 G1 1
ère Itération
G2 2ème
Itération
G3 3ème
Itération
G4 4ème
Itération
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 117
R1 : Si F.Science Alors Personne, Département, Domaine
R3 : Si F.Science, Personne Alors Salarié, Etudiant, Enseignant, Employé
R5 : Si F.Science, Personne, Salarié Alors Administrateur, Enseignant
R11 : Si F.Science, Département Alors Cours, Recherche
RE R1 R2 R3 R4
F.Science 1 1 1 1
Personne 0 1 0 1
Département 0 0 1 0
Salarié 0 0 0 1
Etudiant 0 0 0 0
Cours 0 0 0 0
Recherches 0 0 0 0
Administrateur 0 0 0 0
Enseignant 0 0 0 0
Domaine 0 0 0 0
RS R1 R2 R3 R4
F.Science 0 0 0 0
Personne 1 0 0 0
Département 1 0 0 0
Salarié 0 1 0 0
Etudiant 0 1 0 0
Cours 0 0 1 0
Recherches 0 0 1 0
Administrateur 0 0 0 1
Enseignant 0 1 0 1
Domaine 1 0 0 0
4.3.3 Génération de l’ontologie finale
A partir de cet état final, nous appliquons le processus inverse de la modélisation
booléenne pour retrouver la base de connaissances finale à partir des matrices de l’automate.
Nous construisons les règles à partir des matrices RE et RS comme suit :
∀i ∈ {1,..,l } ∀j ∈ {1,..,r } si RE (i, j) ← 1. alors le Fait i ∈ à la Prémisse de la règle j
∀i ∈ {1,..,l }∀j ∈{1,..,r } , si RS (i, j) ← 1 alors le Fait i ∈ à la Conclusion de la règle j.
Exemple : RE(F.Science, R1) = 1 & (RS(Personne, R1)=1& RS(Département, R1)=1 &
RS(Domaine, R1)=1) Alors on définit la règle R1 comme suit : Si F.Science Alors Personne,
Département, Domaine. Ceci donnera la partie suivante du graphe final.
Appliquons sur tout l’exemple nous obtenons ce qui suit :
F.Science
Personne
Administrateur
Domaine Département
Salarié Cours Recherches
Etudiant
Enseignant
F.Science
Personne Domaine Département
Figure 4-21 Graphe de l'ontologie finale
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 118
4.3.4 Formalisation de l’ontologie booléenne
Notre ontologie booléenne peut être définie par le quadruplet : 𝐻 = (𝐶, 𝑅, 𝑃, 𝐴, 𝐻𝑖) où:
C représente l’ensemble des entités qui sont des concepts Faits formant la matrice
𝐶𝐸𝐿𝐹𝐴𝐶𝑇.
R représente une relation d’ordre entre les entités notée « ≤ ». Plusieurs sémantiques
peuvent être associées à la relation d’ordre partiel. Dans notre cas cette relation d’ordre
partiel peut être une relation de spécialisation (relation est un) ou de composition
(relation partie de).
P représente la position d’un concept i dans la hiérarchie. Elle est définie par la donnée
d’une règle d’association. Chaque Règle Rj est définie par le couple (RE, RS) où RE est la
matrice d’entrée et RS la matrice de sortie.
Pour tout ci ∈ C, RE(Ci)=1/0 si ci ∈ Prémisse(Rj) ou pas respectivement ci
est un concept père.
Pour tout ci ∈ C, RS(Ci)=1 si ci ∈ Conclusion(Rj) ou pas respectivement ci
est un concept fils.
A regroupe les fonctions d’annotations Ax associant une description textuelle aux
entités.
Hi représente une extension constituée d’un ensemble d’objets qui seront indexés aux
entités de la hiérarchie. Hi est définie par (C,≤,A,O, σ) où :
O représente l’ensemble des objets peuplant la hiérarchie.
σ est la relation d’association (également appelée relation d’indexation) des
entités aux objets. Pour tout ci ∈ C, σ(ci) représente les objets associés à l’entité
ci.
Propriétés :
ci ≤ cj si et seulement si σ(ci) ∈ σ(cj).
σ(c0) = O : l’ensemble des objets est associé à l’entité racine.
L’ensemble ordonné (C,≤) d’une hiérarchie possède un plus grand élément qui est
appelé racine. Dans notre exemple de l’ontologie l’ensemble des Concepts est C= {F-Science,
Personne, Salarié, Etudiant, Administratif, Enseignant, Département, Cours, Recherche}. La
relation utilisée pour structurer les concepts est la « subsomption (est-un)», qui lie deux
concepts : un Etudiant est une Personne, donc Personne≤ Etudiant. La fonction A label
appliquée sur le concept F-Science = {Faculté, Faculté d’E-science} donne les différentes
dénominations de F-science.
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 119
4.4 Discussion
Une discussion importante sur notre approche devrait se faire à ce niveau afin de
positionner nos résultats et d’une certaine manière de valider notre travail.
Pour cela, l’intérêt porte sur trois volets :
1- par rapport aux ontologies générées automatiquement à partir des bases de données :
quelle serait leur validation au sens de la cohérence ?
2- par rapport à la fusion en elle-même : qu’en est-il de la validation de l’ontologie finale
obtenue après la fusion.
3- par rapport à l’approche dans sa globalité : dans son utilisation de la modélisation
booléenne.
4.4.1 Discussion sur le 1er
point
L’ambiguïté des bases de données est un point non négligeable dans la génération des
ontologies ce qui influence gravement les résultats obtenus. De sorte que nous nous
retrouvons par la suite avec des ontologies fortement hétérogènes qu’il sera difficile de les
fusionner. Pour réduire cette ambiguïté nous avons été contraints de restructurer les bases de
données et d’y faire un nettoyage sans trop toucher aux schémas de base. Le résultat obtenu
est acceptable mais pas suffisant il nécessite encore d’autres efforts, dépassant le cadre de
cette thèse, pour arriver à un raffinage complet des bases de données.
La qualité de la structure de l’ontologie obtenue dépend alors de la qualité des données
de la base utilisée. Une validation de la sémantique de l’ontologie acquise est nécessaire, ainsi
qu’un raffinage de la structure ontologique obtenue est nécessaire. En perspectives nous
suggérons l’utilisation des entrepôts de connaissances lexicales pour valider la sémantique de
l’ontologie obtenue. Cette perspective sera facilitée par le fait que nous avons choisi d’utiliser
des ontologies de domaines.
Concernant les ontologies générées, notre modèle s’appuie sur des ontologies de
domaine. Par opposition aux ontologies génériques, les ontologies de domaine se limitent à
représenter la connaissance d’un domaine particulier. Notre choix est motivé par le fait que
les ontologies de domaine restreignent l’interprétation des concepts qu’elles définissent au
contexte spécifié par le domaine. Ceci a l’avantage de limiter l’ambiguïté des termes définis
dans l’ontologie pour faciliter leur alignement par la suite.
4.4.2 Discussion sur le 2ème
point
Comme nous l’avons vu précédemment le résultat de cette fusion est une ontologie. La
question qui se pose est avons-nous obtenue une ontologie juste. Avant toute chose, nous
supposons que les ontologies locales sont déjà validées au cours de la première étape
(discussion sur le 1er
point). Il nous reste ensuite à discuter la cohérence de leur ontologie de
fusion par rapport aux critères d’évaluation de Gruber ? (Gruber, 1993) À savoir :
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 120
La clarté: les concepts de l’ontologie doivent présenter le sens voulu des termes ; Dans
notre cas les concepts de l’ontologie finale sont ceux des ontologies en entrées. Aucun
nouveau concept n’est ajouter au cours du processus de fusion donc la clarté de
l’ontologie finale est celle des ontologies d’entrées.
La cohérence: les raisonnements construits à partir des axiomes d’une ontologie ne
doivent pas aboutir à des contradictions; Les seules modifications réalisées sur les
ontologies en entrées concernent les liens de subsomption entre concepts. Nous avons
fusionné ces liens en suivants les principes de la généralisation composée et de la
spécialisation composée. Ces dernières restent en parfaite cohérence avec la sémantique
les liens originels.
L’extensibilité: l’ontologie doit être conçue de manière à ce qu’une nouvelle utilisation se
fasse sans remettre en cause ce qui a été précédemment conçu;
Le biais d’encodage minimum: la spécification de l’ontologie doit être aussi indépendante
que possible d’un méta-langage particulier de représentation;
L’engagement ontologique minimal: l’objectif est de permettre la spécialisation des
spécifications d’une ontologie donnée selon des besoins réels;
4.4.3 Discussion sur le 3ème
point
Rappelons que notre approche est largement inspirée du principe de base de la machine
𝐶𝐴𝑆𝐼 pour deux raisons fondamentales. Tout d’abord, les algorithmes classiques de fusion des
ontologies (Maiz, et al., 2008) traitent uniquement deux ontologies à la fois alors que la
modélisation booléenne nous permet d’en traiter plus que deux, ensuite ils nécessitent,
généralement, le développement de deux fonctions Match (Comparer) et Merge (fusionner)
(Hernandez & Mothe, 2006) à quelques variantes près. La fonction Match permet de définir
l’équivalent du concept de la première ontologie dans la deuxième ontologie et la fonction
Merge génère un nouveau concept en fusionnant les deux concepts équivalents. Les deux
fonctions utilisent d’une manière itérative et récursive des algorithmes de parcours d’un
graphe d’ontologies et se heurtent à des problèmes combinatoires dès que la taille de ces
dernières dépasse un certain seuil. En théorie de la complexité, ces deux fonctions présentent
des complexités polynomiales assez lourdes (Costa & Cohen, 2013).
Nous avons vu dans le chapitre3 que les stratégies holistiques s’appuient plus sur
l’aspect fiabilité et n’offrent aucune indication concernant le temps de traitement. Notre
approche relève le défi du passage à l’échelle en offrant un alignement holistique basé sur la
modélisation booléenne 𝐶𝐴𝑆𝐼. Rappelons que cette dernière est un modèle particulier de
systèmes dynamiques et discrets capable d’acquérir, de représenter et de traiter la
connaissance extraite à partir d’exemples sous forme booléenne.
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 121
La complexité de tout système se calcule suivant deux aspects, un aspect temporel, il
faut aller le plus vite possible, et un aspect spatial, il faut consommer le moins possible de
mémoire. Ces déclarations d’intention peuvent sembler ambitieuses, mais c’est en gardant
cette idée à l’esprit que nous avons développé notre approche.
La modélisation booléenne nous prouve que ceci peut être réalisé tout en réduisant la
quantité de stockage et le temps d’exécution. En effet, cela est due à l’utilisation de la
représentation booléenne des matrices RE et RS, et à la multiplication booléenne employée par
les fonctions de transition 𝛿𝑓𝑎𝑐𝑡 et 𝛿𝑟𝑢𝑙𝑒. Les deux processus intensifs de calcul dans 𝐶𝐴𝑆𝐼 sont le stockage et la multiplication booléenne des matrices d’incidences RE et RS.
Stockage en mémoire de RE et RS ; Ces dernières, étant des matrices booléennes peuvent
être exprimées sous forme de deux vecteurs de plusieurs séquences binaires. La quantité de
mémoire requise pour stocker les matrices booléennes est de l’ordre de 𝛰(𝑞) quand on utilise
𝑞 séquences de 𝑟 bits ou de 𝑂(𝑟) quand on utilise 𝑟 séquences de q bits. Le traitement de
telles matrices peut s’effectuer en 𝑞 × 𝑟 étapes. D’un autre côté, ces matrices sont dans toutes
les itérations creuses (contiennent beaucoup de zéro) il suffit, alors, de stocker que les autres
valeurs égales à 1.
L’algorithme standard (REt. EF), par exemple, utilisé par la fonction de transition 𝛿𝑓𝑎𝑐𝑡
peut être exprimé par un algorithme séquentiel de multiplication booléenne vecteur-matrice
exécuté en un 𝑡𝑒𝑚𝑝𝑠 𝛰(𝑟𝑞), où q est la dimension du vecteur EF et 𝑟 × 𝑞 est la dimension de
la matrice REt. La multiplication de RE
t avec EF peut être exécutée en utilisant la technique de
vectorisation booléenne de matrice, dans un 𝑡𝑒𝑚𝑝𝑠 ≈ 𝛰(𝑟 𝑙𝑜𝑔 𝑞) où le produit intérieur
d’une ligne de REt avec le vecteur EF est réduit au produit du bit de parité (bit wise And).
On peut donc conclure que la modélisation booléenne par automates cellulaires peut
constituer un puissant outil pour l’exploration des espaces de recherches de manière efficace
et performante. Elle représente une alternative algorithmique de complexité moindre qui
facilite le passage à l’échelle. Aussi, la transformation du graphe des ontologies en règles de
production en vue d’alimenter le moteur d’inférence de 𝐶𝐴𝑆𝐼 se fait sans pertes des
connaissances.
4.5 Conclusion
Nous avons présenté dans ce chapitre notre méthode de fusion booléenne de plusieurs
ontologies. La fusion des ontologies est un processus qui peut facilement devenir
combinatoire en programmation classique. Pour peu que le nombre d’ontologies à fusionner
ainsi que leur taille deviennent importants que la performance de ces algorithmes diminue
considérablement. Mettre en œuvre des algorithmes classiques est certes une solution
plausible, mais cette dernière périclite rapidement dès que le nombre des ontologies devient
important. La recherche des règles candidates devient combinatoire surtout si les graphes des
structures ontologiques se ramifient exponentiellement. Pour cela, nous avons envisagé de
procéder autrement, d’explorer d’autres techniques de programmation. L’utilisation de la
modélisation booléenne nous permet de maîtriser ce côté combinatoire par l’utilisation des
Une approche cellulaire d’intégration par la fusion des ontologies
F.Z. Abdelouhab Page 122
fonctions simples de transition. Modéliser les différentes ontologies sous forme booléenne
(Abdelouhab et Atmani, (2008), (2009), (2013)) nous facilite leurs mises à jour d’une
manière synchrone et les transitions sont effectuées, dans la théorie, simultanément
(Wolfram, 1986). En appliquant des règles simples et des transitions spécifiques telles que des
multiplications vectorielles simples, notre automate cellulaire peut effectuer, d’une manière
globale, une opération complexe telle la fusion et de surcroît, pouvoir fusionner en un seul
jeu d’exécution plus de deux ontologies. Ce critère est très important pour satisfaire la
scalabilité du web.
Nous avons présenté, dans ce chapitre, notre problématique comme une éventuelle
solution au problème d’intégration des données et leurs sémantiques. L’originalité de notre
travail par rapport à l’état de l’art est que nous avons reconsidéré le problème dans son
ensemble en introduisant à partir des couches les plus basses une modélisation booléenne pour
garantir, à la fois, une construction booléenne automatique de l’ontologie et une optimisation
de l’espace de stockage de l’entrepôt de données.
Une discussion est donnée en fin du chapitre afin de montrer les différents points de vue
sur l’évaluation que nous avons établi pour notre approche. Une autre partie sera donnée dans
le chapitre suivant afin de bien cerner tous les contours de notre approche.
Chapitre Cinquième
Alignement cellulaire
extensionnel
par les règles d’association
F.Z. Abdelouhab Page 124
Chapitre5
5.Alignement extensionnel des ontologies
par les règles d’association
Dans le chapitre précédent nous avons présenté l’architecture générale de notre
approche et donné la description des différents modules la constituant. Ce présent chapitre
complète le précédent en donnant la description détaillée du module d’alignement. Nous
avons souligné auparavant que l’alignement des ontologies est un processus qui peut être très
complexe et combine plusieurs matchers pour arriver à un résultat significatif. Nous avons vu
aussi que dans cette combinaison les matchers peuvent se succéder séquentiellement et les
résultats (les sorties) de l’un deviennent les données d’entrées de l’autre, ou se lancent en
parallèle. L’alignement final devient, alors, une agrégation des résultats intermédiaires.
Dans notre approche nous avons utilisé deux alignements complémentaires ; le premier
structurel que nous avons décrit dans le chapitre précédent, complété par un alignement
extensionnel et fera l’objet de ce chapitre. Selon Maiz, (2008), le calcul de la similarité entre
deux concepts est basé sur la terminologie du concept, ses propriétés et ses relations avec son
voisinage. Seulement, cette similarité n’est pas suffisante pour conclure que deux concepts
sont similaires ou pas. Pour qu’ils le soient complètement il faut que leurs instances le soient
également. Nous avons donc réalisé un processus d’alignement utilisant deux mesures de
similarité ; un alignement intensionnel et un alignement extensionnel.
Nous allons présenter dans ce chapitre notre deuxième contribution qui consiste en une
nouvelle approche cellulaire d’alignement extensionnel des ontologies. Mais avant cela nous
allons d’abord commencer par présenter un exemple d’illustration que nous avons pris de la
vaccination et avec lequel nous allons étayer notre approche. Par la suite nous allons donner
les résultats des expérimentations que nous avons faites. Nous avons procédé en deux étapes :
D’abord nous l’avons évalué par rapport à des métriques d’évaluation ensuite nous l’avons
expérimenté sur le domaine de la vaccination pour apporter une solution à un problème bien
précis qui est celui des perdus de vue. Nous montrerons explicitement comment pouvons-nous
expérimenter un alignement extensionnel sur le problème des perdus de vue.
5.1 Exemple d’illustration
La vaccination en Algérie est un processus assez complexe mettant en collaboration
plusieurs types d’intervenants et plusieurs systèmes, difficiles à se synchroniser partant des
services de la wilaya jusqu’aux services publiques de la santé. Pour cela, les Services
d’Epidémiologie et de Médecine Préventive (SEMEP) se doivent de coordonner les différents
systèmes d’informations sous-jacents à tous les services participant à cette vaccination. Ce
processus, passe par l’historique vaccinal, consulte l’approvisionnement en vaccin, utilise la
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 125
géolocalisation, influence l’épidémiologie etc… autant de systèmes et de services pour
progresser vers une qualité de vaccination. Telle une réaction en chaîne, il est évident que la
réussite de la vaccination, dont dépend celle du PEV, reste étroitement liée à la qualité de la
coordination et du taux d’implication de chaque sous-système y participant.
Les problématiques et les tentatives d’amélioration de l'interopérabilité du système de
vaccination comptent, donc, sur la réconciliation de ces différentes ontologies contenant des
terminologies différentes, redondantes ou complémentaires. L’ontologie finale, obtenue par la
fusion des ontologies locales, représentera une spécification formelle et explicite du système
d’information global du SEMEP. Par le biais de la fusion automatique, nous avons construit
notre ontologie finale pour le SEMEP appelée VaccinOnto dans le cadre du projet PNR. La
construction de VaccinOnto est réalisée par la fusion progressive et itérative des différentes
ontologies créées séparément sur les vaccins, la vaccination, la couverture vaccinale, les
maladies, etc.
Pour cette première partie du chapitre nous allons limiter notre exemple à la partie
concernant les vaccins, leurs descriptions ainsi que d’autres informations les concernant. Nous
allons utiliser des extraits de l’ontologie VaccinOnto pour expliquer le processus
d’alignement. Soient trois ontologies représentant les vaccins selon trois modes de
classification. (Tableau5.1) que nous allons tenter d’aligner suivant notre approche.
Tableau5.1 : Différentes Classifications des Vaccins dans VaccinOnto
Comme nous allons utiliser un alignement extensionnel nous avons donc pris ces mêmes
ontologies mais contextualisées ou peuplées par les produits pharmaceutiques du marché
Ontologies Définition
A/Classification 1 : Selon leurs micro-organismes :
- Vaccins Associés
- Vaccins AntiBactériens
- Vaccins Préparés
B/Classification2 : selon le mode de préparation :
- Vaccins Vivants Atténués
- Vaccins Inactivés Tués
- Vaccins Préparés
C/Classification3 : selon Recommandation
- Vaccins Obligatoires (VO)
- Vaccins Recommandés (VR)
- Vaccins Vivement Recommandés (VVR)
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 126
désignés par l’ensemble d’objets O comme le montre les Figure5-1, Figure5-2, Figure5-3
suivantes.
5.2 Formalisation de l’ontologie contextualisée
Avant d’aller plus loin, il est approprié de définir les constituants d’une ontologie
contextualisée selon notre point de vue. Une ontologie contextualisée est définie par le
quadruplet (C,R,O,σ) où :
– C représente l’ensemble des entités qui sont des concepts.
– R représente une relation d’ordre entre les entités notée ≤. Ainsi le couple(C,≤) est un
ensemble ordonné qui possède un plus grand élément appelé racine.
– O représente l’ensemble des objets ou instances peuplant l’ontologie.
– σ est la relation d’association (également appelée relation d’indexation) des concepts de
l’ontologie aux objets.
Pour tout concept ci ∈C, σ(ci) représente les objets (instances) associés au concept ci.
Cette partie constitue ce qu’on appelle l’intention de l’ontologie. La Figure5-4 reprend la
classification des vaccins contextualisée ou peuplée par les produits pharmaceutiques du
marché désignés par l’ensemble d’objets O. La classe Vaccin représente la racine de
l’ontologie. L’ensemble des Concepts est C= {Vaccin, Antiviraux, Antibactériens, Associés,
Vivants, Inactivés, Préparés}.
La relation utilisée pour structurer les concepts est la « subsomption (est-un)», qui lie
deux concepts : un Antiviraux est un Vaccin, donc Vaccin≤ Antiviraux. De là nous pouvons
déduire que l’ensemble des objets associés à Vaccin est inclus dans l’ensemble des objets
associés au concept Antiviraux, i.e., σ(Vaccin) ∈ σ(Antiviraux). Comme les concepts
Antiviraux et Antibactériens partagent un prédécesseur commun, l’intersection σ(Antiviraux)
∩ σ(AntiBactériens) n’est pas vide. L’entité racine Vaccin, est quant à elle, associée à
l’ensemble des objets O par σ.
Figure 5-1 Ontologie des Vaccins Contextualisée
Vaccin
Antiviraux AntiBactérien Associés
Vivant
Inactivé
Préparé
BCG IMOVAX
POLIO
ROUVA
X
𝝈
𝝈 𝝈 𝝈 𝝈
𝑶
On
tolo
gie
Resso
urces
F.Z. Abdelouhab Page 127
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 128
5.3 Les difficultés d’alignement des ontologies
Rappelons que le problème exposé dans le chapitre 3 est la correspondance sémantique
entre les concepts des ontologies. Pour faire correspondre les différentes ontologies, deux
étapes sont nécessaire : s’abstraire de la différence entre langages d’ontologies utilisés (par
exemple en traduisant les ontologies dans un même formalisme de représentation), puis
chercher les concepts équivalents à apparier en tenant compte des différences de
conceptualisation, de description de cette conceptualisation et de terminologie. Les difficultés
qui se posent sont les différences de syntaxe (Chalupsky, 2000), de représentation des notions
logiques, de l’homonymie possible entre primitives de langage de signification différente. La
diversité des formats de représentation de la connaissance pour un même domaine conduit à
l’apparition des problèmes d’hétérogénéité entre différentes ontologies.
Dans notre domaine de vaccination, les données sont dispersées dans des bases de
données qui n’ont pas la même architecture et n’utilisent pas le même système SGBD. Fournir
des statistiques au sujet des vaccinations devient alors une tâche compliquée qui implique
d’écrire des requêtes différentes sur chacun des systèmes et de tenter de joindre les résultats.
Le résultat final est alors très approximatif car incluant de nombreux doublons.
On est ainsi en présence de plusieurs bases de données séparées aux architectures
différentes qui doivent cohabiter sur le même serveur du SEMEP et qui sont amenées à
enregistrer et à gérer des informations de même nature, notamment au sujet des vaccinations
pratiquées. Connaître par exemple le nombre de vaccinations pratiquées durant l’année en
cours nécessiterait de traiter tour à tour les enregistrements dans toutes les bases. Et il n’y
aurait de surcroît aucun moyen d’exclure les doublons. Si toutes les PMI pratiquaient les
vaccinations en utilisant le même système de gestion informatisé, le problème ne se poserait
pas. Dans notre cas, les différentes bases de données qui ne possèdent évidemment ni les
mêmes tables, ni les mêmes champs de tables enregistrent cependant des informations dont la
valeur sémantique est la même.
Ce travail nous a offert l’opportunité d’approcher, d’analyser et d’aborder la résolution
des problèmes posés par l’organisation et l’architecture des systèmes d’intégration. Les
difficultés qui surgissent lorsque l’on veut exploiter les données issus de systèmes
d’information mal architecturés ou mal configurés sont nombreuses (Hoffmann, 2008) :
Les conflits de nommage : à type de synonymie (différents noms de champs sont
utilisés pour désigner des données de même nature) ou homonymie (des données dont
la nature diffère d’une base à l’autre sont désignées d’un même nom.
Les conflits de d’échelle : Dans l’une des bases, le délai avant la prochaine vaccination
est renseigné en jours. Dans l’autre il est noté en mois.
Les conflits de structure : dans l’application A, il existe une relation un-à-un entre
Patient et médecin et dans l’application S, il y a une relation un-à-plusieurs. Dans
l’une des 2 bases, l’adresse est contenue dans un seul champ texte. Dans l’autre elle
tient sur un champ numérique (numéro de rue) et un champ texte (détail nom de la
rue)
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 129
Cette situation nécessite un traitement correctif préalable des données textuelles de la
base afin de les rendre cohérentes et adaptées à une utilisation rigoureuse au sein d’une base
de données relationnelle où les types et la validité des données ne souffriraient d’aucune
ambigüité. Ceci nous permet également d’éviter d’autres problèmes posés par la fusion des
ontologies dont une liste bien détaillée est donnée dans (Chalupsky, 2000) et (Klein, 2001).
5.4 L’approche proposée
Notre approche d’alignement s’appuie sur deux étapes parallèles comme le montre la
Figure5-5 suivante :
Figure 5-5 Processus d’alignement de notre approche
1) La première étape présentée au chapitre quatre, est fondée sur un alignement
terminologique en utilisant WordNet.
2) Dans la deuxième étape, nous proposons un mécanisme de définition de règles de
«mapping » qui permettent les correspondances entre les instances des ontologies.
3) Le résultat final sera l’agrégation des deux alignements.
Dans ce qui suit nous allons détailler l’alignement extensionnel.
Notre approche met en œuvre une nouvelle technique d’alignement extensionnel des
ontologies basée sur la modélisation booléenne 𝐶𝐴𝑆𝐼. Notre méthode fusionne deux domaines
importants tels la fouille des données et la modélisation mathématique. Du premier, nous
exploitons le paradigme des règles d’association pour extraire des correspondances entre les
ontologies à partir du vocabulaire utilisé dans les descriptions de leurs instances. Et du
deuxième, nous profitons du formalisme dynamique et discret de la machine 𝐶𝐴𝑆𝐼 pour
implémenter notre méthode dont les raisons sont largement présentées dans les chapitres
précédents. L’idée sous-jacente à notre approche est que deux concepts 𝑐1 et 𝑐2, appartenant
à deux ontologies 𝑂1 et 𝑂2 respectivement, sont en relation d’implication ou d’équivalence si
le vocabulaire utilisé dans les descriptions et les instances de 𝑐1, a tendance à être inclus dans
celui de 𝑐2. Nous entendons par vocabulaire utilisé dans les descriptions et les relations toutes
les propriétés utilisées ainsi que leurs valeurs.
Dans notre approche, le but consiste à analyser et à exploiter les instances attachées aux
ontologies d’entrées afin d’enrichir leur sémantiques et d’améliorer les résultats du processus
Intensionnel
Extensionnel
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 130
Instances Instances1 Instances2
(a) (b)
de l’alignement intensionnel réalisé en amont. Notre intuition rejoint facilement les travaux de
David (David, et al., 2007) dans son utilisation des règles d’association et ceci pour plusieurs
raisons : la première est que le contexte d’alignement des ontologies via leurs instances est, en
fait, un véritable travail de fouille de relations entre ces données et les règles d’association,
pour cela, en sont des candidates de premier choix. La deuxième raison est que les règles
d’association offrent aussi un bon moyen prédictif pour déduire d’éventuelles relations
sémantiques entre de nouveaux concepts. La troisième raison est qu’elles déduisent une
sémantique explicite et fiable de l’alignement facilement interprétable lors de la phase de
validation. Et enfin, elles permettent aussi selon David (2007) de définir un alignement
nouveau permettant de déduire une relation d’implication entre les concepts contrairement
aux travaux antérieurs qui se limitaient à l’équivalence seulement. Cependant, une de leurs
principales limites concerne les quantités prohibitives de règles générées par les algorithmes
d’extraction (Agrawal, et al., 1993). David (2007), dans sa méthode, utilise des filtres
constitués des mesures d’intérêts et la réduction des redondances dans les règles.
Nous distinguons deux types de méthodes de fusion des ontologies en utilisant les instances.
Le premier type est appliqué dans le cas où un même entrepôt d’instances est partagé par les
ontologies à fusionner Figure5-6(a) ; le deuxième est appliqué dans le cas où chaque
ontologie dispose de son propre entrepôt d’instances, Figure5-6(b). Nous décrivons dans ce
qui suit la fusion des instances pour les deux cas suivants :
Des instances communes aux deux ontologies à faire fusionner et dans ce cas le
système réindexe l’ontologie de fusion par les mêmes instances ;
Des instances associées aux ontologies disjointes et dans ce cas le système fait des
recherches par mots-clés dans les instances. La fusion est ensuite calculée entre les
instances à l’aide de l’union.
Dans notre cas nous considérons que les ontologies partagent le même ensemble
d’instances.
L’alignement extensionnel que nous avons réalisé sur plusieurs ontologies telles que
Onto1=(C1,≤, 𝑂1,σ1), Onto2=(C2,≤, 𝑂2,σ )…et Onton(Cn,≤,, 𝑂𝑛,σn), utilise les objets
associés à chaque entité par la relation d’indexation σ i,i ∈ {1,2,..n}. Le principe est d’induire
la relation éventuelle qu’entretiennent les entités x ∈ C1,y ∈ C2, et z∈ C3… en s’appuyant sur
leurs extensions respectives σ 1(x),σ 2(y) et σ3(z)….
Figure 5-6 Ontologies Contextualisées
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 131
Vaccin
Antivirus Associés
Antibactérien
s
Vaccin
Recommandé
Obligatoire Vivement
Recommandé Vaccin
Inactivés
Vivants Recombiné
ONTOLOGIES
RESSOURCES
Cependant, une contrainte rend ce principe simple non applicable tel quel. En effet, il est rare
que deux ontologies ou plus partagent les mêmes extensions. Afin de résoudre ce problème,
les approches extensionnelles réalisent un prétraitement sur les ontologies afin de les rendre
comparables (David, et al., 2007). Il existe trois approches possibles :
– Réduire leur extension (et leur relation d’indexation) à 𝑂1 ∩ 𝑂2.
– Augmenter leur extension (et leur relation d’indexation) à 𝑂1 ∪ 𝑂2.
– Extraire une autre représentation des extensions et donc une autre relation d’indexation.
La première approche, adoptée dans notre travail, est la plus simple à mettre en place mais il
est nécessaire que l’intersection 𝑂1 ∩ 𝑂2 ne soit pas égale à l’ensemble vide et souhaitable
qu’elle soit relativement conséquente afin que les résultats obtenus soit statistiquement
valides. La deuxième approche s’appuie sur la classification supervisée et la dernière change
complètement la relation d’indexation par l’extraction et la sélection de descripteurs issus de
l’analyse du contenu des instances. Ainsi les hiérarchies sont susceptibles d’avoir une
intersection plus volumineuse qu’initialement. A l’issue de cette première étape, l’extraction
de règles d’association entre hiérarchies sera, de ce fait, plus aisée.
Le processus
de Mapping cellulaire (en référence à la machine cellulaire 𝐶𝐴𝑆𝐼) que nous avons développé
passe par quatre phases importantes :
Phase1 : Préparation des Données dans laquelle les schémas des ontologies en
entrées sont transformés en matrices booléennes.
Phase2 : Extraction des règles d’associations selon un principe binaire.
Phase3 : Inférence cellulaire. Une étape consacrée au moteur d’inférence
cellulaire qui, en utilisant des fonctions de transitions, détermine des points de
correspondances entre les instances des ontologies par un ensemble optimal de
règles d’association.
Phase4 : Interprétation et analyse : la sémantique des liens de correspondances
établis dans la phase traitement et leur prise en compte.
Figure 5-7 Les ontologies partagent le même ensemble d’instances
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 132
Dans le chapitre quatre nous avons montré comment le système génère la base de
connaissances à partir des graphes des ontologies en entrées. Dans la suite nous allons se
concentrer uniquement sur le traitement des instances par les règles d’association à travers
l’exemple de la vaccination. L’ensemble des instances de toutes les ontologies en entrées est
regroupé dans une seule base de données appelée pour l’occasion, base d’Instances. Par souci
de clarté, nous allons considérer par la suite qu'un échantillon de 12 tuples de cette base de
données Figure5-8.
Figure 5-8 Base d’apprentissage (Table des Transactions)
5.4.1 Génération de la base d’instance
La notion de règle d’association est définie dans un contexte de fouille d’un ensemble
d’individus décrits par un ensemble de variables appelé une table (ou un ensemble de tables
jointes) issue d’une base de données relationnelle. Dans le cadre de l’alignement des
ontologies, notre contexte de fouille ou d’apprentissage sera constitué des termes des
constituants de l’ontologie, à savoir, chaque ontologie représente un attribut prédictif dont les
modalités seront ses différents concepts.
Formellement, une règle d’association est un couple de variables noté 𝑎 → 𝑏 où a et b
sont des itemsets disjoints, appelés respectivement prémisse et conclusion. Il y a deux
problèmes clés qui doivent être considérés lorsqu’on utilise des règles d’association. Tout
d’abord l’extraction des motifs (plus ou moins fréquents) peut être numériquement coûteuse
si l’ensemble des instances (les bases de données) est volumineux. Deuxièmement, certaines
règles d’association sont potentiellement fausses ou sans intérêt.
Pour apporter une solution à ces problèmes nous avons établi certaines hypothèses:
Les règles recherchées sont des règles binaires c.-à-d. qu’elles ne possèdent qu’une
variable en prémisse et en conclusion.
Les prémisses et conclusions sont issues respectivement des ensembles de variables
disjointes.
La fouille de données que nous appliquons procède comme suit : d’abord nous fixons un
attribut dont les modalités vont former les différentes prémisses des règles d’association.
Ensuite, nous allons voir quels sont les autres attributs qui lui correspondent par un
N° Transactions
1 Gardasil Associé, Recommandé
2 Gervarix Associé, Inactivé
3 Dukoral Antivirus, Recommandé, Recombiné
4 DT-Polio Antivirus, Obligatoire, Vivant
5 Infarix Associé, Vivement-Recommandé, Recombiné
6 Stamaril Antibactérien, Inactivé
7 Ticovax Antivirus, Vivement-Recommandé, Inactivé
8 Encepur Antibactérien, Recommandé
9 JE-Vax Antibactérien, Obligatoire, Recombiné
10 Vaxigrip Antivirus, Obligatoire, Vivant
11 Havrix Antivirus, Recommandé, Recombiné
12 Genhevax Antivirus, Vivement-Recommandé, Recombiné
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 133
1. 𝐹𝑜𝑛𝑐𝑡𝑖𝑜𝑛 : 𝐸𝑥𝑡𝑟𝑎𝑐𝑡𝑖𝑜𝑛_𝐷𝑒𝑠_𝑅è𝑔𝑙𝑒𝑠 2. 𝐼𝑁𝑃𝑈𝑇: (1) 𝐿𝑖𝑠𝑡𝑒 𝑑𝑒𝑠 𝐶𝑜𝑛𝑐𝑒𝑝𝑡 𝑑𝑒 𝑙𝑎 𝑝𝑟𝑒𝑚𝑖è𝑟𝑒 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑖𝑒 𝑂1
3. 𝑂𝑈𝑇𝑃𝑈𝑇: 𝐿𝑖𝑠𝑡𝑒 𝑑𝑒𝑠 𝑅è𝑔𝑙𝑒𝑠 𝑑’𝐴𝑠𝑠𝑜𝑐𝑖𝑎𝑡𝑖𝑜𝑛 4. 𝐷é𝑏𝑢𝑡 5. 𝑘 = 1; // 𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑅è𝑔𝑙𝑒𝑠 6. 𝑊𝑖𝑙𝑒 (𝑡𝑟𝑢𝑒)
7. {𝑅𝑒𝑎𝑑(𝐼𝑡𝑒𝑚𝑠𝑒𝑡𝑖) ;
8. 𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝐼𝑡𝑒𝑚𝑠𝑒𝑡 𝐺𝑒𝑡𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝐼𝑡𝑒𝑚𝑠𝑒𝑡𝑖) ;
9. 𝑙 = 1 ; 10. 𝐹𝑎𝑖𝑟𝑒𝑝𝑜𝑢𝑟 𝑗 = 1 à 𝑛 // 𝑛 = 𝑡𝑎𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙’𝐼𝑡𝑒𝑚𝑠𝑒𝑡
11. 𝐼𝑡𝑒𝑚𝐺𝑒𝑡𝐶𝑜𝑛𝑐𝑒𝑝𝑡(𝐼𝑡𝑒𝑚𝑠𝑒𝑡𝑖(𝑗)) ; 12. 𝐼𝑓 𝐼𝑡𝑒𝑚 ∈ 𝐿𝑖𝑠𝑡𝑒𝐶𝑜𝑛𝑐𝑒𝑝𝑡𝑃𝑟𝑒𝑚𝑖𝑠𝑠𝑒 13. 𝑇𝑒𝑛 𝑃𝑟𝑒𝑚𝑖𝑠𝑠𝑒 𝐼𝑡𝑒𝑚;
14. 𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝐼𝑡𝑒𝑚 𝐺𝑒𝑡𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝐼𝑡𝑒𝑚) ; 15. 𝐸𝑙𝑠𝑒
16. 𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛(𝑙) 𝐼𝑡𝑒𝑚 ;
17. 𝐸𝑛𝑑𝑖𝑓 ; 18. 𝑙 + +;
19. 𝐹𝑖𝑛𝑓𝑎𝑖𝑟𝑒𝑝𝑜𝑢𝑟 ; 20. 𝐹𝑎𝑖𝑟𝑒𝑝𝑜𝑢𝑟 𝑗 = 1 à 𝑙
21. 𝑅è𝑔𝑙𝑒(𝑘)𝑃𝑟𝑒𝑚𝑖𝑠𝑠𝑒 + ‘’ + 𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛(𝑙) ;
22. 𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝑅𝑒𝑔𝑙𝑒(𝑘)) = 𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝐼𝑡𝑒𝑚𝑠𝑒𝑡/𝑁 ;
23. 𝐶𝑜𝑛𝑓𝑖𝑎𝑛𝑐𝑒(𝑅𝑒𝑔𝑙𝑒(𝑘)) = 𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝐼𝑡𝑒𝑚𝑠𝑒𝑡/𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝐼𝑡𝑒𝑚 ;
24. 𝑘 + + ;
25. 𝐹𝑖𝑛𝐹𝑎𝑖𝑟𝑒𝑝𝑜𝑢𝑟 ; 26. 𝐹𝑖𝑛
𝐴𝑙𝑔𝑜𝑟𝑖𝑡𝑚𝑒 𝐺é𝑛è𝑟𝑒𝑅è𝑔𝑙𝑒
(2) 𝐿𝑖𝑠𝑡𝑒 𝑑𝑒𝑠 𝐼𝑡𝑒𝑚𝑠𝑒𝑡𝑠
alignement. Pour cela nous utilisons l’algorithme suivant qui permet d’extraire des règles
d’association appelé 𝐺é𝑛è𝑟𝑒𝑅è𝑔𝑙𝑒.
Le déroulement de l’algorithme 𝐺é𝑛è𝑟𝑒𝑅è𝑔𝑙𝑒 sur notre table de transactions (Figure5-8)
nous donne les règles d’association suivantes:
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 134
Figure 5-9 Base de connaissances générée à partir des règles d’association
L’ensemble des règles générées constitue la base des instances. Cette dernière contient un
ensemble important de règles dont beaucoup d’entre elles sont redondantes pour les mêmes
raisons citées en chapitre quatre.
5.4.3 Le Mapping booléen
Dans cette phase nous utilisons le moteur d’inférence de la machine 𝐶𝐴𝑆𝐼 en suivant les
étapes décrites dans le chapitre quatre.
D’une manière générale, le fonctionnement de la machine 𝐶𝐴𝑆𝐼 s’effectue en utilisant
deux fonctions principales :
1. La fonction Match() qui permet de comparer les règles et d’en éliminer les
redondantes. l’ensemble de toutes les règles redondantes sera remplacé par une seule
règle. Dans notre exemple, la base initiale était formée de 19 règles (Figure5-9). Après
l’application de la fonction Match() nous obtenons 14 règles valides.
2. La fonction Merge() qui fusionne les règles valides ayant les mêmes prémisses. Elle
permet de construire une nouvelle règle à partir des règles possédant la même
prémisse en faisant la conjonction de leurs conclusions respectives. Dans notre
exemple, le nombre de règles final se réduit à 3 règles.
5.4.4 Interprétation des Résultats
Nous avons utilisé les règles d’association dans le but de déceler d’éventuelles
correspondances entre les concepts des ontologies en entrée avant de les fusionner. Une règle
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 135
Vaccin
Inactivés
Vivants Recombiné
Vaccin
Recommandé
Obligatoire Vivement
Recommandé
Vaccin
Antivirus Associés
Antibactérien
s
d’association entre deux concepts 𝑐1 et 𝑐2 décrite comme suit : si 𝑐1 alors 𝑐2, représente un
moyen intuitif pour exprimer une relation de correspondance entre eux. Autrement dit, si
σ1(𝑐1) (l’ensemble des instances de 𝑐1) est inclus ou identique à σ2(𝑐2) (l’ensemble des
instances de 𝑐1) alors on peut proposer les cas d’alignement suivants (Elbyed, 2009) :
- Les deux concepts 𝑐1 et 𝑐2 sont (𝑐1 𝑐2) si 𝜎1(𝑐1) 𝜎1(𝑐2) = 𝜎1(𝑐1)= 𝜎1(𝑐2).
- Le concept 𝑐1 est plus général que le concept 𝑐1 c.-a-d, (𝑐1 𝑐2) si 𝜎1(𝑐1) 𝜎1(𝑐2) = 𝜎1(𝑐1) et 𝜎1(𝑐1)≠.
- Les deux concepts 𝑐1 et 𝑐2 sont considères comme dissimilaires (𝑐1 𝑐2) dans les autres
cas,
Dans notre exemple, la machine 𝐶𝐴𝑆𝐼 a validé les trois règles suivantes :
R1 : Si Associés Alors Inactivé, Recombiné, Recommandé, VivRecommandé
R2 : Si Antivirus Alors Vivants, Inactivés, Recombiné, Recommandé,
VivRecommandé, Obligatoire
R3 : Si Antibactérien Alors Inactivé, Recombiné, Recommandé, Obligatoire
La Figure5-10 suivante montre les différents alignements engendrés par la machine
𝐶𝐴𝑆𝐼. La règle R2 est la plus expressive et la plus générale, les autres n'apportent aucune
information supplémentaire. La règles R2 montre que l'attribut Antivirus engendre toutes les
valeurs des attributs " Préparation " et " Recommandation " ce qui signifie que les vaccins de
type Antivirus sont les mêmes que Recombiné, Vivants et Inactivés. La classe 'Antivirus' peut
être une superclasse des classes 'Recombiné', 'Vivants' et 'Inactivés'. La même chose pour les
classes " Obligatoire ", " VivRecommandé " et " Recommandé " Il est évident que ce résultat
reste fonction de la population et de la taille de l'échantillon pris pour l'étude.
Figure 5-10 Schématisation du résultat du Matching
5.4.5 Génération de l’Ontologie Finale
En appliquant cet algorithme sur la base de connaissances globale de la Figure5-9 sur les
ontologies des vaccins (Tableau5.1), nous obtenons une classification des vaccins plus
complète Figure5-11:
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 136
Base de Faits
Fait1
Fait2
…
Fait n
Fait1
R, RE, RS
Fait2
R, RE, RS
Fait3
R, RE, RS
Faitn
R, RE, RS
Figure 5-11 Ontologie globale de fusion des trois classifications
5.4.6 Stockage de l’ontologie finale
Le fichier de structure suit le modèle en étoile, il contient la table des faits. Cette
dernière contient l’ensemble des faits constituants l’ontologie finale. Chaque Concept
représente une dimension pour la représentation en étoile. Une dimension représentant un
concept contient l’ensemble des règles dans lesquelles il participe suivi par sa valeur dans les
matrices d’entrées RE et de sorties RS. Ces dernières nous donnent la position du Fait dans
l’arbre. La Figure5-12 suivante donne la représentation booléenne logique en étoile de
l’entrepôt.
Le schéma en étoile obtenu est, par la suite, sauvegardé au niveau du disque en utilisant
un chaînage dynamique en mode binaire. Ceci nous permet d’optimiser l’espace de stockage
de l’entrepôt de données.
Au niveau physique chaque document OWL, représentant l’ontologie finale est, repéré
par son nom, et une liste d’élément représentant les différents Faits (concepts).
Figure 5-12 Schéma en étoile de l’entrepôt de données
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 137
Chaque élément est représenté par la liste de toutes les règles auxquelles il participe ainsi que
sa position dans la règle. Rappelons que la position d’un Fait dans une règle est donnée par les
valeurs de RE et RS.
Par exemple le stockage booléen de l’ontologie de notre exemple sera donné comme suit :
Pour minimiser le coût de stockage nous désignons les règles uniquement par leur numéro
(1 signifie R1) ce qui donne par exemple pour le Fait Personne le résultat suivant :{101, 210}.
5.5 Expérimentation
La phase de validation permet de comparer les résultats obtenus par les méthodes
proposées avec les résultats d'autres méthodes similaires dans la littérature pour avoir une idée
sur la performance de l’algorithme. Ce processus de validation repose sur l'utilisation d'un
Figure 5-13 Représentation physique de l’entrepôt
Figure 5-14 Représentation booléenne de notre ontologie
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 138
ensemble de métriques d'évaluation. Ces métriques permettent d'une part, d'apprécier la
qualité de l’algorithme obtenu ; et, d'autre part, elles assurent une démarche de comparaison
avec les résultats obtenus par d'autres méthodes de fusion.
Notre approche peut être analysée selon quatre points de vue différents vu qu'elle
représente à la fois un système cellulaire, un système de Matching, un système d'extraction
des règles d'association et un système de fusion. Dans ce qui suit nous allons présenter nos
différentes validations pour chaque point de vue.
5.5.1 En tant que système cellulaire
Notre approche, fondée sur le principe de base de 𝐶𝐴𝑆𝐼, utilise un algorithme cellulaire
dont le but est d'optimiser le temps d'exécution du CPU. Dans ce sens, notre algorithme
présente une complexité moindre et linéaire réduite à 𝛰(𝑛) par rapport à celle d'un algorithme
de matching classique qui se base sur des parcours de graphes dont la complexité s'élève à
𝛰(𝑛2) avec n la taille du graphe. Cela est dû à l'utilisation de la représentation booléenne des
matrices d'incidences RE et RS et à la multiplication booléenne employées par les fonctions de
transition 𝛿𝑓𝑎𝑐𝑡 et 𝛿𝑟𝑢𝑙𝑒.
D’un autre côté, si l’on valide l’utilisation des automates cellulaires dans le domaine de
fouille de données nous pourrions comparer notre algorithme à un autre utilisant les fourmis
artificielles (Azzag & Lebbah, 2011), pour cause, les deux méthodes proposent en sortie une
classification ou un regroupement des données en utilisant des fonctions locales. Ce qui est,
d’ailleurs prévu dans une étude proche.
5.5.2 En tant que système de Matching
En tant qu’un système de matching, son évaluation nécessite l'utilisation des mesures
telles que la Précision, Rappel, Fallout et Fmesure (Do, et al., 2002) et une comparaison avec
les ontologies du Benchmark OAEI (Ontology Alignment Evaluation Initiative). La première
phase dans le processus d'évaluation de la qualité d'alignement consiste à résoudre le
problème manuellement. Le résultat obtenu est considéré comme l'alignement de référence.
La comparaison de l'alignement de référence avec celui obtenu par la méthode d'alignement
proposée produit trois ensembles (Zghal, 2010) : 𝑁𝑓𝑜𝑢𝑛𝑑, 𝑁𝑒𝑥𝑝𝑒𝑐𝑡𝑒𝑑 et 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡.
L'ensemble 𝑁𝑓𝑜𝑢𝑛𝑑 représente les paires alignées avec la méthode d'alignement.
L'ensemble 𝑁𝑒𝑥𝑝𝑒𝑐𝑡𝑒𝑑 désigne l'ensemble des couples appariés dans l'alignement de
référence.
L'ensemble 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡 désigne l'intersection des deux ensembles 𝑁𝑓𝑜𝑢𝑛𝑑 et
𝑁𝑒𝑥𝑝𝑒𝑐𝑡𝑒𝑑. Il représente l'ensemble des paires appartenant à la fois à l'alignement
obtenu et à l'alignement de référence.
La précision représente le rapport du nombre de paires pertinentes trouvées, c-à-d.,
𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡, rapporté au nombre total de paires obtenues par la méthode d'alignement, c-à-d.,
𝑁𝑓𝑜𝑢𝑛𝑑. Elle renvoie ainsi, la partie des vraies correspondances parmi celles trouvées.
Ainsi, la métrique précision est définie par :
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 139
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡
𝑁𝑓𝑜𝑢𝑛𝑑
Le rappel est le rapport du nombre de paires pertinentes trouvées, 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡, rapporté
au nombre total de paires pertinentes, 𝑁𝑒𝑥𝑝𝑒𝑐𝑡𝑒𝑑. Il spécifie ainsi, la part des vraies
correspondances trouvées. Il est définie par :
𝑟𝑒𝑐𝑎𝑙𝑙 = 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡
𝑁𝑒𝑥𝑝𝑒𝑐𝑡𝑒𝑑
La métrique Fallout permet d'estimer le pourcentage d'erreurs obtenues au cours du
processus d'alignement. Elle est définie par le rapport des paires erronées, Nfound - Ncorrect,
rapporté au nombre total des paires trouvées, Nfound. Cette métrique est définie par :
𝐹𝑎𝑙𝑙𝑜𝑢𝑡 = 𝑁𝑓𝑜𝑢𝑛𝑑 − 𝑁𝑐𝑜𝑟𝑟𝑒𝑐𝑡
𝑁𝑓𝑜𝑢𝑛𝑑
La métrique F-mesure est une mesure harmonique. Elle combine les deux mesures de
précision et de rappel. Elle est définie comme suit :
𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =2 ∗ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
Notre approche calcule les mesures de similarité entre les concepts en respectant la
relation de subsomption qui les relie. Ceci induit que certains couples de concepts ne sont pas
pris en considération par le processus d'alignement. De ce fait, l'ensemble des paires
appartenant à la fois à l'alignement obtenu et l'alignement de référence, 𝑁𝐶𝑜𝑟𝑟𝑒𝑐𝑡, serait
faible. Par conséquent, la valeur de précision est affaiblie. En outre, les couples qui ont été
exclus augmentent le nombre de couples correctement alignés, c-à-d., 𝑁𝐶𝑜𝑟𝑟𝑒𝑐𝑡. Les
résultats obtenus sont encourageants en particulier sur les tests où les ontologies possèdent des
structures semblables ou identiques. Les résultats seront, probablement, moins bons sur les
jeux de test qui comportent des ontologies dégradées ce qui nous reste à confirmer ou pas
dans les travaux futurs.
5.5.3 En tant que système d'extraction des règles d'association
Nous avons comparé notre algorithme par rapport à l'algorithme a priori (Agrawal, et
al., 1993). Pour cela, nous avons utilisé le même exemple des vaccins. Il nous a fallu adapter
notre exemple de 3 ontologies et 32 instances aux termes du datamining c.-à-d. 32 instance et
3 attributs que nous avons introduit dans WEKA pour extraire les règles d'associations en
fixant les seuils à 10%. Les résultats de comparaison sont donnés dans le Tableau5-2 qui suit:
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 140
𝑮é𝒏è𝒓𝒆𝑹è𝒈𝒍𝒆 A priori (WEKA)
Règles Retrouvées 20 66
Précision 0.15 0.40
F-Mesure 0.260 0.172
Tableau 5-2 Comparaison des résultats d’extraction des règles d’association
Nous remarquons que la précision de notre système est faible alors que la F-Mesure est
plus élevée i.e. ce qui rend le rappel élevé et ceci grâce à l'efficacité du système à trouver les
règles pertinentes. Ceci est dû sans doute aux conditions posées préalablement sur le schéma
des règles nous permettant d'éviter les fausses règles. Nous avons comparé nos résultats par
rapport aux travaux de Marinica dans (Marinica & Guillet, 2010). Dans ces travaux, les
auteurs en s’inspirant des travaux menés sur les règles d’associations généralisées et les
schémas de règles ils proposent de modéliser les connaissances du domaine du décideur à
l'aide d'ontologies associées aux données et de schémas de règles. Pour leur test ils illustrent
leurs travaux sur l’ontologie Pizza.owl (http://www.co-ode.org/ontologies/pizza/2005/10/18/
pizza.owl). Cette ontologie est intéressante dans la mesure où elle est facile à interpréter.
Nous avons soumis cette ontologie à notre algorithme de génération de règles d’association il
a généré 98 règles d’association alors que l’algorithme dans (Marinica & Guillet, 2010)
génère 88 règles. Nous avons un écart de 10 règles qui pour nous exprime les règles
redondantes qui seront par la suite réduites par la machine cellulaire lors de la fusion.
5.5.4 En tant que système de fusion holistique
Nous avons testé les performances du système face au passage à l’échelle Tableau5-3.
Pour cela, nous avons effectué plusieurs jeux de test où chaque test comprenait une ontologie
en plus. Nous avons effectué 4 tests avec la même ontologie Pizza.owl qui contient 104
classes et 5 Instances. Dans chaque test on apporte un aspect incrémental du nombre
d’ontologie en entrée. Test1 avec 2 ontologies, Test2 avec 3 ontologies, Test3 avec 4
ontologies et Test4 avec 5 ontologies.
Tableau 5-3 : Test de performance pour le passage à l’échelle
Nous remarquons que les performances du système se dégradent mais lentement ce qui
nous laisse très optimistes.
Pour bien mesurer notre approche de fusion d'ontologies, nous avons adopté un
protocole de validation utilisé dans (Salhi, 2014). Ce protocole consiste d'abord à récupérer
Nombre d'Ontologies 2 3 4 5
Nombre de Classes 208 312 416 520
Nombre d'Instances 10 15 20 25
Règles Trouvées 198 297 396 495
Précision 0,106 0,071 0,053 0,042
F-Mesure 0,192 0,132 0,101 0,081
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 141
une ontologie de référence. Dans notre cas nous avons utilisé l’ontologie Pizza.owl à partir du
référentiel en ligne de Protégé-2000. Ensuite nous avons partitionné cette ontologie de
référence en deux sous-ontologies. Le partitionnement est effectué avec l'outil NÉON Toolkië
(http ://neon-toolkit.org/wiki/Main Page) qui a donné lieu à deux ontologies Pizza1.owl et
Pizza2.owl. Nous avons lancé notre processus de fusion avec les deux entrées obtenues dans
le partitionnement. Le résultat était satisfaisant puisque nous avons obtenu en final l’ontologie
de départ.
5.6 Expérimentation de l’approche dans la vaccination
Dans cette partie, nous avons poussé la validation encore plus loin sur des cas réels.
Nous avons testé notre approche concernant l’utilisation des règles d’association pour la
détection des perdus de vue dans le programme élargi de vaccination. C’est une
problématique assez particulière dont souffrent tous les services SEMEP. Ceci s’explique
comme suit :
Selon le programme élargi de vaccination (PEV), tous les enfants ont droit à une série
de vaccination à partir de la première semaine de leur naissance jusqu’à 11 mois. Une
politique qui vise à réduire l’effet des principales maladies mortelles pour l’enfant. Le PEV
fait face aux principales maladies de l’enfance les plus responsables de mortalité chez les
enfants. Malheureusement, un problème se pose : beaucoup des enfants qui se présentent pour
la première vaccination, une semaine après leur naissance, ne reçoivent plus la totalité des
vaccins, et ceci, pour de multiples raisons ; Ce sont les perdus de vue. Un vrai problème pour
les autorités sanitaires du pays pour lequel nous allons apporter une solution potentielle.
Notre solution consiste à adopter notre méthode Matching cellulaire pour la détection
des perdus de vue en utilisant les règles d’association.
La vaccination en Algérie est un processus assez complexe mettant en collaboration plusieurs
types d’intervenants et plusieurs systèmes, difficiles à synchroniser partant des services de la
wilaya jusqu’aux services publiques de la santé. Pour cela, les Services SEMEP se doivent de
coordonner les différents systèmes d’informations sous-jacents à tous les services participant
à cette vaccination. Ce processus, passe par l’historique vaccinal, consulte
l’approvisionnement en vaccin, utilise la géolocalisation, influence l’épidémiologie etc…
autant de systèmes et de services pour progresser vers une qualité de vaccination. Telle une
réaction en chaîne, il est évident que la réussite de la vaccination, dont dépend celle du PEV,
reste étroitement liée à la qualité de la coordination et du taux d’implication de chaque sous-
système y participant.
Les statistiques des différentes années relèvent qu’il est difficile d’atteindre des taux de
vaccination raisonnables en raison de plusieurs facteurs dont les perdus de vue. Les perdus de
vue est la situation d’un enfant qui a eu au moins un contact avec les services de vaccination
mais qui n’a pas terminé sa série de 5 contacts. Ceux-là influent négativement sur la
couverture des différents antigènes. Ce qui a pour conséquence une diminution de la
couverture vaccinale totale, minimisant ainsi les efforts faits en faveur de la survie de l’enfant.
C’est pourquoi, nous nous intéressons dans cette étude à identifier les cas des abandons et
d’aider à l’adaptation de stratégies pouvant les réduire chez les enfants de 0 à 11mois en
utilisant des techniques d’ingénierie des connaissances et du datamining.
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 142
NV PV TV 1
ère Vaccination
2ème
, 3ème
, 4ème
Vaccination
5ère
Vaccination
5.6.1 La mission des SEMEP
Parmi les missions les plus importantes du SEMEP est le PEV dont les objectifs sont
dirigés vers :
Une augmentation de la couverture vaccinale : Ce point est, sans doute, le plus
important dans le processus global du PEV. Il concerne essentiellement la fonction des
PMI par l’acte de la vaccination qu’elle soit groupée (des compagnes de l’hygiène
scolaire) ou individuelle au centre ou à domicile. La vaccination individuelle, dite de
routine, fondée sur un calendrier de vaccination précis et la vaccination de porte à
porte qui permet aux populations isolées, d’accessibilité faible aux structures de soins,
de bénéficier des avantages de la vaccination.
La réduction du poids de certaines maladies : Ce point se déduit automatiquement du
premier. Une bonne couverture vaccinale suppose, déjà une éradication de la
poliomyélite, une élimination de la rougeole, un contrôle sur le tétanos néonatal etc…
La sécurité des vaccinations, la pérennité des programmes.
Contact Age Antigènes Recommandés
1 Naissance BCG, Polio0
2 8 semaines DTCoq1, Polio1
3 12 semaines DTCoq2, Polio2
4 16 semaines DTCoq3, Polio3
5 9 mois Anti-rougeoleux
Tableau5.4 : Calendrier de la vaccination de routine
5.6.2 Le Processus de Vaccination
La couverture vaccinale (CV) (Figure5-16) est un modèle mathématique subdivisant la
population en trois groupes d’individus :
Totalement Vacciné (TV) l’ensemble des enfants (les individus) ayant reçu la totalité
des vaccins. Ils ont 5 contacts.
Partiellement Vaccinés (PV) l’ensemble des enfants ayant reçu un nombre de
vaccination appartenant à [1,4]. Ils n’ont pas encore terminé leurs vaccinations.
Nullement Vacciné (NV) l’ensemble des enfants ayant reçu 0 vaccination.
Un individu passe de l’état NV à l’état PV par une 1ère
vaccination et de l’état PV à
l’état TV après 5 vaccinations.
Figure 5-15 Diagramme d’état-transition
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 143
NV
Couverture Vaccinale
Facteurs de Risques
Vaccination
Nouvelle Vaccination Kème Vaccination Dernière Vaccination
PV TV
Partie-de Partie-de Partie-de
Predecesseur Predecesseu
r
Subit Devient Devient Devient Become
Détermine
Causes
SEMEP
Gérée par
Ech
elle
de
l’in
div
idu
s Ec
he
lle d
e la
po
pu
lati
on
Les facteurs de risque, considérés comme des évènements, entretiennent une relation de
causalité avec le processus de vaccination.
Pour rendre plus efficace notre ontologie, nous lui avons ajouté un concept « Causes » qui
définit les différentes causes des abondons de vaccinations. Ces causes peuvent être
subdivisées en trois catégories :
Liées Aux Parents : Par exemple,
Absence temporaire ou définitive de la mère avec son enfant
Manque de temps pour ramener l’enfant à la vaccination.
Liées Aux Services : Par exemple :
La coordination entre les services de santé curatifs et préventifs est souvent
insuffisante ; des agents de santé sont incapables de suivre correctement le
calendrier vaccinal, surtout si plusieurs vaccins doivent être donnés à des dates
différentes.
Le désordre, les files d’attente, le manque d’amabilité du personnel de santé
sont responsable des occasions manquées.
L’insuffisance de formation des agents de santé en matière de gestion des
vaccins (gaspillage).
Absence de l’agent vaccinateur
Manque de vaccin dans les centres de vaccination
Liées Aux Croyances : Par exemple Enfant refoulé pour diverses raisons (Maladie,
insouciances etc…)
Nous avons aussi ajouté une propriété importante à la classe Vaccination qui est
« NumContact » qui permet de savoir l’état de l’enfant vacciné (NV, PV ou TV).
Figure 5-16 Processus de la Couverture Vaccinale
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 144
Ontologie Vaccination Propriété de la classe Vaccination
Figure 5-17 Ontologie Vaccination donnée par Protégé3.1
Le processus de la vaccination est un processus complexe qui présente deux aspects
complémentaires : l’aspect statique décrit par l’ontologie de domaine (Figure5-17) et l’aspect
dynamique décrit par une ontologie de processus (Camara, 2012) générée en interrogeant
l’ontologie de domaine (Figure5-18). Une requête SPARQL de type 𝐶𝑂𝑁𝑆𝑇𝑅𝑈𝐶𝑇 est lancée
qui permet de définir un nouveau graphe contenant les différents états des enfants vaccinés
selon la valeur de la propriété « NumContact ». L’ensemble de la population sera partagé en
trois catégories dont chacune instanciera les concepts de l’ontologie de processus.
L’ensemble commun des instances va contenir les enfants qui ont circulé d’un SEMEP
à un autre (pour des causes définies) et donc possèdent des états multiples suivant leurs
situation au niveau de chaque SEMEP. Par exemple : un enfant dont le code est E0158 est un
nouveau vacciné à la commune d’Oran où la mère y séjournait provisoirement. Son état au
SEMEP d’Oran est NV. Avant d’arriver au prochain rappel de vaccination la mère a, déjà,
déménagé à Mostaganem où elle résidera pendant 8 mois. La suite des contacts de
vaccination se fera au niveau du SEMEP de Mostaganem et l’état de l’enfant E0158 passe de
NV à PV. Après cela, la mère va définitivement à Alger parceque son mari a été promu au
ministère, son enfant terminera sa vaccination au SEMEP d’Alger. Lors de la couverture
vaccinale, cet enfant sera considéré comme perdu de vue au niveau des SEMEP d’Oran et
Mostaganem. Cet exemple montre la complexité du système réel qui est difficile de déceler
lorsqu’il s’agit de fouiner dans des bases dépassant des milliers d’individus.
SEMEP 1
NV1 PV1
TV1
Figure 5-18 Ontologie de Processus associée à l’Ontologie de domaine de
Vaccination
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 145
ONTOLOGIES
RESSOURCES
SEMEP1
NV1
PV1 TV1
SEMEP2
NV2
PV2 TV2
SEMEP3
NV3
PV3 TV3
L’idée inhérente à notre approche est d’exploiter et d’analyser les instances des
différentes ontologies de processus vaccination que nous avons généré. Ces instances
représentent, dans la réalité, les différents enfants faisant partie du programme de vaccination.
Un alignement extensionnel à ce niveau nous permet de déceler les ensembles d’instances
communes aux différents SEMEP. C’est précisément cet ensemble d’instances communes qui
fera l’objet d’analyse car il peut déceler certains cas de perdus de vus. Par le biais des règles
d’association il est possible de déceler une certaine connaissance tacite et implicite que
peuvent exploiter les dirigeants des SEMEP pour marquer les cas d’abondons.
Prenons un échantillon de 12 individus appartenant à la base d’apprentissage construite
à partir de SEMEP1 d’Oran, SEMEP2 de Mostaganem et SEMEP3 d’Alger (Figure5-19).
A partir de là nous donnons la table des transactions suivante :
Tableau 5-5 : Table des Transactions
Le déroulement de l’algorithme 𝐺é𝑛è𝑟𝑒𝑇𝑎𝑏𝑙𝑒 sur notre table de transactions nous
donne les règles d’association du genre :
Une Règle Signification
Si NV1 Alors PV3 Un nouveau vacciné dans SEMEP1 continue ses contacts dans SEMEP3
Si PV1 Alors TV2 Un vacciné dans SEMEP1 termine sa vaccination dans SEMEP2
N° Transactions
1 E0101 NV1, PV2
2 E0202 NV1, PV3
3 E0406 TV1, PV2, NV3
4 E1258 TV1, TV2, TV3
5 E485 NV1, NV2, NV3
6 E3259 PV1, PV3
7 E845 TV1, NV2, PV3
8 E0125 PV1, PV2
9 E365 PV1, TV2, NV3
10 E0895 TV1, TV2, TV3
11 E01144 TV1, PV2, NV3
12 E6548 TV1, PV2, NV3
Figure 5-19 Extrait de l’Ontologie de Processus de
Vaccination
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 146
L’ensemble des règles générées constitue la nouvelle base de connaissances. Cette
dernière contient un ensemble important de règles dont beaucoup d’entre elles sont
redondantes et d’autres sans signification importante.
Les règles engendrées par la machine 𝐶𝐴𝑆𝐼 représentent les cas à étudier dans le PEV.
Une fois soumises à une expertise, des rapports peuvent être établis. Cette expertise pourrait
déduire les connaissances explicites suivantes :
Identifier les cas en cours (PV): Indiquer les enfants déjà enregistrés qui n’ont pas
encore reçu la totalité de leurs doses.
Calculer le taux de couverture. L’état vaccinal des enfants d’un groupe donné peut être
calculé automatiquement.
Identifier les retardataires. Les enfants, qui ont manqué une certaine dose de vaccins,
peuvent être facilement identifiés.
Avoir des taux de couverture plus précis.
Plus important encore, l’expertise pourrait déduire les connaissances implicites suivantes :
L’analyse des dossiers de vaccination révèle de manière plus détaillée les raisons pour
lesquelles certains enfants ne sont pas vaccinés, à quelle communauté appartiennent-
ils, et quelle est l’importance du rôle joué par des facteurs tels qu’un refus parental (les
raisons d’un refus de vaccination sont des instances du concept Raisons dans
l’ontologie de vaccination).
Assurer que tous les enfants soient vaccinés.
La gestion des stocks de vaccins et son utilisation
Prédire le nombre d’enfants à vacciner chaque mois, les quantités de vaccins à
distribuer, le stock de réserve et le stock minimum.
Nous avons montré dans cette partie que notre approche a permis de marquer les cas des
abondons de la vaccination pour un SEMEP donné à travers l’analyse et la fouille des
instances d’ontologies.
D’une manière générale, notre travail par rapport au projet PNR nous a permis de
restructurer toute la charpente informatique des SEMEP en proposant un nouveau système
dont le fonctionnement est beaucoup plus fluide qu’avant. Les principales améliorations
apportées sont :
Les données sur les nouveau-nés et les personnes les prenant en charge (généralement
les parents ou tuteurs) sont dorénavant enregistrées dans une base de données centrale.
Dès que les données sur les enfants sont introduites dans le système, un planning
(programme) des rendez-vous de vaccination à venir est établi. Lorsque les rendez-
vous approchent, les enfants sont automatiquement inclus dans le programme mensuel
dans la PMI à laquelle appartient l’enfant. Ceci évite aux infirmières la vérification de
leurs registres de vaccination pour trouver les enfants dont le rendez-vous de
vaccination approche.
Les infirmières peuvent alors utiliser le programme (planning) mensuel pour
organiser leur travail. Le programme mensuel calcule aussi le nombre total de doses
de vaccins nécessaires ; ces informations permettent aux infirmières de déterminer les
bonnes quantités de vaccins à commander.
Alignement extensionnel des ontologies par les règles d’association
F.Z. Abdelouhab Page 147
Chaque fois que les enfants sont vaccinés, les infirmiers peuvent actualiser l’état
vaccinal directement dans le programme mensuel en remplissant la date de vaccination
et le lot de vaccin utilisé. Ainsi, les enfants qui déménagent à l’intérieur du territoire
peuvent être réaffectés à leur nouvelle PMI.
Le système génère non seulement des rapports de couverture, mais il est aussi capable
d’indiquer les enfants déjà enregistrés qui n’ont pas encore reçu la totalité de leurs
doses.
Les taux de couverture sont maintenant plus précis. Plus important encore, l’analyse
des dossiers de vaccination révèle de manière plus détaillée les raisons pour lesquelles
certains enfants ne sont pas vaccinés, à quelle commune appartiennent-ils.
5.7 Conclusion
Nous avons présenté dans ce chapitre notre nouvelle méthode d’alignement booléen de
plusieurs ontologies. Nous l’avons présenté comme une éventuelle solution au problème
d’alignement des données.
A travers un exemple d’illustration nous avons montré le fonctionnement de notre
approche. Cette dernière combine le paradigme des règles d’association à l’ingénierie des
connaissances. Nous avons montré combien cette union est possible et nous l’avons validé
non pas dans sa globalité mais plutôt par fonctionnalités. Ceci est dû au fait qu’aucune autre
approche similaire ne combine à la fois une modélisation booléenne, des règles d’association
et des ontologies. Pour ce fait, nous avons testé chaque axe séparément mais le résultat final
se réduit, toutefois, à une approbation satisfaisante. Sur le plan global, un réel système
adoptant notre approche a été implémenté au niveau du SEMEP et commence à germer ses
fruits.
F.Z. Abdelouhab Page 148
CONCLUSION GENERALE &
PERSPECTIVES
Les travaux menés dans cette thèse s’insèrent dans l’intersection de trois domaines de
recherches que sont l’ingénierie des connaissances, la modélisation booléenne par automates
cellulaires et la fouille de données (datamining). Notre objectif a été de tirer profit,
premièrement, des travaux menés en ingénierie des connaissances notamment dans le
domaine de l’interopérabilité sémantique des connaissances dans le but d’aligner les
ontologies. Deuxièmement, des travaux en fouille de règles d’association pour enrichir
l’alignement intensionnel par un alignement extensionnel et troisièmement de la modélisation
booléenne par automates cellulaires pour réduire la complexité des algorithmes de fusion en
temps et en espace machine. Le résultat de nos travaux est la conception et la réalisation d’un
système cellulaire d’intégration des données hétérogènes par la fusion des ontologies.
Pour revenir sur nos principales contributions, nous avons déployé notre approche sur
un projet réel PNR dédié aux services SEMEP de la wilaya de Mostaganem. A partir des
différentes PMI nous avons généré des ontologies locales que nous avons complètement
fusionné par notre processus de fusion booléenne pour construire l’ontologie finale de fusion
appelée VaccinOnto (voir Annexe A). L’utilisation de la machine 𝐶𝐴𝑆𝐼 (Cellular Automata
for Symbolic Induction) nous a permis de concevoir un nouveau système cellulaire
d’intégration automatique des données guidée par la fusion booléenne des ontologies.
L’intégration par la modélisation booléenne est motivée par la structure du modèle de
données qui se présente sous forme de graphe OWL et facilite bien la génération automatique
du graphe de l’ontologie. Un avantage certain à cette modélisation est la réduction dans
l’espace de stockage de l’entrepôt de données et aussi dans le temps de calcul des requêtes
décisionnelles. Dans ce sens, nous avons montré que notre contribution, par rapport aux
systèmes d’intégration existants, peut apporter une réponse à la question de l’interopérabilité
des données hétérogènes que nous avons rencontrées au niveau des SEMEP et de surcroît un
réel passage à l’échelle holistique.
Nous avons montré que le fait d’utiliser la modélisation booléenne pour des fins
d’intégration des données était d’un double intérêt. D’abord la modélisation booléenne par
𝐶𝐴𝑆𝐼 nous a facilité l’implémentation de l’algorithme de fusion qui s’est réduit à deux
fonctions de transition contenant des multiplications matricielles et vectorielles. D’un autre
côté, nous avons bien souligné l’amélioration apportée quant à la complexité à laquelle se
heurtent les algorithmes classiques de fusion dès que le nombre et la taille des ontologies
augmentent. Nous avons montré comment les concepts liés aux automates cellulaires
pouvaient être appliqués à la notion des ontologies et comment ils pouvaient simuler leur
fusion automatique à large échelle. Mais le point innovant de cela est qu’il nous a été permis
de tester les capacités de la machine cellulaire 𝐶𝐴𝑆𝐼 sur un terrain qui lui a été jusque-là
inconnu ; l’ingénierie des connaissances. D’un point de vue dubitatif nous pouvons conclure
d’ores-et-déjà qu’elle apporte sa contribution et mérite que cette utilisation soit affinée par
CONCLUSION GENERALE & PERSPECTIVES
F.Z. Abdelouhab Page 149
d’autres expériences approchantes telles que l’évolution des ontologies, leurs annotations et
pourquoi pas la gestion de leurs versions.
A travers cette thèse, nous avons eu un regard curieux sur cette notion de fusion,
tellement simple et compliquée en même temps. Simple parce qu’il est très facile, à première
vue, de rassembler plusieurs ontologies en une seule. C’est un peu comme si on mettait tout
dans un seul sac. Compliqué parce qu’il n’est pas simple de rassembler l’ensemble tout en
préservant les caractéristiques de tout à chacun. Combien même de travaux ont été rédigés
pour contribuer sur ce point, mais des questions restent encore en suspens (David, et al.,
2007) (Desprès & Szulman, 2007). Par notre tentative, nous espérons pouvoir apporter un
plus à ces contributions.
Mais pourquoi cette notion de « fusion » quel en est l’intérêt ? A l’heure du
décloisonnement des domaines de recherches, à la décentralisation de la connaissances le
besoin qu’ont les grandes classes d’applications à vouloir et à pouvoir fusionner et réutiliser
certaines ontologies spécifiques, appartenant soit au même domaine soit à des domaines
différents, pour construire des ontologies génériques devient incessant. A l’heure où le niveau
d’abstraction ayant monté, on peut imaginer que l’on converge vers un esprit prépondérant
qui est l’universalité de la connaissance et sa capitalisation au niveau du web sémantique.
Par rapport au processus d’alignement, partant du fait que plusieurs connaissances
peuvent prendre des représentations différentes, on trouve de nos jours plusieurs ontologies de
domaine pour un même champ d’application. Les techniques d’alignement représentent un
cadre général, dans lequel plusieurs ontologies peuvent être exploitées. Nous avons développé
un processus d’alignement qui détermine des liens entre les labels des concepts ainsi que leurs
extensions. Pour ce faire nous avons exploré les fondements de la fouille de données et utilisé
les règles d’association. C’est une idée encore jeune bien qu’elle date de 2007 par les travaux
de David (2007). Elle n’est pas exploitée en force car elle reste, comme même, une méthode
assez compliquée. Compliquée dans le sens où elle doit gérer à la fois, les problèmes
sémantiques d’un alignement et les problèmes de redondance dont souffrent les algorithmes
de génération des règles d’association.
Un alignement est l’expression d’un lien sémantique entre les concepts d’une ontologie.
Dans notre approche, le but consistait à analyser et à exploiter les instances attachées aux
ontologies d’entrées afin d’enrichir leur sémantiques et d’améliorer les résultats du processus
de l’alignement intensionnel réalisé en amont. Notre intuition rejoint facilement les travaux de
David (David, et al., 2007) dans son utilisation des règles d’association et ceci pour plusieurs
raisons : la première est que le contexte d’alignement des ontologies via leurs instances est, en
fait, un véritable travail de fouille de relations entre ces données et les règles d’association,
pour cela, en sont des candidates de premier choix. La deuxième raison est que les règles
d’association offrent aussi un bon moyen prédictif pour déduire d’éventuelles relations
sémantiques entre de nouveaux concepts. La troisième raison est qu’elles déduisent une
sémantique explicite et fiable de l’alignement facilement interprétable lors de la phase de
validation. Et enfin, elles permettent aussi selon David (2007) de définir un alignement
nouveau permettant de déduire une relation d’implication entre les concepts contrairement aux
travaux antérieurs qui se limitaient à l’équivalence seulement.
Nous avons mis au point cette approche et nous l’avons expérimenté selon certaines
métriques d’évaluation. Les résultats obtenus sont satisfaisants et encourageants. Ils sont
parfois intéressants lorsque les ontologies à aligner sont identiques et peuvent être
CONCLUSION GENERALE & PERSPECTIVES
F.Z. Abdelouhab Page 150
difficilement exploitables quand elles ne le sont pas. D’un autre côté, nous l’avons déployé sur
un terrain réel qui est celui de la vaccination. Nous avons pu générer une ontologie dédiée à la
vaccination VaccinOnto. Cette dernière représente pour nous un résultat en soi. Elle peut être
réutilisée pour des tâches approchantes et nécessitera alors d’être complétée et en partie
remaniée. Dans le même cadre, nous avons montré également, comment on pouvait apporter
une aide d’analyse sur un problème dont souffrent tous les responsables de la vaccination qui
est les abondons ou les perdus de vue. La modélisation réalisée au sein de la vaccination nous
a permis, au moins, de démontrer la faisabilité de la solution.
Nous espérons, enfin, par cette approche cellulaire avoir atteint les objectifs suivants :
Réduire l’intervention humaine et offrir, ainsi, une bonne précision.
Réduire la complexité du matching dans un contexte à large échelle.
Améliorer la qualité des résultats en tenant compte de leur sémantique,
Optimiser le temps d’exécution des algorithmes de fusion et d’alignement en utilisant
les fonctions parallèles de la machine 𝐶𝐴𝑆𝐼 Réduire l’espace de stockage des résultats par une sauvegarde booléenne.
A ce stade de la thèse, nous pouvons dire que notre approche représente une idée
originale qui n’est qu’à sa première version. Il est clair que des réajustements sont
recommandés pour la mettre au rang du professionnalisme. Notamment, à travers les points
suivants :
Notre approche nécessite des améliorations dans la force d’expression des ontologies
utilisées. Utiliser, par exemple, des ontologies dont les concepts ne sont pas décrits
uniquement par leurs noms mais aussi décrits en termes de propriétés caractéristiques. Le fait
d’inclure des propriétés dans la description du concept devient intéressant dans la mesure où
l’on peut appliquer le principe d’héritage sur ces propriétés.
Nous nous sommes restreints pour cette étude à des relations d’équivalence simple entre
concepts. Notre approche est conçue pour être utilisée sur des taxonomies de concepts
utilisant des relations de subsomption seulement ce qui nous a permis d’utiliser le graphe de
Hasse pour la représentation graphique. Cette contrainte peut être un atout puisque notre
approche peut fonctionner, aussi, avec des taxonomies textuelles (répertoires web ou
catalogues) ou avec des données semi-structurées, mais il serait intéressant de pouvoir prendre
en compte des relations plus complexes. Des réflexions plus profondes peuvent être faites
pour des liens autres que les liens de subsomption entre concepts telles que les relations
rhétoriques dites sémantiques (par exemple, « est-synonyme-de », « partie-de », etc.).
Par rapport au passage à l’échelle, les expérimentations menées jusqu’à présent ont
porté sur des ontologies issues du domaine de la vaccination ou à partir d’exemples
pédagogiques. Il est important d’évaluer nos propositions sur des ontologies de tailles plus
réalistes (plusieurs centaines de concepts).
Par rapport à l’alignement intensionnel nous pouvons dire que le caractère extensible de
notre approche fait que nous pouvons ajouter de nouvelles méthodes de calcul de similarité à
tout moment.
Dans notre approche nous avons considéré l’alignement des ontologies partageant le
même entrepôt d’instances, il serait intéressant de le faire pour des ontologies qui ne partagent
pas le même ensemble d’instances. Dans ce cas, une réindexation des données est nécessaire.
CONCLUSION GENERALE & PERSPECTIVES
F.Z. Abdelouhab Page 151
En dernier point, l’étude menée dans cette thèse nous laisse prétendre que la machine
cellulaire CASI constitue un outil pour l’exploration des espaces de recherches et peut
apporter sa contribution au problème de la classification, comme cela a déjà été exposé pour
les algorithmes génétiques, les algorithmes à base de fourmis artificielles ou encore les
réseaux immunitaires artificiels (Azzag & Lebbah, 2011). Une motivation dans cette direction
pourrait bien ouvrir une voix de recherche.
Les résultats que nous avons obtenus jusqu’à présent concernant l’ontologie et l’outil
nous encouragent à poursuivre nos recherches et à améliorer les solutions que nous
proposons, ce que nous ferons dans le cadre de notre projet postdoctoral.
F.Z. Abdelouhab Page 152
Annexe A : Ontologie de
Vaccination
Cette annexe présente d’une manière très succincte le développement de l’ontologie que nous
avons conçu au cours de cette thèse. Comme nous l’avons expliqué dans les chapitres
introductifs, nous avons généré l’ontologie à partir des bases de données locales aux services
de vaccination dont le modèle conceptuel est donné en Figure4-4. Avant de donner le schéma
de l’ontologie, nous donnons la description détaillée des différents concepts constituant
l’ontologie.
Nom Identifiant Attributs Clé
étrangère
Description
SEMEP Id_Semep Id_Semep,
Nom_Semep,
Id_Adresse,
Email,
URL
Phone_Number,
Id_Adresse
Cette table permet
d’identifier les SEMEP.
L’URL servira à l’invocation
pour récupérer un carnet de
vaccin à distance.
Lorsqu’un enfant se présente
à une PMI, on utilise cette
URL pour accéder à son
carnet.
PMI Id_Pmi Id_Pmi,
Id_Semep,
Nom_Pmi,
Id_Adresse,
Email,
Phone_Number,
URL
Id_Semep
Id_Adresse
Cette table identifie les PMI
d’un SEMEP.
Calendrier_
Vaccinal
Id_Vaccin Id_Vaccin,
Age_Vaccin,
Nom_Vaccin,
Condition,
Description
Cette table contient les
informations du calendrier
vaccinal. Doit être actualisée
de temps à autre selon les
prérogatives du ministère de
la santé.
Infirmier Id_Infirmier Id_Infirmier,
Id_Pmi,
Infirmier_Nom,
Infirmier_Prenom,
Id_Adresse,
Email,
Phone_Number,
Mobile_Phone_Nu
mber
Date_Recrutement
Id_Pmi
Id_Adresse
Cette table rapporte les
infirmiers relatifs aux Pmi
Carnet_
Vaccination
Id_Carnet Id_Carnet,
Id_Naissance
Id_Naissance
Cette table contient toutes
les informations du carnet de
vaccins relatifs à une
Annexe A : Ontologie de Vaccination
F.Z. Abdelouhab Page 153
naissance
Vaccination Id_Vaccination Id_Vaccination,
Id_Carnet,
Id_Vaccin,
Id_Infirmier,
Id_Pmi,
Dat_Vaccination,
Quantite_Administr
ée
Id_Carnet
Id_Vaccin
Id_Infirmier
Id_Pmi
Cette table contient toutes
les informations d’une
vaccination pour une
naissance
Adresse
Id_Adresse Id_Adresse,
numéro,
Rue,
Id_Quartier,
Etage,
Postal_Code,
Type_Residence,
Surface
Cette table contient les
adresses. Il faut que chaque
nouveau-né possède une
adresse où il réside
Agents Id_Agent Id_Agent,
User_Name,
Password,
Agents_Type,
Nom,
Prenom,
Id_Adresse,
Email,
Mobile_Phone_Nu
mber
Id_Adresse cette table rapporte les
agents relatifs aux PMI et
SEMEP
Naissance Id_Naissance Id_Naissance,
Nom,
Prenom,
Date_Naissance,
Id_Adresse,
Id_Commune,
Sexe
Id_Adresse
Cette table maintient les
nouveau-nés conformément
aux registres de l’état civil.
Nous poursuivant par la description des relations binaires
Nom Domaine Range Cardinalité
Posséder_Par Naissance Carnet vaccination 1
Avoir Semep Adresse
1 Pmi Adresse
Fournisseurs Adresse
Agents Adresse
Naissance Adresse
Infirmier Adresse
Annexe A : Ontologie de Vaccination
F.Z. Abdelouhab Page 154
Travaille Pmi Agents
1 Semep Agents
Composer Semep Pmi 1
Est_inscrits Pmi Infirmier 1
Programmer_Par Carnet vaccination Vaccination
1
Pmi Vaccination
Calendrier vaccinal Vaccination
Vacciner_Par Infirmier Vaccination 1
Ontologie pour la vaccination
Couverture Vaccinale
Vaccin Vaccin Obligatoire (VO)
Diphtérie (D) Tétanos Poliomyélite BCG
Vaccin Vivement Recommandé (VVR) COQ U R O HB H
Vaccin Recommandé (VR) A L
Population Identité (Homme/ femme) Filiation (Nom, Prénom) Age Date 1ère Prise Nombre de Vaccin Status Vaccin (Couvert, Probablement-couvert, Non-couvert) Catégorie Sociale (Non-Scolarisé, Scolarisé, Actif, Non-Actif) Antécédent-Maladie Affiliation (Sécurité Sociale, Ayant droit) Justificatif (Oui/ Non) Adresse
Carnet de Santé
Maladies Diphtérie Tétanos Poliomyélite Coqueluche
Annexe A : Ontologie de Vaccination
F.Z. Abdelouhab Page 155
Infection Influenza Tuberculose Rougeole et Oreillons Rubéole Hépatite B
Schéma de l’Ontologie VaccinOnto
Schéma généré par l’outil Protégé
Annexe A : Ontologie de Vaccination
F.Z. Abdelouhab Page 156
Le fichier OWL correspondant
<?xml version="1.0"?>
<!DOCTYPE Ontology [
<!ENTITY xsd
"http://www.w3.org/2001/XMLSchema#" >
<!ENTITY xml
"http://www.w3.org/XML/1998/namespace" >
<!ENTITY rdfs
"http://www.w3.org/2000/01/rdf-schema#" >
<!ENTITY rdf
"http://www.w3.org/1999/02/22-rdf-syntax-
ns#" >]>
<Ontology
xmlns="http://www.w3.org/2002/07/owl#"
xml:base="http://www.semanticweb.org/hp/on
tologies/2016/11/untitled-ontology-117"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-
schema#"
xmlns:xsd="http://www.w3.org/2001/XMLSch
ema#"
xmlns:rdf="http://www.w3.org/1999/02/22-
rdf-syntax-ns#"
xmlns:xml="http://www.w3.org/XML/1998/na
mespace"
ontologyIRI="http://www.semanticweb.org/hp
/ontologies/2016/11/untitled-ontology-117">
<Prefix name=""
IRI="http://www.w3.org/2002/07/owl#"/>
<Prefix name="owl"
IRI="http://www.w3.org/2002/07/owl#"/>
<Prefix name="rdf"
IRI="http://www.w3.org/1999/02/22-rdf-
syntax-ns#"/>
<Prefix name="xsd"
IRI="http://www.w3.org/2001/XMLSchema#"
/>
<Prefix name="rdfs"
IRI="http://www.w3.org/2000/01/rdf-
schema#"/>
<Declaration>
<Class IRI="#Adresse"/>
</Declaration>
<Declaration>
<Class IRI="#Agents"/>
</Declaration>
<Declaration>
<Class IRI="#Calendrier__Vaccinal"/>
</Declaration>
<Declaration>
<Class IRI="#Carnet__Vaccination"/>
</Declaration>
<Declaration>
<Class IRI="#Carnet_de_Santé"/>
</Declaration>
<Declaration>
<Class IRI="#Contagieuses"/>
</Declaration>
<Declaration>
<Class IRI="#Fournisseurs"/>
</Declaration>
<Declaration>
<Class IRI="#Infirmier"/>
</Declaration>
<Declaration>
<Class IRI="#Maladies"/>
</Declaration>
<Declaration>
<Class IRI="#Naissance"/>
</Declaration>
<Declaration>
<Class IRI="#Non_contagieuses"/>
</Declaration>
<Declaration>
<Class IRI="#PMI"/>
</Declaration>
<Declaration>
<Class IRI="#Population"/>
</Declaration>
<Declaration>
<Class IRI="#SEMEP"/>
</Declaration>
<Declaration>
<Class IRI="#Vaccin"/>
</Declaration>
<Declaration>
<Class IRI="#Vaccin_Obligatoire"/>
</Declaration>
<Declaration>
<Class IRI="#Vaccin_Recommandé"/>
</Declaration>
<Declaration>
<Class
IRI="#Vaccin_Vivement_Recommandé"/>
</Declaration>
<Declaration>
<Class IRI="#Vaccination"/>
</Declaration>
Annexe A : Ontologie de Vaccination
F.Z. Abdelouhab Page 157
<Declaration>
<ObjectProperty IRI="#Avoir"/>
</Declaration>
<Declaration>
<ObjectProperty IRI="#Composer"/>
</Declaration>
<Declaration>
<ObjectProperty IRI="#Est_inscrits"/>
</Declaration>
<Declaration>
<ObjectProperty IRI="#Posséder_Par"/>
</Declaration>
<Declaration>
<ObjectProperty
IRI="#Programmer_Par"/>
</Declaration>
<Declaration>
<ObjectProperty IRI="#Travaille"/>
</Declaration>
<Declaration>
<ObjectProperty IRI="#Vacciner_Par"/>
</Declaration>
<Declaration>
<NamedIndividual IRI="#Coqueluche"/>
</Declaration>
<Declaration>
<NamedIndividual IRI="#Diphtérie"/>
</Declaration>
<Declaration>
<NamedIndividual IRI="#Hépatite_B"/>
</Declaration>
<Declaration>
<NamedIndividual
IRI="#Infection_Influenza"/>
</Declaration>
<Declaration>
<NamedIndividual IRI="#Poliomyélite"/>
</Declaration>
<Declaration>
<NamedIndividual
IRI="#Rougeole_et_Oreillons"/>
</Declaration>
<Declaration>
<NamedIndividual IRI="#Rubéole"/>
</Declaration>
<Declaration>
<NamedIndividual IRI="#Tuberculose"/>
</Declaration>
<Declaration>
<NamedIndividual IRI="#Tétanos"/>
</Declaration>
<SubClassOf>
<Class IRI="#Contagieuses"/>
<Class IRI="#Maladies"/>
</SubClassOf>
<SubClassOf>
<Class IRI="#Non_contagieuses"/>
<Class IRI="#Maladies"/>
</SubClassOf>
<SubClassOf>
<Class IRI="#Vaccin_Obligatoire"/>
<Class IRI="#Vaccin"/>
</SubClassOf>
<SubClassOf>
<Class IRI="#Vaccin_Recommandé"/>
<Class IRI="#Vaccin"/>
</SubClassOf>
<SubClassOf>
<Class
IRI="#Vaccin_Vivement_Recommandé"/>
<Class IRI="#Vaccin"/>
</SubClassOf>
<ClassAssertion>
<Class IRI="#Maladies"/>
<NamedIndividual IRI="#Coqueluche"/>
</ClassAssertion>
<ClassAssertion>
<Class IRI="#Maladies"/>
<NamedIndividual IRI="#Diphtérie"/>
</ClassAssertion>
<ClassAssertion>
<Class IRI="#Maladies"/>
<NamedIndividual IRI="#Hépatite_B"/>
</ClassAssertion>
<ClassAssertion>
<Class IRI="#Maladies"/>
<NamedIndividual
IRI="#Infection_Influenza"/>
</ClassAssertion>
<ClassAssertion>
<Class IRI="#Maladies"/>
<NamedIndividual IRI="#Poliomyélite"/>
</ClassAssertion>
<ClassAssertion>
<Class IRI="#Maladies"/>
<NamedIndividual
IRI="#Rougeole_et_Oreillons"/>
</ClassAssertion>
<ClassAssertion>
<Class IRI="#Maladies"/>
<NamedIndividual IRI="#Rubéole"/>
</ClassAssertion>
<ClassAssertion>
<Class IRI="#Maladies"/>
<NamedIndividual IRI="#Tuberculose"/>
</ClassAssertion>
<ClassAssertion>
<Class IRI="#Maladies"/>
Annexe A : Ontologie de Vaccination
F.Z. Abdelouhab Page 158
<NamedIndividual IRI="#Tétanos"/>
</ClassAssertion>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Avoir"/>
<Class IRI="#Agents"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Avoir"/>
<Class IRI="#Fournisseurs"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Avoir"/>
<Class IRI="#Infirmier"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Avoir"/>
<Class IRI="#Naissance"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Avoir"/>
<Class IRI="#PMI"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Avoir"/>
<Class IRI="#SEMEP"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Composer"/>
<Class IRI="#SEMEP"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Est_inscrits"/>
<Class IRI="#PMI"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Posséder_Par"/>
<Class IRI="#Naissance"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty
IRI="#Programmer_Par"/>
<Class IRI="#Calendrier__Vaccinal"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty
IRI="#Programmer_Par"/>
<Class IRI="#Carnet__Vaccination"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty
IRI="#Programmer_Par"/>
<Class IRI="#PMI"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Travaille"/>
<Class IRI="#PMI"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Travaille"/>
<Class IRI="#SEMEP"/>
</ObjectPropertyDomain>
<ObjectPropertyDomain>
<ObjectProperty IRI="#Vacciner_Par"/>
<Class IRI="#Infirmier"/>
</ObjectPropertyDomain>
<ObjectPropertyRange>
<ObjectProperty IRI="#Avoir"/>
<Class IRI="#Adresse"/>
</ObjectPropertyRange>
<ObjectPropertyRange>
<ObjectProperty IRI="#Composer"/>
<Class IRI="#PMI"/>
</ObjectPropertyRange>
<ObjectPropertyRange>
<ObjectProperty IRI="#Est_inscrits"/>
<Class IRI="#Infirmier"/>
</ObjectPropertyRange>
<ObjectPropertyRange>
<ObjectProperty IRI="#Posséder_Par"/>
<Class IRI="#Carnet__Vaccination"/>
</ObjectPropertyRange>
<ObjectPropertyRange>
<ObjectProperty
IRI="#Programmer_Par"/>
<Class IRI="#Vaccination"/>
</ObjectPropertyRange>
<ObjectPropertyRange>
<ObjectProperty IRI="#Travaille"/>
<Class IRI="#Agents"/>
</ObjectPropertyRange>
<ObjectPropertyRange>
<ObjectProperty IRI="#Vacciner_Par"/>
<Class IRI="#Vaccination"/>
</ObjectPropertyRange>
</Ontology>
<!-- Generated by the OWL API (version
3.4.2) http://owlapi.sourceforge.net -->
F.Z. Abdelouhab Page 159
Références
Abdelouhab, F. & Atmani, B., 2008. «Intégration automatique des données semi-structurées dans un
entrepôt cellulaire ». ASD'2008, ISBN 978-9981-1-3000-1, dépôt légal: 2168/2008. http://eric.univ-
lyon2.fr/~asd/asd2008, pp. 109-120.
Abdelouhab, F. & Atmani, B., 2009. «Extraction de structure d’un document XML : Modélisation
Booléenne ». ASD 2009, ISBN 978-9961-9913-0-5, dépôt légal: 5226/2009. http://eric.univ-
lyon2.fr/~asd/asd2009, pp. 67-81.
Abdelouhab, F. & Atmani, B., 2013. «Fusion Automatique des Ontologies: Modélisation Booléenne ».
Conférence sur les Avancées des Systèmes Décisionnels. (ASD'2013) Marrakech, Maroc ISBN 978-9-
98-113000-1. http://www.asd-conf.net/les-papiers-acceptes, pp. 309-320.
Abdelouhab, F. & Atmani, B., 2016. « Fusion cellulaire des ontologies ». Journal of Decision Systems
(2016). ISSN: 1246-0125 (Print) 2116-7052 (Online) Journal homepage:
http://www.tandfonline.com/loi/tjds20.
Agrawal, R., Imielinski, T. & Swami, A. N., 1993. Miningassociation rules between sets of items in
large databases. In PeterBuneman and SushilJajodia, editors, Proceedings of the 1993 ACMSIGMOD
International Conference on Management of Data, pages207_216.
Alexaki, S. et al., 2001. The ICS-FORTH RDFSuite : Managing Voluminous RDF Description Bases.
Proceedings of the 2nd International Workshop on the Semantic Web, p. 1-13, 2001..
Amrani, F., Bouamrane, K., Atmani, B. & Hamdadou, D., 2011. « Une nouvelle approche pour la
régulation et la reconfiguration spatiale d'un réseau de transport urbain collectif ». Journal of
Decision Systems 20(2), pp. 207-239.
Antunes, C., 2007. ONTO4AR : A Framework for Mining Association Rules. (CMILE ˝UPKDD), Warsaw,
Poland., pp. 37-48.
Arpirez, J., Gómez-Perez, A., Lozano, A. & Pinto, S., 1998. (ONTO)2Agent: An ontology-based
wwwbroker to select ontologies. Paper presented at the Workshop on Applications of Ontologies and
PSMs, Brighton, England.
Atmani, B. & Beldjilali, B., 2007. «Knowledge Discovery in Database: Induction Graph and Cellular
Automaton». Computing and Informatics Journal, V.26, N°2 , pp. 171-197.
Atmani, B., Benbelkacem, S. & Benamina., M., 2013. Planning by case-based reasoning based on
fuzzy logic. Conference Proceedings - Computer Science & Information Technology (CS & IT- (CSCP),
Vol 3, ISSN: 2231 – 5403, P. 53-64.
Références
F.Z. Abdelouhab Page 160
Azzag, H. & Lebbah, M., 2011. «Self-organizing tree using artificial ants». Journal of Information
Technology Research (JITR), 4(2). Special Issue on Applications of Nature Inspired Computing, pp. 1-
16.
Bachimont, B., 2000. Engagement Sémantique et Engagement Ontologique : Conception et
réalisation d’ontologies en ingénierie des connaissances. chapitre 19. Eyrolles, 2000., p. 305–324.
Bach, T., 2006. Construction d'un web sémantique multi-points de vues.. Thèse de doctorat, École des
Mines à Sophia Antipolis, France..
Baneyx, A., 2007. Construire une ontologie de la pneumologie aspects théoriques, modèles et
expérimentations. Thèse de Doctorat. Université Paris6.
Barigou, F., Atmani, B., Bouziane, Y. & Barigou, N., 2013. «Accélération de la méthode des K plus
proches voisins pour la catégorisation de textes ». EGC'2013 , pp. 241-246.
Bellandi, A., Furletti, B., V. Grossi & Romei, A., 2008. Ontological Support for Association Rule
Mining.. In Proceedings of the 26th IASTED , p. 110–115.
Bellatreche, L., Xuan, D., Pierra, G. & Dehainsala, H., 2006. Contribution of ontology-based data
modeling to automatic integration of EC within ED. Computers in Industry Journal 57(8-9), pp. 711-
724.
Benamina, M. & Atmani, B., 2008. WCSS: un système cellulaire d'extraction et de gestion des
connaissances. Troisième atelier sur les systèmes décisionnels p. 223-234. Mohammadia – Maroc :
s.n., 2008..
Beneventano, D. et al., 2000. Information integration: The MOMIS project demonstration. In The
VLDB Journal, pp. 611-614.
Benfriha, H., Barigou, F. & Atmani, B., 2016. A text categorisation framework based on concept
lattice and cellular automata. Int. J. of Data Science, 2016 Vol.1, No.3, pp.227 - 246.
Benslimane, S. M. et al., 2006. Construction d'une ontologie à partir d'une base de données
relationnelle : approche dirigée par l'analyse des formulaires HTML. INFORSID 2006: 611-626.
Bernaras, A., Laresgoiti, I. & Corera, J., 1996. Building and Reusing Ontologies for Electrical
NetworkApplications. Paper presented at the Procedings of the 12th ECAI96..
Berners-Lee, T., Hendler, J. & Lassila, O., 2001. The semantic web. Scientific American..
Bernstein, P. A., Madhavan, J. & Rahm, E., 2011. Generic Schema Matching, Ten Years Later.
Proceedings of the VLDB Endowment, Vol. 4, No. 11 Copyright 2011 VLDB Endowment 2150-
8097/11/08 August 29th - September 3rd 2011, Seattle, Washington..
Berti-Equille, L., 2007. Data quality awareness: a case study for cost optimal association rule mining.
Knowledge and Information System (2007) 11(2):, pp. 191-215.
Borgo, S., Guarino, N. & Masolo, C., 1996. Stratified Ontologies: the case of physical objects. Paper
presented at the ECAI96. Workshop on Ontological Engineering, Budapest..
Références
F.Z. Abdelouhab Page 161
Borst, P., 1997. Construction of Engineering Ontologies for Knowledge Sharing and Reuse. Ph.D
Dissertation, Tweente University, 1997..
Bouquet, P. et al., 2004. Specification of a common framework for characterizing alignment.
Knowledge Web Deliverable n˚ 2.2.1v2, University of Karlsruhe.
Boussaid, O., Messaoud, R. B., Choquet, R. & Anthoard, S., 2006. Conception et construction
d'entrepôts en XML. Dans la RNTI correnspondant à la 2ième journée francophone sur les entrepôts
de données et l'analyse en ligne EDA'06 Versaille 19.
Bouzeghoub, A., Elbyed, A. & Tahi, F., 2008. OMIE: Ontology Mapping within an Interactive and
Extensible Environment. In Proceedings DILS.
Brahami, M., 2014. Conception et Expérimentation d’une nouvelle méthode booléenne de
cartographie des connaissances guidée par data mining. Thèse de doctorat. Université d'Oran1.
Braham, M., Atmani, B. & Matta, N., 2013. «Dynamic knowledge mapping guided by data mining:
Application on Healthcare». JIPS 9(1) , pp. 1-30 .
Brahmi, H., Araour, N. & Ben Yahia, S., 2012. La fouille intelligente des règles d’association à partir
des données décisionnelles. EGC-31 Janvier 2012 Atelier AiDE.
Brisson, L. & Collard, M., 2008. An Ontology Driven Data Mining Process. In Proceedings of the 10th
International Conference on Enterprise Information Systems, Barcelona, Spain, , p. 54–61.
Broekstra, J., Kampman, A. & Harmelen, F. v., 2002. Sesame : A Generic Architecture for Storing and
Querying RDF and RDF Schema. in I. Horrocks, J. Hendler (eds), Proceedings of the 1st International
Semantic Web Conference (ISWC’02), n° 2342 in Lecture Not Computer Science, Springer Verlag, p.
54-68, July, 2002..
Bruijn, J. et al., 2006. Semantic Web Technologies, trends and research in ontology-based systems.
chapter Ontology Mediation, Merging, and Aligning. WILEY, pp. 95-113.
Chalupsky, H., 2000. OntoMorph: A Translation System for Symbolic Knowledge. In : Anthony G.
COHN, Fausto GIUNCHIGLIA, Bart SELMAN. KR 2000, Principles of Knowledge Representation and
Reasoning, Seventh International Conference, Breckenridge, Colorado, USA, April 11-15, 2000 Morgan
Kaufmann, 2000, pp. 471-482.
Charlet, J., 2002. L'ingénierie des connaissances, développements, résultats et perspectives pour la
gestion des connaissances médicales. Mémoire d'Habilitation à Diriger des Recherches, Université
Pierre et Marie Curie, Paris..
Chen, D. & Doumeingts, G., 2003. European initiatives to develop interoperability of enterprise
applications - Basic concepts, framework and roadmap. in Annual Reviews in Control 27(2) with 39
Reads DOI: 10.1016/j.arcontrol.2003.09.001, pp. 153-162.
Chen, R.-C., Bau, C.-T. & C.-J. Y eh, 2001. Merging Domain Ontologies Based on the WordNet System
and Fuzzy Formai Concept Analysis Techniques. Applied Soft Computing, 11 (2), pp. 1908-1923.
Références
F.Z. Abdelouhab Page 162
Chiang, R. H. L., Barron, T. M. & Story, V. C., 1994. Reverse engineering of relational databases:
extraction of an EER model from a relational database. Data and Knowledge Engineering, 1994..
Chong, E. I., Das, S., Eadon, G. & Srinivasan, J., 2005. An efficient SQL-based RDF querying scheme.
VLDB ’05 : Proceedings of the 31st international conference on Very large data bases, VLDB
Endowment, p. 1216-1227, 2005.
Connolly, D. et al., 2001. DAML+OIL : ReferenceDescription. . Rapport technique, W3C : World Wide
Web Consortium,http ://www.w3.org/TR/2001/NOTE-daml+oil-reference-20011218..
Connolly, D. et al., 2001. DAML+ OIL. reference description.
Costa, M. & Cohen, J., 2013. Complexité et Graphes. Cours sur http://www.ensta.fr/~diam/ocro/.
Da Silva, A., Evangelista Filha, I. M. R., Laender, A. H. F. & Embley, D. W., 2002. Representing and
querying semistructured Web Data using nested tables with structural variants. LNCS-2503: 21st
International Conference on Concptual Modelling ER, Octobre, Tampere Finland, pp. 135-151.
David, J., Guillet, F. & Briand, H., 2007. Association Rule Ontology matching Approach. International
Journal on Semantic Web and Information systems, 3 (2007), no. 2, pp. 27-49.
David, J., Guillet, F. & Briand, H., 2007. Association Rule Ontology matching Approach. International
Journal on Semantic Web and Information systems, (2007), no. 2, , pp. 27-49.
Davis, R., Sorbe, H. & Szolovits, P., 1993. What is a Knowledge Representation?. AI Magazine. Spring,
pp. 17-33.
Delobel, C. et al., 2003. Semantic integration in Xyleme–A uniform tree-based approach. Data and
Knowledge Engineering 44, 2003, pp. 267-298.
Desprès, S. & Szulman, S., 2007. Merging of legal micro-ontologies from European directives. Articial
Intelligence Law, 15(2):187200.
Diallo, G., 2011. Efficient building of local repository of distributed ontologies. IEEE Proc. of the 7th
International Conference on Signal Image Technology & Internet Based Systems (SITIS'11). K
Yetongnon, R Chbeir and A Dipanda eds.
Dibie, B. J., 2009. Intégration de données guidée par une ontologie : Application au domaine du
risque alimentaire. Habilitation à Diriger des Recherches de l’Université Paris-Dauphine.
Ding, Y. & Foo, S., 2002. Ontology Research and Development: Part 1 – A Review of Ontology
Generation. Journal of Information Science 28(2).
Djeddi, W. E., 2013. Alignement sémantique des ontologies de grande Taille. Thèse de doctorat en
informatique. Université Badji Mokhtar –Annaba.
Doan, A., Domingos, P. & Havely, A., 2003. Learning to match the schema of date sources. A
multistrategy approach, Machine Learning, p.279-301 (2003). .
Références
F.Z. Abdelouhab Page 163
Doan, A., Madhavan, J., Domingos, P. & Halevy, A., 2002. Learning to map between ontologies on
the semantic web. ACM Press, 2002., p. 662–673.
Doe, 2002. Differential Ontology Editor. Home Page, http ://opales.ina.fr/public..
Do, H., Melnik, S. & Rahm, E., 2002. Comparison of schema matching evaluations. Proceedings of the
2nd Int. Workshop on Web Databasess, German Informatics Society, Erfurt, 2002..
Dou, D., McDermott, D. & Qi, P., 2002. Ontology translation by ontology merging and automated
reasoning. In Proceedings of the EKAW Workshop on Ontologies for Multi-Agent Systems, Sigüenza,
Spain.
Dumontier, F., Ling, Haider & Hogue, 2005. Co: A chemical ontology foridentificationof functional
groups and semantic comparison of small molecules. FEBS Lett,579(21), p. 4685–91.
Ehrig, M. & Staab, S., 2004. QOM – quick ontology mapping. (ISWC 2004) vol. 3298, 2004, p. 683–
697.
Ehring, M., 2007. Ontology Alignment: Bridging the Semantic Ga. Semantic Web and Beyond, New
York, Springer, 2007..
Elbyed, A., 2009. ROMIE, une approche d’alignement d’ontologies à base d’instances. Thèse
Doctorat, Université d’Evry-Val Essone, 2009, n° 2009TELE0014.
Escovar, E. L. G., Yaguinuma, C. A. & Biajiz, M., 2006. Using Fuzzy Ontologies to Extend Semantically
Similar Data Mining. In Proceedings of the 21st Brazilian Symposium of Databases, Florianópolis,
Brazil, p. 16–30.
Euler, T. & Scholz, M., 2004. Using Ontologies in a KDD Workbench. In In Workshop on Knowledge
Discovery and Ontologies at ECML/PKDD, Pisa, Italy, p. 103–108.
Euzenat, J., 2001. Towards a principled approach to semantic interoperability. . In Proceedings of the
IJCAI Workshop on Ontology and Information Sharing, Seattle, US., pp. 19-25.
Euzenat, J. et al., 2007. Case-based recommendation of matching tools and techniques, deliverable
1.2.2.2.1. Knowledge Web, Mars 2007..
Euzenat, J., Rosoiu, M. & Trojahn, C., 2013. Ontology matching benchmarks: generation, stability,
and discriminability. JWS.
Euzenat, J. & Shvaiko, P., 2007. Ontology Matching. Springer-Verlag, Heidelberg(DE).
Euzenat, J. & Valtchev, P., 2004. Similarity-based ontology alignment in OWL-lite. in Proceeding 15th
ECAI, Valencia (ES), 2004.
EXML, 2004. Web site of e-XMLMedia. http://www.e-xmlmedia.fr/.
Farqhuar, A., Fikes, R. & Rice, J., 1996. The Ontolingua Server: Tool for Collaborative Ontology
Construction. the 10th Knowledge Acquisition for Knowledge-Based Systems Workshop, Alberta,
Canada..
Références
F.Z. Abdelouhab Page 164
Fensel, D. et al., 2007. Enabling semantic web services: the web service modeling ontology. Springer,
Heidelberg (DE), 2007..
Fernandez, M., Gómez-Pérez, A. & Juristo, N., 1997. METHONTOLOGY: from ontological art towards
ontological engineering. In Proceedings of the Spring Symposium Series on Ontological Engineering
(AAAI’97).
Flater, D., 2003. Sumo2Loom Documentation. NIST Manuscript Publication Search, Feb.
Fürst, F., 2002. L’ingénierie ontologique.. Rapport technique, Institut de recherche en Informatique de
Nantes.
Gómez-Pérez, A., 1999. Ontological Engineering: A state of the art. Expert Update, 2(3), pp. 33-43.
Gómez-Pérez, A., Fernández-López, M. & Corcho, O., 2004. Ontological Engineering. Springer,
Heidelberg.
Grau, B., Parsia, B., Sirin, E. & Kalyanpur, A., 2005. Automatic partitioning of OWL ontologies using
ε-connections. in Proceedings of 18th International Workshop on Description Logics, Edinburgh, UK,
pp. 1-22.
Gruber, T., 1993. A translation approach to portable ontology specications. Knowledge Acquisition,
5(2):199220..
Gruber, T. & Olsen, G., 1994. An ontology for engineering mathematics. In KR, p. 258–269.
Guan-yu, L. L., Shu-peng & Yan, Z., 2010. Formai concept analysis based ontology merging method..
Dans Communication présentée à/au Computer Science and Information Technology (ICCSIT))
Chengdu: 3rd IEEE International Conference on. Récupéré de http://ieeexplore.ieee.org/xpls/abs all
.jsp?amumber=556499, pp. 279-282.
Guarino, N., 1997. Some organizing principles for a unified top-level ontology. AAAI Spring
Symposium on Ontological Engineering, pp. 57-63.
Guarino, N. & Giaretta, P., 1995. Ontologies and knowledge bases : Towards a terminological
clarification. In Mars, N., editor : Towards very large knowledge bases :knowledge building and
knowledge sharing. IOS Press, Amsterdam., pp. 25-32.
Guha, R., McCool, R. & E. Miller, 2003. Semantic search. In Proceedings of the 12th International
World Wide Web Conference, pp 700-709, 2003..
Hajjam, A., 2013. Ontologies and Cooperation of Distributed Heterogeneous Information Systems for
Tracking Chronic Diseases. DOI:10.1007/978-3-319-00375-7_5 ISBN: 978-3-319-00374-0 In book:
Multimedia Services In Intelligent Environments: .
Hakimpour & Geppert, A., 2001. Resolving Semantic Heterogeneity in Schema Integration: an
Ontology Based Approach. in Proceedings of Proceedings of the Bibliographie Laboratoire LIRIS 2003
– 2004 International Conference on Formal Ontology in Information Systems (FOIS-2001), Ogunquit,
Maine, USA.
Références
F.Z. Abdelouhab Page 165
Hamdi, F., Safar, B., Reynaud, C. & Zargayouna, H., 2010. Alignment-based Partitioning of Large-
scale Ontologies. Chapter of the book Advances In Knowledge Discovery and Management , Vol. 292,
pp. 251-269, 2010, Springer. ISBN: 978-3-642-00579-4.
Henni, F., 2015. Composition dynamique de services Web par apprentissage artificiel. Thèse de
doctorat en informatique Université d’Oran1 .
Hernandez, N. & Mothe, J., 2006. D’un thesaurus vers une ontologie de domaine pour l’exploration
d’un corpus. In Actes de la conférence Veille Stratégique Scientifique & Technologique (VSST), à
paraître, 2006..
Hipp, J., Güntzer, U. & Grimmer, U., 2001. DATA QUALITY MINING Making a Virtue of Necessity.
Hoffmann, P., 2008. Similarité sémantique inter ontologies basée sur le contexte. Informatique [cs].
Université Claude Bernard - Lyon I, 2008. Français. <tel-00363300v2>.
Hoshiai, T., Yamane, Y., Nakamura, D. & Tsuda, H., 2004. A semantic category matching approach to
ontologies alignment. Proceedings of the 3rd international workshop (EON 2004), 2004..
Hou, X. J. G., Shen, X. & Yan, W., 2005. Application of Data Mining in Fault Diagnosis Based on
Ontology. In Proceedings of the Third International Conference on Information Technology and
Applications, Washington, USA., p. 260–263.
Hovy, E., Kozareva, Z. & Riloff, E., 2009. Toward Completeness in Concept Extraction and
Classification. Proceedings of the Conference of Empirical Methods in Natural Language Processing
(EMNLP). Singapore.
Huang, H.-C., Kerridge, J. M. & Chen, S.-L., 2000. A query mediation approach to interoperability of
heterogeneous databases. In Australasian Database Conference, p. 41–48.
Hu, W., Zhao, Y. & Qu, Y., 2006. Partition-based block matching of large class hierarchies. In
Proceedings of the 1st Asian Semantic Web Conference – ASWC 2006, pp. 72-83.
Ichise, R., Hamasaki, M. & Takeda, H., 2004. Discovering relationships among catalogs. Proceedings
of the 7th International Conference on Discovery Science (DS 04) LNCS, vol. 3245, Springer, 2004, p.
371–379.
Jean-Mary, Y. & Kabuka, M., 2007. ASMOV: Ontology Alignment with Semantic Validation. In SWDB-
ODBIS Workshop, 2007, Vienna, Austria, p.15-20..
Jouanot, F., 2000. Un modèle sémantique pour l’interopérabilité de systèmes d’information. In
INFORSID, pp. 347-364.
Kadem, H. & Atmani, B., 2010. Conception d’une Plateforme Cellulaire Open Source d’Extraction et
de Gestion des Connaissances. WS4KDM, 7ème Séminaire National en Informatique BISKRA
(SNIB'2010), Université Mohamed Khider - Biskra, Algérie, 02-04 Nov 2010.
Kalgoflou, Y. & Schorlemmer, M., 2003. Ontology mapping : the state of the art. The Knowledge
Engineering Review, 18(1):1_31..
Références
F.Z. Abdelouhab Page 166
Kasri, S. & Benchikha, F., 2011. Large-scale ontologie: pattern and partition-based alignement. IJWS
1(1/2), pp. 36-53.
Khouri, S., 2009. Modélisation conceptuelle à base ontologique d’un entrepôt de données. Mémoire
de Magistère, Université Oued-Smar Alger..
Kimball, R., 1998. The operational data warehouse. DBMS 11(1), p. 14–16.
Kim, H. & Park, S. S., 2003. Building a Web-enabled Multimedia Data warehouse. LNCS 2713, pp.
594-600.
Klein, M., 2001. Combining and relating ontologies : an analysis of problems and solutions. In
Proceedings of the IJCAI-Workshop on Ontologies and Information Sharing, Seattle, US., pp. 53-62.
Klyne, G. & Carroll, J., 2004. Resource Description Framework (RDF) :Concepts and Abstract Syntax.
Rapport technique, W3C : World Wide Web Consortium,http ://www.w3.org/TR/2004/REC-rdf-
concepts-20040210/ (05/24/2010)..
Kremen, P., Smid, M. & Kouba, Z., 2011. OWLDiff: A practical tool for comparison and merge of OWL
ontologies. In Proceedings of DEXA 2011 Workshops. IEEE Computer Society Press. To appear in
September.
Lacher, M. S. & Groh, G., 2001. Facilitating the exchange of explicit knowledge through ontology
mappings. (FLAIRS 01), Press, 2001, p. 305–309.
Lamarre, P., Cazalens, S., Lemp, S. & Valduriez, P., 2004. A flexiblemediation process for large
distributed information systems.. In CoopIS/DOA/ODBASE (1), Volume 3290 of Lecture Notes in
Computer Science. Springer, p. 19–36.
Lambrix, P. & Tan, H., 2006. SAMBO: a system for aligning and merging biomedical ontologies. Web
Semantics: Science, Services and Agents on the WWW .
Lassila, O. & McGuinness, D., 2001. The role of frame-based representation on thesemantic web.
Technical Report KSL-01-02, Knowledge Systems Laboratory, StanfordUniversity, Stanford, California,
United States..
Leacock, C. & Chodorow, M., 1998. Combining local context and WordNet similarity for word sense
identification. in C. Fellbaum, editor, WordNet: An electronic lexical database, volume 11 of
Language, Speech and Communication, The MIT Press, Cambridge, Massachusetts, pp. 265-283.
Levenshtein, I. V., 1966. Binary codes capables of corrections, deletions, insertions and reversals.
Soviet Physics-Doklady, 10(8), pp. 707-710.
Li, G., Luo, Z. & Shao, J., 2010. Multi-mapping based ontology merging system design. 2nd
International Conference on Advanced Computer Control (ICACC), vol. 2, IEEE, pp. 5-11.
Lindberg, D. A., Humphreys, B. L. & McCray, A. T., 1993. The Unified Medical Language System,
Methods. Inf Med, 32(4). http://www.openclinical.org/medTermUmls.html, pp. 281-291.
Références
F.Z. Abdelouhab Page 167
Li, W. & Clifton, C., 2000. Semint–a tool for identifying attributes correspondences in heterogeneous
databases using neural vetworks. Data Knowledge Engineering, 33(1), (2000)..
Li, Y., Zhong, Q., Li, J. & Tang, J., 2007. Result of ontology alignment with RiMOM at OAEI'07. In
Proceedings of the 2nd International Workshop on Ontology Matching (OM-2007), Busan, Korea, pp.
196-205.
Lortal, G., 2002. État de l’art Ontologies et Intégration/Fusion d’ontologies.
Lucke, S., Spector, L., Rager, D. & Handler, J., 1997. Ontology-based webagents. In W. Lewis
JOHNSON et Barbara HAYES-ROTH, réds., Proceedings of the First International Conference on
Autonomous Agents (Agents’97), Marina del Rey, CA, USA, p. 59–68.
Madhavan, J. et al., 2003. Corpus-Based Schema Matching. Workshop on Information Integration on
the Web, p.59-66 (2003)..
Madhavan, J., Berntein, P. & Rahm, E., 2001. Generic schema matching with Cupid. In Proceedings of
the 27th International Conference on Very Large Data Base (VLDB)), Roma, Italy, pp. 48-58.
Maedche, A. & Staab, S., 2001. Ontology Learning for the Semantic Web. IEEE Intelligent Systems,
Special Issue on the Semantic Web, 16(2).
Mahfoudh, M., Forestier, G., Thiry, L. & Hassenforder, M., 2014. Comment fusionner des ontologies
avec la réécriture de graphes ?. JFO2014, pp. 89-100.
Mahfoudh, M., Forestier, G., Thiry, L. & Hassenforder, M., 2014. Comment fusionner des ontologies
avec la réécriture de graphes ?. JFO’2014.
Maibaum, M. et al., 2005. Cluster based integration of heterogeneous biological databases using the
AutoMed toolkit. In Proceedings of DILS'05.
Maiz, N., Boussaid, O. & Bentayeb, F., 2008. Fusion automatique des ontologies par classification
hiérarchique pour la conception d’un entrepôt de données. EGC2008.
Malek, M. & Kadima, H., 2012. Searching Frequent Itemsets by Clustering Data: Towards a Parallel
Approach Using Mapreduce. WISE Workshops, pp. 251-258 .
Manolescu, I. et al., 2000. Agora– Living with XML and Relational. Proc. of the Intl Conf. on Very
Large Databases (VLDB), Cairo (2000)..
Mansingh, G., Osei-Bryson, K.-M. & Reichgelt, H., 2011. Using Ontologies to Facilitate Post-
processing of Association Rules by Domain Experts. Information Sciences 181, pp. 419-434.
Mansoul, A. & Atmani, B., 2009. Fouille de données biologiques : vers une représentation booléenne
des règles d’association. 2èmeConférence Internationale CIIA’09, Université de Saida, Algérie, Publier
dans http://CEUR-WS.org, ISSN: 1613-0073.
Marinica, C. & Guillet, F., 2010. Knowledge-Based Interactive Postmining of ssociation Rules Using
Ontologies. IEEE 22, pp. 784-797.
Références
F.Z. Abdelouhab Page 168
Marsh, J., 2001. XML base. Rapport technique, W3C : World Wide Web Consortium,http
://www.w3.org/TR/2001/REC-xmlbase-20010627/..
Mbaiossoum, B., Bellatreche, L. & Baron, S. M., 2013. Comparaison théorique et empirique de
systèmes de bases de données sémantiques. Ingénierie des Systèmes d'Information 18(3) , pp. 39-63.
McBride, B., 2001. Jena : Implementing the RDF model and syntax specification. Proceedings of the
2nd International Workshop on the Semantic Web, 2001..
McClanahan, C., 2008. Cleaning a formulation database using rule discovery techniques. In
Proceedings of the 13th ICIQ Conference, Boston, US, 2008.
McGuinness, D., Fikes, R., Rice, J. & Wilder, S., 2000. An Environment for Merging and Testing Large
Ontologies. Principles of Knowledge Representation and Reasoning. Proceedings of the Seventh
International Conference (KR2000). A. G. Cohn, F. Giunchiglia and B. Selman, editors. San Francisco,
CA, Morgan Kaufmann Publishers.
Mellal, N., 2007. Réalisation de l’interopérabilité sémantique des systèmes, basée sur les ontologies
et les flux d’information.. Thèse de doctorat 19 Décembre 2007 à Polytech’Savoie. France..
Melnik, S., H.Garcia-Molina & Rahm, E., 2002. Similarity Flooding: A versatile Graph Matching
approaches. Proceeding (ICDE), San Jose, Californie, USA.
Mena, E., Illarramendi, A., Kashyap, V. & Sheth, A., 2000. Observer : An approach for query
processing. in global information systems based on interoperation across preexisting ontologies. 8(2),
pp. 223-271.
Mendes, O., 2003. État de l'art sur les méthodologies d'ingénierie ontologique. Centre de recherche
LICEF. En préparation. Montréal, Québec, Canada, p. 86 .
Mhiri, M., Gargouri, F. & Benslimane, D., 2006. Détermination automatiquedes relations
sémantiques entre les concepts d'une ontologie. In Proceedings of theXXIVème édition du Congrès
INFORSID, Hammamet, Tunisie., pp. 627-642.
Miani, R. G., Yaguinuma, C. A., Santos, M. T. P. & Biajiz, M., 2009. NARFO Algorithm: Mining Non-
redundant and Generalized Association Rules Based on Fuzzy Ontologies. In ICEIS 2009, Milan, Italy,
pp. 415-426.
Miller, G., 1995. WordNet : a Lexical Database for English. Communications of the ACM, 38(11), pp.
39-41.
Mizoguchi, R., 1998. A Step Towards Ontological Engineering. Paper presented at the 12th National
Conference on AI of JSAI.
Monge, A. & Elkan, C., 1996. The field-matching problem: algorithm and applications. in Proceedings
of the Second International Conference on Knowledge Discovery and Data Mining, 1996..
Muller, R., 1998. Database Design for Smarties: Using UML for Data Modeling. Morgan Kaufmann.
Références
F.Z. Abdelouhab Page 169
Nguyen, D. X., 2006. Intégration de bases de données hétérogènes par articulation à priori
d’ontologies: Applications aux CCI. Thèse de doctorat, Université de Poitiers..
Nottelmann, H. & Straccia, U., 2006. A probabilistic, logic-based framework for automated web
directory alignment. Soft Computing in Ontologies and the Semantic Web (Z. Ma, ´ed.), 2006., p. 47–
77.
Noy, N., 2004. Semantic integration: a survey of ontology-based approaches. Special Issue on
Semantic Integration, SIGMOD Record, Volume 33, Issue 4, pp. 65-70.
Noy, N. F. & Musen, M. A., 2003. The prompt suite : interactive tools for ontology merging and
mapping. Int. J. Hum.-Comput. Stud. 59(6), p. 983–1024 .
Noy, N. & Musen, M., 2000. Prompt: algorithm and tool for automated ontology merging
andalignment. In Proceeding of Seventeenth National Conference on Artificial Intelligence AAAI.
Ober, I., Dib, A. A., Féraud, L. & Percebois, C., 2008. Towards interoperability in component based
development with a family of DSLs. (ECSA 2008), Chypre, 29/09/08-01/10/08, p. 148-163, septembre
2008. .
ONTOEDIT, 2004. Ontology. Editor Home Page, http ://www.ontoprise.de/com/..
Pan, Z. & Heflin, J., 2003. DLDB : Extending Relational Databases to Support Semantic Web Queries.
Proceedings of the 1st International Workshop on Practical and Scalable Semantic Systems (PSSS’03),
p. 109-113, 2003..
Parent, C. & Spaccapietra, S., 2011. Intégration de bases de données: Panorama des problèmes et
des approches. Ingénierie des systèmes d'information Vol.4, N°3.
Pinto, H. & Martins, J., 2001. A methodology for ontology integration. In Proceedings of the
International Conference on Knowledge Capture, ACM Press, 2001., pp. 131-138.
Premerlani, W. & Blaha, M., 1994. An Approach for Reverse Engineering of Relational Databases. In:
Communications of the ACM, Vol. 37. No. 5 (1994) 42–49.
PRO, 2002. PROTEGE2000. Protege2000 Ontology Editor Home Page, http://protege.stanford.edu/.
Psyché, V., Mendes, O. & Bourdeau, J., 2004. Apport de l’ingénierie ontologique aux
environnements de formation à distance. Revue STICEF, Volume 10, 2003, ISSN : 1764-7223,
http://sticef.org.
Qu, Y., Hu, W. & Chen, G., 2006. Constructing virtual documents for ontology matching. Conference
(WWW 06) (Edinburgh (UK)), 2006, p. 23–31.
Rahm, E. & Bernstein, P., 2001. A survey of approaches to automatic schema matching. The VLDB
Journal 10: / Digital Object Identifier (DOI) 10.1007/s007780100057, p. 334–350 .
Resnik, P., 1999. Semantic Similarity in a Taxonomy: An Information-Based Measure and its
Application to Problems of Ambiguity in Natural Language. Journal of Artificial Intelligence Research
(JAIR), 11,1999, pp. 95-130.
Références
F.Z. Abdelouhab Page 170
Roche, C., 2005. Terminologie et ontologie. Revue Langages, numéro 157.
Rouane, M. H., Dao, M., Huchard, M. & Valtchev, P., 2007. Aspects de la réingénierie des modèles
UML par analyse de données relationnelles. lirmm-00163388, version I, Actes du colloque, 2007,
Toulouse, France.
Sabou, M., Lopez, V. & Motta, E., 2006. Ontology Selection on the Real Semantic Web: How to Cover
the Queens Birthday Dinner?. In Proceedings of the 15th International Conference on Knowledge
Engineering and Knowledge Management, 2006..
Sabri, M. & Atmani, B., 2010. Système d’assistance aux recherches épidémiologiques et de
surveillance des maladies: Modélisation Booléenne. Colloque International « Veille Stratégique
Scientifique et Technologique (VSST)», VSST’10, 25-29 Oct 2010, Toulouse, France.
Saccol, D. & Heuser, C. A., 2002. Integration of XML Data. LNCS 2590, pp. 68-80.
Sadoun, D., 2014. Des spécifications en langage naturel aux spécifications formelles via une ontologie
comme modèle pivot. Artificial Intelligence. Université Paris Sud - Paris XI. French.<NNT :
2014PA112116>. <tel-01060540>.
Safar, S., Reynaud, C. & Calvier, F., 2007. Techniques d'alignement d'ontologies basées sur la
structure d'une ressource complémentaire. Actes des 1ères Journées Francophones sur les
Ontologies, 2007, Sousse, Tunisie, pp. 21-35.
Saïs, F., Pernelle, N. & Rousset, M.-C., 2007. L2R: A Logical Method for Reference Reconciliation. In
Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence, July 22-26, Vancouver .
Salhi, K., 2014. La fusion des Ontologies”, Mémoire comme exigence partielle de la maîtrise en
informatique. Université du Québec à Montréal.
Salton, G., 1971. The Smart Retrieval System. Prentice Hall, Englewood Cliffs, NJ.
Sellami, S., 2009. Méthodologie de Matching à Large Echelle pour des schémas XML. Thèse de
doctorat L’institut national des sciences appliquées de Lyon.
Sellami, S., 2009. Méthodologie de Matching à Large Echelle pour des schémas XML. Thèse de
doctorat à L’institut national des sciences appliquées de Lyon, le 30 Novermbre (2009)..
Sheikhnajdy, Z., Mohsenzadeh, M. & Dezfuli, M. A., 2011. Improving Semantic Schema Integration.
World of Computer Science and Information Technology Journal (WCSIT) ISSN: 2221-0741 Vol. 1, No.
5, 193-197, 2011 193.
Shvaiko, P. & Euzenat, J., 2005. A Survey of Schema-based Matching Approaches. Journal on data
Semantics, IV, 146-171, 2005..
Shvaiko, P. & Euzenat, J., 2013. Ontology matching: state of the art and future challenges. IEEE
Transactions on Knowledge and Data Engineering, 25(1), p. 185–176.
Références
F.Z. Abdelouhab Page 171
Smith, M., Welty, C. & etMcguinness, D., 2004. OWL : OntologyWeb Language Guide. Rapport
technique, W3C : World Wide Web Consortium,http ://www.w3.org/TR/2004/REC-owl-guide-
20040210/..
Sowa, J., 2000. Knowledge Representation: Logical, Philosophical, and Computational Foundations.
Brooks/Cole, August.
Straccia, U. & Troncy, R., 2005. oMAP : Combining classifiers for aligning automatically OWL
ontologies. (WISE 2005) (New York (NY US)), 2005, p. 133–147.
Stuckenschmidt, H. et al., 2004. Exploring large document repositories with RDF technology. the
DOPE project, Intelligent system, IEEE, .
Stumme, G. & Maedche, A., 2001. FCA-MERGE: bottom-up merging of ontologies. IJCAJ'01
Proceedings of the 17th international joint conference on Artificial intelligence, Actes du colloque,
2001 , USA: Morgan Kaufmann Publishers Inc. San Francisco, CA, USA.
Tamma, V. & Visser, P., 1999. Integration of Heterogeneous Sources: Towards a Framework for
comparing Techniques. in Proceedings of the IJCAI-99 Workshop on Intelligent Information
Integration. Stockholm .
Tang, J. L., Liang, B., Huang, X. L. Y. & Wang, K., 2006. Using bayesian decision for ontology mapping.
Journal of Web Semantics 4 (2006), no. 1, p. 243–262.
Tebib, A., 2014. Concepts et Outils pour l’Intégration et l’Interopérabilité des Services. Application
dans le cadre du E-Government. Thèse de doctorat. Université de Constantine2.
Todorov, K., Hudelot, C., Popescu, A. & Geibel, P., 2014. Fuzzy Ontology Alignment using
Background Knowledge. International Journal of Uncertainty, Fuzziness and Knowledge-Based
Systems 22(1): 2014, pp. 75-112.
Troncy, R., 2004. Formalisation des connaissances documentaires et des connaissances
conceptuelles à l’aide d’ontologies : application à la description de documents audiovisuels. Thèse de
doctorat de l’Université Joseph Fourier, Grenoble.
Troncy, R. & Issac, A., 2002. DOE: Une mise en oeuvre d’une méthode de structuration différentielle
pour les ontologies. in Actes des journées francophones d’Ingénierie des Connaissances (IC’2002), pp.
63-74.
Truptil, S., Bénaben, F. & Pingaud, H., 2010. Une architecture de système d'information collaboratif
pour la gestion de crise. Approche basée sur la médiation des systèmes. Ingénierie des Systèmes
d'Information 01/2010; 15:11-36. DOI:10.3166.
Uschold, M. & Gruninger, M., 1996. Ontologies : Principles, methods and applications. Knowledge
Engineering Review, 11(2):93136.
Visser, P. R. S., Jones, D. M., Bench-Capon, T. J. M. & Shave, M. J. R., 1998. Assessing heterogeneity
by classiying ontology mismatches. In Proceedings of the 1st International conference on Formal
Ontology in Information Systems (FOIS), pp. 148-162.
Références
F.Z. Abdelouhab Page 172
Wache, H. et al., 2001. Ontology-based integration of information A survey of existing approaches. In
Proceedings of IJCAI-01 Workshop: Ontologies and Information Sharing.
Wei, W., Zhng, M., Zhang, B. & Tang, X., 2007. A Data Cleaning Method Based on Association Rules.
Welty, C. & Guarino, N., 2001. Supporting ontological analysis of taxonomic relationships. Data and
Knowledge Engineering, 1(39), pp. 51-74.
Wolfram, S., 1986. Tables of Cellular Automaton Properties. Advanced Series on Complex Systems 1.
World Scientific Publishing, p. 485–557.
Wu, Z. & Palmer, M., 1994. Verb semantics and lexical selection. in 32nd Annual Meeting of the
Association for Computational Linguistics, Las Cruces, New Mexico,1994, pp. 133-138.
Zaihrayeu, I., 2006. Towards Peer-to-Peer Information Management Systems. PhD thesis,
International Doctorate School in Information and Communication Technology, University of Trento,
Italy, March 2006.
Zeman, M., Ralbovský, M., Svatek, V. & Rauch, J., 2009. Ontology-Driven Data Preparation for
Association Mining. In Proceedings of the 8th Znalosti Conference, Brno, p. 1–12.
Zerdazi, A. & Lamolle, M., 2005. HyperSchéma XML: Un modèle d'intégration sémantique par
enrichissement de schémas XML. MajecSTIC 2005 , pp. 143-150.
Zghal, S., 2010. Contributions à l'alignement d'ontologies OWL par agrégation de similarité. Thèse de
doctorat en informatique. Université de Tunis, El manar.
Zghal, S., Ben Yahia, S., Mephu Nguifo, E. & Slimani, Y., 2007a. A new alignment method for owl-lite
ontologies using propagation of similarity over the graph. In Proceeding of 18th International
Workshop on Database and Expert Systems Applications (DEXA 2007). Regensburg, Allemagne.
Zghal, S., Ben Yahia, S., Mephu Nguifo, E. & Slimani, Y., 2007b. SODA : an owldl based ontology
matching system. In Proceedings of the 2nd International Workshop on Ontology Matching (OM-
2007) Colocated with the 6th International Semantic Web Conference (ISWC-2007) and the 2nd Asian
Semantic Web Conference (ASWC-2007). Busan, Korea, pp. 261-267.
Ziani, M., 2010. Architecture d’un système d’aide à l'alignement d'ontologies. s.l.:Second Atelier
Recherche d'Information, SEmantique RISE, Marseille 25 mai 2010 Associé au 28ème Congrès
INFORSID 2010..
Zimmermann, A., 2013. Logical Formalisms for Agreement Technologies. Sascha Ossowski.
Agreement Technologies, Springer Netherlands, Law, Governance and Technology Series, 978-94-007-
5582-6. <http://dx.doi.org/10.1007/978-94-007-5, pp. 69-82.
Zweigenbaum, P., 1993. Linguistic and medical knowledge bases: An access system for medical
records using natural language. Technical report, MENELAS: deliverable 9, AIM Project A2023.
top related