intégration incrémentale de données (valenciennes juin 2010)
DESCRIPTION
An invited talk at the University of Valenciennes-France onTRANSCRIPT
Intégra(on Incrémentale de Données Basée sur les Retours U(lisateur
Khalid Belhajjame Université de Manchester
Royaume Uni
Valenciennes 1 18 juin 2010
Intégra(on de Données
Chercheur
Quels sont le protéines disponibles de la mouche des fruits?
Schéma central
PedroDB PepSeeker Pride GPMDB
Mappings
Valenciennes 2 18 juin 2010
Intégra(on Incrémentale de Données
Intégra(on de Données
– La spécifica(on de mappings est une ac(vité couteuse qui requière une connaissance profonde des sources de données aussi bien que les besoins des u(lisateurs.
Dataspaces: Pay-‐as-‐you-‐go Data Integra3on [Franklin et al. 2005] – Réduire le temps d’installa(on du système d’intégra(on de données.
– Améliore les services fournis par le system d’une façon incrémentale en interagissant avec les u(lisateurs.
M. J. Franklin, A. Y. Halevy, and D. Maier. From databases to dataspaces: a new abstrac(on for informa(on management. SIGMOD Record, 34(4):27–33, 2005.
Valenciennes 3 18 juin 2010
Intégra(on Incrémentale de Données
PedroDB PepSeeker Pride GPMDB
Chercheur
Schéma central
Mappings
Quels sont le protéines disponibles de la mouche des fruits?
Bootstrap Dataspaces
Objec(ve: Étudiez l'annota(on, la sélec(on et le raffinement incrémental des mappings
Valenciennes 4 18 juin 2010
Pay-‐as-‐you-‐go Data Integra(on
Nous considérons que les schémas des sources et le schéma central sont
rela(onels, et que les mappings u(lisés pour peupler les éléments du schéma
central sont glabal-‐as-‐view de la forme suivante :
⟨r,qs⟩ r est une relation du schéma central et qs est une requête spécifiée en terme de sources.
Une rela(on du schéma central peut être associée avec plusieurs mappings
candidates pour sa popula(on : Nous considérons une configura(on dans
laquelle mul(ple mécanismes de matching et de mapping de schémas sont
u(lisés.
Valenciennes 5 18 juin 2010
Plan
Retour U(lisateur (feedback)
Annota(on de Mappings
Sélec(on de Mappings Considérant les Besoins U(lisateur
Raffinement de Mappings
Valenciennes 6 18 juin 2010
Retour U(lisateur
Requête: Quels sont le protéines disponibles de la mouche des fruits?
Results:
Feedback
✔
✖
✖
✔
Valenciennes 7 18 juin 2010
Retour U(lisateur (cont.)
Considérons m un mapping, et UF un ensemble de retours u(lisateur (feedback instances):
tp(m,UF): les tuples qui sont prévus par l'u(lisateur et qui sont retournés par le mapping m.
fp(m,UF): les tuples qui ne sont pas prévus par l'u(lisateur et qui sont retournés par le mapping m.
fn(m,UF): les tuples qui sont prévus par l'u(lisateur et qui ne sont pas retournés par le mapping m.
Valenciennes 8 18 juin 2010
Plan
Retour U(lisateur (feedback)
Annota(on de Mappings
Sélec(on de Mappings Considérant les Besoins U(lisateur
Raffinement de Mappings
Valenciennes 9 18 juin 2010
Annota(on de Mappings
On peut u(liser un schéma d’annota(on simple pour é(queter les mappings comme:
Correct
Incorrect
L'ensemble de mappings peut être incomplete, et, par consequent, nous allows tout simplement annoter tout les mappings comme incorrect, ce qui est inu(le.
Pour ceme raison, nous u(lisons un schéma plus fine pour l’annota(on de mappings.
Valenciennes 10 18 juin 2010
Annota(on de Mappings (cont.)
Nous avons u(lisé et adapté les no(ons de précision et de rappel u(lisés dans la recherche d'informa(on pour mesurer la qualité d'un mapping.
Precision:
Rappel:
F mésure:
Valenciennes 11 18 juin 2010
Annota(on de Mappings: Valida(on
Ques(ons:
– Combien de retours u(lisateur (feedback instances) faut-‐il pour rapprocher la précision et le rappel réels, c'est à dire calculés on se basant sur la connaissance complète des résultats prévues?
– Est ce que la philosophie “pay-‐as-‐you-‐go” préconisée par la vision espaces de données (dataspaces) est valide dans ce context?
Valenciennes 12 18 juin 2010
Annota(on de Mappings: Valida(on (cont.)
Expérience:
Données:
– Deux collec(ons de données: la base de données géographiques Mondial et la base de données bibliographique amalgames.
– Les mappings candidats: créés en u(lisant IBM InfoSphere Data Architect.
Processus: nous avons appliqué le processus illustrées ci-‐dessous pour de mul(ples itéra(ons.
1. Générer un échan(llon de retours u(lisateur (feedback instances).
2. Calculer la précision et le rappel des mappings candidats en u(lisant le retours u(lisateur cumulés.
Valenciennes 13 18 juin 2010
Annota(on de Mappings: Erreur dans la Precision
Error
Valenciennes 14 18 juin 2010
Mapping Annota(on: Erreur dans le rappel
Valenciennes
Error
Valenciennes 15 18 juin 2010
Plan
Retour U(lisateur (feedback)
Annota(on de Mappings
Sélec(on de Mappings Considérant les Besoins U(lisateur
Raffinement de Mappings
Valenciennes 16 18 juin 2010
Sélec(on de Mappings
La sélec(on de mappings doit être adaptée pour répondre aux besoins des u(lisateurs.
Nous u(lisons une méthode de sélec(on qui vise à maximiser le rappel de telle sorte que la précision des résultats est supérieur à un seuil de précision donnée.
Nous avons défini ceme méthode comme un problème d’op(misa(on qui vise à maximiser la fonc(on d'u(lité suivantes:
D. A. Menascé and V. Dubey. U(lity-‐based qos brokering in service oriented architectures. In ICWS, pages 422–430. IEEE CS, 2007.
Valenciennes 17 18 juin 2010
Sélec(on de Mappings: Precision
Est-‐ce que ceme méthode permet de respecter la précision spécifiée par l'u(lisateur?
Valenciennes 18 18 juin 2010
Sélec(on de Mappings: Rappel
Est-‐ce que ceme méthode permet de maximiser le rappel?
Valenciennes 19 18 juin 2010
Plan
Retour U(lisateur (feedback)
Annota(on de Mappings
Sélec(on de Mappings Considérant les Besoins U(lisateur
raffinement de Mappings
Valenciennes 20 18 juin 2010
raffinement de Mappings
Nous dis(nguons deux types de Raffinement:
Raffinement de mappings qui vise à réduire le nombre de faux posi(fs
Un mapping candidat est affinée par la modifica(on de sa requête source de sorte que le nombre de faux posi(fs retournés est réduit.
Raffinement de mappings qui vise à accroître le nombre de vrais posi(fs
Un mapping candidat est affinée par la modifica(on de sa requête source de sorte que le nombre de faux posi(fs retournés est accrue.
Valenciennes 21 18 juin 2010
Mapping Refinement: Exemple
Accession name gene
Protein
Je veux les proteins de
mouche de fruit
Schéma cebtral
Schéma source
m = <Protein, ProteinEntry>
Valenciennes 22 18 juin 2010
Raffinement de Mappings: l'espace des solu(ons
L'espace des solu(ons est composé des mappings qui peuvent être construits à par(r des mappings candidats ini(aux. Plus précisément, les mappings obtenu en:
i. appliquant la jointure à la requête source d’un mapping,
ii. augmentant la requête source d'un mapping avec une condi(on de sélec(on,
iii. assouplissant la condi(on de sélec(on de la requête source d’un mapping,
iv. combinant les requêtes sources de deux ou plusieurs mappings en u(lisant l'Union, la différence et intersec(on.
Valenciennes 23 18 juin 2010
Explora(on de l'Espace des Solu(ons
L'espace des mappings qui peuvent être obtenus par raffinement est poten(ellement large.
Un algorithme de recherche qui explore tout l'espace des mappings possibles peut ne pas être en mésure de trouver une solu(on dans un temps limité.
Dans le cadre du présent travail, nous avons u(lisé un algorithme évolu(onnaire pour explorer l'espace de mappings qui peuvent être obtenus par raffinement.
Valenciennes 24 18 juin 2010
Algorithm pour le Raffinement de Mappings
Valenciennes 25 18 juin 2010
Raffinement de Mappings: Valida(on
Ques(on: Est-‐ce qu’on peut améliorer la qualité des mappings
candidats iniDaux par raffinement, et, si c’est le cas, à quel prix, à savoir, combien de retours uDlisateur sont requis?
Expérience: Pour répondre à la ques(on ci-‐dessus, nous avons appliqué le processus suivant pour de mul(ples itéra(ons.
1) Générer un échan(llon de retours u(lisateur 2) Annoter l'ensemble des mappings candidats. 3) Raffiner les mappings candidats.
Valenciennes 26 18 juin 2010
Raffinement de Mappings: Valida(on (cont.)
Valenciennes Valenciennes 27 18 juin 2010
Conclusions
Annota(on incrémentale de Mappings
Nous avons montré comment les mappings peuvent être annoter progressivement en fonc(on des retours u(lisateurs.
Nous avons également montré à travers un exercice d'évalua(on que plus de retours u(lisateur nous avons, meilleur est la qualité des annota(ons calculées.
Applica(on: Sélec(on et Raffinement des mappings
Les annota(ons calculées sont u(lisées comme entrée pour permemre la sélec(on et le raffinement de mappings.
Les exercices d'évalua(on ont également montré que le raffinement mappings est plus rentable (cost-‐effec(ve) dans les itéra(ons premiers.
Valenciennes 28 18 juin 2010
Travaux en Cours
Propaga(on de retour u(lisateur et des annota(ons.
Retours u(lisateur inconsistant.
Valenciennes 29 18 juin 2010
Intégra(on Incrémentale de Données Basée sur les Retours U(lisateur
Khalid Belhajjame Université de Manchester
Royaume Uni
Valenciennes 30 18 juin 2010