![Page 1: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/1.jpg)
Információ integrációSzemantikus Web megközelítés
Alkalmazások
1
![Page 2: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/2.jpg)
Miért van szükségünk ilyesmire? (Alkalmazások)WWW:
Összehasonlítás alapú vásárlás Portál építések több adatforrás felhasználásával B2B, elektronikus piacterek
Tudomány és kultúra: Genetika: gén információk integrálása Asztrofizika: égi jelenségek gyűjtése. Kultúra: kulturális információs adatbázisok egységes elérése országhatárokon túl
Vállalati adatintegráció Egy átlagos KNV 49 adatbázist alkalmaz és IT költségvetésének 30%‐át az adatintegrációra költi (US)
2
![Page 3: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/3.jpg)
Csak szöveg volna a weben? A web jelentős része valójában strukturált…
A legtöbb web szerver mögött adatbázisok állnak Dinamikusan konvertálják az adatokat olvasható nyelvi formára
<India, New Delhi> => The capital of India is New Delhi. Ha vissza tudnánk konvertálni lenne strukturált adatunk!
(ki)csomagolók, csomagolók tanulása, stb… Dinamikus lapokat is fel tudunk deríteni...
Félig‐strukturált web (kialakulóban) Legtöbb lap részben strukturált (pl. XML) XML a szabvány a szintaktikára, ismert problémák az értelmezéssel
Szolgáltatások Utazási szolgáltatások, vásárlások támogatása
ÉrzékelőkTőzsdei árfolyamok, hőmérsékletek, jegyárak…
3
![Page 4: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/4.jpg)
Miért nem elég: Keresőgépek szövegalapú keresést végeznek
Jól működik egyedi dokumentumokon Nem tudnak integrálni több dokumentumból származó információkat
Nem képesek hatékony általánosításra Nem tudnak dokumentumokat és adatbázisokat összekapcsolni
Az információ integráció célja strukturált és félig‐strukturált információforrások együttes kezelése
4
![Page 5: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/5.jpg)
5
Netbot
Junglee
DealPilot.Com
Összehasonlítás alapú vásárlás?
• Hasonló• De:
• Szélesebb fókusz• Szélesebb spektruma az
adatbázisoknak• Szolgáltatások
• Új kihívás• “adattár” nem működik• Kézi forrásleírás, kezelés
korlátai
![Page 6: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/6.jpg)
Miért nem csak Közös séma hiánya
Források heterogén sémákkal (és fogalmakkal, ontológiákkal) rendelkeznek
Félig‐strukturált források Régi források
Nem relációs sémák Eltérő elérési módok
Független források Nincs közös adminisztráció Nem kezelt forrás tartalmi átfedések
Nehezen előrejelezhető viselkedés Lekérdezés végrehajtás bonyolult
Általában csak olvashatóak Ez lehet szerencsés is Bár terjednek a tranzakció kezelési megoldások a weben
6
Database(relational)
Database Manager(DBMS)
-Storage mgmt-Query processing-View management-(Transaction processing)
Query(SQL)
Answer(relation)
adatbázisokelosztott adatbázisok
![Page 7: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/7.jpg)
Kitérő: Ivan Herman felvezetése aW3C konferencián
7
![Page 8: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/8.jpg)
8
Szolgáltatások
Web lapok
Strukturált adatok
Szenzorok(soros adatok)
Végrehajtás
Forrás fúzionálás/Lekérdezés
tervezés
Forrás leírás
Válasz
Monitor
Mediátor
![Page 9: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/9.jpg)
9
Szolgáltatáso
Weblapok
Strukturáltadatok
Szenzorok(sorosadatok)
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálás Lekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Válasz
Teszt lekérdezések
Monitor
• Felhasználói lekérdezések megfogalmazása a mediált sémán.
• Adatok tárolva lokális sémában.
• A tárolt információ (tartalom) ismerete alapján megfogalmazható a leképezés a sémák között.
• A mediátor alkalmazza a leképezést a felhasználói kérdés lefordítására a forrás lekérdezésekre.
Információmenedzser
![Page 10: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/10.jpg)
10
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálás Lekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Válasz
Teszt lekérdezések
Monitor
Tudásreprezentáció- Ontológiák- Metaadatok- Következtetés- Lekérdező nyelvekAutomata tervezés
-Nyelvek tervezése-Szolgáltatások kompozíciója-Reaktív tervezés/
terv monitorozás
Tanulás/bányászás-Forrás felkutatás-Forrás statisztikák-Wrapper tanulás
Hol az MI szerepe?
![Page 11: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/11.jpg)
Forrás leírások Minden meta‐adat információt
tartalmaz Forrás tartalom logikai leírása(könyvek, új autók).
Forrás képességek (pl. SQL lekérdezés feltehető)
Forrás teljesség (minden könyvet tartalmaz).
Fizikai jellemzők (forrás, hálózat). Statisztikák az adatokról Source reliability
Tükör források Frissítési frekvencia.
11
Lekérdezé
s
Szolgáltatások
Weblapok
Strukturáltadatok
Szenzorok(sorosadatok)
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálásLekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Újratervezési
kérések
Prefere
nciák
/Eléé
rsimod
ell
Válasz
Teszt lekérdezések
Forrá
s elér
ések
Monitor
Statisztikák frissítése
Információmenedzser
Lekérdezé
s
Lekérdezé
s
Szolgáltatások
Weblapok
Strukturáltadatok
Szenzorok(sorosadatok)
Szolgáltatások
Weblapok
Strukturáltadatok
Szenzorok(sorosadatok)
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálásLekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Újratervezési
kérések
Prefere
nciák
/Eléé
rsimod
ell
Válasz
Teszt lekérdezések
Forrá
s elér
ések
Monitor
Statisztikák frissítése
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálásLekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Újratervezési
kérések
Prefere
nciák
/Eléé
rsimod
ell
Válasz
Teszt lekérdezések
Forrá
s elér
ések
Monitor
Statisztikák frissítése
Információmenedzser
![Page 12: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/12.jpg)
Forrás elérések Hogyan kapunk n‐eseket
Számos forrás strukturálatlan adatokat ad Néhány inherensen strukturálatlan, mások természetes nyelvi köntösben vannak
Vissza kell csomagolni az adatokat Wrapper építés/információ kinyerés Kézi munka/fél‐automatikus
12
![Page 13: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/13.jpg)
Forrás fúzió/ lekérdezés tervezés Feldolgozza a felhasználói lekérdezést és
előállítja a végrehajtási tervet Költség és hatékonyság közti optimalizáció
Forrás elérési korlátok kezelése Információ a forrásminőségről
13
Lekérdezé
s
Szolgáltatások
Weblapok
Strukturáltadatok
Szenzorok(sorosadatok)
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálásLekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Újratervezési
kérések
Prefere
nciák
/Eléé
rsimod
ell
Válasz
Teszt lekérdezések
Forrá
s elér
ések
Monitor
Statisztikák frissítése
Információmenedzser
Lekérdezé
s
Lekérdezé
s
Szolgáltatások
Weblapok
Strukturáltadatok
Szenzorok(sorosadatok)
Szolgáltatások
Weblapok
Strukturáltadatok
Szenzorok(sorosadatok)
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálásLekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Újratervezési
kérések
Prefere
nciák
/Eléé
rsimod
ell
Válasz
Teszt lekérdezések
Forrá
s elér
ések
Monitor
Statisztikák frissítése
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálásLekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Újratervezési
kérések
Prefere
nciák
/Eléé
rsimod
ell
Válasz
Teszt lekérdezések
Forrá
s elér
ések
Monitor
Statisztikák frissítése
Információmenedzser
![Page 14: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/14.jpg)
Monitoring/ Végrehajtás Lekérdezési terv alapján elvégzi a
feladatot a forrásokon Forrás késleltetések kezelése Hálózati, tranziens kimaradások Forrás elérési korlátok Szükséges lehet újratervezések elvégzése
14
QueryQuery
Services
Webpages
Structureddata
Sensors(streamingData)
Services
Webpages
Structureddata
Sensors(streamingData)
ExecutorNeeds to handleSource/network
Interruptions,Runtime uncertainty,
replanning
Source Fusion/Query Planning
Needs to handle:Multiple objectives,Service composition,
Source quality & overlap
Source TrustOntologies;
Source/ServiceDescriptions
Replanning
Requests
Prefere
nce/U
tility
Model
Answers
ProbingQueries
Sour
ce C
alls
Monitor
Updating Statistics
![Page 15: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/15.jpg)
Méretek figyelembe vétele Hány forrást kell elérni? Mennyire autonómok ezek? Van ismeretünk a forrásokról? Strukturáltak az adatok? Csak lekérdezés lehetséges vagy módosítás is? Követelmények: pontosság, teljesség, teljesítmény, inkonzisztenciák kezelése
Zárt vagy nyílt világ feltételezés?
15
![Page 16: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/16.jpg)
Deduktív adatbázisok Relációkat predikátumokkal írjuk le. Relációk közti relációkat datalog szabályokkal írjuk le (Horn klózok, függvényszimbólumok nélkül) Lekérdezések megfelelnek egy datalog programnak
Emprelated(Name,Dname) :‐ Empdep(Name,Dname)
Emprelated(Name,Dname) :‐ Empdep(Name,D1), Emprelated(D1,Dname)
16
![Page 17: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/17.jpg)
Kis forrás szám melletti integráció Általában ad‐hoc programozás:
speciális eset megvalósítása minden esetre, sok konzultáció.
Adattárházak: minden adat periódikus feltöltése az adattárházba. 6‐18 hónap bevezetési idő Operációs és
döntéstámogatási RDBMS elválasztás. (nem csak adatintegrációra megoldás).
Teljesítmény jó, adat lehet, hogy nem friss;. Rendszeres adattisztítás
szükséges.
Adat-forrás
Adat-forrás
Adat-forrás
Relációs adatbázis (tárház)
Felhsználóilekérdezések
Adat kinyerőprogramok
Adat tisztítás
OLAP / Döntéstámogtás/Adatkockák/ Adatbányászat
Adat-forrás
Adat-forrás
Adat-forrás
Relációs adatbázis (tárház)
Felhsználóilekérdezések
Adat kinyerőprogramok
Adat tisztítás
OLAP / Döntéstámogtás/Adatkockák/ Adatbányászat
17
Lekérdezé
s
Szolgáltatások
Weblapok
Strukturáltadatok
Szenzorok(sorosadatok)
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálásLekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Újratervez ési
kérések
Prefe
renc
i ák/E
léérsi
modell
Válasz
Teszt lekérdezések
Forrá
s elér
ések
Monitor
Statisztik ák friss ítése
Információmenedzser
Lekérdezé
s
Lekérdezé
s
Szolgáltatások
Weblapok
Strukturáltadatok
Szenzorok(sorosadatok)
Szolgáltatások
Weblapok
Strukturáltadatok
Szenzorok(sorosadatok)
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálásLekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Újratervez ési
kérések
Prefe
renc
i ák/E
léérsi
modell
Válasz
Teszt lekérdezések
Forrá
s elér
ések
Monitor
Statisztik ák friss ítése
VégrehajtásKezel: forrás és hálózati
kapcsolatokat, futtatási
bizonytalanságokat,újratervezést
Forrás fúzionálásLekérdezés tervezés
Számos cél együttese,Szolgáltatások kompozíciója,
Forrás minőség, átfedés
Forrás leírásOntológiák,Forrás és
szolgáltatás leírások
Újratervez ési
kérések
Prefe
renc
i ák/E
léérsi
modell
Válasz
Teszt lekérdezések
Forrá
s elér
ések
Monitor
Statisztik ák friss ítése
Információmenedzser
![Page 18: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/18.jpg)
Integrátor séma
18
Adat-forrás
Adat-forrás
Adat-forrás
Relációs adatbázis (tárház)
Felhasználóilekérdezések
Adat kinyerő programok
Adat tisztítás
OLAP / Döntéstámogtás/Adatkockák/ Adatbányászat
![Page 19: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/19.jpg)
Virtuális integrációs séma Adatok a forrásokban
maradnak Lekérdezés végrehajtásakor:
Releváns források meghatározása
Lekérdezés szétválasztása forrásokra vonatkozó lekérdezésekre.
Válaszok begyűjtése a forrásokból, és megfelelő kombinálása a válasz előállításához.
Friss adatok A megoldás skálázható
QueryQuery
Services
Webpages
Structureddata
Sensors(streamingData)
Services
Webpages
Structureddata
Sensors(streamingData)
ExecutorNeeds to handleSource/network
Interruptions,Runtime uncertainity,
replanning
Source Fusion/Query Planning
Needs to handle:Multiple objectives,Service composition,
Source quality & overlap
Source TrustOntologies;
Source/ServiceDescriptions
Replanning
Requests
Prefere
nce/U
tility
Model
Answers
ProbingQueries
Sour
ce C
alls
Monitor
Updating StatisticsExecutor
Needs to handleSource/network
Interruptions,Runtime uncertainity,
replanning
Source Fusion/Query Planning
Needs to handle:Multiple objectives,Service composition,
Source quality & overlap
Source TrustOntologies;
Source/ServiceDescriptions
Replanning
Requests
Prefere
nce/U
tility
Model
Answers
ProbingQueries
Sour
ce C
alls
Monitor
Updating Statistics
19
Garlic [IBM], Hermes[UMD];Tsimmis, InfoMaster[Stanford]; DISCO[INRIA]; Information Manifold [AT&T]; SIMS/Ariadne[USC];Emerac/Havasu[ASU]
Adatforrás
wrapper
Adatforrás
wrapper
Adatforrás
wrapper
Mediátor:
Felhasználói lekérdezésMediált (globális)séma
Adatforráskatalógus
Fordító motor
Optimalizáló
Végrehajtó gép
Adatforrás
wrapper
Adatforrás
wrapper
Adatforrás
wrapper
Mediátor:
Felhasználói lekérdezésMediált (globális)séma
Adatforráskatalógus
Fordító motor
Optimalizáló
Végrehajtó gép
![Page 20: Információ integráció Szemantikus Web megközelítés ...home.mit.bme.hu/~strausz/KomplexMIalkalmazások...mediált sémán. • Adatok tárolvalokális sémában. • A tárolt](https://reader036.vdocuments.site/reader036/viewer/2022081409/60733d12e884c17da8744446/html5/thumbnails/20.jpg)
Virtuális integrátor architektúra
20
Források: relációs adatbázisok, weblapok, szövegek.
QueryQuery
Services
Webpages
Structureddata
Sensors(streamingData)
Services
Webpages
Structureddata
Sensors(streamingData)
ExecutorNeeds to handleSource/network
Interruptions,Runtime uncertainity,
replanning
Source Fusion/Query Planning
Needs to handle:Multiple objectives,Service composition,
Source quality & overlap
Source TrustOntologies;
Source/ServiceDescriptions
Replanning
Requests
Prefere
nce/U
tility
Model
Answers
ProbingQueries
Sour
ce C
alls
Monitor
Updating StatisticsExecutor
Needs to handleSource/network
Interruptions,Runtime uncertainity,
replanning
Source Fusion/Query Planning
Needs to handle:Multiple objectives,Service composition,
Source quality & overlap
Source TrustOntologies;
Source/ServiceDescriptions
Replanning
Requests
Prefere
nce/U
tility
Model
Answers
ProbingQueries
Sour
ce C
alls
Monitor
Updating Statistics
Adatforrás
wrapper
Adatforrás
wrapper
Adatforrás
wrapper
Mediátor:
Felhasználói lekérdezésMediált (globális)séma
Adatforráskatalógus
Fordító motor
Optimalizáló
Végrehajtó gép