a.10 a szemantikus technológiak brigi

8
A/10. A szemantikus technológiák: a szemantikus web lépcsős modellje, az RDF logika, a tématérképek adatmodellje A szemantikus világháló (Semantic Web) fő célja, hogy a világhálón elérhető temérdek információt számítógépes feldolgozásra alkalmasabbá tegye. Az irányzat jelszava, hogy a világhálón található információt a számítógépek ne csak olvasni, hanem értelmezni is tudják. Ehhez szükséges, hogy a hálón levő adatokhoz ún. metainformációt társítsunk, például egy képhez adjuk meg, hogy ki készítette, mi a címe, mit ábrázol stb. Ezen túlmenően a számítógépeket képessé kell tennünk következtetések elvégzésére, például ha egy képről ismert, hogy egy folyót ábrázol, akkor ebből gépi úton ki lehessen következtetni azt is, hogy víz látható rajta. A szemantikus világháló irányzatához szorosan kapcsolódik az ontológiák, azaz hierarchikus fogalmi rendszerek kutatása és fejlesztése. Az ontológiákon való következtetések alapját pedig az ún. leíró logikai (Description Logic) formalizmusok képezik. A World Wide Web konzorciumnak (W3C) a szemantikus világhálóhoz kötődő legújabb szabványa, az OWL nyelv, már leíró logikai alapokon nyugszik. Az ontológiai rendszerek és a metainformációk egyre nagyobb szerepet kapnak a világhálón kívüli információforrások, például a vállalati adat- és tudásbázisok kezelésében is. Az elérhető információ mennyisége ütemben nő, emiatt egyre nagyobb szükség van az adatforrások rendszerezésére, összekapcsolására. Lépcsős modellje: A szemantikus web felépítése - A lépcsős modell A szemantikus web a következtetéseket is lehetővé tevő metaadat-infrastruktúra a weben. Ennek legfőbb építőköveit a World Wide Web dolgozza ki és szabványosítja. Az ide vonatkozó legfontosabb ajánlások a Resource Description Framework (RDF), az RDF Schema (RDFS) és Web Ontology Language (OWL). A szemantikus web összképét az egymásra épülő célok lépcsős modelljével lehet szemléltetni. Ennek rétegei a következők: Consortium (W3C) 1. Az első szinten a Unicode és URI ajánlások biztosítják az egységes nemzetközi karakterformátumot és az egységes címezhetőséget. A szemantikus weben belül az URI-k használata jóval túlmutat a megszokott weblapcímeken. Egy személyt is azonosíthat mondjuk az e-mail címét tartalmazó URI, vagy egy intézetet a weblapjának a címe. Tulajdonságokat, állításfajtákat is URI-k azonosítanak. 2. Az XML réteg biztosítja, hogy a szemantikus web definíciókat egyéb XML alapú szabványokkal integrálhassuk. Az XML a névtér- és sémadefiníciókkal együtt lehetővé teszi, hogy egy XML dokumentum a létrehozásakor alkalmazott szintaktikai és 1

Upload: gyula-paksi-tamas

Post on 08-Jul-2015

77 views

Category:

Science


1 download

TRANSCRIPT

Page 1: A.10 a szemantikus technológiak brigi

A/10.A szemantikus technológiák: a szemantikus web lépcsős modellje, az RDF logika, a tématérképek adatmodellje

A szemantikus világháló (Semantic Web) fő célja, hogy a világhálón elérhető temérdek információt számítógépes feldolgozásra alkalmasabbá tegye. Az irányzat jelszava, hogy a világhálón található információt a számítógépek ne csak olvasni, hanem értelmezni is tudják. Ehhez szükséges, hogy a hálón levő adatokhoz ún. metainformációt társítsunk, például egy képhez adjuk meg, hogy ki készítette, mi a címe, mit ábrázol stb. Ezen túlmenően a számítógépeket képessé kell tennünk következtetések elvégzésére, például ha egy képről ismert, hogy egy folyót ábrázol, akkor ebből gépi úton ki lehessen következtetni azt is, hogy víz látható rajta. A szemantikus világháló irányzatához szorosan kapcsolódik az ontológiák, azaz hierarchikus fogalmi rendszerek kutatása és fejlesztése. Az ontológiákon való következtetések alapját pedig az ún. leíró logikai (Description Logic) formalizmusok képezik. A World Wide Web konzorciumnak (W3C) a szemantikus világhálóhoz kötődő legújabb szabványa, az OWL nyelv, már leíró logikai alapokon nyugszik. Az ontológiai rendszerek és a metainformációk egyre nagyobb szerepet kapnak a világhálón kívüli információforrások, például a vállalati adat- és tudásbázisok kezelésében is. Az elérhető információ mennyisége ütemben nő, emiatt egyre nagyobb szükség van az adatforrások rendszerezésére, összekapcsolására.Lépcsős modellje:

A szemantikus web felépítése - A lépcsős modellA szemantikus web a következtetéseket is lehetővé tevő metaadat-infrastruktúra a weben. Ennek legfőbb építőköveit a World Wide Web dolgozza ki és szabványosítja. Az ide vonatkozó legfontosabb ajánlások a Resource Description Framework (RDF), az RDF Schema (RDFS) és Web Ontology Language (OWL). A szemantikus web összképét az egymásra épülő célok lépcsős modelljével lehet szemléltetni. Ennek rétegei a következők: Consortium (W3C)

1. Az első szinten a Unicode és URI ajánlások biztosítják az egységes nemzetközi karakterformátumot és az egységes címezhetőséget. A szemantikus weben belül az URI-k használata jóval túlmutat a megszokott weblapcímeken. Egy személyt is azonosíthat mondjuk az e-mail címét tartalmazó URI, vagy egy intézetet a weblapjának a címe. Tulajdonságokat, állításfajtákat is URI-k azonosítanak.

2. Az XML réteg biztosítja, hogy a szemantikus web definíciókat egyéb XML alapú szabványokkal integrálhassuk. Az XML a névtér- és sémadefiníciókkal együtt lehetővé teszi, hogy egy XML dokumentum a létrehozásakor alkalmazott szintaktikai és

1

Page 2: A.10 a szemantikus technológiak brigi

szemantikus szabályokra hivatkozzon. Ezáltal egy önleíró, érvényesíthető dokumentumformátum jön létre.

3. Az RDF és RDFS réteg biztosítja, hogy állításokat tehessünk az objektumokról URI-k segítségével, és olyan szótárakat készítsünk, amelyekre ezen URI-k hivatkozhatnak. Az RDF hordozza a szemantikus tartalmat.

4. Az ontológiaréteg lehetőséget ad bonyolultabb szótárak felépítésére. Itt már a különböző fogalmak közötti összefüggések is megadhatók, hasonlóan egy tezauruszhoz. Le írják a szabályokat, amelyek alapján következtetések vonhatók le.

5. A digitális aláírás réteg a dokumentumok hitelességét igazolja.• Az egyes szintek egymásra épülnek.• Minden szint eggyel komplexebb, mint az alatta elhelyezkedő.• Mégis az egyes szintek önállóan fejleszthetők.

A szemantikus web három különböző rétegből áll:• metaadatok: az erőforrások és tulajdonságok leírása (URI, XML, RDF);• sémák: a fogalmak hierarchikus leírása (RDFS, OWL, SKOS);• logikák: leíró logikák (OWL, RIF).

A szemantikus web megvalósulásának előfeltétele, hogy a tartalmak létrehozói általánosan elfogadott szabványokhoz tartsák magukat a fejlesztések során.

Az ontológiák:Az ontológiák lényegében speciális taxonómiák, amelyek amellett, hogy megmutatják a fogalmak egymáshoz képesti fogalmi hierarchiáját, a formális logikai szabályok megjelenítésével még többre képesek az emberi gondolkodás reprezentálásában. (Berners-Lee, 2001)

Ontológia szintaxisok:– RDF/RDFS– OWL– SKOS– RIF–

OWL: Web Ontology Language;• Ontológiák leírására szolgáló szintakszis;• Megkönnyíti a webes tartalmak értelmezését a gépek számára• Célja, hogy formális logikákon alapuló bonyolult szemantikai relációkat is lehessen a

számítógép számára reprezentálni• Lehetővé teszi, hogy explicit módon ábrázoljuk egy meghatározott szókészlet

kifejezéseinek jelentését, valamint ezek összefüggéseit

I. RDF logika:

• Az RDF (Recource Description Framework – Erőforrás-Leíró Keretrendszer) adatmodell alkalmas arra, hogy tetszőleges erőforrásokhoz metaadatokat kapcsoljon. Az RDF úgy definiálja az erőforrás fogalmát, hogy az bármi lehet, ami azonosítható URI-val.

2

Page 3: A.10 a szemantikus technológiak brigi

• Az RDF: háromszavas mondatokból, ún. tripletekből áll. A tripletekkel modellezhetők a világ dolgai. Az elképzelés szerint több alkalmazás együttesen leírja a világ valamennyi létezőjét.

• Egyrészt egy adatmodell, amelynek elemei:• Erőforrások• Tulajdonságok• Literálok• Kijelentések

• Másrészt egy XML alapú szintakszis• amellyel bináris relációk írhatók le,• amellyel a valóság írható le formálisan.

• Az RDF adatmodell szerkezeti építőeleme a hármas (triplet)• Szubjektum vagy alany (subject)• Predikátum vagy állítmány (predicate)• Objektum vagy tárgy (object)

E három együtt adja az állítást• Az RDF-fel kifejezhetők tématérképek. (DE adatvesztéssel)• Az Omnigator képes konvertálni a tématérképeket RDF-be.• Az RDF-et nem csak szemantikus web alkalmazásokhoz használják.• Az adatmodellből hiányzik a

– scope, – a dolgok különböző neveken való kezelése, – az előfordulások témákhoz rendelése.

RDF séma: Az RDF séma az objektumok leírásához osztályokat és osztálytulajdonságokat vezet be. Ezáltal a sémákon alapuló RDF leírások strukturáltabbá válnak, bár bonyolultabb összefüggések leírására csak a következő, ontológiai szinten lehetséges a szintén RDF-en alapuló OWL nyelv segítségével.Egy RDF séma megadja azt is, hogy egy osztály mely más osztályok kiterjesztése, valamint hogy milyen kapcsolatban állhatnak ezen osztályok példányai. Az osztályokhoz hasonlóan a kapcsolataikat is egy öröklésszerű hierarchiába szervezhetjük, valamint megadhatjuk az értékkészletüket és értelmezési tartományukat.• A sémák és az ontológiák a következtetésekhez szükséges háttértudást tartalmazzák.• Pl.:

– osztály-alosztály (gerinces – emlős) – a tulajdonságok közt fennálló hierarchikus viszonyok (ismerőse – barátja),

• A terminológia definiálásában is kitüntetett szerepük van az RDF sémáknak. • Az RDF sémák nem kínálnak ellenőrzött szótárt, csak megteremti annak a

lehetőségét, hogy egy-egy alkalmazáson belül általánosan érvényes kijelentéseket tegyünk.

• az RDF-hez kínál egy szabványos tipologizáló metódust.

Az RDF gráfmodelljeAz RDF az állításokat egy gráf csomópontjaival és éleivel modellezi, amelynek csomópontjainak halmazát a gráf triplettjeinek alanyai és tárgyai alkotják, és az élek halmazát az állítmányok. Az él iránya szignifikáns, és ennek mindig a tárgyra kell mutatnia.

3

Page 4: A.10 a szemantikus technológiak brigi

A RDF gráfok megrajzolásakor az URI-val azonosított csomópontokat ellipszissel ábrázoljuk, literálokat szögletes dobozzal reprezentáljuk. Fontos, hogy egy RDF-gráfban csak abszolút URI-k szerepelhetnek.

RDF vs. Adatbázisok:

Egyszerűbb adatbázisokban leírni a tartalmakat, DE! az RDF a következőkben jobb:– interoperabilitás; – adatok számítógépek közötti cseréje;– a strukturálatlan információk kezelésére az adatbázisok kevésbé alkalmasak;– új információt akarunk beilleszteni, aminek nincs oszlopa

• ELLENBEN: – az adatbázisokban tárolt információk teljes mértékben leírhatók RDF-ben is

Az RDF-et úgy tervezték, hogy bármiről lehessen vele állításokat tenni, ami azonosítható a weben. Az RDF olyan egységes keretet biztosít az információtartalom leírására, amelyben azok átvihetők egyik alkalmazásból a másikba. Nem csak azok az alkalmazások használhatják az információt, amelyek számára azt eredetileg ábrázolták, hanem a más

4

Page 5: A.10 a szemantikus technológiak brigi

célokra készült, későbbi alkalmazások is. Alkalmazások határain átnyúló tudásreprezentáció.

Tárgyak azonosítása:

– Azonosítás: Hogyan biztosítható, hogy a számítógépek és az emberek is ugyanazt értsék a dolgokon? URI (Universal Resource Identifier) Pl. URL – személy: mailto:[email protected] – cég: http://www.ki.oszk.hu – sport: http://hu.wikipedia.org/wiki/Tenisz – város: http://www.budapest.hu

– Állításokat is csak URI-k között lehet tenni.– Az URI-kat elsősorban a számítógépek értik. A szemantikus web technológiákat

ugyanis gépi visszakeresésre optimalizálták. – Az RDF webes erőforrásokat ír le.– Erőforrás minden, aminek van URI-ja. Aminek van URI-ja az „fent van a weben”.– Az URI-k literálok (karaktersorozatok), amelyek webes erőforrásokat azonosítanak.– Ha két metaadat-leírás ugyanazt az URI-t használja, akkor ugyanazt a dolgot

azonosítja.– RDF már az 1990-es évek végén létezett. A szemantikus web elképzelést azonban

csak 2001-hez kötik. Az RDF a szemantikus webnek csak az egyik rétege!

A szemantikus web technológiák könyvtári alkalmazása az XML és az RDF implementálásával indult. Alkalmazhatóságuk pl.:

– a tudáskezelés, tudásmenedzsment és metaadatok kezelése– az elektronikus dokumentumok kezelése– RDF-en alapuló folyóirat-kezelő rendszer– elektronikus disszertáció és szakdolgozat-kezelő alkalmazás

Egy 2004-es kutatás kiindulási pontja, hogy a katalógusok el fognak mozdulni az irodalom feltárásától a weben található tartalmak értékelésének irányába

– Ez merőben új szemléletet hoz majd az elektronikus szolgáltatások területén. – A rekordok részét képeznék egy globális metaadat-infrastrukturának. – Ez a szemantikus kapcsolatok, közvetve a rekordokból elérhető

információtartalom bővülésével járna. Az RDF azóta sem vált a világhálón található tartalmak fő metanyelvévé. Ez lenne az egyik előfeltétele egy ilyen katalógusnak.

5

Page 6: A.10 a szemantikus technológiak brigi

Tématérkép ontológia:Az ontológia definíciója tématérképes környezetben: "Az ontológia egy adott tématérképben használt téma-, név-, előfordulás-, asszociáció- és szereptípusok összessége.” (Garshol, 2007)Minden tématérkép alkalmazás hátterében egy ontológia fut. Egy egyszerű tématérkép kidolgozása során nem biztos, hogy tudatosul.

A tématérkép technológia:„A Tématérkép technológia arra szolgál, hogy tudást kódoljunk vele és ezt a kódolt tudást releváns információs forrásokkal kapcsoljuk össze. A tématérképek diskurzusok tárgyát megjelenítő témák, a tárgyak közti kapcsolatokat megjelentő asszociációk és a tárgyakat megfelelő információs forrásokkal összekapcsoló előfordulások köré rendeződnek.” (ISO/IEC 13250-2 Data Model)Szemantikus technológia (rokon a szemantikus webbel).Multidiszciplináris fejlesztési terület. A könyvtárosok, informatikusok mellett a legtöbben bölcsészek a fejlesztők közül!

A tématérképek TAO-ja!• TOPICS• ASSOCIATIONS• OCCURENCES

Tématérkép alapfogalmai:• Témák és tématípusok - dolgok megnevezése, szavakkal való reprezentációja;• Asszociációk és asszociációtípusok - dolgok közötti kapcsolatok definiálása;• Előfordulások és előfordulástípusok - dolgokról fellelhető információk helyei az

információs térben (feljegyzések, belső előfordulások, külső előfordulások);• Nevek és névtípusok - azonos dolgok különböző nevei;• Szerepek és szereptípusok - a dolgok által felvehető szerepek (Kovács Pál! „Te is

lehetsz állampolgár, adóalany, vagy kedves hallgató, mélyen tisztelt egybegyűlt, vagy peres fél, vagy nyájas olvasó.” Kft.)

A tématérkép adatmodell:• A tématérképek sokféleképpen megjeleníthetőek:

– tématérkép szintakszisokat használva fájlokban, – adatbázisokban, – futó programok belső adatszerkezeteiként, – és mentálisan az emberi gondolkodásban is.

• Ezek a formátumok ugyanannak az absztrakt szerkezetnek a megjelenítésére szolgálnak.

• Az ISO/IEC 13250-2 ezt a szerkezetet határozza meg egy adatmodell formájában.

Az adatmodell meghatározza – a Tématérképek absztrakt szerkezetét, az információs készlet formalizálásával

és szöveges formában bizonyos mértékig az értelmezésüket is. – a Tématérképek összeolvasztásának szabályait, – néhány alapvető tárgyazonosítót.

Az adatmodell célja, 6

Page 7: A.10 a szemantikus technológiak brigi

– hogy meghatározza a Tématérképek csereszabványos szintakszisának értelmezését

– és hogy alapul szolgáljon a kanonizálást, lekérdezést, korlátozásokat stb. meghatározó további szabványokhoz.

• Az adatmodell szabad teret enged a dolgok reprezentálásának.

Két speciális relációtípust definiál:– Típus-eset kapcsolat– Szupertípus-altípus kapcsolat

A típus-eset kapcsolat. (homo sapiens – Kanada miniszterelnöke)• A tématípus olyan tárgy, amely egy tárgykészlet tagjaiban lévő azonosságokat

tömörít. – Bármely tárgy, amely egy adott tématípus kiterjesztéséhez tartozik, annak a

tématípusnak az esete. – Egy tématípus lehet egy másik tématípus esete. – Nincs korlátozás, hogy egy tárgy hány tématípusnak lehet az esete.

• A típus-eset kapcsolat nem tranzitív. Azaz, ha B az A típus esete, és C a B típus esete, ebből nem következik, hogy C esete A-nak. (A – emlős; B – homo sapiens; C – Kanada miniszterelnöke)

A szupertípus-altípus kapcsolat– Egy általánosabb típus (a szupertípus) és ennek a specifikusabb változata (az

altípus) közötti kapcsolat. – Ha B altípusa A-nak, ebből az következik, hogy B minden esete A-nak is esete. – Ennek fordítottja nem feltétlenül igaz. – Egy típusnak akármennyi altípusa és szupertípusa lehet.

• A szupertípus-altípus kapcsolat tranzitív, ami azt jelenti, hogy ha B altípusa A-nak, és C altípusa B-nek, akkor C altípusa A-nak is. (pl. A – élőlény; B – állat; C – kutya)– Generikus hierarchialánc

Könyvtári tématérkép alkalmazások: (egy-két hazai példa)• Beteljesületlen lehetőségek sora• A kisszámú alkalmazás sokfélesége egyszerre reprezentálja a könyvtári munka

sokszínűségét és a tématérkép technológiákban rejlő lehetőségeket. • Könyvtári példák vannak

– a katalógusok tématérképek segítségével való továbbfejlesztéséről, – a metadatok hatékonyabb együttműködésének biztosításáról, – teljes digitális könyvtári rendszerekről, – a tájékoztató munkát segítő szakterületi útmutatókról és – e-learning eszközökről – A tématérkép alkalmazások előzményei jóval megelőzik a szemantikus web

koncepció megjelenését. A Neumann Ház 1998 óta fejleszti a magyar internetkatalógust, a WebKat-ot

– A WebKat-hoz 2000 nyarára készült el a tezaurusz, amely a dokumentumok tartalmi feltárását tette lehetővé.

– 2002-ben indult egy új keresőrendszer fejlesztése, amelynek fő motivációját az interneten történő változások jelentették.

7

Page 8: A.10 a szemantikus technológiak brigi

– Az új hierarchikus keresőrendszer megjelenítésére választották a tématérkép szabványon alapuló szoftvert.

– A fejlesztők szerint az internethasználók igényei sokkal inkább a vizuális élmények irányába halad.

– Ezért érezték szükségét annak, hogy a tezauruszban rögzített hierarchikus relációkat vizuálisan is megjelenítsék.

– a szolgáltatás a tématérképeknek elsősorban a vizualizáció terén meglévő előnyeit használja és viszonylag

– Kis hangsúlyt kap a fogalmak közti relációk redefiniálása.

Az OSZK Magyar Elektronikus Könyvtára is kísérletezett tématérkép alkalmazásokkal. • Az OSZK tezauruszát is elkészítették tématérképben.

– Nem fejleszti tovább a tezauruszokban található relációkat, – nem definiál újabb szemantikus kapcsolatokat a témák között,

• A fejlesztés érdemben nem javítja a tartalom használhatóságát.

MARCXTM formátum– Katalógusrekordok tématérképesítését szolgálta

• koreai kutatók által fejlesztett, • a MARC21 rekordok XTM-ben való leírását célozta. • Végül nem jutott el a gyakorlati alkalmazások szintjéig.• A bibliográfiai adatrekordok kezelésében több siker kísérte a MARC rekordok FRBR

modellel való megfeleltetését tématérképek segítségével. • Az FRBR és a MARC21 elemei egy az egyben megfeleltethetők és kifejezhetők a

tématérkép adatmodell segítségével. • Az eljárás során a MARC rekordokat egy FRBR fogalmakat tartalmazó ontológiában

formalizálják. • A téma- és az asszociációtípusok az FRBR entitások voltak. • A Koreai Nemzeti Könyvtár a gyakorlatban is kihasználta ezt a lehetőséget és a

katalógusát kísérleti jelleggel elkészítette ebben a formában.

A szemantikus web jövője:• Következtetéseket lehetővé tevő metaadat-infrastruktúra a weben;• Második generációs web, mely kiterjesztése a jelenlegi, első generációs webnek. • A világháló lehetőségei megsokszorozódnának.• A szemantikus web ereje a metaadatokban van.

Probléma:• Egy globális hálózati metaadat infrastruktúra akadályai:

– Nem sikerült levinni az emberek szintjére a szemantikus webet– Nem tudnak tömegek szemantikus-web kompatibilis metaadatokat

(ontológiákat) generálni– Nincs megoldva a fogalmak egyértelmű azonosításának ügye (PSI tárak,

újrahasznosított URI-k)

8