metadatahøsting

17

Click here to load reader

Upload: ole-husby

Post on 02-Jul-2015

437 views

Category:

Education


1 download

DESCRIPTION

En presentasjon for UBiT. Oversikt over metadatahøsting (metadata harvesting), med spesiell vekt på bruksområdet søkeportal. Spesiell omtale av OAI-PMH.

TRANSCRIPT

Page 1: Metadatahøsting

Metadatahøsting

Ole Husbyapril 2010

Page 2: Metadatahøsting

http://en.wikipedia.org/wiki/Harvest_(disambiguation)

Harvest kan bety mye forskjellig!(Dette er bare noen av betydningene)

Page 3: Metadatahøsting

Høsting av nettsider betyr

å gå gjennom sider på nettet etter en eller annen oppskrift velge ut enkelte av sidene (evt alle) laste ned en kopi av sida utføre evt konvertering eller bearbeiding og så lagre den lokalt

Hvorfor? For eksempel bevaringsmotiver (nasjonalbibliotek)

Page 4: Metadatahøsting

Andre ord som (kan) brukes

InnhøstingInnsamlingHarvestingGathering (Crawling)(Archiving)

Page 5: Metadatahøsting

Høsting av metadata

"Harvesting is the process of gathering decentralized Metadata from partner collections into the central () Portal. In other words, harvesting simple means getting metadata records from partner collections and storing then in the () Portal so that these records can be searched/browsed from the () Portal."

http://www.biosciednet.org/wiki/doku.php?id=harvesting

Page 6: Metadatahøsting

Et vanlig motiv for metadatahøsting

Lage en egen søketjeneste for en eller flere samlinger

fordi eksisterende tjenester er for dårlige, for trege eller ikke-eksisterende

eller fordi en ønsker å søke samtidig i flere samlinger

En søketjeneste krever søkeindekser

For å lage en søkeindeks trenger en metadata

Page 7: Metadatahøsting

Distribuert søking

Page 8: Metadatahøsting

Søking vha høstede metadata

Page 9: Metadatahøsting

Fordeler / ulemper ved høsting

Fordeler:

• Hastighet / Stabilitet • Massiv samsøking• Slipper støtte for søkeprotokoll• Enklere forretningslogikk i søkeportalen

Ulemper:• Synkronisering / Dataintegritet• Redundans• Forutsetter støtte for innhøstingsprotokoll• Kompleks og arbeidskrevende høstingslogistikk

Page 10: Metadatahøsting

OAI-PMH

Open Archives Initiative - Protocol for Metadata Harvesting

Mange protokoller kan brukes til høsting av metadata, men OAI-PMH er spesiallaget for formålet

(En protokoll er en detaljert beskrivelse av meldingsutvekslingen over nettet: Tjenestetyper, meldingstyper, meldingsformater, rekkefølge, feilmeldinger o.l.)

OAI-PMH beskriver høsting av metadata fra en data provider ("server") til en service provider ("klient")

Data provider kalles også et repository

Page 11: Metadatahøsting

OAI-PMH entiteter

Page 12: Metadatahøsting

OAI-PMH meldingstyper (verb)

IdentifyReturns information about the repository.ListMetadataFormatsLists the metadata formats supported by the repository. ListSetsLists the sets provided by the repository ListIdentifiersLists record identifiers, dates and any other headers for each deposited item.ListRecordsHarvests metadata records from the repository. GetRecordGets an individual metadata record from the repository.

Page 13: Metadatahøsting

OAI-PMH funksjoner

Avgrensing av høsting (Selective harvesting) Datoavgrensing (DateStamp) Spesifiserte deler av repository (Set)

Oppdeling av en større nedlasting (resumptionToken) Metadata: Mulig å velge mellom forskjellige formater

OAI-PMH Request: Kodes i en URL, f.eks: http://cadair.aber.ac.uk/dspace-oai/request?verb=Identify OAI-PMH Response: Kodes i XML, f.eks:

Page 14: Metadatahøsting

OAI-PMH respons (utdrag)<responseDate>2010-04-12T21:39:00Z</responseDate><request verb="Identify">http://cadair.aber.ac.uk/dspace-oai/request</request><Identify><repositoryName>CADAIR: Aberystwyth University repository</repositoryName><baseURL>http://cadair.aber.ac.uk/dspace-oai/request</baseURL><protocolVersion>2.0</protocolVersion><adminEmail>[email protected]</adminEmail><earliestDatestamp>2001-01-01T00:00:00Z</earliestDatestamp><deletedRecord>persistent</deletedRecord><granularity>YYYY-MM-DDThh:mm:ssZ</granularity><compression>gzip</compression><description><title>OCLC's OAICat Repository Framework</title><author><name>Jeffrey A. Young</name><email>[email protected]</email><institution>OCLC</institution></author><version>1.5.48</version></description></Identify>

Page 15: Metadatahøsting

OAI = Open Archives Initiative

men det er ikke noen forutsetning at repository er fritt tilgjengelig, dvs at alle kan høste

Adgangsbegrening kan f.eks. gjøre vha IP-filtrering

Eksempel på slik praksis: BIBSYS

Page 16: Metadatahøsting

Andre protokoller

RSSATOMSRUZ39.50OpenURLSQI

Ingen av disse er komplette protokoller for metadatahøsting på samme måte som OAI-PMH

Page 17: Metadatahøsting

To paradigmer

Høsting

Offline

Just in case

Opp/nedlasting

Primo

Klientsentrisk

OAI-PMH

Distribuert søking

Online

Just in time

Aksess

Metalib

Serversentrisk

Z39.50