metadatahøsting
DESCRIPTION
En presentasjon for UBiT. Oversikt over metadatahøsting (metadata harvesting), med spesiell vekt på bruksområdet søkeportal. Spesiell omtale av OAI-PMH.TRANSCRIPT
Metadatahøsting
Ole Husbyapril 2010
http://en.wikipedia.org/wiki/Harvest_(disambiguation)
Harvest kan bety mye forskjellig!(Dette er bare noen av betydningene)
Høsting av nettsider betyr
å gå gjennom sider på nettet etter en eller annen oppskrift velge ut enkelte av sidene (evt alle) laste ned en kopi av sida utføre evt konvertering eller bearbeiding og så lagre den lokalt
Hvorfor? For eksempel bevaringsmotiver (nasjonalbibliotek)
Andre ord som (kan) brukes
InnhøstingInnsamlingHarvestingGathering (Crawling)(Archiving)
Høsting av metadata
"Harvesting is the process of gathering decentralized Metadata from partner collections into the central () Portal. In other words, harvesting simple means getting metadata records from partner collections and storing then in the () Portal so that these records can be searched/browsed from the () Portal."
http://www.biosciednet.org/wiki/doku.php?id=harvesting
Et vanlig motiv for metadatahøsting
Lage en egen søketjeneste for en eller flere samlinger
fordi eksisterende tjenester er for dårlige, for trege eller ikke-eksisterende
eller fordi en ønsker å søke samtidig i flere samlinger
En søketjeneste krever søkeindekser
For å lage en søkeindeks trenger en metadata
Distribuert søking
Søking vha høstede metadata
Fordeler / ulemper ved høsting
Fordeler:
• Hastighet / Stabilitet • Massiv samsøking• Slipper støtte for søkeprotokoll• Enklere forretningslogikk i søkeportalen
Ulemper:• Synkronisering / Dataintegritet• Redundans• Forutsetter støtte for innhøstingsprotokoll• Kompleks og arbeidskrevende høstingslogistikk
OAI-PMH
Open Archives Initiative - Protocol for Metadata Harvesting
Mange protokoller kan brukes til høsting av metadata, men OAI-PMH er spesiallaget for formålet
(En protokoll er en detaljert beskrivelse av meldingsutvekslingen over nettet: Tjenestetyper, meldingstyper, meldingsformater, rekkefølge, feilmeldinger o.l.)
OAI-PMH beskriver høsting av metadata fra en data provider ("server") til en service provider ("klient")
Data provider kalles også et repository
OAI-PMH entiteter
OAI-PMH meldingstyper (verb)
IdentifyReturns information about the repository.ListMetadataFormatsLists the metadata formats supported by the repository. ListSetsLists the sets provided by the repository ListIdentifiersLists record identifiers, dates and any other headers for each deposited item.ListRecordsHarvests metadata records from the repository. GetRecordGets an individual metadata record from the repository.
OAI-PMH funksjoner
Avgrensing av høsting (Selective harvesting) Datoavgrensing (DateStamp) Spesifiserte deler av repository (Set)
Oppdeling av en større nedlasting (resumptionToken) Metadata: Mulig å velge mellom forskjellige formater
OAI-PMH Request: Kodes i en URL, f.eks: http://cadair.aber.ac.uk/dspace-oai/request?verb=Identify OAI-PMH Response: Kodes i XML, f.eks:
OAI-PMH respons (utdrag)<responseDate>2010-04-12T21:39:00Z</responseDate><request verb="Identify">http://cadair.aber.ac.uk/dspace-oai/request</request><Identify><repositoryName>CADAIR: Aberystwyth University repository</repositoryName><baseURL>http://cadair.aber.ac.uk/dspace-oai/request</baseURL><protocolVersion>2.0</protocolVersion><adminEmail>[email protected]</adminEmail><earliestDatestamp>2001-01-01T00:00:00Z</earliestDatestamp><deletedRecord>persistent</deletedRecord><granularity>YYYY-MM-DDThh:mm:ssZ</granularity><compression>gzip</compression><description><title>OCLC's OAICat Repository Framework</title><author><name>Jeffrey A. Young</name><email>[email protected]</email><institution>OCLC</institution></author><version>1.5.48</version></description></Identify>
OAI = Open Archives Initiative
men det er ikke noen forutsetning at repository er fritt tilgjengelig, dvs at alle kan høste
Adgangsbegrening kan f.eks. gjøre vha IP-filtrering
Eksempel på slik praksis: BIBSYS
Andre protokoller
RSSATOMSRUZ39.50OpenURLSQI
Ingen av disse er komplette protokoller for metadatahøsting på samme måte som OAI-PMH
To paradigmer
Høsting
Offline
Just in case
Opp/nedlasting
Primo
Klientsentrisk
OAI-PMH
Distribuert søking
Online
Just in time
Aksess
Metalib
Serversentrisk
Z39.50