fundament für die forschung von morgen - blog.crossasia.org · fundament für die forschung von...

Fundament für die Forschung von morgen CrossAsia Integriertes Textrepositorium (ITR) zur

Archivierung und Bereitstellung von Objekten und Daten

für die Asienwissenschaften

Dr. Martina Siebert

Staatsbibliothek zu Berlin – Ostasienabteilung

Fedora 4(Datenspeicher)

Rechteverwaltung / Zugriffsteuerung

Versionierung Identifier

Bearbeitung Metadaten /

Inhalte / Collections

Hinzufügen nutzergenerierter

Inhalte

Einspielen neuer Collections

Identifier

VerwaltungsoberflächeV

berfläch

SucheSchnittstellen-

zugriffe

Systemzugriffe

Pilot:

Local Gazetteer Projekt

MPI Wissenschaftsgeschichte

Archivierung

Bereitstellung

Oxford

Ghent Leuven

Torino

Zürich

Leiden

Blauer Leihverkehr

CrossAsia

Krakau

1951-2015 SSG 6,25

“Sondersammelgebiet Ost- und Südostasien” (DFG)

Virtuelle Fachbibliothek CrossAsia

CrossAsia – Fachinformationsdienst Asien Projektlaufzeit: 1.2016 bis 12.2018

Content Management: Forschung und Entwicklung (Aktionsfeld 4)

Infrastruktur für Metadaten und Volltexte (ITR)

Archivierung und Bereitstellung von digitalen Objekten und Daten (für und aus der

Forschung) über Webseiten und definierte Schnittstellen

> Vorbereitung auf zukünftige Anforderungen im Kontext Digitaler Geistes- und Sozialwissenschaften

Archivierung Bereitstellung

CrossAsia 2005-

Virtuelle Fachbibliothek CrossAsia

o Akquise bzw. Extraktion der Content- und Metadaten

o Entwicklung von Ingest-Routinen und Metadaten-Mappings

Archivierung …

> … lizenzierter Materialien, für die Rechte für Hosting und Indexierung sowie u.U. weitere

Rechte bestehen, die im Rahmen der Digitalen Wissenschaften erforderlich sind

(text mining, caching = „non-consumptive use“ etc.)

Inhalte

Identifier

berflä

zugriffe

Systemzugriffe

Inhalte

Identifier

rfläch

zugriffe

Systemzugriffe

Adam Matthews Digital • 12.500 bibliographische Einheiten / XML + 1,3 Mio Img

(Foreign Office Files China, Meiji Japan, China Trade&

Culture, China, America, Pacific)

Diaolong databases

• 續修 SKQS (5412 Buchtitel / ca. 3 Mio

Seiten (Metadaten/img/XML)

• Daozang jiyao, Qingdai shiliao, SKQS

(weitere rd. 5000 Titel)

• Weitere Diaolong Ressourcen

• Asian Studies eBook

2007-2017 (ca. 11 T Titel)

• Liz. Airiti Titel

> Metadaten/PDF mit Volltext)

Brill eBooks

Airiti eBooks

People‘s Daily 人民日报

(1946-2012) • ca. 2 Mio Artikel (TXT)

Local Gazetteers

地方志

• 2000 Titel

(195 T Kapitel,

2,5 Mio Seiten)

> Metadaten/XML

Volltext von

Printbüchern SCAN > IMG > OCR

Bildnachlässe IMG <

Metadaten <

Projektarbeit <

Fedora-Struktur: Beispieldatenmodell (Diaolong)

Datenlieferung

XML und Images

• Extraktion

Titel-Metadaten

Struktur 1: Buch und Seiten

• Generierung

Einzelseitenobjekte mit

• Verknüpfung mit Titel

• sowie Image in ITR

• Link auf Datenbank

• Markierung von

„Nonsense“- Seiten für

späteres Handschriften

OCR bzw.

Nutzerprojekte/crowd

sourcing

vom Volltexttreffer

> zu den Buch-Metadaten

und (authentifiziert)

> zur Seite in der Datenbank

Struktur 1: Buch und Seiten

Datenlieferung

Metadaten und

Volltext-PDF

• Metadaten transformieren

• Text seitenweise extrahieren

Struktur 2: Buch, Kapitel,

Seiten Extraktion aus Datenbank

Metadaten und Text

• Metadaten transformieren

• Text seitenweise extrahieren,

• Kapitel identifizieren

(letzteres Projektarbeit MPIWG)

Kapitel

Bereitstellung …

> … Schnittstellen zur Nutzung und Datenübertragung (SRU)

Entwicklung und Evaluierung prototypischer Volltextrecherchen („explorativ“ vs „geführt“)

und Einbindung in die CrossAsia Suche (Ajax-Solr)

Inhalte

Identifier

berfläch

zugriffe

Systemzugriffe

„geführte“ Volltextsuche

Recherche-

anfrage xA

Ergebnis

Volltexttreffer

1. Liste der Bücher

mit Treffern nach score

2. Anzeige Einzeltreffer

im jeweiligen Titel

(Snippets)

Rechte-

managem.

Volltext

Objekt

aus ITR

Recherche-

anfrage xA

Ergebnis

Volltexttreffer

A. Einzeltreffer (score)

kontrollierbar über Facetten

und weitergehenden

Suchanfragen

„explorative“ Volltextsuche

B. Einzeltreffer

gruppiert zu Treffern

aufeinanderfolgender Seiten

Rechte-

managem.

Volltext

Objekt

aus ITR

Ostasien OPAC (crossasia.stabikat.de)

CrossAsia Suche (crossasia.org)

CrossAsia Datenbankportal

Titelimport

Schnittstellen zu externen Ressourcen (CiNii, DBpia,

Duxiu); Solr Indexe mit regelmäßig geharvesteten

Daten (NDL, CRL); PDA Titel (Lieferung)

CrossAsia ITR • weitere Titel-Metadaten

• Strukturdaten

• Volltexte aus

Datenbanken

Volltext

Aufbrechen der Grenze gedruckt vs. elektronisch

Erweiterte Metadatensuche (inkl TOC) > „Volltextsuche“ im Druckbestand

Weg 1: Matching StaBi-Bestand mit Titeln, die in Duxiu im Volltext indexiert wurden

> Abfrage über vereinbarte Schnittstelle

Aufbrechen der Grenze gedruckt vs. elektronisch

Volltext-Suche

Probeseiten

online

Papier

ausleihen

> Snippet

Weg 2: Scannen und OCR-Verarbeitung von Erwerbungen > Aufbau Solr-Index

Danke!

fundament für die forschung von morgen - blog.crossasia.org · fundament für die forschung von...

Documents

framtidens by - fundament

fundament.. miguel

fundament małżeństwa

queynte or fundament the debate betwixt kohl'in al...

hoofdstuk 3 - fundament informatica

halls popular · fundament. das fundament gehört nicht zum...

artikel fundament 2012-4

fundament vvmu

sygeplejens fundament brochure

fundament tutoria 2

automatyzacja fundament każdej chmury

0910-m1h1tm3-fundament informatica

institut für werkstoff-forschung - dlr · turen durch neue...

wie arbeiten konzerne und start-ups zusammen?€¦ · 1907...

theoretisch fundament 'complexe scheidingen

forschung forschung 1 / 2020 - dfg.de

fundament osteo ricos

skoletube digitaktisk fundament

fundament.. (1)

fundament..[1] iiieencontro