fundament für die forschung von morgen - blog.crossasia.org · fundament für die forschung von...
Post on 16-Sep-2019
8 Views
Preview:
TRANSCRIPT
Fundament für die Forschung von morgen CrossAsia Integriertes Textrepositorium (ITR) zur
Archivierung und Bereitstellung von Objekten und Daten
für die Asienwissenschaften
Dr. Martina Siebert
Staatsbibliothek zu Berlin – Ostasienabteilung
Fedora 4(Datenspeicher)
Rechteverwaltung / Zugriffsteuerung
Versionierung Identifier
Bearbeitung Metadaten /
Inhalte / Collections
Hinzufügen nutzergenerierter
Inhalte
Einspielen neuer Collections
Identifier
VerwaltungsoberflächeV
erw
altu
ngso
berfläch
e
Ad
min
zugr
iff
SucheSchnittstellen-
zugriffe
Systemzugriffe
Pilot:
Local Gazetteer Projekt
MPI Wissenschaftsgeschichte
Archivierung
Bereitstellung
Oxford
Praha
Turku
Paris
Ghent Leuven
Wien
Torino
Zürich
Leiden
Tokyo
Blauer Leihverkehr
CrossAsia
Krakau
1951-2015 SSG 6,25
“Sondersammelgebiet Ost- und Südostasien” (DFG)
2005-
Virtuelle Fachbibliothek CrossAsia
CrossAsia – Fachinformationsdienst Asien Projektlaufzeit: 1.2016 bis 12.2018
Content Management: Forschung und Entwicklung (Aktionsfeld 4)
Infrastruktur für Metadaten und Volltexte (ITR)
Archivierung und Bereitstellung von digitalen Objekten und Daten (für und aus der
Forschung) über Webseiten und definierte Schnittstellen
> Vorbereitung auf zukünftige Anforderungen im Kontext Digitaler Geistes- und Sozialwissenschaften
Archivierung Bereitstellung
CrossAsia 2005-
Virtuelle Fachbibliothek CrossAsia
o Akquise bzw. Extraktion der Content- und Metadaten
o Entwicklung von Ingest-Routinen und Metadaten-Mappings
Archivierung …
> … lizenzierter Materialien, für die Rechte für Hosting und Indexierung sowie u.U. weitere
Rechte bestehen, die im Rahmen der Digitalen Wissenschaften erforderlich sind
(text mining, caching = „non-consumptive use“ etc.)
Fedora 4(Datenspeicher)
Rechteverwaltung / Zugriffsteuerung
Versionierung Identifier
Bearbeitung Metadaten /
Inhalte / Collections
Hinzufügen nutzergenerierter
Inhalte
Einspielen neuer Collections
Identifier
VerwaltungsoberflächeV
erw
altu
ngso
berflä
che
Ad
min
zug
riff
SucheSchnittstellen-
zugriffe
Systemzugriffe
Fedora 4(Datenspeicher)
Rechteverwaltung / Zugriffsteuerung
Versionierung Identifier
Bearbeitung Metadaten /
Inhalte / Collections
Hinzufügen nutzergenerierter
Inhalte
Einspielen neuer Collections
Identifier
VerwaltungsoberflächeV
erw
altu
ngso
be
rfläch
e
Ad
min
zug
riff
SucheSchnittstellen-
zugriffe
Systemzugriffe
Adam Matthews Digital • 12.500 bibliographische Einheiten / XML + 1,3 Mio Img
(Foreign Office Files China, Meiji Japan, China Trade&
Culture, China, America, Pacific)
Diaolong databases
• 續修 SKQS (5412 Buchtitel / ca. 3 Mio
Seiten (Metadaten/img/XML)
• Daozang jiyao, Qingdai shiliao, SKQS
(weitere rd. 5000 Titel)
• Weitere Diaolong Ressourcen
• Asian Studies eBook
2007-2017 (ca. 11 T Titel)
• Liz. Airiti Titel
> Metadaten/PDF mit Volltext)
Brill eBooks
Airiti eBooks
People‘s Daily 人民日报
(1946-2012) • ca. 2 Mio Artikel (TXT)
Local Gazetteers
地方志
• 2000 Titel
(195 T Kapitel,
2,5 Mio Seiten)
> Metadaten/XML
Volltext von
Printbüchern SCAN > IMG > OCR
Bildnachlässe IMG <
Metadaten <
Projektarbeit <
pro
batch
Fedora-Struktur: Beispieldatenmodell (Diaolong)
Datenlieferung
XML und Images
• Extraktion
Titel-Metadaten
Struktur 1: Buch und Seiten
• Generierung
Einzelseitenobjekte mit
• Verknüpfung mit Titel
• sowie Image in ITR
• Link auf Datenbank
• Markierung von
„Nonsense“- Seiten für
späteres Handschriften
OCR bzw.
Nutzerprojekte/crowd
sourcing
vom Volltexttreffer
> zu den Buch-Metadaten
und (authentifiziert)
> zur Seite in der Datenbank
Struktur 1: Buch und Seiten
Datenlieferung
Metadaten und
Volltext-PDF
• Metadaten transformieren
• Text seitenweise extrahieren
Seite
Buch
Struktur 2: Buch, Kapitel,
Seiten Extraktion aus Datenbank
Metadaten und Text
• Metadaten transformieren
• Text seitenweise extrahieren,
• Kapitel identifizieren
(letzteres Projektarbeit MPIWG)
Seite
Buch
Kapitel
Bereitstellung …
> … Schnittstellen zur Nutzung und Datenübertragung (SRU)
Entwicklung und Evaluierung prototypischer Volltextrecherchen („explorativ“ vs „geführt“)
und Einbindung in die CrossAsia Suche (Ajax-Solr)
Fedora 4(Datenspeicher)
Rechteverwaltung / Zugriffsteuerung
Versionierung Identifier
Bearbeitung Metadaten /
Inhalte / Collections
Hinzufügen nutzergenerierter
Inhalte
Einspielen neuer Collections
Identifier
VerwaltungsoberflächeV
erw
altu
ngso
berfläch
e
Ad
min
zug
riff
SucheSchnittstellen-
zugriffe
Systemzugriffe
„geführte“ Volltextsuche
Recherche-
anfrage xA
Suche
Ergebnis
Volltexttreffer
1. Liste der Bücher
mit Treffern nach score
2. Anzeige Einzeltreffer
im jeweiligen Titel
(Snippets)
Rechte-
managem.
Volltext
in DB
Objekt
aus ITR
Recherche-
anfrage xA
Suche
Ergebnis
Volltexttreffer
A. Einzeltreffer (score)
kontrollierbar über Facetten
und weitergehenden
Suchanfragen
„explorative“ Volltextsuche
B. Einzeltreffer
gruppiert zu Treffern
aufeinanderfolgender Seiten
Rechte-
managem.
Volltext
in DB
Objekt
aus ITR
Ostasien OPAC (crossasia.stabikat.de)
CrossAsia Suche (crossasia.org)
CrossAsia Datenbankportal
Titelimport
Schnittstellen zu externen Ressourcen (CiNii, DBpia,
Duxiu); Solr Indexe mit regelmäßig geharvesteten
Daten (NDL, CRL); PDA Titel (Lieferung)
CrossAsia ITR • weitere Titel-Metadaten
• Strukturdaten
• Volltexte aus
Datenbanken
Volltext
Aufbrechen der Grenze gedruckt vs. elektronisch
Erweiterte Metadatensuche (inkl TOC) > „Volltextsuche“ im Druckbestand
Weg 1: Matching StaBi-Bestand mit Titeln, die in Duxiu im Volltext indexiert wurden
> Abfrage über vereinbarte Schnittstelle
Aufbrechen der Grenze gedruckt vs. elektronisch
Volltext-Suche
Probeseiten
online
Papier
ausleihen
> Snippet
Weg 2: Scannen und OCR-Verarbeitung von Erwerbungen > Aufbau Solr-Index
Danke!
top related