cubrik and history of europe
DESCRIPTION
CUbRIK presented during the Poster session of the Workshop „Mehr Personen – Mehr Daten – Mehr Repositorien“ ("More poeple - more data - more repositories") - 4-6 March in Berlin, at Brandenburg Academy of SciencesTRANSCRIPT
Von zweifelhaften Informationen zu
neuen ZusammenhängenZum Aufbau eines Personendatenrepositoriums
im Kontext der europäischen Integration
L. Wieneke, F. Clavert, N. Carboni
3
Inhalt
• Hintergrund CUbRIK
• Anforderungen an ein Repositorium für Identitäten
• Praktische Umsetzung
• Ausblick und Erfahrungen
4
CUbRIK
29/09/2011 – Title
5
CUbRIK 36 month large-scale integrating
project started in October 2011 partially funded by the European
Commission’s 7th Framework ICT Programme for Research and Technological Development
www.cubrikproject.eu
6
CUbRIK: Human Computation
7
CUbRIK: Entwicklungsprozess History of Europe
8
CUbRIK: Social Graph
• Gemeinsames Auftreten von
Personen in einem Dokument (Bild)
schafft Verbindung
• Aufbau mit bestehendem Material
• Kontinuierliche Erweiterung
• Angereichert mit Ort, Zeit,
Organisationen und Biographien
• Technische und analytische
Funktion
• Identitäten als Fixpunkte des SG
9
CUbRIK: Social Graph
Person
APerson
B
• VIAF• DBPedia• WorldCat• Entitypedia• GND
• DateTime, Place (Location)• Controlled Keywords• Events (e.g. Treaty of Rome …)
• Time based roles (e.g. president of EU parliament between XX and YY)
• Membership of interest groups
10
CUbRIK HoE Repositorium
29/09/2011 – Title
11
Anforderungen an ein Repositorium für Identitäten
• Leicht-gewichtig
• Erweiterbar
• Modellierung von
o Unsicherheit (1967?, [Paris?])
o Mehrdeutigkeit
o Zuverlässigkeit (Vermutung/Fakt jeweils mit Argumentation)
o Provenienz
o Mehrsprachigkeit
• Raum und Zeit (hierarchisches Raum-Modell)
12
Medien, Personen, Organisationen
13
Praktische Umsetzung
29/09/2011 – Title
14
Erschließung der Personennamen
• Ist-Situation
– ca. 1800 Personen in 6500 Bildern
– Schwach strukturierte Daten
– Inkohärente Verwendung von Namen
• Francisco Fernández Ordoñez
• Francisco Fernández Ordóñez
• Francisco Fernandez Ordonez
• Francisco Fernandez Ordoñez
– Keine eindeutige Referenzierung (PID)
15
Personennamen Workflow
1. Extraktion von Personennamen aus
Beschriftung
1. Extraktion von Personennamen aus
BeschriftungOpenCalais Python ScriptOpenCalais Python Script
Clement Attlee, Harry Truman, Joseph StalineClement Attlee, Harry Truman, Joseph Staline
Clement AttleeClement Attlee Harry TrumanHarry Truman Joseph StalineJoseph Staline
2. Säuberung der Daten2. Säuberung der Daten
3. Verbindung und Verifizierung
(Reconciliation)
3. Verbindung und Verifizierung
(Reconciliation)
Anker JørgensenAnker Jørgensen
Anker JorgensenAnker JorgensenAnker JørgensenAnker JørgensenGoogle
Refine
Philippe MaystadtPhilippe Maystadt GoogleRefine
Philippe MaystadtnPhilippe Maystadtn
16
Ausblick & Diskussion
29/09/2011 – Title
17
Ausblick
• Umsetzung der bestehenden Daten in den Social
Graph
• Entwicklung eines Toolsets zur Annotation,
automatischen Erkennung und manuellen Korrektur
von Informationen, Verbindung mit Crowdsourcing
Verfahren
• Entwicklung von Tools zur Visualisierung und
Erkundung des Social Graph
19
Diskussion
• Wie können wir Quellen und Argumentationen für
Annotationen abbilden?
• PID für Personen, wo ist der Stein von Rosetta?
20
Thank you for listening
29/09/2011 – Title
2129/09/2011 – Titre
22
Beispiele Refine: Clustering
23
Beispiele Refine: Reconciliation & Matching
24
Beispiele Refine: Reconciliation & Matching