Open Translation DataNeue Herausforderung oder Ersatz für Sprachkompetenz?
Peter Sandrini
31.10.2013
31/10/2013
Translation Data2
Vortragender
Position: Wissenschaftlicher Mitarbeiter am Institut für Translationswissenschaft
Fachgebiete: Übersetzen von Rechtstexten, Terminologie, Translationstechnologie, Globalisierung – Lokalisierung
Website: http://www.petersandrini.net http://uibk.academia.edu/PeterSandrini
31/10/2013
Translation Data3
Überblick
1) Translation Data
2) Open
3) Daten statt Mehrsprachigkeit?
✔ Formats✔ Tools✔ Data{
31/10/2013
Translation Data4
Voraussetzungenfür Translation Data
● Digitalisierung (Texte zu Dateien)
● Technologisierung (Tools)
● Vereinfachtes Äquivalenzmodell
31/10/2013
Translation Data5
Digitalisierung
● digitale TextweltenKopierbarkeit und TransportSuchbarkeit und Wiederverwendung
● digital humanitiesAnwendung von computergestützten Verfahren und systematische Verwendung von digitalen Ressourcen in den Geistes- und Kulturwissenschaften
31/10/2013
Translation Data6
Technologisierung
● Computergestütztes Übersetzen (CAT)
● Einsatz von ‚Translation Environment Tools‘ (TenT)
● Institutionelles und professionelles Übersetzen definieren sich auch über den Einsatz von Translationstechnologie
31/10/2013
Translation Data7
‚Datafication‘ of Translation● Translation = zweckgerichtetes, sprachliches
Übertragen eines Ausgangstextes in einen Zieltext
"jede konventionalisierte, interlinguale und transkulturelle Interaktion [...], die in einer Kultur als zulässig erachtet wird" (Prunc 1997: 108)
● Translation = Produktion von Zieltext + Daten
● Daten = Ausgangstext(-segmente) + Zieltext(-segmente) + Äquivalenzrelationen
31/10/2013
Translation Data8
Translation Data
=Translation Unit
Die im dem letzten Absatz genannten Unternehmen dürfen als Mitglieder der Genossenschaft aufgenommen werden, vorausgesetzt, dass gegen sie keine Zwangsvollstreckung von beweglichem oder unbeweglichem Vermögen, Proteste, Präventivverleiche oder Konkursverfahren vorliegen, oder dass sie insolvent sind.
Le imprese di cui al precedente comma possono essere ammesse a socio della Cooperativa purché non abbiano in corso esecuzioni immobiliari e mobiliari e protesti, procedure per concordato preventivo o fallimento, né siano fallite.
Die im dem letzten Absatz genannten Unternehmen dürfen als Mitglieder der Genossenschaft aufgenommen werden, vorausgesetzt, dass gegen sie keine Zwangsvollstreckung von beweglichem oder unbeweglichem Vermögen, Proteste, Präventivverleiche oder Konkursverfahren vorliegen, oder dass sie insolvent sind.
31/10/2013
Translation Data9
Translation Data: Arten
● Textuelle oder sprachliche Ebenen:
– Wortebene ➢ lexikographische und terminologische Daten
– Satzebene ➢ Übersetzungsspeicher oder Translation Memory
– Textebene ➢ Parallelkorpus
31/10/2013
Translation Data10
Beispiele
Schlitzsperre briglia a fessura
● (Mehr-)Wortebene
● Satzebene
● Textebene
Eliminate gender disparity in primary and secondary education, preferably by 2005, and in all levels of education no later than 2015.
Das Geschlechtergefälle in der Grund- und Sekundarschulbildung beseitigen, vorzugsweise bis 2005 und auf allen Bildungsebenen bis spätestens 2015.
31/10/2013
Translation Data11
Translation Data
● gewisses Mass an Entpersonifizierung
● Wiederverwenden von Übersetzungen, und dadurch Effizienzsteigerung durch Translation-Memory
● Statistische Maschinenübersetzung (SMT)Google translate, Microsoft Translator …
● ...
31/10/2013
Translation Data12
‚Datafication‘ of Translation
● Translation =
– Remix (kreative Neugestaltung) aus– Daten (Übersetzungsdaten) und– Input (Auftragsspezifikation)
● Translation =
– Variation des AT +– Selektion, Rekombination,
Adaptation von Daten
31/10/2013
Translation Data13
Translation Meta-Data● Translation als ein kontextabhängiges zweck- und
zielgerichtetes transkulturelles Handeln
● Notwendigkeit von Zusatzinformationen über den spezifischen Kontext einer Übersetzung bzw. einer Übersetzungseinheit (Translation Unit)
● Datum, Sprachen und Ländercode, Auftraggeber, Projekt ...
31/10/2013
Translation Data14
Schlitzsperre briglia a fessura
● (Mehr-)WortebeneFachgebiet: WildbachverbauungGeo.: Südtirol
Fuß foot
Fuß base
Fachgebiet: Anatomie
Fachgebiet: Technik
Fuß root Fachgebiet: Werkzeug
Translation Meta-Data: Beispiele
31/10/2013
Translation Data15
● Satzebene
Eliminate gender disparity in primary and secondary education, preferably by 2005, and in all levels of education no later than 2015.
Das Geschlechtergefälle in der Grund- und Sekundarschulbildung beseitigen, vorzugsweise bis 2005 und auf allen Bildungsebenen bis spätestens 2015.
Quelle: UN Millennium Development Goals
Eliminate gender disparity in primary and secondary education, preferably by 2005, and in all levels of education no later than 2015.
Abbauen der Unterschiede zwischen den Geschlechtern in Primär- und Sekundärschulstufe am besten bis 2005, und auf allen Ebenen der Ausbildung innerhalb 2015.
Translation Meta-Data: Beispiele
31/10/2013
Translation Data16
● Textebene
EU Datenschutzrichtlinie 1995/46/EC
Translation Meta-Data: Beispiele
31/10/2013
Translation Data17
North, K.(1998). Wissensorientierte Unternehmensführung-Wertschöpfung durch Wissen. S.41-42.Gabler Verlag.Wiesbaden
31/10/2013
Translation Data18
● "jede konventionalisierte, interlinguale und transkulturelle Interaktion [...], die in einer Kultur als zulässig erachtet wird" (Prunc 1997: 108)
31/10/2013
Translation Data19
Translation Meta-Data● ITS Internationalization Tag Set der W3 Multilingual
Web Working Group
● TMX Tag Set
● TBX mit TMF
● XLIFF
● PO comments
31/10/2013
Translation Data21Open Formats, Tools and DataOpen Formats, Tools and DataOpen Formats, Tools and DataOpen Formats, Tools and Data
Datenflut
• Schutz persönlicher Datenhttp://lobbyplag.eu
• Transparenz der Datenformate
• Freier Zugang zu Daten von öffentlichem Interesse Open Data
31/10/2013
Open Formats, Tools and Data
23
Open Data: Voraussetzungen
1) Wiederverwendung (re-use)für jeden Zweck, der vom Datenproduzenten vorhergesehen wurde oder nicht
2) Frei von jeglicher Zugangsbarriere (permission barrier) wie Preis, Lizenz, Login, etc.
3) in strukturierter und maschinenlesbarer Form
31/10/2013
Open Formats, Tools and Data
24
Open Data: Argumente
● Öffentliche Gelder haben die Generierung der Daten erst ermöglicht, also müssen sie auch öffentlich zugänglich sein
● Fakten können nicht dem Urheberrecht unterliegen
● Forschung wird gefördert, wenn wissenschaftliche Erkenntnisse für alle Forscher frei zugänglich sind
31/10/2013
Open Formats, Tools and Data
25
Open Data Links
● Open Data Commons http://opendatacommons.org/
● Netzwerk zur Förderung von Open Government, Open Data, Transparenz und Partizipation (DE)http://opendata-network.org
● Open Data Handbuchhttp://opendatahandbook.org/it/
● Open Data Censushttp://census.okfn.org/
31/10/2013
Open Formats, Tools and Data
26
Open Translation Data
● frei zugängliche Datenbestände, die Übersetzungen in strukturier ter und maschinenlesbarer Form in einem freien Format speichern
31/10/2013
Open Formats, Tools and Data
27
Open Translation Data: Argumente
● Kostenersparnis (alles wird nur einmal übersetzt)
● Erhöhung der Konsistenz (gleiches wird immer gleich übersetzt)
● Überprüfen, Unterstützen und Beschleunigen von Sprachplanung und Terminologienormung
● Translation Data, die mit Steuergeldern erarbeitet wurden, sollten auch öffentlich und frei verfügbar sein
23/02/2013
Open Formats, Tools and Data
30
genormte herstellerunabhängige Formate
● Format generell definiert vor und unabhängig von spezifischen Softwareapplikationen
● Trennung von Dateiformat und Software● Verwendung von Dateien mit verschiedenen Programmen● Austausch von Dateien
– Textdateien– Translation Memory Daten TMX– Segmentierungsregeln SRX– Terminologie TBX– Lokalisierungsdaten XLIFF– Übersetzungsvolumen GMX-V
23/02/2013
Open Formats, Tools and Data
31
Offene Formate als Übersetzungsspeicher
● Formate, die Textsegmente in zwei oder mehr Sprachen speichern können
– Translation Memory Exchange Format (TMX)
– XML Localization Interchange File Format (XLIFF)
– GNU gettext PO
23/02/2013
Open Formats, Tools and Data
33
Open Translation Data: DGT-TMX
● Directorate-General for Translationhttp://ipsc.jrc.ec.europa.eu/?id=197
● Vollständige Übersetzung des EU-Rechts (acquis communautaire)Große Datenmengen!
● Download der Jahrgänge
● Extrahieren des gewünschten Sprachenpaares mit TMExtractjava -jar TMXtract.jar DE IT /home/c61302/temp/DGT-deit.tmx [Vol_2011_1.zip Vol_2011_2.zip Vol_2011_3.zip Vol_2011_4.zip]
23/02/2013
Open Formats, Tools and Data
34
Open Translation Data (TMX)
● ECDC-TM European Centre for Disease Prevention and Control' (ECDC)http://ipsc.jrc.ec.europa.eu/?id=782
● United Nations General Assembly Resolutionshttp://www.uncorpora.org/
● MyMemory
● Open Data Euskadi: http://opendata.euskadi.net/w79-contdata/es/contenidos/ds_recursos_linguisticos/memorias_traduccion/es_izo/memorias_traduccion_izo.htmlhttp://translate.sourceforge.net/ Memorias de traducción del Servicio Oficial de Traductores
23/02/2013
Open Formats, Tools and Data
35
Open Tools = Freie SW-Werkzeuge
● Free Software
● Open Source
● (Freeware)
● Im Gegensatz zu proprietärer / kommerzieller Software
23/02/2013
Open Formats, Tools and Data
36
Open Source / freie Softwarevs proprietäre Software: strukturelle Unterschiede
● Vielzahl von Software-Projekten
● Eingeschränkte Funktionalität
● Freie Lizenz
● Unregelmäßige Updates
● Die Unterstützung durch die User-Community
● Vielzahl von Software-Projekten
● Eingeschränkte Funktionalität
● Freie Lizenz
● Unregelmäßige Updates
● Die Unterstützung durch die User-Community
● Komplexe Programme
● Volle Funktionalität
● kommerzielle Lizenz
● Regelmäßige Updates
● Kommerzieller Support
23/02/2013
Open Formats, Tools and Data
37
AnaphraseusJubler
TinyTm
Stand der Dinge
Bereich 'open source'
BiText2TMX
OkapiSun OLT Virtaal
OmegaT OpenTMSFOLTGaupol
Lokalizer
kommerzieller Bereich
SDL/Trados
AcrossMemoQ
Star TransitHeartsome
DéjàVuRainbow
Wordfast
TransolutionForeignDesk
Pootle
KBabel
PO-EditTranslate Toolkit
Catalyst
23/02/2013
Open Formats, Tools and Data
38
Unser Angebot
● freie Translationstechnologie auf USB-StickUSBTrans (Windows-kompatibel)http://homepage.uibk.ac.at/~c61302/fsftrans.html
● Vollständiger Translationsarbeitsplatz auf Open-Source-Basis tuxtrans (Linux-OS)http://www.tuxtrans.org
23/02/2013
Open Formats, Tools and Data
39
Translation-Memories: Textformate
● Open Document● Microsoft XML● (X)HTML ● HTML Help Compiler (HCC)● DocBook ● File di solo testo● Java bundle.properties● .po monolingua● INI (formato "codice=value")● XLIFF (Okapi, sdlxliff)● MediaWiki (Wikipedia)
● OpenDocument● Microsoft Office (2000-2003,
2007)● (X)HTML● DocBook ● RTF● XML● Adobe FrameMaker 8.0/9.0● Adobe InDesign CS4● PDF● XLIFF● DITA● W3C ITS.
OmegaT SDL-Trados
23/02/2013
Open Formats, Tools and Data
40
Translation-Memories: genormte Formate
● Vollständige Unterstützung:– TMX
● teilweise:– XLIFF (Okapi, sdlxliff)
– PO
● fehlende:– SRX
● Vollständige Unterstützung:– TMX
● teilweise:– XLIFF (sdlxliff)
● fehlende:– SRX
OmegaT SDL-Trados
23/02/2013
Open Formats, Tools and Data
41
Mehrsprachigkeit
● individuelle Mehrsprachigkeit: Kompetenz des Individuums
● institutionelle Mehrsprachigkeit: Umsetzen innerhalb einer Institution/Gesellschaft
Open Translation Data und Mehrsprachigkeit
31/10/2013
Open Translation Data und Mehrsprachigkeit
42
Neue Auffassung von Sprache
Was ist Sprache:Eine repräsentative Sammlung von sprachlichen Daten, kein begrenztes, regelbasiertes System
➔ Empirische Sprachverwendungsforschung➔ Sprachkorpora➔ Statistische Maschinenübersetzung➔ ...
Daraus folgt
Open Translation Data und Mehrsprachigkeit
Freie MT-Systeme
● Freie Online-MT - Übersicht und Auflistung: http://www.humanitas-international.org/newstran/more-translators.htm
● Open Source MT Systeme:
– Apertium http://www.apertium.org/
– Matxin http://matxin.sourceforge.net/
– Moses http://www.statmt.org/moses
– OpenLogos http://logos-os.dfki.de/
– ...
31/10/2013
Open Translation Data und Mehrsprachigkeit
44
Neue Auffassung von Translation
Was ist Translation:fallspezifisches Anwenden von Translationsdaten
Qualität von Translation = f (Translation Data)
aber
Translation Data ≠automatisches Übersetzen (MT)
Daraus folgt
31/10/2013
Open Translation Data und Mehrsprachigkeit
45
● Fachgebiet
● Kontext der Translation
● Loyalität gegenüber dem Auftraggebers
● Geplante Verwendung des Zieltextes
● Translationsethik
● ...
Open Translation Data: Einsatz
Übereinstimmung?Kompatibilität?
31/10/2013
Open Translation Data und Mehrsprachigkeit
46
OTD und Sprachkompetenz?
● Sprach- und Translationskompetenz notwendig zur Beurteilung, ob OTD eingesetzt werden können
● Sprach- und Translationskompetenz notwendig zur zielgerechten Verwendung von OTD
● Sprach- und Translationskompetenz notwendig zur fallspezifischen Evaluierung von MT-Output
● ...
Open Translation Data und Mehrsprachigkeit
OTD und neue Berufsfelder
● Konzeption und Planung von Translationsprozessen: Translations-Management
● Planung des Einsatzes und Adaptation von Translationstechnologie:
– TenT Translation Environment Tools (z.B. OmegaT)
– Maschinenübersetzung (z.B. Moses)
– ...● Planung des Einsatzes von OTD