identifikace formátů: jednorázový nebo opakovaný proces?
TRANSCRIPT
Identifikace formátů:Jednorázový nebo opakovaný proces?
Jan Hutař, Digital Preservation Analyst, Archives New Zealand(Marek Melichar, ÚVT UK)
Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016
Identifikace formátů:Jednorázový nebo opakovaný proces?
• Národní archiv NZ a LTP problematika• Formátové strategie obecně• Změny prostředí, nástrojů a informací v
posledních 10 letech• PRONOM a identifikace formátů
Národní archiv NZ a LTP problematika
Hutař, Jan - Archives New Zealand - budování digitálního archivu pro dlouhodobou ochranu digitálních dokumentů. Jan Hutař. Archivní časopis. Roč. 63, č. 1 (2013), s. 5-24
Prezentace 27.5.2015 v Prazehttp://www.slideshare.net/dp-blog-cz/jan-huta-dlouhodob-ochrana-digitlnch-informac-v-nrodnm-archivu-na-novm-zlandu
Národní archiv NZ a LTP problematika
• 2005 - Public Record Act
• 2009 - Digital Continuity Action Plan (DCAP)
• Government Digital Archive Programme GDAP (1), GDAP (2),...
• Storage jako služba
• Transfery
• Poměrně silný tým
Formátové strategie obecněMěnící se důraz v LTP
• HW (bit level) a úložná média >> Informační obsah (significant properties), logická ochrana obsahu
• Debaty o strategiích LTP (migrace, emulace) v teoretické, spekulativní a výzkumné rovině
• V praxi instituce nemigrují – některé normalizují na vstupu – mnohé “neznají svůj obsah” (sign. properties)– jiné nemají čas, finance, staff, necítí potřebu
Formátové strategie obecněSignificant properties - know your data
Paranoidiní vs Pragmatický přístup
• stačí jen velikost, PUID, mime type…
• nebo:
Formátové strategie obecněSignificant properties
• RozsahK čemu jsou techMD extrahovaná ze souborů? Potřebuje administrátor archivu hledat podle precint size? Podle čeho? Víme to dnes? • Způsob uchováníJe ta informace vůbec použitelná? (normalizace výstupu extraktorů vs raw výstupy)
-
Formátové strategie obecněParadoxy dlouhodobé digitální archivace
• 2001: We want to maintain digital information intact, but we also want to be able to access this information in a dynamic use context
Chen, Su-Shing. "The paradox of digital preservation." Computer 34.3 (2001): 24-28.
• 2016: Pro zajištění trvalého uchování digitálních dokumentů potřebujeme na technologiích závislé nástroje a informační zdroje, které se neustále mění….
-
Formátové strategie obecněNový důraz - měnící se prostředí
• Ne migrace do nového formátu, ale nové nástroje, nové informace, nové postupy
• Změny PRONOMu v posledních 10 letech• Dopady na praxi• Extrakce vs identifikace formátu - identifikace je
klíčová
-
Identifikace formátů - nástroje
•TNA PRONOM - alternativy? •Nástroje jako DROID, Siegfried, Fido, TriD, Apache Tika, File, ...
•PUID (PRONOM Unique ID) - alternativy?
-
PRONOM–od roku 2004 (pro potřeby TNA)–pravidelné aktualizace –zásadní změna přístupu od verze 6 -
tzv. container signature files–DB formátů - stále stejná
Identifikace formátů - proces
• Identifikace formátu je většinou považována za jednorázovou operaci
• Ingest je vždy priorita, následně většinou jen bit level operace
• NA a NK NZ uvažují o tom, jak zavést re-identifikaci do svých procesů už delší dobu
Identifikace formátů - NZ• NK NZ - archivuje dig. data od roku 2008• NA NZ - archivuje dig. data od roku 2011• Od té doby se nezměnily formáty, které
považujeme za důvěryhodné, změnily se informace v PRONOM, signatures a nástroje...
• Opakování identifikace dat z roku 2008 dnes přinese jiné výsledky (PUID)
• TIFF dnes fmt/353, do roku 2011 fmt/7 TIFF v3, fmt/8 TIFF v4, fmt/9 TIFF v5 a fmt/10 TIFF v6
Změny v PRONOM / DROIDJak DROID funguje a proč se výsledky po nějaké době mění? • DROID k identifikaci formátů používá signature file, XML
publikované několikrát ročně
• Signature je sekvence bytů, nebo seznam více sekvencí bytů, které mohou být v konkrétním souboru určitého formátu obsaženy
• Pro některé formáty může jít pouze o sled bytů na počátku souboru, signature ale může být podstatně komplikovanější
• DROID v6 (2011) nově 2 signature soubory
– binární, DROID používal od počátku,
– nový pro kontejnerové formáty
Identifikace formátů• DROID nejprve kontroluje, zda formát souboru je
kontejnerový, pokud je > použije container signature file a ne binární signature file
• trigger PUIDs– OLE2 formát (fmt/111) – dva ZIP formáty (fmt/189 a x-fmt/263)
• Kontejnerové signatures jsou navrženy tak, aby byly přesnější než binární.
Změny v PRONOM• formáty nejsou mazány - deaktivovány a
nahrazeny (deprecated in favor of) = vlastně odebrání signature
• přidání koncovek ke konkrétnímu formátu• změny priorit formátu X vzhledem k formátu Y• přidání signature!• změna signature!
Změny v PRONOMJa rychle se informace v PRONOM mění? • PRONOM obsahuje (srpen 2016) celkem 1403 záznamů formátů
• Ne všechny formáty v PRONOMu mají signature, některé nemají a jsou jen prázdnou schránkou. Mají ale PUID (924 formátů má signature, 429 signature nemá)
Signature file verze 86 z července 2016
• 46 zcela nových formátů,
• 23 formátů bylo aktualizováno a
• přidáno bylo 46 signatures
• byly přidány nové formáty bez signature a některé formáty již existující v PRONOM databázi dostaly vlastní signature
Opakovaná identifikace? Možnosti 1. Jednou za 5 let provést identifikaci formátů všech souborů v
archivu
– množství souborů, nároky na výpočetní výkon a čas
2. Opakovat identifikaci formátů výběrově na části obsahu digitálního archivu vybrané na základě nějakých kritérií
3. Identifikovat soubory s PUIDy, které byly v posledním vydání signature files nahrazeny, upraveny či zrušeny a tyto podrobit nové identifikaci formátů
– nezahrne formáty, které jsou v PRONOMu nové, případně formáty, které neměly signature a nově jej mají.
Opakovaná identifikace? • SW - jsou na to LTP systémy připraveny? Je to
technicky možné?
– verzování AIP
• Mají na to instituce zdroje?
– infrastruktura
– personál
Opakovaná identifikace na NZ Realizace je plánována na rok 2017• NK NZ 9 milionů souborů, 1,5 milionu
intelektuálních entit, 120TB, 162 PUID>opakovat identifikaci formátů pro všechny soubory • NA NZ 4,5 milionu souborů, asi 220 tisíc entit,
120TB, 39 PUID (transfery začnou až 2017)>výběrové opakování, pro určité formáty a sbírky (96% jsou dnes Tiff a Jpeg)
Děkujeme za [email protected]