webarchiv jako digitální knihovna ii
TRANSCRIPT
![Page 1: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/1.jpg)
WebarchivPamátník českého internetu, více
![Page 2: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/2.jpg)
Proč archivujeme web? Jak ho archivujeme? Co v archivu máme?
Co nás trápí?Co plánujeme?
[email protected]á realizace archivace webu
![Page 3: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/3.jpg)
Proč archivujeme web?
![Page 4: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/4.jpg)
![Page 5: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/5.jpg)
“… více jak 70% URL v Harvard Law Review a 50% URL v nálezích nejvyššího
soudu Spojených států amerických, neodkazuje k původnímu webovému zdroji. “
Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations. Jonathan Zittrain, Kendra Albert a Lawrence Lessig. Legal Information Management / Volume 14 / Issue 02 / June 2014, pp 88-99, DOI: http://dx.doi.org/10.1017/S1472669614000255, Published online: 12 June 2014
![Page 6: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/6.jpg)
![Page 7: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/7.jpg)
404 Not Found The 404 (Not Found) status code indicates that the origin server did
not find a current representation for the target resource or is not willing to disclose that one exists. A 404 status code does not
indicate whether this lack of representation is temporary or permanent; the 410 (Gone) status code is preferred over 404 if the
origin server knows, presumably through some configurable means, that the condition is likely to be permanent.
A 404 response is cacheable by default; i.e., unless otherwise indicated by the method definition or explicit cache controls (see
Section 4.2.2 of [RFC7234]).
![Page 8: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/8.jpg)
✝url urn
![Page 9: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/9.jpg)
Bude možné studovat naše století bez webových archivů?
![Page 10: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/10.jpg)
miluj výzkumníka svého
![Page 11: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/11.jpg)
![Page 12: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/12.jpg)
Jak archivujeme web?
![Page 13: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/13.jpg)
Heritrix / OpenWaybacksklízení / zpřístupnění
Otevřený softwareMezinárodní komunita
![Page 14: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/14.jpg)
Měsíční výběrové sklizně
Občasné tématické sklizně
Roční sklizně domény cz
![Page 15: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/15.jpg)
![Page 16: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/16.jpg)
Co máme v archivu?
![Page 17: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/17.jpg)
~ 228 TB
~ 6 miliard digitálních objektů / URL
~1,2 milónu domén druhého řádu
![Page 18: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/18.jpg)
![Page 19: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/19.jpg)
Co nás trápí?
![Page 20: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/20.jpg)
méně než 1 % je volně přístupné=
~ 4000 webů z 1,2 miliónu webů
![Page 21: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/21.jpg)
JavaScript
![Page 22: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/22.jpg)
![Page 23: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/23.jpg)
228 TB při čtení 80 MB/s = 32 dní
![Page 24: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/24.jpg)
Co plánujeme?
![Page 25: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/25.jpg)
metadata
![Page 26: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/26.jpg)
![Page 27: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/27.jpg)
![Page 28: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/28.jpg)
![Page 29: Webarchiv jako digitální knihovna II](https://reader031.vdocuments.site/reader031/viewer/2022030314/58a1f5e91a28abac528b4e75/html5/thumbnails/29.jpg)
Oddělení archivace webu | ODIF | Národní knihovna ČRVedoucí: Jaroslav KvasnicaZástupce: Barbora RudišínováTechnické zajíštění: [email protected]átoři: Markéta Hrdličková, Pavla Kupcová
webarchiv.czfacebook.com/webarchivcrslideshare.net/webarchivCZ github.com/webarchivcz