adattomorites_percze_joo

5
16. tétel 2.0 Adattömörítés Percze; Joó 1 / 5 16. TÉMAKÖR ADATTÖMÖRÍTÉS CÉL: A tárolókapacitás jobb kihasználása, könnyebb hordozhatóság. o Több állományból álló anyagok egy fájlban o A kisebb méret miatt az interneten is könnyebben továbbítható Az adathalmazok ismétlődő jeleket tartalmaznak, terjengősek, nem a lehető legrövidebbek, legtömörebbek. Sokszor ugyanazt az információt rövidebben is le lehet írni, kódolni, erre szolgálnak az adatok tömörítésének lehetőségei. A tömörítés a jelsorozat ismétlődésének csökkentése, az adatok matematikai alapon történő átkódolása úgy, hogy ugyanazt az információt kevesebb jellel fejezzük ki. Az eredményként kapott adathalmaz mérete az átkódolás révén kisebb az eredeti adatokénál, gyakran csak töredéke. A felhasználásához általában vissza kell alakítani az eredeti formátumra, amihez külön programra van szükség. Az adatok visszaalakítását kicsomagolásnak nevezzük. A tömörített adatok érzékenyebbek a sérülésre, mint a tömörítés nélküliek. Vagyis ha egy-egy kód megváltozik, akkor nagyobb kárt okoz, mint a még nem tömörítettben. Az adatok tömörített tárolásának előnye, hogy kisebb helyet foglal az adat számítógépen, az Interneten keresztül gyorsabban továbbítható, és lehetővé teszi az adat jelszavas védelmét. Hátránya, hogy használatkor ki kell csomagolni, ami időt vesz igénybe. A tömörítésnek alapvetően két típusa van, a veszteségmentes és a veszteséges tömörítés Tartalomjegyzék 1.Veszteségmentes tömörítés 1.1 Huffmann-kódolás 1.2 LZW-kódolás 1.3 GIF-kódolás 1.4 FLAC 2.Veszteséges tömörítés 2.1 JPEG (JointPhotographicExpert Group) 2.2 MPEG 2.3 MP3 3.Tömörítés a gyakorlatban 3.1 Online tömörítés 3.2 Offline tömörítés 3.2.1 lehetőségek 3.2.2 (SFX, stb) 4.Források

Upload: judit-napsugar-berkes

Post on 20-Dec-2015

1 views

Category:

Documents


0 download

DESCRIPTION

.

TRANSCRIPT

Page 1: Adattomorites_Percze_Joo

16. tétel

2.0 Adattömörítés

Percze; Joó

1 / 5

16. TÉMAKÖR ADATTÖMÖRÍTÉS

CÉL:

• A tárolókapacitás jobb kihasználása, • könnyebb hordozhatóság.

o Több állományból álló anyagok egy fájlban o A kisebb méret miatt az interneten is könnyebben továbbítható

Az adathalmazok ismétlődő jeleket tartalmaznak, terjengősek, nem a lehető legrövidebbek, legtömörebbek. Sokszor ugyanazt az információt rövidebben is le lehet írni, kódolni, erre szolgálnak az adatok tömörítésének lehetőségei. A tömörítés a jelsorozat ismétlődésének csökkentése, az adatok matematikai alapon történő átkódolása úgy, hogy ugyanazt az információt kevesebb jellel fejezzük ki. Az eredményként kapott adathalmaz mérete az átkódolás révén kisebb az eredeti adatokénál, gyakran csak töredéke. A felhasználásához általában vissza kell alakítani az eredeti formátumra, amihez külön programra van szükség. Az adatok visszaalakítását kicsomagolásnak nevezzük. A tömörített adatok érzékenyebbek a sérülésre, mint a tömörítés nélküliek. Vagyis ha egy-egy kód megváltozik, akkor nagyobb kárt okoz, mint a még nem tömörítettben. Az adatok tömörített tárolásának előnye, hogy kisebb helyet foglal az adat számítógépen, az Interneten keresztül gyorsabban továbbítható, és lehetővé teszi az adat jelszavas védelmét. Hátránya, hogy használatkor ki kell csomagolni, ami időt vesz igénybe. A tömörítésnek alapvetően két típusa van, a veszteségmentes és a veszteséges tömörítés Tartalomjegyzék 1.Veszteségmentes tömörítés

1.1 Huffmann-kódolás 1.2 LZW-kódolás 1.3 GIF-kódolás 1.4 FLAC

2.Veszteséges tömörítés 2.1 JPEG (JointPhotographicExpert Group) 2.2 MPEG 2.3 MP3

3.Tömörítés a gyakorlatban 3.1 Online tömörítés 3.2 Offline tömörítés

3.2.1 lehetőségek 3.2.2 (SFX, stb)

4.Források

Page 2: Adattomorites_Percze_Joo

16. tétel

2.0 Adattömörítés

Percze; Joó

2 / 5

1. Veszteségmentes tömörítés A veszteségmentes tömörítés olyan kódolás, melynek eredményeként létrejött kódolt (tömörített) jelhalmaz rövidebb, mint az eredeti, azaz kisebb az adatmennyisége, és a tömörített adathalmazból tökéletesen visszaállítható az eredeti, tehát a tömörítés nem okoz adatvesztést. Ilyen módon tömörítünk programokat, dokumentumokat, hiszen ezeknél fontos a tökéletes visszaállítás lehetősége. Mivel mindenféle adatot digitálisan (számokkal) kódolunk, a tömörítő program a számsorozatot rövidíti le. Például a 3555555227777 számsor 13 db egyjegyű számból áll, melyet a program oly módon tömörít, hogy balról haladva megadja a számot, és azt, hogy hányszor ismétlődik. Így az eredmény 31562274, ami csupán 8 db szám, tehát 8/13 arányban történt az eredeti adatsor tömörítése. Ez az eljárás esetünkben csak akkor működik, hamax 1 byte-os számokat tömörítünk és egyszerre max 255 db-ot. (ekkor minden tömötített sorozat pontosan 2 bájtos). Ezt Token-es tömörítésnek nevezik, vagy Ismétlődő Karakterek Egyesítésének. Hátránya, hogy csak a sorfolytonos ismétlődést kezeli. Képek esetében gyakori, hogy sok azonos színű pont van egymás mellett, így jelentős rövidítést érhetünk el. A tömörítés mértéke nem csak a tömörítési eljárástól, hanem az adathalmaz tulajdonságaitól is függ, például vannak-e ismétlődő adatok, az egyes jelek vagy jelcsoportok milyen gyakorisággal fordulnak elő? Veszteségmentes tömörítés például a ZIP, ARJ, RAR, Huffman-kódolás, LZW. Ezek a tömörítőprogramok elemzik az állomány szerkezetét, és annak függvényében határozzák meg a tömörítési eljárást. Huffmann-kódolás Legyen adott 5 karakter előfordulási gyakorisága egy szövegben: a: 3, b: 2, c: 1, e: 6, n:2 Ezeket az előfordulási gyakoriságokat arányaiban felírva: a: 3/14, b: 2/14, c: 1/14, e: 6/14, n: 2/14. Természetesen százalékban is meg lehet ezeket adni (a: 22%, b: 14%, c: 7%, e: 43%, n: 14%). A Huffman kódok egy fa felrajzolásából kapjuk: Kiválasztjuk a két legkisebb előfordulási valószínűséggel rendelkező elemet, és egymás mellé írjuk a két előfordulási valószínűségi értéket. Majd ezt a két értéket levélként kezelve, az összegüket csomópontként a két levél fölé írjuk. Ezek után kiválasztjuk a harmadik legkisebb valószínűségű elemet, és megnézzük, hogy ennek értéke kisebb-e, mint a csomópont, amiben a két legkisebb valószínűségű elem összege van. Ha kisebb, akkor az említett

Page 3: Adattomorites_Percze_Joo

16. tétel

2.0 Adattömörítés

Percze; Joó

3 / 5

csomóponttól jobbra, ha nagyobb, akkor a csomóponttól balra írjuk le a gyakorisági értéket, majd a többi elem valószínűségi értékét is ez alapján helyezzük el a fában, míg a gyökérig el nem jutunk (100%, vagy arányoknál a nevező értéke). Ekkor az egy csomópontból balra kiinduló ágra 1-est, a jobbra kiindulóra pedig 0-át írunk, és az egyes elemekhez vezető útvonal alapján felírjuk a kódot. LZW-kódolás Ez az algoritmus első hallásra bonyolultabb, mint a Huffmann, de lényegesen egyszerűbb a megvalósítása, illetve rettentően gyors, mert nem kell végigstatisztikáznunk a file-t. A Huffmannak az is hátránya, hogy a fáját le kell jegyezni a file elejére, ami helyigényes, de az LZW-nél nincs ilyen gond. Ott a kódtábla menet közben épül, mind a tömörítéskor, mind pedig a kibontáskor. A tömörítés során a beolvasott adategységeket egy táblázatba jegyezzük, majd egy saját kódot kapnak. Minden új elemet felveszünk ide, és ha újra találkozunk egy meglévővel, akkor már csak a meglévő kódot kell beírni a betömörített file-ba. Ez szép nagy listát eredményez, de ez felépíthető a tömörített adatok beolvasása során is, tehát nem számít. Ezt továbbfejlesztve jött létre az LZSS, majd később az LZ78. GIF-kódolás A GIF formátum a képen lévő információt veszteségmentesen tömöríti. A tömörítés nem jár információveszteséggel, akár 10-100× kisebb fájlméret mellett is élvezhető a tömörített kép. Mivel legfeljebb 8 bites színmélységű (256 színű) képeket tud kezelni, ezért elsősorban rajzok, grafikonok és egyéb hirtelen színátmenetű ábrák tárolására való. 256 előre rögzített szín nem lenne elegendő, ezért színpaletta segítségével megválasztható, hogy ezen színek milyen RGB kódoknak feleljenek meg. Tömörítésre az LZW algoritmust használja. FLAC A FLAC (Free LosslessAudioCodec), egy olyan tömörítési eljárás, ami audiofileokat tömörít hatékonyan, és veszteségmentesen. Az eredeti méretet akár 50-60%-al is csökkentheti. Az utóbbi időkben egyre elterjedtebb formátummá nőtte ki magát, már sok hordozható médiaeszköz képes lejátszani.

Page 4: Adattomorites_Percze_Joo

16. tétel

2.0 Adattömörítés

Percze; Joó

4 / 5

2. Veszteséges tömörítés más néven Multimédiás tömörítés A multimédiás állományok tömörítésénél alkalmazott technika. Ezeknél az állományoknál a hely megtakarításért cserében lemondunk a jobb minőségről. Sokszor bizonyos érzékszervi korlátaink miatt nem szükséges, hogy minden adatot lejegyezzünk, mivel egyáltalán nem fogjuk észrevenni, hogy hiányzanak. A hangfájlok veszteséges tömörítésekor pl. az emberi fül által nem hallható 50 Hz alatti és 20 KHz feletti hangokat pl. kihagyja.Hátrányuk talán az, hogy az egyszer összetömörített anyagokat már nem lehet visszaállítani. A veszteségesen tömörítő programok esetében be lehet állítani a tömörítés mértékét. Ezzel a tömörítési típussal sokkal nagyobb megtakarítást lehet elérni, míg a veszteségmentes eljárások az eredeti méretet csak harmadára-negyedére csökkenti, addig a veszteséges eljárások hatodára-tizedére. Erre épülő módszerek: JPEG (JointPhotographicExpert Group) Ez egy képtömörítési eljárás. A képeket 8x8-as négyzetekre bontja, majd ezek elejére lejegyzi a négyzet pontjainak átlagát, így a képpontok már csak az ettől való eltérésükben lesznek meghatározva. A tömörítés hátránya, hogy egymástól nagyon elütő részleteket gyakran összemos, ha a minőséget rontjuk, a tömörítési ráta javára. Azonban nem nagyon látszik ez, ha a minőség nem olyan fontos, és nem kívánjuk nagyítani a képeket képpont méretűre. Nagyon hatékony, és elterjedt, főleg az interneten, és az újonnan bejött fényképezőgépeken. Már megoldották, hogy ne legyen elmosott a kép, mivel lehet állítani a minőséget, s így a veszteség szabályozható. MPEG (Moving Picture Experts Group) Régebben Motion JPEG néven futott, mivel képkockánként JPEG-be tömörített filmről volt szó a szabványban. Mára jóval hatékonyabb lett az ún. keyframek használatának bevezetésével. Most bizonyos időközönként teljes képkockákat kapunk a tömörített fájlból, majd a következő kulcsképkockáig csak az előzőhöz képest megváltozott képpontokat írja le az avi fájl. MP3 Az MP3 egy veszteséges hangfile tömörítő eljárás. Manapság ez a legelterjedtebb hangformátum, mert kicsi mérete lehetővé teszi, hogy könnyen megosszuk az interneten. Az MP3 szabványok nem definiálják a tömörítő algoritmust, csak a kitömörítőt és a fájl formátumát, így az MP3-nak a használt tömörítő (kodek) szerint számos különböző változata lehet.1995 első felében MP3 fájlok kezdték elárasztani a világhálót olyan programoknak köszönhetően, mint a Winamp és a Napster.Jellemző bitrate az mp3 file-ok esetében: 128,192,256,320.

Page 5: Adattomorites_Percze_Joo

16. tétel

2.0 Adattömörítés

Percze; Joó

5 / 5

3. Tömörítés a gyakorlatban A Windows XP-ben tömörített mappát a Fájl →Új →Tömörített mappa paranccsal hozhatunk létre. Ebbe a tömörített mappába másolt fájlokat a rendszer ZIP kiterjesztéssel tömöríti, a kimásolt fájlokat pedig kicsomagolja. WinZip-pel vagy WinRar-ral való tömörítéskor megkeressük a mappát, kijelöljük a tömöríteni kívánt fájlokat, majd az Add eszközre kattintva a dialógusablakban beírjuk a helyet és a tömörített állomány nevét. Ezután kiválasztjuk a tömörítés típusát (zip, rar). A fájlok kicsomagolása hasonlóan, de az Extractto ikonnal történik. Windows Commanderrel a kijelölt állományokat vagy alkönyvtárat az Alt + F5 billentyű-kombinációval, illetve menüből tömöríthetjük. Az ilyen módon tömörített fájlokat az Alt + F9 billentyűk lenyomásával csomagolhatjuk ki. Egyes alkalmazásokból tömörítve is menthetünk, ilyen például a Paint rajzolóprogram vagy a Photoshop, amelyben jpeg formátumba mentve tömöríthetjük a képeket. Léteznek ún. önkicsomagoló állományok, melyek nem csak a tömörített fájlt tartalmazzák, hanem a kicsomagoló programot is (SFX(self-extractingarchive), makeexe file). Az archívumba gyakran egész könyvtárszerkezetet (a fájlokkal együtt) betömörítünk, becsomagolunk, így az összetartozó állományok együtt kezelhetők. NTFS(New Technology File System) Az NTFS egy olyan filerendszer, amely támogatja a filerendszer szintű tömörítést. Ez azt jelenti, hogy ilyenkor a Windows támogatja az összes file on-line tömörítését. On-line tömörítés alatt azt értjük, hogy a fileokat tömörítve tároljuk, de ha használjuk őket, akkor automatikusan kitömörítődnek valós időben.Lehetőség van .zip vagy .rarfileokat is ilyen módok használni. Emellett természetesen még él az offline mód is, amikor nekünk kell kitömöríteni az adatot, és azután válik használhatóvá. A különböző tömörítők lehetőséget nyújtanak a tömörítés hatásfokának beállítására. Ha nagyobb hatásfokot állítunk be, akkor sokkal kevesebb helyet is foglalhatnak az állományok, de a minőség is jobban romolhat. 4. Források: -hálózat elmélet jegyzet -http://www.dynamicart.hu/blog/huffman-kod-tomoritesi-algoritmus.html (Huffmann-code) -http://hu.wikipedia.org/wiki/MP3 -http://en.wikipedia.org/wiki/JPEG -http://users.iit.uni-miskolc.hu/~lippai/ -http://flac.sourceforge.net/