föreläsning 1: bild- och ljudkodning
DESCRIPTION
Föreläsning 1: Bild- och ljudkodning. 1.Kursöversikt 2.Introduktion till bild- och ljudkodning - syfte - historik - antal bitar per bildpunkter/sampel 3.Två principiella klasser : distorsionsfri och distorderande kodning - PowerPoint PPT PresentationTRANSCRIPT
Robert Forchheimer, Linköpings Universitet
Föreläsning 1: Bild- och ljudkodning1. Kursöversikt
2. Introduktion till bild- och ljudkodning
- syfte- historik- antal bitar per
bildpunkter/sampel
3. Två principiella klasser : distorsionsfri och distorderande kodning
4. Modeller för bild- och ljudsignaler samt därav inspirerade kodningsmetoder
Robert Forchheimer, Linköpings Universitet
Kursöversikt - föreläsningar
F1: Introduktion till bild- och ljudkodningF2: Informationsteoretiska begreppF3: Källkodningsteori, HuffmankodningF4: Aritmetisk kodning, Lempel-Ziv-kodningF5: Analoga signaler, Skalär kvantiseringF6: VektorkvantiseringF7: Prediktiv kodningF8: TransformkodningF9: Delband/Wavelet-kodningF10: AudiokodningF11: VideokodningF12: Talkodning, Modellbaserad videokodning,
Video/audio över nätverk
Robert Forchheimer, Linköpings Universitet
Kursöversikt - övrigt
• 12 föreläsningar
• 8 lektioner
• 2 datorlektioner
• 2 laborationer (varav en är schemalagd)
1. K. Sayood, Introduction to Data Compression2. Diskreta Markovprocesser (kurshemsidan)3. Övningshäfte, formelsamling (kurshemsidan)4. Kurshemsida: www.icg.isy.liu.se/courses/tsbk02/
- labbokning, labbanvisningar, extramaterial
Kurslitteratur:
Robert Forchheimer, Linköpings Universitet
Bild- och ljudkodning
Syfte: effektiv (digital) representation av bilder, video, tal och musik.
Bivillkor:- god kvalitet- tålighet mot kanalfel- realtidsprestanda- kostnadseffektiv
Robert Forchheimer, Linköpings Universitet
Bild- och ljudkodning
Bild/Ljudkodning
Telekommunikation
Digital signalbehandling
Datorgrafik
Bildanalys
Psykoakustik
Spektralanalys
Perception
Talsyntes
Robert Forchheimer, Linköpings Universitet
Tillämpningar
StillbilderFaxTeleradiologiWebbDigitalkamerorBilddatabaser
VideoBildtelefoniVideokonferensMultimediaVideokamerorDigital-TVDVD, Blu-ray
LjudCDMobiltelefonerMP3-spelareDABFilm/video-ljud
Robert Forchheimer, Linköpings Universitet
g
Ericsson 1905 Smartphone 2014
Telefoni
Robert Forchheimer, Linköpings Universitet
Baird 1930
Television
OLED 2014
Robert Forchheimer, Linköpings Universitet
Den elektroniska bilden – analogt format
Bilden avsöks linje för linje och ger upphov till en analog signal. I Bairds mekaniska TV-system användes 30 linjer och videobandbredd ca 10 kHz.
Robert Forchheimer, Linköpings Universitet
En bildpunkt representeras med en eller flera databitar.
Representationen kallas Pulskods-modulation (PCM).
Bildpunkt (pixel)
Den elektroniska bilden – digitalt format
Robert Forchheimer, Linköpings Universitet
Bilder: hur många bildpunkter?
Baird 30*50 (ca)TV (PAL) 720*576HDTV 1920*1080QFHD 3840*2160Digitalkamera 2 - 40Milj.
Robert Forchheimer, Linköpings Universitet
Hur många bitar per bildpunkt?
Bitar/bildpunkt Bildtyper Exempel
148
12-168*3=248*4=32
binära faxenkel datorgrafik tidiga spelgråskalebilder telefotohögkontrast röntgenFärgbilder (RGB) digital fotoRGB med alpha datorgrafik
Robert Forchheimer, Linköpings Universitet
Ljud: antal bitar per sampel och per sekund
(PCM-kodning)•16 bitar per sampel•44100 sampel per sekund•Två kanaler•=>1.4 Mbit/s•Betraktas ofta som referens (”okomprimerat ljud”)
•Modern kodningsmetoder: 64 kbit/s med god kvalitet
CD-kvalitet
Digital telefoni•8 bitar per sampel•8000 sampel per sekund• => 64 kbit/s•Moderna kodningsmetoder: 4 kbit/s med god kvalitet
Robert Forchheimer, Linköpings Universitet
Video: antal bitar per sekund (PCM-kodning)
•3*8 bitar (RGB) per bildpunkt
•720*576 bildpunkter per bild (PAL)
•25 bilder per sekund• => 250Mbit/s
TV-kvalitet
HDTV-kvalitet
•3*8 bitar (RGB) per bildpunkt•1920*1080 bildpunkter per bild (1080i)•25 bilder per sekund• => 1.24Gbit/s
Robert Forchheimer, Linköpings Universitet
Video: kodningsmetoder
8 16 64 384 1.5 5 20
kbit/s Mbit/s
Very low bitrate Low bitrate Medium bitrate High bitrate
3G Mobilevideophone
Digital TV,DVD
HDTVVideo CD
MPEG-4H.264
MPEG-1 MPEG-2H.261H.263
Model-basedVideo coding
Robert Forchheimer, Linköpings Universitet
Distorsionsfri (”lossless”) kodning(Datakompression)
Representera en digital signal med färre bitar än originalet på så sätt att signalen kan rekonstrueras exakt. Den undre begränsningen ges av entropin för data (baseras på Informationsteori).
Exempel: ZIP, compress, GIF, PNG, FLAC
Robert Forchheimer, Linköpings Universitet
Distorderande (”lossy”) kodning
Representera en digital eller analog signal med så få bitar som möjligt så att signalen kan rekonstrueras med godtagbar kvalitet.
Exempel: GSM, JPEG, MPEG-2, H.264, MPEG-1 layer 3 (mp3), AAC, WMA,...
Robert Forchheimer, Linköpings Universitet
Typisk kodarstruktur
Analogsignal
Samplingkvantisering
Distorderandekodning
DistorsionsfriKodning
DigitalSignal(PCM)
Distorderaddigital signal
Robert Forchheimer, Linköpings Universitet
Kodning av bild och ljud bygger på modeller
t
S(t)
Genereringsmodeller
• 3D-objekt• belysning• kameraprojektion• ljudgenerering
Signalmodeller Syn/hörsel-modeller
• determ. modeller• statistiska modeller
• spatio/temporal modeller• maskeringsegenskaper
Modellbaseradekodningsmetoder
Signalteoretiskakodningsmetoder
Perceptionsbaseradekodningsmetoder
Robert Forchheimer, Linköpings Universitet
Statistiska signalmodeller
Minnesfria signaler
Signaler med minne
Signalvärden är beroende av ett eller flera övriga signalvärden.
t
t
Varje signalvärde är oberoende av övriga signalvärden.
Robert Forchheimer, Linköpings Universitet
Markov-modellen
s
s
s
1
3
212
11
21
13
31
23
32
P
P
PP
P
PP
PP
22
33
Exempel på statistisk modell för signaler med minne
Robert Forchheimer, Linköpings Universitet
Autoregressiv modell
- en amplitudkontinuerlig Markovmodell
xk
xk = aixk-i + nk nk: minnesfri process
Lämpar sig väl för att modellera ljudsignaler
Robert Forchheimer, Linköpings Universitet
Korrelationsmodell
För bilder kan 2-dimensionella korrelationsfunktioner vara användbara:xij
xkl
eller
Robert Forchheimer, Linköpings Universitet
Exempel på kodning av minnesfri källa
Gråskalebild med nivåer mellan 0 - 3.Statistisk redundans: de olika nivåerna förekommer olika ofta (se figur).Kodningsmetod: Variabel-längdkodning (VLC)
%
nivå
50
0 1 2 3
PCM0 - 001- 012 - 103 - 11
VLC0 - 03 - 101 - 1102 - 111
2 bitar/bildpunkt 1.75 bitar/bildpunkt i genomsnitt!
Robert Forchheimer, Linköpings Universitet
Exempel på kodning av minneskälla
Bildtyp: fax.Statistisk redundans: närliggande bildpunkter har ofta
samma värde.Kodningsmetod: koda skurlängderna.
Skurkod: 15,15,15,4,5,6,4,6,5,3,…
Antag 4 bitar/skur: 45*4 = 180 bitar jfr. okodat: 15*15 = 225 bitar
Robert Forchheimer, Linköpings Universitet
Prediktiv kodning (DPCM)(för AR-processer)
t
Prediktion(linjär/rörelse- kompenserad)
VLC
Princip: • gissa (prediktera) hur bilden ser ut,• beräkna skillnaden (felbilden),• variabel-längdkoda felbilden.
Robert Forchheimer, Linköpings Universitet
Transformkodning
(för 2D-korrelerade källor)xij
xkl
Robert Forchheimer, Linköpings Universitet
Modellbaserade kodningsmetoder
- används vid kodning av talsignaler
- och för kodning av ansiktsbilder
Robert Forchheimer, Linköpings Universitet
Perceptionsbaserade kodningsmetoder(är mer användbara för ljudkodning än för bildkodning)
dB
0
10
20
30
40
2 4 6 8 10 12 kHz
Dämpningskurva
Robert Forchheimer, Linköpings Universitet
Fraktalkodning
Grundidé: sök självliknande delar i bilden...
sådan symmetri ger enkel matematisk beskrivning...
Robert Forchheimer, Linköpings Universitet
Fraktalkodning, forts.
Varje bild kan göras självlik...