föreläsning 1: bild- och ljudkodning

31
Robert Forchheimer, Linköpings Universite Föreläsning 1: Bild- och ljudkodning 1. Kursöversikt 2. Introduktion till bild- och ljudkodning - syfte - historik - antal bitar per bildpunkter/sampel 3. Två principiella klasser : distorsionsfri och distorderande kodning 4. Modeller för bild- och ljudsignaler samt därav

Upload: jonah-mckenzie

Post on 01-Jan-2016

34 views

Category:

Documents


0 download

DESCRIPTION

Föreläsning 1: Bild- och ljudkodning. 1.Kursöversikt 2.Introduktion till bild- och ljudkodning - syfte - historik - antal bitar per bildpunkter/sampel 3.Två principiella klasser : distorsionsfri och distorderande kodning - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Föreläsning 1: Bild- och ljudkodning1. Kursöversikt

2. Introduktion till bild- och ljudkodning

- syfte- historik- antal bitar per

bildpunkter/sampel

3. Två principiella klasser : distorsionsfri och distorderande kodning

4. Modeller för bild- och ljudsignaler samt därav inspirerade kodningsmetoder

Page 2: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Kursöversikt - föreläsningar

F1: Introduktion till bild- och ljudkodningF2: Informationsteoretiska begreppF3: Källkodningsteori, HuffmankodningF4: Aritmetisk kodning, Lempel-Ziv-kodningF5: Analoga signaler, Skalär kvantiseringF6: VektorkvantiseringF7: Prediktiv kodningF8: TransformkodningF9: Delband/Wavelet-kodningF10: AudiokodningF11: VideokodningF12: Talkodning, Modellbaserad videokodning,

Video/audio över nätverk

Page 3: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Kursöversikt - övrigt

• 12 föreläsningar

• 8 lektioner

• 2 datorlektioner

• 2 laborationer (varav en är schemalagd)

1. K. Sayood, Introduction to Data Compression2. Diskreta Markovprocesser (kurshemsidan)3. Övningshäfte, formelsamling (kurshemsidan)4. Kurshemsida: www.icg.isy.liu.se/courses/tsbk02/

- labbokning, labbanvisningar, extramaterial

Kurslitteratur:

Page 4: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Bild- och ljudkodning

Syfte: effektiv (digital) representation av bilder, video, tal och musik.

Bivillkor:- god kvalitet- tålighet mot kanalfel- realtidsprestanda- kostnadseffektiv

Page 5: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Bild- och ljudkodning

Bild/Ljudkodning

Telekommunikation

Digital signalbehandling

Datorgrafik

Bildanalys

Psykoakustik

Spektralanalys

Perception

Talsyntes

Page 6: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Tillämpningar

StillbilderFaxTeleradiologiWebbDigitalkamerorBilddatabaser

VideoBildtelefoniVideokonferensMultimediaVideokamerorDigital-TVDVD, Blu-ray

LjudCDMobiltelefonerMP3-spelareDABFilm/video-ljud

Page 7: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

g

Ericsson 1905 Smartphone 2014

Telefoni

Page 8: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Baird 1930

Television

OLED 2014

Page 9: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Den elektroniska bilden – analogt format

Bilden avsöks linje för linje och ger upphov till en analog signal. I Bairds mekaniska TV-system användes 30 linjer och videobandbredd ca 10 kHz.

Page 10: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

En bildpunkt representeras med en eller flera databitar.

Representationen kallas Pulskods-modulation (PCM).

Bildpunkt (pixel)

Den elektroniska bilden – digitalt format

Page 11: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Bilder: hur många bildpunkter?

Baird 30*50 (ca)TV (PAL) 720*576HDTV 1920*1080QFHD 3840*2160Digitalkamera 2 - 40Milj.

Page 12: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Hur många bitar per bildpunkt?

Bitar/bildpunkt Bildtyper Exempel

148

12-168*3=248*4=32

binära faxenkel datorgrafik tidiga spelgråskalebilder telefotohögkontrast röntgenFärgbilder (RGB) digital fotoRGB med alpha datorgrafik

Page 13: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Ljud: antal bitar per sampel och per sekund

(PCM-kodning)•16 bitar per sampel•44100 sampel per sekund•Två kanaler•=>1.4 Mbit/s•Betraktas ofta som referens (”okomprimerat ljud”)

•Modern kodningsmetoder: 64 kbit/s med god kvalitet

CD-kvalitet

Digital telefoni•8 bitar per sampel•8000 sampel per sekund• => 64 kbit/s•Moderna kodningsmetoder: 4 kbit/s med god kvalitet

Page 14: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Video: antal bitar per sekund (PCM-kodning)

•3*8 bitar (RGB) per bildpunkt

•720*576 bildpunkter per bild (PAL)

•25 bilder per sekund• => 250Mbit/s

TV-kvalitet

HDTV-kvalitet

•3*8 bitar (RGB) per bildpunkt•1920*1080 bildpunkter per bild (1080i)•25 bilder per sekund• => 1.24Gbit/s

Page 15: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Video: kodningsmetoder

8 16 64 384 1.5 5 20

kbit/s Mbit/s

Very low bitrate Low bitrate Medium bitrate High bitrate

3G Mobilevideophone

Digital TV,DVD

HDTVVideo CD

MPEG-4H.264

MPEG-1 MPEG-2H.261H.263

Model-basedVideo coding

Page 16: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Distorsionsfri (”lossless”) kodning(Datakompression)

Representera en digital signal med färre bitar än originalet på så sätt att signalen kan rekonstrueras exakt. Den undre begränsningen ges av entropin för data (baseras på Informationsteori).

Exempel: ZIP, compress, GIF, PNG, FLAC

Page 17: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Distorderande (”lossy”) kodning

Representera en digital eller analog signal med så få bitar som möjligt så att signalen kan rekonstrueras med godtagbar kvalitet.

Exempel: GSM, JPEG, MPEG-2, H.264, MPEG-1 layer 3 (mp3), AAC, WMA,...

Page 18: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Typisk kodarstruktur

Analogsignal

Samplingkvantisering

Distorderandekodning

DistorsionsfriKodning

DigitalSignal(PCM)

Distorderaddigital signal

Page 19: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Kodning av bild och ljud bygger på modeller

t

S(t)

Genereringsmodeller

• 3D-objekt• belysning• kameraprojektion• ljudgenerering

Signalmodeller Syn/hörsel-modeller

• determ. modeller• statistiska modeller

• spatio/temporal modeller• maskeringsegenskaper

Modellbaseradekodningsmetoder

Signalteoretiskakodningsmetoder

Perceptionsbaseradekodningsmetoder

Page 20: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Statistiska signalmodeller

Minnesfria signaler

Signaler med minne

Signalvärden är beroende av ett eller flera övriga signalvärden.

t

t

Varje signalvärde är oberoende av övriga signalvärden.

Page 21: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Markov-modellen

s

s

s

1

3

212

11

21

13

31

23

32

P

P

PP

P

PP

PP

22

33

Exempel på statistisk modell för signaler med minne

Page 22: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Autoregressiv modell

- en amplitudkontinuerlig Markovmodell

xk

xk = aixk-i + nk nk: minnesfri process

Lämpar sig väl för att modellera ljudsignaler

Page 23: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Korrelationsmodell

För bilder kan 2-dimensionella korrelationsfunktioner vara användbara:xij

xkl

eller

Page 24: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Exempel på kodning av minnesfri källa

Gråskalebild med nivåer mellan 0 - 3.Statistisk redundans: de olika nivåerna förekommer olika ofta (se figur).Kodningsmetod: Variabel-längdkodning (VLC)

%

nivå

50

0 1 2 3

PCM0 - 001- 012 - 103 - 11

VLC0 - 03 - 101 - 1102 - 111

2 bitar/bildpunkt 1.75 bitar/bildpunkt i genomsnitt!

Page 25: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Exempel på kodning av minneskälla

Bildtyp: fax.Statistisk redundans: närliggande bildpunkter har ofta

samma värde.Kodningsmetod: koda skurlängderna.

Skurkod: 15,15,15,4,5,6,4,6,5,3,…

Antag 4 bitar/skur: 45*4 = 180 bitar jfr. okodat: 15*15 = 225 bitar

Page 26: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Prediktiv kodning (DPCM)(för AR-processer)

t

Prediktion(linjär/rörelse- kompenserad)

VLC

Princip: • gissa (prediktera) hur bilden ser ut,• beräkna skillnaden (felbilden),• variabel-längdkoda felbilden.

Page 27: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Transformkodning

(för 2D-korrelerade källor)xij

xkl

Page 28: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Modellbaserade kodningsmetoder

- används vid kodning av talsignaler

- och för kodning av ansiktsbilder

Page 29: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Perceptionsbaserade kodningsmetoder(är mer användbara för ljudkodning än för bildkodning)

dB

0

10

20

30

40

2 4 6 8 10 12 kHz

Dämpningskurva

Page 30: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Fraktalkodning

Grundidé: sök självliknande delar i bilden...

sådan symmetri ger enkel matematisk beskrivning...

Page 31: Föreläsning 1: Bild- och ljudkodning

Robert Forchheimer, Linköpings Universitet

Fraktalkodning, forts.

Varje bild kan göras självlik...