multimodális beszéd

Post on 25-Jan-2016

38 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Pázmány Péter Katolikus Egyetem Információs Technológiai Kar. Multimodális beszéd. Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások). Srancsik Bálint. Miért fontos a FA?. Többletinformációt adhat Érzelem kifejezése Zajos környezetben növeli az érthetőséget - PowerPoint PPT Presentation

TRANSCRIPT

Multimodális beszéd

Facial Animation alapjai

(szabványok, rendszerelemek, megvalósítások)

Srancsik Bálint

Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar

Miért fontos a FA?

• Többletinformációt adhat

• Érzelem kifejezése• Zajos környezetben

növeli az érthetőséget• Hallók és siketek közti

kommunikáció• stb…

FA jellegzetességei

Beszéd• Intonáció• Hangerő• Ritmus• Hangszín

• Fonéma

• 8000 - 48000 Hz

Vizuális beszéd• Ajak• Nyelv• Fogak• Arcpofa

• Vizéma

• 25 - 100 fps

Magyar vizémakészletMGH MSH

E B, P, M

É F, V

I T, D, N

Ö, O R

Ü, U SZ, Z, C, DZ

Á L

A S, ZS, CS, DZS

TY, GY, J, NY

K, G

H

Teszt

Teszt eredmény (MSH)

Mi köze a FA-nek az informatikához vagy a távközléshez?

• Filmek• Játékok• Web• Videotelefon• Mesterséges intelligencia• Virtuális lények• stb…

FA – informatikai megközelítés

Kutató• Modellezési és

animálási eljárások• Face tracking (real

time)• Beszélő fejek hang

alapján• stb…

Művész• FA csak egy része

a projektnek• A létező legjobb

eljárást használják• „Létező” azt jelenti,

hogy a 3D-s szoftverbe be van építve

FA – informatikai megközelítés

Kutató MűvészMPEG-4

De az MPEG-4 nem a tömörítésről szól?

• Főként!• A szabvány elkészítéséhez sok

munkacsoportot hoztak létre• Az egyik a Synthetic Natural Hybrid Coding

lett. (SNHC) Feladata pl. a 2D-s és 3D-s grafikák bevezetése a szabványba

• SNHC egy része a Face and Body Animation (FBA) lett. Feladata az arc képének kódolás és dekódolása

Encoder és decoder

Encoder

?

Decoder

?Adat

formátum

Az MPEG-4 FBA-ban nincs szabványosítva a kódoló és a

dekódoló

Paraméterezés

Az ideális paraméterezés

• Ábrázolhatóság• Használhatóság• Kidolgozottság• Orthogonalitás• Absztrakciós képesség• Megjósolhatóság• Hordozhatóság• Mérhetőség• Hatékonyság

Az MPEG-4 FA ideális?

Megvizsgáljuk!

Előtte azonban néhány kifejezés:

FDP – Face Definition Parameter

FP – Feature Point

FAP – Facial Animation Parameter

FAPU – Facial Animation Parameter Unit

(FAT – Face Animation Tables)

FDP

Feladata a 2 vagy 3 dimenziós modell alakjának, textúrájának leírása. Ezen felül alapot szolgáltat az animáláshoz, de magát a mozgatást nem ő végzi.

Az FDP lényegében arra használják, hogy egy általános arcból egy egyedi arcot definiáljanak.

Az arc alakjának definiálására használják az FP-ket.

FP

FP

Az MPEG-4 84 FP-t határoz meg a természetes arc leírásához.

Egy MPEG-4 kompatibilis modellhez az FP-k helyzetének pontos ismerete szükséges

Az FP-ket két részre lehet osztani:

Más FP-kel mozgatott FP-k•FAP-ok által mozgatott FP-k

mozgatják•Csak definiálnak•Pl.: Hajon lévők

Külön mozgatott FP-k•FAP-ok mozgatják

•Definiálnak és mozgatnak•Pl.: Ajak körvonalán lévők

FAPAz FP mozgatása a

feladata. Tehát lényegében az animálás.

Az encoder és a decoder között ezek mennek át.

A szabvány 68 paramétert különböztet meg 10 csoporban.

FAP-ok reprezentálják az alap arcmozgásokat.

FAPAz első csoportba tartozó két FAP magas

szintű paraméter -> előre definiált komplexebb mozgásokat lehet végrehajtani velük.

1. Vizéma

Az angol fonémáknak megfelelő vizémákat állítják elő.

2. Arckifejezés

A hat alapérzelem kifejezésére használják.

(Ezek kombinálásából több is előállítható)

FAPA többi 66 FAP alacsony szintű FAP.

Ez azt jelenti, egy vagy több FP-t mozgat. (Akár az összes FP-t)

Az alacsony szintű FAP-oknak nagyobb a prioritása.

Egy FAP lehet egy- vagy többirányú.

A szabvány miden egyes FAP-ra definiálja a pozitív irányú mozgást illetve hogy egy- (U) vagy többirányú (B).

FAPA mozgatás során a kívánt FAP-oknak

megfeleltetünk egy-egy értéket.

Pl.: (FAP 17)=100

De mit jelent, hogy 100?

- mm?- egység?- pixel?

A válasz: hat féle mértékegység van:

IRISD; ES; ENS; MNS; MW; AU

FAPU

FAPUA konkrét mértékegységek a következők:

IRISD=IRISD0/1024

ES=ES0/1024

ENS=ENS0/1024

MNS=MNS0/1024

MW=MW0/1024

AU=10E-5 rad

FAPUA FAPU minden modellre más és más.

A szabvány leírja, hogy melyik FAP-ot melyik FAPU-ban mérik.

Tehát a FAPU modellfüggő, MPEG-4 szabványú modell mozgatásához elengedhetetlen ezek ismeret.

17 push_t_lip Depth displacement of top middle lip

MNS B forward 2 2 1 +-1080 +-360

FA megvalósításaTehát az MPEG-4 szabvány leírja, hogy

hogyan mozognak az FP-k a FAP-ok függvényében.

De hogyan mozog a modell az FP-k függvényében?

Grafikai alapokVertex: pont 3D-ben, három koordinátával adott.

Mesh: rács 3D-ben, tetszőleges két vertex össze vannak kötve.

Polygon: felület 3D-ben, tetszőleges három (vagy több) vertex által meghatározott sík.

Normál: irány 3D-ben, a polygon normálvektora.

IndexedFaceSet: a vertexek sorozata, indexelve és megadva azok poziciója.

coordIndex: mely három (vagy több) vertex határoz meg egy polygont, és hogy az merre néz; a vertex-indexekkel van megadva.

FA megvalósítása

FP

Hatókör

FA megvalósításaEgy FP csak a neki definiált hatókörön

belüli vertex-eket mozgatja.

De a vertex mozgatás nem lineáris. Az FP-től mért távolsággal arányos.

Tehát azokra a vertexekre kevésbé hat, melyek a hatókör szélén vannak, míg a belsőkre jobban.

De a vertex mozgása a távolság arányában sem lineáris. Általában koszinuszos.

FA megvalósításaProbléma lehet a hatókör

definiálása. Főleg a száj környékén.

Hiszen az ajaknál nem biztos, hogy szabad mozgatni a közeli vertexeket.

Megoldás: az FP-hez tartozó vertexeket fel kell sorolni!

Az MPEG-4 FA ideális?

• Ábrázolhatóság • Használhatóság• Kidolgozottság• Orthogonalitás• Absztrakciós képesség• Megjósolhatóság• Hordozhatóság• Mérhetőség• Hatékonyság

Nem ideális!

(De minden eddiginél jobb)

A Pázmány és más speech to animation rendszerek

összehasonlítása

Speech Text Aniamtion

ÖsszehasonlításMás rendszerek (speech to text; text to animation)

Speech Text Aniamtion

Pázmány rendszer (speech to animation)

Más rendszerek

Pázmány rendszerek

Synchronised audiovisual Database

Video preprocessing

Audio preprocessing

MPEG4 based facial animation

model

FP Feature points

coordinates

Acoustic feature extraction

NN

PCA-1

w1 … w6 weights of the

principal components

MFCC

Audiovizuális adatbázis

MPEG4 pontokdetektálása

Javítás

MPEG4 pontokazonosítása

6D PCA 30-32D Koordinátatranszformációk

Szűrés

Log.txt

Audiovizuális-adatbázis

MPEG4 pontokdetektálása

Javítás

MPEG4 pontokazonosítása

6D PCA 30-32D Koordinátatranszformációk

Szűrés

Log mátrix

Audiovizuális adatbázis

Szűrés

-deinterlace az frame-ek közti átmenet „simítására”

-HSV adjust a saturation eltolására, így a világosabb pontok jobban kiemelődtek

MPEG4 pontok azonosítása

Abszolút koordináta rendszer

Relatív koordináta rendszer

Audiovizuális-adatbázis

MPEG4 pontokdetektálása

Javítás

MPEG4 pontokazonosítása

6D PCA 30-32D Koordinátatranszformációk

Szűrés

Log mátrix

Eredeti

Előállított

Első négy főkomponens

Idő

Hanghullám

Lucia

Log to Lucia konverzió

Log mátrix

MPEG-4 szerintimegfeleltetés

Skálázás és irány

Lucia

Normálás(referencia frame)

Medián szűrő

Teszt

47,9%52,1%

54,9%

45,1%

97,1%

2,9%Teszt eredménye

Jeltolmács

Lucia (pont) Lucia (hang)

Talált

Nem talált

Hisztogram

Hisztogram

Hisztogram

Hisztogram

Hisztogram

Hisztogram

Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar

Köszönöm a figyelmet!

top related