evaluering af punktfindere ved indholdsbaseret billedsøgning

20
Evaluering af Evaluering af punktfindere ved punktfindere ved indholdsbaseret indholdsbaseret billedsøgning billedsøgning Speciale – Jacob Rohde Speciale – Jacob Rohde

Upload: dimaia

Post on 20-Mar-2016

52 views

Category:

Documents


4 download

DESCRIPTION

Evaluering af punktfindere ved indholdsbaseret billedsøgning. Speciale – Jacob Rohde. Plan. Hvad er indholdsbaseret billedsøgning? De 4 punktfindere Beskrivelse af lokale gradientretninger med SIFT deskriptoren Segmentering ved K-means Resultat/Konklusion. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Evaluering af Evaluering af punktfindere ved punktfindere ved indholdsbaseret indholdsbaseret billedsøgningbilledsøgning

Speciale – Jacob RohdeSpeciale – Jacob Rohde

Page 2: Evaluering af punktfindere ved indholdsbaseret billedsøgning

PlanPlan Hvad er indholdsbaseret Hvad er indholdsbaseret

billedsøgning?billedsøgning? De 4 punktfindereDe 4 punktfindere Beskrivelse af lokale Beskrivelse af lokale

gradientretninger med SIFT gradientretninger med SIFT deskriptorendeskriptoren

Segmentering ved K-meansSegmentering ved K-means Resultat/KonklusionResultat/Konklusion

Page 3: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Indholdsbaseret Indholdsbaseret billedsøgning (IBBS)billedsøgning (IBBS)

IBBS: indeksere og finde billeder på IBBS: indeksere og finde billeder på baggrund af deres visuelle indhold.baggrund af deres visuelle indhold.

Forskningsområde siden 1979.Forskningsområde siden 1979. Ordinær tekstbaseret søgning ikke Ordinær tekstbaseret søgning ikke

altid nok:altid nok: Billedmængden eksploderet, især siden Billedmængden eksploderet, især siden

Internettets kommen.Internettets kommen. Tekstuel annotation præget af Tekstuel annotation præget af

menneskelig subjektivitet.menneskelig subjektivitet.

Page 4: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Indholdsbaseret Indholdsbaseret billedsøgningbilledsøgning

Forespørgelsesbillede:Forespørgelsesbillede:

Resultatbilleder:Resultatbilleder:

Page 5: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Indholdsbaseret Indholdsbaseret billedsøgningbilledsøgning

IBBSer kan kategoriseres: målsøgning, IBBSer kan kategoriseres: målsøgning, kategorisøgning eller associativ søgning.kategorisøgning eller associativ søgning.

Målsøgning: Søgning efter et specifik Målsøgning: Søgning efter et specifik objekt/billede, f.eks. i kunstkatalog.objekt/billede, f.eks. i kunstkatalog.

Kategorisøgning: Billeder Kategorisøgning: Billeder repræsentative for en specifik kategori.repræsentative for en specifik kategori.

Associativ søgning: Simpel ”browsing”, Associativ søgning: Simpel ”browsing”, tit interaktivt.tit interaktivt.

Page 6: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Indholdsbaseret Indholdsbaseret billedsøgningbilledsøgning

Et billede repræsenteres ved dets Et billede repræsenteres ved dets egenskaber:egenskaber: Farve.Farve. Tekstur.Tekstur. Form.Form. Etc.Etc.

Søgning: Sammenlign input-billedets Søgning: Sammenlign input-billedets egenskaber med egenskaber fra egenskaber med egenskaber fra basens billeder.basens billeder.

Page 7: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Indholdsbaseret Indholdsbaseret billedsøgningbilledsøgning

En eller flere egenskabsvektor(er) konstrueres. En eller flere egenskabsvektor(er) konstrueres. Repræsenterer billedets egenskaber kvantitativt.Repræsenterer billedets egenskaber kvantitativt.

Egenskabsvektoren kan være lokal eller global.Egenskabsvektoren kan være lokal eller global. Egenskaber: farve, tekstur, form, etc.Egenskaber: farve, tekstur, form, etc.

Page 8: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Indholdsbaseret Indholdsbaseret billedsøgningbilledsøgning

Mål: Sammenlign fire punktfindere i Mål: Sammenlign fire punktfindere i et setup: IBBS.et setup: IBBS.

Anvend dokumenterede og Anvend dokumenterede og anerkendte metoder.anerkendte metoder.

Harris

Hessian

SIFT Pedersen

SIFT deskriptor

Hessian

K-Means

Punktfindere:

Egenskabsvektor:

Indeksering:

Page 9: Evaluering af punktfindere ved indholdsbaseret billedsøgning

PunktfinderePunktfindere Finder interessante punkter:Finder interessante punkter:

Punkter med en klar, gerne matematisk, Punkter med en klar, gerne matematisk, definition.definition. Oprindeligt brugt ved objekt tracking og til at Oprindeligt brugt ved objekt tracking og til at

finde interessante områder (blob detektion).finde interessante områder (blob detektion). Nu også billede-matching og udsyns-baseret Nu også billede-matching og udsyns-baseret

objekt genkendelse.objekt genkendelse.

Vi ser også gerne at et sådanne punkt Vi ser også gerne at et sådanne punkt detekteres med en tilknyttet skala.detekteres med en tilknyttet skala.

Page 10: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Skala?Skala? Ting i den virkelige verden består af Ting i den virkelige verden består af

forskellige strukturer ved forskellige skalaer.forskellige strukturer ved forskellige skalaer. Skalarumsteori gør det muligt at håndtere Skalarumsteori gør det muligt at håndtere

repræsentationer af billeder ved flere repræsentationer af billeder ved flere skalaer, og derved anvende skala-invariante skalaer, og derved anvende skala-invariante metoder.metoder.

Skalaen repræsenteres ved en parameter: Skalaen repræsenteres ved en parameter: σσ.. Detaljer ”undertrykkes” ved højere skalaer.Detaljer ”undertrykkes” ved højere skalaer. Et billedes skalarepræsentation findes ved Et billedes skalarepræsentation findes ved

foldning med en Gauss:foldning med en Gauss: ),(),,(),,( yxfyxgyxL

Page 11: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Punktfindere – HarrisPunktfindere – Harris Harris klassiske hjørne- og kantfinder. Vi holder os til Harris klassiske hjørne- og kantfinder. Vi holder os til

hjørnerne.hjørnerne. Vi betragter et vindue omkring en pixel og sammenligner Vi betragter et vindue omkring en pixel og sammenligner

dette vindue med omkringliggende vinduer.dette vindue med omkringliggende vinduer. Ved at udregne summen af kvadraterne af Ved at udregne summen af kvadraterne af

intensitetsændringerne (SSD) kan vi udtale os om intensitetsændringerne (SSD) kan vi udtale os om ligheden mellem vinduerne.ligheden mellem vinduerne. Høj SSD i alle retninger: hjørnepunkt.Høj SSD i alle retninger: hjørnepunkt.

Auto-korellations matricen beskriver første ordens Auto-korellations matricen beskriver første ordens intensitetsstruktur i et lokalt område:intensitetsstruktur i et lokalt område:

To høje egenværdier = hjørnepunkt.To høje egenværdier = hjørnepunkt.

Page 12: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Punktfindere - PedersenPunktfindere - Pedersen Anvender en statistisk model for et billede: Anvender en statistisk model for et billede:

billederne udfald i en stokastisk generisk billederne udfald i en stokastisk generisk model for billeder. Interessante punkter er model for billeder. Interessante punkter er punkter der er usandsynlige under modellen.punkter der er usandsynlige under modellen.

Anvender skalarumsteori: punkter skala-Anvender skalarumsteori: punkter skala-invariante.invariante.

Finder normaliserede skalarums afledte og Finder normaliserede skalarums afledte og konstruerer et 2-jet i hvert punkt:konstruerer et 2-jet i hvert punkt:

Find punkter og deres skala, der minimerer Find punkter og deres skala, der minimerer modellens sandsynlighedsfunktion:modellens sandsynlighedsfunktion:

);,(),,,,(),( yxLLLLLyxj Txyyyxxyx

)),(( yxjp

Page 13: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Punktfindere - LowePunktfindere - Lowe Bruger også skalarumsteori.Bruger også skalarumsteori. Difference-of-Gaussian:Difference-of-Gaussian:

Lowe konstruerer en pyramide af DoG billeder. Lowe konstruerer en pyramide af DoG billeder. Pyramideformen fremkommer ved jævnligt at Pyramideformen fremkommer ved jævnligt at ”downsample” billedet.”downsample” billedet.

Punkterne i DoG billederne sammenlignes med Punkterne i DoG billederne sammenlignes med dens naboer i et 3x3x3 område. Detekteres som et dens naboer i et 3x3x3 område. Detekteres som et interessant punkt hvis det er højere/lavere end de interessant punkt hvis det er højere/lavere end de andre punkter.andre punkter.

Lowe ”forfiner” punkterne ved at ”fitte” dem til en Lowe ”forfiner” punkterne ved at ”fitte” dem til en 3D kvadratisk funktion, og ved at fjerne 3D kvadratisk funktion, og ved at fjerne kantpunkter.kantpunkter.

);,();,();,( yxLkyxLyxD

Page 14: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Punktfindere - HessianPunktfindere - Hessian En Hessian matrix er en kvadratisk matrix En Hessian matrix er en kvadratisk matrix

af alle andenordens partielt afledte af en af alle andenordens partielt afledte af en funktion af flere variabler.funktion af flere variabler.

I vores tilfælde en 2x2 matrix:I vores tilfælde en 2x2 matrix:

Interessante punkter detekteres som Interessante punkter detekteres som lokale maksima i matricens determinant:lokale maksima i matricens determinant:

))

))

;,(;,(;,(;,(

DyyDxy

DxyDxx

yxfyxfyxfyxf

H

2xyyyxx fffD

Page 15: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Hvad med skala i Harris og Hvad med skala i Harris og Hessian?Hessian?

Harris og Hessian har ikke Harris og Hessian har ikke skalaselektion ”indbygget” som i Lowe skalaselektion ”indbygget” som i Lowe og Pedersen.og Pedersen.

Vi skal derfor udføre en ”ekstern” Vi skal derfor udføre en ”ekstern” skalaselektion.skalaselektion.

Til det benyttet Laplace operatoren:Til det benyttet Laplace operatoren:

For hvert punkt finder vi Laplace For hvert punkt finder vi Laplace operatorens maksima.operatorens maksima.

));,();,((2 yxLyxL yyxx

Page 16: Evaluering af punktfindere ved indholdsbaseret billedsøgning

SIFT deskriptorSIFT deskriptor Beskriver den lokale struktur omkring et punkt. Beskriver den lokale struktur omkring et punkt.

Baseret på gradient data.Baseret på gradient data. 128-dimensionel vektor!128-dimensionel vektor! Invariant overfor visse billedtransformation, Invariant overfor visse billedtransformation,

herunder skala.herunder skala. Rotationsinvarians opnås ved at beregne Rotationsinvarians opnås ved at beregne

deskriptoren i forhold til punktets (gradient) deskriptoren i forhold til punktets (gradient) retning, så hvert punkt tildeles først en retning.retning, så hvert punkt tildeles først en retning.

Skalainvarians opnås ved at benytte Skalainvarians opnås ved at benytte skalarumsbilleder.skalarumsbilleder.

Page 17: Evaluering af punktfindere ved indholdsbaseret billedsøgning

Indeksering/SøgningIndeksering/Søgning Vi segmenterer egenskabsvektorerne i homogene Vi segmenterer egenskabsvektorerne i homogene

klynger.klynger. K-means:K-means:

Vælger klyngernes centrum.Vælger klyngernes centrum. Tildeler objekterne til de nærmeste klyngerTildeler objekterne til de nærmeste klynger Udregner nyt centrumUdregner nyt centrum Færdig? Færdig?

Problemer med K-means:Problemer med K-means: Stærkt afhængig af den første ”seedning” af Stærkt afhængig af den første ”seedning” af

klyngecentrumerne.klyngecentrumerne. At vælge et fornuftigt klyngeantal kan være svært.At vælge et fornuftigt klyngeantal kan være svært.

Resultatet skrevet til en ”inverted” fil.Resultatet skrevet til en ”inverted” fil. Ved søgning:Ved søgning:

Find punkter, udregn egenskabsvektorer, find nærmeste Find punkter, udregn egenskabsvektorer, find nærmeste klyngecentrum. klyngecentrum.

Find billeder fra basen med fælles klynger.Find billeder fra basen med fælles klynger.

Page 18: Evaluering af punktfindere ved indholdsbaseret billedsøgning

ResultaterResultater Anvender en ”ground-truth” billedsamling.Anvender en ”ground-truth” billedsamling. Følgende mål evalueres: Følgende mål evalueres:

Rangen af første relevante billede.Rangen af første relevante billede. Præcision (forholdet mellem antallet af relevante Præcision (forholdet mellem antallet af relevante

returnerede billeder og det totale antal returnerede returnerede billeder og det totale antal returnerede billeder); siger noget om støjen.billeder); siger noget om støjen.

””Recall” (forholdet mellem antallet af relevante Recall” (forholdet mellem antallet af relevante returnerede billeder og det totale antal relevante returnerede billeder og det totale antal relevante billeder); siger noget om hvor meget vi gik glip af.billeder); siger noget om hvor meget vi gik glip af.

Normaliserede rang: gennemsnitlige rang af Normaliserede rang: gennemsnitlige rang af relevante billeder (en værdi på 0 betyder at alle relevante billeder (en værdi på 0 betyder at alle relevante billeder blev returneret først mens en relevante billeder blev returneret først mens en værdi på ½ betyder tilfældig returnering).værdi på ½ betyder tilfældig returnering).

Page 19: Evaluering af punktfindere ved indholdsbaseret billedsøgning

ResultaterResultater Selvom om Harris detektoren er overlegen Selvom om Harris detektoren er overlegen

hvad angår rangen af første relevante hvad angår rangen af første relevante billeder, og Pedersen detektoren har en billeder, og Pedersen detektoren har en generelt bedre normaliseret rang af alle generelt bedre normaliseret rang af alle punktfinderne. Så punktfinderne. Så står ingen af detektorerne står ingen af detektorerne frem som markant bedre end resten!frem som markant bedre end resten!

Variationen i den normaliseret rang var større Variationen i den normaliseret rang var større ved anvendelse af forskellige klyngestørresler ved anvendelse af forskellige klyngestørresler ved indekseringen end den var anvendelsen af ved indekseringen end den var anvendelsen af de forskellige punktfindere!de forskellige punktfindere!

Page 20: Evaluering af punktfindere ved indholdsbaseret billedsøgning

KonklusionKonklusion Ingen af punktfinderne synes at være Ingen af punktfinderne synes at være

markant bedre end resten.markant bedre end resten. Noget kunne Noget kunne tydetyde på at elementer som på at elementer som

indekseringen kan have en større indekseringen kan have en større indflydelse på en endelige ”performance”.indflydelse på en endelige ”performance”.

Masser af muligheder for forbedringer:Masser af muligheder for forbedringer: Bedre indeksering (ny metode, bedre Bedre indeksering (ny metode, bedre

parameterestimation).parameterestimation). Prøv flere billeddatabaser.Prøv flere billeddatabaser. Eksperimenter med vægtene.Eksperimenter med vægtene. Eksperimenter med stop-lister.Eksperimenter med stop-lister.