Download - Detectarea automată a comportamentului mulţimilor

UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI

R E F E R A T CAPITOLE SPECIALE DE TEORIA

INFORMAŢIEI

Modele Markov cu stări invizibile (Hidden MarkovModels) pentru detectarea automată a comportamentului mulţimilor folosind

camere video de supraveghere

Masterand: CAPTARI Ionuţ

1


Folosirea camerelor de supraveghere s-a intensificat în ultimii ani datorită costului scăzut şi

a necesităţii de a supraveghea locurile publice. Dar cu toate acestea, nu se poate face o analiză

manuală a acestor date. Astfel, se cer metode robuste şi automatizate pentru procesarea acestor

mari cantităţi de date. Acest referat propune un cadru de lucru(framework1) pentru a adresa

această problemă.

Analiza mulţimii este obţinută în informaţia surprinsă de cameră folosind streaming-ul

optic. Modele Markov cu stări invizibile(Hidden Markov Model 2-HMM) şi Reţele Bayesiene3

sunt comparate pentru a înţelege comportamentul agenţilor pe scenă.

Rezultatele experimentale sunt obţinute doar la câteva secvenţe unde apare furtul sau o

luptă. Rezultatele vor putea fi şi mai bine reliefate în cadrul unui sistem automatic care gaseşte

evenimente anormale.

1 Introducere

Sistemul tipic de supraveghere pentru o arie mare este caracterizat de o reţea mare de

camere CCTV, toate conectate la o cameră de control, unde un operator uman are dificila sarcină

să le monitorizeze pe toate. Acest fapt duce la o sitiaţie nedorită, din moment ce operatorul poate

să fie atent doar la o mica parte din ce este arătat pe monitoare. În consecinţă, sarcina de a detecta

un comportament anormal este imposibil de executat într-un timp scurt, forţând aparatura de

supraveghere să fie folosită pentru post-analiză atunci când apar situaţii.

În mod normal, sistemele de supraveghere sunt instalate în locuri publice, acoperind arii

mari, unde un număr mare de oameni populează câmpul de vedere al camerei. Astfel, operatorul

de sistem începe să îşi vadă munca sa devenind mai dificilă în a identifica comportamente

anormale dar deasemeni creşte interesul pentru analiza comportamentului mulţimilor.

Analiza comportamentului mulţimilor a fost ţinta multor studii din diferite domenii, de la

studii sociale până la simulări şi câmpuri grafice generate. Toate domeniile au contribuit cu

modele şi similarităţi pentru a caracteriza comportamentul mulţimilor. Acest subiect este

1 http://ro.wikipedia.org/wiki/Framework2 http://en.wikipedia.org/wiki/Hidden_Markov_model3 http://ro.wikipedia.org/wiki/Re%C8%9Bea_bayesian%C4%83

2

http://ro.wikipedia.org/wiki/Re%C8%9Bea_bayesian%C4%83

http://en.wikipedia.org/wiki/Hidden_Markov_model

http://ro.wikipedia.org/wiki/Framework


considerat ca o nouă arie de interes, pentru cercetători, dacă se foloseşte computerul, dat fiind

potenţialul pentru crearea a noi domenii de aplicare, ca de exemplu detectarea automată de

revolte sau acte haotice la mulţimi şi localizarea regiunilor cu anormalităţi din scene.

În acest referat, s-au studiat două scenarii cu două camere video de supraveghere: un furt la

un bancomat(ATM) şi o luptă în spaţiul deschis. Se propune un framework pentru a procesa

aceste date pentru a extrage observaţii, şi apoi să fie folosite utilizând un Model Markov cu stări

invizibile şi o reţea Bayesiană(BN).

Din cauza lipsei de date apriorice, stadiul de învăţare pentru ambele metode constă în

cunoaşterea şi experienţa a ceea ce deseori este asociat cu un comportament normal pentru un

scenariu particular. Rezultatele pentru fiecare metodă sunt obţinute din asemănarea

comportamentulului normal, traducând probabilitatea unei observări ca fiind normală, dat un set

de caracteristici de intrare.

În consecinţă, acest referat face un studiu de comparaţie între două metode pentru a

clasifica observaţiile în comportamente normale şi anormale.

În secţiunea 2, se face o prezentare succintă a anlizei mulţimii. Secţiunea 3 tratează

comportamentul mulţimii folosind ambele metode(HMM şi BN). În Secţiunea 4, se prezintă

rezultatele experimentale şi comparaţii ăntre metode iar în Secţiunea 5 sunt prezentate

concluziile.

Lucrări relaţionate

Analiza comportamentului mulţimilor a fost un subiect important de cercetare în ultimii

ani. Folosind computerul, există două moduri principale de abordare pentru rezolvarea acestei

probleme. Metoda de abordare bazată pe obiect consideră mulţimea ca o colecţie de indivizi[20,

15]. Cere segmentarea sau detecţia în fiecare obiect pentru a înţelege comportamentul mulţimii.

Studiile propuse de [13] detectează persoanele din scenă şi ia în consideraţie şi densitatea de

persoane. Studiile propuse de [8] urmareşte mişcările fiecărului individ din mulţime folosind un

framework Bayesian. Cu toate eforturile de a dezvolta tehnicile bazate pe obiect, sunt multe

dificultăţi intrinseci relaţionate cu această tehnică. Dificultăţile sunt legate de densitatea

persoanelor din mulţime, segmentare şi urmărire în imagini.

Studii care consideră mulţimea ca pe un întreg au căpătat o mare importanţă în ultimii ani

[5, 2]. Acestea consideră mulţimea ca o entitate globală şi o analizează în scene cu densitate

3


medie sau înaltă. În lucrarea propusă de [17], se folosesc tehnici de modelare a scenei pentru a

surprinde caracteristici ce duc până la analiza comportamentului mulţimilor, în loc să se

urmărească obiecte individuale.

Recent, o metodă bazată pe Social Force Model [10] a fost propusă pentru analiza

comportamentului mulţimilor [14]. Aceasta foloseşte un set de particole pentru estimarea

interacţiunii între indivizi. [3] a propus o apropiere hibridă pentru urmărirea oamenilor în mulţimi

foarte dense. În [19] se face o importantă reevaluare a analizei mulţimii şi prezintă cercerările

recente şi direcţiile de evoluţie a diferitelor comunităţi de cercetare.

În lucrarile precedente [4], este folosit fluxul optic în imagini termale şi număratul

persoanelor ca o caracteristică pentru a înţelege comportamentul mulţimii. Mai mult decât atât,

HMM este folosit pentru a obţine informaţii de comportament din scenă. În lucrarea lui [7] se

folosesc Modele Markov cu stări invizibile [16] ca uneltă de modelare a comportamentului. Aici

este modelat comportamentul acţiunii faciale. În [5], comportamentul mulţimii este modelat

folosind HMM. Pe de altă parte, reţeaua Bayesiană este o metodă probabilistică folosită pentru a

înţelege comportamente. În studiile lui [9], este propus un framework pentru înţelegerea scenelor

cu ajutorul mai multor camere, folosind reţele Bayesiane pentru analiza comportamentelor bazate

pe evenimente.

2 Analiza mulţimii

În acestă lucrare, se propun două caracteristici pentru a detecta comportamentul mulţimii.

Mărimea mulţimii şi activitatea mulţimii se pot estima din secvenţe de film folosind un set de

camere:

2.1 Estimarea mărimii mulţimii

Prin detectarea si urmărirea persoanelor se poate face o estimare a mulţimii cu doar o simplă

numărare. Oricum, dacă luăm în considerare situaţii cu o densitate foarte mare, detectarea

indivizilor poate deveni foarte dificilă. Din acest motiv alegem o măsură mai mică a mărimii

mulţimii. Observarea mărimii mulţimii sunt facute considerând porţiunea cea mai apropiată din

aria de control a camerelor. Mărimea ariei de control este aleasă astfel încât pixelii zonei celei

mai apropiate detectate aproximează rezonabil numărul de persoane din zona de control pe baza

4


unui factor de calibrare constant(de exemplu, aria tipică proiectată de o persoana la această

distanţă). Pentru estimarea zonei de fundal şi frontală se procedează astfel:

Fundalul se estimează folosind o mediană ca în [12, 6]. Fundalul updatat este mascat

mai departe cu weighting 4mask(se sustrag curbele uşoare şi se face o analiză

spectrală) bazată pe detecţia facută în porţiunea cea mai apropiată detectată pentru a

evita persoanele statice să fie asimilate cu fundalul.

Probabilitatea pentru zona frontală este detectată ca pf =1−pb, unde pb este bazat pe

un model Gaussian 5cu imaginea de fundal ca mijloc şi o covariere estimată ori ca o

aproximare de quartilă[6] ori ca o covariere normală.

Figura 1 prezintă numarul oamenilor dintr-o zonă apropiată unui bancomat, unde se petrece

un furt. Axa Y reprezintă numărul persoanelor şi axa X reprezintă timpul. La început este doar o

persoană apropiată de bancomat apoi sunt două persoane apropiate de bancomat. După furt, cel

furat aleargă după hoţ şi dispar din vederea camerei. Această informaţie, împreună cu informaţiile

de mişcare din toată zona(nu doar aproape de bancomat) poate da informaţii importante asupra

evenimentului.

Figura 1: Estimare a mărimii mulţimii

în cazul scenariului cu bancomatul

Deasemeni putem folosi număratul persoanelor pentru a obţine informaţii despre

schimbările în marimea mulţimii într-o perioadă de timp scurt. Prin compararea marimii

mulţimii de la un timp la altul se poate obţine o măsură a gradului de mişcare. O schimbare

mare poate însemna implicit că personae intră sau ies din mulţime. Poate însemna deasemeni că

sunt multe mişcări în scenă şi densitatea şi umbrele contribuie la schimbarea mărimii mulţimii.

4 http://en.wikipedia.org/wiki/Weighting5 http://www.mathworks.com/help/curvefit/gaussian.html

5

http://www.mathworks.com/help/curvefit/gaussian.html

http://en.wikipedia.org/wiki/Weighting


Această informaţie poate fi folosită ca şi complement al informaţiilor activităţilor din stream-ul

optic. În studiile lui Andersson şi al [4], mărimea mulţimii este estimate folosind TIR (Thermal

InfraRed). Această metodă este folosită pentru a estima mărimea mulţimii în scenarii de luptă.

2.2 Estimarea activităţii mulţimiiNivelul de activitate într-o scenă, de exemplu măsura în care o persoană merge, aleargă,

dă din mâini etc., poate fi estimată brut măsurând stream-ul optic într-una sau mai multe vederi

ale scenei. Stream-ul optic într-o vedere specifică este măsurat prin calcularea mişcării aparente

a fiecărui pixel de la un frame video la următorul. De aici rezultă un camp de vectori, unde

lungimea fiecărui vector corespunde cu magnitudinea estimată a mişcării la o poziţie în imagine.

Măsurarea activităţii este obţinută ca suma la pătrat a magnitudinilor mişcării, ori într-o regiune

de interes sau în toată imaginea. Motivul pentru care ridicăm la pătrat magnitudinile este pentru

că mişcările foarte rapide ce acoperă o mică porţiune din imagine (de exemplu mişcări ce pot

apărea într-o luptă) ar trebui să afecteze estimarea într-o mare măsură. Dacă magnitudinile sunt

folosite direct, astfel de mişcări mici sunt amestecate cu numărul mare de vectori de mică

magnitudine ce apar de la, de exemplu, persoane care merg.

Când se măsoara nivelul de activitate într-un singur cadru, mişcările spre camera nu

afectează estimarea în proporţie mare. De aceasta este de preferat să folosim mai multe came.

Din moment ce stream-ul optic este calculat prin compararea a perechi de imagini, este evident că

se impune ca aceste camere să fie statice.

Figura 2: Stream-ul optic de la una din camere

pentru scenariul cu bancomatul.

3 Modelarea comportamentului mulţimiiAici se descriu doua metode folosite la detectarea comportamentului mulţimii. Acestea sunt

bazate pe apropieri probabilistice. Teoria Bayesiană ne oferă posibilitatea să lucrăm cu date

incomplete şi nesigure, poate face predicţii asupra evenimentelor viitoare şi oferă o schemă 6


pentru învăţare.

Modelele specializate care sunt incluse în framework-ul Bayesian sunt cunoscute sub

numele de Modele Markov cu stări invizibile (HMMs), Filtre Kalman6, Filtre de Particule7 şi,

mai generic, reţele Bayesiene. Aceste modele sunt folosite într-o varietate mare de aplicaţii

tehnice. Descoperiri recente indică faptul că modelele Bayesiene pot fi utile în modelarea

proceselor cognitive [18]. Descoperirile asupra creierului uman şi a calculelor sale asupra

percepţiei arată că metodele Bayesiene au avut succes în crearea teoriilor computaţionale asupra

percepţiei şi a controlului senzorial-motric [11].

3.1 Modele Markov cu stări invizibileVom propune procesarea datelor provenite de la un grup de senzori optici(vizual şi thermal

infrared8) pentru a extrage observaţii binare ce descriu mulţimea şi le vom folosi ca date de

intrare pentru un model Markov cu stări invizibile, unde stările invizibile reprezintă

comportamentul mulţimii. Aceasta se va face deasemeni pentru două scenarii (vezi [4]).

HMM-ul este un proces stochastic 9dublu înglobat care are un proces stochastic de fond

neobservabil. Acest proces stochastic de fond poate fi observat prin alt proces stochastic care

produce secvenţe de observaţii [16]. Stările reprezintă câteva condiţii neobservabile ale

sistemului. În fiecare stare există o oarecare probabilitate de producere a oricărui rezultat

observabil al sistemului împreună cu probabilitatea ce indică verosimilitatea următoarelor stări.

HMM-ul (λ) este descris de următorii parametri:

λ=( A , B , π , S , O ) (1)

unde A este distribuirea probabilă a tranziţiilor de stare, B este distribuirea probabilă a

observaţiilor în fiecare stare, π este distribuţia iniţială a stării , S sunt stări în model şi O sunt

simboluri de observare discrete per stare. Parametrii pentru A, B, şi π sunt obţinuţi învăţând λ cu

date de exerciţiu relevante.

Folosim λ pentru modelarea comportamentului normal a mulţimii. O probabilitate mare

pentru o secvenţă de observare OS indică faptul că mulţimea are un comportament aparent

normal. O probabilitate mică indică un comportament anormal. Simbolurile de observare ce

6 http://en.wikipedia.org/wiki/Kalman_filter7 http://en.wikipedia.org/wiki/Particle_filter8 http://en.wikipedia.org/wiki/Thermal_infrared_spectroscopy9 http://ro.wikipedia.org/wiki/Proces_stochastic

7

http://ro.wikipedia.org/wiki/Proces_stochastic

http://en.wikipedia.org/wiki/Thermal_infrared_spectroscopy

http://en.wikipedia.org/wiki/Particle_filter

http://en.wikipedia.org/wiki/Kalman_filter


reprezintă o mulţime, în acest studiu, includ mărimea mulţimii şi mişcare a persoanelor din

mulţime. Observaţiile vin de la senzorii optici distribuiţi(camere de vizualizare normale şi camere

cu thermal infrared).

3.2 Analiza comportamentului mulţimii folosind Modele Markov cu stări invizibile

Detectarea şi urmărirea persoanelor în mulţimi este o problemă complicată din cauza

densităţii persoanelor şi a dificultăţii de a segmenta corect indivizii. Idea cu HMM-ul foloseşte

date ale mulţimii/scenei şi nu se dau poziţii detaliate. Nu se identifică persoane specifice sau să se

determine poziţia lor exactă. Se vor obţine decizii brute cu privire la mulţime. Aceste decizii

brute pot servi ca alerte pentru operatorii de securitate ce pot privi mai atent video-ul respectiv şi

să decidă dacă trebuie făcut ceva.

Datele bazate pe senzori vor avea întotdeauna un grad de nesiguranţă. Este important să

reducem acest grad de nesiguranţă cât se poate de mult atunci când ducem observaţiile la senzor.

Putem reduce şi mai mult nesiguranţa la procesul de fuziune(HMM) prin combinarea

observaţiilor de la diferiţi senzori care au avut diferite posibilităţi de a observa evenimetul.

Comportamentul normal al mulţimii corespunde deseori unor evenimente relativ calme ca mersul

şi statul. Ar trebui să fie rare persoane care aleargă sau dau din mâini sau picioare. În cazuri

speciale mulţimea nu ar trebui să fie densă sau/şi mare.

Tabelul 1 prezintă aceste observaţii:

Observaţie Explicaţia observaţieiO1 Activităţi normaleO2 Activităţi crescute ca intensitateO3 Activităţi intense ale multoraO4 Mulţime mică sau inexistentăO5 Mulţime mareO6 Nu sunt schimbări bruşte în mărimea mulţimiiO7 Schimbări bruşte în mărimea mulţimii

Tabel 1: Observaţii asupra mulţimii

O1, O2 şi O3 sunt obţinute calculând stream-ul optic din camerele vizuale. O4 şi O5 sunt

obţinute calculând numărul de persoane din scenă. În scenariul din aer liber aceasta se face

folosind o cameră thermal infrared. O6 şi O7 sunt folosite doar în scenariul din aer liber şi sunt

8


bazate pe date thermal infrared. Înscenariul de la bancomat mărimea mulţimii este calculată cu

date de la camera vizuală. Este foarte avantajos să fie disponibilă şi o cameră thermal infrared

pentru că acestea pot da observaţii precise şi în condiţii de lumină precară.

Din moment ce nu se dispune de date de exerciţiu destule, am derivat acestea pe baza

cunoaşterii şi experienţei a ceea ce este deseori asociat cu un comportament normal, în cazul

spaţiului din afară şi bancomatului. Învăţatea se face folosind algoritmul aşteptare-maximizare

(EM)10.

Am folosit un model ergodic11 cu două stări S1 şi S2. S1 se referă la mişcări calme(stat şi

mers) şi S2 se referă la activităţi uşor crescute(mers în mare parte), care încă ţin de un

comportament normal. Tabelul 2 şi Tabelul 3 prezintă parametrii HMM-ului ce au fost obţinuţi

de la învăţarea pentru luptă (F) şi respectiv furt (R).

Caz πS1 πS2 a11 a12 a21 a22F 0.98 0.02 0.45 0.55 0.26 0.74R 0.86 0.14 0.54 0.46 0.97 0.03

Tabelul 2: Distribuirea probabilă a stării iniţiale (π i) şi distribuţia probabilă de tranziţie

(a ij) pentru cele două cazuri.

B O1 O2 O3 O4 O5 O6 O7

BS1,F 0.66 0.06 0.01 0.11 ∼ 0.00 0.16 ∼ 0.00

BS2,F 0.24 0.08 ∼ 0.00 0.33 0.01 0.34 0.01

BS1,R 0.81 0.07 ∼ 0.00 0.10 0.01 - -

BS2,R 0.18 0.26 ∼ 0.00 0.49 0.06 - -

Tabelul 3: Observarea distribuţiei probabile, B, pentru cele două cazuri.

Ecuaţia 2 este folosită pentru a calcula probabilitatea unui comportament normal, unde α t

reprezintă algoritmul Forward [16]:

log [ P (O|λ ) ]=−∑t=1

T

log1

∑i=1

N

αt (i ) (2)

10 http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm11 http://en.wikipedia.org/wiki/Ergodic_theory

9

http://en.wikipedia.org/wiki/Ergodic_theory

http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm


3.3 Modelul de reţea BayesianăReţelele Bayesiene se aplică acolo unde există un grad de incertitudine în date. Este folosit

deasemeni şi când se ştiu câteva probabilităţi condiţionale şi se caută probabilităţi necunoscute.

În mod formal, modelul probabilistic este cel care reprezintă un set de variabile aleatoare şi

dependenţele lor funcţionale folosind un graf aciclic. Marginile acestui graf reprezintă

dependenţele condiţionale şi nodurile neconectate reprezintă variabile care sunt condiţional

independente una de alta. Fiecare nod este asociat cu o funcţie de probabilitate care are ca intrare

un set de valori pentru variabilele nodului părinte respectiv şi dă probabilitatea variabilei

reprezentată de nod. Reţelele Bayesiene oferă posibilitatea de reprezentare a dependenţelor,

parametrilor şi a valorilor lor înţelese intuitiv.

3.4 Reţele Bayesiene pentru analiza comportamentului mulţimiiSe propune o reţea Bayesiană în Figura 3 pentru modelarea comportamentului mulţimii.

Acest model grafic poate fi reprezentat de ecuaţia 3. Arată dependenţele ca o distribuţie comună

şi descompunerea sa în timp ce se omite simbolul de conjuncţie .∧

P (B E I n )=P (B ) P ( E|B ) P (E|I n ) (3)

Variabilele de intrare sunt seturi de noduri conform Figurii 3 ce reprezintă datele obţinute

din analiza mulţimii .

Figura 3: Modelul Bayesian pentru analiza comportamentului mulţimii. Cel mai înalt nivel

este Comportamentul (Behaviour-B). Acest nod depinde de nodul precedent Evenimente (Events-

E), care sunt dependente de datele de intrare, unde analiza mulţimii este calculată.

În mod diferit de observările binare de la HMM-ul de intrare, intrările Reţelelor Bayesiene

10


(In) sunt divizate în reprezentări discrete: Zero (O), Jos (L) şi Sus (H). Analiza mulţimii este

descompusă în trei tipuri de date:

• Creşterea mărimii mulţimii (IC) – Această intrare este generată folosind variaţia în

mărimea mulţimii considerând datele folosite anterior. Este folosită doar în scenariul din spaţiul

liber folosind reţele Bayesiene. Începutul observării Zero este mai mic decât trei persoane. Dacă

variaţia este mai mică decât cinci persoane valoarea IC este L, altfel este H.

• Mişcări (M) – Aceste date sunt generate folosind informaţii din stream-ul optic . Are ca

surse trei camere in scenariul bancomatului şi două în scenariul din aer liber.

Valorile de start folosite în acest caz sunt dependente de camere şi de scenariu.

Considerând observaţiile din HMM: Zero este stabilit în datele de mişcare dacă observarea O1

este adevărată; dacă observarea O2 este adevărată atunci mişcarile sunt joase (L). Datele sunt

High (H), dacă observaţia O3 este adevărată.

• Mişcări crescute (IM) – Aceste date sunt obţinute folosind variaţia datelor de mişcare (M).

În principal, valorile de start sunt estimate ca la date de mişcare şi sunt dependente de cameră şi

de scenariu. Aceste date de intrare sunt legate de observările O6 şi O7 ale HMM-ului, dar sunt

divizate pe trei nivele: O, L şi H.

Această reţea Bayesiană fuzionează date provenite de la diferite camere folosind o

distribuţie uniformă, adică toate datele au aceeaşi importanţă şi încredere. Distribuţia folosită

poate varia în alte scenarii şi aplicaţii. Fuziunea se face folosind trei noduri de intrare (IC, M,

IM), arătate în Figura 3. Nodul Eveniment (E) defineşte trei posibile evenimente în

comportamentul mulţimii. Două sunt asociate cu un comportament normal: Mişcări calme

(majoritatea personelor stau şi foarte puţine merg), Mişcări joase (asociate cu o mulţime mergând

şi interacţiunea dintre persoane). Mişcările High sunt asociate cu mişcări puternice în mulţime

(lupte, furturi, persoane alergând, etc.).

Pasul de învăţare a reţelei Bayesiene constituie o limitare importantă, din moment ce nu se

dispune de date destule înregistrate pentru pregătire. Derivăm datele înregistrate pentru pregătire

bazat pe cunoaşterea şi experienţa distribuţiei comune a fiecărei variabile din reţeua Bayesiană,

generând Tabelele de probabilitate condiţională (Conditional Probability Tables 12sau CPT).

Rezultatul reţelei Bayesiene foloseşte testul raportului de verosimilitate

12 http://en.wikipedia.org/wiki/Conditional_probability_table11

http://en.wikipedia.org/wiki/Conditional_probability_table


logaritmic(loglikelihood ratiotest13), care este folosit la compararea compatibilităţii a două

modele, dintre care unul este conţinut în celălalt, în acest caz comportamentul normal şi cel

anormal. Vedeţi Ecuaţia 4, de mai jos:

log lik elihood=−logP(B=Anormal∨E , I n)P(B=N ormal∨E , I n)

(4)

4 ExperimentFolosim patru secvenţe de film pentru a ilustra comportamentul anormal şi pentru a

compara cele două metode propuse. Primele trei secvenţe sunt de la două camere video şi una de

la o cameră termală într-un scenariu în aer liber şi comportamentul unei lupte se întâmplă în

aceste secvenţe. Comportamentul normal în acest caz este asociat cu al unei persoane care merge

spre un rând format, asteaptă să fie servită, este servită apoi merge spre ieşire. În ultima secvenţă,

i se întâmplă un furt la bancomat. Această secvenţă este compusă de la un set de patru camere

video cu vederi diferite, unde trei camere sunt folosite pentru estimarea activităţii mulţimii şi una

pentru estimarea mărimii mulţimii. Frameuri-le pentru aceste secvenţe sunt arătate în Figura 7. În

acest scenariu, sunt multe persoane care merg în apropierea bancomatului, dar doar câteva

persoane se opresc la bancomat şi interacţionează cu acesta.

Rezultatele sunt arătate în figurile 4, 5, 6 şi 7. Toate aceste figuri arată: frame-urile din

secvenţa de film, rezultatul generat de HMM şi rezultatul generat de reţelele Bayesiene.

Rezultatele axei y arată verosimilitatea comportamentului normal şi axa x reprezintă timpul în

secunde. Linia gri din rezultatele HMM-ului indică expectativa unui comportament normal.

Rezultatele în analiza comportamentului mulţimii pentru secvenţa Luptă 1 se arată în

Figura 4. O motocicletă trece prin scenă la 20s < Timp < 40s (deasemeni un eveniment anormal),

este ilustrat în Figura 4a unde se prezintă un frame de la camera 1. Lupta 1 începe la Timp ~ 60s

şi se termină la Timp ~ 100s, este ilustrat în Figura 4b unde se arată un frame de la camera 2. În

rezultatele HMM-ului, sunt ceva comportamente anormale la Timp ~ 120s, în această perioadă

două persoane încercă să o ajute pe aceea care sta jos în timpul luptei. Generează mişcări High

dar creşterea acestora se face foarte uşor. Aşadar, metoda reţelelor Bayesiene nu ar fi detectat

acest comportament anormal. În acest scenariu, rezultatul fiecărei metode este similar. Dar durata

timpului de “alarmă” a HMM-ului este mai mare

decât în cazul reţelei Bayesiene. În rezultatele

13 http://en.wikipedia.org/wiki/Likelihood-ratio_test12

http://en.wikipedia.org/wiki/Likelihood-ratio_test


bazate pe reţeua Bayesiană, comportamentul anormal se întâmplă într-un timp scurt, dar este

destul pentru a declanşa o alarmă.

(a) (b) (c) (d)Figura 4: Secvenţa Lupta 1 în scenariul din aer liber - a) Imaginea de la camera 1 la timp ~

30s când motocicleta trece prin scenă; b) Imagine de la camera 2 la Timp ~ 90s unde se întâmplă

lupta (chenar roşu); c) şi d) rezultatele de la HMM şi reţele Bayesiene.

Secvenţa Lupta 2 este prezentată în Figura 5. Lupta se întâmplă la Timp ~ 80s şi se termină

la după cum se poate vedea şi in Figura 5b,c unde două frame-uri la Timp ~ 90s de la camera 1 şi

2 sunt prezentate. După aceasta, persoana de lângă luptă il ajută pe cel care sta jos la 120s < Timp

< 160s. În rezultatele HMM, sunt câteva comportamente anormale la Timp ~ 10s < Timp < ~50s,

acestea fiind alarme false. În rezultatele reţelei Bayesiene nu există alarme false dacă startul

evenimentului este setat la o valoare mai mică decât trei. Totuşi, reţeua Bayesiană detectează

evenimentele anormale ca lupta şi mişcări high în timpul ajutorului la persoana ce statea întinsă

jos.

(a) (b) (c) (d)

Figura 5: Secvenţa Lupta 2 în scenariul de afară - a) Imaginea de la camera 1 la Timp ∼

100s unde se întâmplă lupta, detaliat folosind chenare roşii (acelaşi moment este arătat în camera

2 în b) ); c) şi d) rezultate din HMM şi reţele Bazesiene.

13


Lupta 3 începe la 120s şi se termină la 130s şi este ilustrată în Figura 6. În acest caz, lupta

se desfăşoară în afara câmpului vizual al camerei 1. Având în vedere aceasta, rezultatele prezintă

un set de alarme false. Ambele metode au generat rezultate similare în acest caz, cu mici

diferenţe la începutul secvenţei, unde metoda HMM detectează un comportament anormal greşit

contrar metodei cu reţele Bayesiene. Secvenţa furtului este arătată în Figura 7. Sunt două

persoane aproape de bancomat la timp ~ 80s. Furtul se petrece la ~ 120s. După acesta, două

persoane (hoţul şi victima) aleargă de la bancomat la 120s < Timp < 160s. În rezultatul HMM,

există comportament anormal la Timp ~ 10s < Timp < ~ 60s, dar sunt alarme false. În rezultatul

reţelelor Bayesiene, nu există alarme false, doar la Timp ~ 50s unde o umbră a unei persoane

apare foarte aproape de camera 3. În final, reţelele Bayesiene şi HMM detectează evenimentele

anormale ca furtul şi alergarea din apropierea bancomatului.

5 ConcluziiAcest referat descrie o apropiere probabilistică asupra analizei comportamentului

mulţimilor. Informaţiile cu privire la mărimea şi activitatea mulţimii este calculată pentru a

detecta comportamente. S-a folosit o reţea de senzori şi două metode probabilistice pentru a

analiza comportamentul mulţimii. Aceste metode sunt testate şi comparate în patru situaţii

diferite. Ambele metode pot detecta comportamentul anormal în mulţime, cu avantajul că metoda

care foloseşte reţele Bayesiene este mai puţin susceptibilă de alarme false. Pe de altă parte,

metoda cu HMM detectează comportamentul anormal pe o perioadă mai mare de timp.

Capacitatea metodei de a detecta comportamente anormale este dependentă de parametrii şi

aceştia sunt foarte greu de estimat. Lipsa datelor pentru a antrena/ învăţa aceste metode le

limitează capabilitatea. Cu toate că aceste metode sunt sensibile la parametri, acestea sunt

capabile să detecteze comportamente anormale în diferite scenarii.

14


(a) (b) (c)

Figura 6: Lupta 3 în scenariul în aer liber - a) Imaginea de la camera 2 la Timp ∼ 125s

unde se întâmplă o luptă (chenarul roşu); c) şi d) rezultă din metodele HMM şi respectiv reţele

Bayesiene.

(a) (b) (c) (d)

(e) (f)

Figura 7: Secvenţa cu furtul în scenariul cu bancomatul - a), b), c) şi imaginea furtului pe

camerele 1,2,3 şi respectiv 4 (chenar roşu); e) şi f) rezultă din metodele HMM şi respectiv reţele

Bayesiene.

Idei de dezvoltare a proiectului

Folosirea analizei de mişcare Laban [18] împreună cu analiza mulţimii ar putea îmbunătăţi

performanţa sistemului. O apropiere posibilă ar putea fi folosirea hibridă a rezultatelor cele mai

bune a metodelor cu HMM şi reţele Bayesiene.

Studii complementare fac referire la Proiectul Prometheus (FP7-214901) [1]. Prometheus

tinde să constituie un framework general care să lege rezultatele senzorilor cu procese cognitive

automate. Acest framework va putea face interpretare şi predicţia pe termen scurt a

comportamentelor mulţimii sau a unui individ. O sarcină importantă este definirea şi design-ul

modelelor de fuziune, a modelelor de tracking şi de comportament ce vor fi folosite pentru a

detecta automat persoane şi de a le interpreta comportamentul deasemeni şi comportamentul unor

grupuri de persoane.

15


16


BIBLIOGRAFIE

[1] J. Ahlberg, D. Arsic, T. Ganchev, A. Linderhed, P. Menezes, S. Ntalampiras, T. Olma, I. Potamitis, and J. Ros. Prometheus: Prediction and interpretation of human behavior based on probabilistic structures and heterogeneous sensors. In European Conference on Artificial Intelligence (ECAI), Patras, Greece, 2008

[2] S. Ali and M. Shah. A lagrangian particle dynamics approach for crowd flow segmentation and stability analysis. In IEEE Conference on Computer Vision and Pat- tern Recognition (CVPR), pages 1–6, 2007

[3] S. Ali and M. Shah. Floor fields for tracking in high density crowd scenes. In European Conference on Computer Vision (ECCV), pages 1–14, 2008.

[4] M. Andersson, J. Rydell, and J. Ahlberg. Estimation of crowd behavior using sensor networks and sensor fusion. In International Conference on Information Fusion (FUSION ’09), pages 396–403, 2009.

[5] E. Andrade, S. Blunsden, and R. Fisher. Modelling crowd scenes for event detection. In International Conference on Pattern Recognition (ICPR), pages 175–178, Washington, DC, USA, 2006. IEEE Computer Society.

[6] H. Ardo¨. Multi-target tracking using on-line Viterbi optimisation and stochastic Modelling. PhD thesis, Mathematical Sciences - Lund, 2009.

[7] D. Arsic, J. Schenk, B. Schuller, F. Wallhoff, and G. Rigoll. Sub motions for hidden markov model based dynamic facial action recognition. In IEEE International Conference on Image Processing, pages 673 – 676, 2006.

[8] G. Brostow and R. Cipolla. Unsupervised bayesian detection of independent motion in crowds. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), volume 1, pages 594– 601, 2006.

[9] F. Cupillard, F. Bremond, and M. Thonnat. Behaviour recognition for individuals, groups of people and crowd. In IEEE Symposium on Intelligence Distributed Surveillance Systems, pages 7/1 – 7/5, 2003.

[10] D. Helbing and P. Molnar. Social force model for pedestrian dynamics. Physical Review E, 51:4282, 1995.

[11] D. Knill and A. Pouget. The Bayesian brain: the role of uncertainty in neural coding and computation. Trends in Neurosciences, 27(12):712–719, 2004.

[12] N. MacFarlane and C. Schofield. Segmentation and tracking of piglets in images. Machine Vision and Applications, 8(3):187–193, 1995.

[13] J. Marques, P. Jorge, A. Abrantes, and J. Lemos. Tracking groups of pedestrians in video sequences. In Conference on Computer Vision and Pattern Recognition Workshop (CVPRW), volume 9, pages 101–108, 2003.

17


[14] R. Mehran, A. Oyama, and M. Shah. Abnormal crowd behavior detection using social force model. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pages 935–942, Los Alamitos, CA, USA, 2009. IEEE Computer Society.

[15] N. Pelechano and N. Allbeck, J.and Badler. Controlling individual agents in high-density crowd simulation. In ACM SIGGRAPH/Eurographics Symposium on Computer Animation (SCA 07), pages 99–108, Aire-la-Ville, Switzerland, Switzerland, 2007. Eurographics Association.

[16] L. Rabiner. A tutorial on hidden markov models and selected applications in speech recognition. Readings in speech recognition, pages 267–296, 1990.

[17] P. Reisman, O. Mano, S. Avidan, and A. Shashua. Crowd detection in video sequences. In IEEE Intelligent Vehicles Symposium (IV2004), pages 66–71, 2004.

[18] J. Rett, J. Dias, and J. Ahuactzin. Bayesian reasoning for laban movement analysis used in human machine interaction. Int. J. Reasoning based System, 1:64–74, 2008.

[19] B. Zhan, D. Monekosso, P. Remagnino, S. Velastin, and L. Xu. Crowd analysis: a survey. Machine Vision Application, 19(5-6):345–357, 2008.

[20] T. Zhao and R. Nevatia. Tracking multiple humans in complex situations. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 26(9):1208–1221, 2004.

FP7 Project PROMETHEUS (EU-FP7-ICT-2007-1-214901):http://fp7-pp.publicdata.eu/page/resource/project/214901 http://cordis.europa.eu/project/rcn/85282_en.html

18

http://cordis.europa.eu/project/rcn/85282_en.html

http://fp7-pp.publicdata.eu/page/resource/project/214901

Download - Detectarea automată a comportamentului mulţimilor

Top Related