UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
R E F E R A T CAPITOLE SPECIALE DE TEORIA
INFORMAŢIEI
Modele Markov cu stări invizibile (Hidden MarkovModels) pentru detectarea automată a comportamentului mulţimilor folosind
camere video de supraveghere
Masterand: CAPTARI Ionuţ
1
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
Folosirea camerelor de supraveghere s-a intensificat în ultimii ani datorită costului scăzut şi
a necesităţii de a supraveghea locurile publice. Dar cu toate acestea, nu se poate face o analiză
manuală a acestor date. Astfel, se cer metode robuste şi automatizate pentru procesarea acestor
mari cantităţi de date. Acest referat propune un cadru de lucru(framework1) pentru a adresa
această problemă.
Analiza mulţimii este obţinută în informaţia surprinsă de cameră folosind streaming-ul
optic. Modele Markov cu stări invizibile(Hidden Markov Model 2-HMM) şi Reţele Bayesiene3
sunt comparate pentru a înţelege comportamentul agenţilor pe scenă.
Rezultatele experimentale sunt obţinute doar la câteva secvenţe unde apare furtul sau o
luptă. Rezultatele vor putea fi şi mai bine reliefate în cadrul unui sistem automatic care gaseşte
evenimente anormale.
1 Introducere
Sistemul tipic de supraveghere pentru o arie mare este caracterizat de o reţea mare de
camere CCTV, toate conectate la o cameră de control, unde un operator uman are dificila sarcină
să le monitorizeze pe toate. Acest fapt duce la o sitiaţie nedorită, din moment ce operatorul poate
să fie atent doar la o mica parte din ce este arătat pe monitoare. În consecinţă, sarcina de a detecta
un comportament anormal este imposibil de executat într-un timp scurt, forţând aparatura de
supraveghere să fie folosită pentru post-analiză atunci când apar situaţii.
În mod normal, sistemele de supraveghere sunt instalate în locuri publice, acoperind arii
mari, unde un număr mare de oameni populează câmpul de vedere al camerei. Astfel, operatorul
de sistem începe să îşi vadă munca sa devenind mai dificilă în a identifica comportamente
anormale dar deasemeni creşte interesul pentru analiza comportamentului mulţimilor.
Analiza comportamentului mulţimilor a fost ţinta multor studii din diferite domenii, de la
studii sociale până la simulări şi câmpuri grafice generate. Toate domeniile au contribuit cu
modele şi similarităţi pentru a caracteriza comportamentul mulţimilor. Acest subiect este
1 http://ro.wikipedia.org/wiki/Framework2 http://en.wikipedia.org/wiki/Hidden_Markov_model3 http://ro.wikipedia.org/wiki/Re%C8%9Bea_bayesian%C4%83
2
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
considerat ca o nouă arie de interes, pentru cercetători, dacă se foloseşte computerul, dat fiind
potenţialul pentru crearea a noi domenii de aplicare, ca de exemplu detectarea automată de
revolte sau acte haotice la mulţimi şi localizarea regiunilor cu anormalităţi din scene.
În acest referat, s-au studiat două scenarii cu două camere video de supraveghere: un furt la
un bancomat(ATM) şi o luptă în spaţiul deschis. Se propune un framework pentru a procesa
aceste date pentru a extrage observaţii, şi apoi să fie folosite utilizând un Model Markov cu stări
invizibile şi o reţea Bayesiană(BN).
Din cauza lipsei de date apriorice, stadiul de învăţare pentru ambele metode constă în
cunoaşterea şi experienţa a ceea ce deseori este asociat cu un comportament normal pentru un
scenariu particular. Rezultatele pentru fiecare metodă sunt obţinute din asemănarea
comportamentulului normal, traducând probabilitatea unei observări ca fiind normală, dat un set
de caracteristici de intrare.
În consecinţă, acest referat face un studiu de comparaţie între două metode pentru a
clasifica observaţiile în comportamente normale şi anormale.
În secţiunea 2, se face o prezentare succintă a anlizei mulţimii. Secţiunea 3 tratează
comportamentul mulţimii folosind ambele metode(HMM şi BN). În Secţiunea 4, se prezintă
rezultatele experimentale şi comparaţii ăntre metode iar în Secţiunea 5 sunt prezentate
concluziile.
Lucrări relaţionate
Analiza comportamentului mulţimilor a fost un subiect important de cercetare în ultimii
ani. Folosind computerul, există două moduri principale de abordare pentru rezolvarea acestei
probleme. Metoda de abordare bazată pe obiect consideră mulţimea ca o colecţie de indivizi[20,
15]. Cere segmentarea sau detecţia în fiecare obiect pentru a înţelege comportamentul mulţimii.
Studiile propuse de [13] detectează persoanele din scenă şi ia în consideraţie şi densitatea de
persoane. Studiile propuse de [8] urmareşte mişcările fiecărului individ din mulţime folosind un
framework Bayesian. Cu toate eforturile de a dezvolta tehnicile bazate pe obiect, sunt multe
dificultăţi intrinseci relaţionate cu această tehnică. Dificultăţile sunt legate de densitatea
persoanelor din mulţime, segmentare şi urmărire în imagini.
Studii care consideră mulţimea ca pe un întreg au căpătat o mare importanţă în ultimii ani
[5, 2]. Acestea consideră mulţimea ca o entitate globală şi o analizează în scene cu densitate
3
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
medie sau înaltă. În lucrarea propusă de [17], se folosesc tehnici de modelare a scenei pentru a
surprinde caracteristici ce duc până la analiza comportamentului mulţimilor, în loc să se
urmărească obiecte individuale.
Recent, o metodă bazată pe Social Force Model [10] a fost propusă pentru analiza
comportamentului mulţimilor [14]. Aceasta foloseşte un set de particole pentru estimarea
interacţiunii între indivizi. [3] a propus o apropiere hibridă pentru urmărirea oamenilor în mulţimi
foarte dense. În [19] se face o importantă reevaluare a analizei mulţimii şi prezintă cercerările
recente şi direcţiile de evoluţie a diferitelor comunităţi de cercetare.
În lucrarile precedente [4], este folosit fluxul optic în imagini termale şi număratul
persoanelor ca o caracteristică pentru a înţelege comportamentul mulţimii. Mai mult decât atât,
HMM este folosit pentru a obţine informaţii de comportament din scenă. În lucrarea lui [7] se
folosesc Modele Markov cu stări invizibile [16] ca uneltă de modelare a comportamentului. Aici
este modelat comportamentul acţiunii faciale. În [5], comportamentul mulţimii este modelat
folosind HMM. Pe de altă parte, reţeaua Bayesiană este o metodă probabilistică folosită pentru a
înţelege comportamente. În studiile lui [9], este propus un framework pentru înţelegerea scenelor
cu ajutorul mai multor camere, folosind reţele Bayesiane pentru analiza comportamentelor bazate
pe evenimente.
2 Analiza mulţimii
În acestă lucrare, se propun două caracteristici pentru a detecta comportamentul mulţimii.
Mărimea mulţimii şi activitatea mulţimii se pot estima din secvenţe de film folosind un set de
camere:
2.1 Estimarea mărimii mulţimii
Prin detectarea si urmărirea persoanelor se poate face o estimare a mulţimii cu doar o simplă
numărare. Oricum, dacă luăm în considerare situaţii cu o densitate foarte mare, detectarea
indivizilor poate deveni foarte dificilă. Din acest motiv alegem o măsură mai mică a mărimii
mulţimii. Observarea mărimii mulţimii sunt facute considerând porţiunea cea mai apropiată din
aria de control a camerelor. Mărimea ariei de control este aleasă astfel încât pixelii zonei celei
mai apropiate detectate aproximează rezonabil numărul de persoane din zona de control pe baza
4
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
unui factor de calibrare constant(de exemplu, aria tipică proiectată de o persoana la această
distanţă). Pentru estimarea zonei de fundal şi frontală se procedează astfel:
Fundalul se estimează folosind o mediană ca în [12, 6]. Fundalul updatat este mascat
mai departe cu weighting 4mask(se sustrag curbele uşoare şi se face o analiză
spectrală) bazată pe detecţia facută în porţiunea cea mai apropiată detectată pentru a
evita persoanele statice să fie asimilate cu fundalul.
Probabilitatea pentru zona frontală este detectată ca pf =1−pb, unde pb este bazat pe
un model Gaussian 5cu imaginea de fundal ca mijloc şi o covariere estimată ori ca o
aproximare de quartilă[6] ori ca o covariere normală.
Figura 1 prezintă numarul oamenilor dintr-o zonă apropiată unui bancomat, unde se petrece
un furt. Axa Y reprezintă numărul persoanelor şi axa X reprezintă timpul. La început este doar o
persoană apropiată de bancomat apoi sunt două persoane apropiate de bancomat. După furt, cel
furat aleargă după hoţ şi dispar din vederea camerei. Această informaţie, împreună cu informaţiile
de mişcare din toată zona(nu doar aproape de bancomat) poate da informaţii importante asupra
evenimentului.
Figura 1: Estimare a mărimii mulţimii
în cazul scenariului cu bancomatul
Deasemeni putem folosi număratul persoanelor pentru a obţine informaţii despre
schimbările în marimea mulţimii într-o perioadă de timp scurt. Prin compararea marimii
mulţimii de la un timp la altul se poate obţine o măsură a gradului de mişcare. O schimbare
mare poate însemna implicit că personae intră sau ies din mulţime. Poate însemna deasemeni că
sunt multe mişcări în scenă şi densitatea şi umbrele contribuie la schimbarea mărimii mulţimii.
4 http://en.wikipedia.org/wiki/Weighting5 http://www.mathworks.com/help/curvefit/gaussian.html
5
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
Această informaţie poate fi folosită ca şi complement al informaţiilor activităţilor din stream-ul
optic. În studiile lui Andersson şi al [4], mărimea mulţimii este estimate folosind TIR (Thermal
InfraRed). Această metodă este folosită pentru a estima mărimea mulţimii în scenarii de luptă.
2.2 Estimarea activităţii mulţimiiNivelul de activitate într-o scenă, de exemplu măsura în care o persoană merge, aleargă,
dă din mâini etc., poate fi estimată brut măsurând stream-ul optic într-una sau mai multe vederi
ale scenei. Stream-ul optic într-o vedere specifică este măsurat prin calcularea mişcării aparente
a fiecărui pixel de la un frame video la următorul. De aici rezultă un camp de vectori, unde
lungimea fiecărui vector corespunde cu magnitudinea estimată a mişcării la o poziţie în imagine.
Măsurarea activităţii este obţinută ca suma la pătrat a magnitudinilor mişcării, ori într-o regiune
de interes sau în toată imaginea. Motivul pentru care ridicăm la pătrat magnitudinile este pentru
că mişcările foarte rapide ce acoperă o mică porţiune din imagine (de exemplu mişcări ce pot
apărea într-o luptă) ar trebui să afecteze estimarea într-o mare măsură. Dacă magnitudinile sunt
folosite direct, astfel de mişcări mici sunt amestecate cu numărul mare de vectori de mică
magnitudine ce apar de la, de exemplu, persoane care merg.
Când se măsoara nivelul de activitate într-un singur cadru, mişcările spre camera nu
afectează estimarea în proporţie mare. De aceasta este de preferat să folosim mai multe came.
Din moment ce stream-ul optic este calculat prin compararea a perechi de imagini, este evident că
se impune ca aceste camere să fie statice.
Figura 2: Stream-ul optic de la una din camere
pentru scenariul cu bancomatul.
3 Modelarea comportamentului mulţimiiAici se descriu doua metode folosite la detectarea comportamentului mulţimii. Acestea sunt
bazate pe apropieri probabilistice. Teoria Bayesiană ne oferă posibilitatea să lucrăm cu date
incomplete şi nesigure, poate face predicţii asupra evenimentelor viitoare şi oferă o schemă 6
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
pentru învăţare.
Modelele specializate care sunt incluse în framework-ul Bayesian sunt cunoscute sub
numele de Modele Markov cu stări invizibile (HMMs), Filtre Kalman6, Filtre de Particule7 şi,
mai generic, reţele Bayesiene. Aceste modele sunt folosite într-o varietate mare de aplicaţii
tehnice. Descoperiri recente indică faptul că modelele Bayesiene pot fi utile în modelarea
proceselor cognitive [18]. Descoperirile asupra creierului uman şi a calculelor sale asupra
percepţiei arată că metodele Bayesiene au avut succes în crearea teoriilor computaţionale asupra
percepţiei şi a controlului senzorial-motric [11].
3.1 Modele Markov cu stări invizibileVom propune procesarea datelor provenite de la un grup de senzori optici(vizual şi thermal
infrared8) pentru a extrage observaţii binare ce descriu mulţimea şi le vom folosi ca date de
intrare pentru un model Markov cu stări invizibile, unde stările invizibile reprezintă
comportamentul mulţimii. Aceasta se va face deasemeni pentru două scenarii (vezi [4]).
HMM-ul este un proces stochastic 9dublu înglobat care are un proces stochastic de fond
neobservabil. Acest proces stochastic de fond poate fi observat prin alt proces stochastic care
produce secvenţe de observaţii [16]. Stările reprezintă câteva condiţii neobservabile ale
sistemului. În fiecare stare există o oarecare probabilitate de producere a oricărui rezultat
observabil al sistemului împreună cu probabilitatea ce indică verosimilitatea următoarelor stări.
HMM-ul (λ) este descris de următorii parametri:
λ=( A , B , π , S , O ) (1)
unde A este distribuirea probabilă a tranziţiilor de stare, B este distribuirea probabilă a
observaţiilor în fiecare stare, π este distribuţia iniţială a stării , S sunt stări în model şi O sunt
simboluri de observare discrete per stare. Parametrii pentru A, B, şi π sunt obţinuţi învăţând λ cu
date de exerciţiu relevante.
Folosim λ pentru modelarea comportamentului normal a mulţimii. O probabilitate mare
pentru o secvenţă de observare OS indică faptul că mulţimea are un comportament aparent
normal. O probabilitate mică indică un comportament anormal. Simbolurile de observare ce
6 http://en.wikipedia.org/wiki/Kalman_filter7 http://en.wikipedia.org/wiki/Particle_filter8 http://en.wikipedia.org/wiki/Thermal_infrared_spectroscopy9 http://ro.wikipedia.org/wiki/Proces_stochastic
7
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
reprezintă o mulţime, în acest studiu, includ mărimea mulţimii şi mişcare a persoanelor din
mulţime. Observaţiile vin de la senzorii optici distribuiţi(camere de vizualizare normale şi camere
cu thermal infrared).
3.2 Analiza comportamentului mulţimii folosind Modele Markov cu stări invizibile
Detectarea şi urmărirea persoanelor în mulţimi este o problemă complicată din cauza
densităţii persoanelor şi a dificultăţii de a segmenta corect indivizii. Idea cu HMM-ul foloseşte
date ale mulţimii/scenei şi nu se dau poziţii detaliate. Nu se identifică persoane specifice sau să se
determine poziţia lor exactă. Se vor obţine decizii brute cu privire la mulţime. Aceste decizii
brute pot servi ca alerte pentru operatorii de securitate ce pot privi mai atent video-ul respectiv şi
să decidă dacă trebuie făcut ceva.
Datele bazate pe senzori vor avea întotdeauna un grad de nesiguranţă. Este important să
reducem acest grad de nesiguranţă cât se poate de mult atunci când ducem observaţiile la senzor.
Putem reduce şi mai mult nesiguranţa la procesul de fuziune(HMM) prin combinarea
observaţiilor de la diferiţi senzori care au avut diferite posibilităţi de a observa evenimetul.
Comportamentul normal al mulţimii corespunde deseori unor evenimente relativ calme ca mersul
şi statul. Ar trebui să fie rare persoane care aleargă sau dau din mâini sau picioare. În cazuri
speciale mulţimea nu ar trebui să fie densă sau/şi mare.
Tabelul 1 prezintă aceste observaţii:
Observaţie Explicaţia observaţieiO1 Activităţi normaleO2 Activităţi crescute ca intensitateO3 Activităţi intense ale multoraO4 Mulţime mică sau inexistentăO5 Mulţime mareO6 Nu sunt schimbări bruşte în mărimea mulţimiiO7 Schimbări bruşte în mărimea mulţimii
Tabel 1: Observaţii asupra mulţimii
O1, O2 şi O3 sunt obţinute calculând stream-ul optic din camerele vizuale. O4 şi O5 sunt
obţinute calculând numărul de persoane din scenă. În scenariul din aer liber aceasta se face
folosind o cameră thermal infrared. O6 şi O7 sunt folosite doar în scenariul din aer liber şi sunt
8
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
bazate pe date thermal infrared. Înscenariul de la bancomat mărimea mulţimii este calculată cu
date de la camera vizuală. Este foarte avantajos să fie disponibilă şi o cameră thermal infrared
pentru că acestea pot da observaţii precise şi în condiţii de lumină precară.
Din moment ce nu se dispune de date de exerciţiu destule, am derivat acestea pe baza
cunoaşterii şi experienţei a ceea ce este deseori asociat cu un comportament normal, în cazul
spaţiului din afară şi bancomatului. Învăţatea se face folosind algoritmul aşteptare-maximizare
(EM)10.
Am folosit un model ergodic11 cu două stări S1 şi S2. S1 se referă la mişcări calme(stat şi
mers) şi S2 se referă la activităţi uşor crescute(mers în mare parte), care încă ţin de un
comportament normal. Tabelul 2 şi Tabelul 3 prezintă parametrii HMM-ului ce au fost obţinuţi
de la învăţarea pentru luptă (F) şi respectiv furt (R).
Caz πS1 πS2 a11 a12 a21 a22F 0.98 0.02 0.45 0.55 0.26 0.74R 0.86 0.14 0.54 0.46 0.97 0.03
Tabelul 2: Distribuirea probabilă a stării iniţiale (π i) şi distribuţia probabilă de tranziţie
(a ij) pentru cele două cazuri.
B O1 O2 O3 O4 O5 O6 O7
BS1,F 0.66 0.06 0.01 0.11 ∼ 0.00 0.16 ∼ 0.00
BS2,F 0.24 0.08 ∼ 0.00 0.33 0.01 0.34 0.01
BS1,R 0.81 0.07 ∼ 0.00 0.10 0.01 - -
BS2,R 0.18 0.26 ∼ 0.00 0.49 0.06 - -
Tabelul 3: Observarea distribuţiei probabile, B, pentru cele două cazuri.
Ecuaţia 2 este folosită pentru a calcula probabilitatea unui comportament normal, unde α t
reprezintă algoritmul Forward [16]:
log [ P (O|λ ) ]=−∑t=1
T
log1
∑i=1
N
αt (i ) (2)
10 http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm11 http://en.wikipedia.org/wiki/Ergodic_theory
9
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
3.3 Modelul de reţea BayesianăReţelele Bayesiene se aplică acolo unde există un grad de incertitudine în date. Este folosit
deasemeni şi când se ştiu câteva probabilităţi condiţionale şi se caută probabilităţi necunoscute.
În mod formal, modelul probabilistic este cel care reprezintă un set de variabile aleatoare şi
dependenţele lor funcţionale folosind un graf aciclic. Marginile acestui graf reprezintă
dependenţele condiţionale şi nodurile neconectate reprezintă variabile care sunt condiţional
independente una de alta. Fiecare nod este asociat cu o funcţie de probabilitate care are ca intrare
un set de valori pentru variabilele nodului părinte respectiv şi dă probabilitatea variabilei
reprezentată de nod. Reţelele Bayesiene oferă posibilitatea de reprezentare a dependenţelor,
parametrilor şi a valorilor lor înţelese intuitiv.
3.4 Reţele Bayesiene pentru analiza comportamentului mulţimiiSe propune o reţea Bayesiană în Figura 3 pentru modelarea comportamentului mulţimii.
Acest model grafic poate fi reprezentat de ecuaţia 3. Arată dependenţele ca o distribuţie comună
şi descompunerea sa în timp ce se omite simbolul de conjuncţie .∧
P (B E I n )=P (B ) P ( E|B ) P (E|I n ) (3)
Variabilele de intrare sunt seturi de noduri conform Figurii 3 ce reprezintă datele obţinute
din analiza mulţimii .
Figura 3: Modelul Bayesian pentru analiza comportamentului mulţimii. Cel mai înalt nivel
este Comportamentul (Behaviour-B). Acest nod depinde de nodul precedent Evenimente (Events-
E), care sunt dependente de datele de intrare, unde analiza mulţimii este calculată.
În mod diferit de observările binare de la HMM-ul de intrare, intrările Reţelelor Bayesiene
10
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
(In) sunt divizate în reprezentări discrete: Zero (O), Jos (L) şi Sus (H). Analiza mulţimii este
descompusă în trei tipuri de date:
• Creşterea mărimii mulţimii (IC) – Această intrare este generată folosind variaţia în
mărimea mulţimii considerând datele folosite anterior. Este folosită doar în scenariul din spaţiul
liber folosind reţele Bayesiene. Începutul observării Zero este mai mic decât trei persoane. Dacă
variaţia este mai mică decât cinci persoane valoarea IC este L, altfel este H.
• Mişcări (M) – Aceste date sunt generate folosind informaţii din stream-ul optic . Are ca
surse trei camere in scenariul bancomatului şi două în scenariul din aer liber.
Valorile de start folosite în acest caz sunt dependente de camere şi de scenariu.
Considerând observaţiile din HMM: Zero este stabilit în datele de mişcare dacă observarea O1
este adevărată; dacă observarea O2 este adevărată atunci mişcarile sunt joase (L). Datele sunt
High (H), dacă observaţia O3 este adevărată.
• Mişcări crescute (IM) – Aceste date sunt obţinute folosind variaţia datelor de mişcare (M).
În principal, valorile de start sunt estimate ca la date de mişcare şi sunt dependente de cameră şi
de scenariu. Aceste date de intrare sunt legate de observările O6 şi O7 ale HMM-ului, dar sunt
divizate pe trei nivele: O, L şi H.
Această reţea Bayesiană fuzionează date provenite de la diferite camere folosind o
distribuţie uniformă, adică toate datele au aceeaşi importanţă şi încredere. Distribuţia folosită
poate varia în alte scenarii şi aplicaţii. Fuziunea se face folosind trei noduri de intrare (IC, M,
IM), arătate în Figura 3. Nodul Eveniment (E) defineşte trei posibile evenimente în
comportamentul mulţimii. Două sunt asociate cu un comportament normal: Mişcări calme
(majoritatea personelor stau şi foarte puţine merg), Mişcări joase (asociate cu o mulţime mergând
şi interacţiunea dintre persoane). Mişcările High sunt asociate cu mişcări puternice în mulţime
(lupte, furturi, persoane alergând, etc.).
Pasul de învăţare a reţelei Bayesiene constituie o limitare importantă, din moment ce nu se
dispune de date destule înregistrate pentru pregătire. Derivăm datele înregistrate pentru pregătire
bazat pe cunoaşterea şi experienţa distribuţiei comune a fiecărei variabile din reţeua Bayesiană,
generând Tabelele de probabilitate condiţională (Conditional Probability Tables 12sau CPT).
Rezultatul reţelei Bayesiene foloseşte testul raportului de verosimilitate
12 http://en.wikipedia.org/wiki/Conditional_probability_table11
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
logaritmic(loglikelihood ratiotest13), care este folosit la compararea compatibilităţii a două
modele, dintre care unul este conţinut în celălalt, în acest caz comportamentul normal şi cel
anormal. Vedeţi Ecuaţia 4, de mai jos:
log lik elihood=−logP(B=Anormal∨E , I n)P(B=N ormal∨E , I n)
(4)
4 ExperimentFolosim patru secvenţe de film pentru a ilustra comportamentul anormal şi pentru a
compara cele două metode propuse. Primele trei secvenţe sunt de la două camere video şi una de
la o cameră termală într-un scenariu în aer liber şi comportamentul unei lupte se întâmplă în
aceste secvenţe. Comportamentul normal în acest caz este asociat cu al unei persoane care merge
spre un rând format, asteaptă să fie servită, este servită apoi merge spre ieşire. În ultima secvenţă,
i se întâmplă un furt la bancomat. Această secvenţă este compusă de la un set de patru camere
video cu vederi diferite, unde trei camere sunt folosite pentru estimarea activităţii mulţimii şi una
pentru estimarea mărimii mulţimii. Frameuri-le pentru aceste secvenţe sunt arătate în Figura 7. În
acest scenariu, sunt multe persoane care merg în apropierea bancomatului, dar doar câteva
persoane se opresc la bancomat şi interacţionează cu acesta.
Rezultatele sunt arătate în figurile 4, 5, 6 şi 7. Toate aceste figuri arată: frame-urile din
secvenţa de film, rezultatul generat de HMM şi rezultatul generat de reţelele Bayesiene.
Rezultatele axei y arată verosimilitatea comportamentului normal şi axa x reprezintă timpul în
secunde. Linia gri din rezultatele HMM-ului indică expectativa unui comportament normal.
Rezultatele în analiza comportamentului mulţimii pentru secvenţa Luptă 1 se arată în
Figura 4. O motocicletă trece prin scenă la 20s < Timp < 40s (deasemeni un eveniment anormal),
este ilustrat în Figura 4a unde se prezintă un frame de la camera 1. Lupta 1 începe la Timp ~ 60s
şi se termină la Timp ~ 100s, este ilustrat în Figura 4b unde se arată un frame de la camera 2. În
rezultatele HMM-ului, sunt ceva comportamente anormale la Timp ~ 120s, în această perioadă
două persoane încercă să o ajute pe aceea care sta jos în timpul luptei. Generează mişcări High
dar creşterea acestora se face foarte uşor. Aşadar, metoda reţelelor Bayesiene nu ar fi detectat
acest comportament anormal. În acest scenariu, rezultatul fiecărei metode este similar. Dar durata
timpului de “alarmă” a HMM-ului este mai mare
decât în cazul reţelei Bayesiene. În rezultatele
13 http://en.wikipedia.org/wiki/Likelihood-ratio_test12
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
bazate pe reţeua Bayesiană, comportamentul anormal se întâmplă într-un timp scurt, dar este
destul pentru a declanşa o alarmă.
(a) (b) (c) (d)Figura 4: Secvenţa Lupta 1 în scenariul din aer liber - a) Imaginea de la camera 1 la timp ~
30s când motocicleta trece prin scenă; b) Imagine de la camera 2 la Timp ~ 90s unde se întâmplă
lupta (chenar roşu); c) şi d) rezultatele de la HMM şi reţele Bayesiene.
Secvenţa Lupta 2 este prezentată în Figura 5. Lupta se întâmplă la Timp ~ 80s şi se termină
la după cum se poate vedea şi in Figura 5b,c unde două frame-uri la Timp ~ 90s de la camera 1 şi
2 sunt prezentate. După aceasta, persoana de lângă luptă il ajută pe cel care sta jos la 120s < Timp
< 160s. În rezultatele HMM, sunt câteva comportamente anormale la Timp ~ 10s < Timp < ~50s,
acestea fiind alarme false. În rezultatele reţelei Bayesiene nu există alarme false dacă startul
evenimentului este setat la o valoare mai mică decât trei. Totuşi, reţeua Bayesiană detectează
evenimentele anormale ca lupta şi mişcări high în timpul ajutorului la persoana ce statea întinsă
jos.
(a) (b) (c) (d)
Figura 5: Secvenţa Lupta 2 în scenariul de afară - a) Imaginea de la camera 1 la Timp ∼
100s unde se întâmplă lupta, detaliat folosind chenare roşii (acelaşi moment este arătat în camera
2 în b) ); c) şi d) rezultate din HMM şi reţele Bazesiene.
13
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
Lupta 3 începe la 120s şi se termină la 130s şi este ilustrată în Figura 6. În acest caz, lupta
se desfăşoară în afara câmpului vizual al camerei 1. Având în vedere aceasta, rezultatele prezintă
un set de alarme false. Ambele metode au generat rezultate similare în acest caz, cu mici
diferenţe la începutul secvenţei, unde metoda HMM detectează un comportament anormal greşit
contrar metodei cu reţele Bayesiene. Secvenţa furtului este arătată în Figura 7. Sunt două
persoane aproape de bancomat la timp ~ 80s. Furtul se petrece la ~ 120s. După acesta, două
persoane (hoţul şi victima) aleargă de la bancomat la 120s < Timp < 160s. În rezultatul HMM,
există comportament anormal la Timp ~ 10s < Timp < ~ 60s, dar sunt alarme false. În rezultatul
reţelelor Bayesiene, nu există alarme false, doar la Timp ~ 50s unde o umbră a unei persoane
apare foarte aproape de camera 3. În final, reţelele Bayesiene şi HMM detectează evenimentele
anormale ca furtul şi alergarea din apropierea bancomatului.
5 ConcluziiAcest referat descrie o apropiere probabilistică asupra analizei comportamentului
mulţimilor. Informaţiile cu privire la mărimea şi activitatea mulţimii este calculată pentru a
detecta comportamente. S-a folosit o reţea de senzori şi două metode probabilistice pentru a
analiza comportamentul mulţimii. Aceste metode sunt testate şi comparate în patru situaţii
diferite. Ambele metode pot detecta comportamentul anormal în mulţime, cu avantajul că metoda
care foloseşte reţele Bayesiene este mai puţin susceptibilă de alarme false. Pe de altă parte,
metoda cu HMM detectează comportamentul anormal pe o perioadă mai mare de timp.
Capacitatea metodei de a detecta comportamente anormale este dependentă de parametrii şi
aceştia sunt foarte greu de estimat. Lipsa datelor pentru a antrena/ învăţa aceste metode le
limitează capabilitatea. Cu toate că aceste metode sunt sensibile la parametri, acestea sunt
capabile să detecteze comportamente anormale în diferite scenarii.
14
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
(a) (b) (c)
Figura 6: Lupta 3 în scenariul în aer liber - a) Imaginea de la camera 2 la Timp ∼ 125s
unde se întâmplă o luptă (chenarul roşu); c) şi d) rezultă din metodele HMM şi respectiv reţele
Bayesiene.
(a) (b) (c) (d)
(e) (f)
Figura 7: Secvenţa cu furtul în scenariul cu bancomatul - a), b), c) şi imaginea furtului pe
camerele 1,2,3 şi respectiv 4 (chenar roşu); e) şi f) rezultă din metodele HMM şi respectiv reţele
Bayesiene.
Idei de dezvoltare a proiectului
Folosirea analizei de mişcare Laban [18] împreună cu analiza mulţimii ar putea îmbunătăţi
performanţa sistemului. O apropiere posibilă ar putea fi folosirea hibridă a rezultatelor cele mai
bune a metodelor cu HMM şi reţele Bayesiene.
Studii complementare fac referire la Proiectul Prometheus (FP7-214901) [1]. Prometheus
tinde să constituie un framework general care să lege rezultatele senzorilor cu procese cognitive
automate. Acest framework va putea face interpretare şi predicţia pe termen scurt a
comportamentelor mulţimii sau a unui individ. O sarcină importantă este definirea şi design-ul
modelelor de fuziune, a modelelor de tracking şi de comportament ce vor fi folosite pentru a
detecta automat persoane şi de a le interpreta comportamentul deasemeni şi comportamentul unor
grupuri de persoane.
15
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
16
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
BIBLIOGRAFIE
[1] J. Ahlberg, D. Arsic, T. Ganchev, A. Linderhed, P. Menezes, S. Ntalampiras, T. Olma, I. Potamitis, and J. Ros. Prometheus: Prediction and interpretation of human behavior based on probabilistic structures and heterogeneous sensors. In European Conference on Artificial Intelligence (ECAI), Patras, Greece, 2008
[2] S. Ali and M. Shah. A lagrangian particle dynamics approach for crowd flow segmentation and stability analysis. In IEEE Conference on Computer Vision and Pat- tern Recognition (CVPR), pages 1–6, 2007
[3] S. Ali and M. Shah. Floor fields for tracking in high density crowd scenes. In European Conference on Computer Vision (ECCV), pages 1–14, 2008.
[4] M. Andersson, J. Rydell, and J. Ahlberg. Estimation of crowd behavior using sensor networks and sensor fusion. In International Conference on Information Fusion (FUSION ’09), pages 396–403, 2009.
[5] E. Andrade, S. Blunsden, and R. Fisher. Modelling crowd scenes for event detection. In International Conference on Pattern Recognition (ICPR), pages 175–178, Washington, DC, USA, 2006. IEEE Computer Society.
[6] H. Ardo¨. Multi-target tracking using on-line Viterbi optimisation and stochastic Modelling. PhD thesis, Mathematical Sciences - Lund, 2009.
[7] D. Arsic, J. Schenk, B. Schuller, F. Wallhoff, and G. Rigoll. Sub motions for hidden markov model based dynamic facial action recognition. In IEEE International Conference on Image Processing, pages 673 – 676, 2006.
[8] G. Brostow and R. Cipolla. Unsupervised bayesian detection of independent motion in crowds. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), volume 1, pages 594– 601, 2006.
[9] F. Cupillard, F. Bremond, and M. Thonnat. Behaviour recognition for individuals, groups of people and crowd. In IEEE Symposium on Intelligence Distributed Surveillance Systems, pages 7/1 – 7/5, 2003.
[10] D. Helbing and P. Molnar. Social force model for pedestrian dynamics. Physical Review E, 51:4282, 1995.
[11] D. Knill and A. Pouget. The Bayesian brain: the role of uncertainty in neural coding and computation. Trends in Neurosciences, 27(12):712–719, 2004.
[12] N. MacFarlane and C. Schofield. Segmentation and tracking of piglets in images. Machine Vision and Applications, 8(3):187–193, 1995.
[13] J. Marques, P. Jorge, A. Abrantes, and J. Lemos. Tracking groups of pedestrians in video sequences. In Conference on Computer Vision and Pattern Recognition Workshop (CVPRW), volume 9, pages 101–108, 2003.
17
UNIVERSITATEA ”SPIRU HARET”, BUCUREȘTI – CAPITOLE SPECIALE DE TEORIA INFORMAŢIEI
[14] R. Mehran, A. Oyama, and M. Shah. Abnormal crowd behavior detection using social force model. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pages 935–942, Los Alamitos, CA, USA, 2009. IEEE Computer Society.
[15] N. Pelechano and N. Allbeck, J.and Badler. Controlling individual agents in high-density crowd simulation. In ACM SIGGRAPH/Eurographics Symposium on Computer Animation (SCA 07), pages 99–108, Aire-la-Ville, Switzerland, Switzerland, 2007. Eurographics Association.
[16] L. Rabiner. A tutorial on hidden markov models and selected applications in speech recognition. Readings in speech recognition, pages 267–296, 1990.
[17] P. Reisman, O. Mano, S. Avidan, and A. Shashua. Crowd detection in video sequences. In IEEE Intelligent Vehicles Symposium (IV2004), pages 66–71, 2004.
[18] J. Rett, J. Dias, and J. Ahuactzin. Bayesian reasoning for laban movement analysis used in human machine interaction. Int. J. Reasoning based System, 1:64–74, 2008.
[19] B. Zhan, D. Monekosso, P. Remagnino, S. Velastin, and L. Xu. Crowd analysis: a survey. Machine Vision Application, 19(5-6):345–357, 2008.
[20] T. Zhao and R. Nevatia. Tracking multiple humans in complex situations. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 26(9):1208–1221, 2004.
FP7 Project PROMETHEUS (EU-FP7-ICT-2007-1-214901):http://fp7-pp.publicdata.eu/page/resource/project/214901 http://cordis.europa.eu/project/rcn/85282_en.html
18