![Page 1: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/1.jpg)
Bc. Július PálVedúci práce: RNDr. Tomáš Horváth, PhD.Konzultant: MUDr. Dušan Béreš, MPH.
Ústav informatiky, Prírodovedecká fakulta, UPJŠ
![Page 2: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/2.jpg)
1) Charakteristika základného problému
2) Metodika analýzy dát
3) Výsledky
4) Diskusia
![Page 3: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/3.jpg)
Ciele:1) Analýza a prípadná implementácia dostupných metód pre modelovanie šírenia epidemického procesu.2) Získanie reálnych dát3) Návrh modelu pre predikciu šírenia nákazy na základe data mining techník.4) Implementácia navrhnutého modelu, ktorý pre konkrétnu populáciu vypočíta mieru stanovených rizík jednotlivých faktorov, ktoré ovplyvňujú proces šírenia nákazy
![Page 4: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/4.jpg)
![Page 5: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/5.jpg)
Predmetom mojej diplomovej práce je riešiť proces šírenia nákazy, konkrétne vírusových žltačiek typu A
Čo je vírusová hepatitída typu A?
Čo je proces šírenia nákazy?
Hepatitída typu A je prenosné ochorenie spôsobená vírusom hepatitídy typu A pre ktoré je charakteristická fekálne-orálna cesta prenosu pôvodcu nákazu. Hlavným symptómom je akútny zápal pečene (hepatitída).
Proces šírenia nákazy je epidemický proces - je to sústavný výskyt toho istého ochorenia v určitej skupine ľudí, v určitom čase ( spravidla dvojnásobok maximálneho inkubačného času ) a v určitom priestore.
![Page 6: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/6.jpg)
Zameraním mojej práce je identifikovať príčiny, uvedených náhodných zmien výskytu VHA, na Slovensku resp. v okrese Rimavská Sobota hľadať a identifikovať súvislosti medzi výskytom a možnými príčinami za dostupných dát registra prenosných ochorení, ktorý vedie RÚVZ v Banskej Bystrici.
Okrem predpokladaných rizikových faktorov ako sú vek, spôsob zásobovania pitnou vodou, úroveň osobnej hygieny, stav imunity vnímavosti je predpoklad že náhodné zmeny vznikajú aj ako následok, iných príčin resp. tieto potencujú už uvedené príčiny.
![Page 7: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/7.jpg)
![Page 8: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/8.jpg)
CRISP DM model (Cross Industry Standard Process for Data Mining)
1)Pochopenie cieľa2)Pochopenie dát3)Príprava dát4)Modelovanie5)Vyhodnotenie6)Nasadenie
![Page 9: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/9.jpg)
Analýza dát
Analýza dát získaných z centrálneho registra prenosných ochorení RÚVZ so sídlom v Banskej Bystrici, za celé Slovensko, bez dát klasifikovaných ako osobné údaje, za obdobie od 1. 1. 1997 do 31. 12. 2012 12047 záznamov 47 atribútov 12 klasifikačných 35 hodnotové atribúty
![Page 10: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/10.jpg)
![Page 11: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/11.jpg)
Model SIR - Kermackův – Mc Kendrickův model [Vasicek]
Jednoduchý cellulárný automat [Beuchemin]
Analýza časových radov Použitím neuralných sietí [Ture, Kurt;2006]
▪ Viacvrstvový perceptron▪ RBF siete▪ TDDN- time delay neural network▪ ARIMA – model
![Page 12: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/12.jpg)
Analýza časových radov Porovnanie datamining technik
[Carpinteiro; Leite;Pinheiro;Lima]▪ SVM – support vector machine▪ SOM – self organizing map▪ MLP – multi layer perceptron
![Page 13: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/13.jpg)
![Page 14: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/14.jpg)
Kontrola dát, odstránenenie neplatných dát, chybných údajov
Konzistentnosť dát
Popis jednotlivých atribútov
![Page 15: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/15.jpg)
Vytvorenie grafického prehľadu výskytu VHA, určenie časovej rady, podľa výskytu Pre kazdy den Mesačný
![Page 16: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/16.jpg)
Analýza dát pomocou dataminigového softwaru RapidMiner
Určenie regulárnosti údajov, počet nekompletných údajov
Analýza jednotlivých atribútov
![Page 17: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/17.jpg)
Vek
![Page 18: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/18.jpg)
Kolektív
![Page 19: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/19.jpg)
Kraj nákazy
![Page 20: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/20.jpg)
Freqvent itemset mining – ECLAT Určenie tabuľky atribútov – 3802 Frekvencia výskytu – 10 % Hodnotenie výsledkov
![Page 21: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/21.jpg)
pocetDavOckovania_0 intervalOckovania_0 Slovensko klasifikacia_potvrdený B15 (88.4438)
vyhľadanie zdrav.pomoci vyzdravenie klasifikacia_potvrdený B15 (75.4965)
sporadický vyhľadanie zdrav.pomoci klasifikacia_potvrdený B15 (54.63) mechPrenos_neznámy sporadický vyhľadanie zdrav.pomoci B15
(40.4676) mimo kolektív sporadický B15 (36.177) muž B15 (55.0155) nízky hygienický štandard nepracujúci/dieťa klasifikacia_potvrdený B15
(41.6995) nízky hygienický štandard muž mimo kolektív vyhľadanie zdrav.pomoci
(13.6345) faktorPrenos_kontaminované predmety klasifikacia_potvrdený B15
Slovensko (8.12034)
Pri 9% vyskyte sme dostali 299068 – rôznych kombinácii
![Page 22: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/22.jpg)
Iný pohľad mesiac_oktober klasifikacia_potvrdený B15
(17.3133) pramen_nezistený (26.6655) pramen_človek chorý Slovensko B15 (26.2214) vek_od5_do9 klasifikacia_potvrdený B15 (21.9894)
Zameranie sa na fixáciu jednotlivých premenných
Korelácia medzi atribútmiRelatívne údaje vs absolútne
![Page 23: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/23.jpg)
One class klasifikácia ECLAT – frequent items set mining SVM – support vector machine ARIMA – model
![Page 24: Predikcia možného výskytu ochorenia v rámci populácie použitím data-mining techník](https://reader035.vdocuments.site/reader035/viewer/2022062301/56814938550346895db67ed1/html5/thumbnails/24.jpg)
Ďakujem za pozornosť!