dr inż. maciej piernik instytut informatyki politechnika poznańska · 2016. 4. 30. · maciej...
TRANSCRIPT
![Page 1: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/1.jpg)
prof. dr hab. inż. Tadeusz Morzy dr inż. Maciej Piernik
Instytut Informatyki
Politechnika Poznańska
Seminarium naukowe Big Data: przetwarzanie i eksploracja
Poznań, 22.04.2016
![Page 2: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/2.jpg)
• Grupowanie przez wzorce
• Klasyfikacja przez wzorce
• Wzorce w danych strumieniowych
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 2
![Page 3: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/3.jpg)
Automatyczny podział zbioru obiektów na podzbiory zgodnie z ich podobieństwem.
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 3
![Page 4: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/4.jpg)
• Brak formalnej metodyki grupowania wykorzystującej informację globalną
• Brak gwarancji interpretowalności wyników
• Parametryzacja
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 4
![Page 5: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/5.jpg)
• Framework XPattern
1. Transformacja danych
2. Odkrywanie wzorców
3. Grupowanie wzorców
4. Przypisanie obiektów
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 5
![Page 6: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/6.jpg)
Zbiór danych sig het hom db0 db1 db2 db3
Wzorzec Precision
Poddrzewo 1.00 1.00 0.90 - - - -
Podścieżka 1.00 1.00 0.92 0.66 0.71 0.66 0.64
Etykieta 0.51 1.00 0.35 0.73 0.69 0.45 0.44
Metadane 0.98 0.45 0.36 0.22 0.18 0.15 0.17
Wzorzec Czas [s]
Poddrzewo 0.07 1.40 3.24 - - - -
Podścieżka 1.57 0.09 0.17 65.25 137.76 311.64 403.38
Etykieta 0.08 1.06 0.05 21.44 25.62 42.66 44.07
Metadane 0.02 0.03 0.01 0.18 0.24 0.40 0.38
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 6
![Page 7: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/7.jpg)
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 7
k = 2
![Page 8: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/8.jpg)
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 8
k = 3
![Page 9: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/9.jpg)
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 9
∅
k = 4
![Page 10: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/10.jpg)
Zbiór danych sig het hom db0 db1 db2 db3
Algorytm Liczba skupień
PathXP 2 10 3 11 11 11 11
PathXP* 2 11 9 22 23 14 18
Czas [s]
PathXP 2 <1 <1 65 138 312 403
PathXP* 1 19 1 1538 3176 3647 5999
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 10
![Page 11: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/11.jpg)
Predykcja klas obiektów za pomocą klasyfikatora skonstruowanego w procesie uczenia na wcześniej sklasyfikowanych przykładach.
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 11
?
![Page 12: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/12.jpg)
Brak dopasowania nowych obiektów do odkrytych wzorców
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 12
![Page 13: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/13.jpg)
• Algorytm K-Nearest Patterns
– Trening • Odkrycie wzorców częstych w każdej klasie
– Klasyfikacja • Przypisanie obiektu do klasy na podstawie głosowania
większościowego k najbliższych wzorców
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 13
![Page 14: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/14.jpg)
Algorytm Klasyczne reguły KNP
Zbiór danych Accuracy [%]
DS1 64.54 [63%] 73.25
DS2 79.77 [58%] 81.64
DS3 56.77 [63%] 66.35
DS4 60.32 [66%] 64.04
CS1-2 80.37 [50%] 80.33
CS2-3 79.67 [61%] 79.72
CS3-1 79.16 [63%] 79.22
CS12-3 79.33 [58%] 79.40
[] – wartości w nawiasach przedstawiają procent dokumentów sklasyfikowanych przy pomocy reguły domyślnej
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 14
![Page 15: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/15.jpg)
• Ciągły napływ obiektów
• Ograniczony czas
• Ograniczona pamięć
• Reakcja na zmiany
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 15
![Page 16: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/16.jpg)
Przyrostowe, blokowe odkrywanie wzorców częstych i równoległa klasyfikacja nowych przykładów
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 16
patterns for
class 1
patterns for
class 2
patterns for
class k ...
prediction
labeled documents
unlabeled documents
![Page 17: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/17.jpg)
• Wysoka średnia jakość klasyfikacji
• Model zajmuje mało miejsca
• Zdolny do reakcji na różne typy zmian
• Dłuższy czas przetwarzania
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 17
![Page 18: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/18.jpg)
• Łatwe do interpretacji wyniki
• Elastyczny klasyfikator
• Klasyfikator strumieniowy reagujący na zmiany
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 18
![Page 19: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/19.jpg)
• M. Piernik, D. Brzezinski, T. Morzy, Clustering XML Documents by Patterns, Knowledge and Information Systems, vol. 46, no. 1, pp. 185-212, 2016.
• D Brzezinski, M Piernik, Structural XML Classification in Concept Drifting Data Streams, New Generation Computing, vol. 33, no. 4, pp. 345-366, 2015.
• M. Piernik, D. Brzezinski, T. Morzy, A. Lesniewska, XML Clustering: A Review of Structural Approaches, Knowledge Engineering Review, vol. 30, no. 3, pp. 297-323, 2015.
• D. Brzeziński, M. Piernik, Adaptive XML Stream Classification Using Partial Tree-Edit Distance, Proceedings of 21st International Symposium on Methodologies for Intelligent Systems, ISMIS 2014, Roskilde, Denmark, June 25-27, 2014.
• D. Brzezinski, A. Lesniewska, T. Morzy, M. Piernik, XCleaner: A New Method for Clustering XML Documents by Structure, Control and Cybernetics, vol. 40(3), pp. 877-89, 2011.
• D. Brzezinski, A. Lesniewska, T. Morzy, M. Piernik, Clustering XML Documents by Patterns, Proceedings of III Polish National Conference on Data Processing Technologies, KKNTPD 2010, Poznan, Poland, 2010.
Grupowanie i klasyfikacja dużych zbiorów danych z wykorzystaniem wzorców częstych 19
![Page 20: dr inż. Maciej Piernik Instytut Informatyki Politechnika Poznańska · 2016. 4. 30. · Maciej Piernik Instytut Informatyki Politechnika Poznańska Seminarium naukowe Big Data: przetwarzanie](https://reader035.vdocuments.site/reader035/viewer/2022070211/60ff80573c39ff5912615276/html5/thumbnails/20.jpg)