wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

20

Click here to load reader

Upload: giona

Post on 05-Jan-2016

30 views

Category:

Documents


0 download

DESCRIPTION

Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością. Sprawozdanie z realizacji zadania badawczego za rok 2002 Warszawa, 11.12.2002. Uczestnicy. Osoba odpowiedzialna za wykonanie zadania: doc. dr hab. inż. M. Kłopotek Wykonawcy: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Wybrane zagadnienia uczenia się z wysokowymiarowych

danych obarczonych niepewnością

Sprawozdanie z realizacji zadania badawczego

za rok 2002

Warszawa, 11.12.2002

Page 2: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Uczestnicy

Osoba odpowiedzialna za wykonanie zadania: doc. dr hab. inż. M. Kłopotek

Wykonawcy:doc. dr hab. inż. M. Kłopotek 90 %dr Andrzej Matuszewski 90 %dr inż. Krzysztof Trojanowski 20 %

Page 3: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Prowadzone prace Konstrukcja wielkich sieci bayesowskich Konstrukcja drzew decyzyjnych dla dużych zbiorów

danych Klasteryzacja w mapach dokumentów Podstawy i zastosowania teorii Dempstera-Shafera Struktury danych dla multisystemów uczących się Nowe testy statystyczne (podwójna klasteryzacja,

wielowartościowe zapytania, steny)

Page 4: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Wyniki (1) opracowano nowe algorytmy i udoskonalono wcześniej

zaproponowane algorytmy generacji sieci bayesowskich z danych dla bardzo dużej liczby atrybutów liniowej złożoności przestrzeni (Incremental Tree) - udoskonalono liniowej złożoności przestrzeni / n log n zużycie miejsca dla rzadkich

danych (Incremental Tree + Meila/Jordan) nowy liniowej złożoności przestrzeni / n log n zużycie miejsca dla danych

natury ogólnej (Edge Tree Constructor) opracowano miary odległości postulowane w oryginalnym algorytmie

Przeprowadzono badania na danych rzeczywistych (będą przedmiotem przyszłych publikacji)

Page 5: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Koncepcja algorytmu ETC

Page 6: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Skuteczność klasyfikacji dokumentów tekstowych z użyciem alg. ETC

Page 7: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Wyniki (2) opracowano nową klasę sieci bayesowskich - sieci

strukturalnych, dla których istnieje prosta transformacja do drzew Markova stąd istnieje prosta metoda wnioskowania każda sieć bayesowska da się przetransformować do

strukturalnej sieci

Page 8: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Koncepcja strukturalnej sieci bayesowskiej

Page 9: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

B

C D

E

A

J

I

S

R

H

F

G

P

K

L

M N

O

Zamiana na drzewo Markova

B

C D

E

A

J

I

S

R

H

F

G

P

K

L

M N

O

A,B,I

B,C,D,I

C,D,E,I

F,G,I

G,H,I

I,H,E,R D,E,I

E,H,R,J H,R,J

K,L,R

L,M,N,R

M,N,O,R

N,O,R

O,P,R

R,J,P

P,J,S

Page 10: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Oprogramowanie HierTest - Program implementujący testowo metody

konstrukcji sieci bayesowskich z wykorzystaniem drzew decyzyjnych opisany w [MKP:02d]

„Modele bootstrap dla współczynnika Yula-Pearsona w tabelach kontyngencyjnych (z wielokrotna odpowiedzią) o wymiarach 3x3”

analizy statystyczne do podręcznika: K. Ostrowska, „Kwestionariusz A-R”, Centrum Metodyczne Pomocy Psychologiczno-Pedagogicznej, 2002.

Page 11: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Publikacje

Konstrukcja wielkich sieci bayesowskich.[MKP:02b] M.A.Kłopotek: Structure and Reasoning in Bayesian Networks

. ICS PAS Reports Nr 941 Warszawa, February 2002 .[MKP:02d] M.A.Kłopotek: A New Bayesian Tree Learning Method with

Reduced Time and Space Complexity. Fundamenta Informaticae, 49(no 4)2002, IOS Press, pp. 349-367.

.[MKP:02f] M.A.Kłopotek: Minig Bayesian Networks Structure for Large Sets of Variables. in M.S.Hacid, Z.W.Ras, D.A. Zighed, Y. Kodratoff (eds): Foundations of Intelligent Systems Lecture Notes in Artificial Intelligence 2366, Springer-Verlag, pp.114-122

.[MKP:02h] M.A.Kłopotek: Space Saving Approach to Fitting Tree Distributions to High-Dimensional Sparse Data. In M.A.Kłopotek, J.Tchórzewski eds: Sztuczna inteligencja. Materiały V Konferncji Naukowej. Wydawnictwo Akademii Podlaskiej. Siedlce 2002 ISBN 83-7051-190-2, pp.13-18

Page 12: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Publikacje

Konstrukcja wielkich sieci bayesowskich (c.d.).[MKP:02n] M.A.Kłopotek: A New Space-Saving Bayesian Tree

Construction Method for High Dimensional Data Demonstratio Mathematica, Vol. 35, No. 3 (2002)pp. 671-684

.[MKP:02p] M.A.Kłopotek: Well-Structured Program Graphs And the Issue of Local Computations IN M.A.Kłopotek, S.T.Wierzchoń, M.Michalewicz(eds): Intelligent Information Systems 2002. Advances in Soft Computing. Physica/Springer Verlag, Heidelberg New York 2002. ISBN-3-7908-1509-8. , pp. 365-368

.[MKP:02s] M.A.Kłopotek, S.T.Wierzchoń: Collaborative Filtering with Bayesian Net. IN: B. Wiszniewski: Electronic Commerce. Theory and Applications Published by: Faculty of Management and Economics, Gdansk University of Technology, Poland, pp. 81-87

.[MKA:02f] M.A.Kłopotek: Reasoning in Structured Bayesian Networks TO APPPEAR IN Proc. ICNNSC'2002, Zakopane, June 11-15 2002

Page 13: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Publikacje

Konstrukcja drzew decyzyjnych dla dużych zbiorów danych

.[MKA:02m] M.Kłopotek, M. Paliwoda: Badania metod dyskretyzacji stosowanych w drążeniu baz danych. TO APPEAR IN Zeszyty Naukowe Politechniki Białostockiej

.[MKA:02n] M.Kłopotek, M. Paliwoda: Badania algorytmów uczących się drzew decyzyjnych TO APPEAR IN Zeszyty Naukowe Politechniki Białostockiej

Page 14: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Publikacje Klasteryzacja w mapach dokumentów

.[MKP:02k] M.A.Kłopotek, T. Grzeszczak, P. Lorens: Metody prezentacji dokumentów w postaci mapy In M.A.Kłopotek, J.Tchórzewski eds: Sztuczna inteligencja. Materiały V Konferncji Naukowej. Wydawnictwo Akademii Podlaskiej. Siedlce 2002 ISBN 83-7051-190-2 ,pp. 143-160

.[MKP:02w] M.A.Kłopotek, S.T.Wierzchoń: Wykorzystanie sieci Bayesowskich i sztucznmych systemów immunologicznych w inteligentnej nawigacji w sieci WWW. In: A. Wakulicz-Deja: "Systemy wspomagania decyzji" Materiały Konferencji Naukowej Zakopane 9-12.12.2001. Publisher: Instytut Informatyki Uniwersytetu Śląskiego w Katowicach. Katowice 2002, pp.43-48

.[MKP:02u] M.A.Kłopotek: Konstrukcja inteligentnych wyszukiwarek internetowych. In: A. Wakulicz-Deja: "Systemy wspomagania decyzji" Materiały Konferencji Naukowej Zakopane 9-12.12.2001. Publisher: Instytut Informatyki Uniwersytetu Śląskiego w Katowicach. Katowice 2002, pp.49-57

Page 15: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Publikacje

Klasteryzacja w mapach dokumentów (c.d.).[MKP:02l] M.A.Kłopotek, D. Czerski: Dynamiczne mapy dokumentów. In

M.A.Kłopotek, J.Tchórzewski eds: Sztuczna inteligencja. Materiały V Konferncji Naukowej. Wydawnictwo Akademii Podlaskiej. Siedlce 2002 ISBN 83-7051-190-2 ,pp.161-172

.[MKA:02p] M.A.Kłopotek: Intelligent information retrieval on the Web. To appear (November 2002) in: Szczepaniak, Piotr S.; Segovia, Javier; Kacprzyk, Janusz; Zadeh, Lotfi A. (Eds.): (2003) Intelligent Exploration of the Web Springer-Verlag ISBN 3-7908-1529-2, pp. 57-73.

Page 16: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Publikacje

Podstawy i zastosowania teorii Dempstera-Shafera.[MKP:02e] M.A.Kłopotek, S.T.Wierzchoń: Empirical Models for the

Dempster-Shafer Theory. in: Srivastava, R.P., Mock, T.J., (Eds.). Belief Functions in Business Decisions. Series: Studies in Fuzziness and Soft Computing. VOL. 88 Springer-Verlag. March 2002. ISBN 3-7908-1451-2, pp. 62-112 - praca rozliczana w 2000, była przedmiotem poprawek i uzupełnień, ukazała się w tym roku

.[MKP:02g] M.A.Kłopotek, S.T.Wierzchoń: Quest on New Applications for Dempster-Shafer Theory: Risk Analysis in Project Profitability Calculus. In: P. Grzegorzewski, O.Hryiewicz, M.A.Gil Eds.: Soft Methods in Probability, Statistics and Data Analysis , Advances in Soft Computing Series, Physica-Verlag/Springer Verlag, 2002, ISBN 3-7908-1526-8, pp. 302-309

.[MKA:02e] M.A.Kłopotek, S.T.Wierzchoń:: Conditional Belief Functions versus Proper Belief Functions TO APPPEAR IN Proc. ICNNSC'2002, Zakopane, June 11-15 2002

Page 17: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Publikacje Podstawy i zastosowania teorii Dempstera-Shafera

(c.d.).[MKP:02m] M.A.Kłopotek, S.T.Wierzchoń: Systemy wartościowań a

rozproszone protokoły sieciowe in Z. Bubnicki, O. Hryniewicz, R. Kulikowski: Badania Operacyjne i Systemowe wobec wyzwan XXI wieku. Metody i techniki analizy informacji i wspomagania decyzji. Akademicka Oficyna Wydaenicza EXIT, Warszawa 2002, pp. IV-1-IV-10. ISBN 83-87674-40-0

.[MKP:02q] M.A.Kłopotek, S.T.Wierzchoń: Application of Valuation Based Systems to Optimization of Enumeration IN M.A.Kłopotek, S.T.Wierzchoń, M.Michalewicz(eds): Intelligent Information Systems 2002. Advances in Soft Computing. Physica/Springer Verlag, Heidelberg New York 2002. ISBN-3-7908-1509-8. , pp. 301-310

.[MKP:02t] M.A.Kłopotek, S.T.Wierzchoń: Distributed enumeration protocol for valuation based systems. Zeszyty Naukowe Politechniki Białostockiej, 2002, Informatyka I, pp.83-96

Page 18: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Publikacje

Struktury danych dla multisystemów uczących się.{TRO:02a] Trojanowski, K., ``Analiza cech iteracyjnego algorytmu

optymalizacyjnego zastosowanego do optymalizacji parametrów dynamicznego systemu uczącego się", BOS 2002: VII Konferencja Polskiego Towarzystwa Badań Operacyjnych i Systemowych - Badania Operacyjne i Systemowe Wobec Wyzwań XXI Wieku, Warszawa, 26-28 września 2002, Akademicka Oficyna Wydawnicza EXIT, Warszawa 2002, str. IV-27 - IV-34.

.[TRO:02b] Trojanowski, K., Jodłowski, A., Skowroński K., ``Storing Data in KDD Systems /from Inlen 3.0 to InlenStar. Evolution of Database/", IIS 2002: The Eleventh International Symposium on Intelligent Information Systems, June 3-6, 2002, Sopot, Poland.

Page 19: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Publikacje Nowe testy statystyczne

.[MAT:02b]Lizely Abitia Niño de Rivera , Guillermo Bali Chávez, Joselín Espitia Espitia, Andrzej Matuszewski, “Analysis of the relations between groups at management level”, First Interchange of education experiences of the South Zone Rectorate.Electronic Memories in CD, ITESM Campus Mexico City, December 2001,Mexico.

.[MAT:02c] Sobolewska M., Matuszewski A., „Test czytania głośnego”, Centrum Metodyczne Pomocy Psychologiczno-Pedagogicznej, 72 strony, 2002.

.[MAT:02d]Katarzyna Juda-Rezler, A. Matuszewski, “Critical levels of sulphur dioxide in Poland and their exeedances” Referat wygłoszony na kongresie Inżynierii Środowiska (Lublin IX, 2002) . Ukaże się w 2003 w materiałach konferencyjnych w wydawnictwie Klouver

.[MAT:02a] A. Matuszewski, „Double clustering: A data mining methodology for discovery of causality”, in: M. A. Kłopotek, S. T. Wierzchoń, M. Michalewicz (ed.) “Intelligent Information Systems 2002”, Physica-Verlag, 2002, ss. 227-236.

Page 20: Wybrane zagadnienia uczenia się z wysokowymiarowych danych obarczonych niepewnością

Dziękuję