Download - Adaptacyjność a skalowalność map dokumentów
Adaptacyjność a skalowalność map dokumentów
M.A. Kłopotek, S.T.Wierzchoń, K.Ciesielski, M.Dramiński,
D.CzerskiInstytut Podstaw Informatyki
Polskiej Akademii Nauk
Zakopane, 6-8.12.2005.
Agenda
Motywacja Charakterystyka nowej
wyszukiwarki Architektura Interfejs użytkownika Pomiary jakości Eksperymenty Wyniki Wnioski
MotywacjaCelem projektu było stworzenie narzędzia do wspomagania
eksploracji baz dokumentów tekstowych poprzez generowanie nawigowalnych map, na których odległość geometryczna odzwierciedla odległość konceptualną dokumentów, zaś trzeci wymiar odzwierciedla rozkład gęstości dokumentów.
Specyfika analizowanych danych: Bardzo duża liczba obserwacji oraz wymiar przestrzeni. Dokumenty są połączone linkami (związki semantyczne). Zmienność danych w czasie (modyfikowane, usuwane, dodawane) Trudności ze zdefiniowaniem obiektywnej miary jakości wyników. Szum w dancyh (np. grupy dyskusyjne)
BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym
osobiste narzędzie do wspomagania zadania eksploracji pełnotekstowych baz dokumentów
nawigacyjne mapy dokumentów, na których bliskość geometryczna odzwierciedla bliskość koncepcyjną
Do zadań miękkiej klasyfikacji dokumentów oraz do stworzenia grafu bliskości pojęć, będącego podstawą kreowania nieostrych miar bliskości dokumentów zastosowano sieci bayesowskie.
Do poszukiwania optymalnej mapy dokumentów i ich grupowania stosowane są metody: samoorganizxujących się map Kohonnena sztucznych systemów immunologicznych wzrastającego gazu neuronowego
Zbiór dokumentów
Punkty w przestrzeni dokumentów
Grupy w przestrzeni dokumentów
Mapa dokumentów
Etapy tworzenia mapy
BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym
Nowa koncwepcja wyszukiwarki mapowej Pełen cykl przetwarzania miliona dokumentów - 48 godz. współistnienie wielu koncepcji map (SOM, GNG,
Immunologiczne) współistnienie wielu koncepcji reprezentacji map (czwotokątne,
sześciokątne, dwuwymiarowe euklidesowskie, hiperboliczne "rybie oko", prezentacja na kuli, torusie, walcu)
Możliwość przyrostowego generowania mapy Środowisko do badań eksperymentalnych nad nowymi
koncepcjami map
BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym
Nowe koncepcje pająka (quasi-inteligencja) Wyszukiwanie tematyczne w oparciu o sieci Bayesowskie
Nowe koncepcje indeksera Nowa metoda tzw. blokowych list inwersyjnych Nowe metody redukcji słownika Nowa metoda identyfikacji fraz
Nowe koncepcje analizatora - konstruktora map lokalno-globalne metody wyszukiwania zwycięzcy dla SOM oraz dla
GNG Nowe metody tematycznej inicjalizacji mapy (SVD, PLSA w wersji z
naiwną siecią Bayesowską, siecią ETC, metodą HAL) Nowe metody grupowania obszarów mapy (w oparciu m.in. o Fuzzy-c-
means)
BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym
Nowe koncepcje informatora Mapowo-sieciowa reprezentacja GNG automatyczny dobór najlepszej mapy spośród szeregu
wcześniej przygotowanych mapy wielowarstwowe (mapy kontekstowe) Kompaktowe obszary tematyczne identyfikowane
BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym
Poza tym: Wyniki wyszukiwania prezentowane na mapie dokumentów Streszczenia związane z zapytaniem generowane on-line Automatyczna generacja tezaurusa przy użyciu GNG Uzupełnianie kwerend przy użyciu sieci bayesowskich (sieci ETC lub
Chow.Liu) lub modelu HAL (z normalizowanymi lub nienormalizowanymi wektorami)
Pająk sieciowy i dyskowy Możliwość ograniczenia domen dla pająka, głębokości podkatalogów
jak i liczby ściąganych dokumentów Pająk wielowątkowy Przetwarzanie dokumentów HTML, tekstowych i PDF Rozpoznawanie języka dokumentu (polski, niemiecki, angielski)
BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym
Oraz Inteligentne priorytetowanie kolejki pająka Wybór strategii przeszukiwania sieci przez pająka, metoda
przypisująca priorytety adresowm umieszczanym w kolejce. 1 – Wykorzystanie miary kosinusowej do określenia wagi linków, 2 – Wykorzystanie sieci bayesa do określenia wagi linków, 3 – Wykorzystanie HALa do określenia wagi linków.
Określenie tematyki zbieranych dokumentów (termy z z wagami) Listy inwersyjne ze statycznymi lub dynamicznymi blokami Automatyczny dobór stemmera (polski, angielski, niemiecki) Cztery metody optymalizacji słownika termów Automatyczny dobór progów jakości termów przy optymalizacji
słownika
BEATCA architektura
........
INTERNET
DBREGISTRY
HT-Base
HT-Base
VEC-Base MAP-Base
DocGR-Base
Search Engine
Indexing +Optimizing
SpiderDownloading MappingClustering
of docs
........
CellGR-Base
Clusteringof cells
........
........ ........ ........
Processing Flow Diagram - BEATCA
Interfejs użytkownika
Tradycyjna płaska mapa sześciokątna
Tradycyjna kwadratowa mapa płaska
Trójwymiarowe wizualizacje mapy
Środowisko eksperymentalneMożliwość pomiarów jakości generowanych map – Możliwość pomiarów jakości generowanych map – wykorzystane miary obiektywnej jakościwykorzystane miary obiektywnej jakości
4001 = Average Map Cosine Quantization (cellErr): - pomiar ciągłości topologicznej mapy
4002 = Average Document Cosine Quantization (docErr) - pomiar jakości grup dokumentów na poziomie komórki
Miary zgodności klasteryzacji z intencją (na bazie z Miary zgodności klasteryzacji z intencją (na bazie z góry zadanej klasyfikacji)góry zadanej klasyfikacji)
4003 = Cluster Purity: - „czystość” pojedynczej komórki 4004 = Cluster Entropy: - entropia pojedynczej komórki 4005 = Average Weighted Cluster Purity: - średnia czystość komórek mapy 4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy 4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów (stosunek faktycznej entropiii do entropii oczekiwanej przy niezależności klastrów i klas)
Pomiary jakości
Eksperymenty Experiment #12: GNG with 64 gas cells Experiment #13: SOM - 8*8 cell map Experiment #22: GNG with 16 gas cells Experiment #23: SOM - 4*4 cell map
Porównanie Porównanie SOM SOM i i GNG GNG
EksperymentyObjaśnienia skrótów: docGroup – metoda grupowania dokumntów ETC – (Edge Tree construction algorithm), init kernel – rozmiar sąsiedztwa do nauki SOM IDComponent – faza uczenia
init – początkowa, 0 – po 1 iteracji 63 – po 63 iteracji final – na końcu
Porównanie Porównanie SOM SOM i i GNG GNG
Wyniki
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Mea
sure
Valu
e
12 13 22 23
IDExperiment
IDMeasre 4001
init 0 12 / 22 - 63; 13 - 12; 23 - 10
4001 = cellErr experiments settings (12 / 13 ) settings (22 / 23)
4002 = docErr 12 / 22 = GNG 64 cells 16 cells
13 / 23 = SOM init kernel = 2 init kernel = 1
docGroup = ETC docGroup = ETC
Porównanie SOM i GNGH Porównanie SOM i GNGH
00,10,20,30,40,50,60,70,80,9
Mea
sure
Valu
e
12 13 22 23
IDExperiment
IDMeasure 4002
init 0 12 / 22 - 63; 13 - 12; 23 - 10
4002 = Average Document Cosine Quantization (docErr)
Wyniki
00,10,20,30,40,50,60,70,80,9
1
Mea
usre
Valu
e
12 13 22 23
IDExperiment
IDMeasure 4005
init final
4005 = AvgPurity experiments settings (12 / 13 ) settings (22 / 23)
4006 = AvgEntropy 12 / 22 = GNG 64 cells 16 cells
13 / 23 = SOM init kernel = 2 init kernel = 1
docGroup = ETC docGroup = ETC
Porównanie SOM i GNGPorównanie SOM i GNG
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
Mea
sure
Valu
e
12 13 22 23
IDExperiment
IDMeasure 4006
init final
4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy
Wyniki4007 = NMI experiments settings (12 / 13 ) settings (22 / 23)
12 / 22 = GNG 64 cells 16 cells
13 / 23 = SOM init kernel = 2 init kernel = 1
docGroup = ETC docGroup = ETC
Porównanie SOM i GNGPorównanie SOM i GNG
0
0,1
0,2
0,3
0,4
0,5
0,6
Mea
sure
Valu
e
12 13 22 23
IDExperiment
IDMeasure 4007
init final
4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów
EksperymentySkrótyNB – naïve Bayes, SVD – Singular Value Decomposition, ETC – Edge Tree construction algorithm IDComponent – faza uczenia
init – początkowa, 0 – po 1 iteracji 63 – po 63 iteracji final – na końcu
Porównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM
WynikiCZ i. Duże sąsiedztwa
measures experiments settings
4001 = cellErr 11 = NB SOM
4002 = docErr 12 = ETC 64 cells
13 = SVD init kernel = 3 (49 cells)
00,05
0,10,15
0,20,25
0,30,35
0,4
Mea
sure
Valu
e
11 12 13
IDExperiment
IDMeasure 4001
init 0 11 / 12 - 62; 13 - 63
0
0,2
0,4
0,6
0,8
1
Mea
sure
Valu
e
11 12 13
IDExperiment
IDMeasure 4002
init 0 11 / 12 - 62; 13 - 63
Porównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM
4002 = Average Document Cosine Quantization (docErr)
CZ i. Duże sąsiedztwa
measures experiments settings
4005 = AvgPurity 11 = NB SOM
4006 = AvgEntropy 12 = ETC 64 cells
13 = SVD init kernel = 3 (49 cells)
0
0,2
0,4
0,6
0,8
1
Mea
sure
Valu
e
11 12 13
IDExperiment
IDMeasure 4005
init final
0
0,002
0,004
0,006
0,008
0,01
0,012
0,014
0,016
0,018
Mea
sure
Valu
e
11 12 13
IDExperiment
IDMeasure 4006
init final
WynikiPorównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM
4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy
CZ i. Duże sąsiedztwa
measures experiments settings
4005 = AvgPurity 11 = NB SOM
4006 = AvgEntropy 12 = ETC 64 cells
13 = SVD init kernel = 3 (49 cells)
0
0,1
0,2
0,3
0,4
0,5
0,6
Mea
sure
Valu
e
11 12 13
IDExperiment
IDMeasure 4007
init final
WynikiPorównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM
4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów
Cz.ii Małe sąsiedztwa
measures experiments settings
4001 = cellErr 11 = NB SOM
4002 = docErr 12 = ETC 64 cells
13 = SVD init kernel = 3 (25 cells)
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
Mea
sure
Valu
e
11 12 13
IDExperiment
IDMeasure 4001
init 0 11 / 12 - 11; 13 - 12
00,10,20,30,40,50,60,70,80,9
Mea
sure
Valu
e
11 12 13
IDExperiment
IDMeasure 4002
init 0 11 / 12 - 11; 13 - 12
WynikiPorównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM
Cz.ii Małe sąsiedztwa
measures experiments settings
4005 = AvgPurity 11 = NB SOM
4006 = AvgEntropy 12 = ETC 64 cells
13 = SVD init kernel = 3 (25 cells)
0
0,2
0,4
0,6
0,8
1
Mea
sure
Valu
e
11 12 13
IDExperiment
IDMeasure 4005
init final
00,0020,0040,0060,0080,01
0,0120,0140,0160,018
Mea
sure
Valu
e
11 12 13
IDExperiment
IDMeasure 4006
init final
WynikiPorównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM
Cz.ii Małe sąsiedztwa
measures experiments settings
4007 = NMI 11 = NB SOM
12 = ETC 64 cells
13 = SVD init kernel = 3 (25 cells)
0
0,1
0,2
0,3
0,4
0,5
0,6
Mea
sure
Valu
e
11 12 13
IDExperiment
IDMeasure 4007
init final
WynikiPorównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM
4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów
Adaptacyjność Pająk
Możliwość szukania wg profili tematycznych Dopasowanie do profilu dotychczas wyszukanych dokumentów
Indekser Przyrostowa konstrukcja indeksuListy inwersyjne z dynamicznymi blokami
Maper GNG – uczenie struktury powiązań z „zapominaniem” grup i
powiązań nieaktywnych Fleksybilnna inicjalizacja mapy, przewidująca uuczenieprzyrostowe
Gładkość modelu
- nieadaptacyjna i adaptacyjna konstrukcja
Przemieszczanie dokumentu między komórkami
- nieadaptacyjna i adaptacyjna konstrukcja
Średni błąd kwantyzacji
- nieadaptacyjna i adaptacyjna konstrukcja
Jakość lokalnej metody w konstrukcji GNG
- metoda klasyczna (globalna) a nowa (drzewiasta
Czas obliczeń
- metoda klasyczna (globalna) a nowa (drzewiasta
Dziękuję