k-nn i jego rozszerzeniaszczuka/mme/wyklad9.pdf · •first •prev •next •last •go back...

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Konwersatorium – Matematyczne Metody Ekonomiinarzędzia matematyczne w eksploracji danych

Alorytmy klasyfikującew oparciu o przykładyk-NN i jego rozszerzenia

Wykład 9Marcin Szczuka

http://www.mimuw.edu.pl/∼szczuka/mme/

Dobry sąsiad to bezcenny skarb.

przysłowie chińskie

Plan wykładu

• Klasyfikacja oparta na podobieństwie.• Algorytm k-NN.• Usprawnienia k-NN.• Aproksymacja funkcji z k-NN.

Notacja

T zbiór etykietowanych przykładów treningowych.Delta Cronecker’a δ(a, b) = 1 iff a = b, 0 wpp.d(x, y) - odległość między obiektami.c(x) wartość decyzji dla x ze zbioru Vc.

k− Nearest Neighbors

Odległość euklidesowa jest najczęściej, choć nie za-wsze słusznie, stosowana. Dla przykładów x, y

d(x, y) =√√√√√√ n∑i=1(ai(x)− ai(y))2

Zakładamy (na razie), że decyzja jest dyskretna.

Algorytm k-NN

k-NN(T, k, x∗)NN := {x1, . . . , xk} = argminkx∈T d(x, x∗);c(x∗) := argmaxv∈Vc

∑ki=1 δ(v, c(xi));

return c(x∗);

Dyskusja nad prostym k-NN

• Gdy ustalimy sąsiadów przestajemy dbać o od-ległość, co jest potencjalnie groźne.

•Wszystkie atrybuty traktujemy jednakowo.• Rozmiar k sąsiedztwa musi być znany.

Rozszerzenia k-NN

• k-NN z wagami odległościowymi.• Odległość z wagami.• k-NN w predykcji numerycznej.

k-NN z wagami odległościowymi

Przy poprzednich oznaczeniach:

c(x∗) := arg maxv∈Vc

k∑i=1wiδ(v, c(xi))

d(x∗, xi)2

Odległość z wagami

d(x, y) =√√√√√√ n∑i=1ui(ai(x)− ai(y))2

Jeden ze sposobów ustalania wagi:

(maxx∈T ai(x)−minx∈T ai(x))2

k-NN w aproksymacji funkcji

Załóżmy, że mamy zbiór T etykietowanych przykła-dów postaci 〈x, f (x)〉 dla pewnej nieznanej funk-cji f (.). Chcemy wyznaczyć (przybliżyć) wartośćf̂ (x∗) dla poprzednio nie obserwowanego argu-mentu x∗. W najprostszym przypadku:

f̂ (x∗) =∑ki=1 f (xi)k

Aproksymacja funkcji z wykorzystaniemodległości

Przy poprzednich oznaczeniach:

f̂ (x∗) =∑ki=1wif (xi)∑ki=1wi

Zauważmy, że ta metoda łatwo uogólnia się do me-tody globalnej, jeśli przyjmiemy k = |T |.

Podsumowanie k-NN

• Prosty pomysł i implementacja.• Dwa biegunowo różne typy wyników.• Najprostsza z lokalnych metod aproksymacji.•Wiele ogólniejszych metod używa podobnychpodejść np. lokalna ważona regresja liniowa.

• Dla dużych i skomplikowanych danych koniecznesą usprawnienia w implementacji.

k-nn i jego rozszerzeniaszczuka/mme/wyklad9.pdf · •first •prev •next •last •go back...

Documents

nowa klasyﬁkacja polskiej bibliograﬁi bibliologicznej....

cyfrowe przetwarzanie obrazów i sygna ów wyk ad 9 air...

podstawy automatyki - wyk ad 1 - pojecia podstawowe i...

programowanie równoległe rlucjan/prir/wyklad9.pdf ·...

badanie obrazowe w diagnostyce chrzåstki...

co robią fani twojego bloga, czyli współpraca oparta na...

php i mysql. witryna www oparta na bazie danych. wydanie iii

immanuel kant def. -...

podstawy automatyki - wyk ad 1 - pojecia podstawowe i...

advanced programming c# lecture 9...

osobowość pracoholiczna: właściwości i mechanizmy...

new oparta na faktach poruszająca opowieść o polskich...

wielowymiarowa analiza danych oparta na modelach...

wyklad 9 -...

prezentacja programu...

sp6lodz.files.wordpress.com€¦ · web viewistotą...

1 klasyﬁkacja systemów baz danych ze względu na -...

współpraca oparta na empatii

„fizyka materii skondensowanej i struktur...

i konferencja "współpraca w biznesie oparta na empatii"...