latent semantic analysis - sfs.uni-tuebingen.decebert/teaching/11geometriebedeutung/lsa.pdf ·...
TRANSCRIPT
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing Latent Semantic Analysis
Christian Ebert & Fritz Hamm
12. Januar 2012
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
Eigenwerte & Diagonalisierungen I
Sei V ein K-Vektorraum und A ein Endomorphismus/eine n× nMatrix über K ∈ {R,C}
Erinnerung
1 Gilt A~x = λ~x, x 6= 0 ∈ V, λ ∈ K, heißt λ Eigenwert und ~xEigenvektor von A.
2 λ ist Eigenwert von A gdw. λ ist Lösung descharakteristischen Polynoms det(A− λI) von A.
3 Hat A n verschiedene Eigenwerte, sind die Eigenvektorenlinear unabhängig (und bilden damit eine Basis von V)
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
Eigenwerte & Diagonalisierungen II
Theorem (Eigenwertzerlegung)
Sei V,A wie oben. Hat A n verschiedene Eigenwerte so lässt sichA wie folgt diagonalisieren:
A = SΛS−1
wobei S,Λ n× n Matrizen sind und Λ eine Diagonalmatrix ist.
Beweis.
Wähle als S die Matrix, die alle Eigenvektoren als Spalten enthält,Λ ist die Matrix, die auf der Diagonale die Eigenwerte λ1, . . . , λn
enthält.
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
Eigenwerte & Diagonalisierungen III
Anwendung: Näherungsweise Berechnung
A =
15 −5 −29 1 −4.510 −10 6
A = S
11 0 00 10 00 0 1
S−1
A (1, 1, 1)T = (8, 5.5, 6)T
A′ =
15.5 −5.5 −2.2510 0 −511 −11 5.5
A′ = S
11 0 00 10 00 0 0
S−1
A′ (1, 1, 1)T = (7.75, 5, 5.5)T
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
Eigenwerte & Diagonalisierungen IV
Definition
Eine Matrix heisst K = R K = C
symmetrisch hermiteschA = AT A = A
T
orthogonal unitärA−1 = AT A−1 = A
T
Theorem
Ist A eine symmetrische/hermitesche Matrix, dannsind alle Eigenwerte von A reellbilden die Eigenvektoren von A eine Orthonormalbasis von V
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
Eigenwerte & Diagonalisierungen V
Theorem (Eigenwertzerlegung symmetrischer Matrizen)
Sei V,A wie oben. Ist A symmetrisch/hermitesch, lässt sich A wiefolgt diagonalisieren:
A = QΛQT
wobei Q,Λ n× n Matrizen sind, Λ eine Diagonalmatrix und Q eineorthogonale/unitäre Matrix ist.
Beweis.
Wähle als Q ist die Matrix, die alle Eigenvektoren einer ONB vonV als Spalten enthält, Λ ist die Matrix, die auf der Diagonale dieEigenwerte λ1, . . . , λn enthält.
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
Eigenwerte & Diagonalisierungen VI
Theorem (Singulärwertzerlegung)
Sei V ein R-Vektorraum und A eine m× n Matrix über R. Dannlässt sich A wie folgt diagonalisieren:
A = UΣVT
wobei U ein orthogonale m× m Matrix, V eine orthogonale n× nMatrix und Σ eine m× n Matrix ist, für die Σij = 0 gdw. i 6= j.
(Idee).
Wähle: U enthält Eigenvektoren von AAT , V enthält Eigenvektorenvon ATA, Σii =
√λi, wobei λ1, . . . λn die gemeinsamen Eigenwerte
von AAT und ATA sind.
Konvention: Absteigende Sortierung Σ11 > Σ22 > . . .Σnn.
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
Eigenwerte & Diagonalisierungen VII
aus: C. Manning, H. Schütze, P. Raghavan. Introduction to Information Retrieval (draft version)
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
Latent Semantic Analysis/Indexing I
S. Deerwester, S. Dumais, G. Furnas, T. Landauer and R.Harshman (1990). Indexing by Latent Semantic Analysis. Journalof the American Society for Information Science 41(6), 39–407.
Gegeben:Term-Dokument-Matrix A der Dimension m× n
Probleme in der Praxis:
zu hohe Dimensionalität für effiziente Anwendung
Synonymie/Polysemie gehen in hoher Dimensionalitätverloren
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
Latent Semantic Analysis/Indexing II
Lösung:Dimensionalitätsreduktion mittels Singulärwertzerlegung/singularvalue decomposition (SVD)
1 Berechne SVD von A = UΣVT
2 Betrachte nur die k größten Singulärwerte:
Σkij =
{0 i = j, i > kΣij sonst
3 Berechne reduzierte Term-Dokument-Matrix Ak = UΣkVT
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
Latent Semantic Analysis/Indexing III
aus: C. Manning, H. Schütze, P. Raghavan. Introduction to Information Retrieval (draft version)
reduzierte Termvektoren: UΣk
reduzierte Dokumentvektoren: ΣkVT
Query-/Dokumentvektoren ~q können einfach auf neues,niedrigerdimensionales Format gebracht werden:
~qk = Σ−1k UT
k~q (Uk ist die auf m × k - gekürzte Version von U)
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
LSA: Beispiele I
aus: C. Manning, H. Schütze, P. Raghavan. Introduction toInformation Retrieval (draft version)
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
LSA: Beispiele II
aus: S. Deerwester et. al. (1990)
Latent SemanticAnalysis
Christian Ebert &Fritz Hamm
Lineare AlgebraIV: Diagonalisie-rungen
Latent SemanticAnalysis/Indexing
LSA: Beispiele III