linkspam: erkennung und unterdrückung
DESCRIPTION
12. 02. 2007: Linkspam: Erkennung und Unterdrückung – Seminar “Maschinelles Lernen“, Arbeitsgruppe Wissensmanagement, HU BerlinTRANSCRIPT
Link- SpamErkennung und Unterdrückung
Florian [email protected]
Spam?
„Kommerziell motivierter Datenmüll“Mail, Telefon, Post, Web, ..Hier: Linkspam
Ziel: Suchmaschinenranking verbessernMaschinenoptimiert
Warum Linkspam?
Gutes Suchranking = $$$Höhere BesucherzahlenPopulärer als die Konkurrenz
Viele Links auf beworbene SeitePageRankHITS
Zusätzlich „Queryoptimierung“
PageRank
„Google-Algorithmus“Oft Verlinkt = Hoher PageRank
PageRank der verlinkenden Seiten wichtigd = Damping factor (meist 0.85)
HITS
Hub-Rank, Authority-RankRekursiv
Wie Spam?
Häufig verlinktVerlinkt durch hoch bewertete SeitenSpamseite selbst will nicht unbedingt
hoch bewertet werdenAutomatisiert
Selten manuelle Ansätze
Blogspam
TrackbacksKommentareCaptchas/ RechenaufgabenAuch Wikis, Gästebücher, Foren
Linkfarm
Automatisch generiertGegenseitig verlinktDynamische Inhalte
Erkennung
Soziale Probleme, technische LösungNeuer Algorithmus -> neuer SpamFalse PositivesDefinition?
Quantitative Eigenschaften
Domain/URLWorthäufigkeitenSeiteneigenschaften
MetatagsServereigenschaften „nearby duplicates“Änderungsfrequenz
Sprachmodell
Sprachliche UnterschiedeBlogspamBlogbeitragKommentareVerlinkte Seiten
Kullback Leibler Divergenz„Wahrscheinlichkeitsunterschiede“
SVM
Support Vector MachineTrainierbarer SeparationsalgorithmusGruppiert in zwei Teile
Nicht linear separierbar: „Möglichst“ gut
Graphen
Links = Gerichteter GraphVerlinkungsanomalienGood CoreKombinierbar
Good Core
Manuell erstelltKleinUnzuverlässigSubjektivTeuer
TrustRank
Good Core Enfernung = Score 1*β
Dämpfungsfaktor(1/Linkzahl)*β
Basiert auf „gewollten Links“? Veraltete LinksSpam!
BadRank
„Umgedrehter Pagerank“E(A) durch Spamfilter
Nicht unbedingt nötig
ParentPenalty
Schnittmenge eingehender undAusgehender Links einer DomainGross = Vermutlich SpamMatrix (A) = 1 wenn Anzahl > Treshold, sonst 0
ParentPenalty
Iterieren durch AAnzahl eingehender Seiten mit An=1
> Treshold? -> An=1Mehrfache IterationProblem: Treshold-Wahl?
Ausblick
Idee: Kein absoluter Pagerank?Unterschiedliche Benutzer wollen
unterschiedliche SeitenTechnischer WettkampfSemantic Web?