linkspam: erkennung und unterdrückung

19
Link- Spam Erkennung und Unterdrückung Florian Holzhauer [email protected]

Upload: florian-holzhauer

Post on 29-Nov-2014

388 views

Category:

Technology


1 download

DESCRIPTION

12. 02. 2007: Linkspam: Erkennung und Unterdrückung – Seminar “Maschinelles Lernen“, Arbeitsgruppe Wissensmanagement, HU Berlin

TRANSCRIPT

Page 1: Linkspam: Erkennung und Unterdrückung

Link- SpamErkennung und Unterdrückung

Florian [email protected]

Page 2: Linkspam: Erkennung und Unterdrückung

Spam?

„Kommerziell motivierter Datenmüll“Mail, Telefon, Post, Web, ..Hier: Linkspam

Ziel: Suchmaschinenranking verbessernMaschinenoptimiert

Page 3: Linkspam: Erkennung und Unterdrückung

Warum Linkspam?

Gutes Suchranking = $$$Höhere BesucherzahlenPopulärer als die Konkurrenz

Viele Links auf beworbene SeitePageRankHITS

Zusätzlich „Queryoptimierung“

Page 4: Linkspam: Erkennung und Unterdrückung

PageRank

„Google-Algorithmus“Oft Verlinkt = Hoher PageRank

PageRank der verlinkenden Seiten wichtigd = Damping factor (meist 0.85)

Page 5: Linkspam: Erkennung und Unterdrückung

HITS

Hub-Rank, Authority-RankRekursiv

Page 6: Linkspam: Erkennung und Unterdrückung

Wie Spam?

Häufig verlinktVerlinkt durch hoch bewertete SeitenSpamseite selbst will nicht unbedingt

hoch bewertet werdenAutomatisiert

Selten manuelle Ansätze

Page 7: Linkspam: Erkennung und Unterdrückung

Blogspam

TrackbacksKommentareCaptchas/ RechenaufgabenAuch Wikis, Gästebücher, Foren

Page 8: Linkspam: Erkennung und Unterdrückung

Linkfarm

Automatisch generiertGegenseitig verlinktDynamische Inhalte

Page 9: Linkspam: Erkennung und Unterdrückung

Erkennung

Soziale Probleme, technische LösungNeuer Algorithmus -> neuer SpamFalse PositivesDefinition?

Page 10: Linkspam: Erkennung und Unterdrückung

Quantitative Eigenschaften

Domain/URLWorthäufigkeitenSeiteneigenschaften

MetatagsServereigenschaften „nearby duplicates“Änderungsfrequenz

Page 11: Linkspam: Erkennung und Unterdrückung

Sprachmodell

Sprachliche UnterschiedeBlogspamBlogbeitragKommentareVerlinkte Seiten

Kullback Leibler Divergenz„Wahrscheinlichkeitsunterschiede“

Page 12: Linkspam: Erkennung und Unterdrückung

SVM

Support Vector MachineTrainierbarer SeparationsalgorithmusGruppiert in zwei Teile

Nicht linear separierbar: „Möglichst“ gut

Page 13: Linkspam: Erkennung und Unterdrückung

Graphen

Links = Gerichteter GraphVerlinkungsanomalienGood CoreKombinierbar

Page 14: Linkspam: Erkennung und Unterdrückung

Good Core

Manuell erstelltKleinUnzuverlässigSubjektivTeuer

Page 15: Linkspam: Erkennung und Unterdrückung

TrustRank

Good Core Enfernung = Score 1*β

Dämpfungsfaktor(1/Linkzahl)*β

Basiert auf „gewollten Links“? Veraltete LinksSpam!

Page 16: Linkspam: Erkennung und Unterdrückung

BadRank

„Umgedrehter Pagerank“E(A) durch Spamfilter

Nicht unbedingt nötig

Page 17: Linkspam: Erkennung und Unterdrückung

ParentPenalty

Schnittmenge eingehender undAusgehender Links einer DomainGross = Vermutlich SpamMatrix (A) = 1 wenn Anzahl > Treshold, sonst 0

Page 18: Linkspam: Erkennung und Unterdrückung

ParentPenalty

Iterieren durch AAnzahl eingehender Seiten mit An=1

> Treshold? -> An=1Mehrfache IterationProblem: Treshold-Wahl?

Page 19: Linkspam: Erkennung und Unterdrückung

Ausblick

Idee: Kein absoluter Pagerank?Unterschiedliche Benutzer wollen

unterschiedliche SeitenTechnischer WettkampfSemantic Web?