linkspam: erkennung und unterdrückung

Post on 29-Nov-2014

388 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

12. 02. 2007: Linkspam: Erkennung und Unterdrückung – Seminar “Maschinelles Lernen“, Arbeitsgruppe Wissensmanagement, HU Berlin

TRANSCRIPT

Link- SpamErkennung und Unterdrückung

Florian Holzhauerfh@fholzhauer.de

Spam?

„Kommerziell motivierter Datenmüll“Mail, Telefon, Post, Web, ..Hier: Linkspam

Ziel: Suchmaschinenranking verbessernMaschinenoptimiert

Warum Linkspam?

Gutes Suchranking = $$$Höhere BesucherzahlenPopulärer als die Konkurrenz

Viele Links auf beworbene SeitePageRankHITS

Zusätzlich „Queryoptimierung“

PageRank

„Google-Algorithmus“Oft Verlinkt = Hoher PageRank

PageRank der verlinkenden Seiten wichtigd = Damping factor (meist 0.85)

HITS

Hub-Rank, Authority-RankRekursiv

Wie Spam?

Häufig verlinktVerlinkt durch hoch bewertete SeitenSpamseite selbst will nicht unbedingt

hoch bewertet werdenAutomatisiert

Selten manuelle Ansätze

Blogspam

TrackbacksKommentareCaptchas/ RechenaufgabenAuch Wikis, Gästebücher, Foren

Linkfarm

Automatisch generiertGegenseitig verlinktDynamische Inhalte

Erkennung

Soziale Probleme, technische LösungNeuer Algorithmus -> neuer SpamFalse PositivesDefinition?

Quantitative Eigenschaften

Domain/URLWorthäufigkeitenSeiteneigenschaften

MetatagsServereigenschaften „nearby duplicates“Änderungsfrequenz

Sprachmodell

Sprachliche UnterschiedeBlogspamBlogbeitragKommentareVerlinkte Seiten

Kullback Leibler Divergenz„Wahrscheinlichkeitsunterschiede“

SVM

Support Vector MachineTrainierbarer SeparationsalgorithmusGruppiert in zwei Teile

Nicht linear separierbar: „Möglichst“ gut

Graphen

Links = Gerichteter GraphVerlinkungsanomalienGood CoreKombinierbar

Good Core

Manuell erstelltKleinUnzuverlässigSubjektivTeuer

TrustRank

Good Core Enfernung = Score 1*β

Dämpfungsfaktor(1/Linkzahl)*β

Basiert auf „gewollten Links“? Veraltete LinksSpam!

BadRank

„Umgedrehter Pagerank“E(A) durch Spamfilter

Nicht unbedingt nötig

ParentPenalty

Schnittmenge eingehender undAusgehender Links einer DomainGross = Vermutlich SpamMatrix (A) = 1 wenn Anzahl > Treshold, sonst 0

ParentPenalty

Iterieren durch AAnzahl eingehender Seiten mit An=1

> Treshold? -> An=1Mehrfache IterationProblem: Treshold-Wahl?

Ausblick

Idee: Kein absoluter Pagerank?Unterschiedliche Benutzer wollen

unterschiedliche SeitenTechnischer WettkampfSemantic Web?

top related