schwachstellen von recommender systemenv01 · recommender systems are being used by an increasing...

42
Schwachstellen von Recommender Systemen Weaknesses of Recommender Systems Seminar Sommersemester 2005 Sabine Kuzdas Univ. Dr. Michael Hahsler und Univ. Prof. Dr. Wolfgang H. Janko Abteilung für Informationswirtschaft Institut für Informationsverarbeitung und Informationswirtschaft Wirtschaftsuniversität Wien Augasse 2-6 A-1090 Wien, AUSTRIA Telefon: ++43-31336-5231 Fax: ++43-31336-739 E-Mail: [email protected]

Upload: others

Post on 18-Oct-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Schwachstellen von Recommender Systemen

Weaknesses of Recommender Systems

Seminar

Sommersemester 2005

Sabine Kuzdas

Univ. Dr. Michael Hahsler und Univ. Prof. Dr. Wolfgang H. Janko

Abteilung für Informationswirtschaft Institut für Informationsverarbeitung und Informationswirtschaft

Wirtschaftsuniversität Wien Augasse 2-6

A-1090 Wien, AUSTRIA

Telefon: ++43-31336-5231 Fax: ++43-31336-739

E-Mail: [email protected]

Page 2: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 2 -

Schwachstellen von Recommender Systemen

Weaknesses of Recommender Systems

Motivation und Überblick Wenn wir Entscheidungen ohne ausreichendes Vorwissen oder persönlichen Erfahrungen treffen, ist es oft klug, sich an jenen Lösungswegen zu orientieren, die ähnlich handelnde Personen zuvor erfolgreich gemacht haben. Man kann die Erfahrungen anderer Leute zum Filtern und Entscheidungsfindung nutzen: Zum Filtern, um möglichen schlechten Entscheidungen auszuweichen, und zum Finden der richtigen Entscheidung, um auf eine mögliche gute Wahl hingewiesen zu werden. [RESN 97]. Im Alltag erfolgt dieser Prozess in Form von Gesprächen, Ruf eines Gegenstandes oder Produktes, Empfehlungsschreiben, Kino- und Buchrezensionen, Printmedien oder Restaurantführern. Empfehlungssysteme sollen diesen natürlichen, sozialen Prozess jedoch unterstützen und verbessern. In einem typischen solchen System stellen Menschen an passende Empfänger Empfehlungen bereit, die das System zuvor nach algorithmischen Verfahren gesammelt und analysiert hat. [HILL95] Stichwort: Empfehlungssystem, gemeinschaftsbasiertes Filtern, inhaltsbasiertes Filtern, Kaltstartproblem Keywords: Recommender System, Collaborative Filter, Content Filter, Bootstrapping, Cold Start, Black Box Character Zusammenfassung In unserer Gesellschaft ist die Einstellung zum Internet ambivalent – man spricht vom Fluch und Segen des Informationszeitalters. Aber auch in der Hochpreisung und Perfektionierung des Internets und deren zusammenhängenden Technologien bergen sich neue noch nie gewesene und unbekannte Gefahren. Diese Schwachstellen an den Systemen müssen identifiziert werden und Gegenmaßnahmen eingeleitet werden. Der Schutz vor Angreifern und die Widerstandsfähigkeit gegenüber von Manipulationen stehen an der Spitze der Sicherheitsanforderungen an Technologiesysteme. Die rasche Zunahme der Verfügbarkeit von Informationen und Wissen hat eine neue Qualität und Dimension erreicht. Vor allem das Internet als Quelle hat einen enormen Beitrag zu dieser Entwicklung getragen. Ein scheinbar unendliches Angebot an Produktauswahl von Waren bis Dienstleistungen und Informationen herrscht in dieser Online Welt. Deswegen ist es umso essentieller einem Kunden nur diejenige Information zur Verfügung zu stellen, die für ihn potenziell und wichtig sein könnte. Im Zuge dieser Thematik der Informationsfilterung versuchen Empfehlungssysteme, das Profil des Kunden einzubeziehen und damit personalisierte Empfehlungen zu generieren. Die bisherigen Filterverfahren zeigen jedoch auch wesentliche Mängel, die in dieser Arbeit dargestellt werden sollen. Im Weiteren werden Lösungsansätze zur Behebung dieser Probleme vorgestellt und ausführlich diskutiert.

Page 3: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 3 -

Abstract Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender systems are a useful tool to support user, to provide information and recommendations about the products, while they browse through the homepage. The aim of such systems is of course to increase sales and customer satisfaction. In this paper the author would like to examine, what recommender systems are and how they function. The author also discusses the weaknesses of recommendation systems and where they occur, and how they could be averted. After inducting readers to the topic, the author is trying to illustrate existing hazards of collaborative and content filtering systems. Despite of the advantages, recommender systems have still failed in unveiling their disruptive power because of a number of weaknesses. Further, these systems often suffer from problems of data sparseness and a new user has no ratings. The author is of the opinion that additional given information by the user and product models can give the system help in difficult recommendation tasks, and also alleviate both the “early rater” problem and the “sparse ratings” problem experienced by current recommender systems. Recommender systems have evolved in the extremely interactive environment of the Web. They apply data analysis techniques to the problem of helping customers find which products they would like to purchase at E-Commerce sites, but in this association shilling attacks and manipulation are big topic in this field. This concern is related to the existence of users that would like to give maliciously information or influence. Especially a users’ privacy and counter measures are discussed in this paper to each topic. Recommender systems also raise certain social problems, including those that relate to the issues of incentives for generating recommendations and of personal privacy. Another concern is the high abuse of personalized services and data information in such a system by companies. In fact, with current recommendation systems it is very hard to deal with or impossible for the user to control the components or process behind so that if the system starts giving bad quality recommendations, usually users just stop using it - that’s the solution to the problem. The growth and complexity of Web sites has led to a variety of combined recommender systems and solutions to its existing problems. The author will point out a vision to this development and will speak his mind about the further development of problems and advantages of filer systems.

Page 4: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 4 -

1. Einleitung ______________________________________________________________ 5

2. Methodik_______________________________________________________________ 5

3. Vorstellung Recommender Systeme _____________________________________ 7

3.1. „Kollaboratives Filtern“ _____________________________________________ 7

3.2. „Content basierte Filtern“ ___________________________________________ 9

4. Algorithmische Schwachstellen von Recommender Systemen ____________ 10

4.1. Kaltstart Problem __________________________________________________ 11

4.2. Sparsity Problem __________________________________________________ 11

4.3. New Item Problem _________________________________________________ 13

4.4. New User Problem _________________________________________________ 13

4.5. Early Rater Problem________________________________________________ 14

4.6. Black Box Charakter _______________________________________________ 15

4.7. Weitere Probleme bei Inhaltsbasierten Recommendation_____________ 15

4.8. Weitere Probleme beim Gemeinschaftsbasierten Filtern ______________ 16

4.9. Zufall _____________________________________________________________ 16

4.10. Weitere Schwachstellen ___________________________________________ 16

4.10.1. Skalierbarkeit und Performance __________________________________ 16

4.10.2. Synonym Problematik___________________________________________ 17

4.10.3. Manipulation___________________________________________________ 18

4.11. Gegenmaßnahmen________________________________________________ 19 4.11.1. Agentenbasierende Systeme ____________________________________ 19

4.11.2. Weiter Lösungsansätze _________________________________________ 20

5. Manipulation und Shilling Attacks ______________________________________ 23

6. Der User und soziale Schwachstellen ___________________________________ 25

6.1. Gläserne Mensch __________________________________________________ 25

6.2. Die personalisierten Empfehlungen und die Privatsphäre _____________ 26

6.3. Soziale Folgen_____________________________________________________ 27

7. Datenschutz und rechtliche Probleme___________________________________ 29

7.1. Datenschutzgesetz 2000____________________________________________ 31

7.2. EU-Datenschutzrichtlinie ___________________________________________ 32

9. Fazit- Résumé _________________________________________________________ 36

10. Abbildungsverzeichnis _______________________________________________ 39

11. Literatur _____________________________________________________________ 40

Page 5: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 5 -

1. Einleitung Diese Analyse hat die Thematik Schwachstellen von Recommender Systemen zum Inhalt. Diese Seminararbeit soll ausgehend von der Betrachtung der bisherigen existierenden Empfehlungssysteme einen Überblick über die Schwächen und Probleme dieser Systeme im Internet geben. Insbesondere werden Begriffe wie „Cold Start“ und „Black Box Character“ veranschaulicht und analysiert. Es werden sowohl die Ansätze und die Funktionalität des „kollaborativen“ Filterns sowie des „content“ basierenden Filterns als auch deren Szenarien erarbeitet. Recommender Systeme gründen sich in einer sowohl reinen gemeinschafts-basierten als auch inhaltsbasierten Ansatz der Wissensverbreitung von Gruppen mit ähnlichen Interessen und Präferenzen. Jedoch entstehen angesichts der stark zunehmenden Informationsflut, Gefahren und Schwächen bei dem Einsatz eines solchen Systems. Daher sollte man einen Einblick über deren Sicherheit und Manipulationsmöglichkeiten machen. [BaSh97] Aufbauend auf den beiden oben erwähnten Ansätzen sollen ausgehend von einer Abschätzung der negativen Auswirkungen von Empfehlungssystemen die Gegenmaßnahmen oder alternative Ansätze in Form von hybriden Systemen erschlossen werden, sodass eine diese Art der Wissensauffindung unbedenklich zum Einsatz kommt. [ReVa97] Die Zielsetzung dieser Analyse soll die Aufzeichnung und näheren Erläuterung von Problemen oder „unsichtbaren“ Schwachstellen der Empfehlungsmethoden aufzeigen und die Gefahren dieser Technologie skizzieren. Bei der Erarbeitung von entsprechenden sozialen Ansätzen wird der gläsernen Mensch in der Informations- Technologie und vor allem im Falle des gemeinschafts- und inhaltsbasierten Filterns beleuchtetet. Im Rahmen der Seminararbeit wird ein Fokus auf das Thema Privatheit und soziale Aspekte gelegt und die Thematik Datenschutz des Individuums und zugleich das Recht auf Informiertheit differenziert, ebenso wo die jeweiligen Stärken und Grenzen in Bezug auf Empfehlungssystemen aufgrund der jeweils verfügbaren Nutzerdaten liegen und welche Einsatzmöglichkeiten sich im Gegenzug anwenden lassen können. Im Weiteren ergeben sich durch diese Analyse eine Untersuchung ausgewählter Hybridsysteme, da angesichts der starken zunehmenden Informationsflut auch neue Ansätze im Wirtschaftsleben notwendig sein werden. 2. Methodik Die angewandte Methode zur Sammlung der benötigten Daten war eine Recherche der Printmedien sowie der webbasierenden Daten. Ebenso hat der Autor Lehrbücher und wissenschaftliche Analysen über die Thematik „Recommender Systeme“ in Verwendung. Im Fokus der Literatur stehen jedoch wissenschaftliche Auswertungen zu dieser Fragestellung. Zu Beginn der Arbeit hat der Autor die Module der digitalen Bibliothek am Universitätsgelände in Anspruch genommen, jedoch sich im Zuge der weiteren Informationsfindung auf die Diplomarbeiten der Hauptabeilung der Österreichischen Nationalbibliothek gestützt. Bei der Überprüfung der verwendeten wissenschaftlichen Papers hat der Autor die Risiken des Einsatzes und deren Umsetzung/ Auswirkungen auf die Gesellschaft und das einzelne Individuum analysiert. Um die Ziele der Arbeit erreichen zu können, wird im dritten Kapitel zunächst die theoretischen Modelle und Sichtweisen des gemeinschafts- und inhaltsbasierten Filterns beleuchtet, welche als Grundlage für das Verständnis dienen. Daran schließt

Page 6: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 6 -

sich eine Einschätzung an, inwieweit das jeweilige Modell negative Ursachen oder „offiziellen“ Schwachstellen entspricht und in web-basierten Unternehmen unbedenklich umgesetzt werden kann. In Kapitel vier folgt ein Blick in die Praxis. Es werden Schwachstellen und Nachteile der Empfehlungssysteme vorgestellt, die bereits in der Praxis im Einsatz sind. Im Speziellen werden hier das gemeinschaftsbasierte Filtern und inhaltsbasierte Filtern charakterisiert und analysiert. Der Autor lehnt seinen Fokus auf diese Arten von Empfehlungssystem, da diese vor allem Verwendung in kommerziellen Geschäftsmodellen finden, letztendlich wird versucht, Alternativen und Lösungsansätze zu finden und darzustellen. Im Verlauf dieses Kapitels werden die Thematiken Cold Start, New Item und New User Problem behandelt. Im Weiteren möchte sich der Autor auf die algorithmischen Schwachstellen wie das Sparsity Problem sowie der Black Box Charakter konzentrieren. Anschließend werden weitere Probleme von Filterverfahren behandelt, die sich im „Zufall“ ergeben und andere negative Aspekte wie Performance und Skalierbarkeit diskutieren. Ein negativer Aspekt des inhalts- basierten Ansatzes liegt darin, dass die Information Retrieval Techniken nur auf gewisse Typen von Ressourcen anwendbar sind. Beispielsweise können bei Webseiten ästhetische Aspekte, die meisten Multimedia Dateien und Netzwerk nicht berücksichtigt werden. Ein zweites Problem betrifft die Über-Spezialisierung. Wenn das System nur Ressourcen empfehlen kann, die eine hohe Übereinstimmung mit dem Profil des Benutzers besitzen, bekommt dieser nur Texte vorgeschlagen, die ähnlich zu bereits bewerteten Texten sind. Eine Lösung zu diesem Problem würde hier das Hinzufügen von Zufälligkeit schaffen, beispielsweise durch Mutations-Operationen, einem genetischen Algorithmus. Drittens sind Empfehlungen bei diesem Ansatz immer sprachenabhängig. Diese Nachteile entfallen bei gemeinschaftsbasierten Systemen, weil dort stattdessen Ressourcen empfohlen werden, die anderen Benutzern mit ähnlichen Interessen gefallen haben. Beim kollaborativen Filtern ist das Problem vorhanden, dass die Benutzer betrifft, wenn deren Geschmack verglichen mit der restlichen Benutzergruppe ungewöhnlich ist. Diese werden dann nur sehr wenige Empfehlungen erhalten. In der Zusammenfassung dieses Kapitels werden Gegensteuerungsmaßnahmen angesetzt. Im Kapitel 5 die Thematik der Manipulation an Recommender Systemen (Shilling Attacken) behandelt, dies behandelt die Empfehlungen und das Einfügen „falsch spielender User“. In diesem Abschnitt wird die Beeinflussung des Benutzers beobachtet. Die oben genannten Filtersysteme sind jedoch nicht selbstkorrigierend und die essentielle Frage in diesem Kapitel wird sein, inwieweit die Benutzer eine Manipulation erkennen und wie lange diese anhält. In Kapitel 6 wird sich der Autor auf den Usern von Recommender Systeme konzentrieren und diesen Aspekt unter dem Fokus „Gläserner Kunde“ beleuchten. In diesem Zusammenhang wird der Autor diese Thematik in Bezug auf das Datawarehousing, die Überwachung von Usern und Schutzmaßnahmen skizzieren. Die Speicherung von Nutzerbewertungen stellt hohe Anforderungen an den Schutz der Privatsphäre dar. Daher wird im Folgenden der Autor die „Privacy Problematik“ in Augenschein nehmen und die Auswirkungen von Systemen in Zusammenhang mit der Privacy Problematik behandeln. Zukünftige Empfehlungssysteme werden ein Anreiz –bzw. Belohnungssystem einführen müssen. Entweder in Form von Bezahlung für geleistete Bewertungen, oder dadurch, dass man nur im Gegenzug für Bewertungen Empfehlungen vergibt. Allgemein gesprochen werden die Probleme bei der Gewinnung und Gefahren bei

Page 7: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 7 -

der Auswertung und Handhabung von Userprofilen und Informationen im Zuge dieses Kapitels aufgearbeitet. Im siebenten Kapitel werden Datenschutz und die rechtlichen Probleme von Empfehlungssystemen analysiert. Der Ansatz, dass ein öffentlich einsehbares Datawarehouse für Empfehlungssysteme vorteilhaft ist, wird vom Autor diskutiert. Eine mögliche Lösung wäre die Trennung von Profilen und Diensten. Die Möglichkeiten des Schutzes vor solchen Überwachungen erfordern ein User-Fachwissen. Die Gegenmaßnahmen zu der automatischen Profilerstellung sind das Abschalten bzw. Selektive Ablehnung von Cookies, Verwendung von Proxies oder die absichtliche Desinformation des Anbieters. Im Anschluss daran wird der rechtliche Aspekt beleuchtet und teilweise angeschnitten. 3. Vorstellung Recommender Systeme Die Empfehlungssysteme können Beziehungen zwischen Benutzern und Objekten herausfiltern, die nicht mit objektiven Eigenschaften der betrachteten Objekte beschreibbar sind. Dieser Ansatz ermöglicht einen Erfahrungsaustausch zwischen einer hohen Anzahl von Benutzern, die sich dabei nicht zwingend persönlich kennen müssen. Die aufwendige Ermittlung von Objekteigenschaften und das Führen einer zugehörigen Datenbank entfallen. Die Eigenschaftsprofile der Objekte werden nicht benötigt, stattdessen werden Präferenzen in Benutzerprofilen gespeichert, in diesem Ansatz sind auch Prognosen in produktspartenübergreifenden Gebieten nicht unmöglich. Eine wesentliche Stärke dieser Filtertechniken liegen darin, dass Objekte empfohlen werden, die nicht anhand von Eigenschaften gefunden worden wären. Infolge des Empfehlungsprozesses fließen in die Objekte durch eine ständige Neubildung von veränderten Interessen neue Interessen und Vorlieben ein. Die spezifizierten Objekte werden empfohlen, auch wenn nicht nach ihnen gesucht wurde, und je länger das System besteht, je größer die Menge der Benutzer ist, desto genauer werden Empfehlungen, da die Wahrscheinlichkeit ähnliche Benutzer zu finden, steigt. [BoHn04, 2ff]

Abbildung 1: Architektur von Empfehlungssystemen

3.1. „Kollaboratives Filtern“

Beim Verfahren des gemeinschaftsbasierten Empfehlungssystems erfolgt die Empfehlung von Ressourcen, die Benutzern mit ähnlichen Interessen und Geschmack ebenfalls gefallen haben. Der Ansatz liegt hier in der Ähnlichkeit von Benutzerprofilen nicht in der von Ressourcen. Im Zuge der Analyse und Auswertung erfolgt eine Identifizierung von einer Menge von "`nächsten Nachbarn"' für jeden Benutzer, mit deren vergangenen Bewertungen die größten Korrelationen bestehen. Die geschätzten Werte für einen Text werden basierend auf den Werten von den

Page 8: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 8 -

nächsten Nachbarn ermittelt. Mit Hilfe dieser Methode werden die Nachteile der inhaltsbasierten Systeme überwunden. Die Empfehlungen anderer Benutzer werden verwendet, es kann jede Art von Ressource behandelt werden, und es können Objekte empfohlen werden, die anders sind als jene, die der Benutzer in der Vergangenheit bereits gesehen hat. Weil die Empfehlungen aller Benutzer verwendet werden, kann die Leistung des Systems aufrecht bleiben, auch wenn die einzelnen Benutzer weniger Bewertungen abgeben. [BaSh97,2-7]

Abbildung 2: Darstellung einer gemeinschaftsbasierten Filtermaschine Im Laufe dieser Methode entstehen zwei andere Probleme: Wenn eine neue Ressource in die Datenbank eingefügt wird, kann diese solange nicht empfohlen werden, bis ein Benutzer sie bewertet, oder er festlegt, mit welcher anderen Ressource eine Ähnlichkeit besteht. Um ein gut funktionierendes System zu erhalten, darf also die Anzahl der Benutzer relativ zur Anzahl der Ressourcen nicht zu klein sein. Das zweite Problem betrifft Benutzer, deren Geschmack verglichen mit der restlichen Benutzergruppe ungewöhnlich ist. Diese werden dann nur sehr wenige Empfehlungen erhalten. [MaEh95,1] Die statistischen Ansätze werden in „Memory Based“ und „Model Based“ unterteilt. Der „Memory Based“ Algorithmus bearbeitet den ganzen Datensatz und hat die Aufgabe in den Nachbarschaften ähnliche Nutzer abzubilden. Auf der Nachbarschaft eines suchenden Nutzers werden Voraussagen und Vorschläge dann berechnet. Der Model Based Algorithmus entwickelt aufgrund der vorhandenen Daten ein wahrscheinlichkeitstheoretisches Modell. Unter Berücksichtigung des bisherigen Verhaltens für gewisse Produkte und deren Bewertung wird die Wahrscheinlichkeit einer Bewertung eines bestimmten Nutzers berechnet. [BaSh97,2-7]

Page 9: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 9 -

Abbildung 3: Der gemeinschaftsbasierte Prozess vom Input über den CF Algorithmus bis hin zum Output

Abbildung 4: Nachbarschaftsformation und der Prozess: Die Distanz zwischen dem Zieluser wird errechnet und der näherste – k Nutzer wird als Nachbar identifiziert, in diesem Diagram stellt k fünf dar.

Abbildung 4: Beziehungsmodell des gemeinschaftsbasierten Filterns

3.2. „Content basierte Filtern“

Der Inhaltsbasierte Ansatz von Empfehlungen findet seinen Ursprung im Information Retrieval, wobei die Funktion in dem Vergleich von Inhalten und Benutzerprofilen auf Textdokumente basiert und folglich empfohlen wird. Dabei werden die Texte oft mit einem Gewichtungsschema analysiert, indem die entscheidenden Wörtern hohe Gewichtungen mitgegeben werden. Nachdem ein Benutzer eine Seite ausgewählt hat, wird sie ihm wiederum gezeigt, wobei der diese bewerten sollte. Wenn dem Benutzer der Text gefiel, können die Gewichtungen der Wörter, welche aus dem Text extrahiert wurden, zu den Gewichtungen derselben Wörter im Profil des Benutzers addiert werden. Dieser Prozess wird „Relevance Feedback“ genannt. Obwohl viele verschiedene Methoden existieren, Gewichtungen zu berechnen, oder das Benutzerprofil zu aktualisieren, birgen sich im inhaltsbasierten Ansatz gewisse Nachteile. [BaSh97,2-7]

Page 10: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 10 -

Abbildung 5: Darstellung einer inhaltsbasierten Filtermaschine Ein Nachteil dieses Ansatzes liegt darin, dass die genannten Information Retrieval Techniken nur auf gewisse Ressourcenarten anwendbar sind. Es werden bei Webseiten ästhetische Aspekte, die multimedialen Aspekte und Netzwerk-Faktoren wie die Ladezeit außer Acht gelassen. Ein zusätzliches Problem betrifft die Überspezialisierung der Ressourcen. Wenn das System nur Ressourcen empfehlen kann, die eine hohe Übereinstimmung mit dem Profil des Benutzers besitzen, bekommt dieser nur Texte vorgeschlagen, die ähnlich zu bereits bewerteten Texten sind. Jedoch die noch „reinen“ unbewerteten Texte bleiben außerhalb der Betrachtung und werden wenig wenn gar nicht berücksichtigt. Abhilfe würde hier das Hinzufügen von Zufälligkeit schaffen, beispielsweise durch Mutations-Operationen (genetischer Algorithmus). Ein weiteres Bedenken liegt darin, dass der Benutzer dazu gebracht werden muss, Bewertungen zu jedem der gelesenen Texte abzugeben, was bald lästig und langweilig werden kann. Ein Verringern der Bewertungen führt automatisch zu einer verringerten Anzahl guter Empfehlungen. Die folgenden genannten negativen Aspekte entfallen bei der Funktionsweise des gemeinschafts-basierten Filtern, wo nicht Ressourcen vorgeschlagen werden, die ähnlich jenen sind, die einem Benutzer in der Vergangenheit gefallen haben, sondern es werden jene Ressourcen empfohlen, die anderen Benutzern mit ähnlichen Interessen gefallen haben. [BaSh97,2-7]

Abbildung 6: Beziehungsmodell des inhaltsbasierten Filterns 4. Algorithmische Schwachstellen von Recommender Systemen In den folgenden Kapiteln werden die Nachteile und Schwachstellen von Filtersystemen im Speziellen des gemeinschafts- und inhaltsbasierten Filterns

Page 11: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 11 -

charakterisiert und analysiert. Der Autor lehnt seinen Fokus auf diese Arten von Empfehlungssystem, da diese vor allem autonom oder in Kombination als kommerzielles Geschäftsmodell eingesetzt werden und daher zahlreichen Versuchen des Missbrauchs und der Manipulation deutlich stärker ausgesetzt sind. Zusammenfassend wird versucht, Alternativen und Lösungsansätze zu finden.

4.1. Kaltstart Problem

Eine wesentliche Stärke der gemeinschaftsbasierten Filtertechniken liegen darin, dass Objekte auf besondere Art und Weise extrahiert werden, da in den Empfehlungsprozess durch eine ständige Neubildung der Mentorenmenge veränderte Interessen einfließen. Die spezifizierten Objekte werden empfohlen, auch wenn nicht nach ihnen gesucht wurde, und je länger das System besteht, je größer die Menge der Benutzer ist, desto treffsicherer werden Empfehlungen, da die Wahrscheinlichkeit ähnliche Benutzer zu finden steigt. Dies erweist sich gleichzeitig aber als problematisch. Es ist nämlich grundlegend notwendig, über ein Minimum an Benutzerprofilen zu verfügen, um sinnvolle Empfehlungen abgeben zu können. Man spricht auch von der Kaltstart oder „Bootstrapping“ Problematik. [BoHn04,2ff] In der initialen Phase des Systems schafft die Anzahl der Kunden selbst und das Minimum an Benutzerprofilen eine der größten Schwachstellen. Viele der kollaborativen Filtersysteme leiden an dem Kaltstartproblem, da bei neuen Benutzern noch keine Daten für das Benutzerprofil vorhanden sind. Das System muss erst „trainiert“ werden, was bedeutet, dass es einige Zeit benötigt bis es die Präferenzen und Vorlieben des neuen Nutzers kennt, diese effektiv filtern und auswerten kann. [Janz04,1-6] Allgemein gesprochen bedarf es einer kritischen Masse für die ersten Vorschläge. In diesem Zusammenhang könnte eine weitere Schwachstelle sein, dass der Benutzer zu Beginn viel zu unpräzise Empfehlungen vom Empfehlungssystem bekommt, sodass man relativ schnell das Interesse an einer solchen Seite verliert, und keine weiteren Mühen in die Präzisierungen seines Profils investiert. [BoHn04,2]

4.2. Sparsity Problem

Das Wort Sparsity bedeutet „Spärlichkeit“ und spielt auf die Problematik der geringen Ausgangs bzw. Grunddaten in einer Matrix an. Die Empfehlungssysteme werden in Bereichen genutzt, in denen eine große Auswahl an Items besteht. Daher ist die User Item Rating Matrix im allgemeinem sehr spärlich gefüllt, das wiederum die Auffindung von Korrelationen zwischen Benutzern sehr schwierig macht. [Janzo4,1-16] Im Zuge des gemeinschaftsbasierten Filterns wird zur Auswertung die Navigation- oder Kaufhistorie der Benutzer herangezogen und die Assoziationsregeln erzeugen nun wiederum dafür Regeln auf höhere Ebene der Produkthierarchie. [PREI04] Die Problematik des gemeinschaftsbasierten Filterns ist die Vorhersage über die Präferenz eines Benutzers im Bezug eines Objekts, welches dieser/e nicht bewertet hat. Dieses sogenannte “Leerfeld” (space) Problem kann in der User Item Rating Matrix veranschaulicht werden. Jeder Eintrag in diese Matrix entspricht der Bewertung eines Benutzers für ein spezielles Objekt. Im Normalfall ist diese Matrix spärlich gefüllt, weil einige Einträge in der Matrix leer sind infolge der kleinen Anzahl an Untermengen an auswählbaren Objekten. Die Aufgabe der Vorhersage beinhaltet

Page 12: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 12 -

daher auch das Vervollständigen bzw. Füllen der leeren Räume in der Matrix. Das Problem der Spärlichkeit an Daten kann nicht eliminiert werden, jedoch kann mithilfe des „Simple Bayesian Classifier“ Verfahrens ein besserer Ansatz zur Vorhersage von Empfehlungen herangezogen werden. Es wird anhand eines Datensatzes die Funktionalität des Filtersystems überprüft und dies führt zu einem besseren Ergebnis im Zuge der Anwendung des „Simple Bayesian Classifier“ , wenn man die Filterführung unabhängig durchführt und versucht, Schlüsselwörter für Eigenschaften von Objekten zur erleichternden Auswertung zu integrieren. [MiPaoJ,1-11] Das Ziel gemeinschaftsbasierten Filtern im Buchsektor wie bei Amazon.de ist es, die Unterstützung der Benutzer mit dem Fokus auf Dokumente oder Konsumgüter Ihres Interesses. In einer hohen quantitativen und geringen qualitativen Umgebung wie Usenet News decken die Benutzer nur einen kleinen Prozentsatz an verfügbaren Dokumenten ab wie Usenet Studien gezeigt haben (Rating Rate von 1% in manchen Breichen). Einige Untersuchungen zeigen, dass nur ein geringer Anteil an Kunden Objekte begutachtet, lesen oder bewerten, eine Studie zeigt auf, dass sogar nur ungefähr 1/10 der insgesamt 1% von über zwei Millionen verfügbaren Büchern bewerten. [BaKo98,1-10] Auf der einen Seite ist dieses Problem der “Spärlichkeit” an Informationen und Bewertung die Motivation und treibende Kraft für die Nutzung der Filtersysteme. Die Kunden wollen einfach keine Informationen und langwierige Bewertungen lesen. Jedoch auf der anderen Seite stellt es eine Herausforderung dar, da es schwieriger wird Nachbarn zu finden und Dokumente weiterzuempfehlen, dadurch weil nur eine geringe Anzahl an Kunden Bewertungen abgeben. Die Lösungsansätze zur Überwindung dieses Problem lässt sich im gemeinschaftsbasierten Filtern wie folgt stellen [BaKo98, 1-10]: �Die Partitionierung: Das GroupLens Research Projekt veranschaulicht die Aufteilung der Bewertungen der Ratings auf der Datenbasis von Usenet Gruppen und spiegelt dies in einer höheren Genauigkeit und Dichte wieder. Aber auch mit der Hilfe der Partitionierung kann das Problem der spärlichen Informationen nicht effektiv gelöst werden. [ BaKo98, 1-10] Die Reduktion der Dimensionalität: Man hat versucht anhand von statistischen Methoden die Dimensionalität der Daten zu verdichten, jedoch leider ohne des Erfolges der Problemlösung. Dafür kamen Techniken wie das Clustering, Faktorenanalyse und die Singulärwertzerlegung zum Einsatz. [ BaKo98, 1-10] . Die Implizite Bewertung: Einige Systeme versuchen die Anzahl der Bewertungen zu erhöhen indem man das Verhalten von Nutzern beobachtet und registriert, um andere Kriterien der Bewertungen heranzuziehen . Das GroupLens Projekt kam zu dem Ergebnis, dass die Zeit, die, man mit dem Lesen eines Artikels verbringt, ein effektives Bewertungskriterium ist. Wiederum PHOAKS konzentriert sich auf URLs in Usenets und versucht damit die ausfindig gemachten Empfehlungen zu filtern. Andere Systeme untersuchen die Nutzerhistorie oder beobachten das Verhalten des Nutzers. Schließlich gelang es dem MovieLens System die „Start- up Sparsity” zu reduzieren durch das Vereinigen verschieden Millionen existierenden Bewertungen. Im Zusammenhang mit dieser Problematik sollte man den Inhaltsbasierten Ansatz als Lösungsansatz heranziehen und nützen. [ BaKo98, 1-10]

Page 13: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 13 -

4.3. New Item Problem

Ein signifikantes Problem von Empfehlungssystemen ist das Unvermögen Empfehlungen oder Vorhersagen für kürzlich neu hinzugefügte Objekte zu liefern. Die Bewertung eines Nutzers über einen neuen Begriff kann daher nicht verglichen werden mit anderen Bewertungen. Ebenso wenig ist es für das System möglich, Vorhersagen für neue Begriffe zu treffen, die bis zu diesem Zeitpunkt von einer ausreichenden Anzahl an Nutzern weder besucht noch bewertet wurden. [ BaKo98, 1-10]

4.4. New User Problem

Ein neuer Nutzer gibt Bewertungen über Produkte ab, anhand dieser wird sein Profile erstellt und Empfehlungen gemacht. Zur Lösung des Problems muss dem neuen Nutzer von Anfang an Produkte zur Bewertung vorgeschlagen werden, die ein hohes Maß an Informationen beinhalten, weil mit so wenig Bewertungen wie möglich ein qualitativ hochwertiges Profil erstellt werden muss. Vor allem muss eine genaue Auswahl jener expliziten Daten erfolgen, die im weiteren Verlauf von den Nutzern gesammelt werden. Aufgrund der Wissenschaftler Pennock and Horvitz ist die “value-of-information” Kalkulation von Nutzen, um die wertvollste und effizienteste Bewertung eines Nutzers zu bekommen. Den Forschern Kohrs and Merialdo zufolge sind der mittlere Informationsgehalt und die Varianz adäquate Messgrößen zur Generierung für neue Nutzerbewertungen. [RaAl02, 1-8] Ein Ansatz zur Lösung des Problems des neuen Nutzerzuganges sind vordefinierte Nutzerkategorien und die schnelle Zuordnung von neuen Nutzern zu diesen Gruppen. Nach dieser Partitionierung erfolgt eine Fragestellung an den Nutzer anhand vordefinierter Fragen um eine Präferenzstruktur aufzeichnen zu können. [RaAl02, 1-8] Dies spiegelt sich in einem “Jump- start” des Nutzers wieder, ohne dass dieser eine Anzahl an Bewertungen abgeben muss. Die ersten Fragestellungen, die an den neuen Nutzer adressiert sind, beinhalten einen Satz an Präferenzmodellen, die sich an demografischen Modellen oder auf bestimmte Attribute beziehen. Diese Analyse der gestellten Fragen ermöglicht die adäquate Einordnung des Nutzers in das passende Model. Wenn diese Modelle gut und korrekt spezifiziert sind, ermöglicht dies eine hohe Qualität an der Datenauswertung und daher an der Vorhersage von Präferenz aufgrund der eigenen. Die Kategorie und das demografische Modell sind mehr spezifiziert und erfordern eine domainspezifizierte Begutachtung. Filterbots sind Techniken zur Überwindung des Startup Problems für neue hinzukommende Begriffe im gemeinschaftsbasierten Filtersystem. Hierbei werden Agenten in das System geschleust und bewerten jeden Begriff im System in Zusammenhang mit deren kontextabhängigen Algorithmus. Diese sogenannten Filterbots schaffen für jedes einzelne Objekt im System Bewertungen und Rankings um bei der Suche der Nutzer zu helfen, welches diese am Interessantesten finden. Diese Methode löst aber nicht das New User Problem im Ganzen. Es existieren auch Untersuchungen bei denen Agenten im gemeinschaftsbasierten Filtern dazu verwendet werden, Nutzerpräferenzen zu extrahieren und Informationen transparent zu machen. Diese Vorgehensweise hat den Vorteil des Sammelns von impliziten Informationen und des Unterstützen von Bewertungen, und sollte auch daher Daten schneller für neue Nutzer zur Verfügung stellen. Die Verwendung dieser impliziten Daten mit den existierenden expliziten Informationen stellt einen vielversprechenden Ansatz dar. Die Strategien zur Auswahl von Begriffen erfolgt hier nach vier

Page 14: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 14 -

Dimensionen unter denen man eine Auswahl treffen kann: Man kann die Nutzerleistung, die Nutzerzufriedenheit, die Empfehlungsgenauigkeit oder die Benutzerfreundlichkeit unterstützen und verwenden. [RaAl02, 1-8]

Abbildung 7: Die Architektur für gemeinschaftsbasiertes Filtern mit einem Anwender und Filterbot

4.5. Early Rater Problem

Dieses Problem entsteht im Zuge des gemeinschaftsbasierten Filterns, wobei die Aussagefähigkeit von Bewertungen sehr gering eingeschätzt wird und daher noch nicht repräsentativ ist, weil ein Artikel oder Dokument erst ins Netz gestellt werden muss. [Janzo04, 1-16] Neue Produkte, die noch von keinem Benutzer bewertet wurden, können auch nicht von einem Filtersystem weiterempfohlen werden. Das System liefert nur einen geringen oder keinen Wert, da der Nutzer der Erste in seiner Nachbarschaft ist, der Bewertungen für ein gewisses Objekt abgibt. Derzeit hängen gemeinschaftsbasierte Filtersysteme von der Uneigennützigkeit anderer Nutzer ab, welche gewillt sind, Objekte zu bewerten ohne den Erhalt einiger Empfehlungen. Die Analysten sind der Annahme dass, wenn das Bewerten an sich keinen Aufwand erfordert. Die Nutzer ziehen eine Verzögerung bei der Bewertung von Objekten in Betracht, weil sie auf ihre Nachbarn „warten“, um diese dann erst mit Empfehlungen zu versorgen. Ohne der Existenz von „Selbstlosigkeit“ wird es notwendig sein, diverse Anreizsysteme oder Zahlungsmechanismen zu institutionalisieren, um frühzeitige Bewertungen zu bestärken oder unterstützen. [BaKo98, 1-10]

Page 15: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 15 -

4.6. Black Box Charakter

Das gemeinschaftsbasierte Filtern besitzt den klassischen Black Box Charakter, dies bedeutet, dass für den Betreiber das System nicht transparent ist und daher geht die Steuerung des Empfehlungssystems verloren. Folglich kann die Ausgabe des Empfehlungssystems nicht gesteuert werden. [Janz04, 1-16] Es kann für neue Objekte keine Prognose erstellt werden, da dazu zunächst eine Mindestanzahl von Bewertungen abgegeben werden muss. Außerdem werden Objekteigenschaften auch dann nicht in die Prognose mit einbezogen, wenn sie verfügbar oder gar relevant sind. Nicht zu unterschätzen sei hier auch das Risiko schlechter Empfehlungen durch zufällige Zusammenhänge, da bestimmte übereinstimmende Präferenzen nicht zwingend auch eine Übereinstimmung hinsichtlich anderer Kriterien bedeuten. Die erzeugten Prognosen werden unter dem Begriff Black Box-Charakter klassifiziert, was bedeutet, dass der Empfehlungsprozess nicht besonders transparent ist. [BoHn04,2]

4.7. Weitere Probleme bei Inhaltsbasierten Recommendation

Bei inhaltsbasierten Systemen sucht man nach Ähnlichkeiten zwischen Objekten und setzt sie mit den Interessen des Kunden in Beziehung, dies wird durch den Vergleich der Metadaten von Objekten bewirkt. Diese Methode kommt vor allem für textbasierte Objekte in den Bereichen Informationsportale, Webseiten und Newsgroups zum Einsatz. Für einige Bereiche sind jedoch keine inhaltlichen Informationen über Items verfügbar oder schwer analysierbar. Für diese Methode ist es jedoch schwer den persönlichen Geschmack und die Qualität abzubilden. Im Zuge der Verwendung können diese Systeme nur Items empfehlen, deren Beschreibung mit den Benutzerprofilen übereinstimmt. Die Zusatzinformation über den Kunden geht verloren, denn die Items, welche nicht den repräsentativen Vorlieben des Kunden entsprechen, werden einfach nicht empfohlen. [Janz04, 1-16] Bei dieser Methode kann nur eine oberflächliche Analyse von bestimmten Arten von Inhalten erfolgen. Einige Inhalte wie Filme und Bilder sind für die Extraktionsmethoden des klassischen Filteralgorithmus nicht zugänglich und verwendbar. Ebenso können bei Textdokumenten Ästhetik, Aktualität oder Qualität nicht einbezogen werden, was jedoch den Benutzer in seiner Entscheidung über die Relevanz von Informationen beeinflusst. Zusätzlich ist hier wieder die Thematik der Spezialisierung zu erwähnen, da dieses System nur die Informationen herausfiltert, die im Benutzerprofil am höchsten bewertet werden. Dadurch geht dem Kunden Informationen verloren, die zwar nicht seinem Profil ähneln, aber ihn trotzdem interessieren könnten. Eine Schwachstelle dieser Systeme ist das Erlangen eines Feedbacks des Benutzers. Beim reinen inhaltsbasierten Filteransatz beeinflusst das Feedback des Kunden die zukünftigen Ergebnisse und es gibt derzeit keinen Weg, die Quantität der Dokumente zu reduzieren ohne dass gleichzeitig das Ergebnis vom Konsumenten evaluiert und dabei abgeschwächt wird. [Weng02,5,6]

Page 16: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 16 -

4.8. Weitere Probleme beim Gemeinschaftsbasierten Filtern

Im Zuge dieses Filtersystems wird nach ähnlichen Personen gesucht, die ähnliche Präferenzen haben, um dann Objekte zu empfehlen, die diese Personen für gut bewertet haben. Im Vordergrund steht die Beziehung zwischen Nutzern zu den Objekten. Diese Methodik findet Einsatz im E Commerce und E Learning. [Janz04, 1-16] Diese Methode stößt an seine Grenzen, weil Subjekte und damit die Informationsquelle individuell und daher unterschiedlich in Präferenzen sind. Wenn bestimmte Vorlieben von Personen bezüglich gewisser Eigenschaften übereinstimmen, resultiert es gezielt nicht darin, dass zwangsläufig weitere Eigenschaften gleich sein müssen. Diese Annahme kann zu falsch gefilterten Empfehlungen durch das System führen. [Weng02,5,6] Die Bildung von Gruppen beim inhaltsbasierten Filtern ist ein Angelpunkt der Strategie. Eine größere Anzahl von regelmäßigen Benutzern ist notwendig, um sinnvolle und gute Ergebnisse zu erhalten. Der Benutzer muss immer wieder Bewertungen abgeben, auch wenn die Personalisierung schon relativ gut ist. Der Beginn ist schwierig, da noch keine Bewertungen vorliegen. Es gibt zwar Möglichkeiten zur Abhilfe indem man die Ergebnisse wie Regeln liefern, doch sind diese qualitativ nicht besonders gut. [Janz04, 1-16]

4.9. Zufall

Im inhaltsbasierten Filterprozess kommt bei der Empfehlung von Dokumenten der Faktor hinzu, dass alle Vorgänge sehr stark dem Zufall unterliegen. Dies resultiert aus dem Sachverhalt, dass ein Filtersystem nur begrenzt alle im Internet erhältlichen Informationen auffinden und zur Bewertung aufbereitet kann. [Weng02, 4-6]

4.10. Weitere Schwachstellen

4.10.1. Skalierbarkeit und Performance

Eine der kritischen Punkte bei den Filtersystemen sind die Grenzen der Skalierbarkeit vor allem beim “Nearest- Neighbor“ Ansatz. Diese setzt die Formation der Nachbarschaft als einen fortlaufenden linearen Prozess voraus. Für große Datensätze führt dies jedoch zu Latenzschwierigkeiten bei der Bewertung. Diese Problematik tritt vor allem beim gemeinschaftsbasierten Filtern auf. In diesem Fall werden die Benutzerprofile und deren „Surfmuster“ nach impliziten Methoden in Bezug auf die inhaltliche Aspekte gemessen. Diese Informationen werden anschließend in Vektoren abgebildet, in diesem Fall werden dann Stammkunden einen größeren Vorrat an Informationen und Mustern haben als bei einer Kauftätigkeit im E- Commerce Bereich. Infolge wir die Nutzer zu Nutzer Ähnlichkeiten berechnet und dies zeiht eine Verminderung der Systemleistung mit sich. An die Skalierbarkeit und die Performance werden hohe Anforderungen gestellt, denn Empfehlungssysteme müssen viele Kunden und viele Produkte verwalten, speichern, in Zusammenhang bringen und auswerten, zusätzlich sollen die Empfehlungen in Echtzeit generiert werden. Beim gemeinschaftsbasierten System besteht die hohe Anforderung an die Skalierbarkeit in der Berechnung der nächsten Nachbarn. Im Gegenzug dazu haben die Assoziationsregeln einen hohen Verlust an der Systemleistung aufgrund des großen Produktraums. [Prei04]

Page 17: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 17 -

4.10.2. Synonym Problematik In dieser Problematik wir die Produkttaxonomie nicht in die Berechnungen der Empfehlungen miteinbezogen. Im Speziellen im gemeinschaftsbasierten Filtern beziehen die Metriken zur Berechnung von Ähnlichkeiten die Abhängigkeiten zwischen Produkten nicht mit ein. Im Weiteren wird der Kauf eines Produktes auch schon als positive Bewertung gewertet, was aber nicht der Fall sein muss. Es gilt nicht der Grundsatz, dass nur, weil der Kunde ein Produkt kauft, auch dieses positiv bewertet. Ein Lösungsansatz wäre hier nur ein neues Empfehlungsverfahren zu entwickeln, das dieses Problem versucht zu lösen und damit Qualitätsbedingungen und Effizienzbeurteilungen berücksichtigt. Eine Möglichkeit ist die „cbit“ Metrik, denn diese berücksichtigt die Abhängigkeiten zwischen den Produkten. [Prei04] Die Suche nach Ähnlichkeiten und ähnlichen Bewertungen stellt ein interessantes Problem dar, weil die ungewöhnliche Dimension des Problems verglichen zu der Größe der Dokumente ungewöhnlich ist. Die Korrelation zwischen Wörtern entsteht durch die Synonymproblematik und die verschiedenen Beschreibungen auf Basis desselben Konzeptes. Daraus ergibt sich, dass zwei Dokumente, die verschiede Vokabeln und Wörter beinhalten sich in der Thematik des Inhalts gleich sind oder ähneln. Im umgekehrten Fall können sich zwei Dokumente sich im Inhalt total differenzieren, aber nur in der Wahl oder in den Wörtern ähneln. Dieses Problem wird im Suchprozess in der Form der Unvollständigkeit und der Ungenauigkeit beobachtet. Während der Suche nach dem Wort „Katzen“ wird das Dokument das über katzenartige Spezies ist, das aber das Wort „Katze“ nicht explizit beinhaltet, nicht berücksichtigt. Daraus ergibt sich das Problem, dass assoziierte und verwandte Wörter oder Themen in der Suche nicht berücksichtigt werden. In den meisten Fällen beinhaltet das Ziel der Suche eine Vielzahl an Subjekten und Konzepten, die nur aufgrund einer Schlussfolgerung bestimmter Wörter im Dokument möglich wären. [AgYuoJ, 1-8] Ein weiteres Problem ist die Polysemie, sprich die Mehrdeutigkeit von Begriffen. Denn ein und dasselbe Wort kann zu verschiedenen Konzepten und Inhalten führen wie das Wort Virus, das als Computer oder biologischer Virus gedeutet werden kann. Die Doppelsinnigkeit eines Begriffes kann nur durch die genaue Analyse des Kontextes und des Zusammenhanges oder in der Überprüfung des Sinnzusammenhanges anderer Wörter im Text des Dokuments behoben werden. Dieses Problem stellt eine Herausforderung im Lösungsansatz dar, denn es sollten ähnliche Funktionen geschaffen werden für hochdimensionierte Applikationen, denn diese mehrdimensionaligen Vektoren beinhalten eine Menge an Informationen, welche nicht durch individuelle Attribute abgeleitet werden können, sondern nur im Kontext und unter gewissen Einschränkungen berücksichtigt werden können. [AgYuoJ, 1-8] Eine Technik die diesem Problem entgegenwirkt ist das Semantische Indizieren, denn diese Vorgehensweise verbessert die Qualität der Ähnlichkeitssuche in Texten. Diese Ontologie wird in Suchmaschinen und Webportalen eingesetzt und sucht nach Schlagworten, die sich in Konzepte abbilden und erlauben Zusatzinformationen. Weiters ermöglicht diese Methode die Suche nach Konzepten mit der Angabe von Eigenschaften. Dieses Suchen ermöglicht die Anzeige von Zusatzinformationen über eine gewisse Wortressource. Dieses Konzept spiegelt eine auf lineare algebraische basierende Technik wieder, welche die „versteckten“ Strukturen hinter einem Dokument berücksichtigt. Die Vorgehensweise ist, dass man den Datensatz in kleine Untergruppen zusammenfasst und die Störeinflüsse wie die gleichbedeutende

Page 18: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 18 -

Bezeichnung oder Mehrdeutigkeit von Begriffen damit minimiert. Diese Methode des konzeptionelle Indizieren und des Suchens nach Ähnlichkeiten im Text verbessert die Suchqualität und die Sucheffizienz dramatisch. [AgYuoJ, 1-8] Eine weitere Lösung zum Problem des Synonyms wäre die Inkludierung von kontextabhängigen Informationen, dass die Begriffe mit verschiedenartigen Bedeutungen richtig interpretiert werden können. In diesem Zusammenhang ist die Association Thesaurus (Jing & Croft, 1994) zu erwähnen, die bei Anfragen oder Suchen diese kontextabhängige Komponente verwendet. Hier ist die Suche erfolgreich, indem man automatisch durch die Suche ergebende zusammentreffende Informationen innerhalb des Kontextes untersucht. Dadurch ergibt sich eine Darstellungsstrategie, weil man die Ausprägungen eines Vektormodells darstellen kann, und versucht die ähnlichen Begriffe und deren hierarchische Strukturierung der Konzepte durch ein automatisches Erfassen entgegen zu wirken. [AgYuoJ, 1-8]

4.10.3. Manipulation Ein Problem ist die Präsentation eines Bewertungssystems und die Beeinflussung auf die abgegebenen Wertungen. Durch eine Reihe von Tests ist es bei diversen Empfehlungssystemen statistisch signifikant nachgewiesen, dass Nutzer dazu neigen, in Richtung der durch das System vorhergesagten Bewertung zu tendieren. Zusätzlich scheinen Nutzer diese verfälschten Wertungen zu bemerken. Ein weiterer Test zeigt, dass die mit verfälschten Bewertungen konfrontierten Nutzer das Empfehlungssystem als weniger nützlich und genau bewerteten wie, welche mit Originalwerten konfrontierten Nutzer. Ein marktbasierter Ansatz könnte eine Verbesserung in diesem Zusammenhang liefern. Hierbei geht man davon aus, dass sich die Ergebnisqualität einer bestimmten Technik bei verschiedenen Nutzern von Situation zu Situation unterscheidet. Der folgende Ablauf soll diese Thematik skizzieren. Ein Internetnutzer hat eine für Empfehlungen freie Seitenleiste in seinem Browserfenster. Agenten werten die aktuelle Seite des Browsers aus und erstellen Empfehlungen für ähnliche Seiten. Der Raum der Seitenleiste ist allerdings begrenzt und viele Agenten konkurrieren um diesen Platz. Die Zuteilung der Seitenleiste erfolgt über eine Auktion, bei der das Empfehlungssystem als Auktionator fungiert und die jedes Mal bei einem Wechsel der Seite ausgelöst wird. Die Agenten beurteilen die Qualität ihrer Empfehlung, und geben dementsprechend hohe oder niedrige Gebote ab. Die höchsten Gebote erhalten einen Platz in der Seitenleiste zugeteilt und dürfen ihre Empfehlung an den Nutzer präsentieren. Wählt der Nutzer eine oder mehrere Empfehlungen aus, so erhalten die empfehlenden Agenten eine Entlohnung, die sie in der Zukunft bei weiteren Auktionen verwenden können. Nicht ausgewählte Empfehlungen gehen leer aus, die Agenten müssen aber die Kosten der Auktion tragen. Auf diese Weise ist gewährleistet, dass Agenten mit hoher Qualität ihre Empfehlungen weiterhin präsentieren können, während die ignorierten mit der Zeit keine Mittel mehr haben [WeMo03, 600]. Dieser Ansatz bietet einen großen Vorteil, denn es erfolgt eine simultane Nutzung mehrere Systeme und ein flexible Anpassung des Empfehlungssystems. Mit dieser Technik wir dem Nutzer aus einer Vielzahl von Filterungstechniken diejenige präsentiert, die am besten für ihn und seine Situation geeignet ist. [WeMo03, 600ff]

Page 19: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 19 -

4.11. Gegenmaßnahmen

4.11.1. Agentenbasierende Systeme Um die Problematik des „Early Rater“ und „Sparsity“ zu lösen, werden verschieden Filtertechniken eingesetzt. Im Zuge der Filterbottechnik wird das „Sparsity“ gelöst und das „Cold Start Problem“ bewältigt. Bei diesem Ansatz werden syntaktische Attribute in so genannte Filterbots zusammenfasst. Die Filterbots sind Mitglieder im gemeinschaftsbasierten System, helfen Nutzern, die sie akzeptieren mehr Bewertungen durchzuführen als Empfehlungen vorhanden sind. Diese Filterbots sind automatische Bewertungsroboter, die Produkte aufgrund verschiedener Eigenschaften bewerten. Die Umgehung der Probleme erfolgt nun im Einsatz von einem oder mehreren Filterbots für eine bestimmte Produktart. Das gemeinschaftsbasierte Filtern darf dann eingesetzt werden. Das „Scalability“ und das „New User Problem“ kann aber hierdurch nicht gelöst werden. Mit Hilfe dieses Filterbot Konzepts verwendet man einen intelligenten Satz von Robotern, welche lernende Agenten beinhalten und auf einen bestimmten Nutzer abgestimmt sind. Im weiteren sind diese Roboter in dem gemeinschaftsbasierten System integriert, was bedeutet, dass man dem einzelnen Nutzer dient und hilft. Zuallerletzt kann man Filterbots simultan und in Echtzeit aktivieren und nutzen. [RaAl02, 1-8] Ein weiterer Lösungsansatz der oben angeführten Probleme sind agentenbasierte Systeme. Diese Agenten der einzelnen Benutzer suchen direkt bei den potentiellen Kontaktpersonen, die ihnen von der Plattform mitgeteilt worden sind. Dies unterstützt das Vertrauen des Benutzers. Ebenso können eine dezentralisierte Erfassung, Speicherung und Verarbeitung der Information angestrebt werden. Die folgende Abbildung acht stellt verschiedene Ansätze von Agentenarchitekturen dar. Die Modelle oberhalb verwenden die Profile und Präferenzen der Benutzer während die unten angeführten Beispiele Information filternden Agenten sind. Die Modelle an der rechten Seite verwenden multiple Agenten während die anderen höchstens einen Agenten zur Empfehlungssuche benützen. Aber in jedem dieser Fälle erhält der Benutzer individuelle und spezifisch auf ihn angepasste Empfehlungen. In der Gesamtbetrachtung jedoch liefern gemeinschaftsbasierte Filtersysteme besser Ergebnisse als ein oder multiple Agenten. Schlussendlich wird der beste Einsatz im Zusammenspiel von personalisierten Agenten und Präferenzen von Benutzergemeinschaften sprich gemeinschaftsbasiertes Filtern prognostiziert. Diese Kombination ermöglicht hoch qualifizierte Empfehlungen und Genauigkeit in der Vorhersage. Die ständig lernenden Agenten sollten bessere Resultate leisten, wenn die Agenten selbst den ständig veränderten Profilen und Präferenzen der Benutzer angepasst werden und nicht als linear angesehen werden. [GoSc99, 2-8]

Page 20: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 20 -

Abbildung 8: Arten von agentenbasierte Empfehlungssystemen

Abbildung 9: Agenten basierte Architektur

4.11.2. Weiter Lösungsansätze

Eine Vielzahl optimierender Strategien sind entwickelt worden, um die Probleme wie „Scalability“ und „Sparsity“ mit Hilfe des gemeinschaftsbasierten Ansatzes zu lösen.

Page 21: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 21 -

Diese Techniken beinhalten das „Similarity Indexing“ um die Reduktion der Suchkosten in Echtzeit zu ermöglichen. [MoJi04] Der objektbasierte gemeinschaftliche Filteralgorithmus dient zur Lösung des Skalierbarkeit Problems mit Hilfe des nutzerbasierten gemeinschaftsbasierten Ansatzes. Objektbasierte Algorithmen verhindern den Engpass in Bezug auf die Korrelation, dies erfolgt weil man zuerst die Beziehungen unter den Objekten berücksichtigt und dann die Ähnlichkeiten im reduzierten Räumen berücksichtigt. Die Aggregation von ähnlichen Objekten ist unabhängig von den verwendeten Methoden, solange man strukturierte semantische Objektinformationen verwendet. Diese Integration von semantischer Ähnlichkeiten von Objekten, welche durch Bemessung oder Gebrauch eruiert wird, erlaubt es Rückschlüsse zu ziehen basierend auf den Interessen und Präferenzen eines Nutzers an einem bestimmten Objektes. Dieser Ansatz der semantischen Ähnlichkeiten verbessert die Genauigkeit der Empfehlungen als auch der Umgang mit spärlichen Daten sowie mit neuen Objekten. [MoJi04]

Abbildung 10: Errechnung ähnlicher Produkte

Die Integration der semantischen Ähnlichkeiten in das gemeinschaftsbasierte Filtermodell erfolgt durch Bemessung und ermöglicht einige Vorteile. Zu allererst bildet den Ansatz, aus welchen Grund ein Nutzer ein bestimmtes Objekt interessant findet, sprich man kann Rückschlüsse auf den Nutzer ziehen. Diese Deduktion ermöglicht eine genauere Empfehlung von Objekten. Zweitens im Falle von geringer oder gar keiner Bewertung sprich keiner verfügbaren Information verwendet das System immer noch semantische Ähnlichkeiten zur Empfehlungsauswertung. Die semantische Analyse basiert auf semantischen Attributen in einer Matrix und veranschaulicht Objektähnlichkeiten sowie die Nutzer/ Objekt Matrix. Letztendlich werden kombinierte Methoden von Ähnlichkeitsmessungen (Vektoren) verwendet wie die lineare Kombination von zwei Ähnlichkeiten, die auf dem gemeinschaftsbasierten Filtersystem basieren. [MoJi04] Zur Gewährung von semantischen Informationen über Objekte verwendet man wie oben erwähnt das gemeinschaftsbasierte Filtersystem. Die Extraktion von dominanten strukturierten Objekten wie semantische Einheit sind in Web- Seiten enthalten. Diese Methode beinhaltet die automatische Extraktion und Klassifikation von Objekten der verschiedensten Typen in Klassen basierend auf Kernontologie. Die Ontologie definiert signifikante Konzepte und deren semantische

Page 22: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 22 -

Zusammenhänge. Es spiegelt sich in einer relationalen Tabelle wieder, die wiederum mehrere Tabellen in sich integriert. Am verwendet die Fremdschlüssel, welche in semantischer Beziehung zueinander stehen. Diese Kernontologien für eine Web- Seite beinhalten Konzepte, Zusammenfassungen von Relationen zwischen Konzepten und anderen Konzepten unter den Konzepten, welche den Kernkontext der Web- Seite präsentieren. [MoJi04] Das Problem der Extraktion von ontologischen Instanzklassen kann einerseits als Klassifizierung von eingebetteten Objekten in einem oder mehreren Web -Seiten gesehen werden, welche man manuell vergibt und kennzeichnet. Der Prozess beginnt mit der Filterung der Web Seiten, die zum gleichen Definitionsbereich gehören, anschließend erfolgt die manuelle Vergabe von semantischen Merkmalen dieser. Diese Bezeichnungen der Datensätze werden nun in einen Lernalgorithmus gespeichert, damit dieser lernt zwischen Web Objekten und Bezeichnungskonzept „Labeling“ zu unterschieden. Dieser Lernprozess basiert auf Seiteninhalt und auf verlinkte Informationen. [MoJi04] Man kann auch in diesem Zusammenhang kernspezifische „Wrapper“ Agenten verwenden, die Textgewinnung und heuristische Regeln zur Extraktion von Klassen und Instanzattributen von Web Seiten, welche schon auf einer vorspezifizierten Ontologie basiert, verwenden. Das Schema spezifiziert Attribute in der Assoziation mit Klassen sprich ein Relationsschema. Der „Wrapper“ Agent nützt dieses Schema für Klassen und einfache heuristische textlich basierte Hinweise zum Herausfiltern von Attributwerten und bestückt anschließend diese Instanzen mit Klassen woraus dann Tupels entstehen. In der Zukunft wird man einen Fokus auf die Erweiterung von allgemeinen ontologischen Sprachen legen, damit man bessere strukturelle Beziehungen zwischen Klassen und Objekten über einen großen Datensatz definieren kann. [MoJi04]

Abbildung11: Ontologie für eine Film Web –Seite Abbildung elf stellt einen ontologischen Zusammenhang dar. Eine Film Web Seite beinhaltet Attribute wie Titel, Schauspieler usw. Diese Informationen assoziieren wiederum Klassen welche Filme in unserer Ontologie darstellt. Eine Kernontologie wäre in diesem Zusammenhang die Klasse Film, Schauspieler, Direktor mit ihren Attributen. Einige der Attribute repräsentieren Einheiten von Klassen oder verlinken oder referenzieren zu Klassen. Im Allgemeinen sind Objektähnlichkeiten Klasseninstanzen. Die Werte von semantischen Attributen assoziieren Klasseninstanzen, welche in relationalen Tabellen gesammelt sind. Im weiteren Verfahren werden die Normalisierung und Diskretisierung zur Datenrepräsentation verwendet. Schlussendlich werden alle Ausprägungen bzw. Attribute in einer semantischen Attributenmatrix dargestellt. [MoJi04]

Page 23: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 23 -

Die Reduktion an Dimensionalitäten basiert auf dem latenten semantischen Indizieren. Diese Technik wird im Zuge des Information Retrieval genutzt und zeigt, dass semantische Analysen und Indexierung von Dokumenten Auswirkungen auf die Genauigkeit von Empfehlungen haben. Diese Anwendung resultiert darin, dass eine Zerlegung einer Häufigkeitsmatrix in zwei Matrizen und in eine diagonale Matrix von singulärem Wert erfolgt. Jede Dimension in der reduzierten Form stellt eine latente Variable dar, die Gruppen von korrelierten Indexbezeichnungen repräsentieren. Die Reduktion der Dimensionalität der Originalmatrix reduziert auch die Ausreißer eines Datensatzes ebenso wie das Seltenheitsproblem. Also man versucht durch Ähnlichkeiten zwischen Dokumenten, die mit Indexen versehen sind, und durch Nutzeranfragen Informationen zu liefern. Um dies zu verwirklichen, verwendet man den Ansatz der reduzierten Dimensionen, welche durch semantische Attribute mit Begriffen assoziiert werden. Die erzeugten latenten Variablen stellen Gruppen von hoch korrelierenden Attributen im Originaldatensatz dar. Dieser Ansatz hilft auch bei der korrekten Vorhersage basierend auf semantischen Attributen. [MoJi04] Weiter Ansätze fokussieren sich auf die modellbasierenden Techniken wie das Maschinenlernen zum Clustern von Nutzeraufzeichnungen oder die Klassifikationsmodelle. Im Zusammenhang mit Click Stream Analysen sind Nutzerdaten aus dem Web sehr vorteilhaft sowohl bei Clustering und Assoziationsregeln als auch bei der Personalisierung von Empfehlungssystemen. Die Resultate sind unter anderem die erhöhte Effektivität der Empfehlungssysteme. Vor allem Nutzeraufzeichnungen aufgrund des Weges und der Klicks auf einer Web Seite erhöhen das Potential der Filtersysteme. Im Weiteren werden nun gemeinschaftsbasierte Filtersysteme mit inhalts- und demografisch-basierten Filtersystemen kombiniert, das sie sich dem „neuen Begriffe Problem“ annehmen. Die Architektur stellt sich wie folgt dar: Die Extraktion von Kernwörtern aus dem Kontext einer Web Seite wird zur Empfehlung an den Nutzer verwendet, nicht nur basierend auf Nutzerbewertungen oder Nutzerprofilen sondern auch aufgrund von inhaltlichen Ähnlichkeiten der Seiten. [MoJi04] 5. Manipulation und Shilling Attacks

Im Zuge dieser Seminararbeit wurden empfehlungsbasierte Systeme auf die Widerstandsfähigkeit gegen vorsätzliche Manipulationen untersucht. Neben den traditionellen Methoden wie „denial of service attacks“ oder „hacking“ wird der Fokus nun auf das „Shilling “ gerichtet, was das Einfügen von falsch spielenden Nutzern darstellt. Diese mögliche Manipulation ist aufgrund des progressiven Onlineumsätze immer attraktiver wie falsche Bewertungen bei ebay und bei Amazon zeigen. Daher ist versucht man nun neue Ansätze für die „Suchmaschinenoptimierung “ zu finden. Die Kernfrage in diesem Abschnitt stellen die folgenden Kernfragen dar: Auf Basis der Annahme, dass man zwischen Recommending (Vorschlag) und Prediction (Bewertung) unterscheidet, wird eine Bewertungsskala vorgeschlagen, im Bewertungsmodus wird ausgegeben, wie der Nutzer einen Artikel mag anhand dieser Skala. Die Kernfragen sind die Reaktion der Algorithmen auf unterschiedlichen Manipulationen, die Beeinflussung auf Recommendation und Prediction, Auffindbarkeit dieser Manipulationen und die Beeinflussung der Effektivität der Manipulation.

Page 24: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 24 -

Shilling Attacks werden durch böswillige Knoten im Netz verursacht, welche ein unehrliches und absichtlich negatives Feedback abgeben und konspirieren mit anderen, mit dem Ziel einen Aufschwung der eigenen Bewertung oder des „Schlechtredens“ über Gegenspieler oder Mitbewerber. Laut einer Studie von S. K. Lam and J. Riedl erforschten verschiedene Arten von Shilling Attacks von Empfehlungssystemen. Das System TrustGuard ist immun gegenüber willkürlichen Shilling Attacken. [SrXi05, 2-10] Die einfachste Attacke stellt das Shilling dar, wobei dies in Zusammenhang mit falschen Geboten in Onlineauktionen in Verbindung gebracht wird. Üblicherweise ist das Vorgehen wie folgt, ein Nutzer gibt eine positive Bewertung ab (positive Shilling) oder eine negative Bewertung oder für einen Mitbewerber (negative Shilling). Diese Problematik stellt eine direkte Attacke auf das System dar, welcher man nicht entgegensteuern kann, wenn man über keine softwaretechnische Unterstützung verfügt. Man kann aber aufgrund von mehreren negativen Kommentaren von ein und derselben Person auf einen Nutzer schließen und diesen anschließend aus dem System werfen. Die Auswirkung von Shilling Attacks ist, dass Nutzer den Bewertungen nicht mehr vertrauen können, was eigentlich Sinn und Zweck dieser bei der Suche sein sollte. Zusätzlich verbreiten diese Nutzer einen schlechten Ruf und Schwächen das Ansehen anderer. Daher muss ein Empfehlungssystem die Glaubwürdigkeit von den Individuen, die Bewertungen abgeben, prüfen und verifizieren. Die PGP Web of Trust and Advogato's Trust Metrik sind Systeme welche mit der Erforschung von automatisierenden und vorübergehenden Vertrauen beschäftigt sind. Eine Lösung wäre die Zentralisierung von Speicherung und Zusammenfügung der Nutzerdaten, weil dort die Bewertungen mit deren Pseudonym, deren Zielgruppe und den gesamten Bewertungen gespeichert und verwaltet wird. Aus diesem Grund ist eine Aufdeckung von „Falschspielern“ erheblich leichter. Der E Commerce Markt Ebay versichert die Auswertung und Überprüfung aller Feedbacks von Nutzern. Im Weiteren kann man das Feedback limitieren, um diejenigen Individuen zu identifizieren, welche eine Transaktion durchführten um die Shilling Attacks limitieren zu können. Der Ansatz der Validierung versichert dass eine Bewertung von einem zugeschriebenen Nutzer gemacht wird. Dies kann durch die oben erwähnte Zentralisierung von Daten und deren Speicherung sowie von Authentifizierungsmechanismen untersucht werden. In mehr diffusen Netzwerken können digitale Signaturen zur Datenauthentizität und Glaubwürdigkeit herangezogen werden. [DiFroJ] Ein Lösungsansatz wären Evaluationsbewertungen, in diesem Ansatz geht man davon aus, das nur jene Nutzer bewerten dürfen, welche eine hohe Auswertung von Produkten vorweisen können. Shilling Attacks von Nutzern mit einer geringen Evaluationsauswertung von Produkten haben nur einen geringen Einfluss auf die Gesamtbewertung, und daher weniger effizient. Um Nutzern eine ehrliche Bewertung zu ermöglichen ist für diesen Ansatz eine Nutzerhistorie über diese notwendig, welche verlässliche Bewertungen abgeben - jedoch eine solche Konstruktion ist sehr zeitaufwendig. Die Effektivität von Shilling Attacken muss auch zukünftig minimiert werden indem man die Bewertungen zusammenfügt und damit auch nur eine einzelne schlechte Bewertung nicht unauffällig bleibt. Aber man müsste schon einen großen „falsch spielenden“ Nutzer haben, dass diese Attacken eine Auswirkungen zeigen würden. Zusammenfassend könnte man die folgenden Ansätze durchsetzen: Die Ressourcen der Reputation, sprich der Nutzer erhält einen Satz von Ressourcenbezeichnungen und Auswertungen von Ressourcenreputation für jede einzelne Ressource. Infolge wird eine Nutzerevaluation durchgeführt, und die

Page 25: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 25 -

Bewertungen über eine Ressource wird übermittelt, wenn ein Beweis des Downloads oder der Erfahrung mir dem Produkt erbracht wird. [IgTe05, 1-9] Im Zuge der letzten Kapitel wurden Empfehlungssysteme auf Schwachstellen und Widerstandsfähigkeit untersucht. Die möglichen Manipulationen solcher Systeme werden immer attraktiver, es gibt bereits einige Fälle falscher Filmkritiken bei Sony, Bewertungen bei ebay und 3 „commercial abuse“ bei Amazon. So ist eine „Suchmaschinenoptimierung“ bei dem Suchdienst Google für den Platz auf den ersten Ergebnisseiten über 1.000,-- € wert. Mit der zunehmenden Verbreitung von kommerziellen Recommender Systemen ist angesichts im Zuge des „E-Business“ mit zahlreichen Manipulationen zu rechnen. Es ist daher sinnvoll sich schon vor der Einführung solcher Systeme einige tiefgründige Gedanken über deren Sicherheit und Manipulationsmöglichkeiten machen. [ScBi05, 1-20]

6. Der User und soziale Schwachstellen

6.1. Gläserne Mensch Der gläserne Mensch ist kein neues Schreckensbild in unserer Gesellschaft, bereits jetzt hinterlässt jeder Mensch Datenspuren im Netz, wenn er das Internet und dessen Technologien nutzt. Die Vision einer neuen Datenqualität und die gleichzeitige permanente und unentdeckte Überwachung erfüllt Nutzer mit Angst und Sorge, und setzte ein großes Vertrauen des Nutzers in die Technologie und in einen online Anbieter und seiner Webseite voraus. Deshalb sollten Gegenmaßnahmen identifiziert und Vorkehrungen getroffen werden. Der Sinn und Zweck personalisierter Seiten ermöglicht sowohl für den Anbieter als auch für den Kunden Vorteile, sodass es im beiderseitigen Interesse liegt, die natürlich vorhandenen Nachteile zu überwinden oder in Kauf zu nehmen. Die Personalisierung ermöglicht zielgerichtete Werbung, erhöhte Kundebindung, speziell abgestimmte Informationen, Reduktion der Datenflut für einen Kunden, die Verteilung von Information, eine genaue Benutzerüberwachung und dessen Widererkennung. Die Techniken zur Wiedererkennung sind die Hinterlegung der persönlichen Daten und der E Mail Adresse, durch das Anlegen eines Account, durch die Speicherung des speziellen URLs mit codierter Benutzerkennung, durch die Ausforschung der IP Positionierung des Benutzers oder durch Add on Programme. Die Möglichkeiten der Authentifizierung des Kunden kann durch einen Login über Benutzername und Passwort auf dem HTTP- Protokoll erfolgen. Die Anonymität des Benutzers kann in diesem Fall durch die Möglichkeit einer S-HTTP Verbindungen oder durch allgemeine Netzwerkverbindungen auf Basis SSL gesichert werden, bei dieser Anwendung wird der Nachrichteninhalt verschlüsselt und die Teilnehmer authentifiziert. [SONNoJ] Jedoch ist die Personalisierung relativ ungenau, da nur eine begrenzte Anzahl von Informationen abgefragt werden kann. Dies liegt einerseits in der kurzen Aufmerksamkeitsspanne und andererseits im Schutz der Privatsphäre, denn kein Nutzer lässt sich gerne so lange „persönlich“ ausfragen. Wenn der Besucher seine Interessen nicht selbst wieder explizit ändert, bleibt die Personalisierung gleich. Da sich jedoch die Benutzervorlieben mit der Zeit sicherlich verändern, wird die Personalisierung so mit der Zeit für ihn immer weniger wert und interessant. Um die Personalisierung sinnvoll zu betreiben, ist eine komplexe Klassifizierung notwendig. Dies bedeutet einen Arbeitsaufwand und klare Richtlinien, damit verschiedene Personen gleichartige Daten gleich klassifizieren. Da Benutzer oft auf manche

Page 26: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 26 -

Gebiete vergessen oder weniger wichtige auslassen und wegen der nicht unbedingt immer vollen Treffsicherheit des Systems, ist es sinnvoll, diesen Graubereich rund um die festgestellten Interessen anzubieten. In vielen Fällen erfolgt dies einfach dadurch, dass nicht die gesamte Seite personalisiert wird, sondern es einen allgemeinen Teil gibt, der für alle Personen gleich ist. [SONNoJ] Der Markt bietet Programme zur Personalisierung. Dabei erfolgt die Benutzererkennung infolge von Cookies und Registrierung, diese verfügt über spezielle Anpassungsstrategien der Präferenzen der Benutzer, auch die Datenhaltung sprich der Datenschutz und die Extraktion von Informationen werden behandelt. Auch dessen Kompatibilität und Integration in die Webseiten ist von großer Bedeutung. Aber der Autor sucht nach dem persönlichen Schutz des Kunden, welches ihm der Unternehmer oder der Staat beitet. Die Erfahrung zeigt, dass Personen oft unrichtige Angaben darüber machen, woran sie besonders interessiert sind. Dies kann sich der Kunde zu nutze machen und in Ausnahmefällen absichtlich falsche Angaben geben wie die unrichtige Interessensangabe und die nachträgliche Veränderung des Profils. Mit der Zeit ändern sich die Interessensgebiete, was bei der Personalisierung berücksichtigt werden muss, und der Benutzer daher aufgefordert muss im Zuge von Mehraufwand weitere Fragen und Bewertungen abzugeben. Durch die (zumeist erfolgende) Beobachtung des Benutzers fallen große Mengen persönlicher Daten an, die vor unbefugtem Zugriff gesichert werden müssen. Die Personalisierung erfordert vom Benutzer einen höheren Softwareaufwand. Ein Schutz der Privatsphäre sollte nach bestimmten Kriterien erfolgen. Die am Markt angebotenen Softwarelösungen sind sehr zuverlässig und kostenintensiv. Es kann sogar ein Schutz für Metadaten vorhanden sein, die entweder extern oder im Dokument selbst gespeichert sind. Ein für die Zukunft erfolgversprechendes Konzept zur sicheren Nutzung ist das SSL oder SHTTP Dokument, jedoch stellt dies auch keine absolute Lösung dar, da es sich um einen sehr offenen Standard handelt. Es ergibt sich also der Schluss, dass man nach weiteren Lösungs- und Anpassungsstrategien suchen muss und diese entwickeln muss. [SONNoJ]

6.2. Die personalisierten Empfehlungen und die Privatsphäre Eine Lösung zum Erhaltung der Privatsphäre stellt das Open Profiling Standard vom W 3 Konsortium dar. In diesem System wird die Kontrolle der Daten dem Benutzer wieder zurückgegeben. Obwohl auf der einen Hand gemeinschaftsbasiertes Filtern zur personalisierten Empfehlung verwendet wird, schützt andererseits der Einsatz dieser Methodik die Privatsphäre. Hinter diesem System Stehen Marketingstärken des gemeinschaftsbasierten Systems und dem RFD von W3C. [Kang02, 23] „Die Internet-Industrie hat die Angst vor dem "gläsernen Surfer" als Hemmschuh für ihr Wachstum erkannt. Ungehemmtes Erfassen der Surf-Bewegungen in Profilen scheint für Gewerbetreibende auf den ersten Blick zwar attraktiv, doch diese Sammelwut weckt das Misstrauen der Nutzer und bremst so die Umsätze. Deswegen hat ein Konsortium unter der Führung von Netscape, Firefly und VeriSign einen Standard für die Speicherung und Weitergabe privater Informationen im Web vorgeschlagen. Dieser "Open Profiling Standard" (OPS) soll dem Surfer mehr Kontrolle geben. E Mail-Adresse, Alter und andere Informationen landen unter OPS in einer Datei, wobei der Nutzer den Umfang der Angaben selbst bestimmen soll. Wenn der Zugang zu einer Website persönliche Angaben verlangt, kann diese Datei das Ausfüllen des "Formulars" ersparen. Die Daten werden verschlüsselt und können mit einer digitalen Unterschrift verbunden sein. Außerdem soll der Nutzer festlegen

Page 27: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 27 -

dürfen, ob und an wen diese Daten weitergegeben werden. Noch in dieser Woche soll der von rund 60 Firmen unterstützte Vorschlag dem W3-Consortium als Internet-Standard vorgeschlagen werden. Für die Web-Anbieter bietet OPS den Vorteil, dass entsprechend standardisierte Daten leichter auszuwerten sind. Ob die Firmen durch eine solche Selbstbeschränkung überhaupt weniger Daten erhalten ist fraglich: Trotz des Misstrauens gegen Datensammler geben die meisten Nutzer ihre Persönlichkeit mehr als bereitwillig in Netzformularen preis.“ [Steh97] Dieser Kommentar von Dipl.-Inf. (FH) Martin Stehle beschreibt präzise die Funktionsweise und Problematik dieses Themas, deshalb wollte der Autor dessen Aussagen direkt übernehmen.

6.3. Soziale Folgen

Die Leistung von Empfehlungssystemen hängt mit der Anzahl geleisteter Bewertungen der Benutzer zusammen. Sobald ein Benutzer ein Profil seiner Interessen eingerichtet hat, könnte er inaktiv bleiben und die Empfehlungen anderer konsumieren, ohne selbst aktiv Bewertungen zur Verfügung zu stellen. Auch die Beobachtung von Benutzerverhalten oder die implizite Bewertung von Ressourcen können ein Absinken der Systemleistung nicht verhindern. Daher liegt es nahe, diverse Gegenmaßnahmen in diesem Bereich zu entwickeln, die sich in einem Anreizsystem wiederspiegeln. Die zukünftigen Empfehlungssysteme werden wahrscheinlich ein Belohnungssystem einführen müssen. Entweder in Form von Bezahlung für geleistete Bewertungen, oder dass man nur im Gegenzug für Bewertungen Empfehlungen bekommt. [ReVa97] Wenn jedes Individuum bewerten kann, ergibt sich eine weitere Schwachstelle. Anonyme Autoren können positive Empfehlungen nur für ihre eigenen Texte generieren, und die der anderen natürlich negativ bewerten. Ein weiteres Problem betrifft die mögliche Gefährdung der Privatsphäre des Kunden. Denn die Menschen möchten üblicherweise nicht, dass ihre Gewohnheiten und Ansichten allgemein bekannt sind. Einige Empfehlungssysteme erlauben die Teilnahme anonym oder unter Verwendung eines Pseudonyms. Doch auch dies ist noch nicht die Lösung dieses Problems, da es Menschen gibt, die eine Zwischenlösung wünschen. Diese würde sich einerseits in den Schutz der Privatsphäre und andererseits in der Anerkennung ihrer Bemühungen bieten. [ReVa97] Im Alltag beziehen sich Menschen gerne auf Empfehlungen anderer. Dabei sind aber die Quellen der Information wesentlich konstanter als im Internet. Der Autor stellt sich nun die Frage, welche sind diese Faktoren, aufgrund derer man sich auf Empfehlungen unterstützt und vertraut, und woher erhält man diese? Das persönliche Umfeld wie Freunde sind diese Quellen von Empfehlungen, in Thematiken wie Geldangelegenheiten verlässt man sich auf die Empfehlungen von Banken oder Investment Berater. Jeder baut sich ein soziales und persönliches Netzwerk auf, und bezieht Empfehlungen aus den unterschiedlichsten Quellen. [Horw99, 55 ff] Man vertraut auf gut bekannte Quelle wie etablierte Journale oder Publikationsreihen, Menschen tendieren dazu, solchen Quellen und Informationswegen zu vertrauen und ihre Informationen daraus zu filtern. Die sozialen Mechanismen im Zuge der Entscheidungsfindung sind bei der Verwendung von Empfehlungssystemen irrelevant. Im Internet kann prinzipiell jede Person unter jedem Namen publizieren, das jedoch ein grundsätzliches Problem des Internet darstellt. Abhilfe kann in diesem Zusammenhang die Verwendung elektronischer

Page 28: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 28 -

Unterschriften schaffen, um vertrauen und Zuverlässigkeit zu vermitteln. Diese Thematik spricht die Datenqualität im Internet an. Nachdem Informationen im Internet keiner Qualitätskontrolle unterzogen werden, und tatsächlich jeder publizieren kann, könnten Online Informationen von minderer Qualität, die unkritisch aufgenommen werden, mitunter schlimme Folgen haben. Weiters gibt es viele Möglichkeiten, die Qualität von Ressourcen im öffentlichen Netzwerk zu beschreiben und danach zu bewerten. Man muss die Qualität hinsichtlich mehrerer Attribute beschreiben, wobei es schwierig ist, diese auszuwählen. Die Kriterien sollten die inhaltliche Qualität beschreiben und auf so viele verschiedene Ressourcen wie möglich anwendbar sein. Im Zuge dieser Diskussion werden Vorschläge für Kriterien-Kataloge entwickelt und die Grundlage für das xFIND Quality Metadata Set und xQMS bilden. Die Analyse untersucht, welche Kriterien die inhaltlichen Qualität von Internet Ressourcen am ehesten charakterisieren können. Man muss sich aber auch darüber im Klaren sein, von welcher Person diese Bewertungen auf welche Art durchgeführt werden sollen. Wenn die Qualitätskontrolle zum Zeitpunkt der Erstellung entweder nicht möglich oder wünschenswert ist, kann sie dezentralisiert werden. Sie besteht dann aus der Selektion von Produkten, die den Qualitätserfordernissen des Konsumenten entsprechen. Man trennt bei dieser Methode das Bewerten einer Ressource vom Auswählen und dem Filterprozess. Dieses Auswählen kann ein Upstream- oder Downstream- Filtern sein, diese Methoden sind Formen der verteilten Qualitätskontrolle „distributed quality management“. Die Bewertung von Online-Ressourcen wird vor allem im Zuge der Methode des Downstream Filtering angewendet, weil dabei die individuellen Bedürfnisse der Benutzer hinsichtlich Qualität berücksichtigt werden. Die Benutzer sind nicht von einigen wenigen Bewertungsagenturen abhängig, die nach ihren eigenen Maßstäben Beurteilungen von Seiten durchführen, sondern können selbst individuelle Qualitätsmaßstäbe vorgeben. Die genannten Eigenschaften sind Metadaten und müssen für das Downstream Filtering standardisiert, opernationalisiert und gespeichert werden. Dazu wurden für das Internet spezielle Techniken entwickelt. Derart erstellte Metainformationen erlauben es dem Benutzer, unerwünschte Inhalte von sich fern zu halten, die Empfehlungen mit anderen Benutzern auszutauschen und in Verbindung mit Suchmaschinen Inhalte zu suchen. [Horw99, 55 ff] Auch in der folgenden Grafik erkennt man die Komponente des Vertrauensmodells in einem Empfehlungssystem.

Abbildung 12: Vertrauensstruktur von Empfehlungssystemen Quelle http://sra.itc.it/people/massa/publications/massa_paolo_coopis_2004_trust-aware_Collaborative_Filtering_for_Recommender_Systems.pdf

Page 29: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 29 -

7. Datenschutz und rechtliche Probleme Die Personalisierung birgt die Gefahr des Aufgebens der Privatsphäre in sich. Die Nutzer sind bereit persönliche Informationen und Vorlieben bekannt zu geben, um selbst besser informiert zu sein und Kaufentscheidungen treffen zu können. Doch als Kunde versucht man es zu vermeiden, anderen Anbietern die persönlichen Daten ebenfalls zur Verfügung zustellen. Um den sicheren Austausch von Informationen von Benutzerprofilen zu erleichtern, hat man mit dem World Wide Web Konsortium den Open Profiling Standard (OPS) geschaffen. Diese Spezifikation ermöglicht persönliche Profile sicher zu übertragen und auch die weite Verbreitung personalisierter Webinhalte. [RiKl02] Ein Problem der Personalisierung ist der Datenschutz. Mit den verwendeten Methoden der Personalisierung werden bedeutende Daten und Informationen über Kunden gesammelt, gespeichert und ausgewertet. Aber gibt wirklich jede E- Commerce -Seite den Kunden genaue Auskunft darüber, was sie weiterhin mit diesen Daten machen wollen. Wird explizit in den Allgemeinen Geschäftsbedingungen auf Datenschutz geschworen und das weitere Vorgehen transparent gemacht auf der Unternehmensseite. Eine Fortentwicklung auf diesem Gebiet, dürfte der Ansatz der P3P-Gruppe sein, der eine maschinenlesbare Form der Datenschutz-Politik der einzelnen Web-Seiten vorsieht. [RiKl02] Eine Entwicklung der Recommender Systeme könnte in Zukunft die Trennung von Profil und Dienst sein. Ein Benutzer hat ein Profil, das er bei allen Shops benutzen kann, alle Empfehlung, auch von verschiedenen Systemen, beruhen auf demselben Profil. Ein Problem dabei dürfte sein, dass Firmen, die schon ausgereifte Profile über Kunden besitzen, also schon viele Daten gesammelt haben, nicht ohne weiteres diese mit Mitbewerbern teilen werden. Vor der Sammlung von Daten über den Kunden muss geprüft werden, ob der Kunde eine Personalisierung überhaupt wünscht. Wenn dies nicht geschieht kann es passieren, dass individuelle Daten über den Kunden gesammelt werden, obwohl dieser gar keinen erkennbaren Nutzen für seine Datenpreisgabe sieht und er somit unzufrieden ist. Damit der Web-Nutzer Daten über sich selbst preisgibt, müssen ihm darüber hinaus Zusicherungen bezüglich Privacy und Datenschutz gemacht werden. Denn die Internetnutzer zögern, persönliche Daten preiszugeben, da sie über die Verwendungszwecke ihrer Daten häufig nur unzureichend oder gar nicht informiert sind und einen Missbrauch ihrer persönlichen Daten befürchten. Als Reaktion darauf sind Organisationen entstanden, die sich dem Datenschutz widmen. Die Plattform für „Privacy Preferences Projekt“ (P3P) des World Wide Web Konsortiums (siehe auch http://www.w3c.org/P3P) will die unternehmerischen Betreiber von Webseiten veranlassen, bekannt zugeben, welche Datenschutzpolitik diese verfolgen. Es ist dabei anzugeben, welche Art von Information diese Seite anfordert, zu welchem Zweck und ob und an wen die Daten weitergegeben werden. Die Benutzer können dabei Datenschutzpräferenzen festlegen. Bereits bestehende Ängste vor dem Missbrauch persönlicher Daten werden durch die Möglichkeiten, welche die Personalisierung auf Basis datenbankgestützter Auswertung von Profildaten bietet, weiter verstärkt. Um dieser Angst der Kunden entgegen zu steuern, sollten die Betreiber von personalisierten Webseiten zu einer offenen Informationspolitik treiben und die Kunden über die Speicherung von Daten aufklären und für Akzeptanz werben, in dem sie die Vorteile für den Kunden aufzeigen, ihnen aber zugleich die Möglichkeit geben, die Nutzung der Seite ohne Datenpreisgabe zu ermöglichen. [RiKl02]

Page 30: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 30 -

Der Begriff des sicheren Systems gewinnt an immer vielfältiger und weitreichender werdender Bedeutung in dem Zusammenhang mit Empfehlungssystemen. Vom klassischen Definitionsbereich im Sinne der Abhör- und Manipulationssicherheit über Ausfallsicherheit und Redundanz bis hin zum "Verlässlichen Informationssystem", welches sowohl Daten- als auch Verarbeitungsintegrität in höchstem Maße realisiert. Neben diesen eher technischen sind aber auch organisatorische und rechtliche Probleme von großer Bedeutung und müssen berücksichtigt werden wie die Nachweisbarkeit von Transaktionen, Sicherstellung und Kontrolle von Befugnissen. [Ke01, 2-10] Aus Statistiken weiß man, dass die Risiken der Informationsverarbeitung bei vernetzten Systemen, offenen Netzen, offenen Diensten und Benutzergruppen im Vergleich zu geschlossenen Systemen stark ansteigen. Die Sicherheit umfasst eine weite Skala von der Gewährleistung der Funktionalität auch bei Fehlbedienungen in unkritischen Umgebungen bis zur Gewährleistung von Funktionalität und Integrität in hochsensiblen Bereichen. Es ist offensichtlich, dass ein möglichst hoher Sicherheitsstandard wünschens- und erstrebenswert ist. Die Antworten und Entscheidungshilfen in Bezug auf Kosten und Aufwand für die Sicherheit ist relativ schwierig, denn offizielle Statistiken lassen sich nur schlecht deuten und geben nur beschränkt Empfehlungen ab. Es ist festzuhalten, dass es schwieriger ist, Informationen vor Diebstahl oder Verstümmelung zu schützen, da es häufig keine Anhaltspunkte dafür gibt, dass Informationen gestohlen oder verändert wurden. Auch die Androhung einer strafrechtlichen Verfolgung ist häufig keine effektive Abschreckung. [Ke02, 2-10] Die folgende Abbildung stellt schematisch dar, was ein Anbieter an Schutz und Komponenten zur Verfügung stellen oder verwenden muss, dass ein beunruhigter Nutzer seine persönlichen Daten preisgibt. Natürlich hat die P3P Kommunikationsarchitektur viel mit Vertrauen, Reputation und dem Ruf eines Unternehmens zu tun, aber auch mit der digitalen Signatur und der Verschlüsselung von Nachrichten.

Abbildung 13: P3P Kommunikationsarchitektur Quelle: http://www.wi2.wiso.uni-goettingen.de/getfile?DateiID=439

Page 31: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 31 -

7.1. Datenschutzgesetz 2000 Informationen sind ein entscheidender Produktions-, Wettbewerbs- und Erfolgsfaktor und stellen somit auch Vermögenswert und Kostenfaktor dar. Bisher würden diesbezüglich den Maßnahmen relativ wenig Beachtung geschenkt, die zum Schutz der Informationen und der entsprechenden Systeme notwendig sind, von denen das Unternehmen zunehmend abhängig ist. Die Abhängigkeit von diesen Systemen und dem sie benutzenden Personal stellt nicht nur ein beachtliches Potential, sondern auch eine Bedrohung der Sicherheit des Unternehmens dar. Die Unternehmen sind heute häufig verwundbarer durch den Verlust oder die Verstümmelung von Informationen. In dem Maße, in dem ein Unternehmen in Informationssysteme investiert, wird es verwundbarer durch solche Systeme, wenn nicht geeignete begleitende Sicherheitsmaßnahmen ergriffen werden. Rechnergestützte Informationssysteme sind aus der modernen Unternehmens- und Betriebsführung nicht mehr wegzudenken. Im Zusammenhang mit Informationssystemen geht es in der Regel um Wissen, um Information und um Daten. Der Datenschutz im Sinne von Persönlichkeitsschutz oder d Urheberrechte aus rechtlicher Sicht ist Gegenstand nationaler „Datenschutzgesetze“ wie das Österreichische Datenschutzgesetz. [Ke01, 2-10] Seit dem 1.Jänner 200 gibt es in Österreich ein neues Datenschutzgesetz. Das alte, das 1978 in seiner ersten Fassung eingeführt wurde, genügte in einigen Punkten der EU Richtlinie zum Datenschutz vom 24. Oktober 1995, die in einem verbindlichen Rahmen zur Vereinheitlichung der Datenschutzgesetze aller Mitglieder vorgibt und von dessen verlangt, innerhalb von einer Frist von drei Jahren ihre Gesetze anzupassen. Statt das ÖDSG den Forderungen der Richtlinien an den entsprechenden Stellen anzupassen, wurde das ganze Datenschutzgesetz neu formuliert. Die Endfassung lehnt sich stark an die Eu Richtlinien an. Jedoch ist die rechtliche Situation etwas verworren, insbesondere da das Internet eine sehr dynamische globale Informationseinrichtung darstellt, es aber noch keine verbindliche international ausgehandelte Datenschutzregelung gibt. . Das „Österreichische Datenschutzgesetz - DSG“ beinhaltet klare nationale Richtlinien, die beim Erstellen einer Datenbank von Persönlichkeitsdaten befolgt werden müssen. Die Grundsätze lassen sich in den folgenden Punkten grob zusammenfassen. [Ke01, 2-10]

• Das „Grundrecht auf Datenschutz“ definiert, dass jedermann, insbesondere auch im Hinblick auf die Achtung seines Privat- und Familienlebens, hat den Anspruch auf Geheimhaltung der ihn betreffenden personenbezogenen Daten, soweit ein schutzwürdiges Interesse daran besteht. Das Bestehen eines solchen Interesses ist ausgeschlossen, wenn Daten infolge ihrer allgemeinen Verfügbarkeit oder wegen ihrer mangelnden Rückführbarkeit auf den Betroffenen einem Geheimhaltungsanspruch nicht zugänglich sind.

• Weiters dürfen diverse Institutionen die Personendaten nur insoweit erheben oder bearbeiten, als dass sie für die geschäftlichen Aufgaben unentbehrlich sind. Die Richtigkeit der Daten sollte überprüft werden.

• Auch dürfen die Personendaten nicht wider Treu und Glauben erhoben werden wie infolge durch absichtliche Täuschung.

• Ebenso falls der Zweck der Datenbearbeitung geändert wird, muss im Voraus die ausdrückliche Zustimmung der betroffenen Person eingeholt werden.

Page 32: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 32 -

• Es ist im Gesetz festgelegt, dass nicht mehr benötigter Daten gelöscht werden müssen.

• Wenn Personendaten an Dritte weitergegeben werden oder regelmäßig besonders schützenswerte Personendaten oder Persönlichkeitsprofile bearbeitet und wenn für die Bearbeitung keine gesetzliche Pflicht besteht, muss die Datensammlung gemeldet werden.

• Jede Person, deren Daten in einer Datensammlung bearbeitet werden, hat das Recht, über alle diese Daten Auskunft zu erhalten. Dies sollte in der Regel kostenlos geschehen. [Ke01, 2-10]

Das Datenschutzgesetz 2000 umfasst Materialien im Detail den Artikel 1, welches das Grundrecht auf Datenschutz, die Zuständigkeit und den räumlichen Anwendungsbereich abgrenzen soll. Im Artikel 2 werden Allgemeines und die Verwendung von Daten, deren Grundsätze, die Zulässigkeit der Verwendung von Daten, die schutzwürdige Geheimhaltungsinteressen bei Verwendung nicht-sensibler und sensibler Daten und die Zulässigkeit der Überlassung von Daten zur Erbringung von Dienstleistungen, sowie die Pflichten des Dienstleister, die genehmigungsfreie Übermittlung und Überlassung von Daten in das Ausland/ ins Ausland behandelt und geregelt. In den weiteren Abschnitten werden die Datensicherheit, deren Maßnahmen und das Datengeheimnis aufgezeigt. In den weiterführenden Abschnitten wird die Publizität der Datenanwendungen, die Rechte des Betroffenen, der Rechtsschutz, die Kontrollorgane, die besondere Verwendungszwecke von Daten, die Strafbestimmungen (Datenverwendung in Gewinn- oder Schädigungsabsicht und Verwaltungsstrafbestimmung)und die Übergangs- und Schlussbestimmungen geregelt. [Ke01, 2-10]

7.2. EU-Datenschutzrichtlinie

Die EU Datenschutzrichtlinien ergeben sich aus den Richtlinien 95/46/EG des Europäischen Parlaments und des Rates vom 24.10.1995 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Datenverkehr. [Ke01, 2-10] Die Datenschutzrichtlinie wird aufgrund einiger dargestellter Erwägungsgründe erfasst. Im Artikel eins bis vier werden allgemeine Bestimmungen geregelt. Die allgemeinen Bedingungen für die Rechtmäßigkeit der Verbreitung personenbezogener Daten und die Grundsätze in Bezug auf Qualität der Daten und die Zulässigkeit deren Verbreitung. In Artikel acht und neuen wir die Verarbeitung besonderer Kategorien personenbezogener Daten und die Meinungsfreiheit behandelt. In den folgenden Artikeln werden die Information bei der Erhebung personenbezogener Daten bei der betroffenen Person, das Auskunftsrecht, die Ausnahmen und Einschränkungen sowie die Vertraulichkeit und Sicherheit der Verarbeitung geregelt. Die weiteren Artikel handeln von der Pflicht zur Meldung, den Rechtsbehelfen, den Grundsätze der Übermittlung der personenbezogenen Daten, den Kontrollstelle und den Datenschutzgruppen sowie den Schlusstest. [Ke01, 2-10] Im folgenden Abschnitt möchte der Autor die Gefahren und die Gegensteuerungsmaßnahmen analysieren und darstellen. Die Thematik des Schutzes vor unbefugten Manipulationen von innen, der Schutz von externen Hackern oder Datendieben sowie die Virenproblematik werden beleuchtet.

Page 33: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 33 -

Nach mehreren durchgeführten Studien kommt die Mehrzahl der Attacken in einem Netz nicht von außen sondern geht von internen Benutzern aus. Nach diversen Studien werden zwischen 80 und 90 Prozent der missbräuchlichen Eingriffe durch interne Benutzer verursacht, daher ist ein effektiver Zugriffsschutz wichtiger als die Absicherung eines Netzes nach außen. Dies ist auch im Zusammenhang von Empfehlungssystemen zu berücksichtigen, da die Nutzerprofile von Kunden leicht missbräuchlich verwendet werden können oder die Kunden das Ziel diverser Schädigungen sein kann. Allerdings ist die Sicherheit auch gefährdet durch Datendiebe und den Verkauf der Präferenzen von Nutzern und deren Bewertungen in Hinblick auf Marketingnutzen. Das lnternet oder lnter- Networking öffnet leicht Hackern oder Datendieben Türen und Tore. In diesem Zusammenhang sei als Gegenmaßnahme die klassische Firewall- Philosophie erwähnt, nach der Netze nach außen abgeschottet werden und die Übertragung zwischen Netzen gegen Manipulationen abgeschottet wird. Ebenso ist die allgegenwärtige Schwachstelle gegenüber Virenangriffen zu erwähnen. Viren werden im Zuge des Bewertungsverfahren und die dadurch entstehende Vernetzung von Unternehmens- und Privatnetzwerken sowie des Programm- Sharing zu einem echten und vor allem kostenträchtigen Problem. Nicht nur der einzelne Rechner des Nutzers ist einer Verseuchung ausgesetzt, sondern auch das ganze Unternehmensnetz kann lahmgelegt werden und die Datensicherung von sensiblen Informationen und Kundenbewertungen unbrauchbar gemacht werden. [Ke01, 2-10] Die Alternative für die „Worst Case“ Szenarien kann mithilfe von funktionierenden Back- up Routinen geben sein. Die Prävention sollte einen geeigneten Alarmplan beinhalten und deren Durchführung sollte sichergestellt werden. Dies beinhaltet eine schnelle und effiziente Wiederherstellung von den sensiblen Datenbeständen, den gefährdeten Kommunikationsverbindungen, auch eine vernünftige Krisenorganisation. Ebenso sollte eine profiltaktische Planung geschaffen werden, der ständigen Veränderung des Internets und deren Möglichkeiten darstellen. [Ke01,

2-10] Ein weiterer Aspekt ist die Auslegung und Interpretation von Datenschutz und somit der Artikeln, in welchem Rahmen oder Ausmaß diese gültig sind und die Definition des Geltungsbereiches. Die Kernfrage ist inwieweit ein Benutzer bereit ist sich in seinem Verhalten überwachen lässt, damit dieser in Nutzergruppen eingeteilt wird, und welche besonderen Vorteile ein Recommendation System bietet, welches mit Profilen arbeitet. Die Möglichkeiten des Schutzes vor solchen Überwachungen erfordern einspezielles User Know- How. Abschalten oder selektive Ablehnung von Cookies, Verwendung von Proxies, und alternierende, absichtliche Desinformation des Anbieters sind Möglichkeiten der Profilierungssucht kommerzieller Anbieter zu entgehen. [ScBi05, 1-20]

Page 34: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 34 -

Abbildung 14: Recommendation Warehouse Quelle: Dirk Neukirchen, Schwachstellen von Recommender Systemen, Das mehrdimensionale Recommender System, 2005 Einwichtiger Ansatz soll das mehrdimensionale Recommender System und damit weitere Aspekte abdecken, wie Zeit und Ort wie in Abbildung 14 zu sehen ist. Hierbei spielt das multidimensionale Datenmodell eine Rolle, welches bei OLAP und Datawarehousing genutzt wird. Das mehrdimensionale Recommender System ist gegenüber den klassischen Systemen um drei Fähigkeiten verbessert:

• Mehrere Dimensionen: Anstatt der bisherigen 2 Dimensionen, meist Nutzer und Artikel, die Parameter für die Empfehlung darstellen, werden weitere Informationen (Kontext) hinzugefügt, wie zum Beispiel Zeit oder Ort.

• Profile für jede Dimension: Obwohl bisherige Recommender Systeme bereits eingeschränkte Profile unterstützen, wie Mengen von Stichwörtern, die Dokumente beschreiben, ist das Profil für jede Dimension allgemeiner, da über demographische Forschungen die Bestandteil von Profilen sein kann zielgerichtete Bewertungen möglich sind.

• Bewertungsansammlung (Bewertungsaggregation): Im mehrdimensionalen Modell können Bewertungen einzelner Artikel (Filme) aggregiert werden, um Empfehlungen für Artikelgruppen (Filmgenres) zu erstellen. [ScBi05, 1-20]

Als relativ neues Forschungsgebiet Das Mehrdimensionale Modell, welches das Datawarehousing integriert, wirkt im Zuge der Diskussion um Datenschutz als qualitativ herausragen. Diese Empfehlungen basieren auf multiple Dimensionen wie Nutzer, Objekt, Zeit und Ort und erweitert damit das klassische zwei dimensionale Nutzer/ Objekt Paradigma. Aggregierte Hierarchien von verschiednen Dimensionen ermöglicht Empfehlungen auf verschiedenen Ebenen der Aggregation. [KoMo02, 7-

16] Neue Ansätze versuchen im Gegensatz zur zentralen Ermittlung und Datengewinnung von Information Reputationsinformationen heranzuziehen und diese sind dabei meist direkt an das System gekoppelt. Die Grundkonzepte für die

Page 35: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 35 -

Unterstützung bei der Kommunikation und Visualisierung von Reputation stellen die gegenseitige Bewertung von Transaktionspartnern, die Bewertung von Bewertungen und die Erschließung und die Visualisierung von Beziehungsnetzwerken dar. Im Weiteren werden gegenseitige Bewertungen von Transaktionspartnern und die Bewertungen von Meinungen dar. Neben der Möglichkeit, die Bewertungen zu Benutzern oder Meinungen zu sammeln und anzuzeigen, gibt es noch die Erfassung und Visualisierung von direkten und indirekten Beziehungen zwischen Personen. Die Grundidee ist es, einen direkten Bekannten zu finden, den man zur Vertrauenswürdigkeit eines potentiellen Kooperationspartners befragen kann. Die Unterstützungsfunktion eines Softwaresystems liegt dabei im Auffinden von solchen gemeinsamen Bekannten. Die aktuellen Systeme zur technischen Unterstützung der Reputationsvermittelung in Online-Systemen nutzen die gegenseitige Bewertung von Kooperationspartnern zur Anzeige der Bewertung für potentielle Kooperationspartner sowie die Bewertung der Ergebnisse oder Produkte eines potentiellen Kooperationspartners und Visualisierung dieser Information. Abschließend ist die Ermittlung und Anzeige von direkten Beziehungsketten wichtig. Insbesondere bei den ersten beiden Möglichkeiten hat sich als sehr wichtig für die Verwertbarkeit der Reputationsinformation gezeigt, dass einsehbar ist, von wem die Bewertungen stammen, und welche Reputation die Bewerter selbst haben bei der Einbeziehung direkter Vertrauter. Hier ist eine Verbindung der Bewertungsmethode und der Methode der Beziehungsketten vorhanden. [KoMo02, 7-16] Erste Ansätze in diese Richtung finden sich beispielsweise mit dem „Web of Trust“ in den Meinungsplattformen dooyoo.de und ciao.de. Neben dem Problem der Einschätzung von anonymen Bewertern zeigt sich als weiteres Problem, dass eine Reputation immer einer Online-Identität zugeordnet ist. Diese kann man allerdings im Gegensatz zur realen Identität meist einfach wechseln. Bei der Berücksichtigung der Bewertungen muss also immer mit einfließen, wie lange eine Identität schon existiert und wie viele Bewertungen zu dieser Identität vorliegen. Diesen Systemideen zufolge gibt es hier die Möglichkeit, gegenseitige Bewertungen von Transaktionspartnern zu sammeln und verfügbar zu machen. Bei der Auswahl von Geschäftspartnern wird die persönliche Information am höchsten eingeschätzt und gesucht. Die Unterstützung wird daher eher dem Ansatz folgen, Beziehungsnetzwerke zu visualisieren, um eine Unterstützung beim Finden von persönlichen Kontakten zu bieten. Dies könnte folgendermaßen aussehen: Wenn jemand nach Partnern zu einem bestimmten Thema sucht, dann bestimmt die Plattform zuerst aus dem vorliegenden Verzeichnis potentielle Partner. Im nächsten Schritt wird das Profil des Anfragers geladen und mit dessen Hilfe bestimmt, mit wem er schon zusammengearbeitet hat bzw. zu welchen potentiellen Partnern ein direkter Kontakt angegeben werden kann. Bei der Ausgabe der Suchergebnisse werden diese Kontakte bevorzugt und gemeinsam mit der gefundenen Information angezeigt. Neben dem Problem der Gewinnung von Information zu den Beziehungen tritt hier das Problem des Vertrauens in die Plattform selbst auf. Mögliche Lösungswege hierfür sind: [KoMo02, 7-16]

• Technische Lösung: Dezentralisierte Erfassung, Speicherung und Verarbeitung der Information, so dass die Detailinformation zu den Benutzern nie an einer zentralen Stelle zusammengeführt werden muss. Agenten der einzelnen Benutzer suchen direkt bei den potentiellen Kontaktpersonen, die ihnen von der Plattform mitgeteilt worden sind.

• Organisatorische Lösung: Realisierung der Plattform durch eine Institution, der man genug Vertrauen entgegenbringt, dass man persönliche Information dort hinterlegt. [KoMo02, 7-16]

Dies könnte entweder eine der klassischen Rating- Agenturen sein, eine neu

Page 36: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 36 -

geschaffene Institution oder andere etablierte Organisationen wie Berufsverbände. Es ist zu erwarten, dass sich in der Anwendungspraxis eine Kombination der skizzierten Lösungsmöglichkeiten als sinnvoll erweist, d.h. die Wahl einer vertrauenswürdigen Institution und die Speicherung von möglichst wenigen Daten im zentralen Verzeichnis. [KoMo02, 7-16]

In der folgenden Abbildung wird ein Lösungsansatz vorgestellt der die Komponenten eines sicheren Empfehlungssystems darstellen soll.

Abbildung 15: Komponenten eines sicheren Empfehlungssystems Quelle: http://josquin.cti.depaul.edu/~rburke/pubs/burke-etal-iui2005.pdf 9. Fazit- Résumé Diese Arbeit stellt einen Überblick der Empfehlungssysteme dar und soll deren Schwachstellen technische wie intermenschliche analysieren. Im Zuge dieser Analyse hat der Autor vor allem die inhaltsbasierten und gemeinschaftsbasierten Probleme im Detail beleuchtet und Lösungsansätze hervorgebracht. Die Überprüfung dieser Gegenmaßnahmen hat sich schon in der Praxis teilweise bewährt, aber ob diese Techniken einen hohen Stellenwert im Schutz gegen Attacken oder Problemen erreichen werden, bleibt abzuwarten. Die Auswirkung einer falschen Wahl oder einer Nichtnutzung einer Lösungstechnik zu den diversen Problemen ist hier als sehr hoch einzuschätzen. „Die Funktionalität des Gemeinschaftsbasierten Filterns lohnt sich meist nur für Online-Shops, außerdem wird keine bedürfnisorientierte Beratung angeboten. Der Kunde hat keinerlei Möglichkeit, das Vorschlagsverhalten des Systems individuell zu beeinflussen. Die Recommender Systeme sind eine rein lernsystembasierte Technologie. Das bedeutet, dass die Qualität des Vorschlagsystems sich im Laufe der Zeit selbst verbessert, vorausgesetzt der Kundenverkehr auf der Website ist entsprechend hoch. Anhand des oftmals zentral gespeicherten Suchprofils, welches vom Kunden eingegebenen werden muss, generiert der Recommender Produktvorschläge, die aus erlerntem Kundenverhalten resultieren. Die Nachteile dieser Vorgehensweise liegen auf der Hand, reine Recommender Systeme sind kostenintensiv in der Anschaffung, und der Datenschutz kann nicht gewährt werden. Au0erdem sind die Unternehmen nicht vor absichtlichen „Falschbewertungen“ und anderweitigen Manipulationen geschützt. Im Weiteren sind Recommender ökonomisch effizient nur für Online-Shops mit einem hohen „Traffic“ Aufkommen auf der Webseite, man beachte nämlich in diesem Zusammenhang das Kaltstart Problem, „First Rater“ und „ First User“ Problem. Nicht für jedes Unternehmen ist

Page 37: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 37 -

dieses System sinnvoll. Denn die Faktoren wie Unternehmensgröße, Branche, Produktsortiment, Unternehmensphilosophie oder Unternehmensausrichtung sind ausschlaggebend für die richtige Auswahl des Empfehlungssystems.“ [StraoJ] Der Bereich der Empfehlungssysteme an sich ist noch relativ jung. Daher wird es in naher Zukunft noch zahlreiche Entwicklungen und Ideen geben, die den gesamten Empfehlungsprozess verbessern und Gegenmaßnahmen für Schwächen entwickeln werden. Besonderes Augenmerk sollte darauf gerichtet sein, den Stand der Praxis möglichst schnell an den der Theorie anzugleichen, da man sonst dem System „hinterherhinkt“. Der Einsatz von Recommender Systemen ermöglicht Empfehlungen abzugeben oder zu prüfen oder aus einer aktiven Suche nach Informationen ein pro-aktives Knowledge Management durch die Übertragung des Cross Selling zu tätigen. Die Voraussetzung für den Einsatz von Recommender Systemen sind personalisierte Seiten, dies erfolgt durch die Authentifizierung, welches auf die Generierung von Benutzerprofilen basiert. Dieses Profil kann sich aus den verschiedensten Daten wie Alter oder Bildung zusammensetzen und durch Daten über das Verhalten des Benutzers auf den Internet Seiten in Form von Clickstreams angereichert werden. Solche Benutzerprofile können durch die Methoden von Recommender Systems miteinander ausgewertet und verglichen werden. Die Frage stellt sich nur inwieweit jeder Nutzer bereit ist sich dem transparenten Netz zu stellen und welche persönlichen Informationen der Mensch an sich frei zur Verfügjung stellt. Das führt zu der Frage nach dem Vertrauen, der Reputation, dem Austausch und Handel im Netz, was eine individuelle Entscheidung des Nutzers darstellt. [HegeoJ] Recommender Systeme sind aus dem Bedürfnis gewachsen, die unüberschaubare Informationsmenge transparent und brauchbar zu machen. Wobei nicht vergessen werden darf, dass auch dies die Transparenz der „personalisierten“ Nutzer beinhaltet. Doch die reinen Methoden Kollaboratives Filtern und Content Based Systeme haben noch ihre Schwachstellen. Auch die Korruption macht auch vor dem Internet nicht halt, unerlaubte Datenvergabe oder Ausspionieren von Verhalten und Präferenzen von Nutzern werden unbemerkt Tag für Tag im Hintergrund durchgeführt, ohne dass der Nutzer Ahnung hat. Ebenso gibt es keine Garantie für die sichere Verwaltung der persönlichen Daten und eine Glaubwürdigkeit der Bewertungen im Internet. Eine Vision wäre hier die Nachvollziehbarkeit von weiterführenden Prozessen und Überprüfbarkeit der Handhabung von persönlichen Daten von Onlineunternehmen. Zukünftige Empfehlungssysteme werden ein Anreiz –bzw. Belohnungssystem einführen müssen. Entweder in Form von Bezahlung für geleistete Bewertungen, oder dadurch, dass man nur im Gegenzug für Bewertungen Empfehlungen vergibt. [HegeoJ] In Zukunft werden deswegen wahrscheinlich immer mehr „angeblich sichere“ Hybridsysteme zusammengesetzt aus Kollaborativen Filtern, Content Based und weiteren unentdeckten Systeme entwickelt und eingesetzt werden, da diese gegenseitig ihre Schwächen verringern oder gar auslöschen. Im weiteren werden die Entwicklungen in Richtung Lösungen gegen Schwachstellen vorangetrieben, um die Skepsis der nutzer zu mindern und das Vertrauen in den Kunden zu stärken.[JANZ04] Die Zukunft des modernen Empfehlungs- und Wissensmanagements liegt daher in dem kombinierten Einsatz von Recommender Systems und Semantischen Netzen. Auf diesem Wege wird es möglich, über die Semantischen Netze zunächst semi- automatisch und dynamisch Kategorien aus großen Datenbeständen zu extrahieren und dadurch eine Grundlage für den Einsatz

Page 38: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 38 -

von Recommender Systems zu schaffen. So können Unternehmen ein qualitativ hochwertiges, pro-aktives Knowledge Management umsetzen, dessen Potenzial um ein Vielfaches über den einfachen Einsatz von volltextindizierenden Suchmaschinen hinausgeht. Indem Benutzer auch ein Feedback abgeben können, wird die Qualität der Empfehlungen nachhaltig gesteigert durch den Einsatz von sogenannter Feedback Loops. [HegeoJ] Das Résumé des Autors lautet trotz der erwähnten Schwachstellen, dass sich ein einzelner Nutzer zu einem gewissen Grad selbst auf der Softwareseite absichern kann und vor allem sollte, und auf das Unternehmen vertrauen, bei dem er Kunde ist, da das „Word of Mouth“ in Newsgroups oder Communities einen beträchtlichen Imageschaden verursachen kann. Der Autor steht diesen Systemen grundsätzlich positiv gegenüber, jedoch müsste die Forschung in Lösungsansätzen mehr forciert werden vor allem auch von großen Softwareunternehmen, da in diesen Gebieten der Zukunftsmarkt liegt. Zudem können die technischen und systemspezifischen Probleme meist anhand der existierenden Techniken oder neuen Agenten aufgehoben werden.

Page 39: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 39 -

10. Abbildungsverzeichnis Abbildung 1: Architektur von Empfehlungssystemen ………………………………………………7 Abbildung 2: Darstellung einer gemeinschaftsbasierten Filtermaschine …………………………8 Abbildung 3: Der gemeinschaftsbasierte Prozess vom Input über den

CF Algorithmus bis hin zum Output ………………………………………………….9 Abbildung 4: Nachbarschaftsformation und der Prozess ………………………………………....9 Abbildung 5: Beziehungsmodell des gemeinschaftsbasierten Filterns ………………………….9 Abbildung 6: Beziehungsmodell des inhaltsbasierten Filterns ………………………………….10 Abbildung 7: Die Architektur für gemeinschaftsbasiertes Filtern mit einem Anwender und Filterbot ………………………………………………… 14 Abbildung 8: Arten von agentenbasierten Empfehlungssystemen ……………………………..20 Abbildung 9: Agenten basierte Architektur ………………………………………………………. 20 Abbildung 10: Errechnung ähnlicher Produkte ……………………………………………………21 Abbildung 11: Ontologie für eine Film Web –Seite ……………………………………………….22 Abbildung 12: Vertrauensstruktur von Empfehlungssystemen …………………………………28 Abbildung 13: P3P Kommunikationsarchitektur …………………………………………………..30 Abbildung 14: Recommendation Warehouse ……………………………………………………..34 Abbildung 15: Komponenten eines sicheren Empfehlungssystems ……………………………36

Page 40: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 40 -

11. Literatur [Bohn04]:Bohnert, Fabian: Einsatz von Collabrot. Filtering zur Datenprognose, Seminararbeit für Data Mining im WS 2003/2004, Universität Ulm, Fakultät für Mathematik und Wirtschaftswissenschaften, Seiten: 2 ff [Janz04]: Janz, Andreas: Thema Recommender System Teil 1, Text Mining und Anwendungen, Dezember 2004, Seiten 1-16, http://www.informatik.hu-berlin.de/wm/seminar2004w/recommender.pdf, Abruf am 2005 -04- 20 [Weng02]: Wenig, Guocheng: Personalisierung und Recommender Systeme, Probleme verschiedener Filterverfahren und Lösungsideen, 2002 [Horw99]: Horwath, Jürgen: Personalised Recommender System, Diplomarbeit für Telematik, TU Graz, 1999 (Hauptanteilung OeNB), 55 ff [ReVa 97]:Resnick, Paul; Varian Hal R.: Recommender Systems. In: Communications of the ACM, Bd. 40, Nr. 3, S.56-58, 1997- 03, http://www.acm.org/cacm/MAR97/resnick.html, Abruf 2005-04-25 [HiSt95]: Hill, Will; Stead, Larry; Rosenstein, Mark; Furnas, George: Recommending and Evaluating Choices in a Virtual Community of Use. In: Proceedings of ACM CHI'95 Conference on Human Factors in Computing Systems, Bd. 1, Seite 194ff, 1995 http://www.acm.org/sigs/sigchi/chi95/Electronic/documnts/papers/wch_bdy.htm, Abruf 2005-04-28 [BaSh97]:Balabanović, Marko; Shoham, Yoav, “Fab: Content-Based, Collaborative Recommendation”, Communications of the ACM, Band 40/Nummer3, 1997 [HegeoJ]:Heger, Heike: Effizientes Knowledge-Management, Referentin Marketing/PR, HLP Informationsmanagement GmbH, ohne Jahresangabe, http://www.hlp.de/presse/presse.cfm?aktion=success&ID_Success=13, Abruf am 2005-04-20 [MaEh95]: Maltz, David; Ehrlich, Kate: Pointing the Way: Active Collaborative Filtering. In: Proceedings of ACM CHI'95 Conference on Human Factors in Computing Systems, Bd. 1, 1995, http://www.acm.org/sigs/sigchi/chi95/Electronic/documnts/papers/ke_bdy.htm, Abruf am 2005-04-25 [Prei04]: Christine Preisach; Recommender Systems in E- Commerce , Betreuer: Prof. Dr. Dr. Lars Schmidt-Thieme, Seminar, 2004-07, Vortrag [AgYuoJ]: Charu C. Aggarwal, Philip S. Yu: On Effective Conceptual Indexing and Similarity Search in Text Data, ohne Jahresangabe, http://web.mit.edu/charu/www/icdm.pdf, Abruf am 2005-04-20 [BaKo98]: Badrul M., Sarwar, Joseph A. Konstan, Al Borchers, Jon Herlocker, Brad Miller and John Riedl: Using Filtering Agents to Improve Prediction Quality in the GroupLens Research Collaborative Filtering System, GroupLens Research Project, Dept. of Computer Science and Engineering, Inc., Seattle Washington USA,

Page 41: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 41 -

Copyright ACM 1998, http://web.engr.oregonstate.edu/~herlock/papers/filterbot-CSCW98.pdf, Abruf am 2005-04-28 [MiPaoJ]: Koji Miyahara and Michael J. Pazzani: Collaborative Filtering with the Simple Bayesian Classifier Improvement of Collaborative Filtering with the Simple Bayesian Classifier, Information Technology R&D Center Mitsubishi Electric Corporation, Department of Information and Computer Science University of California, ohne Jahresangabe, http://www.ics.uci.edu/~pazzani/Publications/koji.pdf, Abruf am 2005-04-26 [MERT97]: Mertens P., Recommender System in Wirtschaftsinformatik 39/4, 1997, 1ff [MaBr00]:Viktor Mayer-Schönberger, Ernst O. Brandl, Viktor Mayer- Schönberger Datenschutzgesetz 2000 (f. Österreich), 1.Jänner 2000, Datenschutzgesetz 2000, BGBl I Nr. 1999/165, Verlag Linde Wien, http://www.ad.or.at/office/recht/dsg2000.htm, Abruf am 2005-04-21 [Ke01]: Kellermayr Karl Prof Dr.:Schutz und Sixcherheit bei Informationssystemen, FH Wels, 2000/01, http://lehre.fh-wels.at/it1/Theorie/IT1-Schutz.DOC, Abruf am 21.04.2005 [Sonn oJ]:Dipl.-Ing. Michael Sonntag:Untersuchungen zur Personalisierung, Johannes Kepler Universität Linz, Institut für Informationsverarbeitung und Mikroprozessortechnik (FIM), ohne Jahresangabe, http://www.fim.uni-linz.ac.at/Publications/Aussendung10.98/Personalisierung.htm, Abruf am 2005-04-23 [StraoJ]:Tim Stracke: Interaktive Online-Beratungssysteme im Vergleich, Geschäftsführer der Mentasys GmbH. Die Mentasys GmbH entwickelt gemeinsam mit der Uni Karlsruhe automatisierte, Verkaufsberatungssysteme für Industrie-, Handels- und Dienstleistungsunternehmen, in der Zeitschrift Absatzwirtschaft Online, sonst ohne Angabe der Ausgabe oder Datum, http://www.absatzwirtschaft.de/psasw/fn/asw/SH/0/sfn/buildpage/cn/cn_artikelanzeige_head/contentid/28903/ssuche/mentasys/page1/PAGE_1000690/page2/PAGE_1003228/aktelem/PAGE_1003228/, Abruf am 2005-04-23 [RaAl02]:Al Mamunur Rashid, Istvan Albert, Dan Cosley, Shyong K. Lam, Sean M. McNee, Joseph A. Konstan, John Riedl: Getting to Know you: Learning New User Preferences in Recommender Systems, GroupLens Research Project,Department of Computer Science and Engineering,University of Minnesota,Minneapolis, MN 55455 USA, January 2002, San Francisco, USA [CoShAl03]: Cosley, D. / Shyong K. Lam / Albert, I. / Konstan, J.A. / Riedl, J.:Is see-ing believing? How recommender system interfaces affect users' opinions, in: Con-ference on Human Factors and Computing Systems, Proceedings of the conference on Human factors in computing systems, 585 ff., 2003 [WeMo03]: Wei, Y. Z./ Moreau, L. / Jennings, N. R.: Recommender Systems; A Mar-ket- Based Design, in: Proceedings of the second international joint conference on Autonomous agents and multiagent systems, 2003

Page 42: Schwachstellen von Recommender SystemenV01 · Recommender Systems are being used by an increasing number of E-Commerce shops to help consumers finding and selecting products. Recommender

Betreuung Univ. Dr. Michael Hahsler Mat. 9851440

Schwachstellen von Recommender Systemen Kuzdas Sabine

- 42 -

[MoJi04]: Bamshad Mobasher, Xin Jin, Yanzan Zhou: Semantically Enhanced Collaborative Filtering on the Web, Center for Web Intelligence School of Computer Science, Telecommunication, and Information Systems DePaul University, Chicago, Illinois, USA Bamshad Mobasher, 2004-03-09 [GoSc99]:Nathaniel Good, J. Ben Schafer, Joseph A. Konstan, Al Borchers, Badrul Sarwar, Jon Herlocker, and John Riedl: Combining Collaborative Filtering with Personal Agents for Better Recommendations, GroupLens Research Project, 1999 [SrXi05]: Mudhakar Srivatsa, Li Xiong, Ling Liu: TrustGuard: Countering Vulnerabilities in Reputation Management for Decentralized Overlay Networks, Georgia Institute of Technology, 2005, http://www.cc.gatech.edu/~mudhakar/trustguard/trustguard.pdf, Abruf am 2005-04-23 [DiFroJ]: Roger Dingledine, Michael J Freedman, David Molnar, David Parkes, Paul Syverson: Reputation, Artikel auf dem Online portal Identity, http://www.ksg.harvard.edu/digitalcenter/conference/papers/reputation.htm, Abruf am 2005-04-23 [IgTe05]Makoto Iguchi, Masayuki Terada, Ko Fujimura: Managing Resource and Servent Reputation in P2P Networks, Proceedings of the 37th Hawaii International Conference on System Sciences – 2004 [ScBi05]: Prof. Dr. Tobias Scheffer, Steffen Bickel, Isabel Drost: Schwachstellen von Recommender Systemen- Das mehrdimensionale Recommender System, Humboldt Universität. 2004/05 [RiKl02]: Kai Riemer, Stefan Klein: Personalisierung von Online-Shops, aus Distanz wird Nähe, 2002, http://www.firstsurf.com/riemer0227_t.htm, Abruf am 2005-04-26 [KoMo02] Michael Koch, Kathrin Möslein, Michael Wagner:Vertrauen und Reputation in Online-Anwendungen und virtuellen Gemeinschaften,2000 http://www11.informatik.tu-muenchen.de/publications/pdf/Koch2000b.pdf Abruf am 2005- 04-23 [MoJi04]:Bamshad Mobasher, Xin Jin, Yanzan Zhou: Semantically Enhanced Collaborative Filtering on the Web, Center for Web Intelligence School of Computer Science, Telecommunication, and Information Systems DePaul University, Chicago, USA, 2004, http://dict.leo.org/se?lp=ende&p=/Mn4k.&search=inference, Abruf am 2005 -04-23 [Kang02]: Kangas Sonja: Coolaborative Filtering and Recommender Systems, LOUHI Project, 2002, http://www.vtt.fi/tte/datamining/publications/collaborativefiltering.pdf, Abruf am 2005-04-26 [Steh97]: Dipl.-Inf. (FH) Martin Stehle: Kommentar zu Open Profiling Standard (OPS)im PC Magazin / mk/mam, Chausseestr. 117, 10115 Berlin, Germany, 29 May 1997, http://www.fitug.de/debate/9705/msg00095.html, Abruf am 2005-04-27