[das bild wurde mit hilfe der wordcloud-generator (http ... · es gibt kollektionen, in denen alle...

15
[Das Bild wurde mit Hilfe der Wordcloud-Generator (http://wordle.net/ ) erstellt. Die Schriftgröße eines Schlagwortes wird durch dessen Häufigkeit bestimmt. Hier wurde die Häufigkeit künstlich erhöht, um den Titel und die wichtigsten Begriffe darzustellen.]

Upload: others

Post on 16-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

[Das Bild wurde mit Hilfe der Wordcloud-Generator (http://wordle.net/) erstellt. Die Schriftgröße eines Schlagwortes wird durch

dessen Häufigkeit bestimmt. Hier wurde die Häufigkeit künstlich erhöht, um den Titel und die wichtigsten Begriffe darzustellen.]

Page 2: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

Tagged Objects Collections

Seminar

Soziales Retrieval im Web 2.0 SS08

Lehrstuhl Informationssysteme

Bearbeiter: Tuan-Vu, Tran

Betreuer: Dipl.-Inform. Sascha Kriewel

Page 3: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

Inhalt

1. Abstrakt ............................................................................................................... 4

2. Einleitung ............................................................................................................. 4

2.1. Motivation ...................................................................................................... 4

2.2. Tagged Objects Collections ........................................................................... 4

2.2.1. Was sind Tagged Objects Collections ? ..................................................... 4

2.2.2. Arten von Tagged Objects Collections ....................................................... 5

3.1. Flickr (http://flickr.com) .................................................................................. 5

3.2. Last.fm (http://last.fm) .................................................................................... 6

3.3. Slideshare (http://slideshare.net) ................................................................... 7

3.4. Youtube (http://youtube.com) ........................................................................ 8

4. Vorteile von Tagged Objects Collections ............................................................. 9

4.1. Mehr Struktur ................................................................................................. 9

4.2. Trend aufspüren ............................................................................................ 9

4.3. Soziale Erfahrungen .................................................................................... 10

4.4. Webseite verbinden ..................................................................................... 10

5. Realisierung ...................................................................................................... 10

5.1. Tagging ....................................................................................................... 10

5.2. Autotagging ................................................................................................. 11

5.3. Social Browsing ........................................................................................... 12

5.4. Tag- Recommendation ................................................................................ 13

6. Zusammenfassung - Ausblick ........................................................................... 14

7. Referenzen ........................................................................................................ 15

Page 4: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

4

1. Abstrakt

Wenn man über Web 2.0 spricht, führt kein Weg an den neuen Social-Media-Sites

vorbei. Flickr, Last.fm, Slideshare und Youtube sind die populärsten ihrer Art. Sie

benutzen verschiedene Tagging-Systeme um ihre Mediendateien zu verwalten und

katalogisieren. Dabei haben sie eine Gemeinsamkeit, Tagged Objects Collections,

Kollektionen von getaggten Objekten. In dieser Ausarbeitung werde ich Tagged

Objects Collections betrachten, ihre Vorteile analysieren und mich anschließend mit

ihrer Realisierung auseinandersetzen.

2. Einleitung

2.1. Motivation

Mit der raschen Entwicklung des Internets und mit dem zunehmenden Bedarf an

Kommunikation und Entertainment via Internet bietet Web 2.0 eine Plattform mit

vielfältigen Möglichkeiten. Besondere nutzergenerierte Inhalte erzeugen eine enorme

Menge an Daten und Informationen, die sich ständig vervielfachen. In diesem

Informationsdschungel verliert der Benutzer oft den Überblick. Um einen richtigen

und schnellen Weg zu finden, braucht der Benutzer effektiveres

Klassifikationssystem als Taxonomie. Mit Gemeinschaftliches Indexieren

(Folksonomie) lassen sich Ressourcen gemeinsam indexieren und katalogisieren.

Dies ist besonders wichtig für Mediendateien. Anders als textbasierten Dateien

lassen sich Mediendateien inhaltlich nur schwer von Computern automatisch

indexieren. Tags werden benutzt, um in der Rolle von Metadaten bei Mediendateien

zu spielen. Mit den Metadaten lassen sich Mediendateien einfacher sortieren und

katalogisieren. Dabei entsteht ein Problem, dass diese Tags auch katalogisiert

werden müssen, um Zielobjekte schneller und einfacher zu finden.

Tagged Objects Collections sammeln „getaggte Objects“ und fassen sie zu

Kollektionen zusammen um das Finden und Wiederfinden zu vereinfachen.

2.2. Tagged Objects Collections

2.2.1. Was sind Tagged Objects Collections ?

Tagged Objects Collections sind Sammlungen von Objekten, die vorher getaggt

wurden. Dabei könnten Objekte Musikstücke, Bilder, Videos, Slides (Präsentationen)

und ähnliches sein. Diese wurden entweder von dem Besitzer selbst, von der

Website (autotagging) oder gemeinsam von der Community, getaggt. Es gibt zwei

Arten von Sammlungen.

Page 5: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

5

2.2.2. Arten von Tagged Objects Collections

Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen

Tag haben. Wenn ein Benutzer nach dem Tag „Web 2.0“ bei Slideshare sucht,

bekommt er beispielweise eine Kollektion aller Slides, die mit dem Tag „Web 2.0“

versehen wurden. Dies ist besonders nützlich, wenn der Benutzer sich für ein

konkretes Thema interessiert und nach relevanten Ressourcen mit einem bekannten

Suchbegriff suchen will.

Tagged Objects Collections sind aber auch Kollektionen, in denen Objekte

verschiedene Tags haben. Sie könnten eine Kollektion aller abgespielte Musik bei

einem Last.fm-User sein, oder eine Kollektion der meist gesehenen Videos („most

viewed“) bei Youtube. Solche Kollektionen werden oft automatisch erzeugt, um

Benutzer interessante Information bereitzustellen . Hier ist dann unglaublich

interessant zu sehen, wie die Verteilung der Tags in der Kollektionen ist.

3. Flickr, Last.fm und co.

In Rahmen dieses Seminars werden ich die sogenannten „Social Media Sites“ als

Beispiele betrachten. Flickr, Youtube und Slideshare sind „User Generated Content

Sites“ d.h. ihre Inhalte werden von den Nutzern erstellt. Last.fm kann eher als

„Personal Objects Cataloging Site“ klassifiziert werden, obwohl sie Mp3 und Videos

bietet.

3.1. Flickr (http://flickr.com)

Flickr ist eine Web-2.0-Anwendung, die es Benutzern erlaubt, digitale Bilder mit

Kommentaren und Notizen auf die Website und so anderen Nutzern zur Verfügung

zu stellen. Neben dem herkömmlichen Upload über die Website können die Bilder

auch per E-Mail oder vom Fotohandy aus übertragen werden und später von

anderen Webauftritten aus verlinkt werden.

Flickr bietet die Möglichkeit, Fotos in Tags zu sortieren, in sogenannte Pools

aufzunehmen, nach Stichworten zu suchen, so genannte Fotostreams anderer

Benutzer anzuschauen und Bilder mit Bildausschnitten zu kommentieren.

Die Möglichkeit, Bilder zu taggen, mit einer Beschreibung zu versehen und von

anderen kommentieren zu lassen, unterstützt den Anwender beim schnellen Aufbau

von Metadaten. Dabei benutzt Flickr ein soziales Tagging-System, d.h. der Besitzer

kann seine Bilder beliebig taggen und kann festlegen, ob die anderen Benutzer

seine Bilder auch taggen dürfen. Außerdem bietet Flickr „geotagging“, eine Methode,

einem Foto Ortsinformationen hinzuzufügen. Der Benutzer kann mit der Drag-and-

Drop-Funktion die Fotos auf die Stelle der Karte platzieren, an der das Foto

aufgenommen wurde. Flickr unterstützt nur Ein-Wort Tags, das heißt, Tags dürfen

Page 6: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

6

nur ein Wort lang sein. Ein Tag-Recommendation-System gibt den Benutzern

Vorschläge beim Taggen.

Neben der Volltextsuche bietet Flickr Suchfunktionen nach Tags. Außerdem kann

nach Kamera gesucht werden. Dazu hat Flickr eine Liste die beliebteste Kameras in

der Community.

Abbildung 01: Eine typische Kollektion bei Flickr. Dies ist eine zufällige Auswahl aus

den interessanten Fotos, die in den letzten 7 Tagen bei Flickr gefunden wurden.

3.2. Last.fm (http://last.fm)

Last.fm ist ein Internetradio auf Basis von sozialer Software („personalised online

radio station“). Es wurde entwickelt, um Nutzer auf Basis ihrer Hörgewohnheiten

neue Musik, Menschen mit ähnlichem Musikgeschmack und Konzerte in ihrer

Umgebung empfehlen zu können.

Page 7: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

7

Last.fm kann alle auf dem PC abgespielten Musikstücke in einer Datenbank

speichern, erzeugt individuelle oder globale Charts und verbindet Benutzer mit

musikalischen Nachbarn. Bei musikalischen Nachbarn handelt es sich um Personen,

welche einen ähnlichen Musikgeschmack haben. Jeder Benutzer bekommt seine

individuelle Musik-Empfehlung von Last.fm.

Last.fm verfügt über ein Event-System. Es erstellt automatisch Konzertlisten,

basierend auf dem Musikprofil von Benutzern. Darüber hinaus kann der Benutzer

eigene Events hinzufügen. Die Interaktion zwischen Nutzern soll damit verstärkt

werden, da es sehr leicht zu erkennen ist, wer dasselbe Konzert besucht hat und

besuchen wird.

Last.fm benutzt ein kollaboratives Tagging-System, das den Benutzern erlaubt, jedes

Musikstück mit beliebigen Tags zu versehen. Die Ressourcen sind, anders als bei

Flickr, nicht pesonalisiert. Es werden auf unterschiedlichen Ebenen getaggt: Songs,

Albums und Künstler. Dabei können Tags von Songs benutzt werden, um Albums

und Künstler zu beschreiben und umgekehrt. 2008 hat Last.fm eine Tags-

Recommendation Funktion implementiert, um Nutzern beim Taggen zu helfen.

Suchen kann man nach Tags, Musik oder Plattenlabel. Als ein weiteres „Social

Feature“ bietet Last.fm ein Wiki-System, um beispielweise Biographien von Künstlern

gemeinsam zu verfassen.

3.3. Slideshare (http://slideshare.net)

Bei Slideshare kann man PowerPoint-Präsentationen, OpenOffice.org Impress und

PDF-Dateien veröffentlichen. Wie bei vielen anderen sozialen Netzwerke, können

Benutzer taggen, bewerten und kommentieren. Nachdem eine Datei hochgeladen

wurde, ist sie sichtbar für die Öffentlichkeit zugänglich. Der Benutzer legt fest, ob

seine Slides herunterladen werden können. Da die Folien meistens textbasiert sind,

können die Begriffe aus Folien über Suchmaschinen recherchiert werden. Darüber

hinaus könnten diese Präsentationen auf jedem Computer abgerufen werden ohne

USB-Laufwerken oder anderen Speichergeräten.

Dank einem kollaborativen Tagging-System, können Objekte gemeinsam getaggt

werden. Wie Last.fm unterstützt Slideshare Multi-Wort-Tags. Benutzer haben

außerdem die Möglichkeit, Slides zu ihren Favoriten hinzuführen. Die Präsentationen

können auch in eine externe Website eingebettet werden.

Page 8: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

8

Abbildung 02: Eine Kollektion aller Slides mit dem Tag „Web 2.0“ bei Slideshare.

3.4. Youtube (http://youtube.com)

Youtube ist ein Videoportal, auf dem jeder Benutzer kostenlos Video-Clips ansehen

und online stellen kann. Wie es bei Videocommunities üblich sind, kann man die

einzelnen Clips bewerten und kommentieren.

Youtube benutzt ein Basic-Tagging-System, welches nur dem Besitzer erlaubt, seine

Clips zu taggen. Als eine weitere Beschränkung unterstützt Youtube nur Ein-Wort

Tags. Allerdings werden zusätzlich externe Tags von externen Webseiten, wo die

Clips eingebettet sind, benutzt. Benutzer können Clips als Favoriten kennzeichnen

und Videoanworten erstellen.

Bei Youtube kann nach Kanälen, Tags, Titel und Beschreibung gesucht werden.

Darüber hinaus gibt es Top-Favoriten, heiß diskutierte, meist gesehene und

angesagte Videos.

Page 9: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

9

4. Vorteile von Tagged Objects Collections

4.1. Mehr Struktur

Mediendateien erhalten im Allgemeinen , anders als textbasierende Dateien, keine

inhaltlichen Metadaten. Der Exif-Header bei digitalen Bildern verrät z.B. über

Aufnahmedatum oder Belichtungszeit, kann aber nichts über den Motiv oder den

Autor des Bildes sagen. Hier kommen Tags ins Spiel. Sie ersetzen oder ergänzen

die Metadaten bei Mediendaten. Sie erhalten nicht nur Information über Inhalte,

sondern auch über Stimmung („sad“), Genre („pop“), Emotion („love“), usw…

Das Problem mit traditionellen und etablierten Formen des Sortierens mit physischen

Objekten liegt darin, dass jedes Objekt an einem Platz liegt. Beispielweise wird eine

neue CD in der Sammlung entweder unter dem Namen des Künstlers abgelegt, oder

anhand der Musikrichtung einsortiert oder einfach oben auf dem Stapel abgelegt.

Genauso verhält es sich mit digitalen Musikdateien. Eine Song kann entweder im

Ordner Künstler/Album abgelegt werden, oder aber unter Kollektion/Gerne/Playlist

sein. Jeder Inhalt hat seinen eigenen Platz. Der Benutzer muss wissen, wo dieser

Ort ist, wenn er schnell darauf zugreifen möchte. Noch komplizierter wird es, wenn er

anderen Zugriff auf diese Inhalte geben möchte. Mit Tags ist die Katalogisierung

deutlich flexibler. CD kann verschiedene Etiketten angeheftet werden, ein Song

könnte die Informationen Metal (Genre), In Flames (Künstler), Favorite oder Top

erhalten. Gleich aus welcher Motivation der Benutzer später danach sucht, ist die

Wahrscheinlichkeit die richtige Information zu finden, wesentlich größer, als wenn er

sich an das eine, entscheidende Kriterium erinnern müsste.

Tagged Objects Collections fassen getaggte Ressourcen zusammen. Relevante

Ressourcen lassen sich schnell und einfach finden. Inhalte werden dadurch

übersichtlich dargestellt.

4.2. Trend aufspüren

Benutzer können meist auf einfache Art und Weise erkennen, was momentan auf der

jeweiligen Site im Trend sind. Dafür müssten sie nur beispielweise „most viewed“

(Youtube, Slideshare), „intersestingness“ (Flickr) oder „most played“ (Last.fm)

anschauen. Erfahrungsgemäß werden Objekte in solchen Kollektionen stärke

wahrgenommen [6]. Im Vergangenheit wurden sie deshalb schon oft manipuliert.

Fans von Avril Lavigne beispielweise haben einen Weg gefunden, ein ihrer Lieder

auf Youtube jede 15 Sekunden neu abzuspielen. Und so wurde das Videoclip

„Girlfriend“ im July 2008 an der Spitze der meist gespielten Videos aller Zeiten

katapultiert [9].

Solche Fälle sind aber als Einzelfälle. Im Normalfall spiegeln solche Kollektionen die

Aktivitäten innerhalb einer Community wieder.

Page 10: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

10

4.3. Soziale Erfahrungen

Es ist einfacher für Benutzer, Gleichgesinnten zu finden. Benutzer müssen sich nicht

kennen, machen aber dennoch ähnliche soziale Erfahrungen, da sie gleiches

Interesse an einem Objekt (Video, Foto) haben. Anhand der Kollektion aller

abgespielte Lieder generiert Last.fm für jeden Benutzer eine „Nachbarschaft“. Zwei

Benutzer, die Interesse an Landschaftsfotografie haben, entdecken Fotos des

anderen durch Kollektionen. Es gibt außerdem die sogenannten Pools, wo Benutzer

ihre Kollektionen austauschen, und daraus eine gemeinsame Kollektion machen

könnten.

Überall haben Benutzer die Möglichkeit, Ressourcen als Favoriten hinzuführen und

mit anderen zu teilen. Eine ganze Kollektion könnte so weiter gegeben werden.

4.4. Webseite verbinden

Ein Vorteil des Web 2.0 ist, dass fast jedes soziales Netzwerk eine offene API

besitzt. Dadurch können Websites auf einfache Art und Weise Verbindung mit

einander knüpfen. Events auf Last.fm haben Event-ID, über diese können auf Flickr

Bilder dem Event zugeordnet werden. Last.fm bindet diese wiederum auf Eventseiten

ein. Beispielweise haben Bilder zu dem Led Zeppelin‘s Konzert in London am

10.12.2007 den Tag „lastfm:event=338878“.

5. Realisierung

5.1. Tagging

Tagging ist der Kern von Tagged Objects Collections. Nur mit Tags ist es möglich,

Kollektionen zu bilden. Es gibt zwei Arten von Tags: normale Tags und

Maschinentags. Erstere sind das, was Benutzer vergeben. Zum Beispiel: ein Song

wurde als „cool“ oder „rock“ getaggt. Maschinentags sind maschinell erzeugte Tags.

Dazu gehören Autotagging und Geotags. Geotags erhalten GPS-Daten, die die

geografische Position von Ressourcen liefern. Autotagging wird in dem nächten

Abschnitt behandelt. Es gibt verschiedene Tagging-Systeme: Basic-, Social-, und

Collaborative-Tagging. Jede System hat seine Vorteile und Nachteile. Basic Tagging

erzeugt in der Regel wenigsten, und Collaborative Tagging die meisten Tags.

Das Problem bei einem Collaborative-Tagging-System liegt darin, dass nicht jeder

Tag sinnvoll sein muss. Weil Tagging normalerweise nicht moderiert wird, ist es

anfällig für Manipulationen durch die Website-Nutzer. Bei Last.fm zum Beispiel gibt

es Meinungsverschiedenheiten über Genre bei den Nutzern, oder bestimmte

Künstler befinden sich auf falschen Tag-Charts (das bekannteste Beispiel dafür war

die Beförderung von Paris Hilton an die Spitze des "brutal Death Metal"-Tag [8]).

Bei Youtube und Flickr dürfen Tags nur ein Wort lang sein. Taggen Benutzer ihre

Medien mit „wort1 wort2“, wird es automatisch in 2 Tags „wort1“ und „wort2“ zerlegt.

Page 11: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

11

Das funktioniert beispielweise mit „London trip“ ganz gut, da 2 sinnvolle Tags

„London“ und „trip“ gewonnen werden. Doch es funktioniert mit „hot dog“ nicht. Denn

„hot“ und „dog“ haben nicht viel mit dem ursprünglichen amerikanischen Fastfood zu

tun. Abhilfe schafft entweder ein „_“ Zeichen in der Mitte, was in der Praxis nicht so

oft verwendet wird, oder die Wörter werden einfach nacheinander geschrieben. Um

Multi-Wort Tags zu vergeben, könnte der Benutzer seine Tags in „“ schreiben,

allerdings behandelt Flickr solche Tags intern als Ein-Wort-Tags. So sind die URLs

vielleicht suchmaschinenfreundlicher, dafür ist die menschliche Lesbarkeit schlecht.

Der wahrscheinlich längste Ein-Wort-Tag auf Flickr ist

„zone1referencelibrariansvisitedthewheatonpubliclibraryonseptember6“ [10]. Last.fm

und SlideShare lassen Multi-Wort-Tags zu. Das ist „natürlicher“ und verbessert die

Lesbarkeit von Tags.

Ein Schwachpunkt vom Tagging sind synonyme Tags. Der Tag „apple“ könnte für

Obst, aber auch für die Firma mit dem angebissenen Apfel als Logo stehen. So

entstehen Kollektionen, deren Inhalte untereinander keine Gemeinsamkeiten haben.

Andersherum kann die Sprache, mit der Tags versehend sind, eigentlich gleichartige

Objekte trennen. „seen live“ und „live gesehen“ sind nur zwei von vielen Beispielen.

Außerdem könnten Tags im Plural oder im Singular stehen. Ein Objekt kann mit

„dog“ oder „dogs“ getaggt sein. Es erschwert das Finden von relevanten Objekten da

jeder Tag zu einer separaten Kollektion gehört.

5.2. Autotagging

Mit der Verbreitung der Online-Musik wird automatische Musik-Empfehlung ein

zunehmend wichtiges Instrument für die Zuhörer. Mithilfe Musik-Empfehlung können

Zuhörer Musik, die sie mögen, schneller finden. Automatische Musik-Empfehlung

allgemein verwendet Collaborative-Filtering-Techniken Musik zu empfehlen, basiert

auf dem Hörgewohnheiten von anderen Musik-Hörern. Diese Collaborative-Filtering-

Recommenders nutzen den "wisdom of the crowds"-Ansatz um Musik zu empfehlen.

Ein wichtiges Thema für Collaborative-Filtering-Recommenders ist das Cold-Start

Problem. Ein Recommender braucht eine erhebliche Menge an Daten, bevor er gute

Empfehlungen erzeugen kann. Für neue Musik, Musik von einem unbekannten

Künstler mit wenig Zuhörer, kann ein Collaborative-Filtering-Recommender keine

gute Empfehlungen generieren.

Autotagging wurde entwickelt, um das Cold-Start Problem zu verhindern und Tags zu

glätten. Damit werden die wichtige und sinnvolle Tags hervorgehoben, und die

wenige wichtige (oder sogar falsche) Tags bleiben im Hintergrund. Unbekannte

Künstler, die wenig Hörer haben und wenig getaggt wurden, profitieren auch von

Autotagging.

Ein Autotagging-Model lernt Tags von bekannten Musikstücken und erzeugt Tags-

Vorhersage für neue Songs.

Page 12: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

12

Abbildung 03: Ein Autotagging Model. [2]

Künstler A wurde mit „80s“ „cool“ und „rock“ getaggt, demzufolge haben seine Songs

auch die gleichen Tags. Von jedem Song werden zufällig 5 sekundenlange Stücke

ausgewählt, insgesamt ca. eine Minute, und anschließend analysiert. Die Audio

Merkmale von den Songs werden dadurch gelernt. None/some/alot sind die

Prozente von dem „80s“ Tag im Vergleich zu den gesamten Tags. So wird der „80s“

Tag gelernt. Das gleiche Prozedur gilt für die anderen Tags. Nachdem ein Set von

gelernten Tags gesammelt wurde, kann es dazu benutzt werden, Tags für neue

Songs vorherzusagen.

5.3. Social Browsing

„Social Browsing“ beschreibt die Art und Weise, wie Benutzer mit Informationen auf

einem sozialen Netzwerk umgehen. Bei Flickr haben Benutzer verschiedene

Möglichkeiten, neue Bilder zu entdecken, entweder durch ihre Gruppe, durch Suchen

mit Tags oder durch die Fotostreams ihrer Kontakte.

Eine Studie [5] hat gezeigt, dass die meisten Benutzer die letztere Möglichkeit

benutzen. Dabei wurden drei Gruppen von Bildern untersucht : (a) Bilder zufällig aus

den Hochgeladenen auf einen bestimmten Tag (Random-set), (b) Bilder von anderen

Fotografen zu der außergewöhnlichen Qualität bewertet wurden (Apex-set) und (c)

Die interessanteste Bilder (von Flickr ausgewählt) auf einen bestimmten Tag

(Explore-set). Die Anzahl der Views, Kommentare und gekennzeichneten Favoriten

von diesen Bildern wurde analysiert, im Zusammenhang mit anderen Merkmale wie

die Anzahl der Pools indem sie aufgenommen wurden, die Anzahl der Tags sie

haben, und die Größe der sozialen Netzwerke von ihren Besitzern. Explore- und

Apex-Bilder scheinen sehr ähnlich zu sein, trotz der Tatsache, dass Apex Bilder

Page 13: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

13

Monate alt sind (und vermutlich in mehr Pools aufgenommen wurden und/oder mehr

Tags hatten). Sie sind sehr verschieden im Vergleich zu den Random-Bilder. Im

Schnitt wurden Explore- und Apex-Bilder ca. 20 mal häufiger gesehen als Random-

Bilder. Beurteilung durch die Größe der sozialen Netze, sind Fotografen aus diesen

beiden auch sehr ähnlich und sie unterscheiden sich von den Random-Fotografen.

Je mehr Kontakte ein guter Fotograf hat, desto häufiger werden seine Bilder gesehen

und kommentiert. Dies ist ein wichtiges Kriterium für die Auswahl der

interessantesten Bilder bei Flickr. Kollektionen wie „Interesstingness“ (Kollektion

interessantester Bilder eines bestimmten Zeitraums) und „Explore“ (Kollektion 500

interessantester Bilder des Tages) sind gute Beispiele dafür. Darin sind die meist

gesehene Bilder zu sehen.

5.4. Tag- Recommendation

Ein häufiges Problem bei einem sozialen Netzwerk wie Flickr ist, dass Benutzer zu

wenig taggen. Je weniger Tags ein Bild hat, desto weniger Informationen hat es, und

das erschwert das Finden und Wiederfinden. Bei einer Studie [3] wurden 52 Millionen

Bilder analysiert. Dabei waren 33 Millionen Bilder, was ca. 64% entspricht, nur mit 1

bis 3 Tags versehend. 52 Millionen ist natürlich nur ein Bruchteil von insgesamt mehr

als 2 Milliarde Fotos auf Flickr [11], sagt aber viel über die gesamte Situation aus.

Eine mögliche Ursache dafür wäre, dass unerfahrene Benutzer oft nicht von Tags

wussten, oder es fällt ihnen schwer, mehrere sinnvolle Tags auf einmal zu vergeben.

Tag-Recommendation ist eine Funktion, welche Benutzern hilft, sinnvolle Tags zu

vergeben. Sie steigern damit auch die Anzahl von Tags.

Abbildung 04 zeigt, wie Tag-Recommendation funktioniert. Ein Benutzer taggt sein

Bild als „Sagrada Familia“ und „Barcelona“. Die Kandidaten für „Sagrada Familia“

sind Barcelona, Gaudi, Spain, Architechture, Catalunya und Church. Für „Barcelona“

wurden Spain, Gaudi, Catalunya, 2008, Europe und Travel als Tag-Kandidaten

gefunden. Diese Tags werden ausgewählt, weil sie am häufigsten zusammen mit

„Sagrada Familia“ und „Barcelona“ auf Flickr vergeben wurden (co-occurence). Nach

einem Ranking-Verfahren werden dann die endgültigen Tags-Empfehlungen

ausgewählt. So bekommt der Benutzer am Ende außer seiner ursprünglichen Tags

noch 5 Tags als Empfehlungen.

Page 14: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

14

Benutzerdefinierte Tags Tag-Kandidaten Empfohlene Tags

Sagrada Familia

Barcelona

Sagrada Familia:

Barcelona

Gaudi

Spain

Architecture

Catalunya

Church

Gaudi

Spain

Catalunya

Architecture

church

Barcelona:

Spain

Gaudi

2008

Catalunya

Europe

Travel

Abbildung 04: Überblick eines Tag-Recommendation Prozesses. [3]. Bild [12].

6. Zusammenfassung - Ausblick

Youtube hat das Problem mit dem Basic-Tagging-System gut gelöst, indem sie

externe Tags mitbenutzt. Last.fm kämpft gegen die Schwäche von Collaborative-

Tagging-Systemen mit Autotagging und Tags Recommendation. Social Browsing hat

gezeigt, wie „sozial“ soziale Netzwerke sind. Dank ihrer Vorteile hat sich Tagging

(Folksonomy) gegen Taxonomien durchgesetzt, ihre Anwendung ist mittlerweile bei

„personal information management“-Software wie beispielweise Microsoft Outlook

oder Mozilla Thunderbird zu finden. In naher Zukunft wird Tagging bei File Manager

Programme auch eine Rolle spielen.

Tagged Objects Collections haben sich als sehr nützlich erwiesen. Besonders

Benutzer profitieren von ihren Vorteile. Natürlich haben sie auch ihre

Schwachpunkte, wie das Problem mit synonymen Tags, Singular und Plural. Es wäre

natürlich sinnvoller, wenn anstatt 3 Kollektionen wie „seen live“ „live gesehen“ und

„live gesehn“ nur eine einzige wäre. Außerdem wäre eine Filterfunktion für gezieltes

Suchen wünschenswert. AND, OR und NOT Verknüpfungen könnten dabei helfen.

So könnte ein Suchbegriff beispielweise aussehen: „beach“ OR „küste“ AND „2008“

NOT „benutzername“. Also eine Kollektion aller Bilder mit dem Tag „beach“ oder

„küste“, die im Jahr 2008 geschossen wurden und nicht von einem Benutzer

stammen.

Co

-occu

ren

ce

Ag

gre

ga

tion

& R

an

kin

g

Page 15: [Das Bild wurde mit Hilfe der Wordcloud-Generator (http ... · Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen Tag haben. Wenn ein Benutzer nach dem

15

7. Referenzen

[1] Gene Smith (2008). Tagging: people-powered metadata for the Social Web. New

Riders. Folien auf SlideShare http://www.slideshare.net/gsmith/

[2] Eck, Lamer (2006). Automatic Generation of Social Tags for Music

Recommendation. http://books.nips.cc/papers/files/nips20/NIPS2007_0892.pdf

[3] Sigurbjörnsson, Van Zwol (2008). Flick Tag Recommendation based on

Colllective Knowledge. 17th International World Wide Web Conference (WWW),

ACM Press, Beijing, China, Seite 327-336.

http://doi.acm.org/10.1145/1367497.1367542

[4] Tom Alby (2007). Web 2.0 Konzepte, Anwendungen, Technologien. Hanser.

[5] Lerman, Jones (2007). Social Browsing on Flickr. Proceedings of Int. Conf. on

Weblogs and Social Media, Boulder, CO, USA. http://arxiv.org/abs/cs/0612047

[6] Kristina Lerman (2008). Social Browsing & Information Filtering in Social Media.

http://arxiv.org/abs/0710.5697

[7] Flickr - Wikipedia http://en.wikipedia.org/wiki/Flickr (26.08.2008)

[8] Last.fm – Wikipedia http://en.wikipedia.org/wiki/Last.fm (26.08.2008)

[9] Youtube – Wikipedia http://en.wikipedia.org/wiki/YouTube (26.08.2008)

[10]

http://www.flickr.com/photos/tags/zone1referencelibrariansvisitedthewheatonpubliclib

raryonseptember6/

[11] http://www.flickr.com/photos/88646149@N00/2000000000/

[12] http://flickr.com/photos/nopipno/2356889559