von information zu wissen - einsichten gewinnen - text mining
DESCRIPTION
Themen finden, Themen beschreiben in Zusammenhang mit Meinungen, Vielfalt und LokalisierungTRANSCRIPT
EC Project 257859
Von Information zu Wissen Einsichten Gewinnen
Prof. Dr. Steffen Staab
Institute for Web Science and Technologies
Business Communities
• Informationsökosystem– Angestellte– Geschäftspartner, Kunden– Öffentlichkeit
Werte
GelegenheitenRisiken
08.09.12 2Steffen Staab, [email protected]
Anwendungsfälle
Business PartnersExtranet
EmployeesIntranet
Public DomainInternet
SAP Community Network (SCN)Lotus Connections MeaningMine
Communities• Customers• Partners• Suppliers• Developers
Business value• Products support• Services• Find business partners
Communities• Employees• Working groups• Interest Groups• Projects
Business value• Task relevant information• Collaboration• Innovation
Communities• Social media• News• Web fora• Public communities
Business value• Topics• Opinions• Service for partners
Volume• 6,000 posts/day• 1,700,000 subscribers• 16GB log/day
Volume• 4,000 posts/day• 386,000 employees• 1.5GB content/day
Volume• 1,400,000 posts/day• 708,000 web sources• 45GB content/day
08.09.12 3Steffen Staab, [email protected]
Information Verstehen
• Finden von Themen
• Meinungen zu Themen:– Topic-opinion analysis
• Z.B. positive und negative Meinungen zu Produkten
• Diversität von Meinungen– Vermeiden von „group think“
• Lokalisierung von Themen– Globale Themen vs regionale Themen
• Z.B. Nachtflugverbot am Frankfurter Flughafen
– Themen, die sich zeitlich ändern• XML - 2000• Soziale Netzwerke - 2010
08.09.12 4Steffen Staab, [email protected]
Einfaches Beispiel: Yahoo Nachrichten
08.09.12 5Steffen Staab, [email protected]
Kommentare
• Viele Kommentare
• Verschiedene Meinungen
• Verschieden wichtige Kommentare
Wie macht man Wissen aus der
Informationsflut?
08.09.12 6Steffen Staab, [email protected]
Erster Schritt: Extraktion
08.09.12 7Steffen Staab, [email protected]
Zweiter Schritt: Themen erkennenTorpedo attack
Spiritualism
Religion
Erkannte
Themen
Zweiter Schritt: Themen erkennen
MEINUNGEN ZU THEMEN
Werkzeug für Themen & Meinungen
Was ist eine Meinung?
Vokabelsammlungen für Meinungen, Gefühle, etc.
ANEW – Affective Words for English Terms (http://csea.phhp.ufl.edu/media/anewmessa
ge.html)– Valence– Arousal– Dominance
ADUW, POMS,….
LIWC – Linguistic Inquiry and Word Count (http://www.liwc.net/)
– social– posemo– negemo– affect– anx– anger– sad– feel– ….
08.09.12 14Steffen Staab, [email protected]
Vocabulary example: ANEW
ValenceArousal Dominance Freq
Mean SD Mean SD Mean SD Word
rescue 7.70 1.24 6.53 2.56 6.45 2.29 15
gun 3.47 2.48 7.02 1.84 3.53 2.72 118
hopeful 7.10 1.46 5.78 2.09 5.41 1.92 12
ignorance 3.07 2.25 4.39 2.49 4.41 2.38 16
crash 2.31 1.44 6.95 2.44 3.44 2.21 20
confident 7.98 1.29 6.22 2.41 7.68 1.94 16
improve 7.65 1.16 5.69 2.15 6.08 2.25 39
….
08.09.12 15Steffen Staab, [email protected]
Verschiedene Meinungen für ein Thema
Vierter Schritt: Übersicht nach Thema und Meinung
08.09.12 16Steffen Staab, [email protected]
DIVERSITÄT VON MEINUNGEN
Diversität von Themen und Meinungen
Review 1 of 498"A Review for 99% of us"Judging by most of the bad reviews by 12 year old kids, I doubt most of these people even own the new iPhone. so let me give you the real lowdown from …
Review 2 of 498"Hype reloaded reloaded: (still) 25 % quality, 75 % hype" Overexpensive, overhyped phone with nice, cool (and also counter-productive) touch-screen interface to show-off.…
Welche Kommentare soll ich lesen, wenn ich ein zutreffendes Gesamtbild erhalten
möchte?
Beobachtungen zu Produktkommentaren
Initiale Kommentare sind oft lang – und bezahlt (Nicht die Stimme der Nutzer)
Leser stimmen darüber ab, welcher Kommentar hilfreich ist (Rich get richer)
Quantität != Qualität Kürzere Kommentare of objektiver und präziser
Viel redundante Information in den Kommentaren
Ziel: Bestmögliche Abdeckung der verschiedenen Produkteigenschaften und Meinungen
FREuD Analyse und Vorschläge
08.09.12 20Steffen Staab, [email protected]
FREuD Vorschläge
Review: 1Apps dont crash, native apps open quicker, voice controls, video funtionality same cosmetic shape as last years 3G New features such as video and voice control along with the speed boost make the 3GS a great upgrade …
Review : 3I am trying to find out what the pros and cons of this phone are but I haven't been able to because so far everyone here is discussing AT&T , MMS, and tethering. Please people, take it elsewhere and let someone review the darned phone…
Review : 2With the addition of new hardware features Apple has also fractured the once very simple and unified ecosystem that OSX Mobile represented. To exploit new features developers now need to decide if they want to support …
Review : 4The iPhone 3GS is virtually the same as its 3G predecessor. The improvements (3.2 megapixel camera, magnetometer, slightly faster processor) are hardly exciting, and the fact that many of the software …..
08.09.12 21Steffen Staab, [email protected]
LOKALISIERUNG VON THEMEN
34,707 Flickr Bilder mit Geodaten
Chevrolet
BMWAudi
PontiacChevrolet
Mercedes
Audi
CitroenBMW
Chevrolet
BMW
MercedesBMW
Audi
Fiat
Pontiac
CitroenPeugeot
Renault
34,707 Flickr photos containing car brandschevrolet, pontiac, cadillac, gmc, buick, audi, bmw, mercedesbenz, fiat, peugeot, citroen, renault (removed: event-like images tagged by autoshow, show, race, racing)
08.09.12 23Steffen Staab, [email protected]
Gibt es Gebiete in denen Themen dominieren?
Chevrolet
BMWAudi
PontiacChevrolet
Mercedes
Audi
CitroenBMW
Chevrolet
BMW
MercedesBMW
Audi
Fiat
Pontiac
CitroenPeugeot
Renault
citroenrenaultpeugeotbmw
bmwaudimercedesfiatcitroen
chevroletpontiacbmwmercedesaudi
08.09.12 24Steffen Staab, [email protected]
Geographical network construction
Data points Spatial region centroids Geographical network
08.09.12 25Steffen Staab, [email protected]
Visualisation
chevrolet 0.35bmw 0.18cadillac 0.16pontiac 0.09gmc 0.07buick 0.06audi 0.05
bmw 0.29audi 0.18fiat 0.10citroen 0.09renault 0.09peugeot 0.08mercedesbenz 0.06chevrolet 0.05
08.09.12 26Steffen Staab, [email protected]
Visualisation
fiat 0.66bmw 0.10citroen 0.09renault 0.05
pontiac 0.92bmw 0.63mercedesbenz 0.17audi 0.13
renault 0.28citroen 0.22peugeot 0.15bmw 0.10audi 0.09fiat 0.07
08.09.12 27Steffen Staab, [email protected]
Von Information zu Wissen
• Themen in Dokumenten / Web 2.0 erkennen
• Themen verstehen– Meinungen– Diversität– Lokation
• Räumlich• Zeitlich• Sozial
• Beispiele– Nachrichtenkommentare– Produktkommentare– Flickr
08.09.12 28Steffen Staab, [email protected]
Unser Know-How!
Ihre Informationen!
Ihre Einsichten!
VIELEN DANK FÜR IHRE AUFMERKSAMKEIT!
http://robust-project.eu/
http://west.uni-koblenz.de/
08.09.12 29Steffen Staab, [email protected]
Unser Know-How!
Ihre Informationen!
Ihre Einsichten!
Bibliographie
Naveed, Nasir; Gottron, Thomas; Sizov, Sergej; Staab, Steffen (2012): FREuD: Feature-Centric Sentiment Diversification of Online Discussions. In: WebSci'12: Proceedings of the 4th International Conference on Web Science. ACM, 2012.
Sergej Sizov: GeoFolk: latent spatial semantics in web 2.0 social media. Proc. of Conf. on Web Search and Data Mining 2010: 281-290, AAAI.
Nasir Naveed, Sergej Sizov, Steffen Staab: ATTention: Understanding Authors and Topics in Context of Temporal Evolution. European Conference on Information Retrieval 2011: 733-737. Springer, 2011.
Some of the described work is currently being prepared for publication.