#moca 12 - #fail - was beim monitoring regelmäßig schief läuft
DESCRIPTION
Vortrag auf dem Monitoringcamp 2012 in Hamburg am 09.11.2012TRANSCRIPT
Patrick Bunk Gründer twitter.com/uberMetrics Tel: 030-609857500 facebook.com/uberMetrics [email protected]
#Fail - Was beim Monitoring verlässlich schief geht &
wo noch Hoffnung besteht
uberUns
§ Spin-Off der Humboldt-Universität zu Berlin § 15 Mitarbeiter (11 Entwickler 4 Rest) § Kernkompetenzen:
§ Entwicklung hochskalierbarer Text-Mining-Plattform § Entwicklung von Algorithmen zur automatischen
Strukturierung von Nachrichten
uberMetrics Technologies GmbH, Rosenthaler Str. 34/35, 10178 Berlin, [email protected], +49 30 609857500, Twitter: @ubermetrics
#Fail/Sources/" Warum findet ihr das nicht?
§ Social Networks (Facebook, G+, Ning, XING, LinkedIn) § Blogs (Blogger, LiveJournal, Wordpress, etc) § Microblogs (Twitter, Tumblr) § Foren (4chan, gulli.com, reddit, xda-developers) § Verbraucherportale (dooyoo, ciao, qype, gutefrage) § Video (youtube, vimeo, sevenload, clipfish) § Foto (flickr, 500px, photobucket, SmugMug) § News (SpiegelOnline, Bild.de, Heise) § Obskure selbstgeschrieben HTML-Monster und das
Nachrichten-Konzept (DavidGegenGoliath)
Abdeckung fixen?
§ neue Quellen entdecken http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki
§ bekannte & relevante Quellen hinzufügen § keywordunabhängig Quellen monitoren?
§ Facebook Fanpages, Twitter Accounts, wichtige Blogs § RSS-Feeds § API-Integration (z.B. Tumblr, Google+, Pinterest) § Crawler schreiben
§ Achtung: TOS, Logins und robots.txt http://www.nytimes.com/robots.txt
http://tagesschau.de/robots.txt
Volumen
§ Associated Press 1/Minute § Forenposts 5.560/Minute § Blogeinträge 45.800/Minute § Tweets 277.777/Minute § Facebook Posts 694.400/Minute
#Fail/Filter - Volumen"sinnvolle Filter definieren!
§ Keywords und Top Keywords
#Fail/Textextraction/Scope"Warum ist das ein Treffer?"
Textextraction
#Fail/Textextraction/SEOSpam"
#Fail/Textextraction/News"Spaß mit Google News
"Keywords, Textextraktion, TopKeywords"
#Fail/Filter - Volumen"sinnvolle Filter definieren!
§ Keywords und Top Keywords § Sprachen, Länder, Geolocation
#Fail/Filter/Sprachen
Länder & Geolocation
#Fail/Filter - Volumen"sinnvolle Filter definieren!
§ Keywords und Top Keywords § Sprachen, Länder, Geolocation § Medienkanäle
#Fail/Filter/Segmentation"
#Fail/Filter - Volumen"sinnvolle Filter definieren!
§ Keywords und Top Keywords § Sprachen, Länder, Geolocation § Medienkanäle § #Fail/Filter/Sentiment § Relevanz-Filter
#Fail/Filter/Winning/10k+"
§ Was mache ich mit 10.000 Treffern im Monat? § Variante 1 – 500 Posts/Tag klassifizieren
§ Variante 1a – jemanden dafür bezahlen § Variante 2 – nur “relevante” Posts lesen
§ Variante 2a – nur relevante Texte lesen (Relevance Score)
§ Variante 2b – nur relevante Domains (PI, definiertes Set)
§ Variante 2c – Author als Filter (Blog, Follower, etc)
§ Variante 2d – Backlinks (Fail/SEO,ContentOnly-Backlinks)
#Fail/Filter/Winning/10k+"
#Fail/Filter - Volumen"sinnvolle Filter definieren!
§ Keywords und Top Keywords § Sprachen , Länder, Geolocation § Medienkanäle § #Fail/Filter/Sentiment § Relevanz § Domains (Besucher/Monat, PI) § Autoren § Netzwerk-Struktur § (Teil)-Duplikate
#Fail/Filter/Syndication""
Was sind eigentlich Duplikate"& wie sollen wir damit umgehen?"
"Ein Beispiel"
Qualitäten der Filter"Duplikate"
Slideshare.net/ubermetrics