michał stefanów - msc final presentation
DESCRIPTION
http://nekatwork.blogspot.com/search/label/master%20thesisTRANSCRIPT
Zmiana sposobu myślenia
Ogromne ilości danych(konieczność wymusiła powstanie serwisów agregujących treści)
Rozwój urządzeń mobilnych(posiadam w domu 8 nieużywanych/zepsutych telefonów komórkowych)
Nowe kanały komunikacji
Krótkie wiadomości
Ekstrakcja informacji• Sposób publikacji (WWW, API, SMS)
• Miejsce publikacji (geolokalizacja)
• Użycie tagów „#” (podkreślenie ważności)
• Zawartość linków, słów kluczowych w linkach, występowanie linków
• Aktualne tematy, tzw. trending topics
• Lista osób obserwowanych i obserwujących dany profil
• Użycie polskich znaków (dbałość o szczegóły)
Content is the king(mechaniczna klasyfikacja tekstu)
Analiza tweetu• Wypowiedź jest dzielona na wyrazy.
• Następuje usunięcie polskich znaków diakrytycznych.
• Usunięte zostają wyrazy jednoliterowe.
• Wyrazy zostają doprowadzone do formy podstawowej.
• Następuje porównanie do predefiniowanej listy wyrazów.
• Występowanie takie wyrazu klasyfikuje tweet.
Przygotowanie listy wyrazów
badbandytablotobłędniebolbulicchorydowndurnyidiotainsomniajajcojebanykatkiepskoleniwymartwicanadziacnajgorzejnudaoskarzenieoskarzycoszalećpascpieprzycpokraczniepokrecic
polknacpopełnićprzestraszycsamotnoscsłabosmutnysorryszkodatragicznieuciekacunikacupsurazuwalicwinicwymuszacwywaliczakazićzalamaczalamaniezarazazbytnizlamaczlyznienawidzicźle
Negatywne
całowaćciekawydobradobrydziękowaćdziękujęfajnyhahahahahahahahahahahahahahahakochaćkochanalepszylolalubićlubyładnymiłośćmniamnajlepszynajmilszypasjapięknypocałowaćpodobać
Pozytywne
sexysłodkispokosuperszczęśliwyśpiewaćświetnyuczucieuczućulubićuprzejmośćuwielbiaćwielkiwowzajebistyzakochaćtalentkoncertplażarelakspowerskarbmniamwowpasjanajpiekniejszyopalac
Ograniczenia Trudności Problemy• Głębokość czasowa poszukiwań
• W Polsce niewiele osób korzysta z Twittera
• Konieczność wyboru gorącego tematu
• Limit wywołań funkcji API
• Gromadzenie danych
• Pamięć operacyjna
• Naiwność metody
Obserwacje• Użytkownicy nie piszą wprost o emocjach.
• Użytkownicy często posługują się ironią i sarkazmem.
• Krótkie wypowiedzi analizowane pojedynczo są oderwane od kontekstu.
• Stosunkowo niewielka ilość tweetów została sklasyfikowana.
• Konieczne są dalsze prace w tym temacie
• Sektor usług mobilnych z pewnością będzie się rozwijać (trendy UK)
(na początku chciałem zmienić świat, czas pokazał że to nie jest proste)
Istniejące narzędzia(w momencie zabierania się do pracy ponad połowa z nich jeszcze nie istaniała)
Kampania wyborcza(W USA Barrack Obama w trakcie kampanii wyborczej bardzo aktywnie korzystał z Twittera)
Powtórzenie eksperymentu• Stworzenie listy słów kluczowych (Kaczyński, Komorowski, prezydent)
• Znalezienie tweetów na podstawie listy
• Zbieranie danych z określonym okresie czasu
• Odfiltrowanie niechcianych wyników (obcojęzyczne, bez tekstu)
• Stworzenie listy słów pozytywnych i negatywnych
Przewidywanie wyników
DziękujeMichał Stefanów