Download - Universālas metodes twitter datu analīzei
Universālas metodes
Twitter datu analīzei
Autors: Matīss Rikters
Vadītājs: Dr. dat. Uldis Bojārs
Darba mērķis
• Izpētīt, kā tiek analizēti un kā vēl varētu
analizēt Twitter ziņu datus
• Atrastās metodes apkopot un pielietot
universāla Twitter datu analīzes rīka
izstrādē
Problēmas apraksts
• Twitter ir vērtīgs datu avots
• Nav viegli pieejama un ērti lietojama veida,
kā reālā laikā vākt un analizēt tvītus
Sociālais tīmeklis
Mikroblogošanas tīkls
Īsas, koncentrētas ziņas
Plašas API iespējas
Milzīgs skaits lietotāju un satura
Viens no populārākajiem sociālajiem tīkliem
Darba uzdevumi
• Salīdzināt esošos Twitter analīzes rīkus
• Izstrādāt pilotprojektu
• Apkopot atrastās un izdomātās metodes
Twitter ziņu apstrādei
• Izstrādāt universālu Twitter datu
analīzes rīku
Twitter datu analīzes rīku
salīdzinājums • Cena
• Vide
• Vai ir atvērtā pirmkoda risinājums
• Vai ievāc reālā laika datus
• Vai ir iespēja eksportēt datus
• Analīzes metodes
• Tipiskais pielietojums
• Priekšrocības
• Trūkumi
Twitter datu analīzes rīki
The Archivist Kritērijs Vērtība
Cena Bezmaksas
Vide Pieejama gan tīmekļa programmas versija, gan Windows versija.
Atvērtā pirmkoda risinājums Nē
Spēja vākt reālā laika datus Nē
Iespēja eksportēt datus Jā (tikai Windows versijā)
Analīzes metodes Windows versijā grafiski attēlo ziņu skaitu laika gaitā un aktīvākos lietotājus.
Tīmekļa versijā ziņas izanalizē plašāk, tajā skaitā arī nedaudz no paša ziņas teksta.
Arhīvu iespējams saglabāt kā XML vai teksta failu.
Tipiskais pielietojums Statistikas izpēte
Priekšrocības Dažu sekunžu laikā uzkrāj un izanalizē pēdējā laika tvītus par ievadītajiem
atslēgvārdiem.
Attēlo rezultātus sešos (tīmekļa versijā) vai divos (Windows versijā) pārskatāmos
grafikos.
Trūkumi Windows versijā attēlo ļoti maz rezultātus.
Tīmekļa versija analizē samērā maz no ziņas teksta – tikai populārākos vārdus.
Windows versija vispār neanalizē pašu tekstu.
The Archivist
Row Feeder Kritērijs Vērtība
Cena Pamata versija pieejama bez maksas, PRO versija - sākot no $35 mēnesī.
Vide Tīmekļa programmatūra
Atvērtā pirmkoda risinājums Nē
Spēja vākt reālā laika datus Jā
Iespēja eksportēt datus Jā
Analīzes metodes Tvītu skaita laika gaitā attēlošana.
Sarunu analīze starp tvītotjiem.
Atrašanās vietas analīze.
Vairāku atslēgvārdu salīdzināšana.
Ietekmes analīze (ar datiem no Klout)
Tipiskais pielietojums Statistikas izpēte / Biznesa izpēte
Priekšrocības Piedāvā atskaites saglabāt kā Excel dokumentus.
Bezmaksas ievācamo tvītu skaitu iespējams papildināt, piesaistot citus
lietotājus.
Trūkumi Bezmaksas versijā ļauj ievākt tikai 500 ziņas mēnesī un tikai pēc viena
atslēgvārda.
Atskaites pieejamas tikai Excel dokumentu formā un nekā citādi.
Row Feeder
TwitĒdiens
Twitter ziņu apstrādes process
• Datu vākšana
• Datu priekšapstrāde
• Twitter ziņas analīze
Datu vākšana
• Twitter API
– Streaming API
– Search API
– Rest API
Datu priekšapstrāde
• Teksta attīrīšana
• Morfoloģiskā analīze
• Tokenizācija
• Twitter ziņas temata noteikšana
Twitter ziņas analīze
• Metadati
• Vārdi un kolokācijas
• Atslēgvārdu efektivitāte
• Emotikoni
Universāls Twitter datu analīzes rīks
GitHub – http://ej.uz/riks-github
Testēšanai – www.twitediens.tk/tool
Universāls Twitter datu analīzes rīks
Datu analīze
Atrašanās vietas
Birkas
Pieminētie lietotāji
StatistikaEmotikoni
WWW saites
Kalendārs
TOP lietotāji
Datu vākšana
Ar Streaming API Datu bāzes ielāde no faila
Datu priekšapstrāde
Teksta attīrīšana
Teksta tokenizācija
Universāls Twitter datu analīzes rīks
Kritērijs Vērtība
Cena Bezmaksas
Vide Tīmekļa programmatūra
Atvērtā pirmkoda risinājums Jā
Spēja vākt reālā laika datus Jā
Analīzes metodes Attēlo tvītu skaita izmaiņu laika gaitā
Tipiskais pielietojums Statistikas izpēte / Biznesa izpēte
Priekšrocības Piedāvā eksportēt ievāktos datus uz .csv
dokumentu.
Piedāvā diezgan plašu skatījumu uz datiem.
Trūkumi Pie milzīgiem datu apjomiem patērē daudz
servera resursu.
Universāls Twitter datu analīzes rīks
Secinājumi
• Sasniegts darba sākumā izvirzītais mērķis
• Apskatīts sociālais tīmeklis un izpētīts
sociālais tīkls Twitter
• Apgūtas Twitter datu analīzes iespējas,
salīdzinot dažādus rīkus un izstrādājot
pilotprojektu
• Izveidots universāls Twitter datu
analīzes rīks
Paldies par uzmanību! Tvītojiet daudz, lai ir ko analizēt ;)
www.twitediens.tk http://ej.uz/riks-github
TweetReach Kritērijs Vērtība
Cena Pamata versija pieejama bez maksas, PRO versija sākot no $84 mēnesī
Vide Tīmekļa programmatūra
Atvērtā pirmkoda risinājums Nē
Spēja vākt reālā laika datus Jā (PRO versijā)
Iespēja eksportēt datus Jā
Analīzes metodes Uzskaita iespējamo ziņas ekspozīciju skaitu, kā arī lietotājus ar lielāko
ietekmi par tēmu, visvairāk pārpublicētās ziņas
Attēlo tvītu skaita izmaiņu laika gaitā
Tipiskais pielietojums Statistikas izpēte / Biznesa izpēte
Priekšrocības Piedāvā atskaites saglabāt kā Excel vai PDF dokumentus.
Par nelielu samaksu piedāvā arī bezmaksas (ne PRO) lietotājiem
saglabāt pilna izmēra atskaiti – līdz 1500 ziņām.
Trūkumi Bezmaksas versijā apskata tikai 50 jaunākās ziņas.
Lai vāktu reālā laika datus, arī jāmaksā.
ThinkUp Kritērijs Vērtība
Cena Bezmaksas
Vide Tīmekļa programmatūra
Atvērtā pirmkoda risinājums Jā
Spēja vākt reālā laika datus Nē
Iespēja eksportēt datus Jā
Analīzes metodes Analizē lietotāja aktivitāti sociālajos tīklos un attēlo to
grafikos.
Spēj attēlot citu lietotāju atbildes uz ziņām kartē.
Ļauj meklēt tvītos un eksportēt tos kā .csv failu.
Tipiskais pielietojums Personīgā konta pārskats
Priekšrocības Sākuma skatā jeb darbvirsmā (Dashboard) ērti pārskatāmas
svarīgākās pēdējā laika aktivitātes.
Spēj analizēt ne vien Twitter, bet arī Facebook un Google+.
Trūkumi Analizē tikai autentificētā lietotāja datus.
Twitter ziņas tekstu sīkāk neanalizē, vienīgi atpazīst, kuras
ziņas bijušas jautājumi.
IBM BigSheets Kritērijs Vērtība
Cena Pamata versija pieejama bez maksas
Vide Tīmekļa programmatūra (nepieciešama vai nu Red Hat Enterprise Linux vai
SUSE Linux Enterprise Server servera operētājsistēma)
Atvērtā pirmkoda risinājums Nē
Spēja vākt reālā laika datus Jā
Iespēja eksportēt datus Jā
Analīzes metodes Piedāvā pievienot spraudņus, kas spēj analizēt valodu, tajā skaitā –
sentimentu.
Kopā ar IBM Many Eyes vai kādu citu spraudni izveido datiem dažādas
vizualizācijas, kā, piemēram, birku mākoni.
Tipiskais pielietojums Biznesa izpēte
Priekšrocības Kopā ar spraudņiem ļoti plašas un spēcīgas iespējas.
Spēj tikt galā ar ļoti lieliem datu daudzumiem.
Spēj ložņāt arī pa tīmekļa lapām vai ielādēt analizējamos datus no datora.
Trūkumi Diezgan sarežģīti uzstādīt.
Samērā neērta lietošana - ar datiem jādarbojas kā ar izklājlapām.