twitter verkostoanalyysi: case #cmadfi
DESCRIPTION
TRANSCRIPT
Twitter verkostoanalyysi: case
#cmadfi (osa 1)
inspiraationa Bruns (2011) How long is a
tweet? Mapping dynamic conversation
networks on Twitter using Gawk and Gephi
Hypermedian jatko-opintoseminaari
Informaation visualisointi 2013
Jari Jussila @jjussila
Novi tutkimuskeskus, TTY
Twitteristä
• Mikroblogi, jossa voi lähettää 140 merkin pituisia viestejä
(twiittejä)
– viestit ovat joko täysin julkisia (’globally public by
default’) tai yksityisiä ja vain lähettäjän hyväksymän
seuraajan nähtävissä
• Twitterin käyttäjät kehittäneet mekanismeja, joiden avulla
voidaan viestiä tehokkaammin (viestin pituus)
rajoituksista huolimatta (Halavais & Martin-Elmer, 2009)
– #hashtagit, jotka mahdollistaa etsiä ja seurata niitä twiittejä,
joissa esiintyy kyseinen #hashtagi
– @vastaukset, joiden avulla voidaan lähettää julkisia viestejä
myös niille henkilöille, joita ei itse seuraa
19.4.2013 2
Bruns (2011) tutkimusartikkelissa
esitellään menetelmä ja prosessi,
jonka avulla voidaan
1. kerätä julkista Twitter dataa tiettyihin #hashtageihin
liittyen
2. käsitellä kyseinen data, niin että se mahdollistaa
3. analysoida ja visualisoida sellaisia verkostoja, jotka
rakentuvat Twitter maininnoista (@vastauksista)
käyttäjien välillä – ylipäätään staattisena verkostona, ja ajan myötä, tuodakseen esille
Twitter mainintojen dynaamista rakennetta
19.4.2013 3
Question ‘how long is a tweet’ comes to mean ‘how long does a tweet – or in
the present case, more precisely, an @reply – last?’
Menetelmänä
verkostoanalyysi
• Verkostoanalyysissä tavoitteena on hahmottaa verkostojen
rakennetta ja dynamiikkaa tai esimerkiksi informaation liikettä
verkostoissa.
• Verkostoanalyysin avulla voidaan tehdä havaintoja sekä yksittäisten
toimijoiden rooleista verkostoissa että verkostojen rakenteesta ja
sen muutoksesta.
• Verkostoanalyysin perusyksiköitä ovat solmut (node, vertex, actor tai
agent) ja niiden väliset yhteydet (edge, connection tai relation)
– Case-esimerkissä solmuina ovat henkilöt (Gephi: ”Node”,
NodeXL: ”Vertices”) ja niiden välisiä yhteyksiä edustavat
henkilön mainitseminen ”@vastaukset” (Gephi: ”Edge”, NodeXL:
”Edges”)
19.4.2013 4
Lähde: Huhtamäki & Parviainen 2013
Työkaluja Twitter verkostojen
kartoittamisen (datan kerääminen)
• Twitteristä ’helppo’ kerätä twiittejä, jotka sisältävät joko tietyn
#hashtagin tai tietyn avainsanan ilman ’#’ symbolia
• Suosittu palvelu twiittien keräämiseen on ollut Twapperkeeper
(TK) web-palvelu, nykyisin HootSuite Archives (integroitu
HootSuite dashboardiin)
• Twapperkeeperistä on myös saatavilla open source versio
GitHubista: yourTwapperkeeper (yTK), joka mahdollistaa
datan omatoimisen keräämisen
• Muita työkaluja, mitä ei artikkelissa mainittu mm.
– Twitter Archiving Google Spreadsheet:
http://mashe.hawksey.info/2012/01/twitter-archive-tagsv3/
– NodeXL (Excel lisäosa) import from Twitter Search Network:
http://nodexl.codeplex.com/
19.4.2013 5
yourTwapperkeeperin avulla
saatava data
• text: tweetin sisältö, 140 merkkiä (tai vähemmän)
• to_user_id: tweetin vastaanottajan numeerinen ID (@vastauksille)
• from_user: tweetin lähettäjän nimi
• id: tweetin numeerinen ID
• from_user_id: tweetin lähettäjän numeerinen ID
• iso_language_code: twiitin lähettäjän kielikoodi (esim. en, de, fr, ...) (ei välttämättä twiitin kieli)
• source: työkalun nimi tai URL-osoite jota käytettiin twiittaamiseen (esim. Tweetdeck, ...)
• profile_image_url: twiitin lähettäjän profiilin URL
• geo_type: maantieteellisten kordinaattien muoto
• geo_coordinates_0: maantieteellisten kordinaattien ensimmäinen elementti
• geo_coordinates_1: maantieteellisten kordinaattien toinen elementti
• created_at: tweetin aikaleima luettavassa muodossa
• time: tweetin aikaleima numeerisessa unix muodossa
19.4.2013 6
Artikkelissa käytetty työkalu
datan prosessointiin (Gawk)
• GNU komentorivityökalu, josta saatavilla
myös portattu Windows ja MAC versio
(Gawk, 2011).
19.4.2013 7
Gephi – visualisointityökalu
19.4.2013 8
Gephi (https://gephi.org/) on avoimeen lähdekoodiin perustuva
verkostojen visualisointi- ja analysointiohjelma.
Oma informaation visualisointi
(oppimis)prosessi
19.4.2013 9
TwitterNodeXL NodeXLGraphML Visuaalinen
ja kognitiivinen
prosessointi GraphMLGephi
Fyysinen ympäristö
(sosiaalinen media)
Informaation
kerääminen
Informaatio
Informaation
esikäsittely ja
muuntaminen
Visualisointi-
työkalu
Informaation
käsittely
Informaatiotarpeiden
ymmärtäminen
Mukaillen Ware 2004, lähteestä Huhtamäki 2013
19.4.2013 10
Fyysinen ympäristö (#cmadfi twiitit
Twitter mikroblogissa)
Informaation kerääminen (NodeXL)
19.4.2013 11
19.4.2013 12
Informaation esikäsittely ja
muuntaminen (NodeXL GraphML)
19.4.2013 13
Informaation käsittely Gephi
visualisointityökalun avulla
19.4.2013 14
Gephi kuva 1:
19.4.2013 15
Tolkun tekeminen verkostosta (In-
Degree ja Out-Degree jakaumat)
Keskeisyysaste
• Keskeisyysaste (degree) kertoo, kuinka monta
suoraa yhteyttä toimijalla on muihin toimijoihin.
• Jos verkostoaineisto on suunnattu, kuten
#cmadfi case-esimerkin tapauksessa, voidaan
laskea erikseen solmun vientiluku (outdegree)
”lähettäjäkeskeisyys” ja solmun tuontiluku
(indegree) ”vastaanottajakeskeisyys”.
19.4.2013 16
Lähde: Jussila 2009
Toimijan keskeisyys ja
arvostus
• Tärkeät toimijat ovat laajasti osallisia yhteyksiin
toisten toimijoiden kanssa.
• Toimijan keskeisyydessä ei ole väliä, onko
toimija lähettänyt vai vastaanottanut yhteyden.
• Arvostettuja toimija on sellainen, joka on
useampien yhteyksien vastaanottaja. Toisin
sanottuna arvostettu toimija on sellainen, jolla on
suuri tuontiluku (indegree).
19.4.2013 17
Lähde: Jussila 2009
19.4.2013 18
Informaation käsittely: filtteröinti
esim. indegree perusteella
19.4.2013 19
Gephi kuva 2: keskeisiä toimijoita, indegree ja outdegree > 4
Artikkelin oppeja
• Twitter (#hashtag) informaation kerääminen
(artikkelissa yourTwapperkeeper, case-
esimerkissä NodeXL)
• Twitter informaation esikäsittely ja
muuntaminen (artikkelissa Gawk, case-
esimerkissä NodeXL)
• Twitter informaation käsittely ja visualisointi
Gephillä
– mm. kuinka twiittejä voidaan tarkastella ajan
funktiona
19.4.2013 20
Tutkimuskysymyksiä
• Ketkä ovat keskeisempiä toimijoita
#cmadfi verkostossa?
– eroteltuna live ja online (etänä) CMAD2013
tapahtumaan osallistujien kesken
• Millaista sisältöä vaihdetaan #cmadfi
hashtagilla?
• Miten 1-10-90 sääntö toteutuu #cmadfi
verkostossa?
19.4.2013 21
Lähteitä
• Bruns, A. (2011) How long is a tweet? Mapping dynamic conversation
networks on Twitter using Gawk and Gephi. Information, Communication &
Society.
• Halavais, Alexander, and Helen Martin-Elmer. (2009) “Back@you: Tracing the
diffusion of a conversational convention.” Paper presented at the Association of
Internet Researchers conference, Milwaukee, 10 Oct. 2009.
• Huberman, B., Romero, D., Wu, F. (2008) Social networks that matter: Twitter
under the microscope. Social Computing Laboratory, HP Labs
http://www.hpl.hp.com/research/scl/papers/twitter/
• Huhtamäki, J. 2013. Informaation visualisointi 2013: lyhyt johdanto.
https://docs.google.com/presentation/d/1EVAplXpRrew6cmOX8p5k1icrIPKdb8o
pauEXdmUmNWI/edit?usp=sharing
• Huhtamäki, J., Parviainen, O. 2013. ”Verkostoanalyysi sosiaalisen median
tutkimuksessa”. Laaksonen Salla-Maaria, Matikainen Janne & Tikka Minttu
(Toim.) Otteita verkosta - Verkon ja sosiaalisen median tutkimusmenetelmät.
Osuuskunta Vastapaino.
http://www.vastapaino.fi/vp/index.php?page=shop.product_details&flypage=$fly
page&product_id=424
• Jussila, J. 2009. Centrality and Prestige – Keskeisyys ja arvostus. Hypermedian
jatko-opintoseminaari: Sosiaalisten verkostojen tutkimusmenetelmät 2009.
http://www.slideshare.net/jjussila/keskeisyys-ja-arvostus
19.4.2013 22