web science 29.09.2011

Web Science

3. nodarbība

29.09.2011

Jaunumi

Video

• O’Reilly Strata conference– Data Bootcamp (5 stundas video)

http://shop.oreilly.com/product/0636920018506.do

– Meaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.do

• O’Reilly OSCon – data sessions





Kā gāja ar 500 tweetu savakāšanu

500 tweeti

• Ko izmantoji?

• Kādi rezultāti?

• Kādas problēmas?

• Pārdomas?

Jaunais datu vākšanas uzdevums

twitter streaming api

Streaming APIhttps://dev.twitter.com/docs/streaming-api

https://dev.twitter.com/docs/streaming-api

Uzdevums• izvēlēties vienu no Streaming API

funkcijām:

• datu vākšanai pēc norādītajiem atslēgas vārdiem

• datu vākšanai pēc izvēlētām ģeogrāfiskajām koordinātēm

• savākt 1000 Twitter ziņas

• + analizēt un/vai vizualizēt tās

Idejas vizualizācijai

• Tweeti uz kartes, izmantojot Google maps API, vai kādu citu servisu

"56.570, 24.600", My cool tweet from here, by me"56.967, 23.567", I'm finally here, by you

CSV file:

http://fmatlas.com

http://fmatlas.com/

Python

• Izmantots piemēros ar Web Science saistītos resursos:– “Mining the Social Web”– “Natural Language Processing with NLTK”– O’Reilly Strata conf – “Data Bootcamp”

• Viegli apgūstama valoda– Tīra, viegli lasāma sintakse– Dive Into Python:

http://diveintopython.org/toc/index.html

http://diveintopython.org/toc/index.html

Python

• Plašs bibliotēku atbalsts– NLTK, SciPy, networkx, WebKit– iPython

• Lietojumi apmācībā un darbā– Viena no Google “oficiālajām” valodām– MIT nesen pārgāja uz Python progrmmēšanas

apmācībai bakalauru kursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/

http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/

http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/

Valodas izvēle

• Python lietojumam ir dažas priekšrocības:– mēs varam palīdzēt darbā ar Python– tajā ir rakstīti “Mining the Social Web” piemēri

• Var lietot vairākas valodas / servisus– vienu – datu vākšanai– citu – datu apstrādei vai vizualizācijai

• Katras grupas ziņā

Grupas? Projekti?

NLP prezentācija

Web Scienceun dabīgā valoda?

Datu veidi

• Nestrukturēti vai formāli vāji strukturēti dati– HTML lapas (prezentācija vs. semantika)– teksts, attēli, video u.c.

• Struktrēti dati– RDB tīmekļa serviss– RDF/SPARQL end-points

• DBpedia, Freebase, GeoNames, OpenCyc, ...• Linked Data un LOD Community

• Sociālie tīkli– Twitter struktūra– Facebook sociālais grafs un Open Graph protokols– ...

Datu apstrāde

• Priekšapstrāde

• Dabīgās valodas apstrāde

• Datu “bagātināšana” (metadati, linked data)

• Analīze, vizualizācija, ...

Priekšapstrāde

• Formāti, rakstzīmju kodējumi, valodas noteikšana

• Potenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)

• Tvītu un komentāru normalizācija– “Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)

• Kas ir vārds?

• Identitāšu anonimizācija (MD5)

• ...

Uzdevums

• Kad zināma datu kopa jau ir savākta...

• Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”

• (Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaits

• Novērojumi, secinājumi?

Mājas darbi

• streaming API

• NLP (dabīgās valodas apstrāde)

Nākošreiz

• Mēs stāstām par vienu no WebSci konferencēm (grupām vajadzēs līdzīgi)

• Kaut kad atnāks no Twitter analīzes startup pastāstīt ko dara.

Atgādinājums par mājas darbiem

Deadline: Oct 6th 4am

web science 29.09.2011

Education

shop

http

oreilly