web science 29.09.2011

24
Web Science 3. nodarbība 29.09.2011

Upload: uldis-bojars

Post on 01-Nov-2014

903 views

Category:

Education


1 download

DESCRIPTION

Web Science - Day 3. A seminar at the University of Latvia.

TRANSCRIPT

Page 1: Web Science 29.09.2011

Web Science

3. nodarbība

29.09.2011

Page 2: Web Science 29.09.2011

Jaunumi

Page 3: Web Science 29.09.2011

Video

• O’Reilly Strata conference– Data Bootcamp (5 stundas video)

http://shop.oreilly.com/product/0636920018506.do

– Meaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.do

• O’Reilly OSCon – data sessions

Page 4: Web Science 29.09.2011

Kā gāja ar 500 tweetu savakāšanu

Page 5: Web Science 29.09.2011

500 tweeti

• Ko izmantoji?

• Kādi rezultāti?

• Kādas problēmas?

• Pārdomas?

Page 6: Web Science 29.09.2011

Jaunais datu vākšanas uzdevums

twitter streaming api

Page 7: Web Science 29.09.2011

Streaming APIhttps://dev.twitter.com/docs/streaming-api

Page 8: Web Science 29.09.2011

Uzdevums• izvēlēties vienu no Streaming API

funkcijām:

• datu vākšanai pēc norādītajiem atslēgas vārdiem

• datu vākšanai pēc izvēlētām ģeogrāfiskajām koordinātēm

• savākt 1000 Twitter ziņas

• + analizēt un/vai vizualizēt tās

Page 9: Web Science 29.09.2011

Idejas vizualizācijai

• Tweeti uz kartes, izmantojot Google maps API, vai kādu citu servisu

Page 10: Web Science 29.09.2011

"56.570, 24.600", My cool tweet from here, by me"56.967, 23.567", I'm finally here, by you

CSV file:

http://fmatlas.com

Page 11: Web Science 29.09.2011

Python

• Izmantots piemēros ar Web Science saistītos resursos:– “Mining the Social Web”– “Natural Language Processing with NLTK”– O’Reilly Strata conf – “Data Bootcamp”

• Viegli apgūstama valoda– Tīra, viegli lasāma sintakse– Dive Into Python:

http://diveintopython.org/toc/index.html

Page 12: Web Science 29.09.2011

Python

• Plašs bibliotēku atbalsts– NLTK, SciPy, networkx, WebKit– iPython

• Lietojumi apmācībā un darbā– Viena no Google “oficiālajām” valodām– MIT nesen pārgāja uz Python progrmmēšanas

apmācībai bakalauru kursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/

Page 13: Web Science 29.09.2011

Valodas izvēle

• Python lietojumam ir dažas priekšrocības:– mēs varam palīdzēt darbā ar Python– tajā ir rakstīti “Mining the Social Web” piemēri

• Var lietot vairākas valodas / servisus– vienu – datu vākšanai– citu – datu apstrādei vai vizualizācijai

• Katras grupas ziņā

Page 14: Web Science 29.09.2011

Grupas? Projekti?

Page 15: Web Science 29.09.2011

NLP prezentācija

Page 16: Web Science 29.09.2011

Web Scienceun dabīgā valoda?

Page 17: Web Science 29.09.2011

Datu veidi

• Nestrukturēti vai formāli vāji strukturēti dati– HTML lapas (prezentācija vs. semantika)– teksts, attēli, video u.c.

• Struktrēti dati– RDB tīmekļa serviss– RDF/SPARQL end-points

• DBpedia, Freebase, GeoNames, OpenCyc, ...• Linked Data un LOD Community

• Sociālie tīkli– Twitter struktūra– Facebook sociālais grafs un Open Graph protokols– ...

Page 18: Web Science 29.09.2011

Datu apstrāde

• Priekšapstrāde

• Dabīgās valodas apstrāde

• Datu “bagātināšana” (metadati, linked data)

• Analīze, vizualizācija, ...

Page 19: Web Science 29.09.2011

Priekšapstrāde

• Formāti, rakstzīmju kodējumi, valodas noteikšana

• Potenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)

• Tvītu un komentāru normalizācija– “Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)

• Kas ir vārds?

• Identitāšu anonimizācija (MD5)

• ...

Page 20: Web Science 29.09.2011

Uzdevums

• Kad zināma datu kopa jau ir savākta...

• Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”

• (Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaits

• Novērojumi, secinājumi?

Page 21: Web Science 29.09.2011

Mājas darbi

• streaming API

• NLP (dabīgās valodas apstrāde)

Page 22: Web Science 29.09.2011

Nākošreiz

Page 23: Web Science 29.09.2011

• Mēs stāstām par vienu no WebSci konferencēm (grupām vajadzēs līdzīgi)

• Kaut kad atnāks no Twitter analīzes startup pastāstīt ko dara.

Page 24: Web Science 29.09.2011

Atgādinājums par mājas darbiem

Deadline: Oct 6th 4am