web science 29.09.2011
DESCRIPTION
Web Science - Day 3. A seminar at the University of Latvia.TRANSCRIPT
Web Science
3. nodarbība
29.09.2011
Jaunumi
Video
• O’Reilly Strata conference– Data Bootcamp (5 stundas video)
http://shop.oreilly.com/product/0636920018506.do
– Meaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.do
• O’Reilly OSCon – data sessions
Kā gāja ar 500 tweetu savakāšanu
500 tweeti
• Ko izmantoji?
• Kādi rezultāti?
• Kādas problēmas?
• Pārdomas?
Jaunais datu vākšanas uzdevums
twitter streaming api
Streaming APIhttps://dev.twitter.com/docs/streaming-api
Uzdevums• izvēlēties vienu no Streaming API
funkcijām:
• datu vākšanai pēc norādītajiem atslēgas vārdiem
• datu vākšanai pēc izvēlētām ģeogrāfiskajām koordinātēm
• savākt 1000 Twitter ziņas
• + analizēt un/vai vizualizēt tās
Idejas vizualizācijai
• Tweeti uz kartes, izmantojot Google maps API, vai kādu citu servisu
"56.570, 24.600", My cool tweet from here, by me"56.967, 23.567", I'm finally here, by you
CSV file:
http://fmatlas.com
Python
• Izmantots piemēros ar Web Science saistītos resursos:– “Mining the Social Web”– “Natural Language Processing with NLTK”– O’Reilly Strata conf – “Data Bootcamp”
• Viegli apgūstama valoda– Tīra, viegli lasāma sintakse– Dive Into Python:
http://diveintopython.org/toc/index.html
Python
• Plašs bibliotēku atbalsts– NLTK, SciPy, networkx, WebKit– iPython
• Lietojumi apmācībā un darbā– Viena no Google “oficiālajām” valodām– MIT nesen pārgāja uz Python progrmmēšanas
apmācībai bakalauru kursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/
Valodas izvēle
• Python lietojumam ir dažas priekšrocības:– mēs varam palīdzēt darbā ar Python– tajā ir rakstīti “Mining the Social Web” piemēri
• Var lietot vairākas valodas / servisus– vienu – datu vākšanai– citu – datu apstrādei vai vizualizācijai
• Katras grupas ziņā
Grupas? Projekti?
NLP prezentācija
Web Scienceun dabīgā valoda?
Datu veidi
• Nestrukturēti vai formāli vāji strukturēti dati– HTML lapas (prezentācija vs. semantika)– teksts, attēli, video u.c.
• Struktrēti dati– RDB tīmekļa serviss– RDF/SPARQL end-points
• DBpedia, Freebase, GeoNames, OpenCyc, ...• Linked Data un LOD Community
• Sociālie tīkli– Twitter struktūra– Facebook sociālais grafs un Open Graph protokols– ...
Datu apstrāde
• Priekšapstrāde
• Dabīgās valodas apstrāde
• Datu “bagātināšana” (metadati, linked data)
• Analīze, vizualizācija, ...
Priekšapstrāde
• Formāti, rakstzīmju kodējumi, valodas noteikšana
• Potenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)
• Tvītu un komentāru normalizācija– “Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)
• Kas ir vārds?
• Identitāšu anonimizācija (MD5)
• ...
Uzdevums
• Kad zināma datu kopa jau ir savākta...
• Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”
• (Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaits
• Novērojumi, secinājumi?
Mājas darbi
• streaming API
• NLP (dabīgās valodas apstrāde)
Nākošreiz
• Mēs stāstām par vienu no WebSci konferencēm (grupām vajadzēs līdzīgi)
• Kaut kad atnāks no Twitter analīzes startup pastāstīt ko dara.
Atgādinājums par mājas darbiem
Deadline: Oct 6th 4am