corso web 2.0: trovare l'informazione
DESCRIPTION
Lezione 16 del corso sul Web 2.0 tenuto all'Università di Milano Bicocca. Vedi anche www.corsoweb20polillo.blogspot.comTRANSCRIPT
Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e Comunicazione
Lezione 16TROVARE L’INFORMAZIONE
Corso Web 2.02 Roberto Polillo
1R.Polillo – Corso Web 2.0 (dic 2008)
La rete, oggi
Google conta un triliardo di URL unicihttp://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html
Come trovare informazioni che mi interessano?
La figura mostra una parte delle reti di classe C connesse a Internet nel 2004 (ogni nodo corrisponde a un IP address)
Da: http://commons.wikimedia.org/wiki/Image:Internet_map_1024.jpg 2
Quattro modalità principali
1. Mediante servizi di directoryconsulto indici strutturati (tassonomie) di argomenti
2. Mediante strumenti di ricercadico che cosa mi interessa (query), e il motore di ricerca esamina la rete “al volo” (o “quasi”) e mi segnala le informazioni che ritiene pertinenti
3. Mediante servizi di feed dico che cosa mi interessa e ricevo automaticamente le informazione appena vengono pubblicate in rete (sorta di “abbonamenti all’informazione”)
4. Mediante esplorazione (browsing)navigo nella rete seguendo i link, sperando di trovare cose interessanti (“serendipity “)
3R.Polillo – Corso Web 2.0 (dic 2008)
1. DIRECTORIES
4R.Polillo – Corso Web 2.0 (dic 2008)
Tassonomia
Quando vogliamo “fare ordine” in una moltitudine di cose (per esempio per poter ritrovare quello che cerchiamo), le disponiamo secondo qualche criterio
In sostanza, raggruppiamo in classi elementi che hanno proprietà comuni: tassonomia (da taxis=ordine, nomos=regola)
Spesso l’ordinamento è di tipo gerarchico, “ad albero” (es.: la classificazione degli esseri viventi di Linneo
5R.Polillo – Corso Web 2.0 (dic 2008)
Classificazione gerarchica: esempio
6R.Polillo – Corso Web 2.0 (dic 2008)
7
Esempio 1: Emporio celeste dei riconoscimenti benevoli
(enciclopedia cinese, J.L.Borges, 1973)
Gli animali si dividono in:
a) Appartenenti all’imperatore
b) Imbalsamati
c) Ammaestrati
d) Lattonzoli
e) Sirene
f) Favolosi
g) Cani randagi
h) Inclusi in questa classificazione
i) Che si agitano come pazzi
j) Innumerevoli
k) Disegnati con un pennello finissimo di peli di cammello
l) Eccetera
m)Che hanno ritto il vaso
n) Che da lontano sembrano mosche.9R.Polillo – Corso Web 2.0 (dic 2008)
Esempio 3: YouTube
13R.Polillo – Corso Web 2.0 (dic 2008)
Agosto 2008
Novembre 2007
Web directories
Storicamente, il primo strumento di ausilio alle ricerche nel web
Dalla “Jerry's Guide to the World Wide Web“, nel 1994 è nato Yahoo!
Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata da redattori
Oggi, directories “generaliste” (Google, Yahoo!) e directories verticali o di nicchia (la coda lunga…)
Sono moltissime, quindi ci sono anche directories di directories (con eventuale ranking), es. http://www.directorylist.org/
http://en.wikipedia.org/wiki/Web_directory
14R.Polillo – Corso Web 2.0 (dic 2008)
Alcune directories generaliste
The Open Directory Project (ODP)
- Nota anche come DMOZ (Directory Mozilla)
- Directory gratuita, aperta e multilingua, posseduta da Netscape (dal 1998) e manutenuta da una comunità di editor volontari- http://www.dmoz.org/- http://en.wikipedia.org/wiki/Open_Directory_Project
Yahoo!Directory
- http://dir.yahoo.com/
Google Directory- Voci tratte da ODP e riposizionate tramite PageRank e altri algoritmi (vedi http://www.google.com/intl/it/dirhelp.html)- http://www.google.com/dirhp?hl=en
16R.Polillo – Corso Web 2.0 (dic 2008)
2. RICERCA
19R.Polillo – Corso Web 2.0 (dic 2008)
Ricerca
Molti metodi principali:
1.Ricerca sulla base di parole chiave associate all’informazione (per es. un video, una fotografia, un post di un blog,…)
2.Ricerca con analisi “intelligente” dell’informazione (per es. una pagina web): motori di ricerca
3.Ricerca con entrambi i metodi
20R.Polillo – Corso Web 2.0 (dic 2008)
2.1 Ricerca con parole chiave
Chi definisce le parole chiave? I contenuti in rete non nascono da un processo
ordinato, che segua una tassonomia condivisa Sono tantissimi e crescono nel tempo Se i singoli siti del web 1.0 potevano considerarsi
relativamente “ordinati” (se progettati da bravi architetti dell’informazione), gli UCG del web 2.0 nascono in modo totalmente bottom-up
21R.Polillo – Corso Web 2.0 (dic 2008)
Soluzione 1: tagging
Chi crea l’informazione le associa una o più parole chiave (etichette, tags) scelte liberamente, che a suo parere, la descrivono
Esempio:
Tags: mare barche spiaggia italia vacanze 2007
• Soluzione poco costosa, ma che riflette solo il punto di vista personale (parziale) del creatore
22R.Polillo – Corso Web 2.0 (dic 2008)
Soluzione 2: social tagging
I tags vengono associati non solo da chi crea l’informazione, ma anche da coloro che la usano
Altri termini usati: Folksonomy = folk + taxonomy
(termine proposto da Thomas Vander Wal) infatti è un processo bottom-up, quindi diverso da una tassonomia (che nasce top-down)
tagging cooperativo sistema di classificazione distribuita
Soluzione poco costosa, che, col tempo, si affina e fa emergere la visione collettiva degli utenti dell’informa-zione
23R.Polillo – Corso Web 2.0 (dic 2008)
Soluzione 3: taxonomy + folksonomy
Si pre-definiscono alcune grandi categorie di base, in modo top-down, e si affina la classificazione in modo bottom-up, con tagging cooperativo.
Esempi: YouTube usa tagging e tassonomia Flickr usa tagging e social tagging (su autorizzazione
dell’uploader o nei gruppi - discussione in: http://www.flickr.com/help/forum/5383/?search=social+tagging)
Slideshare usa tagging (anche geo-tagging)
24R.Polillo – Corso Web 2.0 (dic 2008)
Analisi cognitiva del tagging (Rashmi Sinha)
Gli associo possibili
categorie
Scelgo le categorie più
adatte
Paralisi decisionale (°)
PROCESSO DI CATEGORIZZAZIONE (TASSONOMIA):
Considero l’oggetto da classificare
Considero l’oggetto da classificare
PROCESSO DI TAGGING:
Gli associo possibili categorie Non è necessario
scegliere
(°) In particolare nel digital world: categorie non ancora consolidate, le conseguenze di scelte sbagliate possono essere gravi: non trovo più i dati
http://rashmisinha.com/2005/09/27/a-cognitive-analysis-of-tagging/#more-112 )25R.Polillo – Corso Web 2.0 (dic 2008)
Tagging
http://www.slideshare.net/vanderwal/tagging-to-folksonomy 27R.Polillo – Corso Web 2.0 (dic 2008)
Social Tagging
28R.Polillo – Corso Web 2.0 (dic 2008)
Social tagging: distribuzione dei tag
Coda lunga
http://www.slideshare.net/vanderwal/tagging-to-folksonomy31R.Polillo – Corso Web 2.0 (dic 2008)
Tag cloud
Rappresentazione visiva dei tag usati in un sito web, raccolti “a nuvola”
I tag sono rappresentati con un corpo proporzionale alla loro importanza
“Importanza” = frequenza dell’uso del tag per taggare elementi oppure frequenza dell’accesso a elementi con quel tag
La lista è normalmente presentata in ordine alfabetico oppure in ordine di importanza del tag
http://it.wikipedia.org/wiki/Tag_cloud
32R.Polillo – Corso Web 2.0 (dic 2008)
Esempio
Tag cloud di flickr:http://www.flickr.com/photos/tags/
Word cloud delle parole in un testo:http://tagcrowd.com/
33R.Polillo – Corso Web 2.0 (dic 2008)
Geo-localizzazione
Significa associare a un oggetto (testo, immagine, video, blog post …) metadati di carattere geografico, per poi mostrarne la posizione su una cartina
Può essere intesa come una applicazione particolare del tagging (“geo-tagging”, http://en.wikipedia.org/wiki/Geotagging)
Esempi:http://flickr.com/photos/37385373@N00/161862482/http://81nassau.com/apnews/
34R.Polillo – Corso Web 2.0 (dic 2008)
delicious
Video: Social bookmarking in plain English (3’25”)http://it.youtube.com/watch?v=x66lV7GOcNU
(da Commoncraft, http://it.youtube.com/user/leelefever )
38R.Polillo – Corso Web 2.0 (dic 2008)
Un approccio diverso
Cronologia web di Google: storia, statistiche, segmentazioni, bookmarks
delle ricerche effettuate dall’utente http://www.google.com/history
44R.Polillo – Corso Web 2.0 (dic 2008)
Motori di ricerca: storia
Primi motori: Archie 1990 (ftp con query a linea di comando), poi Veronica 1993 con Gopher. Ricerche solo sul titolo dei documenti.
Poi il Web e allora WebCrawler (1994) , il primo a indicizzare il testo delle pagine.
Primo motore valido: AltaVista (dal 1995), nato nei laboratori DEC, grazie all'Alpha a 64bit poteva lanciare un migliaio di crawler contemporaneamente. Il primo anno AltaVista rispose a 4 miliardi di ricerche!
Poi DEC venduta a Compaq che trasformò AltaVista in un portale (moda di quegli anni)
Yahoo! Nasce come “La guida al WWW di Jerry e David” con approccio a directory (v. www.archive.org ), grande successo grazie anche al legame con Netscape. Yahoo! Usò sempre il suo servizio a directory e quando introdusse la ricerca usò motori esterni: prima OpenText, AltaVista, poi Inktomi e Google.
48R.Polillo – Corso Web 2.0 (dic 2008)
Google oggi
Il motore di ricerca di Google è in breve tempo diventato uno dei più importanti punti di accesso ad Internet.
Fare una ricerca con Google, oppure to google, sono diventati parte del linguaggio comune. Non lo sai? Chiedi a Google.
Oggi circa il 95% degli utenti usa i primi quattro motori: Google, Yahoo, Ms e AOL (G > 60%)
http://www.techcrunch.com/wp-content/uploads/2008/06/searchjune08b.jpg
51R.Polillo – Corso Web 2.0 (dic 2008)
PageRank: esempio
Per spiegazione vedi: http://en.wikipedia.org/wiki/PageRank53R.Polillo – Corso Web 2.0 (dic 2008)
Google: quali servizi di ricerca?
Ricerca: pagine web, gruppi, libri, blog, calendari, foto, video, mappe, notizie, nel desktop (!)http://www.google.com/intl/it/options/
Cronologia web: storia personale delle ricerche:http://www.google.com/support/toolbar/bin/answer.py?hl=it&answer=78184 59R.Polillo – Corso Web 2.0 (dic 2008)
SEM/SEO
La posizione (rank) in cui un sito viene mostrato dal motore di ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina)
Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization)
Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti solo da link per far “salire” i siti che pagano
Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che considera spamming da parte degli specialisti SEM/SEO
http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it
Altre frodi sono possibili con AdSense: a volte si usano robot, altre volte lavoratori offshore per cliccare sui link e far guadagnare i proprietari dei siti ospiti (si stima che circa il 30% dei budget pubblicitari vadano dispersi così)
61R.Polillo – Corso Web 2.0 (dic 2008)
Il grande fratello?
Nel 2007 Big Brother Award Italia ha assegnato a Google il poco invidiabile premio di “Tecnologia più invasiva”, motivando in questo modo la decisione:
“Brin, uno dei fondatori di Google ama ripetere ai suoi dipendenti "Don't be evil." "Non fate i cattivi". E' diventato ormai lo slogan aziendale. L'ammirazione generale per Google ed i servizi che rende ed il suo successo come azienda non può nascondere che ogni ricerca, ogni e-mail, ogni post in Google Groups viene registrato ed analizzato, anche se in modo anonimo, e le analisi fatte puntano alla profilazione del navigatore. Google, date le dimensioni, è l'entità al mondo potenzialmente più pericolosa per la privacy.
Con il recentissimo acquisto di DoubleClick.com, gigante dell'advertising e della profilazione online, che ingigantisce le potenzialità di data mining di Google, sembrerebbe che il motto possa ora diventare "Don't be evil, buy the Devil!".
Altri dubbi su Google: http://www.ippolita.net/google
62R.Polillo – Corso Web 2.0 (dic 2008)
Il punto di vista di Google
Google racconta quali informazioni vengono raccolte quando viene utilizzato il motore di ricerca e quello che viene fatto per proteggere la privacy degli utenti:
http://www.youtube.com/watch?v=iPkvNr2cpqg
63R.Polillo – Corso Web 2.0 (dic 2008)
3. WEB FEEDS(vedi lezione apposita)
68R.Polillo – Corso Web 2.0 (dic 2008)
4. ESPLORAZIONE
69R.Polillo – Corso Web 2.0 (dic 2008)
71R.Polillo – Corso Web 2.0 (dic 2008)
Serendipità
Nome coniato da Horace Walpole, tratto dalla fiaba persiana “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka)
Significa scoprire una cosa non cercata e fortunata mentre se ne sta cercando un'altra
Richiede fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e attenti a riconoscere il valore di esperienze che non corrispondono alle originarie aspettative
http://en.wikipedia.org/wiki/Serendipity
http://serendip.brynmawr.edu/serendip/about.html
72R.Polillo – Corso Web 2.0 (dic 2008)
Deep attention & hyper attention
“The shift in cognitive styles can be seen in the contrast between deep attention and hyper attention. Deep attention, the cognitive style traditionally associated with the humanities, is characterized by concentrating on a single object for long periods (say, a novel by Dickens), ignoring outside stimuli while so engaged, preferring a single information stream, and having a high tolerance for long focus times. Hyper attention, by contrast, is characterized by switching focus rapidly between different tasks, preferring multiple information streams, seeking a high level of stimulation, and having a low tolerance for boredom.
Katherine Hayles, (2007). "Hyperattention”
75R.Polillo – Corso Web 2.0 (dic 2008)
www.stumbleupon.com
to stumble: inciampare, scoprire per caso È un social recommendation system di pagine web Fondato in Canada nel 2001 (?), poi acquisito da eBay nel 2007 Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito,
un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili
Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente:
• http://www.stumbleupon.com/about/
76R.Polillo – Corso Web 2.0 (dic 2008)
Fonte: http://www.stumbleupon.com/technology/R.Polillo – Corso Web 2.0 (dic 2008) 77
stumbleupon: alcune funzioni
Possibilità di definire l’ambito dello “stumble” (es. flickr, youtube, .blogspot, .edu, .gov, …)
Pagina personale (pubblica o privata)
78R.Polillo – Corso Web 2.0 (dic 2008)
stumbleupon: profilo personale (pubblico)
79R.Polillo – Corso Web 2.0 (dic 2008)
stumbleupon: profilo personale (privato)
80R.Polillo – Corso Web 2.0 (dic 2008)
Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo - 2.5 Italia”, reperibile presso il seguente sito Internet: http://creativecommons.org/licenses/by-nc-sa/2.5/it/.
Il corso completo si trova in http://corsoweb20polillo.blogspot.com/
Credits
Diverse lezioni di questo corso sono una rielaborazione delle slides del Corso sul Web 2.0 tenuto da Carlo Vaccari alla Università di Camerino nel dicembre 2007, disponibili con identica licenza Creative Commons dal blog del corso in http://camerino20.wordpress.com/.
Molto altro materiale è stato trovato in rete. Ho cercato di indicarne sempre la fonte; segnalatemi eventuali dimenticanze, sarò lieto di correggerle appena possibile.
83R.Polillo – Corso Web 2.0 (dic 2008)