corso web 2.0: trovare l'informazione

Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e Comunicazione

Lezione 16TROVARE L’INFORMAZIONE

Corso Web 2.02 Roberto Polillo

[email protected]

1R.Polillo – Corso Web 2.0 (dic 2008)

mailto:[email protected]

http://www.rpolillo.it/

http://www.linkedin.com/in/robertopolillo%0CGoogle



La rete, oggi

Google conta un triliardo di URL unicihttp://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html

Come trovare informazioni che mi interessano?

La figura mostra una parte delle reti di classe C connesse a Internet nel 2004 (ogni nodo corrisponde a un IP address)

Da: http://commons.wikimedia.org/wiki/Image:Internet_map_1024.jpg 2

http://commons.wikimedia.org/wiki/Image:Internet_map_1024.jpg

Quattro modalità principali

1. Mediante servizi di directoryconsulto indici strutturati (tassonomie) di argomenti

2. Mediante strumenti di ricercadico che cosa mi interessa (query), e il motore di ricerca esamina la rete “al volo” (o “quasi”) e mi segnala le informazioni che ritiene pertinenti

3. Mediante servizi di feed dico che cosa mi interessa e ricevo automaticamente le informazione appena vengono pubblicate in rete (sorta di “abbonamenti all’informazione”)

4. Mediante esplorazione (browsing)navigo nella rete seguendo i link, sperando di trovare cose interessanti (“serendipity “)


1. DIRECTORIES


Tassonomia

Quando vogliamo “fare ordine” in una moltitudine di cose (per esempio per poter ritrovare quello che cerchiamo), le disponiamo secondo qualche criterio

In sostanza, raggruppiamo in classi elementi che hanno proprietà comuni: tassonomia (da taxis=ordine, nomos=regola)

Spesso l’ordinamento è di tipo gerarchico, “ad albero” (es.: la classificazione degli esseri viventi di Linneo


Classificazione gerarchica: esempio


Esempio 1: Emporio celeste dei riconoscimenti benevoli

(enciclopedia cinese, J.L.Borges, 1973)

Gli animali si dividono in:

a) Appartenenti all’imperatore

b) Imbalsamati

c) Ammaestrati

d) Lattonzoli

e) Sirene

f) Favolosi

g) Cani randagi

h) Inclusi in questa classificazione

i) Che si agitano come pazzi

j) Innumerevoli

k) Disegnati con un pennello finissimo di peli di cammello

l) Eccetera

m)Che hanno ritto il vaso

n) Che da lontano sembrano mosche.9R.Polillo – Corso Web 2.0 (dic 2008)

Esempio 3: YouTube


Agosto 2008

Novembre 2007

Web directories

Storicamente, il primo strumento di ausilio alle ricerche nel web

Dalla “Jerry's Guide to the World Wide Web“, nel 1994 è nato Yahoo!

Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata da redattori

Oggi, directories “generaliste” (Google, Yahoo!) e directories verticali o di nicchia (la coda lunga…)

Sono moltissime, quindi ci sono anche directories di directories (con eventuale ranking), es. http://www.directorylist.org/

http://en.wikipedia.org/wiki/Web_directory


http://www.directorylist.org/

http://en.wikipedia.org/wiki/Web_directory

Alcune directories generaliste

The Open Directory Project (ODP)

- Nota anche come DMOZ (Directory Mozilla)

- Directory gratuita, aperta e multilingua, posseduta da Netscape (dal 1998) e manutenuta da una comunità di editor volontari- http://www.dmoz.org/- http://en.wikipedia.org/wiki/Open_Directory_Project

Yahoo!Directory

- http://dir.yahoo.com/

Google Directory- Voci tratte da ODP e riposizionate tramite PageRank e altri algoritmi (vedi http://www.google.com/intl/it/dirhelp.html)- http://www.google.com/dirhp?hl=en


http://www.dmoz.org/

http://en.wikipedia.org/wiki/Open_Directory_Project

http://dir.yahoo.com/

http://www.google.com/intl/it/dirhelp.html

http://www.google.com/dirhp?hl=en

2. RICERCA


Ricerca

Molti metodi principali:

1.Ricerca sulla base di parole chiave associate all’informazione (per es. un video, una fotografia, un post di un blog,…)

2.Ricerca con analisi “intelligente” dell’informazione (per es. una pagina web): motori di ricerca

3.Ricerca con entrambi i metodi


2.1 Ricerca con parole chiave

Chi definisce le parole chiave? I contenuti in rete non nascono da un processo

ordinato, che segua una tassonomia condivisa Sono tantissimi e crescono nel tempo Se i singoli siti del web 1.0 potevano considerarsi

relativamente “ordinati” (se progettati da bravi architetti dell’informazione), gli UCG del web 2.0 nascono in modo totalmente bottom-up


Soluzione 1: tagging

Chi crea l’informazione le associa una o più parole chiave (etichette, tags) scelte liberamente, che a suo parere, la descrivono

Esempio:

Tags: mare barche spiaggia italia vacanze 2007

• Soluzione poco costosa, ma che riflette solo il punto di vista personale (parziale) del creatore


Soluzione 2: social tagging

I tags vengono associati non solo da chi crea l’informazione, ma anche da coloro che la usano

Altri termini usati: Folksonomy = folk + taxonomy

(termine proposto da Thomas Vander Wal) infatti è un processo bottom-up, quindi diverso da una tassonomia (che nasce top-down)

tagging cooperativo sistema di classificazione distribuita

Soluzione poco costosa, che, col tempo, si affina e fa emergere la visione collettiva degli utenti dell’informa-zione


Soluzione 3: taxonomy + folksonomy

Si pre-definiscono alcune grandi categorie di base, in modo top-down, e si affina la classificazione in modo bottom-up, con tagging cooperativo.

Esempi: YouTube usa tagging e tassonomia Flickr usa tagging e social tagging (su autorizzazione

dell’uploader o nei gruppi - discussione in: http://www.flickr.com/help/forum/5383/?search=social+tagging)

Slideshare usa tagging (anche geo-tagging)


http://www.flickr.com/help/forum/5383/?search=social+tagging

Analisi cognitiva del tagging (Rashmi Sinha)

Gli associo possibili

categorie

Scelgo le categorie più

adatte

Paralisi decisionale (°)

PROCESSO DI CATEGORIZZAZIONE (TASSONOMIA):

Considero l’oggetto da classificare

Considero l’oggetto da classificare

PROCESSO DI TAGGING:

Gli associo possibili categorie Non è necessario

scegliere

(°) In particolare nel digital world: categorie non ancora consolidate, le conseguenze di scelte sbagliate possono essere gravi: non trovo più i dati

http://rashmisinha.com/2005/09/27/a-cognitive-analysis-of-tagging/#more-112 )25R.Polillo – Corso Web 2.0 (dic 2008)

http://rashmisinha.com/2005/09/27/a-cognitive-analysis-of-tagging/#more-112

Tagging

http://www.slideshare.net/vanderwal/tagging-to-folksonomy 27R.Polillo – Corso Web 2.0 (dic 2008)

http://www.slideshare.net/vanderwal/tagging-to-folksonomy


Social Tagging


Social tagging: distribuzione dei tag

Coda lunga

http://www.slideshare.net/vanderwal/tagging-to-folksonomy31R.Polillo – Corso Web 2.0 (dic 2008)


Tag cloud

Rappresentazione visiva dei tag usati in un sito web, raccolti “a nuvola”

I tag sono rappresentati con un corpo proporzionale alla loro importanza

“Importanza” = frequenza dell’uso del tag per taggare elementi oppure frequenza dell’accesso a elementi con quel tag

La lista è normalmente presentata in ordine alfabetico oppure in ordine di importanza del tag

http://it.wikipedia.org/wiki/Tag_cloud


http://it.wikipedia.org/wiki/Tag_cloud

Esempio

Tag cloud di flickr:http://www.flickr.com/photos/tags/

Word cloud delle parole in un testo:http://tagcrowd.com/


http://www.flickr.com/photos/tags/

http://tagcrowd.com/

Geo-localizzazione

Significa associare a un oggetto (testo, immagine, video, blog post …) metadati di carattere geografico, per poi mostrarne la posizione su una cartina

Può essere intesa come una applicazione particolare del tagging (“geo-tagging”, http://en.wikipedia.org/wiki/Geotagging)

Esempi:http://flickr.com/photos/37385373@N00/161862482/http://81nassau.com/apnews/


http://en.wikipedia.org/wiki/Geotagging

http://flickr.com/photos/37385373@N00/161862482/

http://81nassau.com/apnews/

delicious

Video: Social bookmarking in plain English (3’25”)http://it.youtube.com/watch?v=x66lV7GOcNU

(da Commoncraft, http://it.youtube.com/user/leelefever )


http://it.youtube.com/watch?v=x66lV7GOcNU

http://it.youtube.com/user/leelefever

Un approccio diverso

Cronologia web di Google: storia, statistiche, segmentazioni, bookmarks

delle ricerche effettuate dall’utente http://www.google.com/history


http://www.google.com/history

Motori di ricerca: storia

Primi motori: Archie 1990 (ftp con query a linea di comando), poi Veronica 1993 con Gopher. Ricerche solo sul titolo dei documenti.

Poi il Web e allora WebCrawler (1994) , il primo a indicizzare il testo delle pagine.

Primo motore valido: AltaVista (dal 1995), nato nei laboratori DEC, grazie all'Alpha a 64bit poteva lanciare un migliaio di crawler contemporaneamente. Il primo anno AltaVista rispose a 4 miliardi di ricerche!

Poi DEC venduta a Compaq che trasformò AltaVista in un portale (moda di quegli anni)

Yahoo! Nasce come “La guida al WWW di Jerry e David” con approccio a directory (v. www.archive.org ), grande successo grazie anche al legame con Netscape. Yahoo! Usò sempre il suo servizio a directory e quando introdusse la ricerca usò motori esterni: prima OpenText, AltaVista, poi Inktomi e Google.


http://www.archive.org/

Google oggi

Il motore di ricerca di Google è in breve tempo diventato uno dei più importanti punti di accesso ad Internet.

Fare una ricerca con Google, oppure to google, sono diventati parte del linguaggio comune. Non lo sai? Chiedi a Google.

Oggi circa il 95% degli utenti usa i primi quattro motori: Google, Yahoo, Ms e AOL (G > 60%)

http://www.techcrunch.com/wp-content/uploads/2008/06/searchjune08b.jpg


http://www.techcrunch.com/wp-content/uploads/2008/06/searchjune08b.jpg

PageRank: esempio

Per spiegazione vedi: http://en.wikipedia.org/wiki/PageRank53R.Polillo – Corso Web 2.0 (dic 2008)

http://en.wikipedia.org/wiki/PageRank

Google: quali servizi di ricerca?

Ricerca: pagine web, gruppi, libri, blog, calendari, foto, video, mappe, notizie, nel desktop (!)http://www.google.com/intl/it/options/

Cronologia web: storia personale delle ricerche:http://www.google.com/support/toolbar/bin/answer.py?hl=it&answer=78184 59R.Polillo – Corso Web 2.0 (dic 2008)

SEM/SEO

La posizione (rank) in cui un sito viene mostrato dal motore di ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina)

Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization)

Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti solo da link per far “salire” i siti che pagano

Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che considera spamming da parte degli specialisti SEM/SEO

http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it

Altre frodi sono possibili con AdSense: a volte si usano robot, altre volte lavoratori offshore per cliccare sui link e far guadagnare i proprietari dei siti ospiti (si stima che circa il 30% dei budget pubblicitari vadano dispersi così)


Il grande fratello?

Nel 2007 Big Brother Award Italia ha assegnato a Google il poco invidiabile premio di “Tecnologia più invasiva”, motivando in questo modo la decisione:

“Brin, uno dei fondatori di Google ama ripetere ai suoi dipendenti "Don't be evil." "Non fate i cattivi". E' diventato ormai lo slogan aziendale. L'ammirazione generale per Google ed i servizi che rende ed il suo successo come azienda non può nascondere che ogni ricerca, ogni e-mail, ogni post in Google Groups viene registrato ed analizzato, anche se in modo anonimo, e le analisi fatte puntano alla profilazione del navigatore. Google, date le dimensioni, è l'entità al mondo potenzialmente più pericolosa per la privacy.

Con il recentissimo acquisto di DoubleClick.com, gigante dell'advertising e della profilazione online, che ingigantisce le potenzialità di data mining di Google, sembrerebbe che il motto possa ora diventare "Don't be evil, buy the Devil!".

Altri dubbi su Google: http://www.ippolita.net/google


Il punto di vista di Google

Google racconta quali informazioni vengono raccolte quando viene utilizzato il motore di ricerca e quello che viene fatto per proteggere la privacy degli utenti:

http://www.youtube.com/watch?v=iPkvNr2cpqg


3. WEB FEEDS(vedi lezione apposita)


4. ESPLORAZIONE


Serendipità

Nome coniato da Horace Walpole, tratto dalla fiaba persiana “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka)

Significa scoprire una cosa non cercata e fortunata mentre se ne sta cercando un'altra

Richiede fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e attenti a riconoscere il valore di esperienze che non corrispondono alle originarie aspettative

http://en.wikipedia.org/wiki/Serendipity

http://serendip.brynmawr.edu/serendip/about.html


Deep attention & hyper attention

“The shift in cognitive styles can be seen in the contrast between deep attention and hyper attention. Deep attention, the cognitive style traditionally associated with the humanities, is characterized by concentrating on a single object for long periods (say, a novel by Dickens), ignoring outside stimuli while so engaged, preferring a single information stream, and having a high tolerance for long focus times. Hyper attention, by contrast, is characterized by switching focus rapidly between different tasks, preferring multiple information streams, seeking a high level of stimulation, and having a low tolerance for boredom.

Katherine Hayles, (2007). "Hyperattention”


www.stumbleupon.com

to stumble: inciampare, scoprire per caso È un social recommendation system di pagine web Fondato in Canada nel 2001 (?), poi acquisito da eBay nel 2007 Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito,

un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili

Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente:

• http://www.stumbleupon.com/about/


Fonte: http://www.stumbleupon.com/technology/R.Polillo – Corso Web 2.0 (dic 2008) 77

stumbleupon: alcune funzioni

Possibilità di definire l’ambito dello “stumble” (es. flickr, youtube, .blogspot, .edu, .gov, …)

Pagina personale (pubblica o privata)


stumbleupon: profilo personale (pubblico)


stumbleupon: profilo personale (privato)


Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo - 2.5 Italia”, reperibile presso il seguente sito Internet: http://creativecommons.org/licenses/by-nc-sa/2.5/it/.

Il corso completo si trova in http://corsoweb20polillo.blogspot.com/

Credits

Diverse lezioni di questo corso sono una rielaborazione delle slides del Corso sul Web 2.0 tenuto da Carlo Vaccari alla Università di Camerino nel dicembre 2007, disponibili con identica licenza Creative Commons dal blog del corso in http://camerino20.wordpress.com/.

Molto altro materiale è stato trovato in rete. Ho cercato di indicarne sempre la fonte; segnalatemi eventuali dimenticanze, sarò lieto di correggerle appena possibile.


corso web 2.0: trovare l'informazione

Education