crescita di wikipedia
TRANSCRIPT
2
Indice
▪ Wikipedia▪ Progetto▪ Visite delle pagine Italiane▪ Visite delle pagine Inglesi▪ Visite delle pagine Tedesche▪ Visite delle pagine Francesi▪ Visite delle pagine Spagnole▪ Visite Generali▪ Conclusioni
3
Wikipedia (1)
● Nata il 15 Gennaio 2001● Progetto complementare di Nupedia● Enciclopedia internazionale● Centinaia di migliaia di volontari
4
Wikipedia (2)
● Alla fine del suo primo anno arrivò a contare 20mila voci, su 18 versioni in lingue differenti
● Nel Settmebre del 2007 l'edizione in inglese arriva ad avere 2 milioni di voci
● Nel 2008 super 10 milinoi di voci in tutte le lingue.
6
Progetto (1)
Analizzare i file di log di wikipedia dal 2007 ad oggi:● 8 anni● 71424 file di testo (circa)
Ogni file è composta da:● 7 * righe (circa)● Più di 100 lingue diverse● 300 MB decompressi (90 MB compressi)
In totale: 21 TB decompressi o 7 TB compressi (circa)30 giorni di download e di computazione (circa) con 7 calcolatori di fascia media
107
7
Progetto (2)
Analizzare i file di log di wikipedia dal 2007 ad oggi:● Sono stati presi in considerazione solo 5 lingue
● Italiano (It)● Inglese (En)● Tedesco (De)● Francese (Fr)● Spagnolo (Es)
● Una volta che i file vengono purificati:Ogni file è composta da:● 6 * righe (circa)● 25 MB decompressi (circa)
Tempo di computazione per purificare i file:● 4+ ore di computazione (circa) per ogni mese
105
9
Gli articoli più popolari Italiani
l Gli articoli più popolari in italiano, dal 2007 ad oggi:l Nel 2007 abbiamo un massimo di 99 visite per
paginal Dal 2008 al 2011 oscilliamo da 996 a 999l A settembre del 2013 abbiamo un picco che
raggiunge le 90384 visite e la pagina è di “Enrico_Berlinguer”
l A gennaio del 2014 scendiamo a 999 visite con la pagina di “Winona_Ryder”
l Il resto della pagine si aggirano intorno alle 10000 visite
10
Visite nel 2007
Le pagine più popolari nel dicembre del 2007● Abbiamo un minimo di 9 visite per pagina● Fino a un massimo di 100 visite per pagina● Una delle pagine più popolari è quella di
“Dante_Alighieri”
11
Visite nel 2014
Le pagine più popolari nel gennaio del 2014● Alle 05:00 la pagina di “1_gennaio” viene visita 9 volte.● Mediamente le pagine ricevono dalle 80-100 visiteLa pagina più popolare del mese riceve:● 999 visite alle ore 16:00● Il 4 gennaio 2014● Ed è la pagina di “Winona_Ryder”
12
Visite nel 2015Le pagine più popolari nel gennaio del 2015● Alle 07:00 una delle pagine meno popolari viene visita 9 volte.● Mediamente le pagine ricevono dalle 80-100 visiteLa pagina più popolare del mese riceve:● 9997 visite alle ore 04:00● Il 3 gennaio 2015● E si chiama “Ferroelectric_Liquid_Crystal_Display%09display”
14
Gli articoli in Inglese
Il numero di visite mensile in inglese, dal 2007 ad oggi:● Nel 2007 abbiamo un massimo di 999 visite per pagina● Dal 2008 al 2011 oscilliamo da 9969 a 9998● A settembre del 2014 abbiamo un picco che raggiunge le
997883 visite
15
Visite nel 2007
Le pagine più popolari nel dicembre del 2007● Abbiamo un minimo di 99 visite per pagina● Fino a un massimo di 199 visite per pagina● Una delle pagine più popolari è quella di “Christmas”
16
Visite nel 2014
Le pagine più popolari nel gennaio del 2014● La pagina più popolare ha 99980 visite● E la pagina “Malware”● Il 31 Ottobre del 2014 alle ore 12:00
20
Renzo Davoli
Visite della pagina nel 2014:● 58 visitatori a Gennaio ● Nessun visitatore ad Agosto● 240 visitatori a Ottobre
21
Barack Obama
Visite annuali della pagina di Barack Obama:● 999 visitatori a Dicembre del 2007● Alle 06 del 5 Novembre 2011 la pagina raggiunge un picco di 211625
visitatori● Nel 2015 il numero massimo di visitatori per ora è di 4713
22
Barack Obama
Visite mensili della pagina
Dicembre 2014:Alle 00 del 29 dicembre abbiamo 3886 visite in lingua inglese
Dicembre 2007Alle 04 abbiamo 999 visite in lingua inglese
24
Conclusioni
● Crescita delle visite esponenziale● Gli orari di ricerca sono statici● Gli articoli più popolari ritornano a seconda degli eventi
25
● Wikipedia.org● Wikimedia.org● dumps.wikimedia.org/other/pagecounts-raw/
● Jakob Voss, Measuring Wikipedia,Humboldt-University of Berlin, Institute for library science, 2005
● Evgeniy Gabrilovich, Shaul Markovitch, Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis, Technion—Israel Institute of Technology, 32000 Haifa, Israel{gabr,shaulm}@cs.technion.ac.il
Bibliografia