bibliografia. sistemi di recupero dellinformazione teoria e tecniche della catalogazione e...

42
Bibliografia. Sistemi di recupero dell’informazione Teoria e tecniche della catalogazione e classificazione Presentazioni, “informazione”, quanta infomazione? ricerca1info Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006

Upload: frediano-d-agostino

Post on 01-May-2015

218 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

Bibliografia. Sistemi di recupero dell’informazioneTeoria e tecniche

della catalogazione e classificazionePresentazioni, “informazione”, quanta infomazione?

ricerca1info

Prof.ssa Elisa GrignaniUniversità degli studi di Parma

aa. 2005/2006

Page 2: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

2

OGGI

• Presentazioni (già visto)• Presentazione del corso (già visto)

• Che cosa si intende con “informazione”?• Quanta informazione?

Page 3: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

3

OGGI

• Presentazioni• Presentazione del corso

• Che cosa si intende con “informazione”?• Quanta informazione?

Page 4: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

4

Presentazioni: docente • Elisa GRIGNANI • www2.unipr.it/~grignani/EGhome/eg.htm

• Studi:• laurea in lettere, Università di Pavia • perfezionamento in biblioteconomia, Università di Parma• MLIS, University of California, Berkeley

• Ricerca:• Classificazioni bibliografiche, sistemi di recupero dell’informazione, società

bibliografica italiana sec. XIX, produzione editoriale a Pavia sec. XVII, storia delle biblioteche sec. XVII.

• Didattica:• Teoria e tecniche della catalogazione e classificazione, Bibliografia,

Biblioteconomia

Page 5: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

5

Presentazioni: studenti

• Nome e cognome: ...

• Corso di laurea: ...

• Anno di iscrizione: ...

• e-mail: ...

• Aree di interesse o di competenza: ...

• Cosa vi aspettate da questo corso? ...

• Per quanti crediti lo seguite? …

Page 6: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

6

Per iscrivervi a questo corso:

• Andate nel sito www.nicenet.org

• “join a class”

• inserite in modo completo i dati richiesti: in particolare, come prima cosa, l’USERNAME e la PASSWORD che intendete utilizzare; il codice da indicare come “class key” è: OZ39495B83; il nome della classe è Biblio

• “log in” usando USERNAME / PASSWORD: come prima esercitazione, dovete inviarmi compilato (“turn it online”) il modulo “Presentazioni: studenti”.

Page 7: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

7

OGGI

• Presentazioni• Presentazione del corso

• Che cosa si intende con “informazione”?• Quanta informazione?

Page 8: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

8

Due temi principali

Rappresentazione / organizzazione

dell’informazione

Recupero dell’informazione

e il processo di ricerca

Page 9: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

9

Due temi principali

• Come trovare risorse informative, ed oggetti che veicolano informazione, appropriate rispetto alle esigenze nostre o di altriRicerca (Modulo A)

• Come descrivere le risorse informative, e gli oggetti che veicolano informazione, in modo che possano essere efficacemente trovati ed utilizzati da chi ne ha bisognoCatalogazione (Modulo B)

Page 10: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

10

Ricerca – Modulo A

Recupero dell’informazione e processo di ricerca

ALCUNI ARGOMENTI:- che cosa si intende con informazione?- dati / informazione / conoscenza / sapere- quanta informazione? - teoria matematica dell’informazione- ciclo di vita dell’informazione- processo di ricerca- sistemi di recupero dell’informazione (IR)- valutazione IR- bibliografie e cataloghi come sistemi IR- ricerca in OPAC- elementi di ricerca web- stili di citazione bibliografica- ...

Page 11: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

11

Catalogazione – Modulo B

Rappresentazione / organizzazione

dell’informazione

ALCUNI ARGOMENTI:

- perchè organizzare l’informazione?- metadati- cataloghi - requisiti funzionali per le registrazioni bibliografiche- descrizione bibliografica - accessi formali e semantici- authority file- programmi per la catalogazione automatizzata- ...

Page 12: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

12

Goals and Objectives

• Modulo A - Ricerca– Risultati: – Obiettivi:

• Modulo B - Catalogazione– Risultati:– Obiettivi:

Page 13: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

13

Esercitazioni, letture ed esame

• Circa 4 esercitazioni per modulo • 1 presentazione in classe (anche in piccolo gruppo;

raccomandato l’utilizzo di PowerPoint)

• Letture indicate di volta in volta

• Esame finale

Page 14: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

14

Orario lezioni, esercitazioni e ricevimento

• Lezioni:– Aula H; lun., mart.: 10:30-12:00, merc.: 14:15-15:45

• Esercitazioni:– in orario da concordare

• Materiali lezioni ed esercitazioni:– <www2.unipr.it/~grignani/EGhome/eg.htm>– <www.nicenet.org>

• Ricevimento:– mart. 15:00-16:00, merc. 9:00-10:00, Sezione beni librari (Via

D’Azeglio, 85)

• e-mail: – [email protected]

Page 15: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

15

Calendario lezioni

• I semestre:– Modulo A: 19 sett. - 29 ott. 2005– Modulo B: 10 nov. - 22 dic. – Modulo C: 9 gen. - 28 gen. 2006

Page 16: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

16

OGGI

• Presentazioni

• Presentazione del corso

• Che cosa si intende con “informazione”?

• Quanta informazione?

Page 17: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

17

Che cosa si intende con “informazione”?

(forse per metatesi dal gr. morfé ; cfr. lat. formosus (spagn. hermoso), formaggio, formalità, informatica (“information automatique”, 1962) ...

• Non c’è una unica definizione “corretta”

• Può essere d’interesse sociologico, linguistico, filosofico, informatico, giornalistico …

• Definizione d’uso:– “notizie o fatti su qualche cosa”

• Oxford English Dictionary– information: informing, telling; thing told, knowledge, items of knowledge, news

– knowledge: knowing familiarity gained by experience; person’s range of information; a theoretical or practical understanding of; the sum of what is known

Page 18: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

18

Che cosa si intende con informazione?

• Correlare dati a un contesto (“interpretazione situazionale”)

dati informazione conoscenza

• Richiede una comunità interpretante

• Ogni informazione dipende dal contesto da cui proviene

• Può essere registrata, immagazzinata, trasmessa (anche in forma fisica: p.e. i fossili)

• Deve essere registrata

• E’ una registrazione di qualcosa che può essere riutilizzato

• E’ una necessità / è una comodità

Page 19: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

19

Che tipi di informazione?

• Testo– Libri, periodici, WWW, pubblicità, appunti …– A stampa / manoscritta

• Film• Fotografie, altre immagini• TV, Radio• Telefono• Database• …• Quanta informazione?

Page 20: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

20

Perché organizzare l’informazione?

• E’ una questione di scala:

– Usare metodi e categorie personali per organizzare la nostra raccolta di libri o di CD sembra funzionare …

– Ma come organizzare una raccolta di dimensione 10, 100, 1000 … volte più grande?

Page 21: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

21

OGGI

• Presentazioni• Presentazione del corso

• Che cosa si intende con “informazione”?• Quanta informazione?

Page 22: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

22

Quanta informazione?Produzione libri a stampa: alcuni dati storici

• Sec. XV Europa 45.000 ed. fonte: ISTC

• Sec. XVI Italia 50.000 ed. fonte: EDIT

• a. 2003 Italia 60.000 ed. fonte: IE• (ca. 160 ed. al giorno)

• ma quanta informazione su altri supporti?

Page 24: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

24

Information

• Stored Information (physical media)

– Print

– Film

– Optical

– Magnetic

• Communicated (channels)

– Internet

– Broadcast

– Phone

– Mail

Page 25: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

25

Unità di misuraHow big is an Exabyte? (R. Williams, Data Power of Ten)

Kilobyte (KB) 1000 bytes o 103 bytes 2 KB: 1 pagina datt.

Megabyte (MB) 106 bytes 1 MB: 1 floppy disk 3.5 5 MB: tutto Shakespeare 100 MB: 1 metro di libri 500 MB: 1 CD-ROM

Gigabyte (GB) 109 bytes

Terabyte (TB) 1012 bytes 1 TB: 50.000 alberi 130 TB: collezione a stampa della Library of Congress

Petabyte (PB) 1015 bytes

Exabyte (EB) 1018 bytes 2 EB: tutta l'informazione generata nel 1999

Page 26: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

26

Table 1.1: How Big is an Exabyte?

Kilobyte (KB)1,000 bytes OR 103bytes 2 Kilobytes: A Typewritten page. 100 Kilobytes: A low-resolution photograph.

Megabyte (MB)

1,000,000 bytes OR 106 bytes1 Megabyte: A small novel OR a 3.5 inch floppy disk.2 Megabytes: A high-resolution photograph.5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound.100 Megabytes: 1 meter of shelved books. 500 Megabytes: A CD-ROM.

Gigabyte (GB)

1,000,000,000 bytes OR 109 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven. 100 Gigabytes: A library floor of academic journals.

Terabyte (TB)

1,000,000,000,000 bytes OR 1012 bytes 1 Terabyte: 50000 trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U.S. Library of Congress. 400 Terabytes: National Climactic Data Center (NOAA) database.

Petabyte (PB)

1,000,000,000,000,000 bytes OR 1015 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U.S. academic research libraries. 20 Petabytes: Production of hard-disk drives in 1995. 200 Petabytes: All printed material.

Exabyte (EB)1,000,000,000,000,000,000 bytes OR 1018 bytes 2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings.

Page 27: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

27

Summary of findings1. Print, film, magnetic, and optical storage media produced about 5 exabytes of

new information in 2002. Ninety-two percent of the new information was stored on magnetic media, mostly in hard disks.

2. We estimate that the amount of new information stored on paper, film, magnetic, and optical media has about doubled in the last three years.

3. Information flows through electronic channels -- telephone, radio, TV, and the Internet -- contained almost 18 exabytes of new information in 2002, three and a half times more than is recorded in storage media. Ninety eight percent of this total is the information sent and received in telephone calls - including both voice and data on both fixed lines and wireless.

• Radio took 38 years to get 50 M listeners, TV took 13 years, the Net took 4 years...

Page 28: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

28

Print

• Annual Production (1999)– Books 968,735 = 8 Terabytes (compressed image)

– Newspapers 22643 = 25 Terabytes

– Journals 40000 = 2 Terabytes

– Magazines 80000 = 10 Terabytes

– Office Documents 195 Terabytes

– TOTAL 240 Terabytes (1200 scanned, 24 text)

Page 29: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

29

Print• Library of Congress Printed book collection

– About 18 Million books = About 130 Terabytes (compressed image)

– For all of LC we should also assume• 13M photographs, 5MB each = 65 TB• 4M maps, say 200 TB• 500K files, 1GB each = 500 TB• 3.5M sound recordings, ~2000 TB• Grand total: 3 petabytes (~3000 terabytes)

Page 30: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

30

Film and Image

• Annual Production (1999)

– Movies = 16 Terabytes (Commercial Production of about 4000 films)

– Photographs = 410 Petabytes

– X-Rays = 17.2 Petabytes

Page 31: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

31

Optical Media

• Annual Production (1999)

– CDD-Music 90,000 items = 58 TB

– CD-ROM 1,000 items = 3 TB

– DVD-Video 5,000 items = 22 TB

– TOTAL 83 TB (total compressed 29 TB)

Page 32: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

32

Magnetic Media

• Annual Production (1999)

– Audio Tape 184,200,000 = 184.2 Petabytes– Video Tape 355,000,000 = 1420– Floppy disks = 0.07– Removable disks = 1.69– Hard Disks = 500

Page 33: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

33

Table 1.2: Worldwide production of original information, if stored digitally, in terabytes circa 2002. Upper estimates assume information is digitally scanned, lower estimates assume digital content has been compressed.

Storage Medium 2002 Teraby

tes Upper Estima

te

2002 Teraby

tes Lower Estima

te

1999-2000

Upper Estima

te

1999-2000

Lower Estima

te

% Chan

ge Uppe

r Estimate

s

Paper 1,634 327 1,200 240 36%

Film 420,254

76,69 431,690

58,209 -3%

Magnetic 5187130

3,416,230

2,779,760

2,073,760

87%

Optical 103 51 81 29 28%

TOTAL: 5,609,121

3,416,281

3,212,731

2,132,238

74.5%

Source: How much information 2003

Page 34: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

34

Internet Hosts (000s) 1989-2006

0

100000

200000

300000

400000

500000

600000

700000

800000

900000

1000000

1989

1991

1993

1995

1997

1999

2001

2003

2005

hosts

Source: Vint Cerf

Page 35: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

35

Users on the Internet (1999)

• CAN/US - 90.65M• Europe - 40.09M• Asia/Pac - 26.97M• Latin Am - 5.29M• Africa - 1.14M• Mid-east - 0.88 M

---------------------------• Total - 165M

CAN/US

Europe

Asia/Pac

Latin Am

Africa

Mid East

Source: Vint Cerf

Page 36: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

36

2002: Around the world about 600 million people have access to the Internet, about 30% of them in North America.

World Distribution of Internet Users (in millions)

Africa 6.31

Asia Pacific 187.24

Europe 190.91

Middle East 5.12

Canada and USA 182.67

Latin America 33.35

   

Page 37: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

37

Page 38: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

38

According to Nielsen/NetRatings, the average Internet user in 2002 spended 11 hours and 24 minutes online per month; the average user in the United States more than twice that amount of time online: 25 hours and 25 minutes at home and 74 hours and 26 minutes at work. In the United States, Internet access is used to send email (52%), get news (32%), use a search engine to find information (29%), surf the web (23%), do research for work (19%), check the weather (17%) or send an instant message (14%) (Source: Pew Internet and American Life Project).

Page 39: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

39

Language Distribution of Web Content

English J apaneseGerman FrenchChinese SpanishItalian SwedishMalay KoreanPortuguese DutchDanish CzechFinnish RussianPolish HungarianNorwegian EstonianGreek BulgarianCroatian BasqueThai TurkishArabic AlbanianOthers & Unknown

Source: Jack Xu: Excite

Page 40: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

40

Language Distribution on a 634 Million Web Pages Corpus

Language Number of Docs PercentageEnglish 453,685,690 71.5288%Japanese 43,271,080 6.8222%German 32,253,563 5.0851%French 11,107,994 1.7513%Chinese 9,642,450 1.5202%Spanish 6,965,560 1.0982%Italian 5,638,827 0.8890%Swedish 4,392,709 0.6926%Malay 3,619,227 0.5706%Korean 3,200,762 0.5046%Portuguese 3,014,294 0.4752%Dutch 2,745,610 0.4329%Danish 1,911,677 0.3014%Czech 1,428,385 0.2252%Finnish 1,312,932 0.2070%Russian 1,150,127 0.1813%Polish 952,716 0.1502%Hungarian 760,162 0.1198%Norwegian 607,211 0.0957%Estonian 456,613 0.0720%Greek 393,360 0.0620%Bulgarian 392,777 0.0619%Croatian 310,237 0.0489%Basque 258,074 0.0407%Thai 99,691 0.0157%Turkish 81,218 0.0128%Arabic 38,167 0.0060%Albanian 17,779 0.0028%Others & Unknown 44,561,062 7.0256%Total 634,269,953 100%

Page 41: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

41

Information Overload

• “The greatest problem of today is how to teach people to ignore the irrelevant, how to refuse to know things, before they are suffocated. For too many facts are as bad as none at all.” (W.H. Auden)

Cerchiamo l’espressione “information overload” in <www.google.it>. Quanti risultati otteniamo?

Page 42: Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e classificazione Presentazioni, informazione, quanta infomazione?

42

Prossimamente

• Ancora sull’informazione