cercare informazioni sul web. 5-2 organizzazione dellinformazione tramite gerarchie classificazione...

21
Cercare informazioni sul Web

Upload: aroldo-melis

Post on 01-May-2015

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

Cercare informazioni sul Web

Page 2: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-2

Organizzazione dell’informazione tramite gerarchie

• Classificazione gerarchica

• L’informazione è raggruppata in un piccolo numero di categorie, ognuna descritta semplicemente (classificazione di primo livello)

• L’informazione in ogni categoria è suddivisa in sotto-categorie (classificazione di secondo livello), e così via

• Alla fine le classificazioni saranno così piccole che sarà possibile scorrere un’intera categoria per trovare l’informazione desiderata

Page 3: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-3

Page 4: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-4

Caratteristiche importanti delle classificazioni

• Le descrizioni devono coprire tutte le informazioni categorizzate e facilitare eventuali ricerche.

• Le sotto-categorie non devono usare tutte la stessa classificazione.

• L’informazione contenuta in una categoria definisce il modo migliore di classificarla.

• Non c’è un modo univoco di classificare l’informazione.

Page 5: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-5

Progettare una gerarchia

• Regole generali per la progettazione delle gerarchie e terminologia

– la radice è posta in alto

• "salire” lungo la gerarchia significa che la classificazione diventa più inclusiva (insiemi vasti di elementi più generici)

• "scendere” lungo la gerarchia che la classificazione diventa più specifica

• il simbolo di maggiore (>) è usato comunemente per indicare la navigazione verso il basso lungo la gerarchia

Page 6: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-6

Livelli in una gerarchia

• Una gerarchia a un livello non ha sotto-directory

• Per contare i livelli, occorre ricordare che:– c’è sempre una radice

– ci sono sempre “foglie” - le categorie stesse

– la radice e le foglie non contano come livelli

• I gruppi si possono sovrapporre (un elemento può apparire in più categorie) o essere partizionati (ogni categoria appare solo una volta)

• Il numero dei livelli può variare a seconda delle categorie

Page 7: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-7

Page 8: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-8

Page 9: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-9

Page 10: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-10

Ottenere informazioni con una ricerca sul Web

• Come funziona un motore di ricerca

– È costituito da due parti principali:

1. Crawler: visita i siti Internet, seguendo i collegamenti e costruendo un indice del contenuto del Web

2. Query processor: cerca nell’indice le occorrenze delle parole chiave inserite dall’utente e restituisce le pagine web che le contengono

• I motori di ricerca più famosi sono: Google, Yahoo!, Alta Vista, Excite e InfoSeek

Page 11: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-11

Page 12: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-12

I crawler

• Quando un crawler visita un sito web:

– Per prima cosa identifica tutti i link che puntano ad altre pagine

– Controlla di non aver visitato recentemente queste pagine

– Se non è così, le aggiunge a una lista di pagine da processare

– Memorizza in un indice tutte le parole chiave utilizzate nella pagina

Page 13: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-13

Elaboratori di interrogazioni

• Riceve alcune parole chiave dall’utente e le cerca nell’indice

• Anche se la pagina non è stata ancora esaminata dal crawler, potrebbe comunque essere presente perché collegata con un link a una pagina già considerata

Page 14: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-14

Page ranking

• Un’idea di Google: PageRank

– Ordina i link secondo la rilevanza

– La rilevanza è calcolata in base al numero di collegamenti che puntano alla pagina (più link puntano alla pagina, più essa è importante)

• ogni collegamento a una pagina è considerato un "voto" per quella pagina

• Google considera anche il ranking della pagina che sta “votando”

Page 15: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-15

Formulare la domanda giusta

• Scegliere le parole giuste e sapere come il motore di ricerca le userà

• Parole o frasi?– i motori di ricerca generalmente

considerano ogni parola separatamente

– per cercare una frase esattamente com’è scritta possiamo racchiuderla tra virgolette

Page 16: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-16

Operatori logici

• AND, OR, NOT– AND: dice al motore di ricerca di restituire solo le pagine

che contengono entrambe le parole

tailandese AND ristorante

– OR: dice al motore di ricerca di trovare le pagine che contengono una parola o l’altra, e ovviamente anche quelle che le contengono entrambe

– NOT: esclude le pagine che contengono una data parola

• NOT è un operatore prefisso; va messo prima della parola da escludere

Page 17: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-17

Page 18: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-18

Cinque consigli per una ricerca efficace• Definite chiaramente quale tipo di pagina state

cercando (un’organizzazione, un’azienda, una pagina di riferimento ecc.)

• Cercate di immaginare quale tipo di organizzazione potrebbe pubblicare la pagina che desiderate.• Potreste essere in grado di indovinare l’URL

• Elencate i termini che hanno la maggiore probabilità di comparire nella pagina che state cercando.

• Valutate i risultati• Prima di esaminare le pagine, valutate l’efficacia della

ricerca

• Considerate una strategia in due passate.• Fate una ricerca ad ampio raggio e poi selezionate i risultati

Page 19: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-19

Quanto è affidabile il Web?

• Chiunque può pubblicare sul Web ciò che vuole

• Molta dell’informazione disponibile è falsa, fuorviante, ingannevole, faziosa, diffamatoria o disgustosa

• Come facciamo a sapere se le pagine che troviamo sono affidabili?

Page 20: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-20

Non date nulla per scontato

• I nomi dei domini registrati possono essere ingannevoli o intenzionalmente truffaldini

• Occorre verificare l’identità della persona o dell’organizzazione che pubblica la pagina web

Page 21: Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo

5-21

Caratteristiche dei siti affidabili

• I siti web risultano più credibili se hanno queste caratteristiche:– Esistenza reale nel mondo fisico. Il sito fornisce un indirizzo,

numero di telefono e indirizzo di posta elettronica.– Certificazione. Il sito include riferimenti, citazioni o

credenziali, nonché collegamenti a siti altrettanto certificati.– Chiarezza. Il sito è ben organizzato, facile da navigare e

fornisce servizi come una ricerca interna.– Aggiornamento. Il sito è stato aggiornato di recente.– Professionalità. La grammatica, l’ortografia, la punteggiatura

e l’aspetto grafico sono corretti; tutti i link funzionano.

• Tenete presente che un sito potrebbe esibire tutte queste qualità ed essere tuttavia non autorizzato