database & information retrieval gruppo 3 corso di didactics of computer science 6 maggio 2011
TRANSCRIPT
![Page 1: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/1.jpg)
Database & Information
Retrieval
GRUPPO 3
Corso di Didactics of Computer Science
6 Maggio 2011
![Page 2: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/2.jpg)
Strutture dati
• Per dato si intende un valore che può essere trasformato da un elaboratore elettronico.
• Una struttura dati è un'entità usata per organizzare un insieme di dati all'interno della memoria del computer o per memorizzarli in una memoria di massa.
![Page 3: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/3.jpg)
Tipi di strutture dati
![Page 4: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/4.jpg)
• Le strutture dati sono strumenti astratti che evitano agli utenti di dover conoscere i dettagli che riguardano la memorizzazione effettiva dei dati e consentono di accedervi come se fossero memorizzati nel formato più appropriato.
• La memoria del computer non è organizzata in pile, code, alberi..., bensì in una sequenza di celle di memoria a cui si può fare riferimento.
![Page 5: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/5.jpg)
I databaseA fine Ottocento, negli Stati Uniti, ci fu un incremento dell’immigrazione e si pose il problema di come organizzare il prossimo censimento.• Herman Hollerith, progettò e costruì macchine di elaborazione in grado di leggere, conteggiare ed ordinare i dati immessi su schede perforate.• La prima banca dati moderna fu quella progettata per il censimento del 1950, usando il primo modello di elaboratore messo in vendita, l'UNIVAC-1 che memorizzava i dati su nastro magnetico.• L'utilizzo delle banche dati crebbe negli anni Sessanta, grazie all'introduzione dei primi dischi magnetici.
![Page 6: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/6.jpg)
Informazione strutturataQuando si considerano insiemi organizzati di dati si parla di basi di dati o database.
Una base di dati è un sistema che converte un insieme esteso di dati in uno strumento astratto consentendo agli utenti di cercare ed estrarre informazioni.
![Page 7: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/7.jpg)
Tipi di database1. Database gerarchico• I file sono correlati come in un albero genealogico. • Esiste un unico punto d'ingresso (radice) ed ogni figlio può avere un solo genitore. • Si tratta di un tipo di database rigido.
![Page 8: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/8.jpg)
Tipi di database2. Database reticolare• E' simile ad un database gerarchico, ma ciascun figlio può avere più genitori.• E’ più flessibile rispetto ad un database gerarchico.
![Page 9: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/9.jpg)
Tipi di database3. Database relazionale• Negli anni Settanta Edgard F. Codd, si pose il problema di come superare i limiti dei modelli gerarchico e reticolare. • Questo nuovo modello si basa sui concetti di tabella e di relazione.• Consente di connettere i dati di più file tramite l'uso di un campo chiave.
![Page 10: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/10.jpg)
Tipi di database4. Database ad oggetti
• Negli anni Ottanta la nascita di nuove esigenze ed applicazioni in ambito scientifico-tecnologico, portano alla necessità di modellare dati complessi legati da relazioni articolate.• Un oggetto può essere costituito da vari tipi di dati (anche di tipo grafico, audio o video) e dalle istruzioni che possono essere eseguite su tali dati. • L'approccio orientato agli oggetti è il più compatibile con la creazione di basi di dati multimediali.
![Page 11: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/11.jpg)
Astrazione dei dati
Si distinguono tre livelli di astrazione:1. Livello fisico: descrive la base di dati
come un insieme di record nella memoria di massa.
2. Livello logico: descrive i collegamenti tra i diversi dati.
3. Livello esterno: presenta i dati come vengono visti dall’utente.
![Page 12: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/12.jpg)
Gestione dei dati
Il DBMS (DataBase Management System) è un sistema di gestione di una base di dati.
![Page 13: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/13.jpg)
Esempio: Access
• Access è un software prodotto da Microsoft che rientra nel pacchetto Office.• E’ un modello di database relazionale.• Fornisce le funzionalità di un DBMS.• Supporta due linguaggi di interrogazione:
QBE (Query By Example)SQL (Structured Query Language)
Questi permettono di interrogare i database al fine di recuperare le informazioni richieste.
![Page 14: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/14.jpg)
Data Mining
• Le origini del data mining sono da ricondurre all'esigenza di eseguire analisi statistiche su insiemi di dati vasti ed eterogenei. • Il data mining consiste in una serie di tecniche volte a scoprire schemi ricorrenti nelle basi di dati. In particolare si cercano schemi fino a quel momento ignoti invece di chiedere semplicemente il recupero dei dati memorizzati.
![Page 15: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/15.jpg)
Motori di ricerca
Si basano su database ospitati su potenti computer, grazie ai quali si possono reperire informazioni utilizzando una o più parole-chiave.
![Page 16: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/16.jpg)
• Il motore di ricerca manda sul Web un programma chiamato spider che invia i documenti trovati al programma di indicizzazione. Esso provvede a estrapolarne le parole, che vengono poi memorizzate in un grande database insieme agli indirizzi dei documenti stessi.• Quando si digita la parola chiave, il motore di ricerca individua tutti i documenti indicizzati che contengono quel termine, e ne elenca i titoli e gli indirizzi, accompagnati da una breve descrizione dei contenuti.
![Page 17: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/17.jpg)
Information Retrieval
• Il termine IR fu coniato nel 1952 da Calvin Mooers che formulò le “legge di Mooers”:
“Un sistema di reperimento delle informazioni tenderà a non essere
usato quando trovare le informazioni è più noioso e doloroso che non
trovarle.”• L’Information Retrieval è la ricerca di informazione di natura non strutturata in un insieme di documenti che soddisfa a un bisogno informativo.
![Page 18: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/18.jpg)
Information retrieval intelligente• Nelle query rendere sensibile il sistema al significato delle parole, es: imposta/tassa, imposta/finestra.• Considerare l’ordinamento delle parole nell’interrogazione.• Ricerca booleana.Un documento è rilevante quando• Risponde precisamente alle esigenze dell’utente.• Suggerisce una fonte di informazione: nuove informazioni possono portare a nuove idee e direzioni di ricerca.• Richiama alla memoria dell’utente altre conoscenze.
![Page 19: Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011](https://reader033.vdocuments.site/reader033/viewer/2022052522/5542eb5c497959361e8cabda/html5/thumbnails/19.jpg)
Secondo Shannon il contenuto informativo di un messaggio è rappresentato dalla sua probabilità di presentarsi in un insieme di messaggi possibili: maggiore è la probabilità di realizzarsi minore è il contenuto informativo. • RECALL: percentuale di documenti rilevanti recuperati sul totale dei documenti rilevanti presenti nell’insieme.• PRECISIONE: percentuale dei documenti rilevanti sul totale dei documenti recuperati.• SILENZIO: percentuale di documenti rilevanti non recuperati sul totale dei documenti rilevanti presenti nell’insieme.• RUMORE: percentuale dei documenti non rilevanti sul totale dei documenti recuperati.