1 la codifica e la standardizzazione dei testi in formato digitale la codifica

45
1 La codifica e la standardizzazione dei testi in formato digitale La codifica

Upload: raniero-righi

Post on 01-May-2015

229 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

1

La codifica e la standardizzazione dei

testi in formato digitale

La codifica

Page 2: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

2

DefinizioneCodifica InformaticaCodifica Informatica

la rappresentazione di un testo su un supporto digitale in un formato comprensibile da un

elaboratore elettronico

Page 3: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

3

Problemi

1. Rappresentazione del testo2. Comprensione del testo

3. Codice condiviso

Page 4: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

4

ComunicazioneMESSAGGIO

CODICE - - - - - - - - - - - - - - - - CODICE’

Codifica DecodificaEMITTENTE CANALE RICEVENTE

Page 5: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

5

Diasistema

CODICE ≠CODICE’

S1 S2

Comunicazione = S1 ~ S2

Page 6: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

6

Modelizzazione e rappresentazione

Selezione dell’informazione

Organizzazione dell’informazione

Page 7: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

7

Codificare un testo1. Il testo è già codificato

2. Decodificare il testo

3. Ricodificare il testo

Codificare = interpretareCodificare = interpretare

Page 8: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

8

Isomorfismo1. a un elemento del sistema di A (CODICE)

deve corrispondere un solo elemento del sistema B (CODICE’);

2. data una relazione fra due elementi del sistema A, la stessa relazione deve essere mantenuta anche fra i corrispondenti elementi del sistema

Page 9: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

9

CODICE Maiuscole, spazi, interpunzione Corsivo, maiuscoletto, grassetto Struttura grammaticale Struttura retorica Semantica …

Page 10: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

10

CODICE’

?

Modello di codifica

Page 11: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

11

DefinizioneCodifica informaticaCodifica informatica

rappresentazione di un testo su un supporto digitale

in funzione di un determinato punto di vista secondo un codice condiviso in modo

sostanziale dall’uomo e dall’elaboratore elettronico cui tale codifica è destinata.

Page 12: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

12

Testo o Documento?Che cos’è un testo?

1. Supporto fisico?2. Sequenza di caratteri ivi contenuta?3. Contenuto?

Page 13: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

13

Dov’è il testo?

Canto Secondo1.Ingiustissimo amor, perché sì rarocorrispondenti fai nostri desiri?Onde, perfido, avvien che t’è sì caroil discorde voler ch’in duo cor miri?Gir non mi lasci al facil guado e chiaro,e nel più cieco e maggior fondo tiri:da chi disia il mio amor tu mi richiami,e chi m’ha in odio vuoi ch’adori et ami.

Page 14: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

14

I testi sono astrazioni

I testi sono delle astrazioni istintivamente e collettivamente generate dai lettori e si possono intendere come successioni di monemi rappresentabili graficamente tramite dei grafemi. Dalla lettura dei grafemi o dalla percezione uditiva dei monemi si sviluppano i significati cui noi diamo il nome di testo.

Page 15: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

15

I documenti no… supporti materiali in cui il testo viene

conservato (un libro, un foglio di carta, una lapide)

si può parlare di documenti cartacei e di documenti digitali, ma non di testi cartacei o digitali.

Page 16: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

16

Oggetto della codifica

I testi

A volte i documenti … ma l’importante è capirsi!

Page 17: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

17

MRF – Machine Readable Form

Il testo trasmesso deve essere stato codificato dall’emittente in modo che la macchina sia in grado di non disperdere nessuno dei livelli di informazioni presente nell’intenzionalità dell’emittente

Standardizzazione e portabilità dei dati

Page 18: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

18

Ortografia MRF Maiuscole (nomi e inizio periodo) Segni diacritici Spazi Corsivi …

Page 19: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

19

Caratteristiche minime? No.

Ciò che qualifica la MRF è la sua capacità di trasmettere ciò che il codificatore ha ritenuto fosse sematicamente rilevante

Page 20: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

20

Documenti digitali: problemi Legati alla disponibilità di dispositivi

hardware e software Elevata obsolescenza Difficile portabilità su piattaforme diverse Proliferazione dei sistemi di codifica Difficile condivisione dei dati e dei risultati

Page 21: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

21

Standard

Formali: ISO et al.

Di fatto: es. MS Word

Page 22: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

22

Standard portabile Indipendenza dall’hardware Indipendenza dal software Indipendenza dal sistema di codifica dei

caratteri Indipendenza logica dalle tipologie di

elaborazione

Page 23: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

23

Set dei Caratteri Codice ASCII: ISO 646

o 7 bit (27= 128)o 128 caratteri

Codice Latin-1: ISO 8859-1 – 256 caratterio 8 bit (28= 256)o 256 caratterio Comprende ISO 646

Page 24: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

24

Set dei Caratteri Codice Unicode: sincronizzato a ISO 10646

o 16 bit (216= 65.536)o 65.536 caratterio Comprende ISO 646 e ISO 8859-1

o UTF-8: versione a 8 bit di Unicode, char set predefinito per XML (noi lo useremo)

Page 25: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

25

Modello di codifica Un modello è il risultato di un

procedimento di astrazione necessario per sfuggire all’imprendibilità del continuo.

Un modello deve essere qualcosa di “più piccolo” dell’oggetto che si vuole analizzare

Un modello deve essere isomorfo Deve essere operata un scelta delle

caratteristiche da codificare

Page 26: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

26

Modellizzazione – Macro categorie

Per quale scopo si codifica?

Struttura

Formato

Contenuto

Page 27: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

27

Analisi logico-strutturale dei testi

L’individuazione delle componenti logico-formali dei testi così come si sono venute a conformare nella tradizione scritta occidentale

Page 28: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

28

Livello strutturaleTutti i testi possono avere: un titolo (opzionale) un contenuto. Il contenuto può essere:

unitario diviso in parti (parti, capitoli, libri), ciascuna

della quali può avere: un titolo (opzionale)

un contenuto.

Page 29: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

29

Livello contenutisticoI testi possono essere classificati in due

grandi macro-categorie che conoscono però numerose contaminazioni:

prosa poesia

Page 30: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

30

AndamentoPoesia e prosa possono avere un

andamento:

continuo dialogico

Page 31: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

31

Andamento continuo la prosa è costituita di una sequenza di

paragrafi elenchi, a loro volta costituiti di

entrate, in cui si distinguono numero (opzionale) topic (argomento, soggetto; opzionale) descrizione

tabelle righe

celle

la poesia è costituita di una sequenza di divisioni metriche (opzionali) che contengono

versi versi

Page 32: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

32

Un esempio: poesia

Page 33: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

33

Andamento dialogicoi testi possono essere: unitari divisi in parti quali:

atti scene

In entrambi i casi sono costituiti di una sequenza di battute, divise al loro interno in:

nome dell’interlocutore contenuto.

Page 34: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

34

Un esempio: prosa

Page 35: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

35

Markup & tagging In epoca pre-computer: caratterizzazione

editoriale esplicitava la formattazione dei documenti

Caratterizzazione editoriale in inglese: markup

Annotazioni editoriali in inglese: tag

Page 36: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

36

Con i word processor… Formattazione incorporata

Tag invisibili

Caratterizzazione migrata nei documenti

Page 37: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

37

Sistemi WYSIWYG Programmi presentazionali

Codifica invisibile all’utente

Documenti difficilmente gestibili

Formati proprietariFormati proprietari

Page 38: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

38

Markup Languages

Linguaggi procedurali o specifici

Linguaggi dichiarativi o generici

Page 39: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

39

Linguaggi procedurali Orientati al documento Istruzioni che specificano caratteristiche

come: Font Dimensione carattere Posizionamento Stile Disposizione sulla pagina

Page 40: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

40

Un esempio: LaTeX\documentclass[a4paper,12pt]{article}\usepackage[latin1]{inputenc}\usepackage[italian]{babel}\usepackage{indentfirst}\pagestyle{plain} \topmargin-1cm \

evensidemargin0.5cm\textwidth14cm \textheight23cm \setlength{\

parindent}{1,25cm}\begin{document}\pagestyle{plain}\section{Introduzione}\vskip 1cm Questo è un esempio di documento \

emph{LaTeX}.\end{document}

Page 41: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

41

Sintassi

\nomeTag[argomenti]{contenutoTag}

Output standard

Page 42: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

42

Linguaggi procedurali: problemi Codifica orientata all’output Difficilmente può essere utilizzata per

scopi diversi

Page 43: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

43

Linguaggi dichiarativi Orientati al testo Istruzioni per annotare il significato degli

elementi costitutivi Trascurano l’aspetto che assumeranno

nell’output Se un output strutturato si rende

necessario, servirà un ulteriore livello procedurale (es. fogli di stile)

Page 44: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

44

Un esempio: SGML<!DOCTYPE testo [

<!ELEMENT testo - - (titolo?, paragrafo+)>

<!ELEMENT titolo - O (#PCDATA)>

<!ELEMENT paragrafo - O (#PCDATA)>

]>

<testo>

<titolo>Esempio di documento SGML</>

<paragrafo>Benvenuti nel mondo dei linguaggi dichiarativi standardizzati</>

</testo>

Page 45: 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

45

Caratteristiche Markup definito dall’utente Cattura della semantica del testo Assenza di indicazioni circa l’output Flessibilità e possibilità di essere usato per

molteplici scopi