simone marinai @ ebook lab italia 2011 - documenti scientifici digitali: problematiche dei formati...

48
Documenti scientifici digitali: problematiche dei formati reflowable Documenti scientifici digitali: problematiche dei formati reflowable Simone Marinai simone.marinai@unifi.it Universit` a degli Studi di Firenze

Upload: ebook-lab-italia

Post on 07-Dec-2014

890 views

Category:

Documents


0 download

DESCRIPTION

Articoli e monografie tecnico/scientifiche possiedono una struttura complessa che oltre a testo libero comprende tabelle, equazioni matematiche, referenze bibliografiche, illustrazioni ed altri elementi. L'estrazione di informazione testuale da documenti digitalizzati (ad esempio tramite scanner) per mezzo di programmi di riconoscimento di caratteri (OCR) è oramai consolidata, ed è quindi possibile riconoscere il testo in documenti di buona qualità con alte percentuali di successo. Tuttavia è tuttora oggetto di studio la corretta estrazione delle informazioni strutturali sopra menzionate da documenti digitalizzati. Tale estrazione non è banale neanche per molti documenti "Digital Born", come ad esempio articoli e monografie PDF. Essendo quest'ultimo un formato di stampa non conserva, nella maggior parte dei casi, l'informazione strutturale. Non banale è anche la visualizzazione e successiva fruizione efficace di tale informazione su formati "reflowable" come HTML ed Epub. In questo intervento si descriveranno queste problematiche, alcuni tool realizzati per il riconoscimento e la conversione da documenti PDF e le prospettive applicative.

TRANSCRIPT

Page 1: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche deiformati reflowable

Simone [email protected]

Universita degli Studi di Firenze

Page 2: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Outline

Documenti digitalizzatiRicerca su libri digitalizzatiRecupero basato sul riconoscimentoRecupero senza riconoscimento

Documenti “Digital Born”Conversione di libri PDF in Epub

Problemi con documenti scientificiDocumenti su due colonneEquazioniTabelleIllustrazioni

Conclusioni

Page 3: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Definizioni ....

I libri di ieri (e quelli di ieri l’altro)inquelli di domani (e di domani l’altro)

I libri di → articoli e monografie tecniche/scientifiche

ieri → documenti “digital born” (PDF)

(e quelli di ieri l’altro) → documenti “digitalizzati” (scanner)

in → conversione semi-automatica

quelli di domani → epub (forse e oggi?)

(e di domani l’altro) → senza doverci tornare sopra...

Page 4: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Libro digitalizzato (PDF)

PDF Scaricato da Google Books

Page 5: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Libro digitalizzato (PDF su SONY reader)

Page 6: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Libro digitalizzato (Epub su SONY reader)

Epub Scaricato da Google Books

Page 7: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Libro digitalizzato (Epub con Digital Editions)

Page 8: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Ricerca su libri digitalizzati

Ricerca su libri digitalizzati

I La ricerca standard nei lettori/visualizzatori e basata sukeyword.

I Ma se il testo non e riconoscibile automaticamente?

I Sono possibili altre ricerche, ad esempio basate sul layout?

Page 9: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Ricerca su libri digitalizzati

Document Image Retrieval

I La finalita di Document Image Retrieval e l’identificazione didocumenti rilevanti in una collezione di immagini,considerando soltanto l’aspetto visuale.

I Task principali: recupero di documenti sulla base disimilitudine di layout o sulla base del contenuto testuale.

I Due approcci:I Recupero basato sul riconoscimento.I Recupero senza riconoscimento (esplicito).

I Il document retrieval si basa su tre passi principali:

1. memorizzazione e indicizzamento dei documenti,2. formulazione query,3. calcolo similarita e ordinamento risultati.

Page 10: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero basato sul riconoscimento

Recupero basato sul riconoscimento

I Assunzione di base: un motore di riconoscimento (es. OCR)puo estrarre tutta l’informazione dai documenti.

I Eventuali errori non influenzano troppo le performance direcupero.

I Vantaggi:I semplice da integrare in sistemi standard preesistenti (es.

basati su codifica ASCII del testo),I il calcolo della similarita e l’ordinamento dei risultati hanno un

costo computazionale ridotto

I Problemi:I documenti “rumorosi” (vecchi),I testo stampato con font non-standard,I documenti con layout complesso,I costi di correzione manuale.

Page 11: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero basato sul riconoscimento

Optical Character Recognition (OCR)

I Tecnologia per la conversione di immagini di documenti informati testuali.

I Funziona bene con testo contemporaneo, stampato, di buonaqualita.

I Esistono libri del XIX secolo che parlano di modem ?!?

I Si possono/(devono ?) correggere manualmente gli errori.I L’output dell’ OCR non corretto puo essere impiegato per

indicizzare il testo.I Ci sono problemi per testi corti in cui non si puo sfruttare la

ridondanza (parole ripetute).

I Applicazioni interessanti anche con documenti manoscritti.

Page 12: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero basato sul riconoscimento

Riconoscimento layout

Ha senso parlare di “layout di pagina” in un documentoreflowable?!?

Page 13: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero senza riconoscimento

Recupero senza riconoscimento (esplicito)

I Durante l’indicizzamento non si cerca di riconoscereesplicitamente il contenuto.

I Particolarmente interessante per documenti di pessima qualita.

I Es: “Keyword spotting”: tecniche per la localizzazione diparole individuate dall’utente in un flusso informativo(inizialmente audio).

I La similarita e calcolata considerando l’immagine ocaratteristiche a livello di immagine (feature).

I Applicazioni recenti:I elaborazione di documenti storici,I elaborazione di collezioni estese ed eterogenee.

Page 14: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero senza riconoscimento

http://www.bl.uk/treasures/gutenberg/homepage.html

Page 15: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero senza riconoscimento

Esempio di testo da Gutenberg Bible

ctum est autem post multos dies ut offerret

Cain de fructibus terrae munera Domino

Abel quoque obtulit de primogenitis

gregis sui et de adipibus eorum. Et respe =

Page 16: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero senza riconoscimento

Problemi di visualizzazione/ricerca testo

http://pinakes.imss.fi.it:8080/pinakestext/home.jsf

Page 17: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero senza riconoscimento

Problemi con layout

PDF HTML

Page 18: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero senza riconoscimento

Sistema AIDI

Page 19: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero senza riconoscimento

Sistema AIDI

Page 20: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero senza riconoscimento

Sistema AIDI

Page 21: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero senza riconoscimento

Approcci al “recupero di documenti”

Page 22: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti digitalizzati

Recupero senza riconoscimento

E in Ebook reader ?!?

Page 23: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti “Digital Born”

Documenti “Digital Born”

I Documenti “recenti” sono facilmente indicizzabili dal punto divista testuale.

I La conversione in formato reflowable e talvolta difficile.I Articoli, libri PDF prodotti con strumenti di editoria

elettronica, ma NON marcati semanticamente.I Ad esempio, titoli di capitoli (o sotto-capitoli) marcati

tipograficamente (neretto, 12pt), ma non indicando la funzione(titolo).

I Il PDF ottenuto e perfetto per la stampa, ma l’estrazionedell’informazione puo essere non banale.

I Ad esempio: estrazione dell’indice (Table of Contents, ToC).

Page 24: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti “Digital Born”

Conversione di libri PDF in Epub

Conversione di libri PDF in Epub

I L’estrazione del ToC e importante per la conversione in Epubconsentendo un’agevole navigazione nelle sue parti (es.capitoli).

I I capitoli vengono “spostati” in pagine diverse quando il testoviene ridimensionato (reflowed).

I Un documento Epub e un file ZIP contenente file con metadatisul documento e file XHTML, immagini e stylesheet CSS.

I Un file NCX contiene il ToC del documento che punta alparagrafo corrispondente e non semplicemente alla pagina.

I Vediamo alcuni esempi.

Page 25: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti “Digital Born”

Conversione di libri PDF in Epub

PDF Book Contents Extractor: Interfaccia

Page 26: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti “Digital Born”

Conversione di libri PDF in Epub

PDF Book Contents Extractor: Interfaccia

Page 27: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti “Digital Born”

Conversione di libri PDF in Epub

PDF Book Contents Extractor: Interfaccia

Page 28: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti “Digital Born”

Conversione di libri PDF in Epub

PDF Book Contents Extractor: Output Epub

Page 29: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti “Digital Born”

Conversione di libri PDF in Epub

PDF Book Contents Extractor: Output Epub

Page 30: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Documenti “Digital Born”

Conversione di libri PDF in Epub

PDF Book Contents Extractor: Output PDF

Page 31: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Problemi specifici con documenti scientificiI Documenti su due colonneI Problemi:

I come determinare l’ordine di lettura (“reading order”),I oggetti (es. tabelle, equazioni) a cavallo di piu colonne.

I TabelleI Problemi:

I localizzazione (distinguere una tabella da un elenco),I comprensione (identificare righe e colonne),I visualizzazione (tabella piu larga dello schermo).

I EquazioniI Problemi:

I localizzazione (distiguere equazioni da testo libero),I comprensione (“leggere” le equzioni (OCR-like)),I visualizzazione (visualizzazione “gradevole” in formato

reflowable (es. MathML o font SVG).

I Illustrazioni

Page 32: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Documenti su due colonne

Articolo su 2 colonne

Page 33: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Documenti su due colonne

Articolo convertito ad una colonna

Page 34: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Documenti su due colonne

Page 35: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Equazioni

Equazioni

Page 36: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Equazioni

Equazioni: Epub

Page 37: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Equazioni

Equazioni: Epub

Page 38: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Tabelle

Tabelle

Page 39: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Tabelle

Tabelle: Epub

Page 40: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Tabelle

Tabelle: PDF su SONY reader

Page 41: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Tabelle

Tabelle: PDF su SONY reader

Page 42: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Tabelle

Tabelle: Epub su SONY reader

Page 43: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Tabelle

Tabelle: PDF difficile !!WhAt StudentS KnoW And cAn do: Student PerformAnce In reAdIng, mAthemAtIcS And ScIence

8 © OECD 2010 PISA 2009 ReSultS: executIve SummARy

• Figure I. •Comparing Countries’ and eConomies’ performanCe

Statistically significantly above the OecD average not statistically significantly different from the OecD averageStatistically significantly below the OecD average

On the overall reading scale

On the reading subscales

On the mathematics

scaleOn the science

scale  Access

and retrieveIntegrate

and interpretReflect

and evaluate

Continuous

textsNon-continuous

texts

oeCd average 493 495 493 494 494 493 496 501shanghai-China 556 549 558 557 564 539 600 575Korea 539 542 541 542 538 542 546 538Finland 536 532 538 536 535 535 541 554Hong Kong-China 533 530 530 540 538 522 555 549singapore 526 526 525 529 522 539 562 542Canada 524 517 522 535 524 527 527 529New Zealand 521 521 517 531 518 532 519 532Japan 520 530 520 521 520 518 529 539Australia 515 513 513 523 513 524 514 527Netherlands 508 519 504 510 506 514 526 522Belgium 506 513 504 505 504 511 515 507Norway 503 512 502 505 505 498 498 500Estonia 501 503 500 503 497 512 512 528Switzerland 501 505 502 497 498 505 534 517Poland 500 500 503 498 502 496 495 508Iceland 500 507 503 496 501 499 507 496United States 500 492 495 512 500 503 487 502Liechtenstein 499 508 498 498 495 506 536 520Sweden 497 505 494 502 499 498 494 495Germany 497 501 501 491 496 497 513 520Ireland 496 498 494 502 497 496 487 508France 496 492 497 495 492 498 497 498Chinese taipei 495 496 499 493 496 500 543 520Denmark 495 502 492 493 496 493 503 499United Kingdom 494 491 491 503 492 506 492 514Hungary 494 501 496 489 497 487 490 503Portugal 489 488 487 496 492 488 487 493macao-China 487 493 488 481 488 481 525 511Italy 486 482 490 482 489 476 483 489Latvia 484 476 484 492 484 487 482 494Slovenia 483 489 489 470 484 476 501 512Greece 483 468 484 489 487 472 466 470Spain 481 480 481 483 484 473 483 488Czech Republic 478 479 488 462 479 474 493 500Slovak Republic 477 491 481 466 479 471 497 490Croatia 476 492 472 471 478 472 460 486Israel 474 463 473 483 477 467 447 455Luxembourg 472 471 475 471 471 472 489 484Austria 470 477 471 463 470 472 496 494Lithuania 468 476 469 463 470 462 477 491Turkey 464 467 459 473 466 461 445 454dubai (uae) 459 458 457 466 461 460 453 466russian federation 459 469 467 441 461 452 468 478Chile 449 444 452 452 453 444 421 447serbia 442 449 445 430 444 438 442 443Bulgaria 429 430 436 417 433 421 428 439uruguay 426 424 423 436 429 421 427 427Mexico 425 433 418 432 426 424 419 416romania 424 423 425 426 423 424 427 428thailand 421 431 416 420 423 423 419 425trinidad and tobago 416 413 419 413 418 417 414 410Colombia 413 404 411 422 415 409 381 402Brazil 412 407 406 424 414 408 386 405montenegro 408 408 420 383 411 398 403 401Jordan 405 394 410 407 417 387 387 415tunisia 404 393 393 427 408 393 371 401indonesia 402 399 397 409 405 399 371 383argentina 398 394 398 402 400 391 388 401Kazakhstan 390 397 397 373 399 371 405 400albania 385 380 393 376 392 366 377 391Qatar 372 354 379 376 375 361 368 379panama 371 363 372 377 373 359 360 376peru 370 364 371 368 374 356 365 369azerbaijan 362 361 373 335 362 351 431 373Kyrgyzstan 314 299 327 300 319 293 331 330

Source: OecD, PISA 2009 Database.12 http://dx.doi.org/10.1787/888932343342

Source: OECD, PISA 2009 Database

http://dx.doi.org/10.1787/888932343342

Page 44: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Illustrazioni

Diagrammi chimici “facili” da visualizzare

Page 45: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Illustrazioni

Diagrammi chimici “difficili” da visualizzare

Page 46: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Problemi con documenti scientifici

Illustrazioni

Casi ancora peggiori...

Page 47: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Conclusioni

Conclusioni

I Documenti scientifici (articoli e monografie) pongonoproblemi specifici per:

I Conversione da formati:I digitalizzati (immagini),I digital-born (PDF).

I Visualizzazione:I in formati fissi su schermi di piccole dimensioni,I in formati reflowable (es. html - epub).

I Soluzioni?I tecnologiche: miglioramento metodi di estrazione

informazione,I parzialmente tecnologiche: come utilizzare standard esistenti

per visualizzare efficacemente oggetti complessi su schermi“piccoli”.

Page 48: Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

Documenti scientifici digitali: problematiche dei formati reflowable

Conclusioni

Commenti?

Domande?

[email protected]/∼simone