simone marinai @ ebook lab italia 2011 - documenti scientifici digitali: problematiche dei formati...
DESCRIPTION
Articoli e monografie tecnico/scientifiche possiedono una struttura complessa che oltre a testo libero comprende tabelle, equazioni matematiche, referenze bibliografiche, illustrazioni ed altri elementi. L'estrazione di informazione testuale da documenti digitalizzati (ad esempio tramite scanner) per mezzo di programmi di riconoscimento di caratteri (OCR) è oramai consolidata, ed è quindi possibile riconoscere il testo in documenti di buona qualità con alte percentuali di successo. Tuttavia è tuttora oggetto di studio la corretta estrazione delle informazioni strutturali sopra menzionate da documenti digitalizzati. Tale estrazione non è banale neanche per molti documenti "Digital Born", come ad esempio articoli e monografie PDF. Essendo quest'ultimo un formato di stampa non conserva, nella maggior parte dei casi, l'informazione strutturale. Non banale è anche la visualizzazione e successiva fruizione efficace di tale informazione su formati "reflowable" come HTML ed Epub. In questo intervento si descriveranno queste problematiche, alcuni tool realizzati per il riconoscimento e la conversione da documenti PDF e le prospettive applicative.TRANSCRIPT
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti scientifici digitali: problematiche deiformati reflowable
Simone [email protected]
Universita degli Studi di Firenze
Documenti scientifici digitali: problematiche dei formati reflowable
Outline
Documenti digitalizzatiRicerca su libri digitalizzatiRecupero basato sul riconoscimentoRecupero senza riconoscimento
Documenti “Digital Born”Conversione di libri PDF in Epub
Problemi con documenti scientificiDocumenti su due colonneEquazioniTabelleIllustrazioni
Conclusioni
Documenti scientifici digitali: problematiche dei formati reflowable
Definizioni ....
I libri di ieri (e quelli di ieri l’altro)inquelli di domani (e di domani l’altro)
I libri di → articoli e monografie tecniche/scientifiche
ieri → documenti “digital born” (PDF)
(e quelli di ieri l’altro) → documenti “digitalizzati” (scanner)
in → conversione semi-automatica
quelli di domani → epub (forse e oggi?)
(e di domani l’altro) → senza doverci tornare sopra...
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Libro digitalizzato (PDF)
PDF Scaricato da Google Books
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Libro digitalizzato (PDF su SONY reader)
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Libro digitalizzato (Epub su SONY reader)
Epub Scaricato da Google Books
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Libro digitalizzato (Epub con Digital Editions)
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Ricerca su libri digitalizzati
Ricerca su libri digitalizzati
I La ricerca standard nei lettori/visualizzatori e basata sukeyword.
I Ma se il testo non e riconoscibile automaticamente?
I Sono possibili altre ricerche, ad esempio basate sul layout?
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Ricerca su libri digitalizzati
Document Image Retrieval
I La finalita di Document Image Retrieval e l’identificazione didocumenti rilevanti in una collezione di immagini,considerando soltanto l’aspetto visuale.
I Task principali: recupero di documenti sulla base disimilitudine di layout o sulla base del contenuto testuale.
I Due approcci:I Recupero basato sul riconoscimento.I Recupero senza riconoscimento (esplicito).
I Il document retrieval si basa su tre passi principali:
1. memorizzazione e indicizzamento dei documenti,2. formulazione query,3. calcolo similarita e ordinamento risultati.
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero basato sul riconoscimento
Recupero basato sul riconoscimento
I Assunzione di base: un motore di riconoscimento (es. OCR)puo estrarre tutta l’informazione dai documenti.
I Eventuali errori non influenzano troppo le performance direcupero.
I Vantaggi:I semplice da integrare in sistemi standard preesistenti (es.
basati su codifica ASCII del testo),I il calcolo della similarita e l’ordinamento dei risultati hanno un
costo computazionale ridotto
I Problemi:I documenti “rumorosi” (vecchi),I testo stampato con font non-standard,I documenti con layout complesso,I costi di correzione manuale.
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero basato sul riconoscimento
Optical Character Recognition (OCR)
I Tecnologia per la conversione di immagini di documenti informati testuali.
I Funziona bene con testo contemporaneo, stampato, di buonaqualita.
I Esistono libri del XIX secolo che parlano di modem ?!?
I Si possono/(devono ?) correggere manualmente gli errori.I L’output dell’ OCR non corretto puo essere impiegato per
indicizzare il testo.I Ci sono problemi per testi corti in cui non si puo sfruttare la
ridondanza (parole ripetute).
I Applicazioni interessanti anche con documenti manoscritti.
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero basato sul riconoscimento
Riconoscimento layout
Ha senso parlare di “layout di pagina” in un documentoreflowable?!?
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Recupero senza riconoscimento (esplicito)
I Durante l’indicizzamento non si cerca di riconoscereesplicitamente il contenuto.
I Particolarmente interessante per documenti di pessima qualita.
I Es: “Keyword spotting”: tecniche per la localizzazione diparole individuate dall’utente in un flusso informativo(inizialmente audio).
I La similarita e calcolata considerando l’immagine ocaratteristiche a livello di immagine (feature).
I Applicazioni recenti:I elaborazione di documenti storici,I elaborazione di collezioni estese ed eterogenee.
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
http://www.bl.uk/treasures/gutenberg/homepage.html
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Esempio di testo da Gutenberg Bible
ctum est autem post multos dies ut offerret
Cain de fructibus terrae munera Domino
Abel quoque obtulit de primogenitis
gregis sui et de adipibus eorum. Et respe =
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Problemi di visualizzazione/ricerca testo
http://pinakes.imss.fi.it:8080/pinakestext/home.jsf
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Problemi con layout
PDF HTML
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Sistema AIDI
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Sistema AIDI
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Sistema AIDI
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Approcci al “recupero di documenti”
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
E in Ebook reader ?!?
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Documenti “Digital Born”
I Documenti “recenti” sono facilmente indicizzabili dal punto divista testuale.
I La conversione in formato reflowable e talvolta difficile.I Articoli, libri PDF prodotti con strumenti di editoria
elettronica, ma NON marcati semanticamente.I Ad esempio, titoli di capitoli (o sotto-capitoli) marcati
tipograficamente (neretto, 12pt), ma non indicando la funzione(titolo).
I Il PDF ottenuto e perfetto per la stampa, ma l’estrazionedell’informazione puo essere non banale.
I Ad esempio: estrazione dell’indice (Table of Contents, ToC).
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
Conversione di libri PDF in Epub
I L’estrazione del ToC e importante per la conversione in Epubconsentendo un’agevole navigazione nelle sue parti (es.capitoli).
I I capitoli vengono “spostati” in pagine diverse quando il testoviene ridimensionato (reflowed).
I Un documento Epub e un file ZIP contenente file con metadatisul documento e file XHTML, immagini e stylesheet CSS.
I Un file NCX contiene il ToC del documento che punta alparagrafo corrispondente e non semplicemente alla pagina.
I Vediamo alcuni esempi.
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Interfaccia
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Interfaccia
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Interfaccia
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Output Epub
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Output Epub
Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Output PDF
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Problemi specifici con documenti scientificiI Documenti su due colonneI Problemi:
I come determinare l’ordine di lettura (“reading order”),I oggetti (es. tabelle, equazioni) a cavallo di piu colonne.
I TabelleI Problemi:
I localizzazione (distinguere una tabella da un elenco),I comprensione (identificare righe e colonne),I visualizzazione (tabella piu larga dello schermo).
I EquazioniI Problemi:
I localizzazione (distiguere equazioni da testo libero),I comprensione (“leggere” le equzioni (OCR-like)),I visualizzazione (visualizzazione “gradevole” in formato
reflowable (es. MathML o font SVG).
I Illustrazioni
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Documenti su due colonne
Articolo su 2 colonne
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Documenti su due colonne
Articolo convertito ad una colonna
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Documenti su due colonne
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Equazioni
Equazioni
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Equazioni
Equazioni: Epub
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Equazioni
Equazioni: Epub
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Tabelle
Tabelle
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Tabelle
Tabelle: Epub
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Tabelle
Tabelle: PDF su SONY reader
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Tabelle
Tabelle: PDF su SONY reader
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Tabelle
Tabelle: Epub su SONY reader
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Tabelle
Tabelle: PDF difficile !!WhAt StudentS KnoW And cAn do: Student PerformAnce In reAdIng, mAthemAtIcS And ScIence
8 © OECD 2010 PISA 2009 ReSultS: executIve SummARy
• Figure I. •Comparing Countries’ and eConomies’ performanCe
Statistically significantly above the OecD average not statistically significantly different from the OecD averageStatistically significantly below the OecD average
On the overall reading scale
On the reading subscales
On the mathematics
scaleOn the science
scale Access
and retrieveIntegrate
and interpretReflect
and evaluate
Continuous
textsNon-continuous
texts
oeCd average 493 495 493 494 494 493 496 501shanghai-China 556 549 558 557 564 539 600 575Korea 539 542 541 542 538 542 546 538Finland 536 532 538 536 535 535 541 554Hong Kong-China 533 530 530 540 538 522 555 549singapore 526 526 525 529 522 539 562 542Canada 524 517 522 535 524 527 527 529New Zealand 521 521 517 531 518 532 519 532Japan 520 530 520 521 520 518 529 539Australia 515 513 513 523 513 524 514 527Netherlands 508 519 504 510 506 514 526 522Belgium 506 513 504 505 504 511 515 507Norway 503 512 502 505 505 498 498 500Estonia 501 503 500 503 497 512 512 528Switzerland 501 505 502 497 498 505 534 517Poland 500 500 503 498 502 496 495 508Iceland 500 507 503 496 501 499 507 496United States 500 492 495 512 500 503 487 502Liechtenstein 499 508 498 498 495 506 536 520Sweden 497 505 494 502 499 498 494 495Germany 497 501 501 491 496 497 513 520Ireland 496 498 494 502 497 496 487 508France 496 492 497 495 492 498 497 498Chinese taipei 495 496 499 493 496 500 543 520Denmark 495 502 492 493 496 493 503 499United Kingdom 494 491 491 503 492 506 492 514Hungary 494 501 496 489 497 487 490 503Portugal 489 488 487 496 492 488 487 493macao-China 487 493 488 481 488 481 525 511Italy 486 482 490 482 489 476 483 489Latvia 484 476 484 492 484 487 482 494Slovenia 483 489 489 470 484 476 501 512Greece 483 468 484 489 487 472 466 470Spain 481 480 481 483 484 473 483 488Czech Republic 478 479 488 462 479 474 493 500Slovak Republic 477 491 481 466 479 471 497 490Croatia 476 492 472 471 478 472 460 486Israel 474 463 473 483 477 467 447 455Luxembourg 472 471 475 471 471 472 489 484Austria 470 477 471 463 470 472 496 494Lithuania 468 476 469 463 470 462 477 491Turkey 464 467 459 473 466 461 445 454dubai (uae) 459 458 457 466 461 460 453 466russian federation 459 469 467 441 461 452 468 478Chile 449 444 452 452 453 444 421 447serbia 442 449 445 430 444 438 442 443Bulgaria 429 430 436 417 433 421 428 439uruguay 426 424 423 436 429 421 427 427Mexico 425 433 418 432 426 424 419 416romania 424 423 425 426 423 424 427 428thailand 421 431 416 420 423 423 419 425trinidad and tobago 416 413 419 413 418 417 414 410Colombia 413 404 411 422 415 409 381 402Brazil 412 407 406 424 414 408 386 405montenegro 408 408 420 383 411 398 403 401Jordan 405 394 410 407 417 387 387 415tunisia 404 393 393 427 408 393 371 401indonesia 402 399 397 409 405 399 371 383argentina 398 394 398 402 400 391 388 401Kazakhstan 390 397 397 373 399 371 405 400albania 385 380 393 376 392 366 377 391Qatar 372 354 379 376 375 361 368 379panama 371 363 372 377 373 359 360 376peru 370 364 371 368 374 356 365 369azerbaijan 362 361 373 335 362 351 431 373Kyrgyzstan 314 299 327 300 319 293 331 330
Source: OecD, PISA 2009 Database.12 http://dx.doi.org/10.1787/888932343342
Source: OECD, PISA 2009 Database
http://dx.doi.org/10.1787/888932343342
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Illustrazioni
Diagrammi chimici “facili” da visualizzare
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Illustrazioni
Diagrammi chimici “difficili” da visualizzare
Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Illustrazioni
Casi ancora peggiori...
Documenti scientifici digitali: problematiche dei formati reflowable
Conclusioni
Conclusioni
I Documenti scientifici (articoli e monografie) pongonoproblemi specifici per:
I Conversione da formati:I digitalizzati (immagini),I digital-born (PDF).
I Visualizzazione:I in formati fissi su schermi di piccole dimensioni,I in formati reflowable (es. html - epub).
I Soluzioni?I tecnologiche: miglioramento metodi di estrazione
informazione,I parzialmente tecnologiche: come utilizzare standard esistenti
per visualizzare efficacemente oggetti complessi su schermi“piccoli”.
Documenti scientifici digitali: problematiche dei formati reflowable
Conclusioni
Commenti?
Domande?
[email protected]/∼simone