evaluation de la qualité des documents anciens vincent rabeux labri

Post on 04-Apr-2015

108 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Evaluation de la qualité des documents anciens

Vincent Rabeux LaBRI

Plan

• Cas d’utilisations et besoins clients.• Les outils pour répondre aux besoins.• La qualité des documents• La transparence– Modélisation– Identification des pixels par recalage– Mesure de la transparence– Prédiction de l’OCR

• Travaux actuels

Cas d’utilisation et besoins clients

Classification de document

Factures Carte identité Roman

Indexation des documents

Base de données- Images - Métadonnées

Recherche

Les outils pour répondre aux besoins

Les outils

• Descripteurs images• Mise en page du document• Texte• Structure logique (Table des matières,

Chapitres, Sections)• => OCR (Optical Character Recognition)– Extraction de la mise en page– Bloc de texte, image, formule mathématique, ..– Transcription du texte

Problèmes des OCRs

• Liés au document :– Fontes– Complexité de la mise en page

• Liés à l’image :– Défauts de l’image– Binarisation

La qualité des documents

Les défauts des documents anciens

Algorithmes de restauration

Problème : - Les temps de calculs

Solution : - Détecter les images bruitées.

Evaluation de la qualité

• L’objectif est de répondre à la question :

– Quel sera le taux d’erreur d’un algorithme (OCR) sur une image donnée ?

La transparence

Modélisation

Transparence

Transparence (Modélisation par la lumière)

Transparence(Modélisation par diffusion)

La transparence

Identification des pixels par recalage

Recalage Recto-Verso

Recalage Recto-Verso

Recalage Recto-Verso

Recalage Recto-Verso

Recalage Recto-Verso

• Problème :– Le recto et le verso ne sont pas scanné en même temps.– Pas le même repère.

• Méthodes existantes :– Temps de calcul très important.– Échoue quand la transparence est faible.

• Nouvel algorithme :– Rapide– Précis– Averti l’utilisateur, en cas d’échec.

Recalage Recto-Verso

Recalage Recto-Verso

• Profils

Recalage Recto-Verso

• Recalage des profils Horizontaux et Verticaux Utilisation d’un « dynamic time warping »

Rotation : Redressement Décalage x et y : DTW.

Recalage Recto-Verso

• Erreur résultante après DTW.• Garantir la précision :– 500 images– 50 sans transparence– Seuil à 0.19

Recalage Recto-Verso

• Résultats :– 50 fois plus rapide (12s vs 598s)– Erreur max de l’état de l’art • Rotation : 18• Translation horizontal : 38• Translation vertical : 39

– Erreur max de notre algorithme • Rotation : 0.25• Translation horizontal : 1• Translation vertical : 11

Identification des pixels de transparence

La transparence

Mesures

Mesure de la transparence

• Intensité :– Distance à l’encre.– Distance au fond.

Mesure de la transparence

Mesure de la transparence

• Composantes ajoutées.• Composantes modifiées.• A quelle point sont-elle modifiées ?

La transparence

Prédiction de l’OCR

Utilisation des mesures

• Prédiction du taux d’erreur de 2 OCRs :

– Abbyy Fine Reader

– OCRopus

• Taux d’erreur calculé grâce à la distance d’édition.

Utilisation des mesures

• Besoins :– Mesurer la transparence et pas les autres défauts, – Avoir une vérité terrain pour l’OCR.

• Génération de documents synthétiques :– fonds, – fontes,– niveau de transparence, – mise en page,

• 200 images de documents générées (90% pour le modèle, 10% pour sa validation).

Extrait du corpus de document

Précision du modèle statistique

• Régression linéaire.• Modèle – OCROpus : R2 = 0.99,– ABBYY : R2 = 0.97,

• Validation– OCROpus : R2 = 0.99, Coefficient : 0.99– ABBYY : R2 = 0.97, Coefficient : 1.006.

Résultats encourageants

• Modèle de prédiction très précis.• Chacune des mesures a son rôle à jouer.• Problèmes :– Données synthétiques.– Beaucoup d’autres défauts.– Besoin d’une vérité terrain des défauts.

Travaux actuels

Travaux actuels

• Création d’une plateforme collaborative de création de vérité terrain: – Orienté qualité (défauts)– 3 niveaux de vérité terrain :• Synthétique.• Utilisateur.• Expert.

• Accessible par web services.

Documents Synthétiques

Niveau utilisateur

Niveau expert

Perspectives

• Finir la base d’images annotées.• Développer des mesures pour les autres

défauts :– Taches– Déformations des caractères

• Prédiction de la qualité d’un document perçu par un être humain.

Merci !

top related