scribo - extraction automatique de connaissances à partir d'images

15
Scribo Extraction automatique de connaissances ` a partir d’images Guillaume Lazzara [email protected] Thierry G´ eraud Yann Jacquelet Arthur Cr´ epin-Leblond Roland Levillain Julien Marquegnies EPITA Research and Development Laboratory http://www.lrde.epita.fr Guillaume Lazzara Scribo 1 / 15

Upload: epitalrde

Post on 04-Dec-2014

1.147 views

Category:

Technology


2 download

DESCRIPTION

Présentation donnée lors du CO-Lab Scribo du 23 novembre 2010

TRANSCRIPT

Page 1: Scribo - Extraction automatique de connaissances à partir d'images

ScriboExtraction automatique de connaissances a partir d’images

Guillaume [email protected]

Thierry GeraudYann Jacquelet

Arthur Crepin-LeblondRoland Levillain

Julien Marquegnies

EPITA Research and Development Laboratoryhttp://www.lrde.epita.fr

Guillaume Lazzara Scribo 1 / 15

Page 2: Scribo - Extraction automatique de connaissances à partir d'images

Outline

1 Introduction

2 Cas d’application

3 Les outils

4 Demo

5 Conclusion

Guillaume Lazzara Scribo 2 / 15

Page 3: Scribo - Extraction automatique de connaissances à partir d'images

Introduction (1/2)

Constat :

Gros volumes de donnees :

au format papier (documents d’entreprises, d’institutions...),ou deja numerises (sous forme d’images).

Presence de texte :

non manipulable (au format image, pas texte ! ),a exploiter (nombreuses applications).

Idee : a partir d’une image de document :

preserver la structure du document,

conserver les informations de style.

Identifier les objets non texte (traits, cadres, cartouches, images (!)...)

Guillaume Lazzara Scribo 3 / 15

Page 4: Scribo - Extraction automatique de connaissances à partir d'images

Introduction (2/2)

But de notre participation dans Scribo :

dematerialiser des documents papiers,

fournir une solution libre et gratuite,

enrichir notre bibliotheque de traitement d’images (Licence GNUGPLv2).

Guillaume Lazzara Scribo 4 / 15

Page 5: Scribo - Extraction automatique de connaissances à partir d'images

Cas d’application

2 chaınes de traitement principales :

Extraction et reconstruction d’un document complexe.

Detection de texte dans les photos.

Des cas d’application :

Nepomuk KDE : recherche de mots cles dans les images.

AFP : extraction de texte dans les photos de presse pour indexation.

Nuxeo/XWiki : extraction de texte dans les images pour enrichir lesmeta-donnees.

Guillaume Lazzara Scribo 5 / 15

Page 6: Scribo - Extraction automatique de connaissances à partir d'images

Exemples de documents

Guillaume Lazzara Scribo 6 / 15

Page 7: Scribo - Extraction automatique de connaissances à partir d'images

Olena

Scribo s’appuie sur la plateforme Olena :

dediee au traitement d’images,collection d’outils generaux (structures et algorithmes)10 ans d’age,version 1.0 sortie en juillet 2009,

Module Scribo pour la dematerialisation

outils specifiques,disponible sur Internet http://olena.lrde.epita.fr

Guillaume Lazzara Scribo 7 / 15

Page 8: Scribo - Extraction automatique de connaissances à partir d'images

Fonctionnalites de Scribo (1/3)

Nettoyage de l’image.

suppression de bruit,separation objets/fond,

= +

Binarisation.

Guillaume Lazzara Scribo 8 / 15

Page 9: Scribo - Extraction automatique de connaissances à partir d'images

Fonctionnalites de Scribo (2/3)

Extraction de primitives :

lignes,motifs (tableaux),images.

Groupement d’objets :

passage de composantes a ungraphe,plusieurs strategiesdisponibles,identification de lignes detexte.

Guillaume Lazzara Scribo 9 / 15

Page 10: Scribo - Extraction automatique de connaissances à partir d'images

Fonctionnalites de Scribo (3/3)

Extraction de tableaux :

reconstruction a partir deslignes verticales ethorizontales,decoupage en cellules,obtention de la structure.

Reconnaissance de caracteres :

amelioration de la qualite deszones de texte,integration du logiciel OCRTesseract. →

Guillaume Lazzara Scribo 10 / 15

Page 11: Scribo - Extraction automatique de connaissances à partir d'images

Chaıne de dematerialisation

Guillaume Lazzara Scribo 11 / 15

Page 12: Scribo - Extraction automatique de connaissances à partir d'images

Demo

<< LiveDemo >>

Guillaume Lazzara Scribo 12 / 15

Page 13: Scribo - Extraction automatique de connaissances à partir d'images

Demo

Guillaume Lazzara Scribo 13 / 15

Page 14: Scribo - Extraction automatique de connaissances à partir d'images

Conclusion (1/2)

Disseminations logicielles :

developpement ouvert sur depot Git,sortie d’Olena Version 1.1 bientot,nouvelle version du module Scribo.

Disseminations scientifiques :

publications (ISMM 2009, ICIP 2010, WADGMM 2010),2 publications en cours,2 concours (HSC 2009, H-DIBCO 2009).

Guillaume Lazzara Scribo 14 / 15

Page 15: Scribo - Extraction automatique de connaissances à partir d'images

Conclusion (2/2)

En cours de packaging pour Mandriva Linux,

Deja utilise par :

KDE (Nepomuk),XWiki,Nuxeo.

Plus d’informations et demos en ligne sur :

http://olena.lrde.epita.fr/

Guillaume Lazzara Scribo 15 / 15