
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


SESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

2Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Reconocimiento Óptico de Caracteres (OCR)

Módulos disponibles:

ABBYY FineReader Engine

IBM Adaptative OCR

Tesseract …

Segmentar el texto en las divisiones más sencillas (letras, caracteres)

Facilitar el análisis por la máquina.

Se identifica el carácter y se comprueban sus características o propiedades con una BD interna hasta que encuentra con la que mejor “encaja”

texto editable a partir de una imagen.

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

3Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Retos OCR: páginas dañadas, alabeadas, tintas traspasadas, maquetación compleja, fuentes históricas…etc.

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

C aracte r sticas com une s d e las im ge ne s d igitale s …í á

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

5Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

… y sus e fe ctos e n e l O C R

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

6Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Reconocimientos erróneos: ¿internet inventado en el XVIII?

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

7Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Esquema del proceso OCR









IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

8Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Datos en el formato adecuado para cada aplicación

Módulos disponibles:

GIMP , ImageMagick impact_gimp_tif_to_png_conversion_202058.t2flow


Basic IMPACT Abbyy FRE 9 PAGE Exporterbasic_impact_abbyy_fre_9_page_xml_creator_392392.t2flow



IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

9Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Correcciones geométricas/Elim. márgenes¿Porqué?

rotadas, márgenes no deseados, ‘curvas’, páginas alabeadas …

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

10Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

A.-Correcciones geométricas

Basic IMPACT NCSR Geometric Correction Page Curl V3

Módulos disponibles:

ABBYY FineReader Engine

NCSR Geometric Correction “Page Curl”

TAVERNA: basic_impact_ncsr_geometric_correction_page_curl_550389.t2flow

NCSR Border Removal



OCRopus Deskewing

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

12Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

13Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

14Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Basic IMPACT NCSR BorderRemoval

B.- Eliminación de márgenes

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

15Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

16Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

17Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

‘Binarización’ de imágenes

¿Porqué?Tinta de una cara ha traspasado a la otra caraSombras de la otra cara de la hoja

Módulos disponibles:

ABBYY FineReader Engine TAVERNA: basic_abbyy_fre_10_binarisation_936808.t2flow


IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

18Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

19Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

20Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

21Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)


IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

22Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)


IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

23Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)


IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

24Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)


IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

25Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

NCRS Image Enhancement Toolkit(H-DocPro v.1)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

26Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Componentes para el procesamiento de imágenesBinarización

NCSR: Basado en "B. Gatos, I. Pratikakis and S. J. Perantonis, Adaptive Degraded Document Image Binarization, Pattern Recognition, Vol. 39, pp. 317-327, 2006"

FR8.1: FineReader Engine v. 8.1. IMPORTANTE: (a) Motor previamente instalado. (b) Añadir código de licencia de FineReader

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

27Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Componentes para el procesamiento de imágenesEliminación de bordes

Auto: Basado en perfiles de proyección y análisis de componentes.

Auto_Edit: Ajuste manual mediante el arrastre de puntos activos de un rectángulo delimitador.

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

28Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

22.383 imágenes de prueba

BL: 7% BNE: 34%BNF: 34% BSB: 11%JSI: 6% NLB: 2%ONB: 6%

Sólo imágenes con bordes

38.718 imágenes de


BL: 9% BNE: 29%BNF: 32% BSB: 12%JSI: 11% NLB: 2%ONB: 5%

Componentes para el procesamiento de imágenesEliminación de bordes

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

29Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Auto: Basado en "N. Stamatopoulos, B. Gatos, T. Georgiou, Page frame detection for double page document images, 9th IAPR International Workshop on Document Analysis Systems (DAS 2010), pp. 401-408, Cambridge, MA, USA, June 2010"

Auto_Edit: Ajuste manual mediante el arrastre de puntos activos de un rectángulo delimitador.

Componentes para el procesamiento de imágenesIndividualización de páginas

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

30Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

458 imágenes de la BNF

3.009 imágenes

BL: 72% BSB: 10% JSI: 18%

Componentes para el procesamiento de imágenesIndividualización de páginas

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

31Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

Auto: Basado en "N. Stamatopoulos, B. Gatos, I. Pratikakis and S.J. Perantonis, Goal-oriented Rectification of Camera-Based Document Images, IEEE Transactions on Image Processing, vol. 20, no. 4, pp. 910-920, 2011." IMPORTANT NOTICES: (a) It needs the MATLAB Component Runtime Installer, (b) it can be applied only to single column documents.

Auto_Edit: Corrección manual de líneas/curvas que delimitan el texto arrastrando los puntos activos de un rectángulo delimitador

Componentes para el procesamiento de imágenesCorrección de curvatura

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

32Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)

87,78% Corrección curvatura IMPACT v.4(81,98% sólo corrección en bruto)



Componentes para el procesamiento de imágenesCorrección de curvatura

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

33Procesamiento previo de imágenes – SESIÓN DEMO de IMPACT, 5 octubre 2011, BNE (Madrid)


Isabel Bordes CabreraJefe de Servicio de Biblioteca Digital, BNE

[email protected]

Top Related