cómo escanear y aplicar ocr a libros

3

Click here to load reader

Upload: cursos-voz

Post on 07-Jun-2015

7.589 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Cómo Escanear Y Aplicar Ocr A Libros

Realizar OCR a libros: Reconstruir desde cero por Mordekainen [Marzo 2002]

Este es un breve manual para realizar OCR a libros con una maquetación/formato razonablementecomplejo y/o imágenes incrustadas. Por favor, ten en cuenta que existen muchas otras técnicas y quelibros más sencillos pueden ser OCR con buenos resultados pasándolos directamente a PDF.Reconstruirlos desde cero es una forma de escanear que consume tiempo (y paciencia). Estas sonalgunas de las cosas que he descubierto y no una biblia que seguir al pie de la letra.

Nota Final: Aunque lo presento como pasos a seguir, no es necesario que se sigan en el orden queaparecen. Puedes escanear varias páginas, trabajar con ellas, hacerles OCR y luego escanear máspáginas y repetir el proceso.

SOFTWARE

Hay muchas aplicaciones que hacen lo mismo (o similar) que las aplicaciones a las que me voy a referir.Uso Paint Shop Pro, ReadIris, Microsoft Word y Jaws PDF Producer.

Cuando trabajes con imágenes, probablemente trabajarás con JPG. Debes encontrar una tasa decompresión que te dé una buena calidad y el archivo no sea demasiado grande. Suelo preferir mejorcalidad a menor tamaño, pero ten cuidado si tu libro tiene muchas imágenes. Siempre puedes guardarlas imágenes importantes con mejor calidad donde, como se dice en la industria, el arte de rellenopuede sacrificar más en términos de calidad.

ESCANEAR

El consejo principal es encontrar la relación correcta entre brillo y contraste. La única forma de hacerloes mediante pruebas.

Lo que quieres es ver la página, sin tener que ajustar la configuración del monitor. También recuerdaque es más fácil de corregir si la imagen tiene más brillo que darle brillo a una imagen oscura.

Las cubiertas siempre son en color, así que deberías escanearlas a 150 dpi en color a menos quequieras hacerle OCR a cualquier texto que aparezca en ellas (nombre de autor...). En ese caso,escanéalas a 300 dpi pero en la mayoría de las situaciones con una simple imagen para las cubiertasbasta. No olvides la cubierta trasera. Ya que el escaner proporciona la fuente, querrás alinear el librocorrectamente para evitar la rotación pero lo que debes evitar es inclinar la página (por ejemplo,presionar más al final de la página que en el principio) ya que la rotación se puede arreglar con unprograma de retoque.

Ahora, para escanear el libro en sí, examina las páginas. Si ves algún gráfico que se repita en el libroen los márgenes, necesitarás escanear una página (o una par y otra impar) con el propósito de conseguirdichos márgenes. Elige la/s página/s que mejor se adapte. Esto dependerá del libro. En algunos, estaráal principio (o al final), en otros, por la mitad del mismo. Como las cubiertas, evita la rotación y lainclinación: recuerda que estos gráficos se utilizarán en todo el libro, así que deben ser buenos. A 150dpi, está bien.

CONSEJO: No olvides los extractos de la web. Normalmente tienen la misma apariencia que el libroy eliminarán parte del trabajo simplemente capturando las imágenes de ahí.

No te preocupes del resto de la página, sólo concéntrate en los márgenes. Una vez hecho, abre lasimágenes en Paint Shop Pro y selecciona con cuidado las partes relevantes, guardándolas en archivosdistintos. Si un libro tiene un gráfico que está presente arriba, abajo y al lado del texto, deberíasguardarlo en tres archivos distintos para evitar un tamaño redundante.

Con los gráficos (márgenes) repetitivos hechos, escanea el libro. Página a página, si la página sólo tieneimágenes (aparte de los márgenes) deberías escanearlos a 300 dpi (si la imagen está en color, claro)o 300 dpi en escala de grises. Sólo escanea en blanco y negro si la imagen tiene sólo dos colores. Si

Page 2: Cómo Escanear Y Aplicar Ocr A Libros

hay dudas, en escala de grises.

Si la página sólo tiene texto (aparte de márgenes, etc), escanea a 300 dpi en escala de grises o 300-600dpi blanco y negro (depende del fondo, fuente... experimenta hasta que encuentres cómo queda mejor).Bien, ahora tienes todas las páginas escaneadas dependiendo de si hay imágenes o no. con esto enmente, carga todas las páginas con imágenes en el PSP y recórtalas con cuidado y guárdalas porseparado. Dependiendo del libro tendrás que reducir el tama ño de la imagen (ver más abajo).

OPCIONAL: Ya que tienes los márgenes guardados (¿no?), puedes eliminarlos de todas las páginas.Así consigues que el programa de OCR detecte con facilidad la maquetación de la página.

ROTACION/INCLINACION: Si cualquier página está rotada, puedes arreglarlo con PSP. La mayoría delos programas de OCR permiten 4 rotaciones (bastante restringido) pero úsalo si quieres rotar unapágina 0.5 grados para evitar problemas de OCR más tarde (sobre todo si está a dos columnas). Lainclinación o el exceso de presión es más difícil y es mejor reescanear las páginas problemáticas.

REALIZAR OCR

Necesitarás un poco de práctica aquí (para ver si 300 dpi en escala de grises funciona mejor que 600blanco y negro, por ejemplo) para conseguir resultados óptimos. Introduce las páginas en el programa.Si proporciona aprendizaje, ¡USALO! Comprueba que el sistema de autodetección funcionacorrectamente, arreglando los posibles problemas que puedan surgir. Lo que quieres es guardar eltexto/tablas tan cerca del original como sea posible. Exporta el resultado a .TXT.

RECONSTRUIR

La primera consideración es de fuentes. Deberías tener las mismas fuentes (si es posible) o muysimilares. Esto te evitará problemas si quieres que cada página parezca del original.

CONSEJO: Si hay extractos en la web que puedas abrir con Acrobat y (si la configuración de seguridadlo permite) usa la herramienta de Retoque de texto para ver qué fuente se ha usado en cada párrafo.

Crea un documento de Word (o de cualquier otro). Crea una plantilla para ahorrar tiempo y esfuerzo ytambién para reducir el tamaño final del archivo. La plantilla se compone de una o varias páginas quetendrán los gráficos de los márgenes en su sitio. También puedes poner cuadros de texto con el númerode página para que cambie automáticamente. Sitúa los márgenes tan cerca como puedas del original(utiliza una regla). Si el libro usa diferentes gráficos para los márgenes para las páginas pares e impares,asegúrate de elegir "diferentes en páginas pares e impares" en las opciones de encabezado y pie depágina. Columnas...

Ahora, pon el modo de encabezado y pie de página. Inserta las cuadros de texto de los gráficos demargen y cualquier número de página, número de capítulo, etc. De esta forma, cada página utilizaráautomáticamente el mismo gráfico reduciendo el tamaño del archivo y sin que tengas que ponerlos tú.

Ahora empieza con el libro. Ten en cuenta dos detalles muy importantes en la apariencia final. Si hayalguna página sin los gráficos repetitivos (las cubiertas, por ejemplo) eligeINSERTAR->ROMPER->ROMPER SECCION. Así tendrás una página nueva sin los mencionadosgráficos.Comienza insertando el texto desde el .TXT en el documento. Mantén el PSP abierto en modoexplorador para que puedas abrir rápidamente cualquier página relevante. Cuando una página tengauna imagen, insértala. Doble click y reduce su tamaño. Asegúrate de que está cerca del 100%. Si laimagen es mayor de lo necesario, ábrela en PSP y redúcela de forma acorde.

Maqueta el texto con las fuentes y colores correctos y una separación de líneas similar (en propiedadesde párrafo).

CONSEJO: ¡Los estilos de texto son tus amigos! Por ejemplo, si el libro divide el cuerpo de texto porcabeceras usando Verdana a tamaño 16, en rojo y negrita, crea un estilo con estas propiedades paraque en cada encabezado sólo tengas que seleccionar "mi estilo" y ya está.

Page 3: Cómo Escanear Y Aplicar Ocr A Libros

Para páginas con algo de texto (como tablas) que no se correspondan con la apariencia general, usacuadros de texto. Sigue así hasta que termines el libro.

CREANDO EL PDF

Utilizo JAWS porque siempre crea archivos de tamaño muy pequeño. Necesitas crear una tareaeligiendo las opciones. Las que uso yo son (si no las menciono, se asume que están deshabilitadas):

GENERAL: PDF file format: v1.3Thumbnail: Ninguno (a mucha gente le gusta, pero para mí sólo añade tamaño al archivo sin beneficiosreales - imprimo los libros, no destrozo mis ojos intentando leer libros en la pantalla. Por la misma razónno hago marcadores)Resolution: 72 (esto sólo se aplica al gradiente. Si utilizas muchos de ellos o mayores increméntalo a150 para mejorar la calidad de la impresión)Advanced Transfer Functions: ApplyConvert CMYK to RPGConvert divide independent...COMPRESSION Color Images: Bicubic, 150, JPG low compression Greyscale: Bicubic, 150, JPG lowcompression Monochrome: Subsample, 300, CCITT Group 4 Compress TextFONT EMBEDDING Never Embed: Tahoma, Times New Roman, Wingdings Embed all fonts (exceptbase 14 fonts)Subset fonts

COMENTARIOS

¡Finalmente comprime en .RAR el archivo! Si utilizas JAWS no conseguirás mucha mejora pero nosupone un gran trabajo para ti y puede ayudar a mucha gente. Como caso extremo, la CampañaRevisada de Dark Sun ocupa 22.5 MB en PDF pero ¡sólo 14.4 en .RAR!De todas formas, la práctica hace mejorar. Esta técnica demanda tiempo y trabajo duro pero puedeconseguir grandes resultados difícilmente alcanzables con PDF OCRing. Simplemente asegúrate de queel libro en el que trabajas realmente merece este trabajo.Para cualquier sugerencia o pregunta respecto a lo anterior puedes ponerte en contacto conmigo enDalNet's #RPGBookz o Nullus's #BW-RPG. Diviértete y buena suerte con tus proyectos.