reconocimiento Óptico de caracteres
DESCRIPTION
Utilería para digitalizar, generar OCR y crear archivos PDF de código abierto Luis René Salas López [email protected] Coordinación de Automatización Bibliotecaria Xalapa. Reconocimiento Óptico de Caracteres. OCR. Los despido a todos. _ Estoy muy cansado… Quiero dormirme . - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Reconocimiento Óptico de Caracteres](https://reader036.vdocuments.site/reader036/viewer/2022062222/5681692e550346895de07313/html5/thumbnails/1.jpg)
Primer Foro Universitario de Software Libre3, 4, y 5 de Junio de 2013
Proyecto GNU
FreeBSD
Linux
Utilería para digitalizar, generar OCR y crear archivos PDF de código abierto
Luis René Salas Ló[email protected]
Coordinación de Automatización Bibliotecaria
Xalapa
![Page 2: Reconocimiento Óptico de Caracteres](https://reader036.vdocuments.site/reader036/viewer/2022062222/5681692e550346895de07313/html5/thumbnails/2.jpg)
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Reconocimiento Óptico de Caracteres
Los despido a todos._Estoy muy cansado… Quiero dormirme._¿No vas a merendar?_No. Tengo mucho sueño...
OCR
![Page 3: Reconocimiento Óptico de Caracteres](https://reader036.vdocuments.site/reader036/viewer/2022062222/5681692e550346895de07313/html5/thumbnails/3.jpg)
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Tesseract-OCR
• Desarrollado por HP entre 1985 y 1994.• Nunca se usó en un producto HP.• Código liberado en 2005 y adoptado por
Google.• Altamente portable• Reconoce más de 60 lenguajes.
![Page 4: Reconocimiento Óptico de Caracteres](https://reader036.vdocuments.site/reader036/viewer/2022062222/5681692e550346895de07313/html5/thumbnails/4.jpg)
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Creación del documento
• Cuando se realiza el proceso de OCR sobre una imagen, podemos obtener un archivo con ubicación espacial del texto: hocr
![Page 5: Reconocimiento Óptico de Caracteres](https://reader036.vdocuments.site/reader036/viewer/2022062222/5681692e550346895de07313/html5/thumbnails/5.jpg)
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Creación del documento
• hOcr2Pdf.NETEs una librería para convertir .hocr html producidos por el motor Tessract-OCR o Cuneiform en pdf buscable. Liberado bajo licencia GNU General Public License version 2 (GPLv2).
![Page 6: Reconocimiento Óptico de Caracteres](https://reader036.vdocuments.site/reader036/viewer/2022062222/5681692e550346895de07313/html5/thumbnails/6.jpg)
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Creación del documento
• iTextSharpEs una librería compatible con C# de iText para java de código abierto para la creación y manipulación de archivos PDF. Liberado bajo licencia Affero GNU Public License.
![Page 7: Reconocimiento Óptico de Caracteres](https://reader036.vdocuments.site/reader036/viewer/2022062222/5681692e550346895de07313/html5/thumbnails/7.jpg)
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Creación del documento
![Page 8: Reconocimiento Óptico de Caracteres](https://reader036.vdocuments.site/reader036/viewer/2022062222/5681692e550346895de07313/html5/thumbnails/8.jpg)
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Creación del PDF
![Page 9: Reconocimiento Óptico de Caracteres](https://reader036.vdocuments.site/reader036/viewer/2022062222/5681692e550346895de07313/html5/thumbnails/9.jpg)
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Capacidad de búsqueda
![Page 10: Reconocimiento Óptico de Caracteres](https://reader036.vdocuments.site/reader036/viewer/2022062222/5681692e550346895de07313/html5/thumbnails/10.jpg)
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Referencias
• “hOcr2Pdf.NET”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: https://hocrtopdf.codeplex.com/
• “iTextSharp”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: http://sourceforge.net/projects/itextsharp/
• “Tesseract-OCR”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: https://code.google.com/p/tesseract-ocr/