Posts etiquetados ‘OCR’

En este paso parto de la suposición de que la fuente original del texto a digitalizar esta en papel, en caso de no ser así, es decir si ya tenemos un documento en formato PDF podemos pasar al OCR directamente.

Antes de explicar como realizar este proceso me gustaría indicar la diferencia entre escanear un documento y realizar un tratamiento de OCR sobre dicho documento, ya que mucha gente cree que es la misma cosa y nada mas lejos de la realidad. Obviamente existen software que realizan ambos pasos de manera simultanea y por eso puede llevar a alguna confusión.

Cuando realizamos un escaneo de una pagina lo que realizamos es una “fotografía” lo mas fidedigna posible de esa página. Igualmente por defecto el sistema nos permite guardar dicha “fotografía” como un fichero de imagen (jpg, png, bmp, etc…) o con un formato PDF. La principal diferencia entre ambas opciones es que cuando guardamos en formato imagen el software del escaner va a crear un archivo por cada página escaneada mientras que si utilizamos el formato PDF el software permite agrupar todas las paginas escaneadas en un solo archivo si así lo deseamos, “simulando” que tenemos un documento de texto pero sin serlo realmente. Este es un hecho importante porque para poder trabajar después con el CONTENIDO de estas imágenes debemos realizar un procedimiento que permita “convertir” estas imágenes en texto con el cual podamos trabajar. Este proceso de conversión es el que se realiza con el software de OCR. En términos simples este software analiza las imágenes reconociendo caracteres y palabras y las convierte en texto. Existen numerosos programas de OCR, gratuitos o de pago y de pago, ademas de que suele estar integrado en el software que acompaña a nuestra impresora. En mi caso yo suelo utilizar el programa AbbyyFine Reader.

 1) Escanear el Original

En lineas generales para que el OCR del texto sea de calidad y tenga pocos errores tenemos que realizar un escaneo adecuado, es decir, a mejor definición de la imagen escaneada mejor sera el OCR sin embargo a mayor resolución de la imagen también aumenta el tamaño del fichero lo cual puede llevar a encontrarnos con ficheros muy grandes a nuestro ordenador le cueste manejar. Los mejores valores para realizar el escaneo son los que aparecen en esta imagen:

Escaner

Si nos encontramos con un texto con la letra muy pequeña entonces deberemos aumentar la resolución del escaner a 400 o incluso 600 ppp

2) OCR

Como ya he indicado anteriormente la mayoría de las aplicaciones de OCR permiten agrupar en un solo proceso tanto el escaneo como el reconocimiento del texto, sin embargo, yo prefiero explicar el proceso como dos pasos diferenciados. En un primer momento realizamos el escaneo a un fichero PDF y a continuación abrimos este PDF en el programa AbbyyFine Reader o similar para que analice el documento y marque las diferentes áreas del documento. El programa identifica 3 tipos de áreas (de texto, de imagen o tabla) y en función de esta codificación realizara el proceso de conversión respetando siempre que se pueda el estilo y tipo de fuente del original.

abbyy

En este punto nuestra tarea sera revisar el análisis hecho por el programa y corregir todos aquellos errores que el programa no haya detectado como son, paginas sin texto, codificación errónea de áreas, eliminación de encabezados y pie de paginas, etc …

En todo momento tendremos dos ventanas de la aplicación, en la de la derecha tenemos el texto escaneado y en la de la izquierda el resultado del OCR realizado.

Una vez terminado este proceso procederemos a exportar el resultado al tipo de documentos que prefiramos, AbbyyFine tiene una amplia variedad de formatos soportados (DOC, PDF, EPUB, RTF, HTML, etc…) En mi opinión el mejor formato de exportación es como documento HTML o RTF, la razón es que ambos formatos mantienen los estilos básicos del texto y elimina mucha de la codificación “sucia” que suelen tener otros formatos. Tened en cuenta que nos interesa tener un texto “casi plano” en cuanto a estilos porque posteriormente vamos a ser nosotros los que maquetemos los estilos propios. Utilizando un símil como ejemplo; para pintar una pared de blanco es preferible partir una pared con un color claro homogéneo antes que una pared pintada en varios colores oscuros.

Del Papel al Ebook (I): Introducción

Del Papel al Ebook (III): Edición de texto

Del Papel al Ebook (IV): QualityEbook

DEL PAPEL AL EBOOK (I): Introducción

Publicado: 18 de febrero de 2013 de webjoram en Edición digital, Manuales
Etiquetas:, , , ,

Una de las consecuencias que ha tenido el desarrollo de la edición digital es la recuperación de numerosos libros descatalogados, agotados o cuya edición ha estado circunscrita a un país. En la mayoría de los casos las grandes editoriales no han cubierto esta necesidad de recuperar para el ámbito digital este fondo cultural y ha sido gracias a la aportación de muchas personas que han dedicado su tiempo al largo proceso que conlleva convertir un texto impreso en un documento digital. Este labor de digitalización empezó mucho antes del desarrollo de los modernos lectores electrónicos y ya en los años 70 tenemos las creación de proyectos como Gutemberg que busca la digitalización de todas las obras libres de derechos de autor en todos los idiomas. A este proyecto le siguieron otros muchos, no todos ellos “legales”, que tienen como objetivo compartir cultura y que en muchos casos a pesar de su status “alegal” han permitido a muchos usuarios acceder a textos que de otra manera les habría sido totalmente imposible. Dejando de lado discusiones sobre la legalidad de esta práctica lo que si es cierto es que en ocasiones muchas personas se encuentran con la necesidad de digitalizar textos impresos para convertirlos en ebook que poder utilizar en sus ereaders o tablets; es a estos usuarios a los que he decidido dedicar una serie de post en los que voy a explicar de la manera más básica posible las etapas que debemos llevar a cabo para realizar esta tarea y que el producto resultante cumpla con los estándares de los diferentes formatos de ebook (EPUB, MOBI, FB2) y por lo tanto sean compatibles con la mayor parte de los lectores existentes en el mercado. En lineas generales las etapas que conlleva este proceso son:

  1. Escaneo del texto y OCR
  2. Revisión del texto con un procesador de textos
  3. Conversión del texto al formato ebook deseado
  4. Depuración del Ebook

Este esquema es el que yo considero más fácil de entender para un profano. Evidentemente cualquier persona con conocimientos de HTML, CSS es posible que considere que se realizan demasiados pasos y que se podría directamente pasar del OCR a la maquetación del texto directamente utilizando herramientas como SIGIL, BookDesigner, Fiction Editor o Notepa++ pero para la mayoría de las personas les resulta mas sencillo realizar estas tareas con un programa más conocido como puede ser el Word o cualquier otro procesador de textos y posteriormente depurar, si así lo desea o requiere, el ebook resultante con herramientas más especificas. Para realizar este proceso necesitaremos:

  1. Un escaner de mesa
  2. Software de OCR (incluido con la mayoría de las impresoras). Existen también software comerciales muy buenos como AbbyyFine Reader y gratuitos como FreeOCR.
  3. Procesador de textos, podemos utilizar OpenOffice, LibreOffice como alternativas gratuitas pero por ciertos problemas de compatibilidad con QualityEbook recomiendo utilizar Word.
  4. QualityEbook es el programa que nos va a permitir convertir un documento Word en el formato de ebook que deseemos.
  5. Sigil. Este es un programa que nos va a permitir la edición de los ebook en formato EPUB para depurar generados con QualityEbook.

Nos vemos en el siguiente post con la primera etapa de nuestro proceso.

Del Papel al Ebook (II): Escaneo del texto y OCR

Del Papel al Ebook (III): Edición de texto

Del Papel al Ebook (IV): QualityEbook