DEL PAPEL AL EBOOK (II): Escaneo del texto y OCR

Publicado: 20 de febrero de 2013 de webjoram en Edición digital, Manuales
Etiquetas:, , , ,

En este paso parto de la suposición de que la fuente original del texto a digitalizar esta en papel, en caso de no ser así, es decir si ya tenemos un documento en formato PDF podemos pasar al OCR directamente.

Antes de explicar como realizar este proceso me gustaría indicar la diferencia entre escanear un documento y realizar un tratamiento de OCR sobre dicho documento, ya que mucha gente cree que es la misma cosa y nada mas lejos de la realidad. Obviamente existen software que realizan ambos pasos de manera simultanea y por eso puede llevar a alguna confusión.

Cuando realizamos un escaneo de una pagina lo que realizamos es una “fotografía” lo mas fidedigna posible de esa página. Igualmente por defecto el sistema nos permite guardar dicha “fotografía” como un fichero de imagen (jpg, png, bmp, etc…) o con un formato PDF. La principal diferencia entre ambas opciones es que cuando guardamos en formato imagen el software del escaner va a crear un archivo por cada página escaneada mientras que si utilizamos el formato PDF el software permite agrupar todas las paginas escaneadas en un solo archivo si así lo deseamos, “simulando” que tenemos un documento de texto pero sin serlo realmente. Este es un hecho importante porque para poder trabajar después con el CONTENIDO de estas imágenes debemos realizar un procedimiento que permita “convertir” estas imágenes en texto con el cual podamos trabajar. Este proceso de conversión es el que se realiza con el software de OCR. En términos simples este software analiza las imágenes reconociendo caracteres y palabras y las convierte en texto. Existen numerosos programas de OCR, gratuitos o de pago y de pago, ademas de que suele estar integrado en el software que acompaña a nuestra impresora. En mi caso yo suelo utilizar el programa AbbyyFine Reader.

 1) Escanear el Original

En lineas generales para que el OCR del texto sea de calidad y tenga pocos errores tenemos que realizar un escaneo adecuado, es decir, a mejor definición de la imagen escaneada mejor sera el OCR sin embargo a mayor resolución de la imagen también aumenta el tamaño del fichero lo cual puede llevar a encontrarnos con ficheros muy grandes a nuestro ordenador le cueste manejar. Los mejores valores para realizar el escaneo son los que aparecen en esta imagen:

Escaner

Si nos encontramos con un texto con la letra muy pequeña entonces deberemos aumentar la resolución del escaner a 400 o incluso 600 ppp

2) OCR

Como ya he indicado anteriormente la mayoría de las aplicaciones de OCR permiten agrupar en un solo proceso tanto el escaneo como el reconocimiento del texto, sin embargo, yo prefiero explicar el proceso como dos pasos diferenciados. En un primer momento realizamos el escaneo a un fichero PDF y a continuación abrimos este PDF en el programa AbbyyFine Reader o similar para que analice el documento y marque las diferentes áreas del documento. El programa identifica 3 tipos de áreas (de texto, de imagen o tabla) y en función de esta codificación realizara el proceso de conversión respetando siempre que se pueda el estilo y tipo de fuente del original.

abbyy

En este punto nuestra tarea sera revisar el análisis hecho por el programa y corregir todos aquellos errores que el programa no haya detectado como son, paginas sin texto, codificación errónea de áreas, eliminación de encabezados y pie de paginas, etc …

En todo momento tendremos dos ventanas de la aplicación, en la de la derecha tenemos el texto escaneado y en la de la izquierda el resultado del OCR realizado.

Una vez terminado este proceso procederemos a exportar el resultado al tipo de documentos que prefiramos, AbbyyFine tiene una amplia variedad de formatos soportados (DOC, PDF, EPUB, RTF, HTML, etc…) En mi opinión el mejor formato de exportación es como documento HTML o RTF, la razón es que ambos formatos mantienen los estilos básicos del texto y elimina mucha de la codificación “sucia” que suelen tener otros formatos. Tened en cuenta que nos interesa tener un texto “casi plano” en cuanto a estilos porque posteriormente vamos a ser nosotros los que maquetemos los estilos propios. Utilizando un símil como ejemplo; para pintar una pared de blanco es preferible partir una pared con un color claro homogéneo antes que una pared pintada en varios colores oscuros.

Del Papel al Ebook (I): Introducción

Del Papel al Ebook (III): Edición de texto

Del Papel al Ebook (IV): QualityEbook

Anuncios
comentarios
  1. […] Del Papel al Ebook (II): Escaneo del texto y OCR […]

  2. […] Del Papel al Ebook (II): Escaneo del texto y OCR […]

  3. Daniela dice:

    Gracias por la guía. Descargare el programa Fine Reader para probarlo.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s