Posts etiquetados ‘QualityEbook’

En este paso parto de la suposición de que la fuente original del texto a digitalizar esta en papel, en caso de no ser así, es decir si ya tenemos un documento en formato PDF podemos pasar al OCR directamente.

Antes de explicar como realizar este proceso me gustaría indicar la diferencia entre escanear un documento y realizar un tratamiento de OCR sobre dicho documento, ya que mucha gente cree que es la misma cosa y nada mas lejos de la realidad. Obviamente existen software que realizan ambos pasos de manera simultanea y por eso puede llevar a alguna confusión.

Cuando realizamos un escaneo de una pagina lo que realizamos es una “fotografía” lo mas fidedigna posible de esa página. Igualmente por defecto el sistema nos permite guardar dicha “fotografía” como un fichero de imagen (jpg, png, bmp, etc…) o con un formato PDF. La principal diferencia entre ambas opciones es que cuando guardamos en formato imagen el software del escaner va a crear un archivo por cada página escaneada mientras que si utilizamos el formato PDF el software permite agrupar todas las paginas escaneadas en un solo archivo si así lo deseamos, “simulando” que tenemos un documento de texto pero sin serlo realmente. Este es un hecho importante porque para poder trabajar después con el CONTENIDO de estas imágenes debemos realizar un procedimiento que permita “convertir” estas imágenes en texto con el cual podamos trabajar. Este proceso de conversión es el que se realiza con el software de OCR. En términos simples este software analiza las imágenes reconociendo caracteres y palabras y las convierte en texto. Existen numerosos programas de OCR, gratuitos o de pago y de pago, ademas de que suele estar integrado en el software que acompaña a nuestra impresora. En mi caso yo suelo utilizar el programa AbbyyFine Reader.

 1) Escanear el Original

En lineas generales para que el OCR del texto sea de calidad y tenga pocos errores tenemos que realizar un escaneo adecuado, es decir, a mejor definición de la imagen escaneada mejor sera el OCR sin embargo a mayor resolución de la imagen también aumenta el tamaño del fichero lo cual puede llevar a encontrarnos con ficheros muy grandes a nuestro ordenador le cueste manejar. Los mejores valores para realizar el escaneo son los que aparecen en esta imagen:

Escaner

Si nos encontramos con un texto con la letra muy pequeña entonces deberemos aumentar la resolución del escaner a 400 o incluso 600 ppp

2) OCR

Como ya he indicado anteriormente la mayoría de las aplicaciones de OCR permiten agrupar en un solo proceso tanto el escaneo como el reconocimiento del texto, sin embargo, yo prefiero explicar el proceso como dos pasos diferenciados. En un primer momento realizamos el escaneo a un fichero PDF y a continuación abrimos este PDF en el programa AbbyyFine Reader o similar para que analice el documento y marque las diferentes áreas del documento. El programa identifica 3 tipos de áreas (de texto, de imagen o tabla) y en función de esta codificación realizara el proceso de conversión respetando siempre que se pueda el estilo y tipo de fuente del original.

abbyy

En este punto nuestra tarea sera revisar el análisis hecho por el programa y corregir todos aquellos errores que el programa no haya detectado como son, paginas sin texto, codificación errónea de áreas, eliminación de encabezados y pie de paginas, etc …

En todo momento tendremos dos ventanas de la aplicación, en la de la derecha tenemos el texto escaneado y en la de la izquierda el resultado del OCR realizado.

Una vez terminado este proceso procederemos a exportar el resultado al tipo de documentos que prefiramos, AbbyyFine tiene una amplia variedad de formatos soportados (DOC, PDF, EPUB, RTF, HTML, etc…) En mi opinión el mejor formato de exportación es como documento HTML o RTF, la razón es que ambos formatos mantienen los estilos básicos del texto y elimina mucha de la codificación “sucia” que suelen tener otros formatos. Tened en cuenta que nos interesa tener un texto “casi plano” en cuanto a estilos porque posteriormente vamos a ser nosotros los que maquetemos los estilos propios. Utilizando un símil como ejemplo; para pintar una pared de blanco es preferible partir una pared con un color claro homogéneo antes que una pared pintada en varios colores oscuros.

Del Papel al Ebook (I): Introducción

Del Papel al Ebook (III): Edición de texto

Del Papel al Ebook (IV): QualityEbook

DEL PAPEL AL EBOOK (I): Introducción

Publicado: 18 de febrero de 2013 de webjoram en Edición digital, Manuales
Etiquetas:, , , ,

Una de las consecuencias que ha tenido el desarrollo de la edición digital es la recuperación de numerosos libros descatalogados, agotados o cuya edición ha estado circunscrita a un país. En la mayoría de los casos las grandes editoriales no han cubierto esta necesidad de recuperar para el ámbito digital este fondo cultural y ha sido gracias a la aportación de muchas personas que han dedicado su tiempo al largo proceso que conlleva convertir un texto impreso en un documento digital. Este labor de digitalización empezó mucho antes del desarrollo de los modernos lectores electrónicos y ya en los años 70 tenemos las creación de proyectos como Gutemberg que busca la digitalización de todas las obras libres de derechos de autor en todos los idiomas. A este proyecto le siguieron otros muchos, no todos ellos “legales”, que tienen como objetivo compartir cultura y que en muchos casos a pesar de su status “alegal” han permitido a muchos usuarios acceder a textos que de otra manera les habría sido totalmente imposible. Dejando de lado discusiones sobre la legalidad de esta práctica lo que si es cierto es que en ocasiones muchas personas se encuentran con la necesidad de digitalizar textos impresos para convertirlos en ebook que poder utilizar en sus ereaders o tablets; es a estos usuarios a los que he decidido dedicar una serie de post en los que voy a explicar de la manera más básica posible las etapas que debemos llevar a cabo para realizar esta tarea y que el producto resultante cumpla con los estándares de los diferentes formatos de ebook (EPUB, MOBI, FB2) y por lo tanto sean compatibles con la mayor parte de los lectores existentes en el mercado. En lineas generales las etapas que conlleva este proceso son:

  1. Escaneo del texto y OCR
  2. Revisión del texto con un procesador de textos
  3. Conversión del texto al formato ebook deseado
  4. Depuración del Ebook

Este esquema es el que yo considero más fácil de entender para un profano. Evidentemente cualquier persona con conocimientos de HTML, CSS es posible que considere que se realizan demasiados pasos y que se podría directamente pasar del OCR a la maquetación del texto directamente utilizando herramientas como SIGIL, BookDesigner, Fiction Editor o Notepa++ pero para la mayoría de las personas les resulta mas sencillo realizar estas tareas con un programa más conocido como puede ser el Word o cualquier otro procesador de textos y posteriormente depurar, si así lo desea o requiere, el ebook resultante con herramientas más especificas. Para realizar este proceso necesitaremos:

  1. Un escaner de mesa
  2. Software de OCR (incluido con la mayoría de las impresoras). Existen también software comerciales muy buenos como AbbyyFine Reader y gratuitos como FreeOCR.
  3. Procesador de textos, podemos utilizar OpenOffice, LibreOffice como alternativas gratuitas pero por ciertos problemas de compatibilidad con QualityEbook recomiendo utilizar Word.
  4. QualityEbook es el programa que nos va a permitir convertir un documento Word en el formato de ebook que deseemos.
  5. Sigil. Este es un programa que nos va a permitir la edición de los ebook en formato EPUB para depurar generados con QualityEbook.

Nos vemos en el siguiente post con la primera etapa de nuestro proceso.

Del Papel al Ebook (II): Escaneo del texto y OCR

Del Papel al Ebook (III): Edición de texto

Del Papel al Ebook (IV): QualityEbook

DEL PAPEL AL EBOOK (IV) : QualityEbook

Publicado: 15 de febrero de 2013 de webjoram en Edición digital, Manuales
Etiquetas:, , , , ,

Ya nos encontramos cerca del final del proceso y en realidad si los pasos anteriores los hemos realizado correctamente en esta etapa las tareas a realizar están casi totalmente automatizadas.

El objetivo final de todo el proceso es conseguir un documento en formato Ebook compatible con todos los dispositivos de lectura existentes en el mercado. Sin embargo hasta ahora no hemos hecho referencia a las razones por las que es interesante generar nuestros documentos en dicho formato ya que muchos de vosotros podéis alegar que la mayoría de los ereaders o tablets del mercado soportan otros muchos formatos como son los PDF, DOC, TXT, HTML, ODT y un largo etc. por lo que si ya tenemos un documento en dichos formatos no necesitamos realizar el proceso de convertirlos a Ebook.

La principal razón para realizar esta conversión es que la mayoría de los formatos indicados están pensados para ser mostrados en pantallas de mayor tamaño que las de un ereader o tablet por lo que cuando los utilizamos en estos dispositivos suele dar lugar a errores en la presentación del contenido. Para resolver este problema es por el que se desarrollaron los formatos específicos que nosotros denominamos Ebook pero que abarcan una amplia variedad de los mismos (EPUB, MOBI, FB2, LRF, etc.). Este formato no esta condicionado por el soporte en el que se muestre por lo que puede verse correctamente en un ereader, un tablet o un PC, y ademas, dota a todos los documentos de una estructura normalizada para representar los elementos que pueden componerlos (indice, texto, imágenes, notas, etc …).

Bueno una vez aclarados estos conceptos pasemos a lo realmente importante, convertir nuestro documento, que en el anterior paso guardamos en formato HTML (Pagina web, filtrada), en un ebook.

Existen multitud de programas (calibre, mobicreator, Jutoh) con los que se puede realizar esta operación pero por los resultados obtenidos y por la facilidad de uso yo recomiendo QualityEbook, anteriormente conocido como QualityEpub. Este programa permite abrir cualquier fichero html que cumpla unos requisitos mínimos y a partir de él crear un ebook en el formato que deseemos de los muchos soportados.

Los pasos a realizar son los siguientes:

  1. Descargar e instalar el programa desde su pagina web. Es recomendable también descargar la guía de uso del mismo básicamente porque da algunas ideas de como debemos maquetar el libro en Word para que el programa lo reconozca correctamente.
  2. Abrimos el programa, la primera vez es necesario abrirlo con permisos de administrador para que se pueda configurarse después ya no sera necesario hacerlo mas. Con el programa abierto buscamos el fichero html en nuestro disco duro y lo importamos, tras importarlo y si no encuentra errores nos mostrara una ventana para que indiquemos los metadatos del documento:metadatos
  3. Con el documento cargado podemos realizar algunas operaciones complementarias como son corregir guiones de dialogo, guiones cortos y errores de OCR si lo consideramos necesario.qualityebook
  4. Si comprobamos que todo esta correcto podemos proceder a guardar el resultado en el formato que mas se adecue a nuestras necesidades. Yo recomiendo que ademas del formato que necesitemos guardemos el documento también en formato EPUB que es el estándar de facto y desde el cual en un futuro podemos realizar modificaciones o incluso convertirlo a otros formatos.qualityebook2

Realizados los pasos indicados tendremos nuestro ebook perfectamente preparado para ser leído donde queramos.

El programa QualityEbook nos permite conseguir un resultado muy bueno con un grado de dificultad muy pequeño pero adolece de un problema, nos obliga a que todos nuestros ebooks tengan una presentación similar. Obviamente para la mayoría de los usuarios esto no es importante pero para aquellos que quieran profundizar en la maquetación de ebook existen numerosos tutoriales que explican como hacerlo e igualmente hay muy buenos programas como Sigil, FictionBook o BookDesigner  que nos permitirán personalizar el diseño de nuestro ebook dotandolo de características “unicas” como tipos de fuentes personalizadas, diseño propio de los capítulos, etc …

Del Papel al Ebook (I): Introducción

Del Papel al Ebook (II): Escaneo del texto y OCR

Del Papel al Ebook (III): Edición de texto