Posts etiquetados ‘Maquetación’

En este punto del proceso partimos de un texto “plano” o con una estructura muy básica que respeta únicamente tamaño de la fuente, estilo y alineación al que queremos dotar de las características de un texto perfectamente maquetado, esto es, encabezamiento, cuerpo de texto, notas, tablas, imágenes e indice.

Por maquetar entendemos establecer los estilos adecuados a las diferentes partes del texto que hemos escaneado. Cualquier documento se estructura en diferentes áreas, las más comunes son:

  • Encabezamiento: Este elemento nos permite estructurar el texto en niveles y apartados, comúnmente se equiparan con los capítulos de un libro. Podemos tener distintos niveles de encabezamientos, esto es, nos podemos encontrar con un libros con varias partes que estructuraremos como Encabezamiento1 y dentro de estas partes sus propios capítulos que marcaremos como Encabezamiento2. La importancia de esta estructura es que van a ser la base para generar posteriormente el indice del libro de manera automática.
  • Cuerpo de texto. Este elemento abarca el estilo que debe tener todo el texto de la obra que estamos digitalizando. Dentro de este apartado podemos encontrarnos con subelementos que tengan características propias como pueden ser citas, poemas, canciones imágenes, tablas, etc… En función de las características del texto escaneado dará lugar a una estructura más simple o compleja.
  • Notas a pie de pagina: Este es un elemento opcional que no necesariamente va a existir en todos los documentos que elaboremos, al contrario, de los dos anteriores que son obligatorios. Sobre este elemento solo comentar que a la hora de maquetar un texto siempre debemos marcar las notas con el formato de a pie de página aunque posteriormente al convertirlos a formato ebook todas las notas se convierten al formato final de página salvo en el formato FB2 que si respeta la estructura original.
  • Tablas e imágenes: Al igual que el anterior son elementos opcionales, en el caso de las imágenes siempre debemos tener cuidado de marcar la opción anclaje a párrafo para que a la hora de exportarlas al ebook se realice correctamente.

Por Estilo entendemos las características que definen cada una de las áreas de un texto atendiendo a los siguientes atributos básicos (Fuente, Tamaño texto, alineación, formato párrafo). Hay multitud de guías y ayudas en Internet sobre como trabajar con estilos en los diferentes procesadores de textos, en el caso de Word es interesante consultar este enlace, para openoffice, etc …

Lo ideal es configurar en un documento en blanco los estilos que vamos a utilizar en ese documento (Encabezamiento1, Encabezamiento2, Normal, etc…) definiendo para cada uno sus características tal y como observamos en la imagen:

Maquetacion

En la imagen hemos puesto un ejemplo de las diferentes áreas que puede tener el documento. Para definir las características de cada área no necesitamos escribir nada, solo seleccionar el estilo que nos interesa y modificar sus valores tal y como se muestra en esta imagen:

estilos

Una vez configuramos los estilos insertamos en dicho documento en blanco el documento que habíamos conseguido tras pasarle el OCR. A partir de aquí solo queda revisar todo el texto y ir aplicando en cada una de las partes del mismo los estilos definidos.

Una vez terminado la revisión debemos guardar el fichero en formato pagina web filtrada (*.html) que es el formato que necesitaremos para realizar la conversión a ebook que veremos en el siguiente post.

Del Papel al Ebook (I): Introducción

Del Papel al Ebook (II): Escaneo del texto y OCR

Del Papel al Ebook (IV): QualityEbook

En este paso parto de la suposición de que la fuente original del texto a digitalizar esta en papel, en caso de no ser así, es decir si ya tenemos un documento en formato PDF podemos pasar al OCR directamente.

Antes de explicar como realizar este proceso me gustaría indicar la diferencia entre escanear un documento y realizar un tratamiento de OCR sobre dicho documento, ya que mucha gente cree que es la misma cosa y nada mas lejos de la realidad. Obviamente existen software que realizan ambos pasos de manera simultanea y por eso puede llevar a alguna confusión.

Cuando realizamos un escaneo de una pagina lo que realizamos es una “fotografía” lo mas fidedigna posible de esa página. Igualmente por defecto el sistema nos permite guardar dicha “fotografía” como un fichero de imagen (jpg, png, bmp, etc…) o con un formato PDF. La principal diferencia entre ambas opciones es que cuando guardamos en formato imagen el software del escaner va a crear un archivo por cada página escaneada mientras que si utilizamos el formato PDF el software permite agrupar todas las paginas escaneadas en un solo archivo si así lo deseamos, “simulando” que tenemos un documento de texto pero sin serlo realmente. Este es un hecho importante porque para poder trabajar después con el CONTENIDO de estas imágenes debemos realizar un procedimiento que permita “convertir” estas imágenes en texto con el cual podamos trabajar. Este proceso de conversión es el que se realiza con el software de OCR. En términos simples este software analiza las imágenes reconociendo caracteres y palabras y las convierte en texto. Existen numerosos programas de OCR, gratuitos o de pago y de pago, ademas de que suele estar integrado en el software que acompaña a nuestra impresora. En mi caso yo suelo utilizar el programa AbbyyFine Reader.

 1) Escanear el Original

En lineas generales para que el OCR del texto sea de calidad y tenga pocos errores tenemos que realizar un escaneo adecuado, es decir, a mejor definición de la imagen escaneada mejor sera el OCR sin embargo a mayor resolución de la imagen también aumenta el tamaño del fichero lo cual puede llevar a encontrarnos con ficheros muy grandes a nuestro ordenador le cueste manejar. Los mejores valores para realizar el escaneo son los que aparecen en esta imagen:

Escaner

Si nos encontramos con un texto con la letra muy pequeña entonces deberemos aumentar la resolución del escaner a 400 o incluso 600 ppp

2) OCR

Como ya he indicado anteriormente la mayoría de las aplicaciones de OCR permiten agrupar en un solo proceso tanto el escaneo como el reconocimiento del texto, sin embargo, yo prefiero explicar el proceso como dos pasos diferenciados. En un primer momento realizamos el escaneo a un fichero PDF y a continuación abrimos este PDF en el programa AbbyyFine Reader o similar para que analice el documento y marque las diferentes áreas del documento. El programa identifica 3 tipos de áreas (de texto, de imagen o tabla) y en función de esta codificación realizara el proceso de conversión respetando siempre que se pueda el estilo y tipo de fuente del original.

abbyy

En este punto nuestra tarea sera revisar el análisis hecho por el programa y corregir todos aquellos errores que el programa no haya detectado como son, paginas sin texto, codificación errónea de áreas, eliminación de encabezados y pie de paginas, etc …

En todo momento tendremos dos ventanas de la aplicación, en la de la derecha tenemos el texto escaneado y en la de la izquierda el resultado del OCR realizado.

Una vez terminado este proceso procederemos a exportar el resultado al tipo de documentos que prefiramos, AbbyyFine tiene una amplia variedad de formatos soportados (DOC, PDF, EPUB, RTF, HTML, etc…) En mi opinión el mejor formato de exportación es como documento HTML o RTF, la razón es que ambos formatos mantienen los estilos básicos del texto y elimina mucha de la codificación “sucia” que suelen tener otros formatos. Tened en cuenta que nos interesa tener un texto “casi plano” en cuanto a estilos porque posteriormente vamos a ser nosotros los que maquetemos los estilos propios. Utilizando un símil como ejemplo; para pintar una pared de blanco es preferible partir una pared con un color claro homogéneo antes que una pared pintada en varios colores oscuros.

Del Papel al Ebook (I): Introducción

Del Papel al Ebook (III): Edición de texto

Del Papel al Ebook (IV): QualityEbook

DEL PAPEL AL EBOOK (I): Introducción

Publicado: 18 de febrero de 2013 de webjoram en Edición digital, Manuales
Etiquetas:, , , ,

Una de las consecuencias que ha tenido el desarrollo de la edición digital es la recuperación de numerosos libros descatalogados, agotados o cuya edición ha estado circunscrita a un país. En la mayoría de los casos las grandes editoriales no han cubierto esta necesidad de recuperar para el ámbito digital este fondo cultural y ha sido gracias a la aportación de muchas personas que han dedicado su tiempo al largo proceso que conlleva convertir un texto impreso en un documento digital. Este labor de digitalización empezó mucho antes del desarrollo de los modernos lectores electrónicos y ya en los años 70 tenemos las creación de proyectos como Gutemberg que busca la digitalización de todas las obras libres de derechos de autor en todos los idiomas. A este proyecto le siguieron otros muchos, no todos ellos “legales”, que tienen como objetivo compartir cultura y que en muchos casos a pesar de su status “alegal” han permitido a muchos usuarios acceder a textos que de otra manera les habría sido totalmente imposible. Dejando de lado discusiones sobre la legalidad de esta práctica lo que si es cierto es que en ocasiones muchas personas se encuentran con la necesidad de digitalizar textos impresos para convertirlos en ebook que poder utilizar en sus ereaders o tablets; es a estos usuarios a los que he decidido dedicar una serie de post en los que voy a explicar de la manera más básica posible las etapas que debemos llevar a cabo para realizar esta tarea y que el producto resultante cumpla con los estándares de los diferentes formatos de ebook (EPUB, MOBI, FB2) y por lo tanto sean compatibles con la mayor parte de los lectores existentes en el mercado. En lineas generales las etapas que conlleva este proceso son:

  1. Escaneo del texto y OCR
  2. Revisión del texto con un procesador de textos
  3. Conversión del texto al formato ebook deseado
  4. Depuración del Ebook

Este esquema es el que yo considero más fácil de entender para un profano. Evidentemente cualquier persona con conocimientos de HTML, CSS es posible que considere que se realizan demasiados pasos y que se podría directamente pasar del OCR a la maquetación del texto directamente utilizando herramientas como SIGIL, BookDesigner, Fiction Editor o Notepa++ pero para la mayoría de las personas les resulta mas sencillo realizar estas tareas con un programa más conocido como puede ser el Word o cualquier otro procesador de textos y posteriormente depurar, si así lo desea o requiere, el ebook resultante con herramientas más especificas. Para realizar este proceso necesitaremos:

  1. Un escaner de mesa
  2. Software de OCR (incluido con la mayoría de las impresoras). Existen también software comerciales muy buenos como AbbyyFine Reader y gratuitos como FreeOCR.
  3. Procesador de textos, podemos utilizar OpenOffice, LibreOffice como alternativas gratuitas pero por ciertos problemas de compatibilidad con QualityEbook recomiendo utilizar Word.
  4. QualityEbook es el programa que nos va a permitir convertir un documento Word en el formato de ebook que deseemos.
  5. Sigil. Este es un programa que nos va a permitir la edición de los ebook en formato EPUB para depurar generados con QualityEbook.

Nos vemos en el siguiente post con la primera etapa de nuestro proceso.

Del Papel al Ebook (II): Escaneo del texto y OCR

Del Papel al Ebook (III): Edición de texto

Del Papel al Ebook (IV): QualityEbook