¿Cómo digitalizar un libro?

Para todo lo que no encaje en otro foro...
Responder
Conectado
Avatar de Usuario
Bodo-Baas
Administrador del Foro
Mensajes: 3424
Registrado: Mié, 05 Dic 2012, 16:17

¿Cómo digitalizar un libro?

Mensaje por Bodo-Baas »

Algunos miembros en facebook están interesados en ayudar a digitalizar algunos libros que han conseguido, y preguntan cómo.

Empecemos por un resumen, digitalizar consta de estos pasos básicos.
  1. Digitalización en bruto. Usar un escaner o cámara para generar una serie de imágenes de cada página del libro.
  2. OCR. Analizar las imágenes mediante un programa de reconocimiento óptico de caracteres (OCR por su siglas en inglés), como pueden ser FineReader u OmniPage, para obtener un texto con formato.
  3. Limpieza y maquetación. Eliminar detalles de formato desiguales o redundantes, y aplicar la maquetación estándar que damos a nuestros libros.
  4. Revisión final.
También hay revisiones parciales que vienen implícitas en el OCR y la limpieza.
Cada uno de esos pasos puede ser hecho por personas diferentes, pasándose el resultado de su trabajo de unos a otros. Sólo es estrictamente necesario que el que hace la digitalización en bruto tenga físicamente el libro, aunque hay que tener en cuenta que el conjunto de todos los archivos de imágenes es pesado y probablemente haga falta usar algún servicio p2p o de almacenamiento en línea, y también puede suceder que al hacer el OCR se detecte que la imagen de alguna página no salió del todo bien y requiera rehacerse.

Digitalización en bruto
Según he leído, desarmar el libro y escanear las páginas sueltas es lo que da el mejor resultado. Lo ideal sería tener, o al menos poder usar, una guillotina de imprenta (para facilitar el desarmado), un escáner con alimentador de hojas, aunque de ser necesario también se puede desencuadernar de forma más artesanal y poner las hojas de a una en el escáner. Lo que no tiene alternativa, es que hace falta sacrificar el libro.
Creo que muchos cómics han sido digitalizados de esta forma, aunque me parece una locura con los precios que tienen por estas tierras. En este enlace hay más información.

Imagen
Lo más obvio es usar un escáner plano, presionando el libro abierto sobre el vidrio. Si el libro es lo bastante pequeño como en la foto, se pueden digitalizar las dos páginas a la vez, sino, deberá ser de a una, y sostenerlo puede complicarse. Para texto de tamaño normal se recomienda seleccionar una definición de unos 300 dpi (la mayoría de los escáneres pueden manejar definiciones mucho más altas, pero eso sólo hace que el proceso sea más lento y las imágenes más pesadas, sin mejorar el resultado).
Imagen
El principal problema está en el márgen interior, donde las páginas se separan del vidrio para doblarse hacia el lomo. Hay que sostener y presionar el libro de forma que se minimice esta separación, intentando evitar que esa sombra borrosa del centro llegue hasta el texto. Porque si para un humano es difícil leer ahí, seguro que es un problema para el OCR.
Yo había hecho el escaneado desde el FineReader, usando una opción para pausar y escanear la página siguiente de forma automática unos segundos después.


La alternativa es usar una cámara. Es bastante recomendable armarse algún "dispositivo" para facilitar la tarea.

Puedes utilizar una cámara que ya tengas, se recomienda un mínimo de 7 MP, definición ampliamente superada por la mayoría de las cámaras modernas. Mi cámara es de 20 MP, pero este uso, la he configurado para sacar fotos de sólo 10 MP. Los tutoriales que vi no recomiendan usar teléfonos, aunque si tienes uno con una buena cámara también puede ser una alternativa. Existen aplicaciones de "escáner", que básicamente recortan la página y compilan el documento, no es necesario usarlas ya que los programas de OCR también lo hacen. De todos modos, sigue siendo recomendable tener el accesorio para sujetarlo al trípode y la base donde apoyar el libro.

Imagen
La idea es que sosteniendo el libro abierto con la mano, las páginas quedan dobladas y con sombras que dificultan la interpretación del OCR. En cambio si se apoya el libro entreabierto, se aplana la página con un trozo vidrio, y se controla la iluminación el resultado es mucho más claro y útil. (El resultado de la página de abajo todavía puede mejorarse ajustando mejor la posición de la cámara y moviendo la luz para evitar el reflejo, pero ya es interpretada mucho mejor).
Imagen

Si se dispone de dos cámaras, y se las puede acomodar correctamente, debería ser posible fotografiar de a dos páginas a la vez. Si no, lo más práctico es recorrer el libro dos veces, primero fotografiando las páginas de un lado (por ejemplo las impares) y después las del otro (las pares), en lugar de darlo vuelta continuamente para sacar en orden.

Las fotos que siguen son de mi primer intento, seguido por un modelo más mejorado.

Para el soporte del libro usé unas antiguas cajas de diskettes, aunque supongo que la caja cortada del ejemplo debería funcionar igual de bien. Para la cámara primero improvisé un soporte con un perfil de chapa, después conseguí un trípode de verdad, y ahora uso dos vidrios pegados a un bastidor como en los modelos más sofisiticados, aunque sigo usando una sola cámara, el segundo vidrio ayuda a mantener el libro abierto en la posición correcta.
Imagen
Imagen

La idea la había sacado de aquí:
Imagen
Lo que a su vez es una alternativa simple a aparatos, también caseros, aunque mucho más sofisticados como este:
Imagen
Éste último aparato aparte de dos cámaras, tiene dos monitores para controlar las fotos en tiempo real, y todo el soporte para sostener el libro abierto, con un sistema para levantar fácilmente para pasar de página, y hasta un botón de disparo en la manija.

Y como había puesto en facebook:
Es mucho más rápido, fotografié todo el libro en el tiempo que escaneando hubiera podido hacer sólo un par de capítulos. El libro también quedó en mejor estado, al no necesitar aplastar el lomo contra una superficie plana (no es que los escaneados se hayan arruinado, pero quedaron un poco más abiertos).
Pasos siguientes: el OCR no es demasiado complicado, OmniPage y FineReader son programas razonablemente amigables que cuentan con su propia ayuda, la que probablemente sea más útil que cualquier cosa que yo pueda poner por aquí. La maquetación es como habíamos puesto en este tema, y la revisión final es una lectura cuidadosa en busca de errores que pudieran haberse pasado.
Avatar de Usuario
Klorel
Mensajes: 170
Registrado: Jue, 25 Dic 2014, 08:43

Re: ¿Cómo digitalizar un libro?

Mensaje por Klorel »

Ojalá tengas suerte y te puedan dar una mano con la digitalización. A mi me encantaría poder ayudar pero por desgracia las librerías de Uruguay todavía no han traído nada del Nuevo Canon y estoy con muchas ganas de leer todo lo que han sacado en estos meses.
Conectado
Avatar de Usuario
Bodo-Baas
Administrador del Foro
Mensajes: 3424
Registrado: Mié, 05 Dic 2012, 16:17

Re: ¿Cómo digitalizar un libro?

Mensaje por Bodo-Baas »

Esta caja de luz supuestamente es para fotos, pero me parece que también podría ser útil para libros.
https://www.instructables.com/id/Scan-P ... ile-Phone/
mariasanchezolm
Mensajes: 1
Registrado: Sab, 10 Ago 2019, 04:00

Re: ¿Cómo digitalizar un libro?

Mensaje por mariasanchezolm »

Hola,

He leído buenas opciones para digitalizar, otra que también funciona muy bien hoy en día es Cafeteroot, es realmente sencillo y se tarda menos que con otras opciones.

Saludos.
IQ Option y otras referencias en la red
Avatar de Usuario
Darth.Yorgos
Mensajes: 6
Registrado: Mar, 29 Oct 2019, 13:25

Re: ¿Cómo digitalizar un libro?

Mensaje por Darth.Yorgos »

Hola a todos... Saludos Bodo

Yo siempre he echo esto con mi escaner, pero el sistema de la cámara esta interesante.

Independientemente de como lo hagan recuerden tratar de identificar el tipo de letra y ajustar la iluminación de forma que sea mas fácil para el OCR identificar las letras, parece una tontería pero esto agiliza el trabajo enormemente.

Cuando comencé tampoco sabia nada de como hacer esto, no es difícil y es muy satisfactorio entregar un trabajo de buena calidad.

Yorgos
Responder