Cómo convertir PDFs a DJVU

DjVu (pronunciado deja-vu) es un formato de archivo informático diseñado principalmente para almacenar imágenes escaneadas. Se caracteriza por incorporar avanzadas tecnologías tales como separación de capas de imágenes, carga progresiva, codificación aritmética y compresión sin pérdida para imágenes bitonales (dos colores), permitiendo que imágenes de alta calidad se almacenen en un mínimo de espacio.


La carga (o descarga) progresiva hace al formato ideal para imágenes servidas desde Internet. Djvu ha sido promovido como una alternativa al PDF, y en la actualidad supera a este formato en la mayoría de los documentos escaneados. Esto le ha llevado a ser ampliamente utilizado en la distribución de libros de matemáticas en las redes de compartición de ficheros (Emule, Bittorrent, etc.). Al igual que PDF, Djvu puede contener una capa de texto obtenida mediante un proceso de OCR (Optical Character Recognition), haciendo fácil las operaciones de copiado y pegado en otros documentos.

La tecnología de DjVu fue originalmente desarrollada por Yann Le Cun, Léon Bottou, Patrick Haffner y Paul G. Howard en los laboratorios de AT&T en 1996. DjVu es un formato de fichero abierto. Las especificaciones del formato y el código fuente de la biblioteca de referencia están publicadas y se encuentran disponibles. La propiedad de los derechos para el desarrollo comercial del software de codificación ha sido transferido a distintas compañías a través de los años, incluyendo AT&T y LizardTech. Los autores originales mantienen una implementación GPL llamada DjVuLibre.

Comparación con PDF

La principal diferencia entre DjVu y PDF es que el primero es un formato de gráficos rasterizados, en tanto que el segundo es un formato de gráficos vectoriales. Esto implica las siguientes consecuencias:

La resolución máxima de un archivo DjVu está prefijada (se especifica al crearlo). En cambio, un archivo PDF puede ampliarse o reducirse arbitrariamente, siempre y cuando la imagen fuente esté en formato vectorial (no lo son así las imágenes escaneadas), sin perder su calidad.

Los caracteres de un archivo DjVu son imágenes, no emplea fuentes tipográficas. PDF sí emplea fuentes, que pueden no venir empaquetadas dentro del archivo, por lo que si no se encuentran en el sistema, se utiliza otra que sí esté disponible.

El formato PDF proporciona diferentes maneras de incluir y presentar imágenes rasterizadas, que a menudo se utilizan para crear archivos con documentos escaneados. Estos archivos tienen las mismas limitaciones que los archivos DjVu.

Si lo que te importa es la calidad, en mi humilde opinión, los DJVUs son mucho mejores. Todo se ve mucho más nítido. Si, en cambio, estás precisando espacio en tu disco, sentate bien: al convertir mis pdfs a djvus, en promedio, éstos últimos me ocuparon 3 veces menos que mis antiguos pdfs.

Convertir tus PDFs a DJVU

Hacer esto es una pavada. Simplemente instalamos pdf2djvu:

sudo apt-get install pdf2djvu

Luego, para utilizarlo, ejecutamos:

pdf2djvu archivo.pdf -o archivo.djvu

Para que esto funcione, no te olvides de reemplazar archivo.pdf y archivo.djvu por las rutas de los archivos correspondientes.

Ver los DJVU

Ubuntu ya viene «de fábrica» con la capacidad para poder ver DJVUs. Para ello utiliza el mismo programa que para los PDFs: Evince. Así que, en ese sentido, la tenemos fácil.

A propósito de un comentario que me habían hecho en otro post, sí se puede seleccionar texto en un DJVU. Al igual que los PDFs, si se realizó OCR sobre el documento (o si se convirtió un archivo de texto a ese formato) entonces sí se puede.

El problema es que por un error en Evince (ver bug y comentario), el programa con el que por defecto Ubuntu abre nuestros PDFs y DJVUs, no se puede realizar esta operación.

Para solucionar este problema, podemos instalar DjView, otro programita para ver DJVUs.

sudo apt-get install djview4

Una vez instalado, lo vas a encontrar en Gráficos > DJView.

Algunos links que te pueden interesar:


10 comentarios, deja el tuyo

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: Miguel Ángel Gatón
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.

  1.   Helena_ryuu dijo

    muchas gracias por la info in english >w<

  2.   Usemos Linux dijo

    Helena: Lo que vos querés hacer se llama «edición de imágenes por lote» (o sea, editar muchas imágenes al mismo tiempo). Existen varias formas de hacer eso en Linux. Tal vez la más práctica sea usando nautilus-image-converter o phatch. Ambos se encuentran en los repositorios de Ubuntu. El primero te permite editar las imágenes desde Nautilus (googlealo, seguro te salen un montón de tutos). Phatch, en cambio, es un programita independiente que es, a mi modo de ver, más poderoso (te permite hacer más cosas).
    Una vez que tenés todas las imágenes listas, podés usar imagemagick para convertirlas a pdf (por ejemplo, poner todas en 1 único pdf). Para ello, te recomiendo leer este post: https://blog.desdelinux.net/como-manipular-imagenes-desde-el-terminal/ En caso de que necesites más ayuda, avisame… sino se me hacía muy largo el comentario.
    Saludos! Pablo.

  3.   Usemos Linux dijo

    Helena: Lo que vos querés hacer se llama «edición de imágenes por lote» (o sea, editar muchas imágenes al mismo tiempo). Existen varias formas de hacer eso en Linux. Tal vez la más práctica sea usando nautilus-image-converter o phatch. Ambos se encuentran en los repositorios de Ubuntu. El primero te permite editar las imágenes desde Nautilus (googlealo, seguro te salen un montón de tutos). Phatch, en cambio, es un programita independiente que es, a mi modo de ver, más poderoso (te permite hacer más cosas).
    Una vez que tenés todas las imágenes listas, podés usar imagemagick para convertirlas a pdf (por ejemplo, poner todas en 1 único pdf). Para ello, te recomiendo leer este post: https://blog.desdelinux.net/como-manipular-imagenes-desde-el-terminal/ En caso de que necesites más ayuda, avisame… sino se me hacía muy largo el comentario.
    Saludos! Pablo.

  4.   Helena_ryuu dijo

    sabes como puedo crear archivos djvu directo de imagenes escaneadas?

  5.   Usemos Linux dijo

    Hola Helena! Te recomiendo leer el siguiente artículo: http://www.howtoforge.com/creating_djvu_documents_on_linux
    Claro, está en inglés, pero me parece que es bastante simple y se entiende bien.
    Saludos! Pablo.

  6.   Helena_ryuu dijo

    bueno, ya he hecho el pdf con imagemagik (muy simple ;D ) y realmente aprecio tu ayuda, muy atento >w< , como postdata, uso archlinux con xfce, y el Phatch esta buenisimo, yo uso el gimp para pequeñas tareas como cortar imagenes ._.,....
    en fin, Mil gracias por tu ayuda! ^^

  7.   Usemos Linux dijo

    me alegro mucho!
    Un abrazo! Pablo.

  8.   Juan camilo dijo

    Gracias

  9.   bottico dijo

    maravilloso…. muchas gracias!

  10.   rastery dijo

    interesante gracias