Scantailor

De HackLab
Saltar a: navegación, buscar


Es una herramienta interactiva de procesamiento de imágenes escanedas. Tiene funciones como corregir orientación, dividir páginas, alineación, selección de contenidos y ajuste de márgenes. En él se ingresan imágenes escanedas crudas y se termina el proceso con imágenes preparadas para ser unidas en un archivo PDF o DJVU.

Instalando Scan Tailor

La forma de instalar Scan Tailor es distinta dependiendo que gestor de paquetes usa tu distribución de GNU/Linux. Las mas comunes son Pacman y Aptitude. El comando para cada una es:

Con pacman sudo pacman -S scantailor

Con aptitude sudo apt-get install scantailor

Con este comando te pedirá tu contraseña para tu usuario. Si tu usuario no tiene permisos sudo podes o asignarle permisos a tu usuario o logearte como root mediante el comando su y luego correr el comando sin el sudo.

Usando Scantailor

Dependiendo tu distribución de GNU/Linux Scan Tailor aparecerá en el menú de aplicaciones. Si no lo encontrás podés correr por terminal el programa con el siguiente comando:

scantailor

Iniciando

La primer pantalla que aparece es la pantalla para elegir un Nuevo Proyecto o Cargar proyecto.


Nuevo Proyecto: Si es la primera vez que vamos a trabajar en el procesamiento de un libro.

Cargar proyecto: Si vas a retomar un proyecto en el cual estuviste trabajando con anterioridad.

Nuevo Proyecto y Cargar Proyecto

Carpeta de entrada y Archivos en el proyecto

En la ventana que aparece tenes que ingresar cual será la Carpeta de entrada y la selección de Archivos en proyecto

Carpeta de entrada: Acá tenés que elegir la carpeta donde están las imágenes del libro. En el caso de tener como fuente un archivo pdf o djvu se necesita un programa llamado Ghostscript para separarlos.

Archivos en proyecto: Acá seleccionas que archivos de la carpeta que seleccionaste anteriormente formarán parte del proyecto. En la imagen de ejemplo se ve como automaticamete se excluyó el archivo PDF que se encontraba en la misma carpeta y que era la fuente de las imagenes que vamos a trabajar.

Carpeta de entrada y Archivos en el proyecto

Paso 1: Corregir orientación

Las imagenes cuya orientación hayan sido detectadas erroneamente pueden ser rotadas manualmente de a 90º grados. Como se ve en la imágen a continuación. En este paso como en todos los pasos posteriores cuando se introduce una modificación manual, se puede elegir cual queremos que sea la extensión de esa modificación, es decir si queremos que se aplique solo a esa página, a las seleccionadas, a todas, etc.

Corregir orientación Corregir orientación

Paso 2: Dividir Páginas

Scan Tailor, detecta la división de páginas en la imagen automaticamente. Variando entre las opciones de página completa, página parcial o dos páginas por imagen. Si la deteccion se produce erroneamente se puede modificar manualmente. En las dos imagenes de abajo se puede ver un error comun, que se detectó solamente una parte de la página, debido a que se trata de una página de dos columnas.

Dividir Páginas Dividir Páginas

Paso 3: Alineación

El tercer paso es la deteccion de la Alineación. Dependiendo la calidad de nuestras imagenes de base, la transformación puede ser muy sutil o muy grande. Este paso aunque sutil al ojo es muy importante para lo que será despues la creación de la capa de OCR. En la imagen de abajo se muestra como el ajuste automático de alineación es solamente de 0.94º, pero inclusive esta pequeña modificación mejora considerablemente el reconocimiento OCR.

Alineación Alineación

Paso 4: Seleccione el contenido

En realidad este es el primer paso que es necesario mirar para revisar. Podemos hacer todos los otros pasos hasta este inclusive automaticamente y recien mirar como esta quedando en este paso. Si se arrastra algun error de deteccion automática de los pasos anteriores se puede sobre la página con el error volver a los pasos anteriores y corregir sin problema. En las imagenes de muestra, se marca el error de detección mas común, que es el de los numeros de página. Muchas veces los números de página no son detectados como contenido y si no lo ampliamos nostoros, no apareceran en el resultado final de las páginas. Quedando las páginas sin sus respectivos números. Es por eso que es necesario en este paso revisar que esté bien seleccionado.

Seleccione el contenido Seleccione el contenido

En la siguiente imagen se muestra como el error de detección se puede ver en los thumbnails, asique no es necesario mirar todas las paginas sino solo las que sean dudosas en los thumbnails.

Seleccione el contenido

Paso 5: Margenes

Los margenes son la manera en que se distribuirán los contenidos seleccionados en la página anterior en relación a la hoja. La ubicaccion de los margenes es por defecto en la parte superior. En la mayoría de las páginas esta ubicación es correcta, pero en algunas como pueden ser la primer página de un capítulo u otros tipos de páginas que no ocupan la totalidad del espacio, es necesario hacer un ajuste. En las ímagenes a continuación se muestra la imágen original, luego la ubicación automática y luego la correción a la alineación inferior.

Margenes Margenes Margenes

Un error que suele pasar es que al tener distintos tamaños de imagenes en un proyecto, algunas de las imagenes queden demasiado pequeñas. Esto se soluciona destildando en la o las páginas que están desequilibrando el libro, la opción Igualar en tamaño a las demas páginas

Paso 6: Salida

Así esta listo para para pasarle un OCR


aca van las fotitos de la gilada del scantailor