Project Description:
Se requiere un proceso que digitalice un documento PDF o una Imagen a texto XHTML , resultado que será consumido en un proyecto mayor; debe mantener el formato y estructura del documento original en la medida de lo posible.
El proceso debe tener la siguiente funcionalidad:
• El proceso tendrá como entrada un archivo PDF o una carpeta de imágenes numeradas, los cuales serán considerados como documentos, y debe devolver como resultado un texto en formato XHTML
• Los estilos del resultado XHTML deben estar generados en un documento a parte, en formato CSS
• El proceso debe ser construido en lenguaje JAVA como una librería, la cual será utilizada en una implementación posterior
• Almacenar toda la información obtenida de la digitalización en una base de datos relacional PostgreSQL
• Deberá tener soporte para documentos con varias columnas de contenido (principalmente 2) y presentar el formato resultante en una sola columna
• Mantener sobre todo formatos de textos, fuentes, etc. (tamaño, fuente, negrita, cursiva)
• Mantener formato y posición de imágenes y tablas en el documento resultante, las imágenes serán almacenadas en disco