Por suerte o por desgracia, los PDF son uno de los soportes más utilizados a la hora de compartir información. Los usan particulares, empresas y administraciones públicas incluso para difundir datos que estarían mejor plasmados en una hoja de cálculo u otro tipo de archivo con el que poder trabajar más fácilmente.
Para ocuparnos de estos datos incluidos en estos documentos, concretamente para poder manejar la información contenida en las tablas de un PDF existe Tabula. Esta herramienta nos permite liberar tablas de datos bloqueadas dentro de ficheros PDF. Dicho más sencillamente, extrae las tablas.
Cómo descargar y usar Tabula
Tabula, como explican sus responsables, fue creada por periodistas para periodistas y cualquier otra persona que trabaje con datos guardados en archivos PDF. Es una utilidad gratuita y de código abierto.
Para usarla lo primero que tenemos que hacer es descargarla, está disponible para Windows, macOS y Linux, extraer el archivo zip y ejecutar el fichero tabula.exe
. Si en ese momento no se abre el navegador con la pantalla de la herramienta, podemos acceder a localhost:8080. A partir de aquí, a trabajar.
¿Cómo usar Tabula? En primer lugar tendremos que cargar el archivo PDF que contenga la tabla de datos que nos interesa, a continuación buscar la página en la que se ubica y seleccionarla arrastrando el cursor para dibujar un cuadrado a su alrededor, seguiremos haciendo clic en Preview & Export Extracted Data.
Si en la visualización está todo más o menos en orden, podemos proceder a extraer la tabla del PDF mediante el botón Export. Antes de clicar sobre él, podremos seleccionar el formato de archivo de exportación entre CSV, TSV, dos tipos de JSON, CSV comprimido o scripts. A partir de aquí si, por ejemplo, hemos utilizado la primera opción, podremos tratar la tabla en una hoja de cálculo de Microsoft Excel, LibreOffice Calc o Google Sheets, por ejemplo.
Ver 2 comentarios