Cómo extraer tablas de un PDF con Tabula para poderlas usar en Excel u otros programas

Cómo extraer tablas de un PDF con Tabula para poderlas usar en Excel u otros programas

2 comentarios Facebook Twitter Flipboard E-mail
Cómo extraer tablas de un PDF con Tabula para poderlas usar en Excel u otros programas

Por suerte o por desgracia, los PDF son uno de los soportes más utilizados a la hora de compartir información. Los usan particulares, empresas y administraciones públicas incluso para difundir datos que estarían mejor plasmados en una hoja de cálculo u otro tipo de archivo con el que poder trabajar más fácilmente.

Para ocuparnos de estos datos incluidos en estos documentos, concretamente para poder manejar la información contenida en las tablas de un PDF existe Tabula. Esta herramienta nos permite liberar tablas de datos bloqueadas dentro de ficheros PDF. Dicho más sencillamente, extrae las tablas.

Un vistazo a…
DOMINA MICROSOFT EXCEL: 17 FÓRMULAS ESENCIALES
Tabula es la magia que nos permite trabajar con las tablas de los PDF extrayéndolas y haciéndolas tratables con, por ejemplo, una hoja de cálculo

Cómo descargar y usar Tabula

Import Tabula Google Chrome 2020 10 02 18 08 0

Tabula, como explican sus responsables, fue creada por periodistas para periodistas y cualquier otra persona que trabaje con datos guardados en archivos PDF. Es una utilidad gratuita y de código abierto.

Para usarla lo primero que tenemos que hacer es descargarla, está disponible para Windows, macOS y Linux, extraer el archivo zip y ejecutar el fichero tabula.exe. Si en ese momento no se abre el navegador con la pantalla de la herramienta, podemos acceder a localhost:8080. A partir de aquí, a trabajar.

¿Cómo usar Tabula? En primer lugar tendremos que cargar el archivo PDF que contenga la tabla de datos que nos interesa, a continuación buscar la página en la que se ubica y seleccionarla arrastrando el cursor para dibujar un cuadrado a su alrededor, seguiremos haciendo clic en Preview & Export Extracted Data.

Captura De Pantalla 2020 10 02 181042
"Tabula fue creada por periodistas para periodistas y cualquier otra persona que trabaje con datos guardados en archivos PDF"

Si en la visualización está todo más o menos en orden, podemos proceder a extraer la tabla del PDF mediante el botón Export. Antes de clicar sobre él, podremos seleccionar el formato de archivo de exportación entre CSV, TSV, dos tipos de JSON, CSV comprimido o scripts. A partir de aquí si, por ejemplo, hemos utilizado la primera opción, podremos tratar la tabla en una hoja de cálculo de Microsoft Excel, LibreOffice Calc o Google Sheets, por ejemplo.

Comentarios cerrados
Inicio