Search: [extraction]

Tabula: Extract Tables from PDFs http://tabula.technology/

Wed Nov 25 09:24:59 2015

Un outil pour extraire les data, sous forme de tableaux, d'un PDF. Ne fonctionne pas avec des documents numérisés.

Ce n'est pas un traitement complètement automagic : il faut sélectionner la table à la main. On peut reproduire la zone sélectionnée sur les pages suivantes.

Dans certains cas c'est une aide appréciable.

Le code est sûr github.

Metadata Extraction Tool — National Library of New Zealand http://www.natlib.govt.nz/services/get-advice/digital-libraries/metadata-extraction-tool/

Fri Jun 22 14:36:53 2012

Outil d'extraction automatique de metadata, open source. Extrait les metadata de conservation et les écrit dans un fichier XML. Pour MS Word 2, MS Word 6, Word Perfect, Open Office, MS Works, MS Excel, MS PowerPoint, TIFF, JPEG, WAV, MP3, HTML, PDF, GIF, et BMP.

Links per page

Filters