Un outil pour extraire les data, sous forme de tableaux, d'un PDF. Ne fonctionne pas avec des documents numérisés.
Ce n'est pas un traitement complètement automagic : il faut sélectionner la table à la main. On peut reproduire la zone sélectionnée sur les pages suivantes.
Dans certains cas c'est une aide appréciable.
Le code est sûr github.
Outil d'extraction automatique de metadata, open source. Extrait les metadata de conservation et les écrit dans un fichier XML. Pour MS Word 2, MS Word 6, Word Perfect, Open Office, MS Works, MS Excel, MS PowerPoint, TIFF, JPEG, WAV, MP3, HTML, PDF, GIF, et BMP.