Script python pour extraire le sommaire d'un PDF (s'il est structuré, à savoir ce qui se nomme assez imparfaitement signets dans Adobe Acrobat). On donne en paramètre le fichier PDF et le niveau de profondeur souhaité de la table.
Fonctionne avec python 2.7 et utilise pdfminer, ce qui se fait très bien dans un virtualenv
.
La documentation de la GitBook Toolchain que l'on peut considérer comme une suite éditoriale basée sur Markdown et git.
L'intérêt, en plus d'apprendre à mieux utiliser le service Web GitBook, c'est qu'on y trouve la méthode pour installer GitBook en local (pas simplement l'éditeur de GitBook, mais l'outil gitbook-cli
).
Sur le forum de cyrille borne.
Le script :
#!/bin/bash
REPER="$1"
CIBLE=".odt"
EXTS="pdf"
for i in "$(find "$REPER" -depth -type d )" ; do
result_pdf="$(basename "$i")"
# si on veut utiliser unoconv à la place de libreoffice
# unoconv -f pdf ${i}/*$CIBLE ${result_pdf}$EXTS
libreoffice --headless --convert-to pdf *"$i"/*$CIBLE "$result_pdf"$EXTS --outdir "$i"/"$result_pdf"
Un outil pour extraire les data, sous forme de tableaux, d'un PDF. Ne fonctionne pas avec des documents numérisés.
Ce n'est pas un traitement complètement automagic : il faut sélectionner la table à la main. On peut reproduire la zone sélectionnée sur les pages suivantes.
Dans certains cas c'est une aide appréciable.
Le code est sûr github.
Abstract
Librarians have a professional responsibility to protect the right to access information free from surveillance. This right is at risk from a new and increasing threat: the collection and use of non-personally identifying information such as IP addresses through online behavioral tracking. This paper provides an overview of behavioral tracking, identifying the risks and benefits, describes the mechanisms used to track this information, and offers strategies that can be used to identify and limit behavioral tracking. We argue that this knowledge is critical for librarians in two interconnected ways. First, librarians should be evaluating recommended websites with respect to behavioral tracking practices to help protect patron privacy; second, they should be providing digital literacy education about behavioral tracking to empower patrons to protect their own privacy online.
pdf : http://ejournals.bc.edu/ojs/index.php/ital/article/download/5495/pdf
pdf2htmlEX converti les PDF en HTML.
Ce qui m'intéresse plus dans cette page, c'est la partie sous Imagine, qui contient un Parser pour PDF qui vaut la peine d'être testé !
Des versions numériques (ePub, PDF, TXT) du Petit Prince de St-Exupery, parce qu'il est désormais dans le domaine public (sauf en France, voir : http://romainelubrique.org/telecharger-petit-prince-en-belgique ).
De quoi réaliser son CV en markdown et le convertir en html et pdf.
Les sources : https://github.com/mszep/pandoc_resume
Une réaction saine à l'infâme SCRIBD : de quoi héberger un PDF sans se faire de compte, le téléchargement est toujours possible, le embedded code aussi, basé sur pdf.js
Et le code source est public, libre : https://github.com/joepie91/pdfy
Compilation des règles d'accessibilité d'un site web, sous forme d'aide mémoire PDF.
Message personnel à Fou à lier : tu n'as pas dû bien regarder ce que fait LibreOffice d'un PDF. Il l'ouvre et tu l'édites. Je pense que c'est depuis la version 3.6, sans en être certain non plus.
Mieux : tu peux faire un PDF hybride, avec dedans le PDF et de quoi l'ouvrir à nouveau dans LibreOffice pour l'éditer, comme si c'était un ODT.
Et en plus LibreOffice est libre, multiplateforme, tout ça...
Un logiciel capable de convertir un fichier texte, markdown, textile, html, LaTeX, etc. en html, html5, docx, odt, opendocument XML, LaTeX, ePub, PDF, etc.
Impressionnant.
Version révisée. Publiée le 14 juin 2012.
"This Recommended Practice defines the Reference Model for an Open Archival Information System (OAIS). The current issue includes clarifications to many concepts, in particular, Authenticity with the concept of Transformational Information Property introduced; corrections and improvements in diagrams; addition of Access Rights Information to PDI."
Documentation proposée par la ESF
Liste de liens où l'on peut obtenir :
Ernest Hemingway
Le vieil homme et la mer
traduction par François Bon
ISBN 978-2-8145-0596-4
couverture : photographie collection Hemingway
JFK Library, Boston, public domain (merci E. B-C.)
© François Bon & publie.net pour cette traduction