Un texte édifiant sur un large set de données personnelles, consciencieusement établie par une boîte commerciale, dans le but de les vendre, et qui se balade sur le Web à la suite, vraisemblablement, d'une erreur de configuration de base de donnée.
Ça donne une idée de ce qui peut être construit avec des sources souvent publiques, et ce qu'on peut y faire, considérant la qualité des données et leur volume (un JSON de 52 Go).
Il s'agit d'un lightening talk lors du code4lib 2017 #c4l17 sur les méthode pour respecter la vie privée des usagers de bibliothèque tout en ayant quand même des stats à se mettre sous la dent. Avec un point à souligner : la négociation avec les fournisseurs commerciaux qui se gavent de données, sur le dos de nos usagers et de nos institutions...
Le code ne constitue pour l'instant que le frontend. Mais ce projet est intéressant. Ils exportent les données de prêts, anonymisées au mieux, et le analysent, en font des visualisations assez intéressantes. Jusqu'ici, ils ont fait des exports depuis Koha, ont également un peu travaillé avec Aleph.
Un point intéressant, c'est que pour obtenir des statistiques réalistes, ils ont utilisé FRBR pour avoir des stats par oeuvre et pas selon une édition particulière...
Mais l'intérêt, pour eux, est d'exposer les données, au sens de les rendre publique. Voudraient aussi parvenir à produire une typologie de lecteur, en fonction des prêts, des consultations numériques, etc.
Catmandu is a command line tool to access and convert data
from your digital library, research services or any other open data sets.
Un utilitaire python pour manipuler des données en csv
ou pour migrer des données vers le csv
.
L'outil csvsql
devrait pouvoir générer une table SQL à partir d'un csv
.
M'a été indiqué en réponse à une de mes questions par Pablo Irarte ( https://twitter.com/pablog_ch )
Un liste de ressources pour le "data journalisme".
Via : http://www.quaternum.net//2016/06/24/des-ressources-et-des-outils-pour-la-data
Tous les loyers, partout en Europe, en temps réel.
Un site permettant de faire de comparaison entre villes, entre quartiers de la même ville. Il est également possible de vérifier si l'appartement que l'on loue est cher ou pas, en moyenne européenne ou de votre ville.
Très intéressant. Un vrai service public. Ou presque.
Les données OpenStreetMap pour la Suisse, mises à jour chaque heure.
Un outil pour extraire les data, sous forme de tableaux, d'un PDF. Ne fonctionne pas avec des documents numérisés.
Ce n'est pas un traitement complètement automagic : il faut sélectionner la table à la main. On peut reproduire la zone sélectionnée sur les pages suivantes.
Dans certains cas c'est une aide appréciable.
Le code est sûr github.
un outil cli pour traiter du JSON
Karma is an information integration tool that enables users to quickly and easily integrate data from a variety of data sources including databases, spreadsheets, delimited text files, XML, JSON, KML and Web APIs. Users integrate information by modeling it according to an ontology of their choice using a graphical user interface that automates much of the process. Karma learns to recognize the mapping of data to ontology classes and then uses the ontology to propose a model that ties together these classes. Users then interact with the system to adjust the automatically generated model. During this process, users can transform the data as needed to normalize data expressed in different formats and to restructure it. Once the model is complete, users can published the integrated data as RDF or store it in a database.
via : http://www.web2learning.net/2015/04/20/bookmarks-for-april-20-2015/
Un plugin pour PluXml permettant de visualiser sous forme de graph (svg) des données tabulaires.
Moteur pour réaliser une archive institutionnelle, permettant de déposer soi-même les contenus. Comprend l'acquisition, la gestion, la recherche et l'affichage des contenus numériques.
Permet d'enregistrer les ORCID et de les afficher et d'en tenir compte pour les statistiques.
Utilise Fedora Commons, Solr, Blacklight (discovery tools).
Un service Web, que l'on peut auto-héberger, pour réaliser des visualisations de données.
via un shaarlieur
Le github : https://github.com/datawrapper/datawrapper où l'on trouve des instructions d'installation en anglais
Un research data repository. Provides DOI. Integrates Github for software preservation. Run by the library of CERN.
Service Web de visualisation de données, par IBM. Notamment intéressant pour visualiser des textes littéraires.
Permet entre autre de configurer les stop words.