Un texte édifiant sur un large set de données personnelles, consciencieusement établie par une boîte commerciale, dans le but de les vendre, et qui se balade sur le Web à la suite, vraisemblablement, d'une erreur de configuration de base de donnée.
Ça donne une idée de ce qui peut être construit avec des sources souvent publiques, et ce qu'on peut y faire, considérant la qualité des données et leur volume (un JSON de 52 Go).
via https://twitter.com/yo_bj/status/842141323041812480
Il s'agit d'un lightening talk lors du code4lib 2017 #c4l17 sur les méthode pour respecter la vie privée des usagers de bibliothèque tout en ayant quand même des stats à se mettre sous la dent. Avec un point à souligner : la négociation avec les fournisseurs commerciaux qui se gavent de données, sur le dos de nos usagers et de nos institutions...
Collect and disseminate information on fee-based Open Access publishing in Sweden
Récolter, traiter et publier les données sur le coût de publication en OA, principalement des données sur les APC... et le faire sur Github. :)
Le code ne constitue pour l'instant que le frontend. Mais ce projet est intéressant. Ils exportent les données de prêts, anonymisées au mieux, et le analysent, en font des visualisations assez intéressantes. Jusqu'ici, ils ont fait des exports depuis Koha, ont également un peu travaillé avec Aleph.
Un point intéressant, c'est que pour obtenir des statistiques réalistes, ils ont utilisé FRBR pour avoir des stats par oeuvre et pas selon une édition particulière...
Mais l'intérêt, pour eux, est d'exposer les données, au sens de les rendre publique. Voudraient aussi parvenir à produire une typologie de lecteur, en fonction des prêts, des consultations numériques, etc.
Catmandu is a command line tool to access and convert data
from your digital library, research services or any other open data sets.
Un utilitaire python pour manipuler des données en csv
ou pour migrer des données vers le csv
.
L'outil csvsql
devrait pouvoir générer une table SQL à partir d'un csv
.
M'a été indiqué en réponse à une de mes questions par Pablo Irarte ( https://twitter.com/pablog_ch )
Récolte les données publiques d'Airbnb, histoire de se faire une idée du service, de la proportion d'acteurs professionnels par exemple.
Un liste de ressources pour le "data journalisme".
Via : http://www.quaternum.net//2016/06/24/des-ressources-et-des-outils-pour-la-data
Tous les loyers, partout en Europe, en temps réel.
Un site permettant de faire de comparaison entre villes, entre quartiers de la même ville. Il est également possible de vérifier si l'appartement que l'on loue est cher ou pas, en moyenne européenne ou de votre ville.
Très intéressant. Un vrai service public. Ou presque.
via : https://suumitsu.eu/links/?EpXMog
This site is the home of simple protocols and formats for working with open data. Our mission is both to make it easier to develop tools and services for working with data, and, to ensure greater interoperability between new and existing tools and services.
Les données OpenStreetMap pour la Suisse, mises à jour chaque heure.
Un outil pour extraire les data, sous forme de tableaux, d'un PDF. Ne fonctionne pas avec des documents numérisés.
Ce n'est pas un traitement complètement automagic : il faut sélectionner la table à la main. On peut reproduire la zone sélectionnée sur les pages suivantes.
Dans certains cas c'est une aide appréciable.
Le code est sûr github.
un outil cli pour traiter du JSON
via https://fralef.me/links/?p28GSA
Karma is an information integration tool that enables users to quickly and easily integrate data from a variety of data sources including databases, spreadsheets, delimited text files, XML, JSON, KML and Web APIs. Users integrate information by modeling it according to an ontology of their choice using a graphical user interface that automates much of the process. Karma learns to recognize the mapping of data to ontology classes and then uses the ontology to propose a model that ties together these classes. Users then interact with the system to adjust the automatically generated model. During this process, users can transform the data as needed to normalize data expressed in different formats and to restructure it. Once the model is complete, users can published the integrated data as RDF or store it in a database.
via : http://www.web2learning.net/2015/04/20/bookmarks-for-april-20-2015/
Un plugin pour PluXml permettant de visualiser sous forme de graph (svg) des données tabulaires.
via : http://shaarli.warriordudimanche.net/?dmNdbA
Moteur pour réaliser une archive institutionnelle, permettant de déposer soi-même les contenus. Comprend l'acquisition, la gestion, la recherche et l'affichage des contenus numériques.
Permet d'enregistrer les ORCID et de les afficher et d'en tenir compte pour les statistiques.
Utilise Fedora Commons, Solr, Blacklight (discovery tools).
Solution libre pour un portail de données.
Un service Web, que l'on peut auto-héberger, pour réaliser des visualisations de données.
via un shaarlieur
Le github : https://github.com/datawrapper/datawrapper où l'on trouve des instructions d'installation en anglais
Un research data repository. Provides DOI. Integrates Github for software preservation. Run by the library of CERN.
Service Web de visualisation de données, par IBM. Notamment intéressant pour visualiser des textes littéraires.
Permet entre autre de configurer les stop words.
Un logiciel pour tenter de sauver un Hard Disk
GÉANT is the pan-European data network dedicated to the research and education community.
Together with Europe's national research networks, GÉANT connects 40 million users in over 8,000 institutions across 40 countries.
Site d'information sur les données de la recherche, veille.
The PlanetData project is built around three objectives that together ensure the creation of a durable community made up of academic and industrial partners. This community will be supported in conducting research in the large-scale data management area through the provision of data sets and access to...