Bibliothèques publiques et open data : quels enjeux ?

En plus des traditionnels open source et open access, les bibliothèques vont être de plus en plus confrontées à l’avenir à un troisième Open, l’Open data. Il faut bien entendu commencer par des fondamentaux. Rassurez vous je ne vous propose pas de long discours, mais une seule présentation, à consulter avant d’aller plus loin. Elle vient de très bons spécialistes de la question : Libertic qui animent un blog de veille de très grande qualité sur ces questions.

L’Open Data c’est quoi ?

En complément, voici la définition proposée dans cet excellent Guide pratique de l’ouverture des données publiques territoriales proposé par Amandine BRUGIÈRE et Charles NÉPOTE dans le cadre de la FING et accessible ici si vous voulez y contribuer.

Comme toute organisation aujourd’hui, un acteur public utilise l’informatique pour préparer toutes ses décisions, produire tous ses services, évaluer toutes ses actions. Et l’informatique traite des données : par exemple, des fonds de cartes et des informations attachées aux cartes, des statistiques, des descriptions de services et de lieux publics, des mesures, des études et rapports, des barèmes, des textes réglementaires, des informations temps réel, et de bien d’autres choses. Ces informations sont la matière première de l’action publique. Mais elles pourraient aussi bénéficier à d’autres acteurs publics, ainsi qu’à des entreprises innovantes, des associations, des chercheurs, des citoyens. C’est l’idée qui sous-tend la directive européenne sur la « réutilisation des données publiques » (2003), transcrite en droit français en 2005 sous la forme d’une révision de la loi du 17 juillet 1978 sur l' » amélioration des relations entre l’administration et le public » : les « données publiques », financées par l’impôt, doivent pouvoir être réutilisées par d’autres acteurs, au service de la qualité des services sur le territoire, de la croissance économique, de la connaissance et du débat démocratique.

Vous aurez compris qu’il s’agit de favoriser l’innovation par la mise à disposition de données réutilisables, selon une définition assez maximaliste de la notion de données ouvertes. Pour qu’une donnée soit ouverte au sens du groupe de travail « Open Governement Data » en 2007, elle doit être :

  • complète
  • primaire
  • opportune
  • accessible
  • exploitable
  • non discriminatoire
  • non propriétaire
  • libre de droit

Pourquoi s’y intéresser ? Voici les trois raisons principales

L’ouverture des données publiques n’est pas une option pour les acteurs publics : elle est rendue obligatoire par des directives européennes et une législation française qui en a fait un droit opposable. Citoyens, associations, entreprises, sont en droit d’exiger que les « données publiques » leur soient délivrées pour qu’ils en fassent leur propre usage, y compris commercial.

Mais cette ouverture constitue également une chance. En s’y engageant, les acteurs publics ont l’occasion de gagner en efficacité, en mutualisant leurs propres bases de données : combien de départements d’une même administration, combien d’administrations d’un même territoire, dupliquent-ils les mêmes bases de données, les mêmes cartes, les mêmes statistiques, évidemment pas tout à fait cohérentes entre elles ?

L’ouverture des données publiques peut également contribuer au développement économique et à l’amélioration de nombreux services aux habitants comme aux entreprises : en permettant à desacteurs de proximité de mieux répondre aux besoins particuliers de tel quartier, de telle catégorie de population, de tel bassin d’emploi, on crée de l’activité tout en améliorant la qualité de vie.

Bon mettre à disposition des fichiers, ça fait pas hurler les foules, il faut bien entendu rendre tout ça concret en laissant percevoir quels services à valeur ajoutée il est possible de créer à partir de données ouvertes. Dans la présentation ci-dessus, une des premières illustrations concrète de l’Open Data est un service lié aux… bibliothèques ! Il s’appelle Bookzee, c’est un service américain (New-york) de géolocalisation de livres à partir des données des bibliothèques. Voilà qui montre clairement l’intérêt d’accéder aux données d’un catalogue de bibliothèques. En réalité ce mouvement de l’open data est à connecter avec un enjeu que nous connaissons bien : l’échange de données et l’accès à des catalogues de données.

Damiano Albani, jeune informaticien indépendant et non-bibliothécaire avait il y a deux ans conçu un service à partir des données bibliographiques des bibliothèques françaises. Il s’agissait d’un script greasemonkey, qui, ajouté à Firefox permettait d’afficher en temps réel la disponibilité en bibliothèque d’un titre affiché sur Amazon ou Alapage ou d’autre libraires. Le site n’existe plus aujourd’hui. Concrètement ça donnait ça :

Que manquait-il a Damiano pour proposer un service fiable et efficace, et éventuellement créer une entreprise sur un service innovant ? Il ne lui manquait pas des données mais un accès à des données strucurées. Dans cette présentation proposée lors du Bookcamp1 il avait exprimé les difficultés rencontrées. Le besoin d’il y a deux ans est toujours le même et il tient en un mot : Interopérabilité c’est-à dire selon les propres recommandations de Damiano : respect des normes ISO 2146:2009 (modèle) et ISO 8459:2009 (vocabulaire) ISO 20775:2009 (schéma XML), compatible avec SRU/SRW, norme Utilisée par WorldCat pour leur API.

Autant dire que le besoin n’est pas nouveau. Ce qui change en revanche c’est à la fois la sensibilité politique sur ces questions ainsi que les moyens techniques d’échanges de données qui s’améliorent à grande échelle.

De quelles données disposent les bibliothèques ?

Intéressons nous d’abord à ce qui existe. En France, très peu de collectivités ont entrepris une démarche « open data ». A Rennes (ville pionnière) où vous pouvez voir concrètement à quoi ressemble une telle démarche. Sur ce répertoire de données, on ne trouve aucune donnée concernant les bibliothèques. :-( Nuls doute que la situation est transitoire…

Le répertoire des données de la Ville de Paris propose l’intégralité des statistiques de prêt, régulièrement mise à jour. Voilà qui peut intéresser des gens souhaitant faire une étude sur les bibliothèques… Sur opendata.paris.fr on trouve la Liste des ouvrages (notice bibliographique et localisation) dans les bibliothèques parisiennes au 02/01/2009. Notons que ces données sont proposées sous la forme : Fichier au format texte délimité contenant 3 617 596 entréesAu début, je me suis demandé ce qu’on peut faire d’un tel fichier, sachant que les données des bibliothèques sont constamment mises à jour par des achats et des retraits du catalogue, tout au plus cela peut-il servir à évaluer un fonds ? Mais pour qui ? En réalité, la démarche d’ouverture des données suppose que nous autres fonctionnaires arrêtions pour une fois de penser services, pour penser données et laisser d’autres penser aux services à partir de ces données. Voilà qui ne manque pas de me laisser perplexe. Pour autant, quand je vois les innombrables difficultés à innover pour le secteur public, je me dis que la souplesse des PME peut être une vraie solution, à certaines conditions, bien entendu. Voilà pour les deux villes qui sont les plus avancées dans ce type de démarche. Vous trouverez ici une carte collaborative vous permettant de signaler un projet de ce type le cas échéant.

Mais une question se pose : une démarche d’open data doit-elle seulement se manifester par un dépôt de fichier dans un répertoire ou plutôt porter sur l’interopérabilité des systèmes d’information des services publics ? Le cas des web services est effectivement pris en compte dans un projet de place de marché des données publiques comme Data Publica qui annonce un catalogue de web services :

Découvrez ici très prochainement une sélection de web services permettant d’accéder aux données d’éditeurs partenaires de Data Publica. Ces services, exposés avec leur API, sont « prêts à intégrer » dans vos nouveaux développements d’applications.

C’est là qu’on se prend à imaginer que le mouvement de l’Open data force que les bibliothèques à ouvrir leurs données et que puisse se construire un catalogue commun de grande qualité, un catalogue géant des bibliothèques publiques agrégeant des données enrichies de plusieurs sources accessibles sur n’importe quel plateforme, dont les données seraient largement disséminées…

Ouvrir les données : oui mais pas sans contreparties

En réalité, cela fait déjà des années que les bibliothèques, pratiquent l’ouverture des données comme M. Jourdain, en considérant par exemple les données bibliographiques et les données d’autorité de la Bnf comme un bien commun. Les conditions d’utilisation des notices de la Bnf ne sont certes pas celles d’une licence adaptée… justement parce qu’il s’agissait d’une démarche entamée avant que le champ de l’Open Data se structure autour de « bonnes pratiques ». La démarche mérite bien sûr d’être amplifiée et l’on peut rêver de voir appliquer une licence plus élaborées pour les données bibliographiques…

Cela est pourtant loin d’être suffisant en matière d’Open data pour les bibliothèques. D’abord parce qu’il faut relativiser l’importance des données bibliographiques aujourd’hui alors même que l’enjeu stratégique (et donc la valeur économique) s’est déplacé vers des données enrichies voire des données collaboratives. Pour les commentaires de lecteurs et/ou de bibliothécaires, nous avions souligné les dangers d’une appropriation par le privé de données proposées et financées par le public. Ce qu’on oublie souvent c’est de mentionner que ces données entrent dans des modèles économiques le plus souvent orientés business to business que vendus directement auprès des consommateurs. A ce titre là, les bibliothèques risquent bien souvent d’être des clients public d’entreprises qui revendent des données publiques… Voilà qui pose la question des contreparties.

Nombreux sont les archivistes qui s’interrogent sur le problème politique d’une mise à disposition sans conditions des données publiques pour construire des monopoles privés. Pour comprendre ces enjeux, je vous renvoie à cet excellent article de la Gazette des communes. Il ne faudrait pas qu’à travers la mise à disposition de données publiques se joue ce qui n’est rien de moins qu’une privatisation sur le mode de ce qui s’est passé autour des réseaux autoroutiers : au public l’investissement et au privé l’exploitation commerciale et la rentabilité sans contreparties. La question est bien sûr plus complexe sous couvert d’ouverture et de collaboratif à la mode c’est bien l’éternel question de l’équilibre entre privé et public qui se redessine. A cet égard la position de Bruno Ory-Lavollée, conseiller maître à la Cour des comptes, auteur du rapport « Partageons notre patrimoine » me semble à nuancer :

Dans l’économie publique, l’investissement est récupéré sous forme d’externalités. Pour reprendre l’exemple de la route rénovée : chaque fois qu’un automobiliste l’emprunte, il gagne en qualité de communication, en vitesse et en sécurité, le département a donc créé une valeur. Si le conseil général fait bien son travail, avant les travaux il a évalué ces gains pour voir si son investissement est socialement rentable.

Cette position est défendable, dans certain cas (concernant notamment la gratuité d’accès aux bibliothèques ou aux transports publics) mais elle cesse de l’être si les externalités deviennent l’occasion de construire des rentes privées (songez aux péages autoroutiers pour reprendre l’exemple ci-dessus). Autre exemple : les documentalistes juridiques ont bien raison de s’inquiéter quand on constate les dérives monopolistiques de la constitution de bases de données complémentaires à Légifrance (Dalloz, Jurisclasseur etc.), service public d’accès au droit financé par l’impôt. Des acteurs privés enrichissent très largement ces données publiques auxquelles ils accèdent gratuitement (ou presque) pour les revendre ensuite aux bibliothèques publiques, elles-mêmes financées par l’impôt qui sont forcées à faire des acrobaties budgétaires pour fournir des services… dans les bibliothèques, jusqu’à ce que l’état lui-même envisage à grande échelle des Licences Nationales pour rendre la situation viable ! Qu’on ne s’y trompe pas, pour une large part, le relais politique de l’Open Data est le fruit d’une coalition public/privé qui se résume à elle seule dans le slogan de l’APIE : Les richesses de l’immatériel sont les clés de la croissance future. Au final que se passe-t-il ? Les externalités positives produites par un investissement public sont re-facturées au secteur public avec un différentiel que est loin d’être aussi positif que les externalités l’étaient au départ… Le gagnant est le secteur privé sans aucune garantie d’usages collectifs qui constituent le service public d’accès à l’information. Car un phénomène de concentration bien connu pose toujours, sans régulation, de nombreux problèmes et force par exemple les bibliothèques à s’organiser en consortium…

Question de fond, question politique : au nom de la croissance, est-ce défendable de parier systématiquement sur une efficacité plus grande du secteur privé qui a pour conséquence un sous-investissement chronique dans le secteur public ? Quels impacts cette extension du domaine du privé a-t-il sur les biens communs propres à une société et sur la définition même du service public ?

Attention, il ne s’agit pas d’être pour ou contre et je suis le premier à penser que l’ouverture est utile dans certaines conditions. Je dis simplement qu’il faut être prudent et que l’ouverture des données peut-être une occasion de poser le problème de la régulation. L’IABD a toujours traité ces questions dans un esprit d’équilibre et de contreparties. D’où l’importance cruciale des licences accompagnant ces données, avec des dérives qui ne viennent pas toujours du privé, mais également du secteur public. Nous avions été les premiers avec Lionel Maurel à pointer les dérives des organismes publics ajoutant des droits d’auteurs à des ouvrages numérisés pourtant tombés dans le domaine publicLionel Maurel explique bien mieux que je peux le faire le droit de la réutilisation des données publiques. Pour résumer, on pourrait dire que deux philosophies s’opposent en matière de licences de mise à disposition : d’un côté la licence IP qui permet toute réutilisation à des fins commerciales par défaut et sans contrepartie, et de l’autre la licence ODbL (Open Database Licence) proposée par la Ville de Paris qui me semble une solution bien plus prudente et adaptée parce qu’elle impose ce qui est au coeur de la démarche qui a fait le succès des logiciels libres : le partage à l’identique, c’est-à-dire le fait d’ouvrir à nouveau ce qui a été produit avec une la valeur ajoutée. Sans être une solution idéale (encore faut-il qu’un marché soit concurrentiel et régulé même à partir de données ouvertes) il me semble, du point de vue du secteur public, plus efficace de jouer sur des contreparties consubstantielles à une licence que de vouloir contrôler en amont la réutilisation des données en imposant des barrières financières d’accès aux données. De ce point de vue, je partage l’approche de B. Orry Lavollée lorsqu’il plaide pour une mise à disposition quasi gratuite. A cela s’ajoutent les enjeux propres à l’exception « données culturelles » pour lesquelles la loi de 1978 ménage une exception qui est complètement obsolète aujourd’hui comme le démontre brillamment Lionel Maurel.

Des données ouvertes et des services publics facilitateurs d’innovation

Dans cette démarche, je trouve très intéressant de considérer que des données ouvertes sont également un premier pas vers une médiation des contenus sur un mode collaboratif. J’aime bien la métaphore proposée dans ce billet :

Si vous achetez de beaux divans et fauteuils neufs et changez la décoration de votre salon, cela ne signifie pas nécessairement que les gens afflueront chez vous. Vous devrez les convier dans votre nouvel espace. Et une fois assis sur votre mobilier, vous devrez leur parler: vous les engagerez dans une conversation. Si vous ne parlez que de vous, et ne vous intéressez pas à vos interlocuteurs, les gens se fatigueront. Si vous souhaitez en plus que vos invités repeignent les murs de votre salle à manger ― si vous souhaitez qu’ils collaborent à vos projets ― vous devrez faire preuve de reconnaissance et les traiter avec respect. Peut-être même que vous songerez à leur payer une pizza ou à leur offrir des petits fours en gratitude.

Un des intérêts pour les acteurs publics est ainsi de se positionner comme des facilitateurs d’innovation. Il est en effet nécessaire et même indispensable d’accompagner l’ouverture des données, c’est par exemple ce que fait Rennes en organisant un concours doté de prix. Il s’agit là me semble-t-il d’un élément assez nouveau qui peut permettre au secteur public de renouer avec des dynamiques d’innovation et développement économique pour un tissu de PME au delà d’une stricte logique de subventionnement.

Étendre les principes de l’Open data aux opérateur privés !

Cet article récemment publié sur Owni.fr et d’abord sur Framablog m’a brusquement fait comprendre le déséquilibre fondamental qu’il y a dans cette histoire. Quand on parle d’Open data, on focalise toujours sur les données publiques et les contreparties de leurs usages, avec bien souvent une position de surplomb des opérateurs privés, voire des associations citoyennes critiquant la lenteur et de la frilosité des administrations (ah ces fonctionnaires!). Comment, vous traînez à fournir des données payées par l’impôt alors même qu’il s’agit d’un sacro-saint « levier de croissance » et d’un « enjeux citoyen » ! Oui, bien sûr, il faut encourager ces démarches ! Met-on autant d’énergie à imposer aux opérateur privés qui collectent infiniment plus de données personnelles un principe simple qui pourrait-être :

Si une entreprise commerciale collecte électroniquement les données des utilisateurs, elle devrait leur fournir une version de ces informations facile à télécharger et à exporter vers un autre site Web. On peut résumer cette démarche ainsi : vous prêtez vos données à une entreprise, et vous en voudriez une copie pour votre usage personnel.

Bien sûr la loi française garantie déjà une forme de protection via la CNIL, mais elle porte sur le traitement des données et non pas sur la propriété et la mise à disposition des données pour l’utilisateur…

Au delà de la stricte question de l’open data, la régulation mondiale du web dans les nuages est un enjeu essentiel, bien mal engagé quand on constate la présence exclusive des multinationales à l’Eg8 ! Bertrand de La Chapelle, diplomate, directeur des programmes de l’Académie diplomatique internationale, membre du board des directeurs de l’ICANN explique dans le dernier Place de la toile consacré à la diplomatie de l’Internet que le véritable enjeu de cette réunion a été une gouvernance de l’Internet pensée comme une lutte industrielle entre l’Europe et les USA. Il s’agit de rééquilibrer la situation causée par l’absence de champions européens face à des Facebook et des Google… J’aurai souhaité avec d’autres qu’une telle réunion de chefs d’états s’inscrive dans une démarche de régulation mondiale d’Internet pensée comme un bien commun et régulé à parité avec les acteurs de la société civile. Là encore l’enjeu est de taille : trouver des modes de gouvernance qui ne soient ni des traités, ni des lois nationales par nature inadaptés à un univers déterritorialisé aux évolutions très rapides…

En somme, si la loi impose de libérer des données publiques, pourquoi n’impose-t-elle pas aussi aux entreprises de libérer les données privées alors même que l’informatique dans les nuages est sur le point de prendre une ampleur jamais vue ? Signe des temps, cette redéfinition des rapports publics-privés en matière de données ne s’accompagne pas suffisamment d’une politique de régulation et de gouvernance partagée, enjeu majeur du siècle qui s’ouvre.

 



(1124)

This work, unless otherwise expressly stated, is licensed under a Creative Commons Attribution-ShareAlike 3.0 France License.

Silvae

Je suis chargé de la médiation et des innovations numériques à la Bibliothèque Publique d’Information – Centre Pompidou à Paris. Bibliothécaire engagé pour la libre dissémination des savoirs, je suis co-fondateur du collectif SavoirsCom1 – Politiques des Biens communs de la connaissance. Formateur sur les impacts du numériques dans le secteur culturel Les billets que j'écris et ma veille n'engagent en rien mon employeur, sauf précision explicite.

9 Responses

  1. Juguillelefevre dit :

    Bonjour,
    Très stimulant ce post ! On dirait le corrigé de la note de synthèse du concours de conservateur territorial dont le sujet était : L’ouverture et la réutilisation des données publiques !! Bien cordialement, Juliette Lefevre, 59.

    • Anonyme dit :

      C’est marrant j’avais rédigé 80% de ce billet avant de passer le concours de conservateur en interne pour lequel la note de synthèse est effectivement tombée sur ce sujet ! C’est bien ça m’a motivé pour achever ce billet et ajouter des élements ! :-) (comme quoi les concours c’est pas toujours inutile de les passer!)

  2. Calimaq dit :

    Merci pour cette importante contribution au débat sur la question de l’Open Data, qui contribuera peut-être à ce que les bibliothèques se saisissent davantage de cet enjeu.

    La question que tu soulèves des contreparties à l’ouverture est complexe, et je préfère y réfléchir avant de répondre.

    Je voulais juste ici préciser que le choix des licences pour libérer les données est plus large que cela.

    Outre la licence IP et l’ODbL que tu cites, il y a aussi les licences Creative Commons, la licence CC0, les modèles de licences de l’APIE (dont certaines soumettent les usages commerciaux à un paiement et d’autres permettent l’usage commercial, et d’autres encore.

    Entre ces outils, il y a une distinction fondamentale entre celles qui sont fondées sur la loi de 1978 et celles qui sont ancrées dans la propriété intellectuelle.

    Sur le fond quand même (les contreparties à l’ouverture), je pense que « l’effet viral » empêchant la réappropriation que tu défends pourrait s’appliquer pour les données véritables produites par les bibliothèques (données biblio, par exemple). Mais je pense que cela ne devrait pas s’appliquer aux données qui correspondent à des oeuvres du domaine public numérisées, car cela revient à provoquer une altération de cette notion si importante.

    • Anonyme dit :

      Merci pour les précisions pour les licences, je voulais pointer les deux principales pour donner des repères. Pour les oeuvres du domaine public numérisé, le problème n’est-il pas sur le périmètre le la licence odbl (pour reprendre celle-ci) ? Ta question m’a incité à préciser les choses, et la licence Odbl est explicite : « Les bases de données peuvent proposer une grande diversité du contenu (supports visuels, audiovisuels et audio dans une seule et même base de données, par exemple), de sorte que la licence ODbL régit exclusivement les droits liés à la Base de données et non chaque élément du contenu de la Base de données pris séparément. Les Cédants de licences doivent associer la licence ODbL à une autre licence relative au contenu et ce, sous réserve que l’ensemble dudit contenu soit régi par un ensemble unique de droits » Est-ce que cela n’est pas de nature à proposer des contenus du domaine public en les sanctuarisant, tout en proposant la possibilité de construire des services ?

  3. Calimaq dit :

    Merci pour cette importante contribution au débat sur la question de l’Open Data, qui contribuera peut-être à ce que les bibliothèques se saisissent davantage de cet enjeu.

    La question que tu soulèves des contreparties à l’ouverture est complexe, et je préfère y réfléchir avant de répondre.

    Je voulais juste ici préciser que le choix des licences pour libérer les données est plus large que cela.

    Outre la licence IP et l’ODbL que tu cites, il y a aussi les licences Creative Commons, la licence CC0, les modèles de licences de l’APIE (dont certaines soumettent les usages commerciaux à un paiement et d’autres permettent l’usage commercial, et d’autres encore.

    Entre ces outils, il y a une distinction fondamentale entre celles qui sont fondées sur la loi de 1978 et celles qui sont ancrées dans la propriété intellectuelle.

    Sur le fond quand même (les contreparties à l’ouverture), je pense que « l’effet viral » empêchant la réappropriation que tu défends pourrait s’appliquer pour les données véritables produites par les bibliothèques (données biblio, par exemple). Mais je pense que cela ne devrait pas s’appliquer aux données qui correspondent à des oeuvres du domaine public numérisées, car cela revient à provoquer une altération de cette notion si importante.

  4. Luc Jodoin dit :

    Excellent. J’animerai un atelier sur cette question au congrès des milieux documentaires. J’espère que tu seras présent dans la salle pour pimenter la conversation…

    à tout de suiteLuc Jodoin

  1. 8 mai 2013

    […] ce billet de Bibliobsession, il y a de réels chantiers à mettre en place pour favoriser l’accès aux données, aux […]

  2. 1 octobre 2013

    […] estiment (comme Silvère Mercier) qu’une telle clause est essentielle pour éviter que de nouvelles enclosures soient posées […]

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>