De l’intérêt de faire des métadonnées culturelles des communs de la connaissance

L‘enjeu des métadonnées de l’industrie musicale est trop souvent relégué à un débat de spécialistes. Il s’agit au contraire d’un point crucial pour l’existence d’une politique culturelle. Ce schéma (qui date de 2009) est une bonne synthèse et  montre qu’on est loin d’une interopérabilité :

infometadata2

En passant, un acteur majeur ne figure dans aucune des sources de données actuelles : les bibliothèques nationales pourtant acteurs historiques de la production de métadonnées!

Mais le plus intéressant est de constater que cette logique de silos est contrebalancée par des initiatives qui font des métadonnées des communs, c’est-à-dire des ressources produite entretenues et pérennisées par une communauté qui se fixe des règles. 

C’est le cas de MusicBrainz qui est un acteur historique des métadonnées musicales trop peu connu ! Sur Wikipédia on apprend : Screen Shot 03-20-16 at 08.59 PM 001

MusicBrainz est une base de données musicale,collaborative, universelle, librement diffusable. Elle référence des enregistrements d’œuvres, et non des œuvres en elles-mêmes. MusicBrainz a une existence légale au travers deMetaBrainz (voir encadré). Au 13 octobre 2011, la base de données comprend des données sur plus de 620 000 artistes ou groupes, plus de 970 000 sorties, et plus de 54 000 labels.

Encore plus intéressant cette base de données s’est construite depuis l’an 2000 en réaction à une enclosure imposée par une société privée :

Comme le projet freedb, MusicBrainz a été créé à la suite du changement des conditions d’accès aux données de CDDB de la société Gracenote.

L’histoire de l’enclosure imposée aux métadonnées de la musique mérite d’être rappelée :

Le logiciel original utilisant CDDB a été sous GNU General Public License, beaucoup de personnes ont alors envoyé des informations sur des CD, pensant que ce service resterait libre. La licence a changé, plus tard. Cependant, certains programmeurs se sont plaints que la nouvelle licence comprenait certains termes qui les menaçaient d’une telle manière qu’ils ne pouvaient pas les accepter : si l’un décidait d’accéder à CDDB, un autre ne pouvait pas accéder aux autres bases du même genre (comme freedb), et chaque programme qui utilisait la base de CDDB devait montrer le logo CDDB durant la recherche d’informations.

Au mois de mars 2001, CDDB, maintenant appelé Gracenote, a banni l’accès à sa base de données à toutes les applications qui n’étaient pas sous licence. Les nouvelles licences pour CDDB 1 (la version originale de CDDB) ne furent plus disponibles, afin de forcer les programmeurs à passer sur CDDB2 (une nouvelle version incompatible avec CDDB1 et par conséquent freedb).

16 ans plus tard MusicBrainz est une énorme base de données ouverte, collaborative et comportant des règles de gestion et de participation précises. Selon cet article, elle compte 16,4 millions de titres (tracks) et 850 000 artistes. À titre de comparaison, le mastodonte GraceNote compte 78 millions de titres renseignés. Il ne faut pas oublier que ce mastodonte s’est construit par l’enclosure de données ouvertes regroupées dans feu Freedb

Elle est publiée en partie sous CC0 et appartient donc au domaine public et en partie sous licence creative commons CC-BY-NC-SA, ce qui signifie qu’elle ne peut pas être appropriée en cas de modification (clause de partage à l’identique SA) et qu’elle ne peut faire l’objet d’usages commerciaux a priori (pour ça il faut demander l’autorisation).

Par exemple MusicBrainz est utilisée par l’excellent réseau social SensCritique pour lui permettre Screen Shot 03-20-16 at 09.43 PMd’ajouter des métadonnées. Le site de musique de la BBC l’utilise aussi.

Comment trouve-t-elle les moyens pour exister? Elle est adossée à une fondation qui s’appelle MetaBrainz et qui est là pour réguler les usages commerciaux de cette base. Comme ces usages ne sont pas autorisés par défaut (pour la partie sous licence CC), les entités souhaitant faire du commerce à partir ce des données sont obligées de se déclarer à la fondation qui passe des contrats avec eux. La fondation détermine alors des niveaux d’usages qui correspondent, je suppose, à des niveaux de financement :

Screen Shot 03-20-16 at 09.00 PM 001

Screen Shot 03-20-16 at 09.15 PM

Screen Shot 03-20-16 at 09.15 PM 001

La fondation est non profit, mais ne publie plus de rapports annuels depuis 2013. Difficile d’en savoir plus dans ces conditions… On voit là une autre limite des communs fondés sur les CC, c’est la différence qu’il peut parfois y avoir entre les communautés qui agissent pour créer en entretenir le commun et celles qui gèrent les conditions de son existence et de sa visibilité. Wikipédia a récemment fait les frais d’une telle distorsion qui aurait peut-être moins de chances de se produire si les financements pouvaient se faire en toute transparence, dans une structure de gouvernance ouverte gérée par des commoners

Ainsi les revenus tirés d’usages par des géants du streaming comme Spotify sont utilisés pour le maintien de la base et l’existence de ce commun. Un des problèmes de ce type de fonctionnement, qui semble ici idéal est que tous les usages commerciaux sont mis sur le même plan. Très bien que de grandes entreprises paient pour les communs, mais est-il juste de faire payer aussi les coopératives ou les petites entreprises souhaitant réutiliser ces données? Il nous a toujours semblé que non et c’est pourquoi nous creusons au sein de SavoirsCom1 la thématique des licences à réciprocité pour les communs. Il nous semble que l’alternative entre usages commerciaux ou pas est devenue une alternative très insatisfaisante.

Quoi qu’il en soit, on a là un très bon exemple d’une forme de commun qui est autosuffisant parce qu’il fait exister un standard dont tout le monde a besoin, acteurs privés comme acteurs publics. Il garde cependant cette spécificité qu’ont les communs : il n’est ni privé, ni public, il appartient à tous et à personne. J’ignore si certaines bibliothèques publiques utilisent cette base de données, mais sachez que la licence vous y autorise parfaitement et que vous pouvez, s’il subsiste des geeks du catalogue chez vous, trouver là une manière d’utiliser leurs efforts de catalogage au service de tous ! 

A noter qu’il existe aussi CriticBrainz, base de données de critiques pour les oeuvres musicales sous creative commons.

Screen Shot 03-20-16 at 09.00 PM

Et si l’histoire se répétait pour le livre? Figurez-vous que tout récemment, en Avril 2015, BookBrainz vient de naître! Il y a même en développement un plugin pour Calibre, le logiciel de gestion d’Ebook !

Screen Shot 03-20-16 at 08.59 PM 002

Autant vous dire que la base est vide pour l’instant… Vous pouvez participer !

Là vous vous dites comme moi que les données bibliographiques, on les a à la BnF, elles sont mêmes sous licence Ouverte ce qui permet de les récupérer et de les réutiliser. Voilà qui ouvre la voie à une réutilisation de ces données, y compris pour un usage commercial (la licence ouverte l’autorise) via la licence choisie par le projet BookBrainz ! La BnF pourrait même améliorer ses propres données en réutilisant le travail des commoners… Voilà concrètement pourquoi toutes les bibliothèques nationales du monde doivent pratiquer d’urgence des politiques de données ouvertes. 

En creux, (schizophrénie de cette institution) on constate que le refus récent par les pouvoirs publics d’aller vers un dépôt légal des livres numériques par la BnF est aussi dommageable non pas seulement pour la recherche, mais pour l’élaboration de ces bases de données. Les livres numériques n’auront pas l’obligation d’être déposés par leurs auteurs/éditeurs et ne seront donc pas décrits. Voilà encore une fois manquée une chance historique d’élaborer un partenariat public/communs sur le long terme !

L’élaboration de tels communs est une base incroyablement précieuse si on couple ces bases de données à la puissance de la technologie Blockchain, telle que la présentait récemment Lionel Maurel. Il y pointait l’intérêt du rapprochement en cours entre les Creative Commons et ce registre décentralisé permis par blockchain; non plus seulement pour décrire et repérer les communs mais pour favoriser leur financement partagé et co-géré :

Plusieurs propositions, comme la licence globale, le mécénat global ou la contribution créative, ont imaginé mettre fin à la guerre au partage en légalisant les échanges d’oeuvres entre individus en contrepartie d’une nouvelle rémunération distribuée aux créateurs. On a proposé par exemple de mettre en place un financement mutualisé pour la création via un surcoût de quelques euros au prix de l’abonnement à Internet qui serait versé par chaque foyer et reversé aux auteurs en fonction du volume de partage de leurs oeuvres.

Mais ces propositions se sont heurtées à des difficultés en ce qui concerne le traçage des échanges liés à chaque oeuvre, leur quantification et ensuite, la répartition des sommes entre les différents créateurs. La proposition initiale de licence globale envisageait de reverser les sommes collectées aux sociétés de gestion collective traditionnelles (avec tous les biais dans la répartition que cela aurait provoqué). La proposition de contribution créative élaborée par Philippe Aigrain et portée par la Quadrature du Net optait plutôt pour la mise en place d’un nouveau système de gestion, plus transparent et mieux contrôlé par les citoyens.

Mais une critique qui revenait souvent était l’obligation de mettre en place pour arriver à un tel résultat un système de surveillance des échanges entre individus afin d’être en mesure d’évaluer les volumétries et d’affecter les sommes aux différents artistes. Une telle solution aurait été finalement assez proche de ce que fait la Hadopi dans le cadre de la riposte graduée et posait de réels problèmes d’atteinte à la vie privée. Pour surmonter cette difficulté, la proposition de la Quadrature envisageait de passer plutôt par des panels d’utilisateurs volontaires pour évaluer les volumes d’échanges à partir de leurs pratiques (un peu à la manière des mesures d’audimat).

Cette solution aurait sans doute été praticable, mais elle gardait quelque chose d’insatisfaisant. Or Blockchain permettrait peut-être aussi de surmonter ces difficultés. Avec ce système de registre décentralisé, il n’est pas besoin que la répartition des sommes collectées passe par un organisme centralisé (ni les anciennes sociétés de gestion collective, ni de nouvelles). Si les échanges d’oeuvres entre individus s’effectuent par le biais d’une chaîne de blocs, la base de données peut être hébergée collectivement de manière distribuée, à l’instar du registre du BitCoin. Comme on l’a vu plus haut, Blockchain permettrait aussi aux créateurs de déclarer simplement leur catalogue d’oeuvres et d’obtenir une rémunération à hauteur des usages, par le biais d’un algorithme public et transparent, dont les paramètres pourraient ici être fixés par la loi. Par ailleurs, BitCoin a justement montré que Blockchain pouvait aussi servir à préserver l’anonymat des échanges et cette capacité pourrait ici s’avérer extrêmement précieuse pour garantir la traçabilité et la quantification, sans préjudice pour la confidentialité et la vie privée des internautes.

Blockchain permettrait peut-être aussi de surmonter ces difficultés. Avec ce système de registre décentralisé, il n’est pas besoin que la répartition des sommes collectées passe par un organisme centralisé (ni les anciennes sociétés de gestion collective, ni de nouvelles). Si les échanges d’oeuvres entre individus s’effectuent par le biais d’une chaîne de blocs, la base de données peut être hébergée collectivement de manière distribuée, à l’instar du registre du BitCoin. Comme on l’a vu plus haut, Blockchain permettrait aussi aux créateurs de déclarer simplement leur catalogue d’oeuvres et d’obtenir une rémunération à hauteur des usages, par le biais d’un algorithme public et transparent, dont les paramètres pourraient ici être fixés par la loi. Par ailleurs, BitCoin a justement montré que Blockchain pouvait aussi servir à préserver l’anonymat des échanges et cette capacité pourrait ici s’avérer extrêmement précieuse pour garantir la traçabilité et la quantification, sans préjudice pour la confidentialité et la vie privée des internautes.

 

Silvae

Je suis chargé de la médiation et des innovations numériques à la Bibliothèque Publique d’Information – Centre Pompidou à Paris. Bibliothécaire engagé pour la libre dissémination des savoirs, je suis co-fondateur du collectif SavoirsCom1 – Politiques des Biens communs de la connaissance. Formateur sur les impacts du numériques dans le secteur culturel Les billets que j'écris et ma veille n'engagent en rien mon employeur, sauf précision explicite.

8 Responses

  1. cyrzbib dit :

    L’initiative de DOREMUS semble aller dans ce sens également en proposant un modèle de connaissances partagé basé sur FRBRoo http://www.meetup.com/fr-FR/paris-web-of-data/events/229605996/?rv=mr1&_af=event&_af_eid=229605996&https=off

  2. Laurent Monin dit :

    À propos des rapports annuels de MetaBrainz, l’équipe tient à préciser qu’il s’agit juste d’un retard, les rapports annuels financiers continueront évidemment d’être publiés.

  3. Josselin H. dit :

    Article très intéressant, merci.

    Je comprends bien l’intérêt d’étendre le dépôt légal aux livres numériques mais je ne vois en quoi la situation actuelle empêche la description et le référencement des livres par la BnF. Quand vous dites que « Les livres numériques n’auront pas l’obligation d’être déposés par leurs auteurs/éditeurs et ne seront donc pas décrits », je reste un peu perplexe.

    Si je comprends bien, BookBrainz est un moteur de recherche de notices bibliographiques reposant sur une base de données crowdsourcée. Quand vous dites que « La BnF pourrait même améliorer ses propres données en réutilisant le travail des commoners », je me pose la question de la licence encadrant l’utilisation de BookBrainz : ce n’est pas soumis au copyleft ? Le cas échéant, je crains que la republication par la BnF de métadonnées issues de BookBrainz pose un problème de compatibilité entre les licences.

    • Freso dit :

      (Note, I don’t speak French. I read article and comments via Google Translate.)

      BookBrainz will (it should be already, but I’m not sure it’s specified anywhere) follow the same licensing structure as MusicBrainz: the core data is CC0 (that is, public domain) and only auxilliary (ie., data that is not necessarily objective) will be some CC-by-nc-sa (though maybe BB ended up picking another auxilliary license, I can’t remember now).

    • Silvae dit :

      Sur la compatibilité des licences vous avez raison, sauf s’il y a accord entre les deux parties pour lever la clause SA côté BookBrainz, c’est toujours possible de lever des clauses contractuelles…

  1. 2 avril 2016

    […] De l’intérêt de faire des métadonnées culturelles des communs de la connaissance […]

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *