Accord Bnf-Wikimédia : « Nous préparons le web de données »
La presse a largement salué ce qui restera comme un évènement (oui oui messieurs dames et je pèse mes mots) : la signature récente d’un accord entre la Bibliothèque Nationale de France et Wikimédia France autour du projet Wikisource.
La Bibliothèque nationale de France et Wikimédia France ont signé un accord de partenariat qui va permettre à tous les internautes, au travers de Wikisource, d’avoir accès aux transcriptions d’oeuvres tombées dans le domaine public issues de Gallica. Au final, ce sont 1 400 textes en français qui vont être intégrés à Wikisource.
Bien que, pour des raisons de pédagogie, nous n’ayons communiqué que sur un unique aspect, l’accord est double. D’une part, comme on a pu le lire dans la presse, il s’agit de correction collaborative de textes numérisés. De quoi s’agit-il ? Le processus de numérisation aboutit à la création d’une image. Pendant un certain temps, les bibliothèques s’en sont contentées mais, rapidement, les avantages de disposer des ouvrages en plein texte – conjugués avec les progrès des logiciels de reconnaissance de caractères (OCR) – ont amené à superposer une couche de texte sur l’image du livre. On conservait ainsi la mise en page originale, tout en pouvant rechercher chaque mot d’un texte.Toutefois, si les OCR donnent d’excellent résultats sur les typographies actuelles, ce n’est pas toujours le cas sur des livres plus anciens dont les lettres n’avaient pas la même forme (cas du « S long ») ou dont le papier est taché, l’encre pâlie etc. Or, le coût de la numérisation est tel qu’une bibliothèque ne peut pas se permettre de faire relire et corriger à la main chacun des textes qu’elle numérise, à plus forte raison quand il s’agit de numérisation en nombre comme à la BnF.C’est là qu’intervient la puissance du travail collaboratif. Le wiki, en tant qu’outil, permet à de nombreuses personnes de travailler sur un document : il est extrêmement fastidieux de relire ligne à ligne un ouvrage de 300 p. pour traquer les coquilles mais qu’en est-il quand ce travail est entrepris par plusieurs dizaines de personne dans une interface qui permet d’organiser et de répartir le travail ? Les OCR défaillants sont alors corrigés par des yeux humains qui restent encore largement supérieur aux machines et qui permettent de jouir de textes exacts et fiables.La BnF nous a donc versé 1400 documents issus de Gallica, avec des taux de qualité d’OCR extrêmement variables, afin d’expérimenter cette méthode de travail. Les textes sont versés dans Wikisource, la bibliothèque numérique sœur de Wikipédia, déjà riche de plus de 50 000 documents, et corrigés progressivement par tous les internautes de bonne volonté. Wikimédia France avait déjà expérimenté cette méthode sur les thèses de l’Ecole vétérinaire de Toulouse, dont nous avions financé la numérisation . Nous suivons bien sûr les avancées de près et évaluerons le travail effectué et l’intérêt d’une telle méthode pour les bibliothèques.
Oui, la seconde partie du partenariat est plus technique mais devrait plaire aux bibliothécaires. Il s’agit d’un travail sur les autorités (titres, auteurs, noms géographiques) : la BnF autorise Wikimedia France à réutiliser ses autorités auteur afin de lier chaque article de Wikipédia aux fiches autorité de la BnF.Ce travail est fondamental dans un internet où les données doivent être liées entre elles et les relations entre données caractérisées.La Wikipédia allemande utilise déjà systématiquement de telles données (voir par exemple l’article sur François Mauriac, en bas de page), ce qui en retour a permis à la Deutsche Nationalbibliothek de faire un lien vers Wikipédia depuis son catalogue (là encore l’exemple de Mauriac, le lien est à droite ) [note du bibliobsédé : j’avais écris ce billet à ce sujet]Lier les autorités ne consiste donc pas seulement à donner des sources fiables aux articles : nous préparons le web de données.
Certainement. Cela n’aurait sans doute pas été possible il y a quatre ou cinq ans. Je crois que les bibliothécaires ont pris conscience qu’ils ne détenaient plus le monopole de la diffusion de la connaissance et qu’ils avaient tout à gagner à s’ouvrir sur le monde. C’est sans doute un topos que de dire cela, mais Internet représente une chance inouïe pour les bibliothèques : elles doivent juste comprendre ce qu’elles peuvent en faire et apprendre à en tirer le meilleur. En ce cas précis, je crois que l’accord est extrêmement bénéfique pour les deux parties… et encore plus pour la diffusion de ces textes, ce qui demeure notre but commun.Nous avons eu la chance de pouvoir compter sur des professionnels de très haut niveau à la BnF, qui est un établissement novateur sur bien des points et ouvert aux pratiques nouvelles et aux expérimentations.Mais il reste bien évidemment beaucoup de travail. Il est par exemple très dommage que, quand plus de 30 bibliothèques et dépôts d’archives du monde entiers – parmi les plus prestigieux (Library of Congress, archives nationales des Etats-Unis, des Pays-Bas et du Royaume-Uni, New York public Library,…) – collaborent avec FlickR pour diffuser les images du domaine public qu’elles ont numérisées, on ne trouve qu’une seule et unique bibliothèque français (la BM de Toulouse). Plus dommage encore que certains s’inventent des droits d’auteur (inexistants) sur des scans ou tentent d’imposer maladroitement un droit des bases de données mal compris : faire appliquer la loi française en matière de domaine public et de réutilisation des données culturelles serait déjà une belle avancée et, pour cela, il faut encore et toujours former les professionnels, les guider dans un droit complexe et leur démontrer tout ce que leur établissement a à y gagner !Mais les esprits changent et on avance petit à petit. Le rapport Ory-Lavollée qui demande explicitement aux institutions culturelles de disséminer leurs données, y compris grâce à des partenariats public-privé est extrêmement bénéfique… bien qu’il demeure curieusement encore ignoré de certains bibliothécaires.
Bien sûr, car il y a encore beaucoup à faire ! Un wikipédien va par exemple être pendant plusieurs semaines en résidence au British Museum avec accès privilégiés aux œuvres et aux conservateurs : à quand une telle possibilité en France ?Nous sommes actuellement en discussion avec plusieurs établissements et espérons que cela aboutira. Et nous restons bien sûr ouverts à toute proposition de la part des établissements eux-mêmes. On devrait bientôt avoir un beau projet du côté de Toulouse : à suivre…
En voila une bonne nouvelle !!!
Cela va nous permettre d’être beaucoup plus pertinent dans le moissonnage automatique de données pour enrichir les catalogues des bibliothèques.
La BNF est en plein dans son rôle d’autorité de référence au coeur du web sémantique. Et Wikimedia sera une bonne plateforme pivot pour renvoyer vers d’autres réservoirs de données pertinents.
Tiens, je croyais que c’était Remi Mathis 😉 (http://fr.wikipedia.org/wiki/Utilisateur:Remi_Mathis)
Accord Bnf-Wikimédia : « Nous préparons le web de données » –
aqxsbcywgr
qxsbcywgr http://www.g3o8j2336uzf2z92sqiq11q77xf70j1us.org/
[url=http://www.g3o8j2336uzf2z92sqiq11q77xf70j1us.org/]uqxsbcywgr[/url]