Et si la meilleure des archives ouvertes c’était Wikisource ?

screenshot0031C’est Timothy K. Armstrong de l’Université de Cincinnati qui pose cette question. Dans cet article de Open Access news, il dresse tout simplement une liste des avantages de Wikisource par rapport à un entrepôt OAI. Notons qu’il parle du point de vue d’un juriste qui a besoin de nombreuses références légistalives dans l’exercice de ses fonctions. Deux rappels quand même avant de traduire rapidement cette liste :

Wikisource c’est quoi ? c’est d’abord : 51 973 pages représentent plus de 10 000 textes de plus de 2 000 auteurs.

Principes de réalisation : Trois principes peuvent être retenus pour définir la réalisation de ce projet :

  1. Les documents placés sur Wikisource doivent avoir été déjà publiés ailleurs, sur papier ; Deux exceptions au critère de l’édition sur papier :
    a. Les publications uniquement électroniques ne sont autorisées que si elles proviennent de sites officiels ou d’éditeurs en ligne reconnus (c’est-à-dire qui ont une obligation de dépôt légal auprès de la bibliothèque nationale de leur pays).
    b. Les traductions (voir Cas des traductions)
  2. Les documents placés sur Wikisource doivent être dans le domaine public ou sous une licence libre compatible avec la licence GFDL
  3. Les documents placés sur Wikisource doivent être objectivement identiques à une édition de référence.
Or un entrepôt OAI c’est quoi ? Mais d’abord :
Définition d’Archive ouverte : le terme archive ouverte désigne un réservoir où sont déposées des données issues de la recherche scientifique et de l’enseignement et dont l’accès se veut ouvert c’est-à-dire sans barrière. Cette ouverture est rendue possible par l’utilisation de protocoles communs qui facilitent l’accessibilité de contenus provenant de plusieurs entrepôts maintenus par différents fournisseurs de données.Définition : Un entrepôt OAI est une base de données qui supporte le protocole OAI-PMH et est constituée par un fournisseur de données. Elle contient des métadonnées qui sont disponibles dans différents formats afin de répondre à différents types de demandes.

Soit, on aura compris qu’il s’agit dans les deux cas de rendre des informations largement accessibles et bien référencées. Or l’auteur de l’article pointe les avantages de Wikisource par rapport à un entrepôt OAI (traduction rapide, par mes soins).

  • Wikisource propose un texte intégral sur lequel on peut faire des recherches, des copier-coller sur une seule page web. (…) Le texte est indexé par google.
  • Wikisource facilite les liens vers les sources. Si des caractères manquent comme par exemple, pour le fameux cas c. Universal City Studios Reimerdes DeCSS, vous pouvez trouver facilement, parce que Reimerdes est également sur Wikisource, il suffit d’un clic. La plupart des lois citées dans un texte sont également disponibles ce qui n’est pas le cas pour un entrepôt qui archive des informations.
  • Il est également aisé d’authentifier et d’identifier une citation parce que la page originale scannée de la version publiée, sont conservés aux côtés du texte numérisé, il suffit d’un clic à l’aide du numéro de page de liens qui apparaissent dans la marge gauche du site. (Les numéros de page sont les ancres, ce qui le rend également facile de créer des liens externes qui pointent directement vers une page d’un article.

Voilà qui interroge, précisément parce que, selon l’auteur, Wikisource se positionne non pas comme une archive institutionnelle, mais comme une bibliothèque numérique (ou plutôt un réservoir de textes). Les archives ouvertes sont interopérables en terme de métadonnées mais elles sont d’abord faites avant tout pour stocker et référencer des articles et informations scientifiques avant de les diffuser sur une interface unique en plein texte… c’est dommage non ?

Attention, je suis loin d’être un spécialiste de ces questions, je pose vraiment la question. Est-ce vraiment comparable ? Peut-on extrapoler au-delà du domaine juridique ?

Silvae

Je suis chargé de la médiation et des innovations numériques à la Bibliothèque Publique d’Information – Centre Pompidou à Paris. Bibliothécaire engagé pour la libre dissémination des savoirs, je suis co-fondateur du collectif SavoirsCom1 – Politiques des Biens communs de la connaissance. Formateur sur les impacts du numériques dans le secteur culturel Les billets que j'écris et ma veille n'engagent en rien mon employeur, sauf précision explicite.

5 réponses

  1. B. Majour dit :

    … c'est dommage non ?

    Dans le domaine juridique, où on parle de "textes de lois", c'est plutôt logique. Les juristes ont besoin de références précises (pas de la photo d'une pin-up ou d'un pingouin, encore que 🙂 ).
    On comprend donc leurs besoins de textes "sûrs" (reconnus) et solidement référencés.

    Dans le champ culturel, on ne crache pas sur un peu de polémique ou sur des textes (documents) moins académiques.

    En sciences pures, (et même au-delà) on a aussi besoin de schémas (à la réflexion, peut-être qu'en droit aussi, au moins dans certains cas. Ce qui explique le lien numérisé.)

    Maintenant, que l'on intègre chaque document avec son numéro (index) de page, pour pouvoir s'y référencer (ou s'y rendre) rapidement, et créer des liens intertextuels, ça me paraît logique.

    On fige le texte (comme le figeait un livre papier), pour mieux le référencer.
    Ce qui suppose une "unicité" du document.

    De là à dire qu'il s'agit d'une bibliothèque numérique… je parlerais plutôt, dans ce cas, d'une référence numérique. (une base de références, un fonds numérique)

    Une bibliothèque numérique, tel que je l'entends, s'étendrait aussi aux créateurs des textes, aux ressources vivantes, aux réseaux de ces créateurs (toujours dans le domaine d'intérêt), aux affaires qu'ils ont défendu, à leurs succès, à leurs échecs de par l'utilisation de ces textes dans les différents contextes juridiques.

    Une bibliothèque numérique, c’est ce qui est vivant.
    Ce n'est pas uniquement le fonds du corail mort, sur lequel s'appuie ce vivant.

    Ce corail mort, c'est trop souvent l'archive : ces vieilles archives poussiéreuses.

    Ce n'est pas la même chose qu'une archive servant de fondation à un projet, à un gratte-ciel du droit, ou d'une autre matière scientifique. Voire d'une vraie bibliothèque numérique. 😉

    Bien cordialement
    Bernard Majour

  2. shaunlemouton dit :

    personnellement j'ai eu beaucoup de mal à faire admettre Wikisource comme base de donnée sérieuse proposable à la BU. Le problème est qu'en francophone ca reste très pauvre et loin du niveau de contenu de wikipedia français. Je trouve également l'affichage des textes bien moins standardisé et carré que wikipedia. Bref, (en tout cas pour la version francophone) ça sent encore un peu trop la Béta pour être pris très au sérieux.

  3. Nojhan dit :

    Wikisource contre les archives institutionnelles, c'est l'esprit du
    web contre le modèle de la bibliothèque papier, ce sont les même
    différences qui font que google books va complètement ravager le
    "marché" des bibliothèques et des éditeurs.

    Google a prouvé que pour que ça marche sur le web, il faut donner un
    accès au contenu. Or, les métadonnées, c'est bien pratique dans une
    bibliothèque, mais ça ne vaut généralement pas une recherche plein
    texte. Le web s'appuie sur le texte comme brique de base : on peut le
    copier, le coller, le remanier, citer facilement, aggréger
    automatiquement, etc. Une archive sans plein texte, c'est une archive
    qui ne rentre pas dans le web, quelque soit l'interface que vous
    mettez par dessus.

    De même, la multiplications des sites différents, même
    interropérables, n'aura pas la puissance de frappe d'un site unique.
    Regardez ce qui marche sur le web : Wikipédia, complètement centré sur
    la matière première, le contenu, le texte, réutilisable à volonté et
    facilement. Regardez ce qui va marcher : google books, centré sur le
    contenu, mis à disposition, qui passe les scans à l'OCR autant que
    possible, sur un site central.

    Bref, on peut considérer que wikisource n'a pas une interface sexy,
    mais ils ont compris que ce qui compte c'est d'abord le contenu, pas
    la forme, ni la défense de son pré carré.

    Si au lieu de vaquer de séminaires en conférences et de projets en
    spéculations sur l'avenir de la biliothèque numérique hébergée petits
    bouts par petits bouts par chaque petite institution dans son coin, on
    se concentrait à alimenter des trucs comme Wikisource et le projet
    Gutenberg, tout le monde y gagnerait.

    Ah mais attendez, non en fait c'est trop tard, Google a commencé à
    faire ça depuis 5 ans, mais pour son propre profit… dommage.
    —-

  4. Toto dit :

    « Le problème est qu'en francophone ca reste très pauvre et loin du niveau de contenu de wikipedia français »

    Ben voyons. Wikisource propose les scans des livres, donc une méthode de vérification objective ; Wikipédia propose du contenu non vérifié, des erreurs au kilomètre, un site qu'aucune être humain ne peut protéger des vandalismes subtils, alors qu'avec Wikisource, il suffit d'importer les scans et point barre. Alors quant à ne pas prendre Wikisource au sérieux, je trouve cela assez drôle.

    J'espère bien que Wikisource ne ressemblera jamais à la poubelle géante qu'est Wikipédia. Quant à l'aspect béta, tu peux essayer de publier un livre pour voir le travail que cela demande ; c'est autre chose que Wikipédia. Il faut plus de temps, de patience, de constance. Tu voudras bien pardonner aux contributeurs qui font ça gratuitement de ne pas être plus rapides.

  5. Coolmicro dit :

    Bonjour,

    Je précise pour la compréhension de la suite de mon message que je suis le coordinateur du groupe ebooks libres et gratuits (ELG) – http://www.ebooksgratuits.com/ – et que nous collaborons régulièrement avec Wikisource. Pour autant, si nous sommes un groupe séparé, alors que nous aurions pu nous fondre dans Wikisource, c'est que nous avons des conceptions différentes sur quelques points, qui sont liées au débat ci-dessus.

    Je veux aussi préciser auparavant que je suis d'accord avec Toto sur la différence profonde qui existe entre le travail Wikipedia, et le travail de publication de livres électroniques, même si je ne considère pas, pour ma part, Wikipedia comme une poubelle géante…

    Pour revenir sur ces conceptions différentes, je vais reprendre l'expression "publication de livres électroniques" : je fais partie de la "vieille génération" qui estime qu'un texte littéraire doit être lu sur un livre: quand la lecture est électronique, on a besoin d'un livre – électronique… En 2003, lorsque j'ai créé ELG au lieu de rejoindre Project Gutenberg (PG), c'était déjà parce qu'à l'époque PG se contentait du format TXT, avec parfois le format HTML, ce qui pour moi, ressemblait à tout, sauf à un livre… (depuis peu, PG a enfin compris son erreur et se tourne vers les formats epub, mobi, etc).

    Donc, essayons de définir ce qu'est un livre électronique, et nous saurons les faiblesses de Wikisource, et dons dans quelle direction il serait souhaitable qu'ils évoluent. Je n'aborderai que les 2 principaux problèmes.

    * Le premier point évoqué ci-dessus, c'est à dire la forme que doit avoir un livre électronique pour être agréable à lire, avec l'adoption de formats spécifiques tels que l'epub, le PDF, Mobipocket, eReader, etc n'est pas à la portée de Wikisource en tant que tel, du fait de la forme Wiki du travail. Mais il serait tout à fait imaginable qu'une cellule dédiée de Wikisource ou un groupe parallèle/partenaire effectue les conversions une fois un texte définitivement validé, pour les mettre à disposition des visiteurs. L'essentiel est de comprendre qu'il est difficile de lire des livres entiers dans une page Wikisource, dans n'importe quelle interface wiki, parce que ce n'est pas prévu pour cela.

    * Le deuxième point qui pose problème, c'est la qualité des textes, et je m'empresse de dire qu'en aucun cas je ne veux critiquer les bénévoles qui font ce travail, et que je connais pour certains: je veux uniquement parler du système et de ses inconvénients. Il s'agit de décider quel est l'objectif principal. Pour notre groupe, c'est très clair: il ne faut pas chercher la quantité, le seul objectif doit être d'obtenir une bonne qualité finale (ce qui ne veut pas dire que nous ne sommes pas critiquables sur ce point, il suffit de voir les livres que nous avons publiés en 2003 – 2004 par exemple). Or Wikisource propose 10000 textes (d'après la page d'accueil), et la page des textes validés – http://fr.wikisource.org/wiki/Wikisource:Document… – doit contenir 110 à 120 textes… Ces chiffres résument le problème. Et je ne connais pas le nombre des textes incomplets sur Wikisource, mais je pense qu'il est assez important.
    Il y a un remède à tout cela, mais il faudrait un changement complet de mentalité, car le remède que je propose est assez extrême… Il existe 5 catégories de textes sur Wikisource:
    * Texte incomplet
    * Texte complet non formaté
    * Texte complet et formaté
    * Texte relu et corrigé
    * Texte validé
    Il faudrait que les 3 premières catégories ne soient pas visibles du public (nécessité d'être inscrit comme contributeur pour voir ces textes). D'une part cela motiverait les contributeurs qui auraient envie que "leur texte" apparaisse publiquement, d'où la nécessité de proposer un texte complet et formaté. Et d'autre part, Wikisource aurait enfin une "meilleure gueule" avec des textes complets et formatés. Il resterait évidemment à relire, corriger et valider. Pour avancer sur ces dernières tâches il suffirait d'expliquer clairement en page d'accueil que la relecture des textes publiés est une priorité…

    Bon, je m'arrête là; je "parle" trop, et j'ai conscience que c'est un peu simpliste de donner des conseils ainsi… Mais je pense sincèrement que c'est dans cette direction qu'il faudrait aller, quelles que soient les solutions envisagées.