Archives de l’internet : demandez votre ticket pour la postérité !
Fascinant projet que celui des archives de la Bnf. Le web c’est rapide, c’est le flux, c’est le temps réel. Oui, mais il faut bien conserver des traces pour la mémoire collective, pour la postérité (et pour la recherche surtout en fait). C’est le sens de ce projet qui n’est rien de moins que la continuité numérique de l’édit du 28 décembre 1537, par François 1er (le roi à l’emblème de Salamandre, d’où l’image ci-contre) qui instaure l’obligation d’un dépôt légal en France. D’ailleurs, je suis sûr que feu le Roi à la Salamandre aurait été heureux de constater les efforts qui sont faits pour cette grande collecte. En effet, c’est tout nouveau depuis le 15/09/2009 : la Bnf met à disposition un extranet pour les éditeurs afin de faciliter la démarche de dépôt légal des livres imprimés ! (merci à Alain Pierrot pour l’info)
Mais ce qui nous intéresse aujourd’hui c’est bien le fait que :
Depuis le 1er août 2006, la Bibliothèque Nationale de France a pour mission de collecter, conserver et communiquer les sites Internet du « domaine français » au titre du dépôt légal (loi 2006-961).
À ce titre, la BnF collecte en priorité des sites :
- en .fr,
- hors .fr (.com, .org, etc.) mais dont les auteurs sont domiciliés en France ou dont les contenus sont produits en France.
Les collectes sont réalisées à l’aide de robots moissonneurs qui copient pages, images, animations, fichiers audio et vidéo. Les sites sont ensuite datés et indexés pour être restitués dans leur contexte de publication original, ce qui permet de naviguer dans les archives comme sur l’Internet, en cliquant de lien en lien.
Toutes les informations sont disponible sur le site de la Bnf. Vous allez me dire : et le livre numérique ? Personnellement j’étais persuadé qu’il n’était pas concerné, mais c’est pourtant le cas :
Le dépôt légal concerne également les e-books ou livres numériques, termes de plus en plus utilisés pour désigner un objet numérique ressemblant en partie à une monographie imprimée sur papier et diffusée en ligne. Il est à préciser que seul le contenu (le texte numérique ainsi que les fonctions d’annotation, les outils interactifs, etc.) est visé par le dépôt légal, et non l’outil de lecture ou tablette.
Les modalités de dépôt sont celles du dépôt légal de l’Internet, prévues par le Code du patrimoine (art. L.131-2, L.132-2, L.132-2-1). L’éditeur n’a aucune démarche active à effectuer auprès de la BnF. En effet, la Bibliothèque réalise des collectes automatiques grâce à des robots. Compte tenu de la masse d’informations disponible sur l’Internet, elle procède par échantillonnage, selon des critères visant à assurer la meilleure représentativité possible de ses collections.
Si la diffusion d’un livre numérique coexiste avec une version sur support papier ou électronique, celle-ci reste soumise à l’obligation de dépôt légal. Un type de dépôt ne se substitue pas à un autre.
L’ampleur de ce projet donne le vertige. Gildas Illien, responsable du projet à la Bnf, indique dans cet article du BBF :
Le patrimoine né numérique constitué par la BnF depuis 2004 représente déjà 130 téraoctets de données, soit 130 millions de millions d’octets et 12 milliards de fichiers : c’est l’une des plus grandes collections d’archives du web au monde, après celles d’Internet Archive et de la Bibliothèque d’Alexandrie.
Si ces chiffres sont déjà énormes, ils ne sont rien comparés à la masse des données à collecter, ne serait-ce que dans le champ couvert par la Bnf, alors au niveau mondial, on n’ose même imaginer ! Pour autant, il ne s’agit pas de se passer d’une action humaine permettant un choix délibéré des sites à archiver : c’est le rôle d’un réseau de plusieurs dizaines de bibliothécaires chargé de repérer et de sélectionner les sites et de définir la fréquence de l’archivage, de manière complémentaire aux robots. Pour des raisons juridiques, seules les personnes explicitement chargées de ces tâches peuvent entrer un site dans le système d’archivage. Il n’est pas possible par exemple de proposer un cd-rom ou une clé usb avec la copie d’un site à entrer dans le système. C’est ce qui explique notamment que le procédé de collecte n’est pas ouvert à tout un chacun mais repose sur la sélection d’un large réseau de bibliothécaires. Notons au passage que le robot utilisé est un outil open source, ce qui permet une amélioration constante du système par les apports des différents pays qui pratiquent l’archivage du web.
L’ensemble de ce web fossilisé est accessible uniquement aux lecteurs accrédités pour faire des recherches, par la Bnf. Et pour cause : chacun à droit à l’oubli et n’apprécierait pas forcément de voir retracer l’historique de sa vie numérique via une interface largement ouverte ! De plus, la duplication de données des sites web est soumise à l’autorisation des ayants droit, SAUF dans le cas du dépôt légal, c’est une exception au régime du droit d’auteur prévue par la loi DADVSI (comme quoi y a de bonnes choses parfois dans les mauvaises lois). En revanche les bibliothécaires proposent régulièrement des mises en valeur de corpus définis de manière à faire connaître des strates temporelles thématiques du web. Voir cette série de billets sur le blog des lecteurs de la Bnf.
Cet été, grâce à François Bon, j’ai eu l’occasion de rencontrer Christine Genin, conservateur à la Bnf qui m’a montré l’interface (merci à tous les deux !). En bon bibliobsédé je lui ai bien sûr demandé si mon site figurait dans les archives du web… La réponse est positive, et j’avoue trouver très rassurant qu’un certaine pérennité soit assurée à ce blog qui représente tout de même pas mal d’heures de ma vie numérique… La preuve : voici une copie d’écran de mon blog en novembre 2008, alors qu’il était encore sous Dotclear, avec un avatar très moche ! (c’était la honte cet avatar, je réalise maintenant…)
Sur la copie suivante, on peut voir la fréquence de l’archivage du blog que vous êtes en train de lire !
Bien sûr la question que tout blogueur peut se poser, en particulier ici les biblioblogueurs, est : ET MOI ? Rassurez-vous, votre blog est peut-être déjà archivé par un robot sans que vous le sachiez ! Pour en être sûr c’est assez simple : Christine Genin m’a envoyé la liste des biblioblogs qui sont déjà archivés par collecte manuelle, c’est à dire qui ont été sélectionnés par un humain, un bibliothécaire en chair et en os.
La voici, en exclusivité !
Vous ne figurez pas dans cette liste ? Vous avez un site que vous jugez digne de figurer à la postérité ? Vous pouvez suggérer votre site en envoyant un email à cette adresse :
dlweb[AT]bnf[point].fr
Cette adresse est valable pour tout type de site, bien au delà des blogs de bibliothèques. Demandez votre ticket pour la postérité ! 🙂
Si je lis bien :
• Le « dépôt légal » de l’Internet n’est pas un … dépôt légal mais le droit de la BnF à moissonner ce qui lui paraît intéressant (sans exhaustivité ni obligation de déverrouiller les fichiers protégés, d’ouvrir les .pdf, etc.) — ce qui ne me pose pas problème.
• La diffusion d’une version livre numérique ne dispense pas de déposer le livre imprimé ou la version cédérom, USB, … mais n’oblige pas au dépôt du livrel « virtuel » — ce qui me paraît regrettable, pour peu qu’on considère les livrels publiés comme des … livres, soumis au dépôt légal (et librement accessibles dès parution, à des fins de recherche ou documentation dans les établissements dépositaires).
oukélé la liste des biblioblogs en exclu ? 😉
Pas d’image de la liste.
Dans le code source de ton billet, Silvère, on voit un lien vers une image dont l’URL est : https://mail.google.com/mail/?ui=2&ik=945b2bbfd6&view=att&th=1230a705bfbeaf2e&attid=0.0.1&disp=emb&zw
Càd que tu pointerais vers une image stockée dans ta boîte mail (ou plus précisément, je pense, dans le mail qui t’a été envoyé depuis la BnF).
Bref, nous, on n’y a pas accès (et c’est heureux !)
Tu peux la mettre ailleurs, cette image ?
@Lionel @Lully @Alain : oups, merci pour l’info, la boulette est réparée et quelques coquilles corrigées, grâce à Alain ! 🙂
les listes de Bibliopédia constituraient un bon repère
@Mercure : c’est clair, c’est là que se fait la veille collaborative sur ce sujet !
@Bibliobsession : mais si, il était beau, ton avatar. T’as vu l’avatar de François Ier, par exemple (le gros lézard, là) ? La loooose !
Gros lézard ! c’est une salamandre royale ! pffff (tiens c’est vrai les blasons royaux sont des avatars en fait !)
On note dans la liste d’archivage la présence de blogokat fermé depuis 2007…
Ben oui et de Biblioacid aussi. ça montre qu’ils ont été archives à un moment donné. (je suppose que le robot ne s’exécute pas si le site ne répond pas…)
Merci Silvère pour ce billet très détaillé, que je découvre en vacances grâce à ma connection 3G !
Patrick, je précise que la liste ci-dessus, qui n’est d’ailleurs pas exhaustive et est sans cesse en travail, comprend également des sites, comme ceux cités, qui ont été collectés mais ne le sont plus depuis leur fermeture.
En outre les sites sélectionnés par des bibliothécaires viennent compléter des collectes dites larges comprenant tous les .fr et les sites vers lequel le robot crawler rencontre des liens en en parcourant les pages.
Bon j’arrête parce que je suis en vacances, mais si vous avez des questions j’y répondrai très volontiers …
Christine, tu avais raison, il vaut mieux parler des archives du web sur le net que dans les salons 🙂 passe d’excellentes vacances et oublie nous autant que tu peux! Gildas et l’équipe BnF du dépôt légal du web, qui suit tous ces échanges avec beaucoup d’intérêt : c’est bien de savoir que notre travail intéresse les blogueurs d’aujourd’hui et pas seulement nos petits-enfants virtuels.
Excellent billet. Je ne connaissais pas cette mission de la Bnf…
Juste une petite erreur dans le message initial : les informations sur les archives de l’internet ne se trouvent pas sur le blog Gallica, mais sur le Blog Lecteurs de la BnF : eh oui, il y a plusieurs blogs sur le site, à découvrir !
ok, merci, je modifie. 🙂
Merci d’avoir signalé l’Extranet du dépôt légal. Mais un « s » de trop rend le lien inopérant…
Voici la bonne adresse : http://depotlegal.bnf.fr/
C’est corrigé dans le billet, merci.