• Non classé
  • 36

Protection des données personnelles et recommandations dans l’OPAC




Une fonction vraiment intéressante dont j’ai déjà
beaucoup parlé est celle qui permet d’afficher à l’OPAC : "les lecteurs ayant emprunté ce livre ont aussi emprunté" elle repose sur le bouche-à-oreille, version numérique! (j’adore l’image ci dessus, même si elle fait plus téléphone-arabe que bouche-à-oreille, mais bon…)

J’avais écrit il y a presque deux ans un billet qui faisait (du moins le croyais-je alors) un sort à l’objection spontanée (et légitime) suivante : "mais si on recommande c’est qu’on réccupère l’historique des prêt et ça c’est des données personelles et la CNIL l’interdit!"

En fait la
CNIL ne l’interdit pas puisque dans l’article 2 de la NORME SIMPLIFIEE, DELIBERATION N° 99-27 du 22 avril 1999:

Les traitements doivent avoir pour seules fonctions :
– de fournir des informations individuelles pour la gestion financière des prêts et la récupération des ouvrages ou supports prêtés ;
– d’éditer des états statistiques dépersonnalisés pour les besoins de gestion et d’amélioration des services rendus (nature des ouvrages les plus souvent consultés, nom des oeuvres et des auteurs ou références des documents d’archives, etc.)

On aura compris que ces données peuvent être conservées si elles sont anonymes. Soit. Or, Paul Poulain, consultant indépendant en logiciels libres et responsable de Koha, m’a montré dans un échange de mails que les choses ne sont pas si simples: (merci à lui :-)

En effet, l’article 4 du même texte indique (j’aurai dû mieux lire le texte il y a 2 ans!) :

Les informations relatives à l’identité des emprunteurs sont conservées tant qu’ils continuent à participer au service de prêts. La radiation peut être demandée par l’emprunteur lui-même.
Lorsque celle-ci n’est pas demandée par l’emprunteur, elle doit intervenir d’office et dans tous les cas à l’issue d’un délai d’un an à compter de la date de fin de prêt précédent.
Les informations concernant chaque prêt sont conservées jusqu’à la fin du quatrième mois suivant la restitution de l’objet du prêt. Au-delà de ce délai, les informations sur support magnétique sont détruites ; elles ne peuvent être conservées sur support papier que pour les besoins et la durée d’un contentieux éventuel.

On passera sur le "support magnétique" remplacé par le numérique, tant il est vrai que ce type d’usage était hors de propos en 1999 à l’heure de la rédaction de cette norme…En revanche la CNIL a bel et bien bien prévu dès 1999 une limite de conservation des données de prêts : 4 mois!

L’inconvénient principal est que les algorithmes qui permettent les recommandations sont d’autant plus efficaces que les données qu’ils gèrent sont importantes. Autrement dit, plus on conserve des données longtemps et/ou plus on traite une base de données importante, plus les recommandations ont des chances d’être pertinentes.

A l’heure où les prestataires affutent leurs armes 2.0 pour nous vendre des logiciels et des OPAC, il est largement temps d’être au clair sur ces questions, d’autant que les enjeux politiques sont essentiels en termes de protection de la vie privée

Cela semble imposer deux solutions.

On demande l’assentiment de chaque lecteur, à l’occasion de l’inscription ou du renouvellement d’inscription afin de conserver les données plus longtemps. C’est ce que propose Paul Poulain :

En ce qui me concerne, je pense que la seule manière de faire (et qu’on va essayer d’implémenter dans Koha), c’est de permettre aux lecteur, à l’OPAC, d’explicitement demander que l’on conserve ses données. Avec une option pour effacer immédiatement tous les emprunts. Choix inaccessible aux bibliothécaires, ce sont des données privées.

Inconvénient : le système est lourd et il n’est pas sûr que beaucoup de lecteurs optent pour que leurs données soient conservées….(posez vous la question : vous accepteriez en tant qu’usager?)

Une autre solution (non exclusive de la première) pourrait être de travailler sur ces données pendant 4 mois. Mais alors :
à partir de quel volume de données les recommandations peuvent-elles être suffisamment pertinentes ?

Réponse de Paul Poulain (attention c’est un peu technique):

Voilà une excellente question. A mon avis, c’est une question de support : pour les "blockbuster", 4 mois sont tout à fait suffisants. Mais justement, tout le monde connait les blockbusters !

L’intérêt est pour la longue traine. En fait, on pourrait aboutir à quelque chose si l’on part de l’hypothèse suivante : l’intérêt est concentré dans le temps

Exemple : "je m’intéresse à la culture des tomates en milieu méditerranéen". Sur 3 mois je vais prendre un max de documents sur le sujet. Le système peut alors enregistrer que, "quelqu’un" a emprunté A et B "en même temps". Information qui peut être totalement anonyme.On stocke les "doublons". J’emprunte par exemple : (A) "tomates mode d’emploi", (B) "tout réussir dans son jardin" et (C) "Harry potter et l’ordre du phenix" (qui n’a rien à voir, nous sommes d’accord ;-) )

On stocke : AB = 1, AC=1, BC=1. Si d’autres, sur le même délai de 4 mois empruntent AB, nous faisons AB=2, AB=3 … Ainsi, AB a un gros indice, AC restera surement un faible indice. Et nous pourrions, sans limite de temps afficher "tomates mode d’emploi" => "tout réussir dans son jardin".

La seule limite à l’algorithme, c’est qu’il ne marche que si on s’intéresse à un sujet fortement pendant un laps de temps "court". Parce que si j’emprunte A en janvier et B en septembre, "AB" ne sera pas du tout mis à jour (puisqu’on n’a jamais l’info A/B en même temps dans la base)

On aura compris que le système n’a des chances de fonctionner de manière satisfaisante qu’avec des tailles critiques de catalogues importantes…la question est alors : Quelle taille? Il est important  à cet égard de ne pas construire des cahiers des charges exigeant ces fonctions pour de trop petites structures. Paul Poulain on compte sur vous pour nous tenir au courant hein! :-)

Encore une fois je suis sûr que c’est le logiciel libre en bibliothèque qui va être le premier à innover sur ces fonctionnalités. Il y a des chances que ça se passe au SAN Ouest Provence qui vient d’installer Koha dans son réseau de 6 bibliothèques. Qui plus est parce que ce SAN salarie 3 développeurs dont le travail, en plus de bénéficier aux usagers, bénéficiera à tous les utilisateurs des futures versions de Koha ! (merci les contribuables du sud de la France!)


(626)

This work, unless otherwise expressly stated, is licensed under a Creative Commons Attribution-ShareAlike 3.0 France License.

Silvae

Je suis chargé de la médiation et des innovations numériques à la Bibliothèque Publique d’Information – Centre Pompidou à Paris. Bibliothécaire engagé pour la libre dissémination des savoirs, je suis co-fondateur du collectif SavoirsCom1 – Politiques des Biens communs de la connaissance. Formateur sur les impacts du numériques dans le secteur culturel Les billets que j'écris et ma veille n'engagent en rien mon employeur, sauf précision explicite.

36 Responses

  1. Jean dit :

    Merci de ce raisonnement très intéressant mais que je ne comprends pas ou que je voudrais discuter. Une opération de prêt est grammaticalement une proposition constituée d’un sujet, « la bibliothèque », d’un verbe, « prêter », d’un complément d’objet direct, « un livre », et d’un complément d’attribution, « l’emprunteur » :

    La bibliothèque prête un livre à un emprunteur.

    Dès lors que l’on supprime le complément d’attribution, la phrase n’a plus le même sens. Il n’y a plus d’emprunteur !

    La bibliothèque prête un livre.

    L’anonymisation des prêts suffit à satisfaire les exigences de la CNIL, à savoir protéger l’emprunteur. La loi n’a pas pour mission de protéger les livres. Les livres ne sont pas des personnes, quoiqu’en pensent certains, et quelles que soient leurs personnalités… La loi interdit la création de fichiers informatiques qui constitueraient une atteinte à la vie privée des individus. Ce serait le cas d’un fichier des prêts d’une bibliothèque qui livrerait des information sur les habitudes de lecture des usagers, leurs centres d’intérêt, etc. Les informations relatives à chaque prêt, dont la durée de conservation légale est de quatre mois, sont celles qui relient un emprunteur à un livre, pas l’information seule qui rapporte qu’un livre a été emprunté. En conséquence, une bibliothèque qui enregistre avec chaque livre un compteur de prêt est, selon moi, en conformité avec la loi.

    De là, la bibliothèque est en mesure de présenter à ses usagers une liste des documents les plus demandés.

    Ce qui est illégal, c’est ce que fait Amazon, illégal dans la mesure où Amazon serait soumis à la CNIL, ce que j’ignore. Amazon fait des suggestions d’achat en fonction de ce que le client a commandé par le passé. Amazon conserve donc pour chacun de ses clients la liste des livres qu’il a achetés. Voilà qui peut constituer une atteinte à la vie privée. Si les fichiers d’Amazon étaient divulgués publiquement, on pourrait savoir ce que lit, ce que consomme, son voisin de palier. C’est ce que la CNIL est censé chercher à éviter.

    Pour revenir aux bibliothèques, rien n’interdit, il me semble, d’aller un cran au-delà de la liste des livres les plus demandés. Je ne vois pas ce qu’il y aurait d’illégal à catégoriser les prêts par profil d’emprunteur : étudiant, professeur, enfant, adulte, par quartier, niveau économique pour les bibliothèques qui pratiquent des tarifs dégressifs, etc. Dès lors que le fichier informatique ne révèle rien de ce qu’a emprunté individuellement un lecteur, on est dans le cadre de la loi. Grâce à ces compteurs multiples de prêt, l’OPAC pourrait afficher à un lecteur authentifié des infos ciblés. C’est de cette façon que les bibliothèques participeront à leur niveau au processus de communautarisation, chaque catégorie de lecteur s’enfermant petit à petit dans sa communauté d’intérêts, de lectures, tels que suggérés par la bibliothèque, ignorant et indifférent à ce qui se lit au-delà…

    P.S. : Où avez-vous trouvé la photo du clavier avec le bonhomme en lunettes noires qui sort de sous une touche ?

  2. Paul POULAIN dit :

    Bonjour,

    Plusieurs commentaires qui sont des disgressions (mais qui me semble importantes, surtout pour la 2eme) :
    – premier élément, je ne suis plus, depuis quelques jours "consultant". J’ai fondé, avec Henri-Damien Laurent une nouvelle société, BibLibre. (Le nom n’est pas "Koha france" justement pour montrer que le projet Koha est indépendant de nous, même si nous y restons très impliqué) Donc, maintenant, il faut dire "Paul Poulain, BibLibre" ;-)

    – deuxième élément : je suis sûr que certains esprits chagrins pourraient trouver excessifs la présence de 3 développeurs du SAN Ouest Provence au sein du projet (ben oui, ils sont payés avec nos impots. Il ne faudrait pas que ca coute plus cher que la maintenance d’un SIGB propriétaire quand même…). Qu’ils se rassurent : si au moment de la migration et des développements spécifiques du SAN-OP ils étaient bien 3 (et encore, l’une d’entre eux était exclusivement dédiée aux questions de migration), depuis la mise en production, il n’en n’est pas de même. On peut évaluer aujourd’hui à … 0,001 le nombre de personnes travaillant sur projet Koha au sein du SAN-OP. Depuis au moins 7 ou 8 mois.

    MAIS :
    1- le SAN-OP a aujourd’hui 3 personnes compétentes sur le logiciel, qui peuvent donc poursuivre les adaptations de manière indépendante de tout fournisseur ! choix stratégique de "développement durable" de la part du SAN-OP.
    2- Le SAN-OP assure de manière autonome l’asssistance et la hot line.
    3- Ces ressources peuvent, à la libre décision du SAN-OP être ré-afffectées à des développements spécifiques ou "communautaires". Il y a actuellement un projet (chut…) sur lequel nous travaillons ensemble (dans le cadre d’un marché SAN-OP / BibLibre), et des ressources pourraient être de retour sur des développements qui intéressent particulièrement le SAN-OP et qui seront intéressants également pour toutes les grosses structures (pas forcément pour les plus petites, encore que…) C’est une manière de travailler tout à fait inhabituelle pour la plupart, mais tout à fait classique dans le milieu du logiciel libre : ceux qui ont un intérêt à ce que quelque chose avancent mettent des moyens (humains ou financiers) pour que ca avance.

    Après cette (trop ?) longue disgression, revenons au coeur de ce billet :
    – nous avons commencé à faire des tests sur différentes bases de l’idée des associations, ca marche plutôt pas mal, même s’il y a des ratés (du genre : conseiller "1001 recettes" en face de "Harry Potter")
    – la question de la taille critique : j’ai bien une idée pour la résoudre, mais cette noble assemblée d’internautes m’autorisera à la garder pour moi tant que je n’ai pas validé sa faisabilité. Si c’est faisable, Koha v3 le fera bien évidemment.
    – la question de "l’opt-in" pour conserver les données : en lecture publique, évidemment que ca sera peu intéressant sauf pour une minorité. Mais pour une bibliothèque de chercheurs, c’est *très* intéressant !!! Nombre de bibliothécaires se plaignent de voir leurs chercheurs venir leur demander ce qu’ils ont lu il y a 4 ans, parce qu’un thésard pourrait y trouver quelque chose d’intéressant. "Mais si, vous savez, c’était un livre avec une couverture bleue, de taille moyenne". "Désolé monsieur, mais la CNIL ne nous autorise pas à conserver ces informations"

    PS : j’habite à Marseille, et l’été dernier, j’ai essayé de planter quelques tomates. Faudra que j’aille emprunter quelques livres sur le sujet, parce que ca n’a pas été un franc succès :-D

  3. Paul POULAIN dit :

    réponse à Jean :
    soient les 2 phrases :
    – la BMVR de Marseille a prété à Paul Poulain "la culture des tomates en milieu aride"
    – la BMVR de Marseille a prété à Paul Poulain "tout réussir dans son jardin"

    Le système enregistre : la BMRV a prété à quelqu’un, et en même temps, "la culture des tomates en milieu aride" et "tout réussir dans son jardin", ce qui dénote un possible thème proche.
    C’est anonyme !!!

    Concernant Amazon et la cnil :
    http://www.amazon.fr/gp/help/cus...

    notamment :
    Conformément à la loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés, vous disposez d’un droit d’accès, de modification, de rectification et de suppression des informations vous concernant. Vous pouvez exercer ces droits sur les pages citées dans la section « À quelles informations puis-je avoir accès ? » Si vous mettez une information à jour, nous conservons généralement une copie de vos informations initiales dans nos dossiers.

    (j’adore la dernière phrase !) Je n’imagine pas une seule seconde (mais je suis un naÏf…) qu’Amazon ne respecte pas la loi CNIL. Donc ils doivent avoir fait une déclaration.

  4. Archeos dit :

    Il ne me reste qu’à plusseoir. Les données de prêt sont bien partiellement (plus ou moins selon les SIGB) conservées bien au-delà des quatre mois, car elles deviennent anonymes. Donc pourquoi ne pas les enrichir de liens croisés ?

    Sinon, juste une petite remarque : "On passera sur le "support magnétique" remplacé par le numérique"
    à l’époque, les données numériques (issues des logiciels) étaient déjà stockées sur support magnétique (disquettes ou disques durs) et le sont toujours ;-)

  5. bibliobsession dit :

    Juste une précision pour Jean : j’ai trouvé l’imageici. Et merci Archéos pour la précision d’un pro du domaine :-)

  6. Laurent dit :

    J’allais commenter mais le premier post de Jean pose l’essentiel de ma réaction : dans la mesure où les infos sont anonymisées, je ne vois pas pourquoi on ne pourrait les conserver plus de quatre mois ?

    Egalement, un moyen d’atteindre la taille critique pour que ce genre de recommandations automatiques fonctionnent un minimum, ce serait bien sûr de trouver une passerelle qui fasse en sorte que chaque bibliothèque puisse contribuer à une base commune de données. Entre bibs utilisant le même sigb ce serait peut-être plus aisé, ou sinon il faut (ré)inventer un protocole commun.

    Enfin, là où on pourrait apporter une variante également intéressante , c’est en proposant un service de "si vous avez aimé ça vous aimerez ça", mais qui serait basé non pas sur du calcul brut de données d’emprunt, mais sur de vraies recommandations humaines, faites par les bibliothécaires ou par les lecteurs. J’ai lu tel bouquin et je SAIS qu’il m’a fait penser à tel autre, et que je conseille aux lecteurs qui ont apprécié le premier pour telle ou telle raison.

  7. Laurent dit :

    PS : Par exemple, si vous avez aimé Deus Ex ( fr.wikipedia.org/wiki/Deu… ), je pense que vous aimerez sans doute Neuromancien ( fr.wikipedia.org/wiki/Neu… ) car les thèmes sont similaires (cyberpunk) et que les mécanismes de ce jeu m’ont rappelé ce livre.

    On pourrait même construire cette base également en commun entre toutes les bibliothèques, et qu’elle soit ouverte, réutilisable facilement par tout internaute qui aimerait disposer sur son blog ou autre d’un service permettant d’afficher les recommandations de la base "Biblioconseil" à partir de n’importe quelle référence culturelle.

  8. paul POULAIN dit :

    Laurent :
    "
    On pourrait même construire cette base également en commun entre toutes les bibliothèques, et qu’elle soit ouverte, réutilisable…
    "

    …et même on pourrait utiliser du XML pour échanger des données.
    …et même on pourrait utiliser une clef comme l’ISBN / l’ISSN / l’ISMN / le N° BNF comme identifiant commun.
    Bon, il ne va plus rester grand chose à garder pour moi même si je n’ai pas encore vraiment testé la faisabilité de la chose…

  9. bibliobsession dit :

    Quel projet génial ce serait! de quoi miser sur la qualité des recommandations de tout plein de bibliothécaires ensembles! :-)

  10. Laurent dit :

    Désolé, Paul !
    Les grandes idées sont… libres comme l’air ;-)
    vivement tes tests

  11. Jean dit :

    J’achète ! Au franc symbolique. Et si on appelait ça : « SUDOC suggestion© ». Ils ont les sous, nos sous, à l’ABES. Pour chaque session de prêt, le SIGB envoie à SUDOCsug© ou à Susug© les identifiants des livres empruntés ainsi que le code de la bibliothèque. En xml, mais peu importe le format pourvu qu’on ait l’ivresse. On pourrait ajouter la date du prêt, sa durée, son dewey, son rameau… Inversement, je peux interroger Susug© pour savoir les livres associés, en rapport, selon certains critères, avec un livre donné. Grosse base de données en perspective et bel algorithme de classement et pondération.

  12. Archeos dit :

    Susug© : quel joli nom pour une fonction qui doit nous sussurer des conseils à l’oreille. Vous prévoyez une bulle sortant de la bouche Rouge Baiser d’une jolie blonde pour l’annoncer ?

    Sinon, comme le laissait entendre Paul dans les premiers commentaires, la fonction n’est utile que pour des réseaux de bibliothèques, grande ville ou ComCom de taille respectable au minimum (la mienne ne regroupe que 9000 habitants).

  13. Laurent dit :

    Tu dis, "la fonction ne serait utile que pour des … grandes villes" ou de taille critique …

    Si par utile tu entends possible, utilisable, eh bien non puisque justement l’idée principale ce serait de mettre *en commun* toutes les données entre petits établissements (et gros, bien sur) pour atteindre la plus grosse taille possible, et que les données soient réutilisables par tous…

    Et quand je dis par tous, l’idéal ce serait que notre système soit un web service réutilisable par tout internaute, sur son site perso, son blog, par d’autres sites de bibliothèques, et même par amazon qui utiliserait le Susug ! Bref, de s’ouvrir au maximum, de libérer nos données et faire en sorte que quiconque puisse se l’approprier sur le net. Sinon ça resterait un truc par et pour les bibliothèques.
    Ce serait déjà bien vu de notre côté (bibliothécaires) mais on est sur internet, là, et on n’y est pas seuls et c’est plus efficace de donner et pouvoir recevoir de tous les internautes !

  14. Pour répondre à Laurent, les données conservées ne sont pas anomymes, car il ne suffit pas de conserver l’historique des prêts (documents), il faut également savoir que la MÊME personne qui a emprunté X a également emprunté Y. Pour cela, on est obligé de conserver pour chaque prêt un identifiant unique correspondant à l’emprunteur. Et quelle que soit la manière dont on le fait, il sera toujours possible, à partir de cet identifiant de remonter à la ‘vraie personne’ (nom, adresse).

    Effectivement, la meilleure manière de contourner le problème est de faire appel à l’EXTERNALISATION, c’est à dire un service étranger à la collectivité qui se charge de fournir des suggestions en échange d’un ISBN. Pour alimenter cette base de données, les bibliothèques exporteraient périodiquement leurs données de prêt avec juste le numéro de carte du lecteur (on pourrait même envisager que ce numéro soit crypté). L’organisme devrait s’engager par contrat à ne pas redonner ces informations à la bibliothèque. De cette manière, la bibliothèque est conforme à la CNIL, quant à l’organisme, les données sont anonymes pour lui, car il n’a pas moyen d’associer un nom à l’identifiant du lecteur. Du coup, on peut les conserver plus de 4 mois.

    Pour tout dire, j’avais l’intention de mettre en place ce genre de service sur moccam-en-ligne (moccam-en-ligne.fr). Un WebService libre et gratuit. On lui envoie un ISBN, il retourne une liste de notices suggérées.

    En effet, à Saint-Herbalin (http://www.la-bibliotheque.com/h... nous avons ce service de recommandation ‘les lecteurs ayant emprunté ça ont également emprunté…’ et nous conservons les données plus de 4 mois. Je me disais que si la CNIL vanait nous chatouiller, on pourrait se rabattre sur un WebService externalisé sur MoCCAM-en-ligne.

    Si d’autres bibs sont intéressées, n’hésitez pas à me contacter pour qu’on mette nos idées en commun.

    Quelques petites remarques en passant :

    1) A saint-Herblain, nous appliquons un filtre pour éviter d’avoir des recommandations trop saugrenues. Quand on regarde un livre de Psychologie adulte, toutes les recommandations seront des livres de psycho adulte. c’est beaucoup plus efficace, mais du coup, c’est plus difficile à mutualiser (tout le monde ne regroupe pas ses documents de la même manière).

    2) Amazon propose déjà des WebServices dans ce genre (les mêmes recommandations que ce qu’on voit sur son site), je ne vois pas l’intérêt de lancer un service concurrent. J’avais essayé d’utiliser ce webService à Saint-Herblain, mais ça s’est avéré assez difficile, car pour chaque suggestion retournée, il faut vérifier si on l’a bien dans la base, ce qui peut être très long, et au total, il n’y a pas forcément beaucoup de recoupements.

    3) Je pense donc que l’intérêt principal de ce WebService serait que les bibliothèque pourraient l’alimenter avec leurs propres données en y incluant le cas échéant leurs propres restricteurs (section, classe Dewey…)

    Encore faut-il ensuite que les SIGB soient capables d’exploiter ces WebServices.

  15. Laurent dit :

    Merci Quentin pour les précisions!

    Pour répondre à ton point 2) "Amazon propose déjà des WebServices dans ce genre (les mêmes recommandations que ce qu’on voit sur son site), je ne vois pas l’intérêt de lancer un service concurrent." :

    L’intérêt viendrait de ce que j’écrivais dans le commentaire #6 :

    "Enfin, là où on pourrait apporter une variante également intéressante , c’est en proposant un service de "si vous avez aimé ça vous aimerez ça", mais qui serait basé *non pas sur du calcul brut* de données d’emprunt, mais sur de *vraies recommandations humaines*, faites par les bibliothécaires ou par les lecteurs. J’ai lu tel bouquin et je SAIS qu’il m’a fait penser à tel autre, et que je conseille aux lecteurs qui ont apprécié le premier pour telle ou telle raison."

    De plus, les recommandations d’amazon ont pour but de vendre des articles et j’ai lu quelque part (je ne sais plus où) qu’elles étaient sans doute "bridées" dans ce but, à savoir qu’elles ne nous proposaient pas de livres très rares , mais plutôt des references plutot deja connues, qui peuvent provoquer un achat d’impulsion.

    Mais bref, notre plus je pense ce serait de proposer un service où les recommandations seraient faites par les utilisateurs, en se basant sur leurs connaissances des documents qui les ont intéressés, et les liens fait par des humains entre tel ou tel document ont des chances d’être plus riches, ou plus stimulants, plus variés, en un mot plus intéressants que les liens calculés par un algorithme se basant sur de simples données d’emprunt/d’achat.

    C’est tout simplement le bon vieux conseil du bibliothécaire/libraire mais qu’on mutualiserait et rendrait disponible par web service !

    PS : et après, rien ne nous empêcherait de lancer des algorithmes de calcul sur notre base de conseils, du style "les personnes qui ont conseillé ça ont aussi conseillé ça"…

    Sur cette idée de code mis en abyme, sérendipité et cyberpunkmatrix, bonne nuit !

  16. Jean dit :

    « il faut également savoir que la MÊME personne qui a emprunté X a également emprunté Y. »

    Pas forcément. On peut travailler par session de prêt et enregistrer que tels livres ont été empruntés en même temps. Aucune mention de l’emprunteur, même sous forme cryptée, ce qui représenterait une faille de sécurité potentielle : on pourrait en effet, de là, remonter au nom de l’emprunteur, avec un peu de persévérance.

    Si par exemple, les livres 100, 300 et 500 sont empruntés en même temps, on enregistre dans une table à deux entrées :

    100,300
    100,500
    300,100
    300,500
    500,100
    500,300

    Si n documents sont empruntés, il faut affecter n! (factoriel n) entrées dans la table. Ca fait vite beaucoup. On peut ajouter une troisième entrée pour le compteur de prêt, puis des entrées supplémentaires par catégorie : de bibliothèque, d’emprunteur, etc. Grâce à ces compteurs, on pourra choisir les associations de livres les plus pertinentes selon la pondération de son choix : générale, spécifique.

  17. Quentin CHEVILLON dit :

    Jean,

    je ne vois pas exactement ce que tu entends par "session de prêt" : je n’ai pas connu de SIGB qui avait cette notion. Est-ce qu’une session correspond au passage d’une carte lecteur (et aux prêts qui y sont associés) ou bien est-ce que ça correspond à la session ouverte par le bibliothécaire qui va faire le prêt.

    Dans les 2 cas, il y a des problèmes : dans le 2e cas, naturellement, on associe entre eux des prêts effectués par des personnes différentes.

    Dans le 1e cas, on se limite aux rapprochements de documents empruntés en même temps, alors qu’il est beaucoup plus intéressant de rapprocher des documents qui ont été empruntés par la même personne mais sur de longues périodes.

    Pour ce qui est de l’algorithme, pour avoir testé de nombreuses solutions, je peux dire que mettre en place une table des associations (une colonne pour le doc1, une colonne pour le doc2 et une colonne pour le nombre d’occurences) génère rapidement une table de plusieurs dizaines de millions de notices beaucoup trop lourdes à gérer (au bout de 150.000 prêts, il faut déjà 4 secondes pour intégrer un nouveau prêt).

    La solution la plus simple à mon avis (et que j’utilise à Saint-Herblain) est tout simplement de conserver l’historique des prêts tel quel, et de rechercher les documents associés en temps réel au moment de l’affichage de la notice (avec éventuellement un système de cache permettant de ne pas effectuer plusieurs fois la même recherche pour la même notice).

    En ce qui concerne la faille de sécurité pour l’externalisation du service de suggestions, ce serait possible naturellement qu’un bibliothécaire hacker pirate le serveur hébergeant la base de données et compare les données à celles du SIGB. Il me semble néanmoins que vis à vis de CNIL (qui était notre problème de base) ça passerait.

  18. B. Majour dit :

    Bonjour

    Pour répondre à la question de Jean, ce n’est pas une factorielle mais un carré.

    Comme à la bataille navale.

    100,300
    100,500

    Lorsque je regarde la ligne 100, je peux parcourir toutes les colonnes et trouver la liste des livres qui sont sortis avec lui.

    C’est ce que pratique certainement Amazon avec ses 300 000 ouvrages référencés.

    Comme Amazon ne met fait jamais de suggestion d’achat, et que j’élimine automatiquement les cookies, il est probable que les suggestions d’achat soient basés sur des cookies, donc chez le client… ce qui est conforme à la loi de la CNIL (pas de traitement informatisé chez soi)

    Bien.

    Vous avez évoqué les liens entre les sorties de livre.

    J’ai déjà remué ce problème.
    Il se heurte forcément au point suivant.
    Le bouquin était-il bien ou pas pour ce lecteur ?

    Conseiller un livre inadéquat, ce n’est pas intéressant pour une bibliothèque.
    Même si tout le monde l’emprunte pour se faire une idée, un livre n’est pas forcément intéressant.

    Cette notion, du bien ou mal pour le lecteur, est un point difficile à obtenir, mais qui a toute son importance pour le bibliothécaire qui connaît son public de visu. Une personne peut avoir emprunté un livre et ne pas l’avoir trouvé bien, pour X raisons. La première pourrait être l’âge.
    La deuxième le sexe. La troisième les préoccupations du moment, etc.

    Les liens entre les livres se heurtent aussi à une simple difficulté pratique.
    Dans notre bibliothèque, nous travaillons par famille (comme beaucoup de bibliothèques je suppose), ou alors, ce qui revient au même, une seule personne de la famille prend une carte et emprunte pour tout le monde.

    Donc, sur la même carte, vous avez l’album cartonné qui sort avec un polar de Grangé.

    Faire un lien entre ces deux livres n’apportera rien au lecteur de polar. Ni à la maman qui emprunte l’album pour son gamin de trois ans.

    Ce qui m’amène à penser qu’il existe déjà des liens implicites entre les livres.
    Leur public préféré, leur catégorie.

    Vous lisez un polar… voici ceux qui sont /ont été le plus lus !
    Vous lisez des romans de terroir… voici les auteurs que vous devriez regarder.

    A ce niveau, pas besoin de regarder les emprunts des lecteurs par groupe de livres, mais simplement le nombre de prêts des documents. (oui, j’y tiens un peu à ce nombre de prêts de documents)

    Autre point qu’il faudrait prendre en compte : le lecteur lui-même.
    Son âge, sa catégorie socio-professionnel, son sexe… et ce qui serait bien l’appréciation du lecteur pour le livre.

    Pourquoi ?

    Parce que ces données sont anonymes… et elles se rattachent facilement à un livre.

    Le livre 100 est lu par les infirmières de 30 ans, les retraitées de 60 ans… en grand nombre.
    Vous êtes une infirmière ou une retraitée, dans ces âges-là… alors je peux vous proposer ce livre.
    Vous êtes une femme d’environ 30 ans, 60 ans, alors ce livre peut vous plaire.

    A ce niveau, on passe à un niveau n de tableau.

    En synthétisant les catégories socio-professionnelles en une sorte de Dewey socio-professionnelles, pour ne pas avoir une folie de termes, on pourrait obtenir un outil qui rattache le livre au lecteur… Suivant son âge ! et ses activités.

    Second avantage, en recoupant ces informations au niveau national, on pourrait mieux servir son public. Si moi aussi j’ai un public d’infirmières ou de retraitées, alors je vais peut-être envisager d’acheter le livre 100, plutôt que le 500.

    Pour moi, savoir quel livre sort avec quel livre, ça me paraît secondaire par rapport à ce lien avec le public. Parce que ça oublie le public ! Et que nous desservons des publics, pas des livres.

    En pensant seulement livres, on reste bloqué au niveau de la collection en oubliant qui l’utilise. C’est une équation boiteuse.

    Et là, j’ai bien l’impression que le profil du lecteur va se créer tout seul, de manière anonyme puisque rapporté à la catégorie socio-professionnelle, à l’âge, au sexe.
    Pas besoin de nom, on a suffisamment d’informations pour le constituer.

    Ces données-là, on les possède déjà dans nos SIGB.
    On a, disponible tout de suite, quatre mois de recul.

    Qui plus est, ça peut devenir une nouvelle façon de rechercher dans l’OPAC : livres qui correspondent à mon profil.

    Livres qui correspondent le mieux à un petit garçon de huit ans… avec tracteur dans le titre.
    Ça, on ne l’a pas dans les OPAC.

    Bonne question : pourquoi ? Pourquoi on ne l’a pas ?
    Parce que c’est bien le genre de question que l’on me pose régulièrement : qu’est-ce que vous avez pour mon fils âgé de huit ans (bien souvent, qui n’aime pas lire !)
    C’est le genre de question évidente que l’on pose à son libraire, quand on doit faire un cadeau à sa nièce ou à son neveu.

    Et c’est une réponse que le bibliothécaire possède par rapport à son fonds, mais qu’il aimerait sans aucun doute approfondir… quand il ne sait pas, ou que le livre fétiche qu’il conseille est déjà sorti.

    Certes, on reste coincé lorsque c’est la maman qui emprunte pour toute la famille.
    Et à ce niveau, il faudrait connaître la composition de la famille (nombre d’enfants, âge des enfants) pour traiter les livres suivant l’âge de leur public. Une maman ne lit pas pour son plaisir un album cartonné ou une histoire de Oui-Oui !

    Mais encore, ce n’est pas gênant, puisque ces âges sont déjà catégorisés…
    Album cartonné (0-5 ans), Album (4-10 ans).

    L’unique problème se pose lorsque le lecteur atteint l’âge adulte, ou l’adolescence… et qu’il a accès à tout.

    Cette donnée, on la possède déjà dans nos bases de données, mais elle n’est pas exploitée.
    Alors qu’il suffit d’un simple lien sur la notice, et hop on ajoute l’âge, le sexe, etc. des lecteurs.

    Une autre manière de chercher dans les collections qui, pour une fois, tient compte du public. :-) Public trop souvent oublié dans les réflexions…

    Mais je fus, je suis public dans d’autres bibliothèques et je vois bien ce que j’aimerais comme outils. (en tant que bibliothécaire aussi !)

    A moi de voir comment je vais pouvoir ouvrir ma base de données pour en extirper ces informations.

    Bien cordialement
    Bernard Majour (qui vous remercie pour votre réflexion)

  19. Jean dit :

    @Bernard Majour

    Si-si pour n prêts, ce n’est pas la bataille navale, c’est bien n! associations possibles dans la mesure où pour deux livres il faut bien (L1,L2) et (L2,L1). La position compte. Par contre, informatiquement, il n’y a pas nécessairement n! ajouts à une table, mais des ajouts et des mises à jours. Encore que des solutions plus élaborées soient possibles, utilisant des structures de données plus complexes que celle d’une base de données relationnelles… Bataille navale alors.

    Vos réflexions sont très justes et très intéressantes parce que vous ne perdez pas de vue le public des bibliothèques et les livres. Pour commencer, de mon point de vue, les recommandations d’Amazon sont ineptes. Amazon garde bien la trace de toutes les opérations effectuées chez eux. Des coockies n’y suffiraient pas. C’est certain. Ils ont les factures, les paiements, les livres, les disques, toutes les marchandises simplement consultées. Parce que j’ai cliqué il y a plusieurs jours sur un disque dur externe sans l’acheter, lors de ma prochaine visite, on me propose de nouveaux disques durs. Mieux, on m’envoie un email avec toutes sortes de promotions dont des disques durs. Il se trouve qu’entre temps, j’ai acheté un disque dur ailleurs, et que je n’en achèterai pas un autre de sitôt. Je ne sais pas comment fonctionne leur algorithme. Ce doit être une tambouille assez infernale et visant, bien sûr, à pousser à l’achat. Mais le résultat, comme je disais, ce sont des recommandations totalement ineptes. En revanche, je n’aimerais pas que demain toutes ces informations soient rendues publiques. Il y a des lois très strictes protégeant les données personnelles dites « sensibles » : l’idéologie, la religion, les croyances, l’origine raciale, la santé, l’orientation sexuelles, que sais-je encore, le casier judiciaire, etc. Il y a interdiction de collecter et de stocker ces informations. Mais ça change, terrorisme oblige ! Il faut bien comprendre que les données brutes d’Amazon, me concernant par exemple, pourraient livrer toutes ces données « sensibles » sur ma personne si on leur faisait subir un traitement informatique, statistico-politico-sociolo-pyscholo, adéquate. D’aucuns soupçonnent que ce traitement informatique est déjà effectué par la NSA et autres et que, quelque part, parce que je suis client Amazon, on sait très bien qui je suis, ce que je pense, ce que je lis, avec un certain degrés de précision, peut-être même en sait-on plus sur moi que je n’en sais moi-même. Ah ! Ah !

    Pour revenir aux livres, en effet, un lecteur a toujours un profil de lecture. Il lit tels et tels genres. Mais c’est compliqué. Non ? Lisant de l’histoire, on s’intéresse à une période, puis à une autre, un pays, une civilisation. On sort de quatre mois intensifs de Simenon pour entrer dans six mois pépères d’Alfred Vargas… « Polar » ne sera pas assez précis. J’ai l’impression que les recommandations ne valent, comme vous dites que par catégorie, qu’il faut connaître son public, etc. Et aller au-delà. Et si on en restait à l’indexation classique des livres ? Associée à la liste des nouveautés par genre. Et si on laissait les lecteurs se débrouiller tout seul ? C’est très indiscret de fouiller les historiques des prêts pour créer des associations entre des livres. C’est mettre son nez dans les affaires des autres et courir le risque de mélanger les serviettes et le torchons.

    @Quentin

    « Dans le 1e cas, on se limite aux rapprochements de documents empruntés en même temps, alors qu’il est beaucoup plus intéressant de rapprocher des documents qui ont été empruntés par la même personne mais sur de longues périodes. »

    Je suis dans le premier cas de figure et ma « session de prêt » est, pour être précis, la session de prêt d’un emprunteur. Au besoin, un traitement en différé du fichier des prêts permet d’isoler les prêts effectués en même temps par un lecteur. Tu as raison de dire que les prêts d’une même personne sur une période longue sont plus intéressants qu’une unique session de prêt. Une solution intermédiaire est possible. On peut avoir les prêts d’une personne sur quatre mois.

    En tout cas, merci de l’info sur tes expérimentations. Une structure de données de type table de SGBD est donc inadéquat. Y’a du boulot. Par exemple :

    http://www.amazon.fr/Understandi...

    Si quelqu’un a ce bouquin dans sa bibliothèques, ça m’intéresse…

  20. Quentin CHEVILLON dit :

    Cher Bernard,
    je ne suis pas DU TOUT d’accord avec votre analyse.

    Tout d’abord, en ce qui concerne la partie ‘critique’ (les recommandations du type ‘les lecteurs ayant emprunté X ont également emprunté Y’ ne marchent pas) :
    1) Le problème des multi-cartes est largement résolu quand on applique des filtres aux suggestions trouvées : à Saint-Herblain, nous ne retenons que les suggestions qui sont dans la même section (adulte/jeunesse), du même support (livre/CD/DVD) et de même emplacement (psycho, philo, soco, histoire…). On aurait pu rajouter le genre pour les romans (polar, SF…) mais nous ne l’avaons pas fait, c’était un choix mais d’autres bibs pourraient faire différemment.

    2) Pour votre argument "c’est pas parceque ça a été emprunté que le lecteur l’a aimé". Certes, mais ça ne veut pas dire non plus qu’il ne l’a pas aimé : il s’agit d’un outil STATISTIQUE donc qui augmente sa légitimité avec le nombre de données. Après pour l’aspect "avez-vous aimé", les OPAC nouvelle génération ont d’autres outils mettre une note et un avis sur la notice). Rien n’empêche de croiser les 2 informations.
    D’ailleurs ce serait le même problème avec votre idée de suggestions basées sur le CSP/sexe/age : ce n’est pas parceque les ménagères de – de 50 ans ont emprunté massivement un livre qu’elles l’ont aimé !

    J’en viens à l’aspect ‘proposition’ de votre poste : faire des recommandations basées sur des recoupements statistiques (CSP/sexe/age). J’y vois de très nombeux inconvénients :

    1) C’est très réducteur, et me semble-t-il beaucoup plus intrusif que les suggestions basées sur les anciens emprunts. Aller dire à une vieille dame qu’on lui suggère de lire Benzoni parce qu’elle est vieille et que c’est une femme, je ne suis pas sûr sue tout le mode le prenne bien.

    2) C’est peu efficace : je suis un homme de 31 ans et fonctionnaire : vous me conseillez quoi ???? Franchement je ne vois pas ce que des statistiques pourraient me conseiller. Par contre, si je vous dis que dernirement, j’ai lu le seigneur des anneaux et Dune… là c’est autre chose.

    3) La plupart des bibliothèques ermplissent très mal les CSP : il n’y a pas de catégorie infirmière : ce sera cadre moyen ou cadre intérmédiare, et franchement, personne ne sait ce que ça veut dire.

  21. Laurent dit :

    B. Majour a dit :
    "Le bouquin était-il bien ou pas pour ce lecteur ?

    Conseiller un livre inadéquat, ce n’est pas intéressant pour une bibliothèque.
    Même si tout le monde l’emprunte pour se faire une idée, un livre n’est pas forcément intéressant.

    Cette notion, du bien ou mal pour le lecteur, est un point difficile à obtenir, mais qui a toute son importance pour le bibliothécaire qui connaît son public de visu."

    Voilà dit de belle manière ce à quoi je pensais plus haut! Des recommandations humaines, basée sur notre connaissance des bouquins, films, etc qu’on connait et entre lesquels on sait faire des liens.

    On pourrait obtenir ce dont Bernard parle en proposant au public de pouvoir se constituer des listes, de cocher une case "j’ai aimé ce livre, film,etc.". Et on aurait un service les personnes qui ont aimé ça ont aimé ça.

    Mais en fait on pourrait très bien proposer sur nos opacs plusieurs systèmes de recommandations, pourquoi l’un plutôt que l’autre ?
    On peut avoir comme services :
    – Ceux qui ont emprunté ça ont emprunté ça (calcul sur les données d’emprunt)
    – ceux qui ont aimé ça ont aimé ça (calcul sur les données des cases cochées)
    – ceux qui ont lu ça vous recommandent ça (pas vraiment de calcul mais basé sur des liens fait "à la main" par les lecteurs entre les documents : j’ai lu ça et ça m’a fait penser à ça, je conseillerais ce bouquin à qqun qui a lu l’autre. Et on aurait la possibilité depuis l’opac de "lier" des documents entre eux)

    L’idée aussi de stats plus sociologiques est intéressante également !

    PS : on a parfois des lecteurs qui nous demandent la liste de tout ce qu’ils ont emprunté jusqu’ici, si on pouvait proposer à chacun un contrat qui stipulerait qu’ils sont d’accord pour qu’on conserve leurs données,et que les lecteurs intéressés le signe, ce serait quand même infaisable par rapport à la Cnil ?

    PS2 : Si on est plusieurs ici à être motivés pour continuer à travailler sur ce projet, on devrait se trouver un endroit, un outil plus adapté que les commentaires de dotclear présentés de façon linéaire et chronologique alors qu’à chaque post on parle de plusieurs idées qui feraient autant de rubriques différentes d’un même projet… Un wiki serait-il plus adapté? Bibliopédia? Des rencontres physiques dans le monde réel ? Des apéros Bibliobsession ? Les journées de travail du groupe de développement du Susug?

  22. bibliobsession dit :

    Bon ben c’et le plus chouette fil de commentaires que j’ai eu, merci !

    En tout cas, je pense aussi que plusieurs types de recommandations sont possibles et je suis d’accord avec Quentin pour dire que le profiling sociologique est bien trop réducteur en matière culturelle….alors que celui par goûts et notations de la part de l’usager est bien plus acceptable: voir à ce sujet Critéo et surtout ses résultats très intéressant pour l’exploitation de la longue traîne. Critéo a d’ailleurs annoncé ici sur mon blog mettre à disposition gratuitement une API pour les bibliothèques pour son « moteur prédictif »! Bon ce n’est pas un projet open source mais c’est à suivre non?

    En tout cas, je pense qu’il y a vraiment quelque chose à faire sur ce point. A la question de Laurent sur « comment aller plus loin », que diriez vous d’une page wiki dédiée sur Bibliopédia? je pense que c’est le mieux pour ne pas perdre les discussions d’ici (je pourrai le sintégrer d’ailleurs, je vais voir avec David) A terme je serai ravi de vous voir tous réunis lors d’un apéro bibliobsessionnel! (mais il me semble que tout le monde n’est pas sur Paris…et qu’il faudrait une occasion…Hubert Guillaud avait évoqué l’idée d’un barcamp Bibliothèques…ce serait l’idéal, et ça changerait des journées d’études!)

  23. Jean dit :

    Ces questions sont à la croisée des chemins, des interrogations sur l’avenir du web tel qu’il se dessine : web2.0, social, etc. Dans le web social, dans Facebook, l’internaute a un un profil bien déterminé, établi sur la base des préférences qu’il a lui-même renseignées, du réseau de ses « amis », du calendrier de ses activités, etc. L’exploitation de ces profils a une valeur considérable. Valeur marchande. Microsoft a bourse déliée pour entrer dans le capital de Facebook. Des fonds d’investissement à risque ont également acheté des actions Facebook à leur valorisation actuelle qui est très élevée ($15 milliards) au regard du chiffre d’affaire. Tous ces philanthropes savent que les systèmes actuels de suggestion, ceux d’Amazon et de Google (google suggest), ont un taux de transformation en acte d’achat très faible. Demain, après demain, dans Facebook, dans le moteur de recherche de Microsoft, celui de Google, ce sera tout un, je lancerai une recherche, mais je ne serai pas anonyme. Ce sera la recherche de J., tel sexe, tel âge, habitant telle ville, marié, des enfants, un chien, pas de jardin, ayant fait telle école, ayant participé au bootcamp Susug. Etc. Quand je taperai « restaurant indien », la réponse qui me sera renvoyée risque d’être la bonne, celle du restaurant près de chez moi, indien, dans mon budget. Ce sera LA réponse. Plus besoin même d’une liste de réponses.

    Ce qui se mettra en place, inévitablement, c’est un cadre réglementaire, une éthique de l’identité sur Internet, et donc une infrastructure technique et légale de gestion de cette identité. On est dans la phase préliminaire où cette infrastructure se met en place de façon protéiforme et non contrôlée. Les premiers acteurs seront les mieux placés pour façonner le système définitif, l’orienter, en tirer profit. D’où la valeur d’un Facebook.

    On le voit en BU avec le SSO : fr.wikipedia.org/wiki/Aut…

    L’autre face de la même question, c’est d’aller vers une meilleure qualification des contenus. D’un côté, on identifie les individus avec précision, de l’autre on identifie les contenus avec précision : c’est le web sémantique. Les bibliothèques font cela depuis toujours !

    Tout un coup, j’ai un mot qui surgit à mon esprit : CNIL. Et je ne sais pas pourquoi, ça me fait sourire.

  24. B. Majour dit :

    Bonjour Quentin

    >Cher Bernard,
    >je ne suis pas DU TOUT d’accord avec votre analyse.

    C’est un droit absolu :-)))

    > problème des multi-cartes résolu par des filtres.

    Ok.
    Ça compartimente donc le système à l’intérieur de zones bien établies.
    Et je reconnais que dans ces zones, le choix présenté doit se révéler pertinent.

    Ça me titille quand même sur les points suivants :
    – est-ce que les livres neufs (les nouveautés, et un peu moins nouveautés) n’ont pas tendance à être ensemble ?
    – ces filtres compartiments me gênent aussi, dans ce qu’ils peuvent être différents d’une bibliothèque à l’autre. (dépendant aussi du classement interne à la bibliothèque… ce qui rend délicat la mutualisation d’informations filtrées. Difficile de généraliser des filtres qui peuvent relever d’exception locale.)

    Reste que les statistiques peuvent effectivement amener des liens.
    Le tout est quand même de s’interroger sur ces liens, et de ce qu’ils représentent réellement.

    Et sur les livres qui ne sont pas liés. (là aussi, ça m’interpelle : pourquoi ? qu’est-ce qui fait que ? ces livres restent seuls.)

    Un exemple qui m’interpelle : si j’ai seulement trois livres sur les tomates, et que quelqu’un s’intéresse à la culture des tomates, il y a de grandes chances qu’ils me prennent les trois (si je les ai bien choisis et qu’ils soient complémentaires). Mais c’est déjà un lien que j’ai choisi… Un lien imposé.
    Un lien qui sera magnifié, dans une base mutualisée, par le nombre de petites bibliothèques qui ne possèdent que ces trois ouvrages. (ce sera vrai dans tout type de mutualisation totale, CSP compris)

    Ce compartimentage filtré me gêne aussi au niveau de ses blocages.

    Si j’ai bien compris le compartimentage (livre/CD/DVD), ça voudrait dire qu’un CD sur la culture des tomates ne sera pas lié aux livres. Ni montré au niveau des choix. (sauf si on est orienté par un classement thématique, ce qui amène à la proximité des documents… la statistique liant les livres montre-t-elle une proximité géographique des documents ou un choix réel des lecteurs ?)

    Attention, je ne dis pas, DU TOUT :-), que lier les livres entre eux par le choix des lecteurs est inutile. L’idée est très bonne. Seulement elle me gêne par son effet non transversale.
    Vous aimez la musique classique, je vous propose de la musique classique.
    C’est tout à fait l’effet longue traîne. 80 % des documents se cooptent entre eux, mais ils représentent seulement 20 % du fonds.

    Pour moi ça ressemble tout à fait à un circuit touristique bien balisé par la majorité.
    Soit une uniformisation des choix, qui va oublier les chemins de traverse.

    Chemins de traverse qui seront peut-être les plus riches culturellement parlant.
    Mais qui vont être écrasés par les ténors de la statistique envisagée.
    (ça reste vrai pour toute statistique, quels que soient les critères sélectionnés… les ténors masquent la forêt.)

    Ce qui me gêne encore, c’est l’effet collection.
    Vous avez choisi tel livre de tel auteur… s’il vous plaît, vous allez choisir la suite.
    J’aime Tintin, je vais lire tous les Tintin.
    C’est pareil pour les collections Terroir (je le sais, j’en suis moi-même prescripteur dans mes propositions quand une personne me dit qu’elle aimerait bien un livre comme celui-là)… et c’est d’ailleurs pourquoi j’en achète !

    Là, je me pose de nouveau la question : la statistique va-t-elle simplement conforter mes choix d’acquisition ?
    Sans doute en partie… avec tout le bénéfice pour l’autre partie, mais ça me laisse quand même un peu interrogatif sur ce que va vraiment mesurer la statistique liant les livres entre eux.

    Bien sûr, j’interroge toujours une statistique pour savoir ce qu’elle cache, en réalité.
    On a parfois de belles surprises (type Lapalissade) quand on se penche sur ce que disent les chiffres.

    C’est pourquoi, j’ai envie de ratisser plus large.

    Je penche aussi que le fonds de ma bibliothèque étant réduit (9000 documents), les liaisons vont être vites vues.

    Je regarde mes lecteurs, et certains du même âge vont dévorer les policiers de Mankell, lorsque d’autres vont le goûter une fois et aller piocher ailleurs.

    Voilà ce qui m’amène effectivement à la nécessité de croiser le bonheur/malheur des lecteurs, quand c’est possible. Quand les lecteurs m’indiquent ce qu’ils ont aimé ou non.

    L’avantage du j’ai aimé, ou pas aimé, c’est qu’il permet d’avoir une idée des bons livres, de ceux qui sont moyens, et des autres.

    J’en ai d’ailleurs pilonné un de cette manière. 3 personnes, âge, sexe différents l’ont trouvé mauvais… j’ai vérifié sur Amazon, leur avis a été confirmé. Le livre, qui aurait pu encore tenir plusieurs lecteurs, est parti au recyclage. Pas la peine de garder un mauvais livre. Ça donne une mauvaise idée de l’auteur, et une mauvaise idée de la bibliothèque puisque le lecteur a perdu son temps.

    Par contre, j’en ai eu un autre qui a déplu aux dames d’un certain âge, mais qui plaisait beaucoup a des plus jeunes.

    C’est ce genre "d’incident" qui m’incite à penser que l’âge des lecteurs, leur sexe, leur CSP (quand cette donnée est suffisamment pertinente) pourrait entraîner d’autres choix.

    Vous me dites :
    Je suis fonctionnaire (une donnée aussi vague que retraité :-) ) donc un critère dont je ne peux tenir compte. Reste 31 ans, homme.

    Que me conseillez-vous ?
    De faire une recherche sur les livres empruntés par les hommes entre 25 et 36 ans.
    Et de trier les informations par grandes catégories, afin de séparer les domaines qui ne vous intéressent pas de ceux qui vous passionnent.

    C’est vrai qu’il y aura sans doute le Seigneur des Anneaux, et même Dune, mais sans doute d’autres documents auxquels vous n’aurez jamais pensé.

    Si je pouvais conserver vos données de livres lus, j’éliminerais au passage ceux que vous avez déjà lus… mais avant j’apporterais en supplément les liens entre livres, tels que vous les évoquez… afin de confronter cette double liste et mettre en avant les doublons.

    Là, je note aussi le problème rencontré chez Amazon : par deux fois, par jeu, j’ai suivi les choix proposés à partir d’un livre, au bout de trois rebonds, on remonte au livre qui a généré le "les autres lecteurs ont aussi choisi ce livre".

    Question : que se passe-t-il pour un lecteur qui a déjà suivi toutes les suggestions ?
    Quelque part, le suivi du lecteur, me semble important… qu’il ait, d’ailleurs, lu ou non les livres. (des cases à cocher en face des documents sélectionnés ? pour dire non, je veux la sélection suivante dans la liste des propositions ?)

    Je reviens sur la notion de "réducteur" et "intrusif".

    Personnellement, je ne vois pas où c’est intrusif.

    Quand un lecteur me demande de lui suggérer un livre, je note automatiquement son âge et je sélectionne les documents en fonction de cet âge supposé, avec une large fourchette. C’est encore plus vrai pour le sexe.
    Je propose une aide au choix, pas une sélection définitive.
    Et je ne vais pas dire : voilà ce que la machine bibliothèque (moi :-) ) propose pour les gens de votre âge. Je dirais plus simplement : voilà ce que les autres aiment bien en ce moment, peut-être cela vous plaira-t-il.

    Quand je vais chez le libraire et que je cherche un cadeau pour mon filleul, ou pour mon grand-père… et que je ne sais pas quoi prendre pour aborder un domaine… il me pose ces questions : quel âge a-t-il, qu’est-ce qu’il aime ?

    Bien sûr, vous avez raison, si je donne les titres que la personne aime, hop, le lien peut se faire… mais si je dis qu’il aime la "métallurgie" ou que c’est un ancien mineur, je suis coincé. Parce qu’il n’y a pas de titre pour amorcer la pompe.

    Un titre, ça veut dire que le lecteur a déjà abordé le domaine… or les premiers choix sont souvent les plus importants (en SF, Fantasy, Fantastique particulièrement :-) ). Un mauvais choix et c’est le refus définitif au genre.

    Voilà pourquoi j’ai envie de dire : les seuls liens par les livres me paraissent insuffisants pour répondre à toutes les questions qui se posent. (notamment celle de la maman qui choisit pour les enfants – qui sont à l’école – et le papa – qui est au travail. Un cas très fréquent dans ma bibliothèque.)

    Voilà pourquoi j’ai envie d’élargir le choix à d’autres critères, plus larges.
    Bien sûr, les données CSP ne sont pas bien remplies dans toutes les bibliothèques. Elles sont même disparates, puisqu’elles sont comme des tags fournis par les lecteurs eux-mêmes. Ce qui obligera à les classifier en branche type Dewey. Tout en haut on aura sans doute 1, 2, 3 : activité primaire, secondaire, tertiaire, etc.

    Et quand le choix devient trop large, on se sert d’autres critères pour affiner la sélection. Mais ça reste un choix général et transversal, qui ouvre toute la bibliothèque.

    Avec un tel outil fournit dans l’OPAC, je compte aussi sur le côté curiosité et jeu du lecteur. – Tiens, et que lisent les avocats de 31 ans, dans ma bibliothèque ?
    – Tiens, que lisent les bibliothécaires de ma classe d’âge ? Et les plus jeunes ?

    Le jeu, la curiosité, à ce niveau manque beaucoup. Personne ne rit devant les OPAC.
    Or la bibliothèque n’est-elle pas un lieu de curiosité et de découverte avant tout ?
    :-)

    Oui, je reconnais aussi une certaine intention sociologique à cette statistique, avec une aide pour les acquisitions en arrière-plan (j’ai des avocats sur ma commune, comme dans les grandes villes, ils ne viennent pas… peut-être parce que je ne dispose pas des documents qui les intéressent. Avec un lien livre CSP, on peut aussi mesurer à qui s’adresse le fonds d’une bibliothèque, et corriger le tir pour desservir toute la population, ou au moins pour élargir ses possibilités de pénétration)

    Ce serait aussi une étude importante pour les sociologues, et historien du livre…
    A voir si de telles données ne pourraient pas être vendus aux éditeurs eux-mêmes pour leur assurer de meilleures ventes..

    A voir si on ne pourrait pas dépasser la fonction même d’OPAC pour offrir un service supplémentaire aux lecteurs (ou à d’autres).
    Un lecteur qui se pose la question du quoi offrir de culturel à son neveu ou à son grand-père, trouverait une réponse (sans marketing, une réponse de lecteur à lecteur) à la bibliothèque…
    Un libraire pourrait même passer un accord avec la bibliothèque pour obtenir ces informations.

    Informations que nous possédons, je le rappelle, et que nous pourrions monnayer, surtout si les temps deviennent durs pour les bibliothèques, et si on nous reproche qu’elles ne rapportent rien. Rien de visible au niveau comptable.

    Bien cordialement
    Bernard Majour
    (qui va se creuser la tête pour extirper de sa base de données propriétaire les deux types de statistique, et voir ce que ça donne.)

  25. Laurent dit :

    Bibliobsession a écrit :
    "A la question de Laurent sur "comment aller plus loin", que diriez vous d’une page wiki dédiée sur Bibliopédia? je pense que c’est le mieux pour ne pas perdre les discussions d’ici (je pourrai le sintégrer d’ailleurs, je vais voir avec David)"

    On peut commencer comme ça, pourquoi pas! David sera sans doute partant pour qu’on utilise bibliopedia comme support de travail sur des projets innovants en ligne. Ce serait quand même formidable si en se réunissant on arrivait à *construire* réellement le Webservice de multirecommandations dont on parle ici… C’est très enthousiasmant de lire toutes les participations ici et maintenant, allez, on y va, on se retrousse les manches, on s’y met vraiment et dans quelques mois on aura un premier prototype et je suis curieux de voir la tête de nos fournisseurs d’opac et de sigb :-)
    En tout cas ce serait dommage qu’on s’en tienne au plaisir de la discussion!

    B.Majour a écrit :
    "Un libraire pourrait même passer un accord avec la bibliothèque pour obtenir ces informations. "

    Tu ne verrais pas plutôt notre service comme mutualisé entre toutes nos bibliothèques ? Afin d’attendre une taille critique?
    Et au lieu d’imaginer pouvoir y abonner le libraire du coin, je pense que ça nous serait plus profitable au final de l’ouvrir à tout internaute, je m’autocite :
    "… justement l’idée principale ce serait de mettre *en commun* toutes les données entre petits établissements (et gros, bien sur) pour atteindre la plus grosse taille possible, et que les données soient réutilisables par tous…

    Et quand je dis par tous, l’idéal ce serait que notre système soit un web service réutilisable par tout internaute, sur son site perso, son blog, par d’autres sites de bibliothèques, et même par amazon qui utiliserait le Susug ! Bref, de s’ouvrir au maximum, de libérer nos données et faire en sorte que quiconque puisse se l’approprier sur le net. Sinon ça resterait un truc par et pour les bibliothèques.
    Ce serait déjà bien vu de notre côté (bibliothécaires) mais on est sur internet, là, et on n’y est pas seuls et c’est plus efficace de donner et pouvoir recevoir de tous les internautes !"

    Bernard parle également de surprises devant l’opac, de sérendipité non filtrée.
    J’ajouterai donc cette dernière idée de recommandation à notre Multisystème de recommandations :
    – ceux qui ont emprunté ça ont emprunté ça
    – ceux qui ont aimé ça ont aimé ça
    – ceux qui ont lu ça vous conseillent ça
    et
    – ceux qui ont emprunté ça n’ont jamais emprunté ça

    Blague à part, si je tombais sur un opac qui me proposait ça, je serais ravi et curieux de l’utiliser plus!
    Et j’insiste pour qu’on puisse proposer sur nos opacs ces différentes formes de recommandations, le public, il n’est pas différent de nous, si les recommandations sont au minimum précédées des formules que je viens de lister plus haut, ou si on lui explique un peu comment ça tourne, eh bien le public comprend très bien ce qu’il y a derrière, la façon dont les documents sont proposés, et la valeur qu’il peut y accorder.

  26. Quentin CHEVILLON dit :

    Bernard,

    peut-être que nos divergences proviennent de la différence d’échelle des structures (les besoins ne sont pas les mêmes dans une structure proposant 8.000 documents et dans une qui en propose 150.000).

    Je pense que l’approche par CSP/sexe/âge serait inexploitable dans un OPAC nouvelle génération. En revanche, elle pourrait constituer une aide intéressante au bibliothécaire qui effectue de la médiation.

    Je sais pour avouir travaillé dans de petites bibliothèques (qui proposaient quand-même plus de 30.000 références) que plus la structure est petite, plus le lien est fort et personnalisé avec les usagers (et moins ceux-ci ont besoin d’utiliser l’OPAC, ils demandent directemetn au bibliothécaire). Pour reprendre certains des points évoqués :

    1) Je pense que dans un OPAC, si on présentait les recommandations sous la forme "vous avez plus de 60 ans, vous êtes une femme et retraitée, donc nous vous conseillons XXX", les usagers seraient à juste titre (je le serais aussi) offensés de se sentir mis dans des cases, d’être réduits à leur positionnement sociologique, abstraction faite de tout ce qui fait leurs goûts et leur sensibilité. En revanche, ça ne poserait pas de problème si c’était le bibliothécaire qui effectuait des recommandations directement au lecteur (évidemment, il ne dirait pas qu’il se base pour ça sur des critères sociologiques).

    2) Néanmoins, je doute que l’approche sociologique soit vraiment pertinente, car pas assez précise. Pour reprendre l’exemple de l’avocat, je doute vraiment qu’il y ait ‘une bibliothèque type’ des avocats. Naturellement, statistiquement on trouvera certains genres ou thèmes sur-représentés, mais je pense que la diversité entre les membres d’un groupe social est beaucoup plus importante que ce qui les rapproche.

    3) Enfin, comme je le disais, dans l’essentiel des bibliothèques, les données CSP ne sont pas assez précises. Même di les gens indiquent leur profession exacte, celle-ci est saisie en ‘texte libre’ (donc non exploitable informatiquement). ils sont ensuite (généralement) rentrés plus ou moins de force dans les codes CSP, mais ceux-ci sont trop complexes (et donc le travail trop mal fait) pour être exploitables non plus.

    Quant aux suggestions du type "les lecteurs ayant emprunté X ont emprunté Y", il ne faut pas leur prêter des vertus qu’elles ne peuvent PAS avoir. Il s’agit d’un outil essentiellement marketing (osons le mot). Nous avons des usagers qui empruntent des documents. Il s’agit juste de leur montrer que la bibliothèque possède d’autres documents qu’ils sont susceptibles d’aimer également, et donc de les faire emprunter plus. ça ne va pas plus loin que ça, et ça n’a évidemment pas vocation à leur faire découvir des choses radicalement différentes. Pour ça, il y a d’autres outils (coups de coeurs des lecteurs…).

    Après c’est vrai que tout n’est pas toujours pertinent. effectivement, on trouve souvent dans les recommandations des ouvrages du même auteur ou de la même série (mais heureusement, pas que ça, il y a aussi beaucoup d’auteurs proches, dans le même genre…)

    Les nouveautés, en revanche, ne se retrouvent pas du tout ensemble (ce serait le cas uniquement s’il y avait des gens qui empruntent uniquement les nouveautés et ce inditinctement, quel que soit le genre). ça arrive, mais c’est anecdotique.

    Quant aux ouvrages qui ne possèdent aucune recommandation, ce sont tout simplement ceux qui n’ont jamais été empruntés depuis la mise en place du système.

  27. mercure dit :

    = le canon pour tuer la mouche ou bien comment instrumentaliser le lecteur au profit de la bibliothèque (ou du bibliothécaire). Il y a plus que de la prudence à pratiquer à ces frontières de l’intrusion.
    1. Penser à contourner les recommandations de la Cnil n’est pas signe de respect vis-à-vis de l’usager ; on entre librement et gratuitement dans une bibliothèque, il serait souhaitable qu’on puisse en sortir sans menottes "ethno-sociologiques"
    2. il y a autant,AMHA, à tirer parti de la recommandation en amont qu’en aval = les suggestions des lecteurs et usagers permettraient plus simplement de "partager" et de faire partager qu’une obscure manipulation de chiffres et de CSP qui peut mal tourner …
    3. Et les lecteurs/usagers pourraient aussi parler de leurs lectures/écoutes/films/expos hors bibliothèque, élargissant ainsi très sensiblement le spectre étroit de la relation acquisition/mise à disposition/emprunt/lecture.

  28. B. Majour dit :

    Bonjour

    Non, pas question d’instrumentaliser le lecteur.

    Juste de se donner quelques outils pour aider le lecteur à choisir ce qui l’intéresse.
    Théoriquement, toute la bibliothèque devrait l’intéresser :-)

    Parce que la question est bien là :
    – le lecteur ne sait pas quel livre choisir.
    (il en a trop devant lui, il n’a pas le temps de choisir… et quel bibliothécaire connaît suffisamment son fonds intégral pour pouvoir tout proposer, de manière un peu plus pertinente… suivant la disponibilité des ouvrages, suivant son état du jour… aucun !)

    De plus, le lecteur, qui demande conseil, devient dépendant du bibliothécaire. Du jugement du bibliothécaire, sur la tenue vestimentaire, sur l’âge probable, etc.

    Pour moi, les CSP peuvent aider à tracer de très larges allées dans le fonds, limiter un peu la sélection… ou carrément se montrer curieux des autres, sortir de sa propre catégorie, de ses propres sentiers battus.

    Et les CSP, se sont les lecteurs eux-mêmes, sans jugement pré-conçu, sans a priori.
    Une aide… et la machine, on peut lui mentir. On peut aussi chercher pour quelqu’un d’autre : une vieille dame qui ne peut plus se déplacer, un enfant qui fait du sport, un mari qui travaille.

    Les CSP, c’est juste une nouvelle carte de la bibliothèque.

    Ce serait aussi un outil pour mes acquisitions, une présélection dans ce qui marche dans les grosses villes, ailleurs… et que je ne peux pas voir. (Et vous n’imaginez pas combien les choix sont difficiles lorsqu’on est dans une petite ville, avec un budget inférieur à un euro par habitant. Oui, je louche sur mes propres difficultés, parce qu’elles représentent celles de très nombreuses petites bibliothèques de proximité)

    Sans oublier : le lecteur est toujours libre de choisir ce qu’il veut.
    Et une sélection appelle toujours une contre sélection.

    C’est vrai que la sélection par les livres est plus "facile", mais elle risque bien d’enfermer et de cycler très vite. (Là encore, ce doit être relatif à la taille de la bibliothèque, fonds plus large = cycle plus important)

    L’Amont est bien un point très intéressant, comme l’aval (la notation du lecteur)
    Mais, il faut arriver à l’obtenir. C’est long, et les lecteurs doivent prendre le temps de jouer le jeu des commentaires.

    Ou alors, il faut aller les piocher ailleurs, là où les gens s’expriment par "intérêt"… les chèques Amazon sont une motivation.

    Partager de bons livres pourrait l’être… si on donne la parole aux lecteurs dans les OPAC, si on accepte les dérives de la poignée qui va s’amuser.

    Il faudrait une notation simple (pour ceux qui sont pressés)

    Livre sans intérêt
    Livre pour débuter
    Livre intéressant
    Livre que je recommande
    Livre génial

    Avec un commentaire pour les plus bavards ou pour ceux qui veulent partager.

    Plus l’âge du lecteur. (oui, j’y tiens, à 60 ans, 40 ans, 30 ans, les préoccupations ne sont pas celles d’un adolescent ou d’un plus jeune… j’ai relu certains livres de ma jeunesse, ils ont perdu un ou deux crans sur ma notation… lorsque d’autres sont transgénérationnels)

    Le sexe ?
    Oui aussi. Comme pour l’âge… de manière globale pour tous les documents lus.

    Ce que nous partageons, nous en bénéficions tous.

    A défaut du retour des lecteurs, nous avons des données inexploitées dans nos SIGB.
    Autant de cartes de la bibliothèque à découvrir.

    Cartes au trésor ? :-)

    Bien cordialement
    Bernard Majour

  29. bibliobsession dit :

    Bon c’est vrai, il faut aller plus loin comme le dit Laurent…j’ai mis au moins l’article dans la rubrique opac 2.0 dans bibliopédia. Au delà, comment vous la voyez la poursuite de la discussion…? un article en commun? un projet?

  30. Laurent dit :

    Vu qu’on n’a pas forcément tous exprimé (et tant mieux) les mêmes idées, les mêmes besoins, je pense que le mieux ce serait de commencer une sorte de cahier des charges en y regroupant toutes les idées qu’on a évoquées ici.

    L’idéal ce serait qu’on aboutisse à un outil modulable qui pourrait nous permettre de mettre en oeuvre les différents type de recommandations dont on a parlé.

    Et si on le souhaite, on peut continuer à argumenter pour convaincre les autres que tel type de recommandation est plus intéressant que tel autre, mais à mon avis c’est mieux si on fait ça ailleurs que dans la partie cahier des charges qui elle reprendrait toutes les idées (si on met toute notre énergie dans l’argumentation pour convaincre les autres, on risque de n’avancer jamais concrètement).

    Donc on aurait notre cahier technique, organisé par rubriques correspondant à chaque type de recommandation possible :
    – ceux qui ont emprunté ça ont emprunté ça
    – ceux qui ont aimé ça ont aimé ça
    – ceux qui ont lu ça vous conseillent ça
    – ceux qui ont emprunté ça n’ont jamais emprunté ça
    – etc.
    Les programmeurs parmi nous pourraient discuter dans cette partie de la technique, de la faisabilité, et commencer à coder.

    Et ailleurs, dans un autre doc, les discussions sur ces idées, leurs utilisations possibles, leurs critiques.

    Au final, si on arrive à un outil qui sait faire plusieurs types de recommandations, il pourra être utilisé par tous : libre à chacun d’activer ou non pour sa bibliothèque tel ou tel module.

  31. bibliobsession dit :

    ok je vois mais du coup ce serait pas plus efficace, s’il y a une partie code informatique de faire ça directement sur une forge (je connais le terme mais pas les outils, n’étant pas développeur, mais il doit bien y avoir une partie discussion non)?

  32. Laurent dit :

    Oui, une forge comme http://www.tuxfamily.org/ , http://www.codingteam.net/ ou savannah.gnu.org/ c’est ce qui me semble le plus adapté, mais n’étant pas coder non plus, je leur laisse la parole (vu qu’on a la chance d’en avoir ici parmi nous!).

  33. Quentin CHEVILLON dit :

    Hum, faire des développements c’est bien beau, mais le plus difficiles dans l’histoire, c’est surtout que les différents SIGB fassent de leur coté des développements pour intégrer ces fonctionnalités dans leur OPAC. Même si on met en place un service gratuit et hyper performant, il ne servira à rien si les SIGB ne savent pas l’utiliser.
    Il y a aussi un gros travail de lobbying à faire auprès d’eux.
    Par ailleurs, beaucoup d’entre eux sont en train de mettre en place leur propre OPAC 2.0 (je pense à AFI ou à Opsys mais il y en a sûrement d’autres) et rien ne dit qu’ils voudront mutualiser.

  34. Eric ROBERT dit :

    Parlant de web 2.0, PMB intègre cela depuis 2 ans, il serait peut-être bon de rappeler tout l’intérêt de ces fonctionnalités, en vrai libre pas comme AFI. Mais je m’égare et je souhaitais surtout parler des lectures proposées "les lecteurs qui ont lu ont aussi lu" puisque ceci est disponible dans PMB version 3.1. Il est évident que le fonctionnement correct nécessite un volume de transactions suffisamment élevé…

  35. Lall dit :

    Alors, ce beau projet? On en a discuté ici mais au final ça a fait pshiit ?
    Bibliopedia peut nous héberger pour y travailler : http://www.bibliopedia.fr/index.php/A

  1. 15 octobre 2008

    [...] des 4 derniers mois… et anonyme, évidemment, c’est imposé par la CNIL. Pour mémoire, on en avait parlé ici notamment avec Paul Poulain. Je me demande bien comment les fondateurs du site garantissent au regard de la CNIL l’usage [...]

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>