17 mai 2008

Google vs Gallica 2

Sur le thème des bibliothèques numériques, il me paraît intéressant à ce stade de comparer les offres de deux grandes (par leur notoriété en tous cas) bibliothèques numériques opérationnelles et accessibles actuellement. A défaut de pouvoir utiliser la BnuE ou la WDL de l'UNESCO, j'ai choisi d'observer le service Recherche de livres de Google et la nouvelle et récente version de Gallica, la bibliothèque numérique de la BnF.

Pour illustrer les différences entre les deux plate-formes, je vais m'interroger sur la provenance des collections, sur les fonctionnalités de recherche, sur l'affichage des résultats et du document.

Cliquer sur l'image pour l'agrandir

Google recherche de livres :
Initié en 2005, Google Print, rebaptisé ensuite Google Book Search, propose de mettre en ligne d'ici 2010, 15 millions de livres, le seul critère pour faire partie de cette bibliothèque numérique mondiale étant l'attribution d'un numéro ISBN. Google propose des livres du domaine public et d'autres soumis au droit d'auteur.

Les collections :
Les acquisitions des ouvrages se font par deux programmes.
Le programme "Bibliothèques" permet à de nombreuses bibliothèques américaines, canadiennes, mais aussi allemandes ou espagnoles, mettre à disposition de Google des ouvrages de leurs collections, qui, s'ils ne le sont pas déjà, sont numérisés par les soins de Google, et mis en ligne sur le service de recherche de livres.
Le programme "Partenaires" permet cette fois à des éditeurs de proposer leurs titres pour que ceux-ci soient numérisés (par Google) et disponibles, en intégralité ou non, sur le service.
Le principal atout de Google est cette proposition de numérisation des ouvrages proposés. En effet, quand on connaît les coûts que représente une numérisation massive de documents, quelle bibliothèque, quel éditeur peut encore hésiter devant cette opportunité unique de numérisation gratuite ?!
A aucun moment Google n'indique une quelconque politique d'acquisition ; pas de comité de sélection, de choix éditorial, de priorité thématique ; tout ce qui porte un ISBN et qui est proposé est présent sur Google Recherche de livres.
Par ailleurs, Google ne se charge pas de rechercher l'accord des auteurs pour les ouvrages non tombés dans le domaine public. C'est à l'auteur de vérifier la présence de ses oeuvres, et de contacter Google pour retirer son ouvrage de la collection. Cette pratique a suscité un véritable tollé, mais Google ne semble pas s'en émouvoir, et à créé une procédure spécifique pour le retrait par les auteurs de leurs oeuvres.

Cliquer sur l'image pour l'agrandir

La recherche :
Google propose un premier écran de recherche équivalent à son moteur de recherche Web, c'est à dire un seul champ de recherche qui porte sur la description du livre et son contenu ; c'est ainsi que les résultats proposent ensuite des livres et des pages de livres dans lesquelles les mots clés saisis ont été trouvés. On peut également accéder à un écran de recherche dite avancée, qui propose la gestion transparente des opérateurs booléens et une interrogation sur la disponibilité du document (intégrale ou non), la langue, l'auteur, le titre, ladate de publication, l'édition ou l'ISBN.

Cliquer sur l'image pour l'agrandir

La consultation :
L'affichage des résultats ressemble assez aux résultats d'une recherche sur le WEB par le moteur de recherche. Google affiche ici les livres répondant à la recherche, et affiche alors le titre, l'auteur, l'année de publication, le nombre de pages, et la disponibilité du document (affichage intégral, extraits, aperçu, notice). On trouve également dans ces résultats les pages de livres où les mots clés ont été trouvés ; aucune mention d'auteur ici, ou d'année de publication, mais un lien direct vers la page.

Cliquer sur l'image pour l'agrandir

Pour ce qui est de la consultation des ouvrages, l'affichage se fait en mode image (je n'ai pas trouvé dans mes recherches d'ouvrage en mode texte), avec des fonctionnalités d'affichage assez poussées telles que le zoom, la navigation page par page, l'affichage de la table des matières, la recherche dans le texte intégral, et la possibilité de sélectionner une partie de la page affichée et de la copier, au choix, en mode image ou en mode texte.
Des liens permettent également de rechercher le livre dans des librairies en ligne, ou dans les catalogues de bibliothèques (américaines).
Des messages de publicités sont affichés en bas de la fenêtre de consultation, en lien ou non avec l'ouvrage consulté.

Gallica 2

Cliquer sur l'image pour l'agrandir

La création de Gallica, bibliothèque numérique de la BnF, remonte à 1997 ; à l'origine, la BnF y propose la consultation de documents anciens pour la plupart, qui y ont été ajoutés dans un premier temps sous forme de dossiers thématiques (voyages en France, histoire du livre, etc.).

Les collections :
Aujourd'hui, le dernier développement consiste à proposer également des document soumis au droit d'auteur, par l'intermédiaire de librairies électroniques payantes (à la charge de l'usager) telles que Numilog ou Cyberlibris. Les acquisitions font l'objet d'une charte documentaire ; "[Gallica] évolue sans cesse suivant les principes d'une charte documentaire fixant les grandes orientations de cette bibliothèque à vocation encyclopédique." C'est une première différence avec Google, et elle est de taille ; la bibliothèque numérique Gallica définit une politique et des priorités d'acquisition, elle n'a pas pour but de proposer une masse de documents, mais elle remplit sa mission de bibliothèque publique en déterminant des choix documentaire, en privilégiant la qualité sur la quantité.
La numérisation est assurée par la BnF pour ses collections, et par les partenaires privés pour les ouvrages sous droits tirés des plate-formes externes.

Cliquer sur l'image pour l'agrandir

La recherche :
Comme pour Google, l'usager a la possibilité d'effectuer une recherche simple, sur un seul champ que l'on devine multi-index, à partir de la page d'accueil de Gallica. Mais dés cette page d'accueil, d'autres possibilités lui sont offertes : un accès par thèmes, qui reprend, sans les nommer, les 10 classes de la classification Dewey, ainsi qu'un accès différencié par personnalité, lieu, sujet, évènement, ... Une recherche avancé est également disponible, et les filtres, très nombreux, reprennent les champs classiques d'une notice (Auteur, titre, éditeur, ISBN) mais aussi le type de document, sa provenance, sa langue, son thème...
Là encore, c'est une grande différence avec la recherche avancée de Google ; c'est un véritable outil de recherche documentaire qui est proposé sur Gallica 2, proche de ceux que l'on trouve sur les écrans OPAC des bibliothèques publiques.

Cliquer sur l'image pour l'agrandir

La consultation :
Les résultats affichés correspondent aux notices des documents répondant aux mots clés saisis (de courts extraits avec les mots clés surlignés sont affichés) ; pas de simple page, chaque document fait l'objet de la même description bibliographique. Un accès à la notice complète est proposée, de même que l'accès au document. Pour ce dernier, il est précisé s'il s'agit d'un document intégral de la bibliothèque Gallica, ou s'il s'agit d'un document proposé par un partenaire extérieur, auquel cas il est précisé que la consultation s'effectue "sous conditions via" le partenaire.
Lors de ce premier affichage, il est possible d'affiner la recherche ; sur la gauche de l'écran, l'usager peut filtrer les résultats sur les ouvrages provenant de Gallica uniquement, ou publiés à telle période, ou en langue française, etc.


La consultation du document lui même est assez proche de celle de Google, sans toutefois (pour les documents consultés lors de ma recherche en tous cas) la possibilité de zoomer ou d'effectuer une copie en mode image ou texte d'une partie du document. En revanche, le téléchargement du document en format PDF par exemple permet alors, dans le programme Acrobat Reader, ces actions. Dans les exemples utilisés, je n'ai pas trouvé de liens externes, vers une bibliothèque détentrice du document ou une librairie en ligne. Pas de publicité non plus...

En comparant les résultats obtenus à ma recherche "chemins compostelle", j'obtiens sur Google 811 résultats, dont une grande majorité (603 sur les 811 résultats) ne me donne pas accès à un texte intégral. D'autre part, 84 livres sur les 208 consultables sont des guides touristiques du Petit Futé, qui ne font qu'évoquer le sujet de ma recherche, 5 ont été publiés après 1999, 70 entre 1800 et 1999, 133 ne seraient pas datés ?... 204 sur 208 sont en français, et aucun ne parle "principalement" des chemins de Compostelle.

Sur Gallica, j'obtiens 174 résultats, tous consultables en ligne, moyennant paiement pour 57 d'entre eux. 37 ont une date de publications postérieure à l'an 2000, 134 entre 1800 et 1999, le plus ancien datant du XVIe siècle, 133 sont en français moderne. Trois ouvrages sur la totalité sont des monographies traitant directement de mon sujet.

Il est difficile bien sûr de juger sur les résultats d'une seule recherche, et une étude sérieuse porterait sur un ensemble de requêtes et une analyse fine de leur résultats. Ma première réaction porte sur la recherche sur texte intégral et sur le bruit qu'elle produit. Ce fameux bruit ennemi du bibliothécaire et recherché par l'internaute, dit-on... Dans ce domaine, il semblerait que les deux bibliothèques se valent... Sur Gallica, lorsque j'effectue la recherche "Compostelle" sur le chant titre, je trouve alors 3 ouvrages, différents des 3 trouvés avec la recherche simple, dont deux qui sont de véritables références (le Liber Sancti et le journal du paysan picard) ; cela signifie-t-il que la recherche simple ne recherche par sur l'index "titre" ? Pour quelle raison ? Sur Google, même recherche sur le champ titre, et je n'obtiens aucun résultat en consultation intégrale, et 311 en aperçu ou notices. Si je ne suis pas surpris de ce résultat sur Google, où est l'indexation matière de Gallica ? Pourquoi ne puis-je pas interroger un champ "mot-clé" ou "sujet" ?!... Je retrouve l'indexation RAMEAU dans la notice, mais pas dans la grille de recherche avancée !

La différence à mes yeux entre ces deux bibliothèques en ligne réside principalement dans l'origine de la démarche.
D'un côté une proposition commerciale aux annonceurs, qui figurent sur les pages de consultation des ouvrages, et aux éditeurs, qui peuvent afficher des aperçus ou des extraits de leurs articles pour les promouvoir ; sans qu'à aucun moment une décision ou une priorité d'acquisition ne soit définie.
De l'autre une proposition de service public, privilégiant la qualité des collections proposées, à partir de réels choix documentaires, et la finesse et diversité des outils de recherche avec à l'esprit la satisfaction de l'usager sans aucune autres considérations (pas d'annonceurs ni d'éditeurs à mettre en avant ici). Mais aussi, peut-être dans le but louable de sortir du catalogue traditionnel de bibliothèque, quelques lacunes grossières, comme cette indexation sujet absente de la recherche avancée...

C'est pourtant cette plus-value documentaire qui fait justement toute la différence !

Les liens :
Google Recherche de livres
Gallica2

PS :

Un autre exemple de recherche, menée en recherche simple sur les mots "réchauffement climatique" ;
113 livres sur Gallica, dont 108 avec accès payant !
280 livres sur Google (dont 54 guides du Petit Futé ; accord publicitaire ?).

Bref, l'avenir est devant nous, comme dirait l'autre !

Aucun commentaire: