Archive pour la catégorie 'Mes cours'

Acquisition et traitement des documents electroniques

26 août, 2007

La connexion au Réseau des bibliothèques va se ressentir, à terme, jusque dans leurs fonctions premières. Elle va en effet bouleverser le rapport du sujet à l’objet, du bibliothécaire au document. Nous allons étudier dans cette partie les évolutions du document auxquelles on doit se préparer, ainsi que les nouveaux modes d’acquisition et de traitement. L’ISO (International standard organization) définit le document comme  » l’ensemble d’un support d’information et des données enregistrées sur celui-ci sous une forme en général permanente et lisible par l’homme ou par une machine « . Le document est le pivot central d’une bibliothèque, son essence même. Il rentre dans un processus que l’on nomme la  » chaîne documentaire  » : acquisition, traitement et diffusion. Nous nous bornerons pour l’instant à l’étude des modes d’acquisition et de traitement des nouveaux documents véhiculés sur l’Internet. Caractéristiques des documents électroniques Le livre reste aujourd’hui le type de document dominant dans les bibliothèques. C’est d’ailleurs de lui (biblion) que la bibliothèque tire son nom. Si cette dernière s’est ouverte ces dernières années à d’autres documents, tels que les documents sonores (cassettes, disques), audiovisuels (cassettes vidéo), voire logiciels pour certaines (la Bibliothèque publique d’informations), la nature de ces documents ne bouleversait pas profondément le déroulement de la chaîne documentaire. Grossièrement, ce processus peut se résumer ainsi : – le document est acheté à un distributeur, – il est réceptionné et inventorié, – il est traité intellectuellement : description bibliographique, indexation à l’aide de mots-clés, affectation d’une cote de rangement significative, – il est traité physiquement : protection et étiquetage. Au-delà de ces documents, les bibliothèques doivent se préparer à accueillir d’ici quelques années dans leurs fonds les documents électroniques. Peut être caractérisé d’électronique tout document numérisé et stocké sur support informatique. Dans notre cas, nous évoquerons tous les documents présents sur l’Internet, pouvant faire l’objet d’une collecte de la part de la bibliothèque. Ces documents peuvent revêtir plusieurs formes qu’il faut connaître afin de les traiter : de simples fichiers réalisés par traitement de texte et ayant été stockés sur le disque dur d’un serveur connecté à l’Internet, les pages HTML des services Web peuvent également constituer à elles seules des documents susceptibles d’être diffusés par une bibliothèque, le courrier électronique, à l’instar d’une simple lettre manuscrite, les listes de diffusion, que l’on peut qualifier globalement de publications périodiques, et dont certaines contributions peuvent s’apparenter à des articles. L’irruption de ces nouveaux types de documents doit être l’occasion pour toute bibliothèque d’un débat profond sur la cohérence, la composition et l’avenir de ses collections. En effet, s’il reste encore dominant dans les fonds patrimoniaux, comme nous l’avons souligné, il faut bien reconnaître que  » l’objet livre a perdu la position centrale qu’il occupait naguère dans le champ à la fois cognitif, culturel et politique qui s’est constitué autour de lui et que nous pouvons qualifier (…) d’ ‘ordre du livre’ « . Avant d’étudier les différents modes possibles pour traiter ces nouveaux documents, il convient de s’interroger sur leur nature même, sur leur rapport avec l’objet-livre et sur leur place au sein des bibliothèques. Il est tentant de suivre les sirènes du progrès pour reprendre l’éternel couplet de la  » table rase « . Nombreux sont en effet les commentateurs qui ne donnent plus cher de la  » peau  » du papier, misant désormais tout sur le formidable potentiel du numérique. Jean-Claude Guédon, professeur en littérature comparée à l’université de Montréal, s’est longuement attardé sur ce problème de la recomposition du paysage intellectuel et culturel mondial (PICM). Comment appréhender les documents électroniques ? Sont-ils foncièrement différents des documents imprimés, ou bien ne représentent-ils que la transposition de l’imprimé sur un médium électronique ? Guédon quitte cette alternative fermée, exclusive, pour avancer que les publications électroniques se positionnent orthogonalement (!) au domaine existant de l’imprimé. Par orthogonalement, le chercheur québecois signifie que les documents électroniques font bien partie de la famille des documents, il y a continuité, mais qu’ils représentent néanmoins certains changements qualitatifs. Contrairement au papier, un document numérisé se prête immédiatement à des recherches en texte intégral, sur tous les mots le composant. Ce même document numérisé autorise plusieurs modes de lecture, de l’écran au papier, par une distinction nouvelle entre l’accès à l’information et la façon dont le lecteur s’approprie cette information.  » La publication électronique peut être décrite comme une forme de proto-publication : ‘proto’ dans le sens où l’on accède à un document dont la forme est potentielle jusqu’à ce que le lecteur la rende ‘réelle’ ou matérielle d’une quelconque façon « . Ce dernier point doit être un sujet d’attention pour les bibliothécaires, car il ne rentre pas dans leurs habitudes : même photocopié, un document papier garde sa mise en page propre. Le papier devient une des formes que peut prendre le document électronique : de la sorte, il ne meurt pas, mais sa fonction et sa place sont redéfinis. Guédon propose dans son article une grille d’analyse qui peut être utilisée pour analyser les points forts et faibles de l’imprimé et du numérique. Communication / diffusion : le support électronique se prête mieux à la communication, à l’interactivité que le papier ; à l’inverse, la diffusion de masse est plus l’apanage des documents imprimés. Légitimité / autorité : ce sont des attributs maintenant bien reconnus pour l’imprimé, alors que les publications électroniques ne tirent aucune autorité de leur support particulier. Ces derniers doivent conquérir leur légitimité en adoptant des structures propres à l’imprimé (comité de rédaction…). Conservation / récupération : en dépit de tous les outils développés ces derniers siècles (tables des matières, index, bibliographies…), le papier se prête beaucoup moins à la recherche d’information que le document électronique dont la nature homogène (les 0 et les 1 du numérique) permet toutes sortes de modes de recherche et de classement. Les deux types de support possèdent donc des caractéristiques propres qu’il faut bien identifier avant de modifier la politique d’acquisition, de conservation et de diffusion d’une bibliothèque. Nous en sommes encore au stade des expérimentations. Aucune bibliothèque, à notre connaissance, n’a engagé un véritable processus d’intégration des documents numérisés dans ses collections. Néanmoins de nombreuses expériences sont réalisées, pour déterminer quels pourraient être les modes d’acquisition et de traitement de ces nouveaux documents. L’acquisition du document L’identification et la localisation des documents électroniques ont été longuement étudiées dans le premier chapitre. Une fois cette première opération effectuée, de nombreuses questions se posent au bibliothécaire, en raison de la nature particulière de ces documents. Pour l’acquisition du document, deux options sont possibles : soit le document est télédéchargé afin de constituer un élément à part entière du fonds, soit on indique sa localisation, on  » pointe  » sur le serveur qui le renferme. Le document sera ainsi consultable soit en local, comme tous les documents traditionnels de la bibliothèque, soit en ligne. Récupérer physiquement le document sur son serveur local permet ainsi de le mettre à l’abri de toute destruction ou déplacement sur le serveur distant. Ce problème est très important car il n’est pas rare de disposer de l’adresse d’un document particulier et de tomber, lorsque l’on désire le consulter, sur un message signifiant que l’adresse n’est plus correcte. Il faut alors recommencer la recherche du document à l’aide des moteurs de recherche que l’on a évoqué dans le premier chapitre. Sans compter tous les problèmes de temps de connexion ou de sécurité, si l’on désire que les lecteurs ne sortent pas du domaine propre à la bibliothèque. A l’inverse, le rapatriement du document en local obère toute mise à jour ultérieure. En effet, un même document peut être entreposé sur plusieurs serveurs distincts, et dans des versions parfois différentes. Ce qui pose de graves problèmes d’authenticité et de cohérence des collections. Au centre de documentation de l’INRIA de Rocquencourt, une solution intermédiaire a été adoptée. Il a été proposé de pointer à distance sur les adresses de rapports inventoriés, et de rapatrier ceux ayant été consultés au moins une fois. Lorsqu’il désire consulter un rapport sur un serveur distant, l’utilisateur le télédécharge automatiquement sur la machine locale, ce qui permet de constituer progressivement un fonds de documents électroniques correspondant au public du centre. Les bibliothèques bénéficient d’une exception au droit d’auteur pour remplir leur mission de communication de documents. Lors de l’acquisition d’un document, les droits patrimoniaux de l’auteur sont compris dans le coût d’achat. Qu’en est-il des documents télédéchargés sur son micro-ordinateur à partir d’un serveur relié à l’Internet. Nous nous étions posé cette question en avril 1995, lorsque nous avions récupéré le texte intégral du rapport 1994 du Conseil supérieur des bibliothèques. Nous avions soumis le problème à la liste Biblio-fr. Les réponses furent nombreuses et instructives :  » Le support de diffusion d’une oeuvre de l’esprit n’influe en rien sur les attributs de propriété intellectuelle qui lui sont associés  » (Alain Michard, 25 avril 1995).  » A partir du moment où les documents sont sur un serveur FTP anonyme, c’est que l’on autorise la libre diffusion du document et si l’on veut émettre des restrictions sur cette diffusion, je ne connais que deux méthodes : ne pas le mettre sur un serveur FTP, ou écrire sur le document lui-même les conditions de sa diffusion…  » (Hélène Comte, 25 avril 1995). Le document électronique doit donc être théoriquement traité selon les mêmes règles que son aîné papier. Tant qu’aucune restriction n’est indiquée sur le document, il est  » libre de droits « . Le marquage des documents est une solution qui devrait se développer ; elle est d’abord apparue sur des reproductions numériques d’oeuvres picturales ou manuscrites. Un point amusant est à souligner : les rapports des administrations, établissements publics, comités et assemblées publiques, rapports au gouvernement sont théoriquement des documents librement accessibles et distribuables au public (sauf quelques exceptions relevant du secret défense ou de la confidentialité des informations nominatives). Ils sont pourtant le plus souvent vendus par la Documentation française qui ne répercute dans le prix de vente que le coût de fabrication de l’ouvrage. La numérisation de ces documents permettrait d’augmenter sensiblement leur diffusion en les rendant totalement au domaine public. Mais gardons confiance en l’administration pour nous laisser le temps de nous préparer au traitement de tels documents. Le traitement intellectuel Les bibliothécaires de tous pays sont habitués à décrire des objets documentaires sous la forme de notices catalographiques. Comme nous l’avons vu, ces  » objets  » sont traditionnellement des entités physiques que l’on peut prendre en main et ranger sur des rayons. Avec l’apparition des premiers documents électroniques, la question de l’adaptation des standards s’est posée. Les bibliothèques ont fait connaissance avec le document numérique grâce aux CD-ROM bibliographiques, qui renfermaient des notices signalétiques d’articles scientifiques. Ces produits électroniques n’ont pas été très difficiles à cataloguer, du fait de leur caractère physique identifiable et localisable. Il n’en est pas de même avec les documents électroniques que l’on peut trouver sur les réseaux. Dès 1991, la National Library of Medicine américaine publia une série de recommandations pour le traitement de documents numérisés en ligne : titres et articles de périodiques, listes de diffusion et courrier électronique. Bien que membre de la NISO (National information standards organization), ces conseils n’avaient aucune valeur normative et n’ont d’ailleurs pas connu de fortune internationale. Ils peuvent néanmoins fournir une bonne base pour les bibliothèques qui ont franchi le pas du numérique et s’impatientent devant la  » précision  » des travaux normatifs internationaux. Le format USMARC Tous les ouvrages possédés par une bibliothèque sont généralement décrits au sein du catalogue par des notices catalographiques. Ces notices correspondent, selon les pays, à l’une des variantes du format MARC (Machine readable catalogue), qui a été créé pour traiter d’objets physiques pouvant se prendre en mains et se ranger sur des rayons. Les différents formats MARC sont-ils toujours aptes à décrire tous les documents conservés par une bibliothèque, ou doivent-ils être aménagés pour pouvoir survivre ? Encore une fois nous retrouvons cette opposition entre un réseau de réseaux constitué de manière souple et pragmatique, et des modes de fonctionnement strictement normalisés. Le groupe MARBI (Machine readable bibliographic information) dépend de l’American library association et travaille avec la Bibliothèque du Congrès sur les évolutions du format USMARC. Dès 1991, des travaux furent engagés pour travailler sur ces ressources électroniques  » accessibles à distance « . Ils permirent de distinguer deux ensembles : les documents proprement dits d’un côté, et les systèmes et services de l’autre. Le plus grand changement à cette occasion fut l’introduction d’un nouveau champ au sein de la notice :  » Adresse électronique et accès  » (856). Ce champ, qui fait maintenant partie du format USMARC, inclut des renseignements sur le type d’accès (telnet, FTP…), le nom du serveur, le nom du fichier… Cette évolution du format a sensibilisé la profession à ces nouveaux documents, certains bibliothécaires ont ainsi établi des principes de catalogage adaptés, sans aucune valeur normative, mais permettant d’engager un débat non plus seulement théorique, mais également pratique. Cependant, l’adaptation d’un format catalographique destiné à des ouvrages ne peut durablement résoudre certains problèmes tels que les déplacements, suppression ou mises à jour de documents catalogués. Il est désormais nécessaire d’élargir la réflexion au-delà des formats catalographiques traditionnels pour se consacrer à la description de ressources électroniques en ligne. Les Metadata Un nouveau concept a été créé, celui de metadata pour désigner les données secondaires décrivant des données primaires. En mars 1995 s’est tenue à Dublin (Ohio) la première réunion consacrée à la Metadata initiative. Cette série d’ateliers, organisée par l’OCLC et l’UKOLN (UK office for library and information networking), réunissait une cinquantaine d’informaticiens et de bibliothécaires autour du même but : mettre au point un format de catalogage adapté aux ressources en ligne ; un format simple et universel, afin que les auteurs eux-mêmes, ou des outils automatiques, puissent le remplir, nécessitant ainsi une faible main-d’oeuvre spécialisée. Le format proposé a été intitulé  » Dublin core metadata element set  » ; il s’applique à des DLOs (Document like objects), des objets qui ressemblent à des documents. Ces précautions linguistiques doivent montrer le pragmatisme et l’ouverture de ce projet, au moment où les images, les sons et les textes s’entremêlent dans des documents multimédias qui défient nos classifications habituelles. A l’instar d’un format catalographique, plusieurs champs ont été prévus pour décrire les  » objets qui ressemblent à des documents « . Mais deux points fondamentaux distinguent bien la démarche des précédents projets normatifs internationaux. Le format adopté n’impose aucune syntaxe particulière pour la saisie des données ; les metadata peuvent donc être saisies en format MARC, ou bien encore selon les langages de description SGML ou HTML. De nombreuses organisations et entreprises se sont associées à l’initiative pour tenter d’implémenter la logique des metadata selon leur propres structures techniques. Le comité MARBI fait évoluer le format USMARC selon les orientations du Dublin core set, des éditeurs tels que O’Reilly Associates adaptent leur politique éditoriale en ligne à l’utilisation du nouveau format signalétique… En prônant l’ouverture technique et l’adhésion du marché au nouveau standard, la Metadata initiative amorce un développement tout à fait similaire à celui de l’Internet, et quelque peu éloigné de la philosophie des instances normatives internationales. Une deuxième réunion s’est tenue cette année à Warwick (Grande-Bretagne) afin d’étudier les stratégies de mise en oeuvre du Dublin core set, de l’approfondir et d’en proposer des modes d’implémentation concrets. Les URN Un autre obstacle à l’entrée des documents électroniques en ligne dans les bibliothèques réside dans leur mode de localisation sur l’Internet. Chaque document, chaque page ou chaque service sont localisés sur le Réseau par le biais d’un URL (Uniform resource locator). Ces URL pointent en fait sur un serveur particulier en indiquant le chemin à parcourir dans les différents répertoires pour accéder au fichier désiré. Mais la vie du document est on ne peut plus précaire : il suffit d’un déplacement du fichier sur le serveur, de sa mise à jour ou de sa suppression pour que l’URL ne soit plus valide. Les bibliothèques ne peuvent pas se permettre de recenser des documents dont la pérennité n’est en aucune sorte assurée. Pour prendre une image plus conventionnelle, on dit souvent en bibliothèque qu’un ouvrage mal rangé est un ouvrage perdu ; il en est de même pour les ressources de l’Internet. Les instances qui supervisent le développement du Réseau ont saisi l’ampleur de la question. L’IETF (Internet engineering task force) développe actuellement un autre mode de localisation des ressources, sous le nom d’URN (Uniform resource name). L’élément identifiant d’un document, plutôt que d’être une localisation relative à un serveur, deviendra dans ce cas un nom absolu, indépendant de toute machine. Quand vous demanderez à obtenir un document particulier, votre logiciel client s’adressera à un serveur faisant office de répertoire qui lui renverra toutes les localisations possibles du document que vous demanderez. Ce projet est bien sûr de grande envergure, puisqu’il implique la création de serveurs interconnectés dédiés au recensement des documents et automatiquement mis à jour. Le concept a été lancé et déjà plusieurs organisations ou sociétés proposent des solutions concrètes. Dans la stricte perspective des URN, l’OCLC propose ses PURLs : Persistent uniform resource locator. Une PURL n’est rien d’autre qu’une URL (vous me suivez ?) mais qui pointe sur un service index contenant les vraies URL des documents qui vous intéressent. Ce service est opérationnel depuis le début de l’année mais il est clairement présenté comme une étape intermédiaire avant le déploiement complet des URNs sur l’Internet. On constate donc un bouillonnement international intense autour de problèmes clés intéressant au premier chef les bibliothécaires. En France, il est de coutume de rester plus serein, au point d’en ignorer complètement ces débats. Une conférence a été organisée le 21 juin 1996 par l’ABF (Association des bibliothécaires français) à la Bibliothèque nationale autour du thème  » Catalogues du futur, futur des catalogues « . Pas une seule des interventions n’a abordé la question des metadata et des URN. Ces points sont pourtant essentiels car ils préfigurent les évolutions que connaîtra la profession dans les années à venir. Le traitement physique Une fois le document catalogué, il doit subir un traitement physique destiné à assurer sa conservation et son repérage sur les rayons de la bibliothèque. Dans le cas des documents électroniques, le traitement physique sera tout différent. Le stockage des documents sera l’objet d’un choix de la part de la bibliothèque : disquette, disque dur, CD-ROM, tout dépendra de l’utilisation envisagée. Quelques remarques sur la conservation des documents numérisés s’imposent. Ce type de document, à défaut d’avoir été validé par une autorité quelconque, subit un effet  » palimpseste  » : lorsque l’on travaille sur un logiciel de traitement de texte, chaque version de mise à jour se substitue en effet à la précédente. Le logiciel Grif, développé par des chercheurs de l’INRIA, remédie habilement à cet inconvénient en alimentant à chaque mise à jour un fichier  » historique  » des révisions, ce qui permet de revenir à une version antérieure. Un document électronique remet en cause la notion d’exemplaires, puisque chaque fichier numérisé peut être dupliqué autant de fois que désiré. A l’inverse du livre, la consultation d’un document électronique n’est pas dégradante. Aucun contact physique ne s’établit entre le lecteur et le document. Néanmoins, de nouveaux risques doivent être envisagés, tels que l’introduction de virus sur le système informatique de la bibliothèque. Enfin, les nombreux formats de stockage disponibles sur le marché peuvent évoluer ou disparaître, ainsi que leurs outils de lecture, rendant impossible la consultation des documents. A ce propos, le service de dépôt légal de la BNF aurait en projet de conserver sur le CD-ROM où est stocké le document à conserver le logiciel qui peut le lire, voire le système d’exploitation nécessaire pour faire tourner ce logiciel. Au bout de cette chaîne documentaire, la bibliothèque a rempli une partie de sa mission, son fonds s’est agrandi pour accueillir une nouvelle famille de documents. L’autre partie de sa mission, peut-être la plus importante, sera de diffuser ces documents aux lecteurs, raison d’exister de toute bibliothèque.