Overblog
Editer l'article Suivre ce blog Administration + Créer mon blog

DU CORPUS NUMERISE AU CORPUS NUMERIQUE : LES DIGITAL HUMANITIES

25 Janvier 2013, 19:41pm

Publié par Eva Legras

Avant-propos :

Ce billet s'inspire du séminaire de Marjorie Burghart (Université Lyon 2) : « Edition électronique et sources médiévales » donné au 1er semestre de l’année universitaire 2011-2012, ainsi que des présentations des intervenants à deux journées d’études qui se sont tenues les 20 et 23 janvier 2012 : « L’édition électronique dans tous ses états : évolution des pratiques, évolution des besoins. ».

 

L’édition électronique des textes : principes et enjeux :

 

Ainsi que nous l’avons vu jusqu’à présent, le web fourmille de sources et de publications numérisées, offrant un gisement de ressources extrêmement riche et incontournable pour l’historien. Nous avons toutefois été en mesure de constater à plusieurs reprises les limites liées à l’exploitation de ces documents : s’agissant de textes (ou d’images) non pas nativement numériques, mais de copies, de photographies, les possibilités de recherche à l’intérieur même de leur contenu s’avèrent compliquées et entièrement dépendantes de techniques à l’efficacité parfois aléatoire, telles que la reconnaissance optique des caractères. Mais à l'heure où les technologies du web ne cessent de se développer, certains chercheurs se sont emparés de ces problématiques pour dépasser les difficultés énoncées.

 

Que des historiens s'intéressent à de telles approches n'est pas si étonnant que çà en a l'air. En effet, cela fait près de quarante ans que les chercheurs en sciences humaines et sociales (SHS) ont su s'emparer de l'outil informatique, avec l'aide de spécialistes, afin de les aider dans leur travaux notamment pour travailler sur d'immenses corpus de textes ou créer des bases de données. On parlait alors de humanities computing. Toutefois, les associations entre linguistes, historiens, philologues, ... et informaticiens ont récemment connu un impressionnant renouveau.

 

De ce rapprochement entre deux mondes a priori totalement étrangers sont nées au cours des années 2000 les Digital Humanities (imparfaitement traduit en français par « Humanités numériques ») : Elena Pierazzo, membre du Department of Digital Humanities du King’s College de Londres, en donne la définition suivante : « Digital Humanities is the discipline born from the intersection between humanities scholarship and computational technologiesIt aims at investigating how digital methodologies can be used to enhance research in disciplines such as History, Literature, Languages, Art History, Music, Cultural Studies and many others. Digital Humanities holds a very strong practical component as it includes the concrete creation of digital resources for the study of specific disciplines. »  ...

L’une de ses applications les plus concrètes, et celle qui nous intéresse ici, consiste en l’édition numérique, et en ligne, de textes utiles à la recherche en SHS. On ne parle donc plus de numérisation, mais d’édition, c’est-à-dire de mise à disposition sur une page web du texte lui-même. Finies les limites des documents scannés à plus ou moins haute résolution : désormais s’ouvrent toutes les possibilités de manipulation propres à n’importe quelle page web (recherche plein texte, …) mais aussi de nouvelles opportunités offertes par les langages informatiques mobilisés pour cette édition.

Les Digital Humanities font en effet appel aux langages à balise XML, couramment utilisés pour générer des pages web. Le principe est simple : contrairement au langage HTML où l’on code la présentation du texte (balises pour mettre un mot en gras, en italique, indiquer un paragraphe …), le XML permet d’affecter à des termes ou des expressions que l’on juge significatifs des balises pour qualifier l’information (titre, auteur, lieu, nom de personne …). Chaque mot du texte, s’il est porteur d’une information quelconque, est ainsi susceptible d’être marqué par une balise qui précise l’information dont il est question.

Lorsque le texte est édité, il devient alors possible de réaliser des index avec ces diverses informations et de les utiliser pour effectuer des recherches très spécifiques.

Une norme internationale en SHS : la TEI :

 

Le langage XML permet en théorie de construire n’importe quelle balise. Un besoin de normalisation a donc très vite émergé pour offrir aux chercheurs du monde entier un modèle auquel se fier dès lors qu’il s’agit d’éditer ou de travailler sur des textes en SHS, dans un but évident de compréhension, de coopération et de diffusion : c’est le rôle de la TEI, ou Text Encoding Initiative. Il s’agit d’un consortium qui depuis le début des années 1990 « développe collectivement et maintient une norme pour la représentation des textes sous une forme numérique. »

Et en pratique ?

 

Les Digital Humanities et l’édition électronique de textes ont connu un formidable essor depuis le milieu des années 2000. Il s’agit d’une discipline très jeune, et qui bénéficie encore de l’élan propre aux nouveautés attractives. De nombreux projets ont ainsi vu le jour, mais rencontrent toutefois un grand nombre de difficultés. Il s’agit en effet de projets coûteux et qui nécessitent un nombre important de compétences diverses, car rares sont les historiens à disposer également de connaissances en informatique. En outre, le balisage et l’enrichissement des textes demandent énormément de temps, parfois incompatibles avec les délais demandés et les autres prérogatives des acteurs.

Néanmoins, plusieurs de ces projets ont donné des résultats tangibles et très intéressants, à divers niveaux. Nous allons présenter trois de ces projets, afin de souligner tout l’intérêt de ce type de ressource pour l’historien.

1) Edition électronique et mise à disposition des textes : l’exemple de CELT (Corpus of Electronic Texts)

 

Le but de CELT est de proposer une plateforme où le chercheur peut consulter la version numérique de l’édition papier d’une grande variété de sources relatives à l’histoire de l’Irlande, du Moyen Age à l’époque contemporaine.

 

Elle contient un certain nombre de textes aussi bien traduits (principalement en anglais, mais parfois aussi en français et en allemand), qu’en version originale (latin ou ancien irlandais).

CELT propose 3 modes d’affichages des documents :

 

- En HTML, c’est-à-dire la présentation du texte sur une page web classique, sans les balises :

 

 

- En XML : c’est-à-dire proposer le texte avec les balises. Toutefois, la plupart des fichiers comportent des erreurs qui empêchent l’affichage correct du document :

- En SGML : il permet de télécharger le fichier sur un traitement de texte en affichant les balises :

 

On l’aura compris, le principal attrait de CELT réside par conséquent dans la version HTML des textes proposés.

 

Cette option permet d’afficher le texte paragraphe par paragraphe, ou bien en intégralité (cf. menu latéral). Il est précédé d’informations bibliographiques, scientifiques et techniques permettant de le situer dans son contexte historiographique, puis publie le texte lui-même, en indiquant les pages de l’édition papier correspondante.

Il est ainsi possible de réaliser une recherche plein texte comme sur n’importe quelle page web, sans les limites propres aux sources numérisées.

CELT constitue ainsi un exemple intéressant des avantages qu’une utilisation même a minima de l’édition électronique et de la TEI peut offrir. Les possibilités du XML sont ici contrariées par les erreurs de codage, mais d’autres projets permettent de mettre en valeur cet aspect.

2) Edition électronique et fonctionnalités de recherche : l’exemple de sermones.net :

 

Ce site est le fruit des travaux du CIHAM, laboratoire d’histoire médiévale de l’université Lyon 2. Il a pour but de proposer une édition électronique de sermons latins médiévaux.

 

 

 

Nous sommes là aussi en présence de textes directement inclus sur une page web, ce qui offre les possibilités classiques déjà évoquées. Toutefois, les options de recherche sont nettement plus développées. Le texte est indexé, et cliquer sur les mots-clés permet d’accéder directement à la partie du sermon correspondant.

 

Le menu du haut illustre l’usage que l’on peut faire des balises XML dans une perspective d’analyse du document. Ainsi, sur ce sermon, on sait qu’il y a par exemple 3 noms de personnes citées. Si on clique sur l’onglet qui le mentionne, les noms apparaissent en haut du sermon et sont eux-mêmes cliquables, renvoyant directement à leur référence dans le texte :

Chaque sermon est ainsi doté en lui-même de fonctionnalités de recherche avancées. Mais le site propose également des outils offrant la même précision pour effectuer une requête transversale à plusieurs textes.

Il est en effet possible de réaliser une recherche multicritère (avec une interface qui accepte les opérateurs booléens), mais aussi une recherche par sermon, par index (là encore, les balises sont mobilisées et permettent une requête thématique), ou encore par XQuery, un langage de requête permettant d’extraire des informations d’un document XML.

Cet exemple illustre bien tout ce que le XML peut apporter à la recherche d’informations en histoire. La source est parée d’un important apparat de métadonnées qui facilitent une exploitation fine et rapide de son contenu, exploitation impossible à réaliser dans de telles conditions sur une édition papier ou numérisée.

3) Les nouvelles applications de l’édition électronique : l’exemple des manuscrits de Madame Bovary par Flaubert :

 

Les potentialités de l’édition électronique ne sont pas encore totalement exploitées, et des usages innovants continuent à apparaître, comme en témoigne l'édition du roman et des brouillons de l’œuvre majeure de Gustave Flaubert, Madame Bovary.

 

Le site propose dans un premier temps une édition électronique du roman, a priori assez classique :

 

Toutefois, on s’aperçoit rapidement d’une fonctionnalité inédite. Une partie du texte se colore de jaune quand on passe dessus la souris. Et voici ce qu’on obtient lorsque l’on clique dessus :

Les éditeurs ont en effet réalisé une édition électronique littérale des brouillons de Flaubert, qu’ils mettent en vis-à-vis pour laisser tout loisir au lecteur de comparer la version originale et la version numérique.

 

Nous sommes ici face à une utilisation très intéressante de l’informatique. Il n’est plus seulement question de retranscrire les mots de l’auteur, mais véritablement l’espace de la page tel qu’il a été sollicité, voire pensé, avec ses ratures, ses corrections et ses diverses notes. L’édition électronique constitue alors un outil précieux pour étudier dans les meilleures conditions possibles les cheminements de la pensée de l’auteur, sans se heurter aux difficultés de transcriptions posées par de telles sources.

 

Pas moins de six brouillons, auxquels s’ajoutent le texte définitif, sont ainsi rendus disponibles.

Le site propose des liens directs vers l’une ou l’autre de ces versions, ainsi que vers d’autres ressources permettant d’aller plus loin dans leur utilisation.

 

Pour conclure :

 

Les Digital Humanities offrent ainsi de nouvelles opportunités de recherche et de diffusion des textes, aux applications parfois inattendues mais particulièrement appréciables. Il ne s’agit pas seulement de présenter un document sous une forme plus agréable à l’œil qu’une page numérisée, mais de mettre à disposition du chercheur un panel d’outils spécifiques destinés à cibler directement l’objet de la recherche, et à extraire du document les informations correspondant le plus précisément possible à l’analyse que l’on veut en faire.

 

En outre, les sites hébergeant ces éditions sont très souvent accompagnés d’un apparat critique permettant de recontextualiser et de comprendre le document, chose que des sites tels que Gallica ne proposent pas vraiment. Il s’agit donc bien d’un travail éditorial, au sens plein du terme.

 

C’est pourquoi il peut être très intéressant pour l’historien de se renseigner sur l’éventuelle existence d’une telle édition pour les corpus auxquels il s’intéresse ; les facilités de travail offertes par le numérique en valent sans aucun doute la peine.

 

Pour aller plus loin :

 

http://digitalmedievalist.org/index.html : bien qu’à destination des médiévistes, ce site comprend de nombreuses ressources applicables pour n’importe quelle période de spécialité.

http://digitalscholarship.wordpress.com/

http://humanlit.hypotheses.org/

http://www.tei-c.org/index.xml

http://www.digitalhumanities.org/companion/ (ouvrage disponible en ligne)

 

 

Commenter cet article