Littératures / ALAMO

<< retour << accueil <<

ALAMO, Une expérience de douze ans

La "création littéraire assistée par ordinateur" constitue un domaine qui ne s'inscrit pas dans le cadre des disciplines traditionnelles. Comme il arrive dans des cas semblables, cette particularité s'accompagne souvent de réactions contradictoires d'enthousiasme ou de réprobation. Même si la recherche qui nourrit ce domaine d'innovation fait appel à des disciplines comme la linguistique, la sémiologie, la narratologie, etc..., elle ne peut éviter une prolifération d'expériences et de réalisations qui échappent au contrôle académique.

Le colloque "Littérature générée par ordinateur", qui s'est tenu à Paris en avril 1994, nous a offert la possibilité de faire le point sur "l'état de l'art" et d'élaborer un bilan d'une méthodologie spécifique, en insistant sur l'aspect historique, en évoquant des "précurseurs" parfois méconnus, mais en détaillant aussi les étapes de notre propre évolution dans le cadre des activités de l'ALAMO (Atelier de Littérature Assistée par la Mathématique et les Ordinateurs).

P.B. et J.J. Mai 1994

1. Un peu d'histoire

1.1. Les précurseurs et leurs émules

La première attestation d'une machine à produire des textes (plus exactement d'un projet d'une telle machine) figure dans la troisième partie des Voyages de Gulliver ("Voyage à Laputa", chapitre V - publié en 1726), où Swift décrit l'Académie de Lagado et ses activités. On connaît le passage célèbre, où le professeur présente sa machine :

Ce métier avait vingt pieds carrés, et sa superficie se composait de petits morceaux de bois à peu près de la grosseur d'un dé, mais dont quelques-uns étaient un peu plus gros. Ils étaient liés ensemble par des fils d'archal très minces. Sur chaque face des dés étaient collés des papiers, et sur ces papiers on avait écrit tous les mots de la langue dans leurs différents modes, temps et déclinaisons, mais sans ordre. Le maître m'invita à regarder, parcequ'il allait mettre la machine en mouvement. A son commandement, les élèves prirent chacun une des manivelles de fer, au nombre de quarante, qui étaient fixées le long du métier, et, faisant tourner ces manivelles, ils firent changer totalement la disposition des mots. Le professeur commanda alors à trente-six de ses élèves de lire tout bas les lignes à mesure qu'elles paraissaient sur le métier, et quand il se trouvait trois ou quatre mots de suite qui pouvaient faire partie d'une phrase, il la dictait aux quatre autres jeunes gens qui servaient de secrétaires.

Comme Norbert Wiener l'a souligné [1], Swift, qui était redevenu un Tory militant, se livre, dans tout ce chapitre, à une charge virulente contre Leibniz, proche des Whigs, critiquant à la fois le mathématicien auteur de De Arte Combinatoria (1666), l'inventeur de machines à calculer (1672), et le créateur d'Académies. Le programme de Leibniz (comme celui de Lulle dont il s'inspirait en partie) était orienté vers la mécanisation des processus déductifs - y compris ceux qui sont à l'oeuvre dans la production de textes en langage naturel. C'est dans cette direction que vont s'orienter des ingénieurs comme Alfred Smee, auteur d'un travail intitulé Le processus de la pensée adapté à la fois aux mots et au langage avec une description des machines relationnelles et différentielles (1851) et W.-Stanley Jevons avec sa description d'une Réalisation mécanique de l'inférence logique (1870).

C'est en 1961 qu'apparaît pour la première fois l'expression "littérature combinatoire". Elle est utilisée par François Le Lionnais, co-fondateur de l'OULIPO, dans sa postface aux Cent Mille Milliards de Poèmes, de Raymond Queneau [2]. Dès lors le mouvement est lancé : en 1964, les Editions du Jour, à Montréal, publient La machine à écrire, mise en marche et programmée par Jean A. Baudot, qui précède de peu les réalisations oulipiennes.

Parallèlement, ethnologues, linguistes, spécialistes de l'intelligence artificielle, s'appuyant sur les analyses de Propp ou sur la technique des réseaux conceptuels, s'intéressent à la génération informatique de textes et sentent la nécessité de développer des langages spécialisés qui permettront de gagner du temps dans la programmation. C'est ainsi que Sheldon Klein crée MESSY en 1965, James Meehan, TALESPIN en1976, Natalie Dehn, AUTHOR en 1981 et Mazoud Yazdani, ROALD en 1982, et que Kathleen McKeown publie Text Generation [3].

En France, après le travail de pionnier de Gérard Verroust, il faut signaler les recherches de Daniel Goossens (1984) et Laurence Danlos (1985) sur la synthèse de textes [4]. Plus récemment, le mouvement a pris de l'ampleur avec la parution des revues "informatiques" telles que KAOS, animée par Jean-Pierre Balpe à Paris, et alire réalisée par l'équipe L.A.I.R.E. à Lille.

1.2 De l'Oulipo à l'Alamo

L'histoire de l'OULIPO (OUvroir de LIttérature POtentielle) est bien connue [5]. Pour ses fondateurs (Raymond Queneau et François Le Lionnais), il s'agissait de réunir écrivains et mathématiciens intéressés par les problèmes de création littéraire sous contrainte. L'écriture sous contrainte, on le sait, remonte à la plus haute antiquité (lipogrammes, palindromes, etc...) mais les oulipiens, tout en rendant hommage à leurs "plagiaires par anticipation" s'efforcèrent de définir, puis d'inventer de nouvelles formes qui utiliseraient, autant que possible, des structures mathématiques non triviales [6].

Parmi les différentes sources de potentialité qu'il était naturel d'exploiter, c'est naturellement que nous nous sommes tournés vers Jean Meschinot (vers 1490) et Quirinus Kuhlmann (vers 1660), qui ont exploité très tôt les possibilités littéraires de la combinatoire. Raymond Queneau proposa ainsi, avec les Cent mille milliards de poèmes, un système de production "à la main", exploitant les possibilités offertes par l'impression de dix sonnets sur des feuilles découpées en (quatorze) languettes. Très vite des informaticiens proposèrent des versions sur ordinateur qui amélioraient l'efficacité du travail combinatoire du lecteur.

Les applications informatiques que nous avions imaginées, dans le domaine des procédures combinatoires, furent présentées "en attraction" à l'occasion des stages que l'Oulipo organisait chaque année à la Chartreuse de Villeneuve-lez-Avignon, dans le cadre de la Maison du Livre et des Mots. Mais, assez vite, il devint clair qu'une confusion risquait de s'introduire dans l'esprit du public entre les activités oulipiennes et certaines expériences informatiques qui n'étaient pas liées directement au projet oulipien.

C'est ce qui conduisit Paul Braffort et Jacques Roubaud à proposer, en juillet 1981, la création d'un groupe nouveau, se consacrant exclusivement au couple "Littérature/Informatique": l'ALAMO (Atelier de Littérature Assistée par la Mathématique et les Ordinateurs) où se retrouveraient des oulipiens, mais aussi d'autres écrivains, des enseignants et des chercheurs intéressés par la linguistique, l'Intelligence Artificielle ou la pédagogie.

Ce groupe comprenait à l'origine Simone Balazard, Jean-Pierre Balpe, Marcel Benabou, Mario Borillo, Michel Bottin, Paul Braffort, Paul Fournel, Pierre Lusson et Jacques Roubaud, rejoints plus tard par Anne Dicky, Michèle Ignazi, Josiane Joncquel, Jacques Jouet, Nicole Modiano, Héloïse Neefs, Paulette Perec et Agnès Sola.

Comme cela avait été le cas pour l'OULIPO, il nous semblait important d'asseoir notre activité sur une recherche historique sérieuse et de retrouver nos "plagiaires par anticipation". Notre premier rapport parut dans le numéro d'"Action poétique", consacré à l'ALAMO et publié sous la direction de Jean-Pierre Balpe [7].

Dès la création du Centre Georges Pompidou d'autre part, les pouvoirs publics avaient senti la nécessité d'encourager les créateurs dans leur effort pour acquérir la maîtrise des technologies nouvelles: les compositeurs de musique, les graphistes, les plasticiens comme les écrivains devaient accèder à des outils d'analyse et de synthèse sophistiqués. Tel fut d'ailleurs le bilan du colloque organisé conjointement par le Ministère de la Culture et le Ministère de la Recherche et de la Technologie [8], en 1982, et où fut annoncée officiellement la fondation de l'ALAMO.

Il devenait nécessaire d'établir une planification à plus long terme de nos travaux et pour cela de puiser dans les domaines de la linguistique, de la narratologie et de l'intelligence artificielle, domaines auxquels plusieurs d'entre nous s'étaient intéressés auparavant [9]. Il était important d'identifier des niveaux de difficulté croissante nous permettant de progresser par étapes et il nous fallait aussi envisager une démarche "réflexive", orientée vers l'analyse des textes, qui nous permettrait de contrôler notre travail et de le valider par la synthèse.

2. Considérations théoriques

2.1. Les trois niveaux

Les premières réalisations informatiques de l'ALAMO se situaient dans le domaine de la littérature combinatoire, que l'on peut considérer comme le niveau de base de la création littéraire assistée par ordinateur. Pour ce type d'application, l'outil informatique fonctionne essentiellement comme un éditeur : c'est ainsi qu'un lecteur est évidemment incapable de reconstituer effectivement les cent mille milliards de sonnets de Queneau. En revanche, l'ordinateur peut en produire un nombre aussi grand que l'on veut.

Le deuxième niveau met en jeu des mécanismes plus complexes : ceux de la substitution et du filtrage. On peut les expliciter ainsi :

- substitution: il s'agit de partir de textes existants et de substituer à certaines occurences, mots ou groupes de mots, d'autres occurences choisies dans des listes préparées à l'avance. La démarche de Quirinus Kuhlman allait dans ce sens; le système des "aphorismes" de Marcel Benabou nous fait percevoir clairement le mécanisme: celui-ci comporte deux composantes essentielles : un "moule", c'est-à-dire une ou plusieurs phrases dont certains éléments ont été remplacés par des "lacunes" et un système de "lexiques" dont les entrées seraient susceptibles de remplir ces lacunes.

- filtrage : pour que les textes produits soient "acceptables", chacune des entrées de ces lexiques est affectée d'un certain nombre d'"attributs" qui permettent d'assujettir la substitution à des contraintes syntaxiques, sémantiques et stylistiques précises. Les contraintes par filtrage indiquent qu'on se situe dans le cadre de ce que les logiciens appellent un "lambda-calcul typé". Les procédures de création littéraire assistée effectivement opérationnelles appartiennent presque toutes à ce second niveau que l'on peut baptiser "substitutionnel" ou "applicationnel".

Idéalement, le niveau supérieur ou troisième niveau de la création littéraire assistée devrait pouvoir être qualifié "implicationnel": c'est la logique même du récit (et plus précisément la structure de l'"intrigue") qui doit être ici dirigée par le programme; une "syntagmatique globale" entre en jeu qui se manifeste comme superviseur de "syntagmatiques locales" et ceci, éventuellement, de façon récursive.

Malheureusement les difficultés sont ici considérables : on aborde, en effet, une problématique qui touche aux développements les plus récents de la "recherche cognitive". D'ailleurs les premiers travaux dans ce domaine n'ont pas été le fait d'écrivains (voire d'"alamiens"!), mais d'ethnologues ou de spécialistes en "intelligence artificielle". C'est ainsi que le travail précurseur de Sheldon Klein visait à vérifier les hypothèses de Propp sur la structure des contes populaires:

Notre motivation initiale était le développement d'un système de simulation à mettre en oeuvre en conjonction avec nos programmes d'apprentissage linguistique, afin de donner un fondement à la modélisation des changements linguistiques dans des communautés spécifiques en fonction de leur structure sociale et de leur histoire. [10]

Par la suite, John Meeham [11] développait TALE-SPIN, un système de génération de textes simples, qui constituait la "réciproque" d'un programme d'analyse de la compréhension développé un peu auparavant à Yale. Les critiques de Mahoud Yazdani [12] furent vives: selon lui, ces travaux n'abordaient, en fait, que le niveau "substitutionnel" (mais en le cachant). Une approche plus "fondamentale" était donc nécessaire et c'est une telle approche que nous nous efforçons de poursuivre aujourd'hui.

2.2. Constituants des schémas littéraires

Les objets que l'analyse ou la synthèse littéraire mettent en jeu se laissent assez naturellement décrire comme des hiérarchies d'objets appartenant aux divers domaines de l'exercice du langage. Nous nous limiterons ici au domaine de l'écrit et donc à une taxinomie "ad hoc". Pour les besoins qui sont les nôtres, il sera commode (sans autre prétention) de distinguer des objets "textuels", "linguistiques", "littéraires" et "algorithmiques".

- Les objets textuels comprennent des éléments qui possèdent l'organisation spécifique du langage écrit : ils englobent les caractères, les signes typographiques, etc... jusqu'aux mots, paragraphes, chapitres, oeuvre entière, ainsi que les divers aspects du péritexte.

- Les objets linguistiques s'inscrivent aussi dans une double organisation : syntagmatique avec les morphèmes flexionnels, mots, locutions, syntagmes et leurs opérateurs qui gèrent accords en genre et en nombre ainsi que la cohérence

(anaphorique ou thématique), paradigmatique avec les systèmes flexionnels de la syntaxe et les champs thématiques ou "constellations" de la sémantique en référence implicite à une connaissance intertextuelle de caractère encyclopédique.

- Les objets littéraires comportent aussi, en plus de la composante syntagmatique qui prolonge directement la syntagmatique linguistique, des aspects paradigmatiques qui lui sont propres, avec les concepts de personnage, de décor, d'action, d'événement, concepts eux-mêmes intégrés dans une hiérarchie de concepts se situant à un niveau plus élevé (actes, scènes, épisodes, unités narratives plus fines...). A chacun de ces concepts est associé un jeu de contraintes.

- Les objets algorithmiques s'ajoutent ici à notre nomenclature dans la mesure où, désormais, pour l'analyse comme pour la synthèse, l'informatique apporte une contribution essentielle. On rencontre ici les objets arithmétiques propres au calcul, les objets algébriques permettant d'expliciter des relations de base, celles que l'on représente au moyen des graphes, arborescences, etc..., les objets logiques dont dépend l'évaluation des déductions, etc...

Bien entendu les objets que nous rencontrons le plus souvent ont un caractère composite : c'est ainsi que les schémas générateurs de récits (comme les schémas qui représentent les analyses narratologiques) combinent des organisations linguistiques complexes et des objets algébriques du type "arborescence" (ou plutôt "graphe sans circuit") [13]. L'identification de ces catégories et de leurs hiérarchies permet l'élaboration d'une "systématique" de leur manipulation.

2.3. L'approche réflexive et le projet PALAP

Reprenant à notre compte l'aphorisme de Levy-Strauss [14]: La preuve de l'analyse est dans la synthèse, nous avons décidé d'adopter une démarche résolument "réflexive" et de construire en parallèle procédures de synthèse et procédures d'analyse.

Le développement des technologies appliquées au traitement du langage naturel (corpus littéraires saisis sur support informatique, identification lexicale et analyse morphologique automatiques, analyse syntaxique assistée, bases de données de connaissances encore rudimentaires certes) donne l'espoir d'expliciter une véritable procédure d'analyse littéraire algorithmique , donc rigoureuse. Nous nous sommes engagés dans cette direction, sans ignorer les difficultés considérables de l'entreprise, en décidant de limiter nos ambitions. Notre propos était de construire, à partir de textes choisis, des structures textuelles "augmentées" (d'objets algébriques : règles de productions en constituants immédiats [15], représentation des structures narratives à l'aide d'arbres ou de graphes orientés plus généraux, matrices numériques et textuelles incluant pointeurs, relations et prédicats, etc...). Mais notre procédure n'avait pas la prétention de délivrer une analyse exhaustive et unique de l'oeuvre traitée. Cette procédure, baptisée PALAP (Procédure d'Analyse Littéraire Algorithmique Polymorphe), comportait la construction d'une représentation matricielle du texte que nous simulions d'abord "à la main".

Nous avons testé la validité d'une maquette PALAP sur un texte littéraire "en vraie grandeur", la nouvelle de Maupassant Les deux amis. Ce travail fut accompli à l'Université de Chicago, au CILS (Center for Information and Linguistic Studies) grâce au dictionnaire "électronique" élaboré par l'équipe de Maurice Gross (LADL) à Paris VII ainsi que la base de données constituée par le CNRS pour le "Trésor de la Langue Française" dont une version est exploitée (et complétée) à l'Université de Chicago. Eric Joncquel et Thomas Belmont conduisirent l'expérience qui ne fut cependant pas menée à son terme, les analyseurs syntaxiques et les dictionnaires ne nous permettant pas encore d'obtenir des temps de calcul raisonnables.

3. Réalisations

3. 1. Les premiers exercices : COMBI et TALC

En parallèle avec nos efforts pour valider, dans le cadre de PALAP, notre typologie des objets textuels linguistiques et littéraires, il nous semblait essentiel de mettre au point des systèmes de création de textes réellement opérationnels, afin d'identifier les constituants algorithmiques qui complétaient notre analyse.

Dans une première phase, des programmes de démonstration illustrant les deux premiers niveaux évoqués dans le chapitre précédent furent développés et présentés dans le cadre d'un certain nombre de manifestations parmi lesquelles on peut citer les expositions "Les Immatériaux" au Centre Georges Pompidou et "Arts et Maths" à la Cité des Sciences et de l'Industrie de La Villettte.

Ces programmes sont essentiellement des programmes de production, où l'initiative de l'utilisateur se limite au choix d'une application dans un menu. Nous les avons regroupés en deux groupes correspondant à notre classification précédente :

- Des programmes de type combinatoire appliqués à des bases textuelles choisies et pour lesquelles une grande variété d'agencements est possible:

- Les litanies de la Vierge: la "base" est ici un poème de Jean Meschinot (1415-1491) paru dans Les lunettes des Princes, huit décasyllabes découpés en deux parties respectivement de quatre et de six syllabes. Les groupes de mots de chaque type sont permutables, mais doivent respecter (y compris à la césure), une formule de rime précise.

- Le XLIème Baiser d'amour de Quirinus Kuhlmann (1651-1689). Ce contemporain de Leibniz voulait démontrer l'unité des religions chrétiennes en identifiant les divers dogmes aux variations combinatoires d'un même fonds. Pierre le Grand l'envoya au bûcher pour cela. Kuhlmann présentait son poème "potentiel" comme un sonnet où les douze premiers vers contiennent à la fois la "partie fixe" du moule (en début ou en fin de vers) et le lexique associé aux "lacunes"

- Les cent mille milliards de poèmes de Queneau. La "base", qui comporte dix sonnets aux rimes identiques, engendre 10 puissance 6 sonnets.

- Les dizains de Benabou possèdent une "base" de dix alexandrins; le principe combinatoire est voisin de celui des Litanies mais il n'y a pas de formule de rime imposée. On exige seulement que deux vers qui riment ne soient séparés que par 0, 1, ou 2 vers. Cela donne 145.920 possibilités.

- Les triolets de Braffort fonctionnent comme les sonnets de Queneau avec une base comportant six triolets compatibles, d'où 7.776 possibilités.

- Des programmes de type applicationnel, regroupés, suivant une suggestion de Marcel Benabou sous le titre générique TALC (Traitement Automatique du Langage Cuit), qui mettent en jeu une technique abstraction/substitution/filtrage évoquée plus haut. Yazdani en a d'ailleurs formulé très clairement le mécanisme :

1) Take a TEMPLATE of any story made out of a mixture of 'low level' canned sequences and parts which can represent varying sequences (i. e. variables as in any programming language).

2) Work out the values of the variables in the template - out of a set of possibilities

3) Reproduce the TEMPLATE filled with the worked out values of the variables.[12]

Nos programmes TALC comportent les applications suivantes :

- Locutions introuvables: la base est constituée de cent quarante locutions coupées en deux et recombinées en respectant des contraintes de compatibilité syntaxique et sémantique.

- Alexandrins greffés: la base est constitutée par les alexandrins les plus célèbres de la poésie française, coupés à l'hémistiche et réassemblés en respectant les contraintes adéquates (y compris celles relatives à l'élision et au "e muet").

- Aphorismes à votre façon: des aphorismes de la tradition sont évidés de leurs mots-clés et constituent ainsi des "moules" qui peuvent accueillir mots ou expressions extraits d'un lexique unique élaboré avec soin et soumis à un "lissage" morpho-syntaxique (élisions, accords en genre et en nombre).

- Rimbaudelaire: la base est constituée d'un moule obtenu en vidant le sonnet de Rimbaud, "Le dormeur du val" de ses mots "pleins" (substantifs, adjectifs, verbes), auxquels on substitue des éléments empruntés au lexique de Baudelaire, en imposant les contraintes prosodiques, syntaxiques et sémantiques adéquates.

Après la mise au point de ces programmes de démonstration, d'autres expériences intéressantes furent menées, notamment par Jean-Pierre Balpe et Jacques Roubaud: Haïkus, par Jacques Jouet et Nicole Modiano: Morales élémentaires (à la Queneau) dynamiques, etc... Mais il devenait de plus en plus clair que la construction de programmes "au coup par coup" n'était pas efficace.

Par ailleurs, il devenait évident que la mise au point d'algorithmes "intelligents" de création de textes nous obligeait à concevoir, au-delà des procédures combinatoires et applicationnelles, une méthodologie de niveau supérieur nécessitant la mise en oeuvre de procédures de type implicationnel.

3.2. Les littéraciels

La mise au point d'un véritable "langage auteur" pour concevoir des systèmes de production de textes fut définie en 1984 et 1985 et ces logiciels de création de textes furent baptisés "littéraciels". L'analyse ayant pour objectif pratique la synthèse, il nous semblait naturel d'envisager la construction d'un schéma littéraire comme la succession de deux phases essentielles :

a- Une phase de prescription qui permet d'expliciter les contraintes auxquelles doivent obéir les textes à produire. Ces contraintes peuvent se situer à tous les niveaux de la hiérarchie des structures littéraires.

- Niveaux élémentaires : alphabétique (lipogrammes, acrostiches), lexical (liponymie, antonymie), syntaxique (homosyntaxismes, transformations actif/passif, accords)

- Niveaux intermédiaires: sémantique, pragmatique, stylistique (choix des décors et des époques, caractérisation socio-professionnelle, psychologique des personnages

- Niveau supérieur, celui de la narration proprement dite, organisation de l'intrigue, des opérations épidiégétiques (locuteur, point de vue), de l'espace et du temps, etc...

Ce travail de prescription devait être facilité par la mise en place d'un "menu" qui guiderait l'utilisateur, lui éviterait les pièges d'une trop grande richesse de possibilités et lui permettrait d'exprimer ses choix dans une langue naturelle.

b- une phase de référenciation permettant à l'auteur de limiter considérablement le travail de prescription en lui offrant la possibilité d'utiliser, aux différents niveaux de la hiérarchie, des structures littéraires existantes.

Les références se feraient vers une "base de données textuelles prétraitées", base qui mettrait en oeuvre la procédure PALAP appliquée à une collection d'oeuvres ou de fragments d'oeuvre telle que celle que gère l'Institut National de la Langue Française.

Pour éprouver notre méthodologie, nous avons imaginé tout d'abord de construire un logiciel de production de textes relevant d'un domaine particulier, celui que François Le Lionnais avait proposé d'appeler la "Littérature du troisième secteur" (c'est-à-dire les textes administratifs, modes d'emploi, petites annonces, tracts publicitaires, etc...). C'est ce que nous avons baptisé le projet SELTS (Synthèse Elégante de Littérature du Troisième Secteur). En fait nous nous sommes limités à un secteur bien précis, pour lequel il était facile de constituer une base de données initiale : celui des petites annonces matrimoniales. Un essai fut également tenté dans le secteur des nécrologies, un autre dans celui - d'ailleurs apparenté - des vies brèves. SELTS fut alors généralisé pour devenir SEL (Synthèse Elégante de Littérature). Dans ce nouveau système, Simone Balazard et Nicole Modiano conçurent un système de génération de textes dramatiques baptisé SCENARIO (fondé sur un principe imaginé par Etienne Souriau et prolongé par Léon Bopp) [16].

Ces premiers littéraciels proposent à l'utilisateur de construire un schéma de production susceptible de créer des textes originaux en spécifiant un certain nombre d'objets littéraires :

- un arbre de base qui exprime la structure générale du texte.

- une matrice d'actualisation qui déterminera, au moment de la production du texte, des variations licites au sein de cette structure : omissions, permutations ou itérations éventuelles de sous-arbres dans l'arbre de base.

- des lexiques composés d'un certain nombre d'entrées : mots, expressions, phrases ou même paragraphes. Un lexique est affecté à une (ou plusieurs) feuille(s) de l'arbre.

- une déclaration de subordination qui exprime que certaines feuilles (ou plus précisément les lexiques qui leur sont associés) sont liées à certain(e)s autres. Ce lien se manifeste en limitant le choix d'une entrée dans un lexique en fonction des choix déjà effectués dans les lexiques qui ont été traités antérieurement, au cours de l'élaboration de la chaîne textuelle. Les liens de subordination sont matérialisés par l'affectation aux entrées des lexiques de "vecteurs" d'attributs et par la spécification de la contrainte qui caractérise un lien de subordination particulier.

Bien entendu, le moniteur qui gère, à l'aide d'un menu, l'ensemble du littéraciel, comporte les modules de saisie, d'édition et de modification qui permettent à l'utilisateur de construire son schéma par étapes, d'en évaluer les qualités "créatrices" et d'en améliorer les performances. La longueur des textes engendrés par des schémas de ce type n'est pas limitée en principe. Elle dépend de deux paramètres : le nombre de feuilles de l'arbre de base et la longueur des entrées qui composent les lexiques. Mais dès qu'on se propose de produire des textes de plusieurs pages, la définition et la mise en oeuvre des contraintes permettant une gestion rigoureuse de l'intrigue devient extrêmement laborieuse.

On peut alors imaginer plusieurs modifications et extensions du littéraciel permettant de contourner ces difficultés et, en premier lieu, de réduire l'explosion combinatoire qui les caractérise. On peut, tout d'abord diminuer le nombre des contraintes à gérer en mettant en service un programme morpho-syntaxique qui prenne en compte les accords en genre et en nombre et la concordance des temps. On doit surtout étendre le jeu des contraintes aux noeuds non-terminaux de l'arbre de référence, en y attachant les attributs susceptibles de conduire les inférences logiques qui déterminent l'évolution de l'intrigue.

C'est dans cette direction que les premiers travaux avec SEL nous ont orientés. Il nous est alors apparu que, plutôt que de tenter des améliorations locales du système, il était préférable d'élaborer un système général comprenant SEL à titre de cas particulier, mais ouvert aux initiatives les plus variées. C'est bien ainsi qu'est né le projet LAPAL.

3.3. Les littéraciels : de SELTS à LAPAL

Les expériences menées dans le cadre du projet SELTS comme le travail effectué pour la mise au point de programmes de démonstration nous permirent de mettre en évidence un certain nombre d'invariants que l'on retrouvait régulièrement dans tous nos programmes :

- la production des textes exploite un agencement combinatoire d'éléments textuels choisis dans un ou plusieurs lexiques.

- les éléments sélectionnés viennent éventuellement s'insérer dans des fragments de texte fixés à l'avance ou, plus généralement, prendre leur place dans une structure d'arbre (ou même de graphe plus complexe)

- cette insertion ne peut s'accomplir que si les choix effectués respectent des contraintes linguistiques ou littéraires convenablement explicitées.

Compte tenu des difficultés rencontrées par les chercheurs anglo-saxons ainsi que de l'évolution rapides de certaines technologies (en particulier dans le domaine du traitement des grandes bases textuelles) nous avons adopté une attitude modeste consistant à étudier puis à réaliser une famille de systèmes de production de textes de complexité croissante qui tiendraient compte, dans leur évolution, de l'expérience acquise au cours d'ateliers d'écriture pour lesquels nous avons été régulièrement sollicités. Ces littéraciels furent baptisés respectivement SEL, CAVF, MAOTH et LAPAL, les trois derniers étant opérationnels.

- CAVF (Conte A Votre Façon). Ce programme permet de concevoir puis d'exploiter des schémas de contes semblables au Conte des petits pois de Raymond Queneau. L'exploitation d'un schéma commence par un épisode interactif au cours duquel des choix sont proposés au lecteur. A la fin de cet épisode, un chemin aura été choisi dans le graphe associé au schéma. L'épisode de production fera alors apparaître les textes associés aux sommets ainsi sélectionnés dans le graphe.

La conception du schéma comprend la détermination du graphe (en explicitant sa "matrice des successeurs d'un sommet"), puis la spécification des informations associées aux sommets : énoncé des choix et des questions, textes à produire. Ces tâches sont accomplies sous le contrôle d'un menu qui donne la possibilité d'effectuer des essais, puis d'introduire des corrections tant en ce qui concerne

produits. CAVF a été conçu par Paul Braffort et réalisé par Eric Joncquel.

- MAOTH (Manipulation Assistée par Ordinateurs de Textes Hybrides). Ce programme permet de concevoir puis d'exploiter des modèles qui sont composés d'un moule (l'équivalent de l'anglais template) et d'un certain nombre de lexiques. Un moule comporte des zones "fixes" (mots, morphèmes, signes de ponctuation ou indications typographiques) et des "lacunes", zones libres où vont s'insérer des items sélectionnés dans les lexiques. Chaque lacune comporte la référence au lexique à utiliser, mais aussi l'indication de la (des) contrainte(s) à respecter et qui se réfèrent aux choix déjà effectués (ou à effectuer) pour d'autres lacunes. La conception du modèle comprend donc la spécification du moule, des lexiques et des contraintes.

Le menu comporte aussi des options de visualisation et de modification et, finalement d'impression des textes que le système peut élaborer. MAOTH a été conçu par Paul Braffort et Josiane Joncquel-Patris, et réalisé par Anne Dicky.

- LAPAL (Langage Algorithmique pour la Production Assistée de Littérature). Contrairement aux systèmes que nous avions élaborés auparavant, LAPAL n'est pas simplement un littéraciel, mais plutôt un véritable "méta-littéraciel" dans la mesure où les versions successives que nous proposeront pourront intégrer des modules supplémentaires apportant de nouvelles et importantes fonctionnalités : gestion de dictionnaire, analyse syntaxique, contrôle sémantique et pragmatique, etc...

Ce programme intègre les fonctionnalités des deux précédents, et y en ajoute quelques autres. LAPAL apporte une amélioration appréciable, par rapport à MAOTH et CAVF, les spécification des "attributs" associés aux items lexicaux, items qui permettent l'implémentation des contraintes, lors de la conception du modèle, se fait en langage naturel.

La structure des textes est défini par un système de règles de productions du type "grammaire générative" qui permet de gérer une organisation hiérarchique complexe et de combiner les approches applicationnelles et implicationnelles. En introduisant des règles de production "multiples", on se donne la possibilité de construire des schémas du type CAVF. Le littéraciel LAPAL a été conçu et réalisé par Anne Dicky.

4. Enseignements et perspectives

4.1. Les ateliers et présentations

Il existe désormais un grand nombre de lieux où la possibilité est offerte au public de participer à des activités de création. Ces activités d'animation : exposés didactiques, stages et ateliers d'écriture, etc... ont fait l'objet de l'attention de l'ALAMO. Dès le début de nos activités: les ateliers de Villeneuve-lez-Avignon, d'Elancourt, de Sommières, de Saint-Quentin, etc... ont permis de mettre à l'épreuve nos principes et nos méthodes.

Le développement de LAPAL bénéficiera, lui aussi, de l'expérience acquise au cours d'ateliers, nous accorderons une attention particulière aux stages "pédagogiques". L'utilisation des littéraciels de l'ALAMO exige en effet la mise en oeuvre d'une analyse soignée des objets linguistiques, textuels et littéraires (cf. 2.2 et 2.3), cette analyse étant validée par la cohérence et la correction des textes produits. Cette procédure se révèle d'un grand intérêt pédagogique, à quelque

niveau que ce soit de la communication, les étudiants étant confrontés au fonctionnement du système tout entier de la langue et en particulier aux problèmes difficiles de la cohérence sémantique :

1. Des élèves ou des étudiants étrangers s'entrainant à la manipulation des outils syntaxiques seront particulièrement sollicités par un travail avec MAOTH. A chaque étape du texte, l'apprenant sera confronté aux relations syntaxiques plus ou moins élémentaires des phrases, paragraphes (en effet, les textes très courts sont plus adaptés à l'objectif fixé à ce niveau du travail linguistique); ainsi, les accords sujet-verbe, nom-adjectif, la concordance des temps, l'emploi des pronoms personnels anaphoriques, l'utilisation du subjonctif, etc. requièrent forcément l'attention de l'apprenant lorsque les textes produits sont incorrects! La réflexion sur le fonctionnement de la langue s'impose naturellement à l'apprenti-écrivain. Ce n'est pas une leçon de grammaire passive et gratuite...

2. CAVF développera plus spécialement une réflexion sur la logique narrative, les textes associés aux divers sommets du graphe devant être convenablement appariés aux choix qui seront proposés au lecteur. Quel que soit le chemin choisi par le "lecteur" du conte (itinéraire déterminé par les questions posées à chaque étape narrative), l'histoire produite devra être cohérente; il ne s'agit pas de faire des "cadavres exquis", ce qui, par ailleurs, est possible. L'apprenant doit dans ces conditions, être conscient de toutes les possibilités de choix; lui, ne choisit pas une solution plutôt qu'une autre; il se livre à une écriture potentielle, tout comme l'utilisateur de MAOTH.

Une expérience particulièrement intéressante a été conduite, dans cet esprit, à l'Université de Chicago: Josiane Joncquel-Patris a utilisé CAVF et MAOTH dans son enseignement du français langue étrangère, en particulier avec des étudiants de niveau "avancé" (Advanced French 213): pour ne donner qu'un exemple; grâce à MAOTH, les étudiants ont étudié la structure de paragraphes de Flaubert, de phrases complexes de Proust, et vérifié leurs acquis en créant des textes de même structures, avec leur propre lexique ou un lexique emprunté à un autre auteur français. Parallèlement, nous avons mené des ateliers d'écriture, avec une version anglaise des littéraciels, dans le cadre de la formation continue de la même université, avec un public tout à fait différent (adultes intéressés par l'étude du français pour des raisons professionnelles par exemple, des retraités, d'autres personnes amenées à ces ateliers par simple curiosité).

3. LAPAL, combinant les fonctionnalités de MAOTH et CAVF, se prêtera aux applications les plus variées. Ce littéraciel est beaucoup plus convivial que les deux précédents, puisque, cela a été mentionné plus haut, les spécifications des constituants et des contraintes s'effectuent en langage naturel. De plus, LAPAL accepte des "corpus" extérieurs: dictionnaire ordinaire, dictionnaire de conjugaison, de rimes, analyseur syntaxique, nouveaux outils multimedia, etc. Plus complexe, plus performant, il peut s'adapter aux projets didactiques les plus divers (écrire un sonnet, une nouvelle, un roman, etc.) et aux exigences d'un écrivain voulant soumettre son texte à une (des) contrainte(s) quelconque(s).

4.2. L'ouverture aux nouvelles technologies

La grande généralité des procédures utilisées par nos littéraciels, en particulier par LAPAL, a permis leur utilisation dans des contextes linguistiques divers. C'est ce qui a conduit à la constitution de groupes du type ALAMO dans plusieurs pays tels que ALAMO-USA (Marvin Green, Gerald Honigsblum, Robert Wittig, et coll.) aux Etats-Unis et TEANO (Marco Maiocchi et coll.) en Italie. En même temps les progrès de la technologie conduisaient naturellement à une extension progressive des fonctionnalités et des "pragmatiques" associées :

- Extension des capacités paradigmatiques. Ce type d'extension, partiellement implémenté dans LAPAL, comprend l'adjonction au système de "lexiques externes", utilisables dans plusieurs modèles, une fois pour toutes, mais aussi de véritables dictionnaires (désormais disponibles sur support informatique pour de nombreuses langues naturelles) ainsi que des analyseurs syntaxiques simples. On rend ainsi automatique la mise en oeuvre des contraintes linguistiques usuelles, mais aussi de contraintes sémantiques et stylistiques beaucoup plus fortes que ce qui était possible jusqu'à une date récente.

Dans la mesure où l'écriture littéraire ne s'accompagne pas, généralement, de contrainte du type "temps réel", il devient possible de mettre en jeu successivement plusieurs programmes de création assistée, d'y ajouter des interventions "à la main" (ou plutôt "au traitement de texte"), d'aller rechercher, dans les chefs d'oeuvre de la littérature mondiale (disponibles désormais sur CD-ROM ou sur serveur) des fragments que l'on pourra soumettre à divers traitements. C'est une approche de ce type qui a été adoptée, semble-t-il, par Scott French, pour la réalisation d'un pastiche de la romancière "de gare" américaine Jacqueline Susann.

- Extension des capacités de communication". Il s'agit ici de tirer parti de la technique des "réseaux informatiques" pour ajouter à l'interactivité "locale" de nos littéraciels, une capacité d'interaction "à distance".

Une expérience à grande échelle a été réalisée en octobre 1988 dans le cadre de FAUST (Forum des Arts de l'Univers Scientifique et Technique), s'inspirant de l'expérience américaine "Invisible Seattle". Ce projet, baptisé RIALT (Réseau International d'Activités Littéraires Télématiques), et réalisé par Eric Joncquel, a relié pendant six jours des équipes rassemblées autours de terminaux informatiques à Toulouse, Paris, Liège, Chicago et Genève, chaque site utilisant les littéraciels de l'ALAMO ou exploitant des systèmes locaux de traitement de texte. Cette réalisation a reçu le "Faust d'or" 1988 pour le langage.

- Extension vers le "multimedia". Les progrès rapides de la technologie ont permis une amélioration sensible des didacticiels par l'intégration de capacités nouvelles de traitement de l'image et du son. Il était naturel de s'en inspirer dans le domaine de la création littéraire illustrée et plusieurs équipes - en particulier TEANO - travaillent dans cette direction.

A l'occasion de l'exposition Ars Technica Première, organisée en novembre 1992 par la Cité des Sciences et de l'Industrie à La Villette, nous avons présenté une maquette intitulée COSMICOM-X visant à intégrer, dans un système multimedia de type CAVF, un algorithme de production de textes saisis dans l'oeuvre d'Italo Calvino et un générateur d'images de synthèse exploitant le langage IKOGRAPH, dans une réalisation de Sabine Porada et de l'équipe LAMI (Laboratoire de recherche en Architecture, Méthodologie de la conception et Infographie).

Ici encore un travail de généralisation s'impose qui conduirait à la spécification et à la réalisation d'un langage auteur spécifique qui ajouterait aux fonctionnalités de nos littéraciels, celles de langages multimedias tels que QUEST et TOOLBOOK, pour ne citer que ceux-là.

Nous nous sommes intéressés, par ailleurs,aux problématiques de l'espace qui s'articulent naturellement avec celle des rapports entre l'image et le texte et ouvrent ainsi la perspective de recherches jointes avec les analystes et les créateurs qui s'intéressent aux ressources offertes par le développement des nouvelles technologies[17].

Il ne fait pas de doute que nous sommes à la veille de bouleversements profonds dans les divers domaines de l'expression et de la communication : tandis que de nouvelles techniques deviennent disponibles pour des coûts de plus en plus réduits, l'attente du public devient, de son côté, de plus en plus pressante. Un peu partout se constituent des lieux de recherche à vocation multi-disciplinaire tels que l'espace "Arts et Sciences" ouvert par le Ministère de la Culture et le CNRS à Sophia-Antipolis et le projet "Metafort" conçu dans le cadre de la future Cité des Arts d'Aubervilliers.

Pour ceux qu'inquiète la mise en oeuvre des technologies nouvelles au service de la création artistique, nous voudrions rappeler les analyses prémonitoires d'Italo Calvino qui déclarait, bien avant que les réalisations soient au rendez-vous [18] :

Quel serait le style d'un automate littéraire? Je pense que sa vraie vocation serait le classicisme : le banc d'essai d'une machine poético-électronique sera la production d'oeuvres traditionnelles, de poésies à formes métriques closes, de romans armés de toutes leurs règles.
[...]
La vraie machine littéraire sera celle qui sentira elle-même le besoin de produire du désordre, mais comme réaction à une précédente production d'ordre; celle qui produira de l'avant-garde pour débloquer ses propres circuits, engorgés par une trop longue production de classicisme. Et, de fait, étant donné que les développements de la cybernétique portent sur les machines capables d'apprendre, de changer leurs propres programmes, d'étendre leur sensibilité et leurs besoins, rien ne nous interdit de prévoir une machine littéraire qui, à un moment donné, ressente l'insatisfaction de son traditionnalisme et se mette à proposer de nouvelles façons d'entendre l'écriture, à bouleverser complètement ses propres codes
[...]
Telle serait une littérature capable de correspondre parfaitement à une hypothèse théorique, c'est-à-dire, en fin de compte, la littérature.

Notes et références.

[1] Norbert Wiener, I am a Mathematician. MIT Press (1964), p.123.
[2] Raymond Queneau, Cent mille milliards de poèmes. Gallimard (1961)
[3] Kathleen McKeown, Text Generation. Cambridge University Press (1985)
[4] Laurence Danlos, Génération automatique de textes en langues naturelles.Masson (1985)
[5] OULIPO (coll.), Atlas de Littérature Potentielle. Gallimard (1981)
[6] L'exemple le plus remarquable dans ce domaine est celui que nous donne le livre de Georges Perec, La vie mode d'emploi, Hachette (1978) où de nombreuses et difficiles contraintes sont utilisées simultanément..
[7] Cf. Paul Braffort , "La littérature assistée par ordinateur". Action Poétique n°95 (1984), p.12.
[8] Actes de la journée "Recherche, Technologie, Création" organisée par les Ministères de la Culture, de la Recherche et de la Technologie (1982).
[9] Paul Braffort,L'intelligence artificielle. P. U. F. (1968).
[10] Sheldon Klein : "Simulation d'hypothèses émises par Propp et Levi-Strauss" in Informatiques et Sciences humaines, 1976.
[11] John Meeham : "The metanovel : writing stories by computer". Res. report 74 Yale Univ. (1974)
[12] Mahoud Yazdani, Story writing by computer. University of Exeter (1982)
[13] On trouve de tels objets dans : Robert de Beaugrande et Wolfgang Dressler : Introduction to Text Linguistics, Longman, 1983.
[14] Claude Levi-Strauss : La structure et la forme. in Cahiers de l'Institut des Sciences Economiques Appliquées, n°99 (1960)
[15] Paul Braffort et Josiane Joncquel : "MALTA Multilingual Algorithms for Literary Text Analysis". CILS Report. The University of Chicago (1989).
[16] Dans le cadre d'un séminaire du Collège International de Philosophie : Les problématiques de l'espace à l'intersection de la Science et de la Littérature. (avril/juin 1994), avec Paul Braffort, Josiane Joncquel-Patris, Isabelle Krzywkowski et Chantal Michel.
[17] Etienne Souriau : Les deux cent mille situations dramatiques. Flammarion (1950).
Léon Bopp : Philosophie de l'art. Gallimard (1954)
[18] Italo Calvino : "Cybernétique et fantasmes ou de la littérature comme processus combinatoire". in La machine littérature, Seuil (1984), p.18.

Littératures / ALAMO

<< retour << accueil <<

contact