Les algorithmes rêvent-ils de best-sellers ?
Essai de cartographie poétique automatisée
de romans francophones à succès
1 Existe-t-il une recette miracle pour écrire un best-seller ? La quête de cette pierre philosophale a suscité depuis quelques années toute une littérature de manuels : Comme par magie : les secrets d’écriture d’un best-seller (2010), 101 conseils et astuces pour écrire un best-seller (2012), Comment écrire un best-seller : 8 étapes simples et efficaces (2015).
La tendance est récente[1]. Elle accompagne probablement la démocratisation de l’écriture : de plus en plus de Français tentent d’écrire un livre. Près de 350 000 auteurs vivants sont aujourd’hui recensés dans le catalogue de la BNF (contre environ 50 000 il y a cinquante ans)[2]. Les manuels que nous venons de citer capitalisent non seulement sur une espérance de succès commercial mais également sur l’imaginaire culturel et médiatique du best-seller : la promesse de figurer dans un palmarès des meilleures ventes représente une marque de prestige au même titre qu’un prix littéraire reconnu.
2 Sitôt né, l’art d’écrire un best-seller pourrait bientôt se métamorphoser en science. Paru en septembre 2016, The Bestseller Code mobilise les ressources nouvelles du machine learning pour “crackerle code des “blockbusters novels[3]. Un modèle élaboré à partir des “marqueurs stylistiquesde 20 0000 romans arrive à déterminer dans 80% des cas si un ouvrage est destiné à figurer sur les listes des meilleurs ventes ou non[4].
3 L’algorithme ne fonctionne pas “comme par magie”. Il fait émerger une réalité sous-jacente : au-delà des aléas économiques et sociaux, il existerait des prédispositions discursives et stylistiques internes au best-seller. Plusieurs titres ayant eu des débuts tortueux sont ainsi correctement identifiés par le modèle : la trilogie Millénium (refusée à plusieurs reprises) ou Fifty Shades of Gray (initialement auto-édité) constituent des best-sellers avec plus de 90% de certitude.
Ce best-seller-o-meter nous invite à réinterpréter le best-seller comme un répertoire informel de normes et de pratiques d’écriture. Le fonctionnement de l’algorithme permet en effet d’interroger rétroactivement les facteurs déterminant ses “choix”.
4 Le corpus sélectionné par Archer et Jockers comprend aussi bien des best-sellers que des titres ayant eu une diffusion ordinaire. Chacun de ces romans est caractérisé formellement par 2799 “features” qui couvrent une grande variété de phénomènes stylistiques : usage de la ponctuation, arcs narratifs, thématiques des “sujets”, types de personnages…[5] Le modèle dispose d’une sélection aléatoire du corpus de best-sellers et de non-best-sellers et doit déduire la combinaison optimale de “features” qui distingue le mieux les best-sellers. Cette combinaison est ensuite appliquée à une nouvelle sélection aléatoire que l’algorithme ne connaît pas : les succès et les échecs de la classification permettent d’établir sa fiabilité.
5 Archer et Jockers ne décrivent pas le best-seller comme une catégorie générique mais comme un agencement plus ou moins efficace de traits que les lecteurs apprécient de retrouver et que les écrivains expérimentés finissent par cerner au terme de nombreux tâtonnements. S’agissant de Fifty Shades of Grey, le thème très médiatisé du BDSM joue en réalité un rôle négligeable (l’algorithme lui assigne même un effet négatif) au regard de l’enchaînement narratif, parfaitement agencé pour immerger la lectrice/le lecteur :
Deux sujets couvrant 30% du roman ? C’est le cas[6]. Un troisième sujet élargissant ce taux à 40% ? C’est le cas. La “proximité” constitue l’un de ces trois sujets ? C’est le cas. Ce sont les trucs, conscients ou inconscients, de centaines d’auteurs présents dans la liste des best-sellers du New-York Times, tous genres confondus.
6 Pourrait-on de la même manière cracker le code du best-seller francophone ?
Nous proposons ici une première expérimentation beaucoup moins ambitieuse que le projet d’Archer et Jockers, qui a pris près d’une décennie[7]. Notre objectif n’est pas de créer une version améliorée du best-seller-o-meter mais d’éclaircir la question centrale de la spécificité stylistique du best-seller : s’il existe bien des caractéristiques stylistiques formalisées permettant d’identifier un roman à succès, à quoi correspondent-elles ? L’hypothétique best-sellerité n’est-elle qu’une combinaison de tactiques et de stratagèmes narratifs ou esthétiques capables de susciter l’adhésion du lecteur ? Ou recouvre-t-elle des pratiques d’écriture plus cohérentes et structurées ? Les best-sellers font-ils genre ?
Un essai de lecture distante sous contraintes
7 L’étude d’Archer et Jockers s’inscrit dans un mouvement intellectuel plus large : la “lecture distante”. La numérisation de corpus immenses a amené plusieurs chercheurs en littérature à changer de regard : non plus lire les textes mais observer à distance leurs caractéristiques. Les outils informatiques et les modèles statistiques jouent un rôle fondamental dans cette distanciation. L’identification automatisée de phénomènes stylistiques sur des milliers, voire des millions d’ouvrages et leur classification autorise le déploiement d’un regard panoramique. Des projets actuellement menés en collaboration avec l’équivalent américain de Gallica, Hathi Trust, peuvent ainsi porter sur l’ensemble de la littérature américaine au cours des deux derniers siècles.
8 La méthodologie employée par The Bestseller Code correspond à une nouvelle approche “expérimentale” de la lecture distante, développée notamment par Ted Underwood. Le classique terrain de recherche laisse place à un “plan d’expérience” (“design of experiments”) permettant de contrôler la fiabilité des résultats. Les collections étendues d’Hathi Trust autorisent en effet l’extraction de corpus ordinaires ou par défaut, qui peuvent ensuite être contrastés avec des corpus sélectionnés pour certains traits (leur genre, leur succès éditorial ou médiatique). C’est ainsi que Ted Underwood a pu mettre en évidence la distinction stylistique très précoce de la science-fiction ou du roman policier (diagramme n°1), bien avant que ces genres soient identifiés comme tels.
Diagramme n°1 : Classification du roman policier (en rouge) par Ted Underwood
au regard d’un corpus aléatoire (en gris)[8]
9Notre intention initiale était de développer un “plan d’expérience” analogue à partir d’un corpus de romans français. La numérisation des textes encore soumis au droit d’auteur demeure cependant extrêmement parcellaire. Le diagramme n°2 illustre l’effondrement du taux de représentativité des documents diffusés par Gallica après la Seconde Guerre mondiale : l’entrée dans le domaine public intervient généralement 70 ans après la mort, soit pour les auteurs décédés avant 1947 en 2017.
Diagramme n°2 : Le “trou noir” de la numérisation sur Gallica[9]
10 Concrètement, il n’est pas possible aujourd’hui de constituer un corpus de romans français ordinaires que nous pourrions contraster avec un corpus spécifique. À défaut nous proposons un premier aperçu purement “exploratoire” : plusieurs modèles statistiques (de “topics modeling”) projettent l’espace discursif des best-sellers sous différents angles. Les coordonnées relatives des mots, des documents et des “thématiques” au sein de cet espace éclairent les relations de proximités et de divergences qui peuvent être attribuées à des affinités génériques, thématiques ou auctoriales (s’agissant de la production d’un même auteur).
11 Ces déductions restent interprétatives. À partir de la manière dont les “éléments” du corpus se positionnent mutuellement, nous tentons de reconstruire des “ensembles” plus ou moins cohérents, plus ou moins pertinents. Ce faisant, nous éclairons le problème de la généricité du best-seller ; nous ne le résolvons pas. Seul un effort collectif de documentation et de numérisation du roman français, comparable à ce qui est actuellement mis en œuvre aux États-Unis permettrait d’avancer sur des bases plus solides.
12 Il ne sera donc question ici que de best-sellers. Même avec cette simplification, la constitution du corpus demeure problématique. En témoigne cet obstacle majeur : les listes de best-sellers français ne sont pas accessibles. Le Point, L’Express ou Livre Hebdo publient certes des palmarès hebdomadaires comparables à ceux du New York Times, mais ces archives ne sont pas disponibles en ligne[10]. De telles données ont une valeur commerciale. Le site de statistiques de l’édition Edistat[11] diffuse ainsi une liste des 200 meilleurs ventes au cours de la semaine écoulée, mais ce n’est qu’une “vitrine” incitant les professionnels intéressés à souscrire des abonnements onéreux pour consulter les chiffres détaillés ou les données antérieures.
13 Au terme de plusieurs recherches infructueuses, une ressource approchante a pu être identifiée : les chiffres-clés du livre publiés annuellement sur le site du Ministère de la culture[12]. Depuis l’année 2007, ce bilan comporte également une sélection des 30 livres les plus vendus déclinés par auteur, éditeurs et nombre d’exemplaires. Tous ces livres ne sont évidemment pas des romans d’auteurs français. Moyennant une vérification minutieuse qui a exclu à la fois la production étrangère et non-fictionnelle, nous avons pu sélectionner 99 titres présents dans les chiffres-clés du livre de 2007 à 2016 (voir le tableau en annexe).
Tous ces ouvrages ont été distribués à plus de 150 000 exemplaires et une dizaine d’entre eux ont des tirages “millionnaires”. Bien que fortement sous-estimées[13], ces statistiques soulignent d’emblée que notre corpus sera limité aux “super-best-sellers” : ces ouvrages qui représentent un succès éditorial d’une ampleur colossale.
14 Nous avons récupéré une version numérique (au format epub, pdf ou txt) de chacun de ces titres. En apparence le spectre des formes et des genres concernés est vaste : “haute” littérature, souvent consacrée par des prix prestigieux (Carrère, Houellebecq, Ndiaye), roman sentimental (Pancol, Gavalda, Levy), fantastique (Musso), policier (Vargas), fantasy (Paolini), essai semi-fictionnel (d’Ormesson)… Nous devrions découvrir tout un monde de réalités romanesques fortement contrastées.
Parcourir un roman comme une carte : l’art du topics modeling
15 Dans le cadre de notre approche exploratoire nous avons fait appel à une méthode très suivie par les théoriciens américains de la lecture distante il y a quelques années et un peu délaissée depuis : le topics modeling à partir d’une analyse sémantique latente (Latent Semantic Analysis ou LSA). Par opposition aux modèles supervisés utilisés par Archer et Jockers ou Underwood, les “ensembles” à identifier ne sont pas pré-définis : il n’y a pas un corpus de best-seller d’un côté et un corpus contrôle de l’autre, tous deux déjà étiquetés. L’algorithme identifie les alliages de termes qui paraissent suffisamment cohérents et récurrents et qui forment un sujet.
Cette méthode permet de ne pas faire de “choix” en amont (en dehors du nombre arbitraire de sujets choisis), mais cela se “paie” en aval. Non seulement les “ensembles” détectés doivent être interprétés a posteriori — par exemple en consultant la liste des mots préférentiellement choisis — mais ils ne coïncident pas exactement entre deux observations. Le modèle part d’une position aléatoire : les mots sont distribués au hasard dans chaque “sujet” puis, à mesure que les documents sont examinés, cette répartition est affinée.
16 S’agissant de sujets très “marqués”, le point de départ n’a qu’un impact limité. Pour d’autres expériences menées sur la presse ancienne, nous retrouvions presque systématiquement, d’une session à l’autre, les mêmes ensembles : les rubriques du journal constituent des agencements lexicaux trop cohérents et structurés pour ne pas être retrouvés indépendamment de la situation initiale.
Diagramme n°3 : Sélection de “topics” dans le Journal des débats en 1825[14]
Les sujets plus “flous” connaissent des variations parfois considérables : des genres fusionnent, fissionnent, se distendent ou se contractent. Nous ne pouvons pas avoir confiance en un seul résultat. Des calculs répétés deviennent nécessaires pour évaluer le degré de cohérence et de persistance des agrégations et constater l’existence de continuums d’un sujet à l’autre.
17 En somme nous passons de l’étude des “ensembles” lexicaux à l’étude des ”ensembles d’ensembles”. Dans notre approche, les modèles ne produisent pas des résultats ; ils génèrent des interprétations. En fonction de certains postulats (la position aléatoire de départ) l’algorithme découpe l’espace des sujets possibles d’une certaine manière ; même si la cartographie finalement choisie est relativement cohérente (au sens où les genres correspondent généralement à des agrégats réguliers de termes), d’autres choix et d’autres rapprochements auraient pu être faits.
18 Si chaque interprétation isolée reste floue et approximative, la convergence des interprétations permet de reconstruire des phénomènes structurels. Nous avons ainsi calculé dix modèles et chaque modèle se compose à son tour de dix sujets[15].
Le terme de sujet est emprunté à la terminologie classique du topics modeling (sujet pour topic) : il ne renvoie pas réellement à un sujet thématique précis mais plutôt à un agencement potentiel entre des mots et des documents. Les similarités entre sujets, notamment lorsqu’ils sont issus de différents modèles, peuvent ensuite être invoquées pour établir l’existence de cohérences génériques mais un sujet ne constitue pas un “genre” en soi.
19 Les modèles correspondent à des “sessions” de travail distinctes. Pour mieux mettre en évidence sur des bases matérielles cette phase de programmation et d’exécution du code, nous qualifierons chaque modèle par son numéro de session : la session n°1 désigne ainsi le premier modèle que nous avons calculé.
Parce qu’elle explicite les ambiguïtés plutôt que de les éluder, cette démarche corres­pond mieux aux besoins spécifiques des études littéraires :
En tant que chercheur en littérature, j’apprends plus de choses des sujets ambigus que des sujets évidents. Un sujet comme la poésie est difficile à interpréter mais pour la recherche littéraire, c’est un plus. Je veux que cette technique me mette en évidence des choses que je ne comprends pas encore et je ne trouve jamais que les résultats sont trop ambigus pour être utiles. Les sujets problématiques sont les sujets intuitifs — ceux qui parlent de guerre, de voyage maritime ou de commerce. Je ne peux pas faire grand-chose de ceux-là.[16]
20 Cette approche se heurte cependant à plusieurs écueils pratiques.
D’abord il n’existe pas d’outil clé en main qui fasse exactement ce que nous désirions : calculer plusieurs modèles (idéalement une dizaine) sur des corpus en français puis comparer les résultats. À défaut, nous avons dû élaborer plusieurs scripts ad hoc dans les langages de programmation Python et R.
Ensuite, la langue anglaise étant faiblement flexionnelle, les extensions usuellement employées pour faire du text mining (comme tm, tidytext et topicmodels dans R) n’incluent pas de programmes efficaces pour retirer les variations syntaxiques telles que la marque du pluriel ou les conjugaisons (on parle aussi de “lemmatisation”). Nous avons intégré un parseur syntaxique, la French Treebank, à notre processus de retraite­ment automatisé des corpus. Les corpus ont été segmentés en 4385 sections arbitraires de 2000 mots. Au sein de ces segments, nous n’avons conservé que le vocabulaire relativement fréquent (les 4000 premiers mots, hors des mots-outils) qui sont pourvus d’une signification autre que purement syntaxique (les mots-outils ou stopwords). Nous émettons ici l’hypothèse que les romans ne constituent pas nécessairement des ensembles cohérents, mais peuvent combiner plusieurs sujets distincts : l’unité documentaire ne peut être dans ces conditions le roman lui-même et toute subdivision éditoriale inscrite dans le texte lui-même (chapitre, section…) risque d’être trop disparate pour autoriser des comparaisons.
Enfin, le calcul de dix modèles sur 4385 segments a un coût : en temps. Dans le modèle, chaque mot constitue une “dimension” distincte. Un document est un “point” dans un graphique en 4000 dimensions. Cette géographie alternative ne se parcourt pas aisément : en moyenne le calcul d’un modèle prenait 15 à 20 minutes selon que la position aléatoire de départ était plus ou moins avantageuse. En intégrant également plusieurs modèles complémentaires (avec un lexique plus étendu, moins de dimensions) la phase de compilation a pris deux jours.
21 Au terme de ce processus, notre corpus est décrit par une centaine de “sujets” issus de dix tentatives de classification. Ces sujets expriment des prédilections plus ou moins fortes pour certains mots, et sont plus ou moins attestées dans les segments.
Par exemple, le huitième sujet du sixième modèle est très fortement associé aux mots “elfe”, “dragon”, “soldat”, “épée” ou “roi”. Ce sujet est très peu attesté dans notre corpus, avec des pourcentages moyens par œuvre généralement inférieurs à 1%. Font exception deux romans du cycle L’héritage de Christopher Paolini (plus de 90% de certitude en moyenne) et des extraits occasionnels de Trois femmes puissantes de Marie Ndiaye ou de Grand cœur de Jean-Christophe Rufin. Dans ce dernier cas, un roman historique, le modèle sélectionne une audience entre le personnage principal et le roi de France, où le premier fait état de ses “voyages d’orient”.
Nous pourrions en déduire que le sujet correspond à la fantasy mais, au fond, nous ne savons rien de la pertinence de ce regroupement. Un nouveau modèle pourrait très bien fondre ce sujet dans des ensembles distincts, tel que le fantastique, le roman historique ou le roman d’idées. En l’état, l’herméneutique de l’algorithme demeure un exercice fondamentalement subjectif.
22 L’utilisation concomitante de plusieurs modèles permet d’arrimer ces coordonnées mouvantes. Le diagramme n°4 spécifie la position relative des sujets de nos dix modèles (soit cent sujets au total), chaque couleur correspondant à un modèle distinct. Les centaines de dimensions lexicales sont ici compressées en quelques dimensions par une “analyse de correspondances”. Si cette conversion simplifie voire “abêtit” considérable­ment les relations entre sujets, mots et documents, elle rend possible une exploration de l’espace discursif dans un référentiel en deux dimensions.
Diagramme n°4 : Répartition des sujets dans le corpus de best-seller.
Projection des deux premières dimensions de l’analyse de correspondance.
23 Les sujets ne sont pas également distribués dans l’espace : il existe des lieux de concentration et des dynamiques de distanciation. Trois ensembles se découpent nettement, au point que nous avons pris la liberté de les dénommer d’emblée : les sujets de fantasy se retrouvent relégués tout au fond à droite, les sujets de policier tendent à être disposés vers le bas et une sorte de “corpus central” tend à agréger tout le reste. L’accord de nos dix modèles en faveur de ce découpage est unanime, même si le degré de distance entre la fantasy, le policier et le corpus principal varie.
24 La projection de l’espace discursif autorise des zooms et des télescopages sur le “corpus principal”. La galerie suivante (diagramme n°5) donne à voir comment chaque modèle a tenté d’interpréter et de “peupler” ce sous-espace. Le corpus principal apparaît comme une région “instable” : au gré de la diversité de leurs points de départs, choisis aléatoirement, les modèles n’invoquent pas les mêmes recoupements[17].
Diagramme n°5 : Répartition des sujets par sessions (numérotées de 1 à 10) dans le corpus principal.
Les sujets positionnés à des coordonnées proches tendent à fédérer la même sélection de mots et de documents. S’il n’existe peut-être pas de sujets parfaitement identiques, nous discernons des “fédérations de sujets” plus ou moins consistantes et plus ou moins récurrentes, qui peuvent être réinterprétées à l’aune de catégorisations littéraires usuelles.
25 Une projection des sujets par “densité” fait effectivement émerger des concentrations récurrentes et structurelles de sujets — soit approximativement ces “méta-sujets” dont nous suggérions plus haut l’existence. Nous avons ensuite tenté d’étiqueter ces condensations en six “genres” (ou, plutôt, constellations génériques) distincts.
26 Pour mener cet exercice de cartographie raisonnée, nous avons systématiquement confronté les coordonnées des sujets et celles des mots (qui peuvent être projetés dans le même espace), ainsi que la liste des titres les plus associés aux sujets. Le diagramme n°7 donne un aperçu de ces croisements méthodologiques. La même portion de l’espace (une excroissance “orientale” du corpus principal) est analysée sous l’angle de la position des sujets, de la position des mots et les romans ayant le plus de segments dominés par les “sujets”.
Diagramme n°7 : Exemple d’analyses croisées : sujets, mots et romans
convergent vers la catégorie du “roman d’idées” / “roman historique”.
27 Ces comparaisons attestent une matrice générique commune, sorte de croisement entre le roman d’idées à tendance métaphysique (“réalité”, “imagination”, “impression”, “fou”) et le roman social et historique (“France”, “ville”, “pays”). Les titres les mieux représen­tés associent effectivement une forte dimension réflexive et une inscription revendiquée dans leur hic et nunc : l’aube du christianisme dans Le royaume, la fin du Moyen-Âge dans Le grand cœur, la Première Guerre mondiale dans Au revoir là-haut. Ces observations croisées tendent à dégager une catégorie plus ou moins latente qui ne recoupe pas complètement les découpages usuels de l’histoire littéraire.
Répétées à l’ensemble du corpus principal, ces opérations permettent de distinguer cinq autres ensembles :
1) Le roman du quotidien (Pancol, Delacourt, Slimani) est resserré sur la sphère intime. Le lexique met en avant les figures familiales (“maman”, “papa”, “enfant”) et la géographie de l’espace privé (“appartement”, “cuisine”).
2) Le thriller au sens large (Gallay, Jenni, Bussi) met en avant le ressenti des person­nages (“sens” est l’un des termes les plus spécifiques) soumis à des situations tantôt stressantes (guerre, crime), tantôt inspirantes. D’une manière typiquement romanti­que, le paysage alentour fait indirectement écho aux états d’âme des protagonistes (“mer”, “nuit”, “marcher”, “continuer”…).
3) Le fantastique “réaliste” (Musso, Gragné, Minier), sorte de “réalisme magique” à la française articulant des champs lexicaux du quotidien (“bureau”, “dossier”, “poche”) et du religieux/métaphysique (“Jésus”, “église”, “expliquer”).
4) Une forme “amollie” du roman policier (Dicker, Bussi, de Vigan…). Les codes du genre se dissolvent dans une évocation plus générale des conventions sociales (“dîner”, “hôtel”, “installer”) ou d’une enquête personnelle (“époque”, “mère”, “père”[18]).
5) Un best-seller “total” où convergent potentiellement toutes les tendances préalables (Gavalda, Levy, Rosnay, Barbery…). Le vocabulaire directement concerné est peu spécifique (“ailleurs”, “offrir”, “lire”, “monde”). De fait le best-seller total s’apparente à une matrice commune puisant par intermittence dans des ensembles plus spécifiques.
Des catégories fragiles…
28 Cette essai de classification s’appuie presque entièrement sur une projection géographique de l’univers romanesque : plutôt que de nous perdre dans l’immense diversité des “dimensions” d’une centaine de romans, nous nous sommes appuyé sur un jeu pré-déterminé de proximités. Pour autant, pouvons-nous lui accorder une confiance totale ? Houellebecq inciterait à se méfier de ces cartes “sublimes” qui en deviennent “plus intéressantes que le territoire”[19].
29 Nous convoquons ici un second repère cartographique : tsne. Avec cet algorithme, les coordonnées sont optimisées pour deux dimensions moyennant un “coût” d’équilibrage plus important qui peut masquer les dimensions structurantes du corpus. Par analogie avec les projections géographiques, nous dirions que les distances entre les points sont mieux respectées au détriment de la répartition globale : plutôt Lambert que Mercator. Dans ces nouvelles conditions, les distinctions préexistantes sont métamorphosées mais elles perdurent. Le policier et la fantasy se retrouvent de nouveau relégués à l’écart. Les six ensembles subsidiaires du corpus principal se reforment dans des condensations à peu près cohérentes.
Diagramme n°8 : Les “ensembles génériques” projetés dans tsne
30 Ces répartitions concordantes d’un algorithme à l’autre révèlent également une forme de continuum générique dans le corpus principal : les sujets, les romans et les termes se chevauchent tout au long du corpus général sans rupture perceptible. Nous pourrions calculer une dérivée constante qui mènerait de Houellebecq à Pancol en passant par plusieurs états intermédiaires successifs. La carte sert de métaphore à nos efforts catégoriels : autant le policier et la fantasy s’assemblent naturellement en grappes closes, autant les subdivisions du corpus principal demeurent incertaines, comme si tout regroupement était irrémédiablement voué à s’évaporer et se distendre.
31 En accord avec Ted Underwood, nous voyons ici plus d’intérêt aux limites de la classification qu’à ses résultats effectifs. Si au terme de notre exploration, nous étions parvenu à délimiter des continents de fiction bien distincts, le problème de l’identité stylistique du best-seller se dissoudrait en une multitude de sous-problèmes (pourquoi tel ou tel titre emblématique de tel ou tel genre parvient-il à se distinguer ?). Mais, hormis le cas particulier de la fantasy et du policier, le cadastre du best-seller reste empreint d’un flou nébuleux…
32 Manifestement, les catégories que nous avons tenté d’exhumer semblent affectées par un épuisement générique. Il n’y a pas de “roman policier”, de “roman historique”, de “roman sentimental” mais des hybrides ou des dérivations plus ou moins bien définis : des romans d’idées historiques, des thrillers émotionnels, du fantastique ancré dans la banalité ordinaire. Et, hybride des hybrides, il existerait même un “best-seller total” qui, en l’absence de tout déterminant lexical clair s’inscrirait à équidistance des autres ensembles.
Nous pouvons corroborer cette hypothèse de l’épuisement générique en recourant à un modèle radicalement différent : les “vecteurs de mots” qui permettent de conserver une partie de l’ancrage contextuel des mots. À chaque terme est associée une série de cent chiffres qui indiquent relativement comment il se positionne au regard d’autres termes. Des termes employés de la même manière (typiquement des chiffres) auront générale­ment les mêmes coordonnées. Le réseau ci-dessous projette en quelque sorte les champs lexicaux privilégiés de notre corpus.
Significativement, ces alliages de termes ne se regroupent pas par genres : ils renvoient à des registres romanesques communs. Les lieux “intimes” (appartement, chambre, maison…), le climat, l’accoutrement d’un personnage, la peinture des sentiments : ces inflexions fondamentales du récit s’apparentent à des formats d’écriture englobants largement disséminés au sein du corpus.
33 L’épuisement générique se double d’un épuisement auctorial. Les méthodes de classifications automatisées, supervisées ou non, sont fréquemment employées pour déduire l’appartenance d’un texte à un auteur. Dans notre thèse, nous avions pu vérifier l’efficacité de ces approches en les appliquant à un dispositif textuel a priori peu individualisé (la chronique boursière des années 1840)[20].
Il n’y a ici rien de comparable : les romans du corpus principal ne déclarent pas une identité stylistique uniforme ; ils articulent des agencements lexicaux composites. D’une session à l’autre, l’algorithme de topics modeling opère des découpages extrêmement variés.
34 Le déroulement narratif de La consolante d’Anna Gavalda est particulièrement affecté par ces hésitations. La session n°1 ne retient pour l’essentiel qu’un seul sujet ; la session n°5 prescrit un éclatement en sept sujets (soit les deux tiers des dix sujets d’une session). Entre ces deux extrêmes l’on trouve une grande variété d’options, non seulement au regard du nombre de sujets concernés, mais aussi de la localisation des “points de bascule” d’un sujet à l’autre : sous cet angle, les sessions ne se recoupent quasiment pas. La cartographie de l’espace discursif de Gavalda ne peut s’appuyer sur aucun repère solide.
Diagramme n°10 : Succession des “sujets” dans La consolante d’Anna Gavalda
L’axe du bas indique le déroulement du roman (du début à la fin).
Chaque sujet couvre une partie plus ou moins longue du roman
(presque tout le roman pour le sujet “rouge” de la session n°1).
Les couleurs distinguent les sujets uniquement au sein d’une même session
(le sujet “rouge” de la session n°1 n’est pas le sujet “rouge” de la session n°10)
35 Ce constat est aussi perceptible au niveau élargi de la production auctoriale. Certains auteurs de notre corpus sont particulièrement bien représentés : Guillaume Musso (13 titres), Marc Levy (11), Katherine Pancol (6), Michel Bussi (5), Anna Gavalda (4) et Fred Vargas (4). En principe, les modèles devraient généralement regrouper ces romans dans des sujets communs.
Le réseau dans le diagramme n°11 relie les romans entre eux sur la base d’un sujet significativement partagé (plus de cinq segments classés), dans notre classification la plus “fiable” (la session n°6 avec une valeur alpha de 0.64). En d’autres termes, deux romans vont être liés dès lors qu’une partie de leur contenu est classée dans le même sujet. Si les sujets correspondent surtout à des productions auctoriales, les liaisons devraient se faire exclusivement entre les romans d’un même auteur.
Diagramme n°11 : Réseau des best-sellers sur la base de sujets communs
(soit les sujets également attestés dans les œuvres de ces auteurs).
Les couleurs correspondent aux principaux auteurs.
36 L’hypothèse de l’affiliation stylistique auctoriale se vérifie pleinement pour Pancol, Vargas et dans une moindre mesure, pour Musso. Les romans de ces auteurs constituent des clusters situés à part du reste du réseau. Par contraste, Levy, Gavalda et Foenkinos apparaissent comme des “romanciers-caméléons”. Ils n’ont pas de place définitivement assignée dans le réseau. Chez Marc Levy, Toutes ces choses qu’on ne s’est pas dites lorgne vers Delphine de Vigan et L’horizon à l’envers vers Katherine Pancol.
Les romanciers-caméléons sont aussi des romanciers “centraux” : ils ne s’éloignent jamais beaucoup du cœur du réseau et semblent articuler un faisceau d’influences qui structure la totalité du champ stylistique du best-seller. Sans Levy, Foenkinos, Gavalda (ou pour les romanciers moins bien représentés, Barbery et Ferrari) le réseau se décanterait en une multitude de sous-réseaux.
Le best-seller comme genre ou comme paradigme ?
37 Notre analyse nous ramène à l’évocation première des “manuels d’écriture des best-sellers”. Les auteurs de best-sellers n’en sont généralement pas à leur coup d’essai, ils ont pris le temps de soigner leur répertoire de procédés, styles ou motifs ; ils ont fait leur gammes jusqu’à trouver un alliage susceptible d’attirer le public.
38 La quête continue du “truc” et de l’ “astuce” qui marche favorise une série d’emprunts mutuels : la concurrence devient une source légitime d’inspiration. En espérant s’inscrire dans une actualité littéraire, les auteurs provoqueraient la constitution d’un fonds commun en évolution constante. Cette dynamique mimétique contribue par contrecoup à affaiblir les genres, en procédant à des hybridations constantes et à la mise en circulation de certains traits caractéristiques de ceux-ci. Le roman policier est soumis à un dégradé d’assimilations entre les productions encore génériquement marquées de Fred Vargas, les formes dérivées de Dicker ou de Vigan et les appropriations occasionnelles de Levy.
39 Ce fonds commun est non seulement décelable au niveau des mots individuels mais aussi au niveau des “formules”, des expressions toutes faites. Nous avons recensé les combinaisons de mots les plus fréquentes dans l’ensemble du corpus. Si la plupart relèvent du français courant, d’autres correspondent à des effets de style beaucoup plus caractérisés et pourtant largement disséminés, tous genres et auteurs confondus : “n’avoir pas la moindre idée”, “l’œil dans le vague”, “première fois depuis longtemps”, “la fin de sa vie”, “la première fois de sa vie”.
Les trois dernières formules attestent une situation romanesque apparemment caractéristique du best-seller francophone des années 2000 à 2010 : la vie recommen­cée. Un événement ou une soudaine prise de conscience incite le protagoniste à reconsidérer son existence ou à la mettre en suspension. Ta deuxième vie commence quand tu comprends que tu n’en as qu’une de Raphaëlle Giordano affiche d’emblée une aspiration au recommencement qui imprègne aussi bien Levy que Gavalda, Rufin que Musso.
40 Sous cet angle, le “fonds commun” ne serait pas qu’un répertoire lâche de techniques d’écriture remobilisées au gré des modes : il aurait une certaine consistance. Les différences apparentes de styles, de positionnement et de formes semblent recouvrir a minima des pratiques partagées (le recyclage des genres, l’affaiblissement de l’auctoria­lité) et des imaginaires communs (l’idéal de la vie recommencée, la focalisation sur les espaces du quotidien).
41 Faut-il pour autant parler de genre ? Les convergences que nous tentons de situer tiennent plutôt de paradigmes socio-esthétiques en redéfinition constante. À un certain moment et dans un certain espace culturel des auteurs très différents s’accordent sur des manières d’écrire et sur des sujets dignes d’écriture. Cet accord est autant esthétique que social : en raison de l’ampleur de sa diffusion le best-seller semble perméable aux conceptions circulantes du lectorat français. Si les best-sellers du début du XXIe siècle ont la forme qu’ils ont, c’est qu’elle est pour partie la forme de leur hic et nunc.
42 Sur tous ces points le conditionnel reste de mise. Nous n’avons pas encore, en 2017, les moyens de notre analyse : les métadonnées manquent (ne serait-ce que pour identifier avec certitude les best-sellers d’une année donnée) ; les textes encore plus. Il n’est notamment pas possible d’évaluer dans quelle mesure les traits génériques du best-seller ne décalquent pas des caractéristiques communes à l’ensemble de la production littéraire française du début du XXIe siècle.
43 En attendant mieux, les méthodes de lecture distante sont déjà en mesure de renouveler nos questionnements sur le best-seller. Au risque de déstabiliser le lecteur, nous avons constamment associé plusieurs regards “cartographiquesdifférents sur notre corpus. Ces différents angles permettent d’évaluer la cohérence de certains ensembles ou, au contraire, leur fragilité, indépendamment des étiquetages couramment admis. Notre étude strictement formelle s’ouvre ainsi naturellement sur la sociologie des textes et des manières de qualifier les textes : pour expliciter nos “ensembles”, il serait nécessaire de décrire tout le dispositif d’élaboration et de mise en circulation du best-seller. Dans quelle mesure les conditions de travail effectives des auteurs déteignent-elles sur le constat apparent d’un affaiblissement de l’auctorialité ? Comment les conditions de promotion, de distribution mais aussi de réception et de réappropriation des best-sellers concourent-elles à l’affirmation de certains thèmes ou sujets structurants ?
44 Loin de n’incarner qu’un décompte positiviste de faits littéraires bruts, les nouvelles approches informatisées peuvent entretenir et aiguillonner une lecture critique. Elles nous aident à repenser les catégorisations et les découpages usuels, c’est-à-dire, selon les mots de Michel Foucault, “ces groupements que d’ordinaire on admet avant tout examen [et qui] sont toujours eux-mêmes des catégories réflexives, des principes de classement, des règles normatives, des types institutionnalisés”[21].
Pierre-Carl Langlais
Paris-IV Sorbonne
Annexe : Corpus de 99 best-sellers
Les métadonnées sont reportées telles qu’indiquées dans les chiffres-clés du livre diffusés par le Ministère de la culture. Certains romans constituent en fait des rééditions postérieures d’ouvrages plus ancien : nous avons maintenu les métadonnées en l’état. Un secret de Philippe Grimbert a ainsi paru initialement en 2004 chez Grasset : l’édition retenue dans la liste de 2007 est celle du Livre de Poche, alors la plus diffusée. De la même manière, l’année est celle de l’inclusion dans la liste et non la date de parution (sachant que chaque liste couvre plutôt les publications de l’année précédente).
TitreAuteur·triceÉditeur·triceAnnée
Acide sulfuriqueAmélie NothombLGF (Le Livre de poche)2007
Le serment des limbesJean-Christophe GrangéAlbin Michel2007
Je voudrais que quelqu’un m’attende quelque partAnna GavaldaJ’ai lu2007
Ni d’Ève ni d’AdamAmélie NothombAlbin Michel2007
Un secretPhilippe GrimbertLGF (Le Livre de poche)2007
Ensemble, c’est toutAnna GavaldaJ’ai lu2007
Seras-tu là ?Guillaume MussoPocket2007
Sauve-moiGuillaume MussoPocket2007
Et après...Guillaume MussoPocket2007
Mes amis, mes amoursMarc LevyPocket2007
Chagrin d’écoleDaniel PennacGallimard2007
Les enfants de la libertéMarc LevyRobert Laffont/ Pocket2007
Les yeux jaunes des crocodilesKatherine PancolLGF (Le Livre de poche)2007
L’élégance du hérissonMuriel BarberyGallimard/Folio2007
Le fait du princeAmélie NothombAlbin Michel2008
Ritournelle de la faimJ.M.G. Le ClézioGallimard2008
Syngué SabourAtiq RahimiPOL2008
Sous les vents de NeptuneFred VargasJ’ai lu2008
Où on va, papa ?Jean-Louis FournierStock2008
Un lieu incertainFred VargasViviane Hamy2008
Je reviens te chercherGuillaume MussoXO / Pocket2008
La consolanteAnna GavaldaLe Dilettante / J’ai lu2008
Toutes ces choses qu’on ne s’est pas ditesMarc LevyRobert Laffont / Pocket2008
Parce que je t’aimeGuillaume MussoXO / Pocket2008
La valse lente des tortuesKatherine PancolAlbin Michel2008
La première nuitMarc LevyRobert Laffont2009
Brisingr (L’héritage 3)Christopher PaoliniBayard Jeunesse2009
L’échappée belleAnna GavaldaLe Dilettante2009
Trois femmes puissantesMarie NDiayeGallimard/Folio2009
Que serais-je sans toi ?Guillaume MussoXO / Pocket2009
Le premier jourMarc LevyRobert Laffont / Pocket2009
C’est une chose étrange à la fin que le mondeJean d’OrmessonRobert Laffont2010
Les déferlantesClaudie GallayJ’ai lu2010
BoomerangTatiana de RosnayLGF2010
La carte et le territoireMichel HouellebecqFlammarion2010
L’homme qui voulait être heureuxLaurent GounellePocket2010
Le voleur d’ombresMarc LevyRobert Laffont / Pocket2010
La fille de papierGuillaume MussoXO / Pocket2010
Les écureuils de Central Park sont tristes le lundiKatherine PancolAlbin Michel2010
L’art français de la guerreAlexis JenniGallimard2011
LimonovEmmanuel CarrèrePOL2011
Encore une danseKatherine PancolLGF/Le Livre de Poche2011
Elle s’appelait SarahTatiana de RosnayLGF/Le Livre de Poche2011
Rien ne s’oppose à la nuitDelphine de ViganLattès/LGF/Le Livre de Poche2011
L’armée furieuseFred VargasViviane Hamy / J’ai lu2011
L’étrange voyage de monsieur DaldryMarc LevyRobert Laffont2011
L’appel de l’angeGuillaume MussoXO / Pocket2011
La délicatesseDavid FoenkinosFolio2011
Le grand cœurJean-Christophe RufinGallimard2012
L’amour dure trois ansFrédéric BeigbederFolio2012
La crypte des âmes (L’héritage 4)Christopher PaoliniBayard Jeunesse2012
Les dieux voyagent toujours incognitoLaurent GounellePocket2012
Le sermon sur la chute de RomeJérôme FerrariActes Sud2012
La liste de mes enviesGrégoire DelacourtLattès/ LGF/ Le Livre de Poche2012
Si c’était à refaireMarc LevyRobert Laffont / Pocket2012
7 ans après...Guillaume MussoXO / Pocket2012
La vérité sur l’affaire Harry QuebertJoël Dickerde Fallois/L’Âge d’homme2012
L’extraordinaire voyage du fakir qui était
resté coincé dans une armoire Ikea
Romain PuértolasLe Dilettante2013
Les souvenirsDavid FoenkinosFolio2013
Immortelle randonnéeJean-Christophe RufinGuérin2013
Le confidentHélène GrémillonFolio2013
Au revoir là-hautPierre LemaitreAlbin Michel2013
Un avion sans elleMichel BussiPocket2013
Un sentiment plus fort que la peurMarc LevyRobert Laffont / Pocket2013
Demain, j’arrête !Gilles LegardinierPocket2013
DemainGuillaume MussoXO / Pocket2013
Muchachas, vol. 2Katherine PancolAlbin Michel2014
Pas pleurerLydie SalvayreSeuil2014
Le royaumeEmmanuel CarrèrePOL2014
Ne lâche pas ma mainMichel BussiPocket2014
Pour que tu ne te perdes pas dans le quartierPatrick ModianoGallimard2014
CharlotteDavid FoenkinosGallimard2014
Complètement cramé !Gilles LegardinierPocket2014
Muchachas, vol. 1Katherine PancolAlbin Michel2014
Une autre idée du bonheurMarc LevyRobert Laffont / Pocket2014
Central ParkGuillaume MussoXO / Pocket2014
BoussoleMathias ÉnardActes Sud2015
N’oublier jamaisMichel BussiPocket2015
Et soudain, tout changeGilles LegardinierPocket2015
Le livre des BaltimoreJoël DickerÉd. de Fallois2015
D’après une histoire vraieDelphine de ViganLattès2015
Des vies en mieuxAnna GavaldaJ’ai lu2015
Temps glaciairesFred VargasFlammarion2015
SoumissionMichel HouellebecqFlammarion2015
Elle et luiMarc LevyPocket/ R.Laffont/ Versilio2015
L’instant présentGuillaume MussoXO / Pocket2015
Une putain d’histoireBernard MinierPocket2016
Ça peut pas rater !Gilles LegardinierPocket2016
Mémé dans les ortiesAurélie ValognesLe Livre de poche2016
Le temps est assassinMichel BussiPresses de la Cité2016
L’horizon à l’enversMarc LevyRobert Laffont2016
Le secret du mariLiane MoriartyLe Livre de poche2016
En attendant BojanglesOlivier BourdeautFinitude2016
Petit paysGaël FayeGrasset2016
Ta deuxième vie commence
quand tu comprends que...
Raphaëlle GiordanoEyrolles2016
Le jour où j’ai appris à vivreLaurent GounellePocket2016
Chanson douceLeïla SlimaniGallimard2016
Maman a tortMichel BussiPocket2016
La fille de BrooklynGuillaume MussoXO2016

Notes


[1]Nous avons effectué des requêtes sur l’expression “best-seller” dans l’ensemble de Data BNF : les publications de ce type n’apparaissent qu’à partir des années 2000 (1990 dans le monde anglophone). L’article d’Alexandre Gefen paru dans ce même numéro de revue relève également une vogue renouvelée pour les manuels d’écriture à partir du début du XXIe siècle, même si le phénomène a des racines beaucoup plus anciennes.

[2]Cf. les données compilées par Frédéric Glorieux.

[3]Jodie Archer & Matthew Jockers, The Bestseller Code: Anatomy of the Blockbuster Novel, St. Martin’s Press, 2016.

[4]L’enjeu de ce projet n’est pas que scientifique. Depuis novembre 2017, Archer et Jockers ont transformé le modèle en service commercial à destination d’auteurs ou d’éditeurs.

[5]Cette sélection a été effectuée manuellement à partir d’une collecte initiale de 20000 “features”.

[6]Traduction non littérale de l’anglais check.

[7]Les premières expériences remontent à 2008.

[8]Ted Underwood, “The Life-cycle of Genres”, Journal of Cultural Analytics, juin 2016. Article et graphique distribués sous une licence libre CC-By.

[9]Création personnelle à partir des données de Data BNF.

[10]Il serait possible d’extraire ces données à partir des fichiers numérisés sur Europresse. Cependant, à la différence des pages html du site web du Point ou de L’Express, le format utilisé (pdf ou texte brut) rend une extraction automatisée beaucoup plus complexe.

[11]Voir ce lien.

[12]Ces chiffres sont disponibles à cette adresse.

[13]Nous n’avons que les chiffres année après année : si un ouvrage ne figure pas de nouveau dans la sélection des 30 livres (ce qui est le cas pour L’élégance du hérisson, à trois reprises), nous ne savons rien de ses ventes.

[14]Cet essai de lecture distante est l’un des travaux préparatoires de l’ANR Numapresse.

[15]Le nombre de dix est ici purement arbitraire : il s’agit d’un compromis commode entre diversité (des sujets et des modèles) et lisibilité (afin d’avoir des visualisations relativement claires).

[16]Ted Underwood, “Topic Modeling made just simple enough”, The Stone and the Shell, 7 avril 2012.

[17]Il existe un autre indicateur de ces perceptions différenciées : la valeur alpha. Plus elle est basse, plus le modèle est parvenu à trouver un découpage a priori optimal. À ce compte, le meilleur modèle serait le sixième avec une valeur alpha légèrement inférieure à 0,63 — par contraste le modèle le moins satisfaisant, le deuxième, est doté d’une valeur alpha de 0,70.

[18]La désignation des figures familiales par un vocabulaire plus élevé et distancé contribue à créer un effet de distinction entre ce genre et le roman du quotidien.

[19]Michel Houellebecq, La carte et le territoire, Flammarion, 2010, p. 63, 103.

[20]Pierre-Carl Langlais, La formation de la chronique boursière dans la presse quotidienne française (1800-1870). Métamorphoses textuelles d’un journalisme de données. Thèse soutenue le 10 décembre 2015 au CELSA Paris-IV Sorbonne, p. 314 sq.

[21]Michel Foucault, L’archéologie des savoirs, Paris, Gallimard, 1969, p. 32-33.







2012 | Revue critique de fixxion française contemporaine |  (ISSN 2033-7019)  |  Habillage: Ivan Arickx |  Graphisme: Jeanne Monpeurt
Sauf indication contraire, textes et documents disponibles sur ce site sont protégés par un contrat Creative Commons CClogo