Aller au contenu

Culturomique

Un article de Wikipédia, l'encyclopédie libre.

La culturomique est une discipline issue des sciences sociales, alliant des avancées et analyses dans des champs de recherche du langage. C'est une forme de lexicologie informatique qui étudie notamment le comportement humain et les tendances culturelles grâce à l'analyse quantitative de textes numérisés[1].

Comme c'est le cas pour la génomique – science visant à étudier le vivant en analysant les séquences génétiques – la culturomique se base sur l'analyse de mégadonnées ou de séquences d'information sur un langage, afin d'en tirer des méta-informations. Cela étant, la culturomique n’a rien à voir avec la génomique si ce n’est l'analyse d’une séquence de signes que sont les nucléotides – en génomique – et les mots (ou phrases/expressions) – en culturomique. En somme: au lieu d'étudier un texte en particulier, la culturomique se propose de passer par la méta-analyse de textes d'un corpus, voire de l'ensemble des textes de l'humanité[2].

Étymologie

[modifier | modifier le code]

Le terme culturomique (« culturomics », en anglais) est un néologisme américain formé des mots culture et omique.

Malgré son apparente « universalité » artistique, le terme culturomique s'applique quasi-exclusivement aux écrits, à la littérature et aux pratiques linguistiques.

La discipline est récente dans l'histoire des Sciences sociales et l'on peut identifier la genèse de cette technique d'analyse au croisement entre linguistique, sciences de l'informatique et histoire[3]. Elle apparaît ainsi dans certaines sources francophones sous le nom de « culturmétrique ».

Le terme est utilisé pour la première fois en 2010 dans un article du journal Science intitulé: « Quantitative Analysis of Culture Using Millions of Digitized Books », coécrit par les chercheurs de Harvard Jean-Baptiste Michel et Erez Lieberman Aiden[4].

Dans un article publié en 2012[5], Alexander M. Petersen et ses coauteurs ont constaté un « changement spectaculaire dans le taux de natalité et de mortalité des mots » : les « décès » ont augmenté et les « naissances » ont ralenti. Ils identifient ainsi un « point de bascule » universel dans le cycle de vie de nouveaux mots : ils entrent dans le lexique à long terme ou tombent en désuétude environ 30 à 50 ans après leur introduction dans une langue[6].

Des approches culturomiques ont été adoptées dans l'analyse du contenu des journaux dans un certain nombre d'études réalisées par I. Flaounas et ses co-auteurs[7]. Ces études ont montré des tendances macroscopiques à travers différents organes de presse et pays. En 2012, une étude portant sur 2,5 millions d'articles suggère que les préjugés sexistes dans la couverture de l'actualité dépendent du sujet et de la lisibilité des articles de journaux.

Une autre étude menée par les mêmes chercheurs, portant sur 1,3 million d'articles provenant de 27 pays, a montré des schémas macroscopiques clairs dans le choix des sujets à couvrir[8]. Cette étude suggère que des pays font des choix similaires lorsqu'ils sont liés par des liens économiques, géographiques et culturels. (Les liens culturels ont été suggérés par la similitude des votes pour le concours de l'Eurovision.) Cette étude a été réalisée à grande échelle, en utilisant des techniques de traduction automatique, de catégorisation de texte et d'extraction d'informations.

En 2013, une étude s'intéresse au potentiel de détection de changement « d'humeur » ou de « mentalité » d'une population, via le réseau social en ligne Twitter (T. Lansdall-Welfare et al[9].). L'étude prend en compte 84 millions de tweets générés par plus de 9,8 millions d'utilisateurs au Royaume-Uni, sur une période de 31 mois, montrant comment le sentiment du public a changé avec l'annonce de réductions de dépenses et investissements publics.

Toujours en 2013, dans une étude réalisée par S. Sudhahar et al., l'analyse syntaxique automatique de corpus textuels a permis d'extraire des méta-informations concernant des sujets et leurs réseaux relationnels à une vaste échelle, transformant des données textuelles en données de réseau[10]. Ces réseaux, pouvant contenir des milliers de nœuds, sont ensuite analysés à l'aide d'outils issus de la théorie des réseaux afin d'identifier les acteurs clés, des communautés, et des propriétés générales telles que la robustesse ou la stabilité structurelle du réseau global, ou la « centralité » de certains nœuds (ou sujets).

Les chercheurs en culturomique exploitent usuellement des mégadonnées de bases de données internationales pour étudier les phénomènes culturels qui se reflètent par exemple dans le langage, l'usage des mots, la sémiotique et la sémiologie.

Les élections américaines de 2012, sous le prisme de la culturomique sémiologique (ici: tri par termes utilisés sur un média social en ligne), par Sudhahar et al., 2015[11]

Les chercheurs Michel et Aiden participèrent à la création du projet Google Labs Google Ngram Viewer, qui utilise les n-grammes pour analyser la bibliothèque numérique de Google Books afin de déceler des modèles culturels dans l'utilisation des langues au fil du temps.

Étant donné que l'ensemble de données Google Ngram n'est pas un échantillon impartial[12] et qu'il ne comprend pas de métadonnées, il existe plusieurs pièges à éviter lorsqu'on l'utilise pour étudier l'usage d'une langue ou la popularité de termes[13]. La littérature médicale représente une part importante, mais changeante, du corpus, ce qui ne tient pas compte de la fréquence d'impression ou de lecture de la littérature.

Dans une étude intitulée Culturomics 2.0, Kalev H. Leetaru examine des archives d'actualités, y compris la presse écrite et les médias audiovisuels (transcriptions de programmes de télévision et de radio), à la recherche de mots qui donnent un ton ou une « humeur », ainsi que de données géographiques[14]. Ces recherches ont permis de prédire rétroactivement le printemps arabe de 2011 et d'estimer avec succès l'emplacement final d'Oussama Ben Laden, à 200 km près.

En 2014, Suchanek et al. suggèrent que la culturomique peut à présent croiser les bases de données médiatiques (presse écrite) et savantes[15] et ainsi ouvrir de nouveaux champs historiques et culturels de compréhension.

En 2015, la chercheuse Sanna Alas publie un article explicatif sur le potentiel analytique du programme Ngrams de Google[16].

Bases de données

[modifier | modifier le code]

Exemples d'application

[modifier | modifier le code]

Un partenariat entre la Bibliothèque nationale de France et Google a été signé au début des années 2010 pour accélérer la numérisation de centaines de milliers de livres[17].

Isaac Asimov imagina la psychohistoire dans les années 1940, discipline imaginaire qui étudie les mouvements sociaux historiques à l'aune de la psychologie de groupe[18]. Certaines études culturomiques mettent en avant ce lien entre psychologie de masse et reconstitutions historiques ou études prévisionnelles.

Limitations

[modifier | modifier le code]

Cette technique d'analyse étant basée quasi-exclusivement sur des bases de données numériques (récentes et largement incomplètes), elle tend à exclure tout ce qui n'y est pas présent ou présenté expressément. Par exemple, des mots-clés ou des langues entières peuvent y être sous-représentés ou sur-représentés et ainsi fausser les conclusions d'une étude basée sur ces méta-données[19]. Ainsi, on peut avancer que ce champ de recherche doit être d'abord étudié lui-même et bien défini, avant d'être utilisé comme un outil impartial de recherche.

Des limitations sérieuses ont également été émises envers le programme Ngrams de Google[20].

Notes et références

[modifier | modifier le code]
  1. Big Data La Révolution des données est en marche, Kenneth Cukier, Éd. Robert Lafont, 2013 p. 104
  2. (fr) https://hal.archives-ouvertes.fr/hal-03152747/document
  3. (fr) https://www.clionautes.org/etudes-culturmetriques.html
  4. (en) Michel, Jean-Baptiste; Liberman Aiden, Erez (2010). Quantitative Analysis of Culture Using Millions of Digitized Books. Science. 331 (6014): 176–82. doi:10.1126/science.1199644
  5. Petersen AM, Tenenbaum J, Havlin S, Stanley HE. Statistical laws governing fluctuations in word use from word birth to word death. Sci Rep. 2012;2:313. doi:10.1038/srep00313
  6. https://www.wsj.com/articles/SB10001424052702304459804577285610212146258
  7. (en) Flaounas, Ilias; Ali, Omar; Lansdall-Welfare, Thomas; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2013). Research Methods in the Age of Digital Journalism. Digital Journalism. 1: 102–116. doi:10.1080/21670811.2012.714928
  8. (en) Flaounas, Ilias; Turchi, Marco; Ali, Omar; Fyson, Nick; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2010). The Structure of the EU Mediasphere. PLOS ONE. 5 (12): e14243.
  9. (en) https://dl.acm.org/doi/10.1145/2187980.2188264
  10. (en) Sudhahar, Saatviga; De Fazio, Gianluca; Franzosi, Roberto; Cristianini, Nello (2015). Network analysis of narrative content in large corpora. Natural Language Engineering. 21: 81–112. doi:10.1017/S1351324913000247
  11. (en) Sudhahar, Saatviga; Veltri, Giuseppe A.; Cristianini, Nello (2015). Automated analysis of the US presidential elections using Big Data and network analysis. Big Data & Society. 2. doi:10.1177/2053951715572916.
  12. (en) Eitan Adam Pechenick, Christopher M. Danforth et Peter Sheridan Dodds, « Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution », PLoS ONE, vol. 10, no 10,‎ (ISSN 1932-6203, PMID 26445406, PMCID 4596490, DOI 10.1371/journal.pone.0137041, lire en ligne, consulté le ).
  13. (en-US) « The Pitfalls of Using Google Ngram to Study Language », Wired,‎ (ISSN 1059-1028, lire en ligne, consulté le ).
  14. (en) Kalev H. Leetaru, « Culturomics 2.0: Forecasting Large-Scale Human Behavior Using Global News Media Tone In Time And Space », First Monday, vol. 16, no 9,‎ (DOI 10.5210/fm.v16i9.3663, lire en ligne).
  15. (en) Fabian M. Suchanek et Nicoleta Preda, « Semantic culturomics », Proceedings of the VLDB Endowment, vol. 7, no 12,‎ , p. 1215–1218 (ISSN 2150-8097, DOI 10.14778/2732977.2732994, lire en ligne, consulté le ).
  16. Sanna Alas, « Quantifier la littérature, qualifier la quantification : la culturomique et le N gramme de Google », Statistique et société, vol. 3, no 3,‎ (lire en ligne).
  17. https://www.franceculture.fr/emissions/lessai-et-la-revue-du-jour-14-15/le-numerique-et-la-culture-revue-reseaux
  18. (en) https://www.nextbigfuture.com/2011/09/culturomics-20-forecasting-large-scale.html
  19. (fr) https://images.math.cnrs.fr/+Des-intuitions-trompeuses-en+.html
  20. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4596490/

Sur les autres projets Wikimedia :

Bibliographie

[modifier | modifier le code]
  • (fr) Jean-Paul Delahaye, Nicolas Gauvrit: Culturomics. Le numérique et la culture (2013)

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]