La « Statistique Textuelle » avec R
Ce jour et demi de formation aura pour objectif de reprendre les fondamentaux de de la statistique textuelle (Lebart et Salem, 1994) à travers leur implémentation dans R via le package quanteda (Watanabe et Müller, 2023).
Nous avons fait le choix d'un format mixte :
- 1 journée de Formation et
- 1/2 journée d'Atelier afin que les participants puissent venir tester les méthodes avec leur propre corpus.
Cette formation s’adresse à toute personne confrontée par la manipulation de données textuelles (données d’enquête, archives, chaînes de caractères scrapées, etc.) intéressée par une analyse quantitative exploratoire du contenu. L’avantage d’une implémentation dans R, réside dans la possibilité de reproduire des analyses disponibles dans des logiciels historiques de la statistique textuelle souvent payants (Alceste, module d’analyse lexical de SPAD) ou dans les possibilités de répétabilité, d’automatisation d’opérations existantes dans d’autres logiciels d’analyse textuelle (cas de TXM).
Pour une application en sciences sociales le contenu des textes sera analysé relativement à leur contexte de production (différences lexicales entre sources, auteurs, périodes, par exemple).
Des rappels théoriques et des applications sur des corpus d’exemple seront proposées sur les méthodes suivantes :
- La transformation de textes (chaînes de caractères) en tableau (tableau lexical entier : TLE),
- Donc la modélisation du tableau de données (définition des unités de contexte et des unités lexicales, sélection des termes et autres formes de « nettoyage » des données textuelles),
- L’analyse du lexique et du concordancier,
- L’analyse du vocabulaire spécifique entre des sous-corpus (construction de tableaux lexicaux agrégés – TLA et test du chi2),
- L’analyse des correspondances (AFC) appliquée à un TLA,
- L’analyse des cooccurrences et des segments répétés,
- Selon le temps disponible : méthodes de classification de texte (CAH et/ou CDH de Reinert – méthode historiquement utilisée dans Alceste et Iramutec – via le package rainette – Barnier, 2023).
Historique des formations
- 5 et 6 février 2024 au Havre (initiation), Etienne Toureille, créateur de la formation initiale
Resources
Citation
-
T. Etienne, "Introduction à la statistique textuelle avec r," Cahier Idées, 2024. ↩