Statistiques

Le but de l’approche statistique est de trouver des justifications formelles au classement des corpus en genres. L’hypothèse est que les différents genres de français parlé se manifestent à travers des concentrations ou des déficits de certains phénomènes. Obtenir et comparer les taux de ces phénomènes-clés permet de faire un classement objectif des corpus ou de trouver des corrélations intéressantes.

Cependant, il y a beaucoup de difficultés autour des comptages et des statistiques: qu’est-ce qu’on peut compter? Qu’est-ce qui est facile / difficile à mesurer? Qu’est-ce qui est pertinent? Comment procéder? Quelle est la grandeur idéale de l’échantillon? Que faire avec les corpus qui ont plusieurs locuteurs? etc. Dans ce “désert méthodologique”, il est évident que travailler sur un échantillon relativement petit comme ces douze extraits est un avantage.

 

Nous avons regroupé les études statistiques en trois rubriques:

Modes de production de l’oral

Ce sont tous les phénomènes qui définissent la “performance” du locuteur comme orateur, c’est-à-dire tout ce qui est associé à ce qu’on appelle en anglais speech delivery: vitesse d’élocution, ratés de la communication, petits mots vides récurrents, comme “bon” ou “alors” (phatiques), qui relèvent plus des habitudes langagières que de l’information.

  1. le débit
  2. les ratés de la communication
    1. les “euh”
    2. les répétitions
    3. les hésitations (euh + répétitions)
  3. différents styles d’orateurs 1
  4. les tics de langage (présentation générale des phatiques)
    1. les hésitateurs
    2. les articulateurs
    3. les ponctuateurs
    4. les évaluateurs
    5. les connecteurs
    6. les interjections
  5. différents styles d’orateurs 2


Niveaux de langue

On regroupe sous cette rubrique toutes les études qui permettent de situer les corpus par rapport à différents registres, du “soigné précieux” au familier argotique. Certaines études sont évidentes car connues comme marqueurs des niveaux de langue (la négation et la liaison), d’autres moins (les formes sujet).

  1. les “ne” de négation
  2. les liaisons
    annexes: tableau tripartite de Delattre; ma version simplifiée; les liaisons extraordinaires du français des médias
  3. les formes de sujet


Complexité des énoncés

Le calcul de la densité lexicale reprend l’hypothèse de M.A.K. Halliday sur l’existence d’un style littéraire à l’oral (Spoken and Written languages), supposément plus dense que l’oral de conversation. Le calcul de la longueur moyenne des constructions verbales est une tentative de quantifier la complexité grammaticale des corpus, ce qui est problématique car les procédés connus (MLU – mean length of utterance en anglais ou LME – longueur moyenne des énoncés) proviennent de la psycholinguistique et sont des mesures du développement langagier des jeunes enfants.

  1. la densité lexicale
  2. la longueur moyenne des constructions verbales

Spam prevention powered by Akismet