Introduction au Chi2 et au Test d'Indépendance
Calculer le Chi2 à partir d'un tableau de contingence et décider si deux variables catégorielles sont indépendantes.
Présentation du Chi2 et du Test d'Indépendance
Le Chi2 est une statistique de test conçue pour mesurer l'écart entre des effectifs observés et des effectifs théoriques. Il s'applique à des variables catégorielles organisées dans un tableau de contingence, aussi appelé tableau croisé. Ce tableau recense la distribution simultanée de deux variables qualitatives sur un même échantillon. Le Chi2 quantifie à quel point la distribution observée s'éloigne de la distribution attendue si les deux variables étaient indépendantes. Plus l'écart est grand, plus la valeur du Chi2 est élevée.
Pourquoi utiliser le Chi2 et le Test d'Indépendance
Le test d'indépendance répond à une question précise : deux variables catégorielles sont-elles liées, ou leur co-distribution s'explique-t-elle par le hasard seul ? Cette question est fréquente dans les sciences sociales, la biologie et la gestion : le genre influence-t-il le choix d'une filière ? Un traitement modifie-t-il le taux de réponse ? Le Chi2 fournit une mesure objective de cet écart et, comparé à sa distribution théorique, permet de décider si l'association observée est statistiquement significative.
A qui s'adresse ce document
Ce document s'adresse à tout étudiant en Bachelor 1 qui rencontre le test du Chi2 pour la première fois, quelle que soit sa filière. Le test d'indépendance est utilisé dans de nombreux cursus : sciences sociales, psychologie, gestion, économie, biologie. Il permet de tester des hypothèses sur des variables qualitatives, là où d'autres tests supposent une variable numérique. C'est souvent le premier test d'hypothèse qu'un étudiant applique à des données de type catégoriel.
Ce que contient ce document
Le document explique comment construire un tableau de contingence et calculer les effectifs théoriques. Il présente la formule du Chi2 et détaille le calcul pas à pas. Il introduit le V de Cramer comme mesure de la taille d'effet. Il explique comment déterminer les degrés de liberté et lire la table des quantiles du Chi2 pour prendre une décision statistique. Des exercices corrigés permettent de confronter les résultats obtenus à la main avec ceux du logiciel R.
Degré de formation nécessaire pour comprendre pour lire ce document
Le niveau requis est celui du gymnase ou équivalent. Aucune connaissance préalable en statistiques n'est supposée. Il suffit de savoir effectuer des opérations arithmétiques de base, comprendre ce qu'est une fraction et lire un tableau numérique. Les notions d'hypothèse statistique, d'effectif observé et d'effectif théorique sont définies dans le document avant d'être utilisées. Aucun logiciel n'est requis pour suivre le raisonnement : tous les calculs sont conduits à la main.
Questions courantes FAQ
Qu'est-ce qu'un tableau de contingence ?
Un tableau de contingence recense la distribution simultanée de deux variables catégorielles. Chaque ligne correspond aux modalités de la première variable, chaque colonne à celles de la seconde. Chaque cellule contient l'effectif observé pour la combinaison correspondante. Ce tableau est le point de départ du calcul du Chi2 et de tout test d'indépendance entre variables qualitatives.
Comment calcule-t-on les effectifs théoriques ?
L'effectif théorique d'une cellule est l'effectif que l'on observerait si les deux variables étaient strictement indépendantes. Il se calcule en multipliant le total marginal de la ligne par le total marginal de la colonne correspondante, puis en divisant par l'effectif total de l'échantillon. Ces valeurs théoriques servent de référence : le Chi2 mesure l'écart entre ces valeurs et les effectifs réellement observés.
Que mesure exactement le Chi2 ?
Le Chi2 mesure l'écart global entre les effectifs observés et les effectifs théoriques dans le tableau. Pour chaque cellule, il calcule (observé − théorique)², divisé par la valeur théorique. La somme de ces termes sur toutes les cellules donne le Chi2 total. Une valeur proche de zéro indique que les données s'écartent peu de l'indépendance. Une valeur élevée signale un écart important.
Qu'est-ce que l'hypothèse nulle dans un test d'indépendance ?
Dans un test d'indépendance par le Chi2, l'hypothèse nulle H₀ postule que les deux variables catégorielles sont indépendantes dans la population : la distribution d'une variable ne dépend pas des modalités de l'autre. L'hypothèse alternative H₁ postule qu'une association existe. Le test ne prouve pas H₀ : il évalue si les données fournissent une preuve suffisante pour la rejeter.
Comment utilise-t-on la table du Chi2 pour prendre une décision ?
La table du Chi2 donne la valeur critique pour un seuil α et un nombre de degrés de liberté. Les degrés de liberté valent (lignes − 1) × (colonnes − 1). Si le Chi2 calculé dépasse cette valeur critique, on rejette H₀. Cela signifie que l'écart observé est trop important pour être attribué au seul hasard sous l'hypothèse d'indépendance.
Qu'est-ce que le V de Cramer et pourquoi en a-t-on besoin ?
Le Chi2 est sensible à la taille de l'échantillon : il croît mécaniquement avec n, même si l'association reste faible. Le V de Cramer normalise cette valeur pour obtenir un indice compris entre 0 et 1, indépendant de n. Il quantifie l'intensité de l'association : 0 signifie absence d'association, 1 signifie association parfaite. C'est la mesure de taille d'effet associée au test du Chi2.