Introduction Chi2 et Test d'Indépendance

Illustration pédagogique PrivateTeacher de la distribution du Chi2.

Introduction au test d'Indépendance et à la statistique du Chi-Carré

Apprends comment calculer le Chi2 à partir d'un tableau de contingence et à interpréter le résultats d'un test d'indépendance.

Présentation

Le Chi2 est une statistique de test conçue pour mesurer l'écart entre des effectifs observés et des effectifs théoriques. Il s'applique à des variables catégorielles organisées dans une table de contingence. Les modalités de la première variable se trouve sur une ligne alors que les modalité se trouve sur la seconde. Chaque cellule se trouve donc au croisement de deux modalité, pour cette raison, on appel aussi ces tables des tableau croisé. Le Chi2 quantifie à quel point les valeurs observée s'éloignent des valeurs que l'on observerai si les deux variables étaient indépendante. Plus cet écart est grand, plus la valeur du Chi2 est élevée.

Pourquoi utiliser le Chi2 et le Test d'Indépendance

Le test d'indépendance répond à la question suivante: deux variables catégorielles sont-elles liées ? Autrement dit: l'observation de la première variable me permet-elle de déduire la valeur de la deuxième ? Il s'agit là d'une question fréquente dans le domaine des sciences sociales, de la biologie et de la gestion: le genre influence-t-il le choix d'une filière ? Un traitement modifie-t-il le taux de réponse ? Le Chi2 fournit une mesure objective de cet écart et permet donc si l'association entre deux variables catégorielles est statistiquement significative.

A qui s'adresse ce document

Ce document s'adresse aux étudiants de Bachelor 1 qui rencontre le test du Chi2 pour la première fois, quelle que soit sa filière. Le test d'indépendance est utilisé dans de nombreux cursus : sciences sociales, psychologie, gestion, économie, biologie. . C'est souvent le premier test d'hypothèse qu'un étudiant applique à des données de type catégoriel.

Ce que contient ce document

Dans ce document, tu apprendras comment calculer les effectifs théoriques à partir d'une table de contingence. Ce document présente la formule du Chi2 à l'aide d'un exemple complet et démontre tous le détail des calculs étape par étape. Il explique comment déterminer les degrés de liberté et comment lire la table des quantiles du Chi2. Ce document introduit enfin le V de Cramer comme mesure de la taille d'effet.

Prérequis nécessaire

Le niveau requis pour lire ce document est celui du gymnase ou équivalent. Aucune connaissance préalable en statistiques n'est nécessaire. Ce document nécessite donc des connaissances d'algèbre élémentaire telle que savoir effectuer des opérations sur des fraction ou lire une table numérique. Les notions d'hypothèse statistique, d'effectif observé et d'effectif théorique sont définies dans le document avant d'être utilisées. Aucun logiciel n'est requis pour suivre le raisonnement : tous les calculs sont conduits à la main.

Questions courantes FAQ

Qu'est-ce qu'un tableau de contingence ?

Un tableau de contingence est une manière d'organiser les observation simultanée de deux variables catégorielles. Chaque ligne correspond aux modalités de la première variable, chaque colonne aux modalité de la seconde. Chaque cellule du tableau se trouve au croisement de deux modalité. Elle contient donc effectif observés pour la combinaison de ces deux modalité. Le tableau de contingence est le point de départ pour le calcul du Chi2.

Comment calculer les effectifs théoriques ?

L'effectif théorique est l'effectif que l'on observerait si les deux variables étaient totallement indépendantes. Il se calcule en multipliant le total marginal de la ligne par le total marginal de la colonne correspondante, puis en divisant par l'effectif total de l'échantillon. Ces valeurs théoriques servent de référence : le Chi2 mesure l'écart entre ces valeurs et les effectifs réellement observés.

Que mesure exactement le Chi2 ?

Le Chi2 mesure l'écart totale entre les effectifs observés et les effectifs théoriques dans le tableau. Pour chaque cellule, il calcule (observé − théorique)² puis le divise par la valeur théorique. La somme de ces termes sur toutes les cellules donne le Chi2 total. Une valeur proche de zéro indique que les données s'écartent peu de l'indépendance. Une valeur élevée signale un écart important.

Qu'est-ce que l'hypothèse nulle dans un test d'indépendance ?

Dans un test d'indépendance par le Chi2, l'hypothèse nulle H₀ est l'hypothèse selon laquelle les deux variables catégorielles sont indépendantes: la distribution d'une variable ne dépend pas des modalités de l'autre. Dit autrement, sous l'hypothèse nulle, connaitre la valeur d'une variable ne nous permet pas de déduire la valeur de la second. L'hypothèse alternative H₁ postule au contraire qu'une association existe. Comme tout test d'hypothèse cependant, le test ne prouve pas H₀ : il évalue si les données fournissent une preuve suffisante pour la rejeter.

Comment utilise-t-on la table du Chi2 pour prendre une décision ?

La table du Chi2 donne la valeur critique pour un seuil α et un nombre de degrés de liberté. Les degrés de liberté valent (lignes − 1) × (colonnes − 1). Si le Chi2 calculé dépasse cette valeur critique, cela signifie que l'écart observé est significatif.

Qu'est-ce que le V de Cramer et pourquoi en a-t-on besoin ?

Le V de Cramer est un Chi2 normalisé. Le Chi2 en effet est sensible à la taille de l'échantillon : il croît mécaniquement avec n. Le V de Cramer normalise cette valeur pour obtenir un indice compris entre 0 et 1. On l'interprète de la manière suivante: 0 signifie absence d'association, 1 signifie association parfaite. C'est la mesure de taille d'effet associée au test du Chi2.

Introduction Loi Normale et Table des Quantiles Cours PDF

Illustration pédagogique PrivateTeacher représentant la symétrie de la distribution normale

Introduction à la Loi Normale et à la Table des Quantiles

Comprendre comment lire la table des quantile pour calculer les probabilités suivant une loi normale.

Présentation

La loi normale, dite aussi distribution de Laplace-Gauss, est un modèle mathématique qui décrit la répartition de valeurs aléatoire autour d'une valeur centrale. On la rencontre dans de nombreuses situations en biologie, physiologie, psychologie ou encore en économie. La loi normale apparaît lorsque le phénomène observé résulte de la somme de nombreuses contributions indépendantes. Cette additivité se traduit par une propriété mathématique intéressante: la somme de deux distributions normales est toujours une distribution normale.

Pourquoi utiliser la Loi Normale

La loi normale permet de répondre à la question suivante: quelle est la probabilité de faire une certaine observation? On peut se demander par exemple, quelle est la probabilité de rencontrer une personne de moins de 35 ans en suisse. Quelle est la probabilité de rencontrer une personne de plus de 80 kg au Japon etc. Calculer cette probabilité revient à calculer l'aire sous la courbe de la distribution. La table des quantiles permet de faire cela justement. Elle contient toute les probabilités précalculées de la distribution normale standard. On peut rapporter toutes les distribution normale à la distribution centrée réduite par transformation de la variable x à la variable z.

A qui s'adresse ce document

Ce document s'adresse à tous les étudiants de Bachelor 1 qui rencontre la loi normale pour la première fois, quelle que soit sa filière. La loi normale est un outil général : elle apparaît dans les cursus de psychologie, de gestion, d'économie, de biologie et de sciences sociales. L'intuition qu'elle développe est une compétence fondamentale pour tout raisonnement quantitatif à l'université. Ce document constitue donc un point de départ pour toute personne souhaitant développer une intuition sur ce sujet.

Ce que contient ce document

Le document présente les propriétés fondamentales de la loi normale et le rôle que joue ses deux paramètres, μ et σ. Il explique comment ramener toutes distribution normale à la distribution standard N(0,1) (comment centrer-réduire). Dans ce document, la démarche qui consiste à lire la table des quantiles est expliquée pas à pas. Des exemples numériques résolus dans les détails accompagnent l'explication afin de permettre à l'étudiant.e de se familiariser avec l'utilisation de la table des quantiles.

Prérequis nécessaire pour comprendre ce document

Le niveau requis pour lire ce document est celui du gymnase ou équivalent. Aucune connaissance préalable en statistiques n'est nécessaire. Il suffit de savoir manipuler des fractions, comprendre la notion de moyenne arithmétique et lire un tableau numérique. La notion de variable aléatoire est introduite dans le document avant d'être utilisée. Aucun logiciel n'est requis : tous les calculs sont conduits à la main, avec la table des quantiles comme seul outil.

Questions courantes FAQ

Qu'est-ce qu'une distribution de probabilité ?

Une distribution de probabilité est un modèle mathématique qui décrit l'ensemble des valeurs que peut prendre une variable aléatoire et la probabilité qui leur est associée. La loi normale est une distribution continue : elle attribue une probabilité à tout intervalle de valeurs, non à une valeur isolée. La probabilité totale sous la courbe est toujours égale à 1.

Que sont les paramètres μ et σ de la loi normale ?

Le paramètre μ (mu) donne la position de la distribution. elle indique où se situe le centre de la courbe. Il s'agit de la moyenne. Le paramètre σ (sigma) est l'écart-type : il mesure la dispersion des valeurs autour de la moyenne. Un σ petit produit une courbe étroite alors qu' un grand σ produit une courbe large. Ces deux paramètres suffisent à définir une distribution normale complètement.

Qu'est-ce que centrer-réduire et pourquoi en a-t-on besoin ?

Le processus de centrer-réduire transforme une variable X de distribution N(μ, σ²) en une variable Z de distribution N(0,1), par la formule Z = (X − μ) / σ. Cette transformation est nécessaire pour pouvoir utiliser la table des quantile unique. Sans cette transformation, (centrer puis réduire) il faudrait une table des quantiles pour chaque variable X possible, ce qui est infaisable en pratique.

Comment lire la table des quantiles ?

La table des quantiles donne la probabilité P(Z ≤ z) sous la distribution normale standard. On repère la partie entière et le premier chiffre décimal de z dans la colonne de gauche, puis le deuxième chiffre décimal en ligne d'en-tête. La cellule à l'intersection donne la probabilité cherchée. Les valeur de z se lisent donc sur les ligne puis les colonne, la table elle contient des probabilités. Pour des probabilités à droite d'une valeur de z ou pour des valeur négative de z, on utilise les propriété de symétrie de la courbe.

La loi normale s'applique-t-elle à toutes les variables ?

Non. La loi normale n'est pas un modèle universel. Elle suppose que la distribution des données est symétrique et que les valeurs extrêmes sont rares. Des variables comme le revenu ou le temps de réaction sont souvent asymétriques et ne suivent donc pas une distribution normale. Il existe d'autres distributions. Avant d'appliquer la loi normale, il faut donc vérifier que la distribution observée est compatible avec ses hypothèses.

Quelle est la différence entre probabilité et fréquence ?

La fréquence représente le rapport entre un nombre d'événement particulier et le nombre d'événement total: elle décrit ce qui a été observé dans un échantillon. La probabilité quant à elle est une prédiction théorique: elle décrit ce que le modèle prédit pour une population. Utiliser la loi normale pour calculer une probabilité, c'est faire usage du modèle. Utiliser une fréquence c'est faire usage des observations. Cette distinction entre statistique descriptive et inférentielle est fondamentale.

Regression Linéaire Simple Cours PDF Psychologie Lausanne BA2

Graphique pédagogique PrivateTeacher illustrant une régression linéaire simple

Comment lire et interpréter une régression linéaire en psychologie

Maîtrisez l'équation, les coefficients et les diagnostics pour analyser vos données de recherche en psychologie.

Présentation de la régression linéaire en psychologie

La régression linéaire est une méthode statistique qui modélise la relation entre une variable dépendante et une ou plusieurs variables indépendantes. En psychologie, elle permet de représenter des observations complexes sous la forme d'une équation simple. Cette équation est un modèle mathématique — une simplification de la réalité qui rend les données compréhensibles et exploitables. Plutôt que d'analyser chaque observation individuellement, la régression condense l'information en deux paramètres : la pente, qui exprime l'effet de X sur Y, et l'ordonnée à l'origine, qui donne la valeur de Y lorsque X vaut zéro. Cette approche s'inscrit dans le paradigme associatif de la psychologie quantitative : elle ne démontre pas de causalité, mais quantifie des associations entre variables mesurées sur des individus réels. La régression linéaire est aujourd'hui l'un des outils les plus utilisés en recherche psychologique empirique.

Pourquoi utiliser la régression linéaire en psychologie

La régression linéaire répond à des questions du type : dans quelle mesure le nombre de séances de thérapie prédit-il le score de qualité de vie ? Quel score à un examen peut-on attendre d'un étudiant qui consacre vingt heures par semaine à l'étude ? Elle permet d'estimer la valeur d'une variable critère à partir d'une ou plusieurs variables indépendantes, continues ou ordinales, et d'évaluer la significativité statistique de cette relation. En régression multiple, elle permet le contrôle statistique : comparer des groupes à niveau égal d'une troisième variable, ce qui est impossible avec une simple comparaison de moyennes. Elle est préférée aux tests de comparaison dans les designs observationnels où plusieurs variables agissent simultanément sur le critère mesuré. Elle produit des coefficients interprétables, une mesure d'ajustement (R²) et des diagnostics visuels.

A qui s'adresse ce document

Ce document s'adresse aux étudiants en Bachelor de psychologie, en particulier à ceux qui suivent le cours STAT-II en deuxième année à l'Université de Lausanne (UNIL). La psychologie est une science empirique : les construits qu'elle étudie — bien-être, stress, efficacité thérapeutique — sont mesurés par des échelles et des questionnaires, puis analysés par des méthodes statistiques. La régression linéaire occupe une place centrale dans ce dispositif car elle permet de tester des hypothèses sur des relations entre variables psychologiques, de contrôler des variables confondantes et de produire des prédictions chiffrées. L'examen final du cours STAT-II requiert de savoir lire une sortie logicielle R, interpréter des coefficients et formuler une réponse argumentée. Ce document prépare directement à cet exercice, en articulant la méthode générale et plusieurs cas particuliers progressifs.

Ce que contient ce document

Ce document est un cours-résumé structuré en sections progressives. Il commence par une introduction aux modèles mathématiques et à la notion de résidu. Il présente ensuite la régression linéaire simple avec une variable explicative continue, illustrée par un exemple en psychologie de l'éducation. La section suivante traite de la variable indépendante ordinale et de l'hypothèse d'équidistance. Une section est consacrée à la régression multiple avec une variable continue et une variable dummy, qui introduit le contrôle statistique et les droites parallèles. Chaque section suit une méthode en quatre étapes : identification des variables, test de significativité, interprétation des coefficients et prédiction. Les diagnostics — statistique F, R², normalité des résidus, QQ-plot et courbe LOWESS — sont commentés systématiquement. Tous les exemples utilisent R et des données simulées en contexte clinique ou éducatif.

Degré de formation nécessaire pour comprendre la régression linéaire en psychologie

Ce document suppose une familiarité de base avec R et avec les concepts statistiques élémentaires : moyenne, variance, test d'hypothèse et valeur p. Une connaissance préalable du test t ou de l'ANOVA est un atout mais n'est pas indispensable. Aucune compétence en calcul différentiel ni en algèbre linéaire n'est requise : la régression est présentée de manière graphique et conceptuelle, sans dérivation formelle. Le niveau cible correspond au deuxième semestre de Bachelor en psychologie. Les notions de variable dépendante, variable indépendante et échelle de mesure sont supposées connues. Le lecteur doit être capable de lire un script R simple et de comprendre la sortie de la fonction summary(lm(...)). Ce document n'est pas adapté à des étudiants sans aucune exposition préalable aux statistiques ; il constitue un support de révision efficace avant un examen à développement.

Questions courantes FAQ

À quoi sert l'ordonnée à l'origine dans la régression ?

L'ordonnée à l'origine représente la valeur prédite de Y lorsque toutes les variables indépendantes valent zéro. En pratique, cette valeur est souvent hors du domaine observé et n'a pas d'interprétation directe. Son rôle principal est de positionner la droite dans le plan : c'est un paramètre d'ajustement indispensable à la définition du modèle, même lorsqu'il ne peut pas être interprété de manière substantielle.

Quelle est la différence entre R² et R² ajusté ?

Le R² mesure la proportion de variance de Y expliquée par le modèle. Le R² ajusté pénalise chaque variable indépendante ajoutée : il diminue si une variable n'apporte pas d'information réelle. En régression multiple, le R² ajusté est préférable car il évite de surestimer la qualité du modèle simplement en augmentant le nombre de variables indépendantes dans l'équation.

Comment vérifier que les résidus sont distribués normalement ?

Le QQ-plot compare la distribution des résidus standardisés à une distribution normale théorique : si les points s'alignent sur la droite, la normalité est confirmée. Le test de Shapiro-Wilk fournit une p-valeur formelle. En complément, la médiane des résidus doit être proche de zéro et la distribution doit être approximativement symétrique entre la queue gauche et la queue droite.

Que signifie contrôle statistique dans une régression multiple ?

Le contrôle statistique signifie que l'effet estimé d'une variable indépendante est calculé à valeur constante de toutes les autres. En incluant le genre et le nombre de séances dans le modèle, le coefficient du nombre de séances mesure son effet indépendamment du genre. Cela permet de comparer des individus qui diffèrent sur une variable tout en maintenant les autres constantes — impossible avec une simple corrélation bivariée.

Qu'est-ce qu'une variable dummy et comment l'interpréter dans R ?

Une variable dummy code une appartenance catégorielle en 0 ou 1. Dans une régression multiple, son coefficient représente la différence moyenne entre les deux groupes à valeur constante des autres variables. Graphiquement, elle produit deux droites parallèles de même pente mais d'ordonnées à l'origine décalées. Ce décalage quantifie l'effet du groupe toutes choses égales par ailleurs, et se lit directement dans la sortie de summary(lm(...)) sous R.

Analyse de Variance ANOVA Cours PDF Psychologie Lausanne BA2

Graphique pédagogique PrivateTeacher illustrant l'analyse de variance ANOVA

Comment interpréter ANOVA en psychologie : Un cours pratique sur R

Maîtriser la statistique F de Fisher et apprendre à lire les résultats d'une sortie logicielle méthodiquement.

Présentation, Comment interpréter ANOVA en psychologie

L'ANOVA (Analyse de Variance) est une méthode statistique qui permet au statisticiens.nnes de comparer simultanément plusieurs groupes entre eux. L'analyse repose sur l'additivité des variances : La variance totale observée sur l'ensembles des participants se décompose en plusieurs type de variance comme nous le verrons: la variance inter-groupes et variance intra-groupe notemment. Cette propriété est centrale car elle permet de distinguer ce qui est intéressant dans notre échantillon de ce qui ne l'est pas. On appel cela le rapport signal sur bruit. Il est donnée par la statistique commune à toutes les analyse de variance: la statistique F de Fisher.

Pourquoi utiliser ANOVA en psychologie

L'ANOVA permet de distinguer les différentes contributions de chaque groupe à la variance totale. En psychologie empirique, cette distinction est particulièrement utile car elle permet de savoir si un traitement à un effet réel ou si les effets observé sont juste un artefact de mesure. Si l'on souhaite comparer trois thérapies sur l'anxiété par exemple, cela exige de séparer la variance due au traitement de la variance due à la diversité individuelle des participants.es. L'ANOVA fournit un outils pour distinguer les différente contributions en une seule fois et de réduire ainsi le risque d'erreur de type I.

A qui s'adresse ce document

Ce document s'adresse aux étudiants de la Faculté des Sciences Sociales et Politiques (SSP) de l'UNIL, en 2e année de Bachelor en Psychologie. L'ANOVA y est enseignée car la recherche en psychologie empirique repose fréquemment sur des plans à plusieurs conditions. Comparer des groupes sur une variable quantitative — scores de dépression, niveaux d'anxiété, temps de réaction — est une situation récurrente qui exige une maîtrise de cette méthode.

Ce que contient ce document

Ce document couvre trois formes d'ANOVA illustrées par des exemples cliniques et expérimentaux : l'ANOVA à groupes indépendants (trois types de soutien psychologique sur l'anxiété), l'ANOVA à mesures répétées (un même patient mesuré à plusieurs moments), et l'ANOVA à deux facteurs avec interaction (traitement croisé avec le genre). Chaque section présente une question de recherche, une méthode de résolution, le code R correspondant et l'interprétation complète des résultats. Le document se conclut sur les points de repère essentiels pour lire et valider une ANOVA.

Degré de formation nécessaire pour comprendre pour lire ce document

Ce document est conçu pour des étudiants en 2e année de Bachelor en psychologie. Aucune dérivation mathématique n'est requise. Les prérequis sont : une familiarité avec les notions de moyenne, variance et p-valeur, ainsi qu'une expérience élémentaire de R (lancer un script, lire un output). La connaissance préalable du test t de Student facilite la compréhension, car l'ANOVA en est une généralisation directe à plus de deux groupes.

Questions courantes FAQ

Quelle est la différence entre le test t et l'ANOVA ?

Le test t de Student compare les moyennes de deux groupes. L'ANOVA généralise cette logique à trois groupes ou plus en effectuant une seule comparaison globale. Multiplier des tests t sur plusieurs groupes augmenterait artificiellement le risque d'erreur de type I. L'ANOVA maintient ce risque à son niveau nominal en utilisant la statistique F, rapport entre la variance inter-groupes et la variance intra-groupe.

Que mesure la statistique F de Fisher ?

La statistique F est le rapport entre la variance inter-groupes et la variance intra-groupe. Lorsque F est proche de 0, les groupes se superposent ce qui signifie qu' il n'y a pas d'effet détectable. Lorsque F est nettement supérieur à 1, les groupes sont espacés par rapport à leur variabilité interne, ce qui suggère un effet réel. La p-valeur associée indique si cette valeur de F est significativement différente de 0.

Qu'est-ce qu'une ANOVA à deux facteurs ?

Une ANOVA à deux facteurs examine simultanément l'effet de deux variables catégorielles sur une variable dépendante quantitative. Elle évalue les effets principaux de chaque facteur et leur interaction : l'effet d'un facteur dépend-il du niveau de l'autre ? Par exemple, l'efficacité d'un traitement varie-t-elle selon le genre du participant ? Cette interaction se visualise sur un graphique de profils c'est à dire, des lignes qui se croisent indiquent un effet croisé.

Peut-on utiliser l'ANOVA si les groupes n'ont pas la même taille ?

Oui. L'ANOVA tolère des groupes de taille inégale. Dans R, la fonction aov() gère automatiquement ces situations. Il convient d'être attentif au type de décomposition de la variance utilisé (sommes de carrés de type I ou type III), car les résultats peuvent différer lorsque les effectifs sont déséquilibrés. Pour les plans à deux facteurs en particulier, le type III est généralement recommandé.

Quelle est la différence entre ANOVA à groupes indépendants et ANOVA à mesures répétées ?

Dans l'ANOVA à groupes indépendants, chaque participant appartient à un seul groupe. Dans l'ANOVA à mesures répétées, chaque participant est mesuré dans toutes les conditions. Cette seconde forme est plus puissante car elle élimine la variabilité inter-individuelle du terme d'erreur. On l'utilise dans les études longitudinales ou les plans intra-sujet, où l'on suit l'évolution d'un même individu à plusieurs moments ou sous plusieurs conditions.

L'ANOVA est-elle robuste si les données ne se distribue pas normalement ?

L'ANOVA est relativement robuste aux écarts à la normalité, surtout quand les groupes sont de taille suffisante (n ≥ 30 par groupe environ). Pour des petits échantillons fortement non normaux, des alternatives non paramétriques existent : le test de Kruskal-Wallis pour groupes indépendants, ou le test de Friedman pour mesures répétées. Ces tests reposent sur les rangs plutôt que sur les valeurs brutes.

Test de Student Cours PDF Psychologie Lausanne BA2

Graphique pédagogique PrivateTeacher montrant deux distributions de scores qui se chevauchent

Comment utiliser le test de Student en psychologie

Le guide pratique pour comparer deux groupes à l'aide du test de student et comprendre comment l'utiliser.

Présentation du test de Student en psychologie

Le test de Student, est une méthode statistique qui à été imaginée pour comparer les moyennes de deux groupes à partir de données numériques. En psychologie, il permet de déterminer si une différence observée entre deux groupes est significativement différente d'une différence qui serait due au hasard. Le test repose sure une mesure de l'écart entre les moyennes des deux groupes. On appel cette mesure la statistique de test t. Plus cette statistique est élevée, plus la différence est marquée relativement à la dispersion des données. Dans ce document, tu trouvera également une alternative non paramétrique que l'on utilise lorsque les conditions de normalité ne sont pas satisfaites: Le test de Wilcoxon. Ces deux outils partagent la même logique: quantifier une différence entre deux groupes afin d'évaluer sa significativité statistique.

Pourquoi utiliser le test de Student en psychologie

Le test de Student en psychologie permet de répondre à des questions de recherche portant sur la comparaison entre deux groupes. Par exemple : une thérapie cognitivo-comportementale réduit-elle significativement les scores d'anxiété par rapport à un groupe contrôle ? Les hommes et les femmes diffèrent-ils sur une mesure de bien-être psychologique ? Un traitement pharmacologique produit-il un effet mesurable sur les scores de dépression avant et après intervention ? Ces questions constituent le cœur de la recherche en psychologie clinique et expérimentale. 

A qui s'adresse ce document

Ce document s'adresse aux étudiantes et étudiants de 2e année de Bachelor en Psychologie à l'Université de Lausanne (UNIL). Le test de Student est enseigné en psychologie pour une raison fondamentale : la recherche en sciences du comportement repose largement sur la comparaison entre groupes. Qu'il s'agisse d'évaluer l'efficacité d'une intervention thérapeutique ou de comparer deux populations, la question de la différence entre deux groupe apparait souvent. En tant que discipline empirique, la psychologie demande des outils capables de répondre à cette question de manière quantitative. Le test t et son alternative non paramétrique, le test de Wilcoxon, constituent les outils de base dans ce type de scénario.

Ce que contient ce document

Ce document est organisé en cinq sections principales. La première présente l'approche générale : comment comparer deux groupes, quand utiliser le test t de Student, et quelle logique sous-tend la construction de la statistique de test. Les sections suivantes traitent de cas particuliers fréquents en psychologie : la comparaison de deux groupes indépendants avec variances inégales (test de Welch) et la situation où les données ne suivent pas une distribution normale, nécessitant le recours au test de Wilcoxon. Une section est consacrée aux mesures pairées, design courant en psychologie clinique où le même individu est mesuré avant et après une intervention. Chaque section est illustrée par un exemple concret de la psychologique, avec des données générées sous R, des graphiques explicatifs et une lecture guidée des résultats.

Degré de formation nécessaire pour comprendre le test de Student en psychologie

Pour aborder le contenu de ce document, un niveau de 2e année de Bachelor en Psychologie est requis. Les prérequis indispensables sont les suivants : avoir suivi un premier cours de statistiques (STAT-I ou équivalent), être familiarisé avec les notions de moyenne, variance et écart-type, comprendre la logique du test d'hypothèse — hypothèse nulle H0, p-valeur, seuil de significativité alpha — et avoir une expérience élémentaire du logiciel R. Aucune formation mathématique formelle n'est nécessaire : ce document ne contient aucune dérivation algébrique.

Questions courantes FAQ

Quelle est la différence entre le test t de Student et le test de Wilcoxon ?

Le test t compare les moyennes de deux groupes en supposant une distribution normale des données. Le test de Wilcoxon est une alternative non paramétrique qui compare les rangs plutôt que les moyennes. On utilise le test de Wilcoxon lorsque la normalité n'est pas satisfaite ou que les effectifs sont trop petits pour pouvoir la vérifier de manière fiable.

Comment savoir si je dois utiliser un test unilatéral ou bilatéral ?

Un test bilatéral est utilisé quand vous ne savez pas dans quel sens ira la différence (H1 : mu1 différent de mu2). Un test unilatéral est justifié uniquement si vous avez formulé une hypothèse directionnelle forte avant la collecte des données. En psychologie, le test bilatéral est le choix par défaut et le plus défendable dans un contexte d'examen ou de publication.

Qu'est-ce que la p-valeur m'indique concrètement ?

La p-valeur est la probabilité d'obtenir une statistique de test aussi extrême — ou plus — si l'hypothèse nulle était vraie. Une p-valeur inférieure à 0.05 indique que la différence observée est peu compatible avec l'absence d'effet. Attention : ce n'est pas la probabilité que l'hypothèse nulle soit vraie, ni la probabilité que votre résultat soit dû au hasard.

Quelle différence entre mesures indépendantes et mesures pairées ?

Des mesures indépendantes impliquent deux groupes distincts sans lien entre les individus, comme un groupe traitement et un groupe contrôle. Des mesures pairées impliquent le même individu mesuré deux fois, par exemple avant et après une intervention. Le test t pour mesures pairées est plus puissant car il élimine la variabilité inter-individuelle du calcul de la statistique de test.

Comment interpréter la taille d'effet d de Cohen ?

Le d de Cohen mesure l'ampleur de la différence entre deux groupes en unités d'écart-type poolé. Un d de 0.2 est considéré petit, 0.5 moyen et 0.8 grand. La taille d'effet complète l'information de la p-valeur : une différence peut être statistiquement significative mais pratiquement négligeable si le d est très faible, ce qui arrive fréquemment avec des grands échantillons.

Introduction Regression Lineaire Simple Cours PDF

 Illustration pédagogique PrivateTeacher représentant un nuage de points avec une droite de régression.

Introduction à la Régression Linéaire Simple

Comprendre la relation entre deux variables, construire un modèle de prédiction et l'interpréter correctement.

Présentation de la Régression Linéaire Simple

La régression linéaire simple est une méthode statistique qui modélise la relation entre deux variables : une variable dépendante, notée Y, et une variable indépendante, notée X. Le modèle suppose que cette relation est linéaire et la représente par une droite d'équation Y = a + bX. Le coefficient b mesure de combien Y varie en moyenne quand X augmente d'une unité. Ce modèle est une représentation probabiliste de la réalité, non une description exacte des données.

Pourquoi utiliser la Régression Linéaire Simple

La régression linéaire simple répond à deux questions distinctes. La première : existe-t-il une relation statistique entre X et Y ? La seconde : si cette relation existe, quelle valeur de Y peut-on prédire pour une valeur donnée de X ? Ces questions apparaissent dans des contextes variés — estimer un coût à partir d'une quantité, expliquer un score à partir d'heures de travail. La régression simple est également le point d'entrée vers des modèles plus complexes : régression multiple, régression logistique.

A qui s'adresse ce document

Ce document s'adresse à tout étudiant en Bachelor 1 qui rencontre la régression linéaire pour la première fois, quelle que soit sa filière. La régression linéaire simple est enseignée dans les cursus de gestion, d'économie, de psychologie, de biologie et de sciences sociales. Comprendre comment une variable en explique une autre est une compétence transversale à toutes les disciplines qui mobilisent des données quantitatives, indépendamment du format d'examen de l'institution concernée.

Ce que contient ce document

Le document présente les principes fondamentaux de la régression linéaire simple : la distinction entre variable dépendante et indépendante, l'équation de la droite de régression et la signification de ses coefficients. Un exercice résolu à la main illustre chaque étape du raisonnement, du calcul des coefficients à l'interprétation du résultat. Le document se conclut sur les limites du modèle : pourquoi une droite de régression n'établit pas de causalité, et dans quelles conditions son usage est valide.

Degré de formation nécessaire pour comprendre pour lire ce document

Le niveau requis est celui du gymnase ou équivalent. Une connaissance de base en algèbre est nécessaire : savoir lire une équation de la forme Y = a + bX et comprendre la notion de pente. Aucune connaissance préalable en statistiques n'est supposée. Les notions de moyenne, variance et covariance sont utilisées dans le document et définies avant d'être mobilisées. Aucun logiciel n'est requis : l'exercice proposé est conduit entièrement à la main.

Questions courantes FAQ

Qu'est-ce qu'une variable dépendante et une variable indépendante ?

La variable dépendante (Y) est celle qu'on cherche à expliquer ou prédire. La variable indépendante (X) est celle qu'on utilise pour produire cette explication. Dans un modèle qui prédit le score d'un étudiant à partir de ses heures de travail, le score est Y et les heures sont X. Cette distinction détermine la structure du modèle et ne peut pas être inversée arbitrairement.

Que signifient les coefficients a et b dans l'équation de régression ?

Le coefficient b, appelé pente, indique de combien Y varie en moyenne quand X augmente d'une unité. Le coefficient a, appelé ordonnée à l'origine, indique la valeur prédite de Y quand X est égal à zéro. Ces deux coefficients définissent entièrement la droite de régression. Leur interprétation doit toujours être formulée dans les unités des variables concernées, pas en termes abstraits.

Comment vérifie-t-on que la relation entre deux variables est bien linéaire ?

On vérifie la linéarité en traçant un nuage de points, avec X en abscisse et Y en ordonnée. Si les points se distribuent autour d'une droite, la relation est compatible avec un modèle linéaire. Si la distribution forme une courbe, un modèle linéaire est inadapté. Cette vérification graphique précède toujours le calcul des coefficients — appliquer une régression sans elle produit un modèle invalide.

Quelle est la différence entre corrélation et régression linéaire ?

La corrélation mesure la force et la direction d'une relation linéaire entre deux variables, via un coefficient entre -1 et 1. La régression va plus loin : elle produit une équation qui permet de prédire Y à partir de X. La corrélation est symétrique — r(X,Y) est identique à r(Y,X). La régression ne l'est pas : le choix de la variable dépendante change l'équation obtenue.

Qu'est-ce que le coefficient de détermination R² ?

Le R² mesure la proportion de la variance de Y expliquée par le modèle. Il varie entre 0 et 1 : un R² de 0.80 signifie que le modèle explique 80 % de la variabilité de Y. Un R² élevé ne garantit pas que le modèle est correct — il faut aussi vérifier que les hypothèses du modèle sont respectées. Un R² seul ne suffit pas à valider une régression.

Quelles sont les conditions d'application de la régression linéaire simple ?

La régression linéaire simple repose sur quatre hypothèses : la relation entre X et Y est linéaire, les résidus sont indépendants, leur variance est constante (homoscédasticité) et ils suivent une loi normale. Si ces hypothèses sont violées, les coefficients restent calculables mais les tests statistiques associés — intervalles de confiance, p-values — ne sont plus valides. La vérification des hypothèses fait partie intégrante de l'analyse.