Illustration pédagogique PrivateTeacher représentant un nuage de points avec une droite de régression.

Introduction à la Régression Linéaire Simple

Comprendre la relation entre deux variables, construire un modèle de prédiction et l'interpréter correctement.

Présentation de la Régression Linéaire Simple

La régression linéaire simple est une méthode statistique qui modélise la relation entre deux variables : une variable dépendante, notée Y, et une variable indépendante, notée X. Le modèle suppose que cette relation est linéaire et la représente par une droite d'équation Y = a + bX. Le coefficient b mesure de combien Y varie en moyenne quand X augmente d'une unité. Ce modèle est une représentation probabiliste de la réalité, non une description exacte des données.

Pourquoi utiliser la Régression Linéaire Simple

La régression linéaire simple répond à deux questions distinctes. La première : existe-t-il une relation statistique entre X et Y ? La seconde : si cette relation existe, quelle valeur de Y peut-on prédire pour une valeur donnée de X ? Ces questions apparaissent dans des contextes variés — estimer un coût à partir d'une quantité, expliquer un score à partir d'heures de travail. La régression simple est également le point d'entrée vers des modèles plus complexes : régression multiple, régression logistique.

Questions courantes FAQ

Qu'est-ce qu'une variable dépendante et une variable indépendante ?

La variable dépendante (Y) est celle qu'on cherche à expliquer ou prédire. La variable indépendante (X) est celle qu'on utilise pour produire cette explication. Dans un modèle qui prédit le score d'un étudiant à partir de ses heures de travail, le score est Y et les heures sont X. Cette distinction détermine la structure du modèle et ne peut pas être inversée arbitrairement.

Que signifient les coefficients a et b dans l'équation de régression ?

Le coefficient b, appelé pente, indique de combien Y varie en moyenne quand X augmente d'une unité. Le coefficient a, appelé ordonnée à l'origine, indique la valeur prédite de Y quand X est égal à zéro. Ces deux coefficients définissent entièrement la droite de régression. Leur interprétation doit toujours être formulée dans les unités des variables concernées, pas en termes abstraits.

Comment vérifie-t-on que la relation entre deux variables est bien linéaire ?

On vérifie la linéarité en traçant un nuage de points, avec X en abscisse et Y en ordonnée. Si les points se distribuent autour d'une droite, la relation est compatible avec un modèle linéaire. Si la distribution forme une courbe, un modèle linéaire est inadapté. Cette vérification graphique précède toujours le calcul des coefficients — appliquer une régression sans elle produit un modèle invalide.

Quelle est la différence entre corrélation et régression linéaire ?

La corrélation mesure la force et la direction d'une relation linéaire entre deux variables, via un coefficient entre -1 et 1. La régression va plus loin : elle produit une équation qui permet de prédire Y à partir de X. La corrélation est symétrique — r(X,Y) est identique à r(Y,X). La régression ne l'est pas : le choix de la variable dépendante change l'équation obtenue.

Qu'est-ce que le coefficient de détermination R² ?

Le R² mesure la proportion de la variance de Y expliquée par le modèle. Il varie entre 0 et 1 : un R² de 0.80 signifie que le modèle explique 80 % de la variabilité de Y. Un R² élevé ne garantit pas que le modèle est correct — il faut aussi vérifier que les hypothèses du modèle sont respectées. Un R² seul ne suffit pas à valider une régression.

Quelles sont les conditions d'application de la régression linéaire simple ?

La régression linéaire simple repose sur quatre hypothèses : la relation entre X et Y est linéaire, les résidus sont indépendants, leur variance est constante (homoscédasticité) et ils suivent une loi normale. Si ces hypothèses sont violées, les coefficients restent calculables mais les tests statistiques associés — intervalles de confiance, p-values — ne sont plus valides. La vérification des hypothèses fait partie intégrante de l'analyse.