next up previous contents
suivant: Covariance conditionnelle monter: Covariance, régression et corrélation précédent: Covariance   Table des matières

Droite de régression et corrélation

On nomme coefficient de corrélation et l'on note $r(X,Y)$ la quantité $r(X,Y)=\frac{Cov(X,Y)}{\sqrt{V(X)V(Y)}}$. Soient $X$ et $Y$ deux variables aléatoires réelles discrètes.
La droite D d'équation $y=ax+b$ $a=\frac{Cov(X,Y)}{V(X)}$ et $b=E(Y)-aE(X)$, est appelée la droite de régression linéaire de $Y$ par rapport à $X$ ; cette droite D minimise la somme des carrés des écarts en ordonnée entre les représentations graphiques des valeurs et leurs projections sur D selon (0y), pondérés de leur probabilités. Démonstration Il nous faut minimiser en fonction de $a$ et $b$,

\begin{eqnarray*}
&&\sum_{i,j}(y_j-ax_i-b)^2P(X=x_i\bigcap Y=y_j)\\
&=&[a^2V(...
...-\frac{Cov(X,Y)}{V(X)}]^2+[(E(Y)-aE(X)-b)^2]+V(Y)(1-(r(X,Y))^2)
\end{eqnarray*}



Cette quantité est minimale lorsque $b$ est tel que $E(Y)-aE(X)-b=0$ (i.e. le point moyen appartient à cette droite) et lorsque $a$ est tel que $a-\frac{Cov(X,Y)}{V(X)}=0$. Dans ce cas, le minimum est $V(Y)(1-(r(X,Y))^2)$. Conséquence Les points sont alignés si et seulement si $\vert r(X,Y)\vert=1$. La droite D' d'équation $x=a'y+b'$ $a'=\frac{Cov(X,Y)}{V(Y)}$ et $b'=E(X)-a'E(Y)$, est appelée la droite de régression linéaire de $X$ par rapport à $Y$ ; cette droite D' minimise la somme des carrés des écarts en abscisse entre les représentations graphiques des valeurs et leurs projections sur D' selon (0x), pondérés de leur probabilités. Conséquences
  1. Le point de coordonnées $(E(X),E(Y))$ est commun aux deux droites D et D'.
  2. Les deux droites sont confondues si et seulement si $\vert r(X,Y)\vert=1$.
Lorsque le coefficient de corrélation est proche de 1 en valeur absolue, on parle de bon ajustement et, dans ce cas, les droites D et D' sont presque confondues. Inversement, lorsque ce coefficient est proche de 0, on parle de mauvais ajustement, et dans ce cas, les variables $X$ et $Y$ sont presque non covariées (i.e. elles n'ont rien à voir entre-elles). Ainsi, ce coefficient rend compte de la validité de la régression linéaire. Propriété Si $V(X) \neq 0$ et si $V(Y) \neq 0$, alors $-1 \leq r(X,Y) \leq 1$. En effet,

\begin{eqnarray*}
0 \leq V(\frac{X}{\sigma(X)}+ \frac{Y}{\sigma(Y)})&=&
\frac{...
...)^2}+2\frac{Cov(X,Y)}
{\sigma(X) \sigma(Y)}\\
&=&2[1+r(X,Y)]
\end{eqnarray*}



et donc $-1\leq r(X,Y)$. Puis,

\begin{eqnarray*}
0 \leq V(\frac{X}{\sigma(X)}- \frac{Y}{\sigma(Y)})&=&
\frac{...
...)^2}-2\frac{Cov(X,Y)}
{\sigma(X) \sigma(Y)}\\
&=&2[1-r(X,Y)]
\end{eqnarray*}



et donc $1\geq r(X,Y)$.
next up previous contents
suivant: Covariance conditionnelle monter: Covariance, régression et corrélation précédent: Covariance   Table des matières
Vekemans 2002-06-24