Calculer la covariance entre deux séries
Entrez deux séries de nombres pour obtenir la covariance, le coefficient de corrélation de Pearson et le détail des calculs.
Covariance et corrélation
Covariance : mesurer la dépendance entre deux variables
La covariance est une mesure statistique qui quantifie la variation conjointe de deux variables. Elle indique dans quel sens deux séries de données évoluent ensemble : si les grandes valeurs de X correspondent souvent aux grandes valeurs de Y, la covariance est positive. Si au contraire les grandes valeurs de X correspondent aux petites valeurs de Y, la covariance est négative. Une covariance proche de zéro signale une absence de relation linéaire.
Mathématiquement, la covariance se calcule en moyennant les produits des écarts à la moyenne de chaque série : cov(X, Y) = Σ(xi − x)(yi − y) / n. On distingue la covariance population (divisée par n) et la covariance échantillon (divisée par n−1, correction de Bessel).
L'inconvénient de la covariance brute est qu'elle dépend des unités utilisées. Pour comparer la force de la liaison entre deux variables indépendamment de l'échelle, on utilise le coefficient de corrélation de Pearson (r), qui est la covariance normalisée par les écarts-types. Il varie entre −1 (corrélation parfaite négative) et +1 (corrélation parfaite positive).
À quoi sert la covariance ?
La covariance est utilisée dans de nombreux domaines :
- Finance : pour mesurer comment deux actifs boursiers évoluent ensemble. Une covariance négative entre deux actions permet de construire un portefeuille diversifié moins risqué.
- Économie : pour étudier la relation entre le PIB et le chômage, ou entre les revenus et la consommation.
- Sciences sociales : pour analyser la relation entre niveau d'études et salaire, ou entre temps d'écran et notes scolaires.
- Machine learning : la matrice de covariance est la base de l'analyse en composantes principales (ACP) et de nombreux algorithmes.
Questions fréquentes
Quelle différence entre covariance et corrélation ?
La covariance mesure la variation conjointe en unités brutes (par exemple en €×années), ce qui rend sa valeur difficile à interpréter. La corrélation de Pearson est la covariance divisée par le produit des écarts-types : elle est sans unité et toujours comprise entre −1 et +1, ce qui en fait un indicateur standardisé et comparable d'une étude à l'autre.
Une covariance nulle signifie-t-elle que les variables sont indépendantes ?
Pas nécessairement. Une covariance nulle indique l'absence de relation linéaire, mais deux variables peuvent être liées par une relation non linéaire (parabolique, exponentielle…) tout en ayant une covariance proche de zéro. Pour détecter d'autres types de dépendance, il faut visualiser les données ou utiliser d'autres tests.
Pourquoi diviser par n ou par n−1 ?
On divise par n quand les données représentent l'ensemble de la population étudiée. On divise par n−1 (correction de Bessel) quand les données sont un échantillon représentatif d'une population plus large. La division par n−1 corrige le biais d'estimation et donne une estimation plus juste de la covariance réelle.
Comment interpréter le coefficient de corrélation r ?
|r| < 0,3 : corrélation faible. 0,3 ≤ |r| < 0,7 : corrélation modérée. |r| ≥ 0,7 : corrélation forte. Le signe indique le sens : positif = même sens, négatif = sens opposé. Attention : corrélation n'implique pas causalité.