Boîte à outils 16 Causalité et corrélation

Dans cette Boîte à outils, nous montrons comment lire et interpréter une corrélation et une causalité, des savoir-faire applicables aux données quantitatives et aux représentations graphiques.

En 2018, la France a connu à la fin du mois de juillet et au début de mois d’août des températures exceptionnellement élevées. Les anomalies de la température indiquent dans quelle mesure il fait plus chaud ou plus froid que la normale pour un lieu et une date donnés. Une anomalie positive signifie que la température observée était plus chaude que la normale, tandis qu’une anomalie négative signifie que la température observée était plus froide que la normale.

Dans cette Boîte à outils, nous utilisons les données de la National Academy of Sciences (l’académie américaine des sciences) sur les anomalies de la température de la surface de l’océan dans l’hémisphère nord entre l’an 1000 et 2010. Par « normale », on entend la moyenne des années 1961-1990 pour le lieu et la période de l’année. Le Graphique 1 est construit à l’aide de ces données.

Boîte à outils 2 :

Calculer, lire et interpréter une moyenne arithmétique simple et pondérée.

Boîte à outils 7 :

Lire et interpréter des représentations graphiques de séries chronologiques.

Anomalies de la température de la surface de l’océan dans l’hémisphère nord (1000–2010).

Graphique 1 Anomalies de la température de la surface de l’océan dans l’hémisphère nord (1000–2010).

Michael E. Mann, Zhihua Zhang, Malcolm K. Hughes, Raymond S. Bradley, Sonya K. Miller, Scott Rutherford, et Fenbiao Ni. 2008. ‘Proxy-based reconstructions of hemispheric and global surface temperature variations over the past two millennia’. Proceedings of the National Academy of Sciences 105 (36): pp. 13252–13257 Notes : une anomalie positive signifie que la température observée était plus chaude que la normale, tandis qu’une anomalie négative signifie que la température observée était plus froide que la normale; par « normale » on entend la moyenne des années 1961-1990 pour le lieu et la période de l’année. © L’équipe CORE. L’économie. (CC BY-NC-ND 4.0)

Exercice 1 Les Anomalies de la température

Le Graphique 1 montre les anomalies de la température de la surface de l’océan dans l’hémisphère nord entre l’an 1000 et 2010.

  1. Que suggère ce graphique sur l’évolution des anomalies au cours du temps ?
  2. D’après votre réponse à la question précédente, pensez-vous que les gens devraient craindre un réchauffement climatique ?

Les anomalies de la température ont d’abord fluctué autour d’une faible intermédiaire entre l’an 1000 et 1450, puis autour d’une valeur faible entre 1450 et 1900. Depuis 1900, les anomalies de la température ont affiché une tendance à la hausse. La récente tendance à la hausse des anomalies de la température illustrée par le Graphique 1 établit un constat clair qui étaye la réalité du réchauffement climatique. Les gens devraient donc craindre un réchauffement climatique.

Comment pouvons-nous déterminer ce qui cause le réchauffement climatique ? Supposons que vous soyez un expert scientifique pour un petit pays insulaire. Son gouvernement a entendu dire qu’une autre variable, les concentrations de dioxyde de carbone (CO2), pourrait être responsable du réchauffement climatique et vous a demandé de vérifier si tel était le cas.

Pour évaluer cette cause potentielle, nous étudions le degré d’association entre les anomalies de la température et les concentrations de CO2 et déterminons s’il existe une relation plausible entre les deux ou s’il existe d’autres explications à ce que nous observons.

corrélation
Une relation statistique dans laquelle la connaissance de la valeur d’une variable informe sur la valeur probable d’une autre variable, par exemple si des valeurs élevées de l’une sont souvent observées en même temps que des valeurs élevées de l’autre variable. Elle peut être positive ou négative (elle est négative quand des valeurs élevées d’une variable sont observées en même temps que des valeurs faibles de l’autre). Voir également : causalité, corrélation fallacieuse, coefficient de corrélation.
corrélation
Une relation statistique dans laquelle la connaissance de la valeur d’une variable informe sur la valeur probable d’une autre variable, par exemple si des valeurs élevées de l’une sont souvent observées en même temps que des valeurs élevées de l’autre variable. Elle peut être positive ou négative (elle est négative quand des valeurs élevées d’une variable sont observées en même temps que des valeurs faibles de l’autre). Par exemple, quand il fait plus chaud, les achats de crème glacée sont plus élevés. La température et les ventes de crème glacée sont positivement corrélées. D’autre part, si les achats de boissons chaudes diminuent quand il fait plus chaud, nous considérons que la température et les ventes de boissons chaudes sont négativement corrélées. Voir également : causalité, coefficient de corrélation.

Une façon de déterminer la relation entre deux variables est la corrélation. Deux variables sont corrélées si le fait de connaître la valeur d’une variable fournit des informations sur la valeur probable de l’autre, par exemple, les valeurs élevées d’une variable sont généralement observées avec les valeurs élevées de l’autre.

Comment lire une corrélation ?

Pour ce faire, nous allons d’abord examiner les concentrations de CO2 et superposer leur série chronologique avec celle des anomalies de température et montrer leur relation dans le temps.

Lire une corrélation à l’aide de séries chronologiques

Le Graphique 2a représente les données sur les concentrations de CO2 dans l’atmosphère (en mg par kg) en utilisant l’échelle de droite et les anomalies de la température en utilisant l’échelle de gauche, pour la période 1000–2010.

Concentrations de CO2 dans l’atmosphère et anomalies de la température de la surface de l’océan dans l’hémisphère nord (1010–2010).

Graphique 2a Concentrations de CO2 dans l’atmosphère et anomalies de la température de la surface de l’océan dans l’hémisphère nord (1010–2010).

Michael E. Mann, Zhihua Zhang, Malcolm K. Hughes, Raymond S. Bradley, Sonya K. Miller, Scott Rutherford, et Fenbiao Ni. 2008. ‘Proxy-based reconstructions of hemispheric and global surface temperature variations over the past two millennia’. Proceedings of the National Academy of Sciences 105 (36): pp. 13252–13257. Années 1010–1975 : David M. Etheridge, L. Paul Steele, Roger J. Francey, and Ray L. Langenfelds. 2012. ‘Historical Record from the Law Dome DE08, DE08-2, and DSS Ice Cores’. Division of Atmospheric Research, CSIRO, Aspendale, Victoria, Australia. Années 1976–2010 : données de l’observatoire du Mauna Loa. T. A. Boden, G. Marland, and Robert J. Andres. 2010. ‘Global, Regional and National Fossil-Fuel CO2 Emissions’. Données du Carbon Dioxide Information Analysis Center (CDIAC). Notes : une anomalie positive signifie que la température observée était plus chaude que la normale, tandis qu’une anomalie négative signifie que la température observée était plus froide que la normale; par « normale » on entend la moyenne des années 1961-1990 pour le lieu et la période de l’année. © L’équipe CORE. L’économie. (CC BY-NC-ND 4.0)

Exercice 2 Les concentrations de CO2

Que suggère le Graphique 2a sur l’évolution des concentrations de CO2 au cours du temps ?

Pris ensemble, les séries suggèrent qu’il y a probablement de nombreuses raisons aux fluctuations de température (pas seulement le CO2), mais que les concentrations ont augmenté depuis les années 1750, atteignant, comme les anomalies de la température, des niveaux jamais vus au cours du précédent millénaire. On dit que les deux variables sont corrélées.

Nous allons maintenant utiliser à nouveau les données de CO2 avec les données de température du Graphique 2a, puis étudier la corrélation entre ces deux variables de manière visuelle, à l’aide cette fois-ci d’un autre type de graphique (le nuage de points).

Lire une corrélation à l’aide d’un nuage de points

Le nuage de points ci-après représente les concentrations de CO2 (sur l’axe des ordonnées) par rapport aux anomalies de la température (sur l’axe des abscisses) pour la période 1000–2006. Lorsque les niveaux de CO2 augmentent, les températures augmentent.

Concentrations de CO2 dans l’atmosphère et anomalies de la température de la surface de l’océan dans l’hémisphère nord (1000–2006).

Graphique 2b Concentrations de CO2 dans l’atmosphère et anomalies de la température de la surface de l’océan dans l’hémisphère nord (1000–2006).

Michael E. Mann, Zhihua Zhang, Malcolm K. Hughes, Raymond S. Bradley, Sonya K. Miller, Scott Rutherford, et Fenbiao Ni. 2008. ‘Proxy-based reconstructions of hemispheric and global surface temperature variations over the past two millennia’. Proceedings of the National Academy of Sciences 105 (36): pp. 13252–13257. Années 1010–1975 : David M. Etheridge, L. Paul Steele, Roger J. Francey, and Ray L. Langenfelds. 2012. ‘Historical Record from the Law Dome DE08, DE08-2, and DSS Ice Cores’. Division of Atmospheric Research, CSIRO, Aspendale, Victoria, Australia. Années 1976–2010 : données de l’observatoire du Mauna Loa. T. A. Boden, G. Marland, and Robert J. Andres. 2010. ‘Global, Regional and National Fossil-Fuel CO2 Emissions’. Données du Carbon Dioxide Information Analysis Center (CDIAC). Notes : une anomalie positive signifie que la température observée était plus chaude que la normale, tandis qu’une anomalie négative signifie que la température observée était plus froide que la normale; par « normale » on entend la moyenne des années 1961-1990 pour le lieu et la période de l’année. © L’équipe CORE. L’économie. (CC BY-NC-ND 4.0)

droite de meilleur ajustement
La droite d’ajustement la plus proche de l’ensemble des données. Connu également sous le terme : droite de régression linéaire.

La droite croissante résume les données en trouvant la ligne qui s’ajuste le mieux au nuage de points. Elle est appelée droite de meilleur ajustement (ou droite de régression linéaire). Quand une droite de meilleur ajustement est croissante, cela signifie que les plus hautes valeurs de la variable sur l’axe des abscisses (ici, les concentrations de CO2) sont associées aux plus hautes valeurs de la variable sur l’axe des ordonnées (ici, les anomalies de la température).

Exercice 3 Lire une corrélation : séries chronologiques et nuage de points

Le Graphique 2a et le Graphique 2b représentent graphiquement la corrélation entre les anomalies de la température et les concentrations de CO2.

  1. En utilisant les informations fournies par le Graphique 2a, comment pouvez-vous expliquer la densité de points autour de 280 sur l’axe des abscisses du Graphique 2b ?
  2. Quelles sont les informations fournies par le Graphique 2a qui ne sont pas visibles dans le Graphique 2b ?
coefficient de corrélation
Une mesure du degré d’association de deux variables et de leur tendance à prendre des valeurs similaires ou opposées. Il prend une valeur allant de 1, pour indiquer que les variables prennent des valeurs similaires (« sont positivement corrélées »), à -1, pour indiquer que les valeurs prennent des valeurs opposées (corrélation « négative » ou « inverse »). Une valeur de 1 ou -1 implique que la connaissance d’une valeur d’une des variables permet de prédire parfaitement la valeur de l’autre. Une valeur de 0 implique que la connaissance de la valeur d’une des variables ne donne aucune information sur la valeur de l’autre. Voir également : corrélation, causalité.

Nous allons à présent étudier la corrélation entre ces deux variables de manière quantitative, en utilisant un coefficient de corrélation dit « de Pearson ».

Coefficient de corrélation de Pearson

Le coefficient de corrélation de Pearson est une mesure de la relation linéaire entre deux variables. Ce coefficient de corrélation nous indique à quel point les données ressemblent à une ligne droite dans un nuage de points. Ce coefficient de corrélation varie entre -1 et 1. Un coefficient de 1 ou -1 signifie que les données forment une ligne droite (il existe une relation linéaire parfaite entre les deux variables), tandis qu’un coefficient de 0 signifie que les données ne forment pas une ligne droite (pas de relation linéaire entre les deux variables). Entre 1750 et 2010, le coefficient de corrélation de Pearson entre les anomalies de la température et les concentrations de CO2 était égal à 0,92.

Une limite de cette mesure de corrélation est qu’elle ne nous indique que la force de la relation linéaire entre deux variables. Ce coefficient de corrélation ne peut pas nous dire si les deux variables présentent un type de relation différent (par exemple, une ligne ondulée). Supposons que votre facture d’électricité soit élevée en hiver, mais basse en été (une relation en forme de U). Cette mesure de corrélation ne peut pas détecter une relation en forme de U, minimisant ainsi l’association réelle entre les deux variables. Cependant, il existe d’autres coefficients de corrélation qui peuvent traiter ce problème, mais dans cette Boîte à outils nous ne regarderons que cette mesure de corrélation.

Comment interpréter une corrélation ?

Il n’existe pas de définition stricte de ce qu’est une corrélation « forte » ou « faible ». En règle générale, un coefficient de 0,7 à 1 (ou de -0,7 à -1) est considéré comme « fort » et un coefficient de 0 à 0,3 (0 à -0,3) est considéré comme « faible ». Tout coefficient en dehors de cet intervalle est généralement considéré comme « modéré ».

causalité
Une relation de cause à effet établissant qu’un changement dans cette variable produit un changement dans une autre variable. Voir également : corrélation, corrélation fallacieuse, causalité inverse.
causalité
Une relation de cause à effet établissant qu’un changement dans cette variable produit un changement dans une autre variable. Voir également : corrélation, causalité inverse.

Même si deux variables sont fortement corrélées, l’évolution de l’une n’est pas nécessairement le résultat de l’évolution de l’autre, une caractéristique connue sous le terme de causalité.

Comment interpréter une causalité ?

Alors qu’une corrélation qualifie seulement le fait que deux choses évoluent ensemble, une causalité implique un mécanisme expliquant l’association : la causalité est donc un concept plus restrictif. La corrélation ne signifie pas qu’il existe une relation de cause à effet entre les variables.

corrélation fallacieuse
Une forte association linéaire entre deux variables qui ne résulte pas d’une relation directe, mais qui peut être due à une coïncidence ou à un autre facteur invisible.

Si vous calculez une corrélation entre deux séries chronologiques avec une tendance commune (ce qui signifie qu’elles tendent à augmenter ou à diminuer au même moment), vous devriez trouver un coefficient de corrélation positif ou négatif élevé, même s’il n’existe pas d’explication plausible pour une relation entre les deux séries. Les deux variables pourraient être fallacieusement corrélées. Une corrélation fallacieuse est observée lorsque deux variables sont fortement corrélées, mais qu’il n’y a pas de relation causale entre elles.

Qu’est-ce qui rend certaines corrélations fallacieuses ?

Une corrélation fallacieuse est observée lorsque deux variables semblent être corrélées alors qu’il n’y a pas de véritable relation de cause à effet entre elles. La corrélation observée peut être due à une coïncidence ou à un « facteur tiers » entraînant les deux variables. L’exemple suivant illustre une corrélation fallacieuse :

causalité inverse
Une relation de causalité à deux sens, dans laquelle A affecte B et B affecte aussi A.

La performance scolaire d’un enfant peut être positivement corrélée au nombre de pièces dans sa maison ou à la taille de sa maison, mais pouvons-nous en conclure que la construction d’une pièce supplémentaire rendrait un enfant plus intelligent, ou qu’être assidu à l’école rendrait votre maison plus grande ? Il est plus plausible que le revenu ou le patrimoine, qui détermine la taille du domicile qu’une famille peut se permettre, et les ressources disponibles pour étudier constituent le facteur tiers de cette relation. Nous pourrions également étudier si le revenu est la raison de cette corrélation fallacieuse en comparant les résultats aux examens des enfants dont les parents ont un revenu similaire mais une taille de maison différente. S’il n’y a pas de corrélation entre les résultats aux examens et la taille de la maison, nous pouvons en déduire que la taille de la maison n’était pas la cause des résultats aux examens ou inversement (les économistes appellent cette relation causalité inverse).

Le cas de notre étude (la relation entre les anomalies de la température et les concentrations de CO2) est légèrement différent. Il existe un lien chimique bien connu entre les deux. En effet, nous savons que des concentrations plus élevées de CO2 dans l’atmosphère génèrent un effet de serre qui réchauffe la surface de la Terre. Par conséquent, nous pouvons dire que des concentrations de CO2 plus élevées sont la cause des anomalies plus élevées de la température. Nous savons donc pourquoi les concentrations de CO2 pourraient potentiellement provoquer des changements de température.

Mais, en général, ne soyez pas tenté de conclure à l’existence d’un lien de causalité simplement parce qu’un coefficient de corrélation élevé peut être observé. Soyez très prudent lorsque vous attachez trop d’importance à des coefficients de corrélation élevés lorsque les séries chronologiques présentent une tendance commune. Rappelez-vous que la corrélation est une mesure d’association et n’implique pas qu’une variable cause l’autre.

Question 1 Choisissez les bonnes réponses

Le graphique suivant montre la relation entre les ventes annuelles de voitures particulières neuves et les décès annuels de piétons à la suite d’une collision avec une voiture, un van ou une fourgonnette aux États-Unis entre 1999 et 2009. Le coefficient de corrélation de Pearson était égal à 0,72. Sur la base de ce graphique, lesquelles des propositions suivantes sont correctes ?

© L’équipe CORE. L’économie. (CC BY-NC-ND 4.0)

  • La relation entre les deux variables est linéaire.
  • La corrélation entre les deux variables est négative.
  • Le coefficient de corrélation de Pearson est fort.
  • Une hausse des ventes de voitures particulières neuves entraîne une hausse des décès de piétons à la suite d’une collision avec une voiture, un van ou une fourgonnette.
  • La droite de meilleur ajustement est proche de l’ensemble des points.
  • Quand des valeurs élevées d’une variable sont observées en même temps que des valeurs élevées de l’autre, alors la corrélation est positive.
  • En règle générale, un coefficient de corrélation de Pearson compris entre 0,7 et 1 (ou entre -0,7 et -1) est considéré comme « fort ».
  • Corrélation ne veut pas dire causalité. Deux événements ou variables sont corrélés quand ils se produisent ou changent simultanément. La causalité est établie lorsqu’une variable est modifiée à la suite de changements survenus pour une autre variable.

Exercice 4 Corrélation et causalité

Entre 1999 et 2009, aux États-Unis, les ventes annuelles de voitures particulières neuves étaient fortement corrélées avec les décès annuels de piétons à la suite d’une collision avec une voiture, un van ou une fourgonnette.

  1. Les économistes appellent une relation de causalité à deux sens, dans laquelle A (par exemple, le nombre de voitures particulières neuves vendues) affecte B (par exemple, le nombre de piétons tués) et B affecte aussi A, causalité inverse. Selon vous pouvons-nous ici écarter une causalité inverse ?
  2. Y a-t-il selon vous un facteur tiers pouvant expliquer cette corrélation ? Si oui, lequel ?
  3. D’après votre réponse aux questions précédentes, peut-on conclure à partir de leur corrélation que le nombre de voitures particulières neuves vendues cause le nombre de piétons tués ?