Pièges des corrélations: les coefficients de corrélation de Pearson et de Spearman
Author(s) -
Ulrike Held
Publication year - 2010
Publication title -
forum médical suisse ‒ swiss medical forum
Language(s) - French
Resource type - Journals
eISSN - 1661-6146
pISSN - 1661-6138
DOI - 10.4414/fms.2010.07285
Subject(s) - mathematics , pearson product moment correlation coefficient , statistics
En recherche clinique, il arrive fréquemment que l’on mesure plusieurs paramètres chez le patient, par ex. le poids corporel et la pression artérielle systolique. Chacun des paramètres, appelés variables, est examiné sépa rément. Mais parfois, il est intéressant d’étudier s’il existe des relations entre les deux variables. Par exemple, on pourrait examiner le comportement d’une variable lorsque l’autre diminue ou qu’elle augmente, la nature de la rela tion, les possibilités de quantification de la relation, c.àd. son intensité et son sens. Il existe diverses façons de me surer la relation ou la liaison, selon qu’il s’agisse de va riables métriques (quantitatives), telles que la pression systolique, ou ordinales (tels que l’état dans lequel se sent un patient sur une échelle de 1 à 7). Contrairement à la ré gression linéaire, qui exige de définir une variable explica tive et une variable dépendante, cela n’est pas nécessaire dans le cas de la corrélation. Reprenons l’exemple fictif cité dans l’article «Les ques tionnements scientifiques de la médecine ont besoin de modèles statistiques»1: on a relevé la pression systolique et le poids de 20 patients. Les observations figurent au tableau 1 p. Il est à noter qu’il manque la mesure de la variable «poids» chez le patient portant le numéro 6, et celle de la variable «pression systolique» chez le patient 8. Avant de procéder à un calcul particulier de la mesure de la force de la relation statistique entre deux variables mé triques, par ex. à celui de leur coefficient de corrélation, il faut commencer par représenter graphiquement les deux séries de données dans un diagramme de dispersion ap pelé nuage de points, ou scatter plot. Aussi bien la repré sentation graphique que le calcul du coefficient de corréla tion exigent que les couples d’observations soient complets. Dans les deux séries de données de notre exemple, seuls 18 couples seront ainsi pris en compte, et les données des personnes pour qui il manque une des observations (en l’occurrence celles des patients 6 et 8) seront donc exclues de l’analyse statistique. Il faudrait s’assurer encore que l’absence d’une donnée soit indépendante de sa valeur: par ex., il ne faut pas que le manque de données concerne trop fréquemment les personnes dont la pression artérielle est très élevée ou très faible, car les résultats en seraient biaisés. Dans la pratique, il n’existe pas de stratégie uni versellement valable pour traiter les données manquantes, mais il faut plutôt juger de cas en cas. Dans la figure 1x, chaque couple d’observations complet est représenté sous la forme d’un point dont les coordonnées sont les données d’un individu qui correspondent aux deux variables à étu dier. Le coefficient de corrélation de Pearson permet d’évaluer l’intensité et le sens de la relation linéaire entre deux séries de données provenant de l’échantillonnage de deux va riables métriques. Le coefficient de corrélation indique le degré de relation linéaire entre les deux séries de données, et il prend des valeurs situées entre –1 et 1. S’il n’y a pas de relation linéaire entre les deux séries de données, le coefficient de corrélation est très proche de zéro, et on dira que les deux variables ne sont pas corrélées. Dans ce cas, il pourrait tout de même y avoir une relation entre les deux variables, mais alors elle ne sera pas linéaire. Le signe du coefficient de corrélation indique le sens de la corrélation: s’il est positif, la valeur d’une des variables tend à augmenter en même temps que celle de l’autre va riable, s’il est négatif, la valeur d’une variable tend à dimi nuer quand celle de l’autre augmente. Pour interpréter les corrélations dans le cadre de la relation examinée, nous pouvons nous en tenir à certaines valeurs indicatives. Les valeurs situées entre 0,3 et 0,5 (resp. entre –0,3 et –0,5) in diquent une corrélation de faible intensité positive (resp. négative), celles situées entre 0,5 et 0,8 (resp. –0,5 et –0,8) indiquent une corrélation d’intensité moyenne, et audes sus de 0,8 (resp. endessous de –0,8), la corrélation entre les deux variables est considérée comme de forte intensité.
Accelerating Research
Robert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom
Address
John Eccles HouseRobert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom