Question:
Travailler avec des coefficients de corrélation
Adhesh Josh
2011-08-31 17:42:43 UTC
view on stackexchange narkive permalink

J'ai trois coefficients de corrélation Pearson (.8978, .5676 et .7865) pour trois tranches d'âge (soit 21 à 30 ans, 31 à 40 ans et 41 à 50 ans) dont j'étudie le comportement par rapport à leurs achats habitudes contre gain de poids.

Puis-je dire que 0,8978 est la relation la plus forte entre les habitudes d'achat et la prise de poids?

En fonction de la différence des coefficients, puis-je dire qu'il y a une différence dans les habitudes d'achat et la prise de poids des trois groupes d'âge?

Enfin, puis-je simplement ajouter le les trois coefficients et les diviser par trois pour arriver à une moyenne?

Ce sont toutes des interprétations de «valeur nominale». Sont-ils acceptables ou dois-je effectuer une sorte d'analyse statistique? Si c'est ce dernier (Dieu nous en préserve), SPSS peut-il le faire?

Pour être sûr, les coefficients de corrélation sont entre les habitudes d'achat et la prise de poids pour trois sous-populations?
Oui, les coefficients de corrélation entre les habitudes d'achat et le gain de poids sont les suivants: 21 à 30 ans (0,8978, taille de l'échantillon 105), 31 à 40 ans (0,5678, taille de l'échantillon 95) et 41 à 50 ans (0,7865, taille de l'échantillon 120).
Vous devez lire ["Moyennage des valeurs de corrélation"] (http://stats.stackexchange.com/questions/8019/averaging-correlation-values/8023#8023). Une discussion là-bas (supprimée depuis) ​​a indiqué que certaines personnes utilisent la transformation de Fisher pour calculer la moyenne tandis que d'autres soulèvent des doutes quant à sa signification. Une chose est claire: toute combinaison mathématique de vos trois coefficients de corrélation n'a pas nécessairement de relation prévisible avec la corrélation entre les achats et le poids pour tous les âges de 21 à 50 ans.
La corrélation moyenne peut n'avoir aucune relation avec la corrélation dans l'ensemble de données.Voir: [Simpson's Paradox] (https://en.wikipedia.org/wiki/Simpson%27s_paradox)
Deux réponses:
#1
+12
Felix S
2011-08-31 20:26:55 UTC
view on stackexchange narkive permalink

Puis-je dire que .8978 est la relation la plus forte entre les habitudes d'achat et la prise de poids?

De manière descriptive, vous pouvez dire que c'est la relation la plus forte. Le fait qu'il soit significativement plus fort que les deux autres dépend de la taille de votre échantillon. Il existe un calculateur en ligne pour cela.

En me basant sur la différence des coefficients, puis-je dire qu'il y a une différence dans les habitudes d'achat et la prise de poids des trois groupes d'âge?

C'est la même question statistique que ci-dessus. Testez chaque paire de corrélations pour la signification de la différence. Lorsque vous effectuez trois tests, vous voudrez peut-être réfléchir à une correction du niveau $ \ alpha $. Une autre possibilité élaborée ici serait d'ajouter le groupe d'âge en tant que variable codée fictive dans une analyse de régression.

Enfin, puis-je simplement ajouter les trois coefficients et diviser par trois pour obtenir une moyenne?

Non. Pour obtenir une corrélation moyenne, vous devez effectuer une transformation $ r $ -to- $ Z $ ( Fisher's $ Z $), faire la moyenne de ces valeurs transformées et retransformer la moyenne $ Z $ en $ r $ encore. Pour la transformation, il existe plusieurs calculateurs en ligne.

Bienvenue sur notre site, Felix!
En quel sens la méthode utilisant la transformation de Fisher est-elle une * moyenne * légitime des coefficients de corrélation? Que signifierait cette moyenne? Notez qu'avec cette approche, si l'une des corrélations était de 1,0 et toutes les autres supérieures à -1,0, cette «moyenne» serait égale à 1,0.
Mais seulement pour le cas limite d'une corrélation de 1.0, ce qui conduit à un Z de Ìnf`. Dans le cas empiriquement plus probable des corrélations <| 1 |, la moyenne rétro-transformée des Zs est moins biaisée que la moyenne des rs originaux (voir par exemple [ici] (http://bit.ly/oqRE0k) ou [ici] (http://www.sciencedirect.com/science/article/pii/S0021901003015395)).
#2
+6
StasK
2011-09-02 00:21:57 UTC
view on stackexchange narkive permalink

La moyenne des coefficients de corrélation est une opération dénuée de sens. La corrélation est $$ \ rho = \ frac {\ mbox {Cov} [X, Y]} {\ sqrt {\ mbox {Var} [X] \ mbox {Var} [Y]}}. $$ Vous ne pouvez même pas faire la moyenne ses composantes (la covariance et deux variances), sauf si les moyennes de tous les groupes sur les deux variables sont les mêmes. Si ce n'est pas le cas, la variance / covariance de votre population sera supérieure / différente de la somme (pondérée) des variances / covariances en raison des différences entre les groupes.

En fait, la moyenne des corrélations est effectuée dans de nombreux contextes statistiques, par ex. pour le calcul de [l'alpha de Cronbach] (http://en.wikipedia.org/wiki/Cronbach%27s_alpha). Je ne peux pas vraiment comprendre votre argument ... Bien sûr, le bon sens est nécessaire pour cette moyenne. Si vous faites la moyenne des coefficients de différentes variables ou d'échantillons très différents, la moyenne qui en résulte peut ne pas avoir de sens du tout. Mais, OMI, c'est plutôt une question de contenu et non de procédures statistiques.
@Felix Le problème peut être lié au risque d'interprétation erronée. «La corrélation moyenne était de 0,75» nous dit quelque chose sur les groupes d'âge séparément, mais cela ne nous dit presque rien sur la corrélation globale pour tous les groupes d'âge, qui en principe pourrait être presque aussi petite que -1 et presque aussi grande que +1 ( et donnent toujours une moyenne de 0,75).
L'alpha de @Felix, Cronbach fonctionne avec des variances et fait des hypothèses solides sur les mesures équivalentes à tau, c'est-à-dire des hypothèses similaires sur les variances constantes. En outre, l'alpha de Cronbach fonctionne avec les covariances mesurées sur les mêmes individus, alors qu'ici l'OP veut faire la moyenne entre les groupes de population. Ce sont simplement des dimensions différentes de la moyenne.
@StasK: Je suis tout à fait d'accord avec vous que l'alpha de Cronbach est un autre scénario que celui publié dans la question initiale. Mon exemple était plutôt conçu comme une réponse à "La moyenne des coefficients de corrélation est une opération dénuée de sens". Faire cette moyenne comporte certainement de nombreux pièges et abus; mais AFAIK il y a des scénarios, où ce n'est pas une opération dénuée de sens. Sinon, beaucoup de manuels statistiques et beaucoup de recherches psychologiques n'auraient pas de sens (... mais peut-être que c'est ...).
@whuber: C'est vrai. Surtout dans le cas des ensembles de données hiérarchiques, la corrélation au sein des sous-groupes pourrait aller dans le sens opposé par rapport à la corrélation de tous les points de données (ce qui conduit à une [erreur écologique] (http://en.wikipedia.org/wiki/Ecological_correlation )). Le calcul d'une moyenne en général peut être dénué de sens dans de nombreuses situations (par exemple, avec des distributions bimodales), et le calcul d'une moyenne de mesures agrégées peut être encore plus problématique. Je veux seulement faire valoir que _si_ on veut calculer la moyenne, le Z de Fisher est une façon de faire (voir par exemple [ici] (http://bit.ly/oqRE0k)).
@StasK Vous avez besoin d'une racine carrée dans le dénominateur du coefficient de corrélation.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...