Question:
Corrélation dépendante du facteur
Dave
2011-05-26 07:40:03 UTC
view on stackexchange narkive permalink

Si je prends un ensemble de mesures et teste la corrélation de la variable $ A $ par rapport à la variable $ B $ et que j'obtiens une corrélation significative, cela me semble logique. Mais que se passe-t-il si une analyse plus approfondie révèle que de ces facteurs, il n'y a qu'une corrélation positive significative au sein d'un groupe, et ce groupe est surreprésenté. La corrélation globale est-elle toujours valide ou est-ce, après une inspection plus détaillée, un effet de biais d'échantillon?

Voici quelques graphiques pour expliquer:

La corrélation globale

global correlation

Les corrélations séparées par groupe

grouping separated correlation

Juste un petit commentaire: il semble que la corrélation globale pourrait en partie être expliquée par le fait que les unités appartenant au groupe A ont toutes des scores inférieurs alors que la seule prise en compte de la «valeur B» ne permet pas de séparer les trois groupes.
Je pense que si vous nous donnez plus de contenu (c'est-à-dire que signifient les groupes), vous obtiendrez de meilleurs conseils sur ce qu'il faut faire.
Trois réponses:
#1
+8
JMS
2011-05-26 10:12:45 UTC
view on stackexchange narkive permalink

Connaissez-vous le paradoxe de Simpson? Cela semble être ce que vous observez ici.

Edit: Je n'ai pas répondu à votre question :) Ce que vous devez faire exactement dépend dans une certaine mesure du contexte un problème dans la conception de l'étude? etc.). Au minimum, vous devriez signaler les deux résultats à l'OMI.

#2
+7
Henrik
2011-05-26 18:45:17 UTC
view on stackexchange narkive permalink

Je suis d'accord avec les conseils de JMS, à savoir que la réponse dépend totalement du contexte.

Mais ce que vous regardez peut également être considéré comme un effet de modération.

Dans les statistiques, la modération se produit lorsque la relation entre deux variables dépend d'une troisième variable.

(extrait de wikipedia)

Une modération est statistiquement significative si dans une régression multiple analyse l'interaction du prédicteur avec la troisième variable est significatif.

#3
+5
rolando2
2011-05-27 02:28:02 UTC
view on stackexchange narkive permalink

Les commentaires précédents sont tous bons, mais avec des échantillons de groupe de 5, 7 et 11, je ne ferais confiance à aucune de leurs corrélations dans la mesure où je pourrais les jeter. Vous devrez également donner au r global un large intervalle de confiance. btw Beau travail sur le graphique.

+1, bon point. Je l'ai pris comme exemple, pas les données réelles, mais la relecture du PO n'a certainement pas dit cela.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...