Dois-je faire confiance à la valeur $ p $ dans les tests statistiques?

Lucia

2019-10-09 23:33:40 UTC

view on stackexchange narkive permalink

J'ai eu un débat avec mon superviseur sur un article récent. Le test de corrélation dans un échantillon de 77 participants a donné une valeur p inférieure à 0,05. Après avoir supprimé quelques participants (car nous avons découvert plus tard qu'ils étaient mineurs), la valeur p est de 0,06 (r = 0,21).

Ensuite, mon superviseur dit: "Vous devriez signaler qu'il n'y a pas de corrélation entre ces deux variables, la valeur p n'est pas significative."

Voici ce que je réponds: Cela n’a pas de sens de dire aux gens que le résultat n’est pas significatif dans un échantillon de 71, mais il est significatif dans un échantillon de 77. Il est important de relier les résultats aux conclusions de la littérature lors de l’interprétation d’une tendance. Bien que nous trouvions ici une tendance faible, cette tendance s'aligne avec de nombreuses études de la littérature qui trouvent des corrélations significatives entre ces deux variables.

Voici ce que mon superviseur répond: Je dirais l’inverse: s’il n’est plus significatif dans l’échantillon de 71, il est trop faible pour être signalé. S'il y a un signal fort, nous le verrons également dans le plus petit échantillon.

Ne dois-je pas signaler ce résultat «non significatif»?

Je suis avec ton superviseur

Pourquoi ne pas rédiger un plan d'analyse statistique avant d'examiner les données?Cela fait gagner beaucoup de temps et rend la recherche tellement plus honnête.

Je ne vois pas pourquoi votre superviseur s'attendrait à ce que la valeur p n'augmente pas lorsque vous supprimez certains points.Si vous supprimez les «bons» points, dans certains cas, vous pourriez pousser les valeurs de p de façon spectaculaire (peut-être même de bien en dessous de 0,01 à bien au-dessus de 0,10 dans certains cas).Pourquoi les données ont-elles été supprimées?

La valeur réelle de la corrélation est plus intéressante que de savoir si la valeur p est de 0,05 ou 0,06 (ce qui ne fait pas beaucoup de différence).«(aucune) corrélation» ne signifie pas «valeur p inférieure (supérieure) à 0,05», mais si | r |est proche de un.

La corrélation est de 0,21, d'autres études trouvent une corrélation similaire entre ces deux variables, y compris ma propre étude sur un ensemble de données beaucoup plus grand.

Je ne pense pas que les commentaires de votre professeur aient beaucoup de sens.Même si nous prenons p = 0,05 comme valeur magique (ce qui, comme beaucoup de gens le soulignent, ce n'est pas le cas), cela signifie simplement que 77 participants étaient à peine suffisants pour obtenir un résultat significatif (en supposant que les six personnes que vous avez supprimées ont été sélectionnées au hasard).Cependant, comme beaucoup de gens le soulignent ... pourquoi avez-vous retiré six personnes?La seule justification à laquelle je puisse penser est que vous aviez peut-être un plan d'attaque à l'avance et qu'il s'avère qu'en raison d'une erreur par ailleurs inoffensive, six personnes sont entrées dans l'ensemble de données qui n'auraient pas dû.

@cdalitz Je ne sais pas d'où vous tirez vos calculs: $ | r |\ environ 1 $ est une corrélation presque * parfaite *.Un $ | r |\ approx 0 $ indique "pas de corrélation".

Certes pas mon domaine de recherche, mais avez-vous essayé de visualiser des corrélations simulées de $ \ rho = 0,21 $?Ce n'est guère quelque chose à dire.

Lorsque la corrélation est $ r = 0,21 $, la valeur p n'est pas pertinente (une valeur plus élevée ne fera que rendre l'intervalle de confiance légèrement plus large).Indépendamment de la valeur p, cela signifie qu'il n'y a qu'une très faible corrélation.La règle d'or donnée dans de nombreux manuels de mathématiques est que les valeurs $ | r |> 0,5 $ sont considérées comme une "corrélation", les valeurs $ | r |> 0,8 $ étant considérées comme une "corrélation forte".Je ne comprends toujours pas pourquoi vous considérez la valeur p du tout, ni pourquoi elle devrait être pertinente dans ce cas.

Les personnes que nous avons renvoyées ont moins de 18 ans, elles ne peuvent donc pas participer à l'étude, comme nous l'avons découvert plus tard.Pour moi, je signalerais que le résultat est p = 0,06 et dire que cette tendance s'aligne avec de nombreuses études qui ont trouvé que les deux variables sont légèrement corrélées.Mais mon superviseur le rapporte comme, "en contradiction avec les résultats de nombreuses études, nous trouvons qu'ils ne sont pas corrélés".Je pense que c'est une mauvaise idée.

cette fois, vous avez eu de la malchance, je serais terrifié si la probabilité d'un événement est de 0,5 et que les 100 scientifiques rapportent un succès et 0 échoue ...

Non, ne faites pas confiance à la valeur p.

1 Cela ne signifie pas si vous avez un effet ou non.

Le principal problème doit être de savoir si l'effet (l'effet taille ) que vous mesurez est pertinent ou non. Vous dites que vous avez mesuré $ \ rho = 0.21 $ et que cela est important dans votre domaine. Ensuite, vous devez le signaler.

La valeur p doit davantage être considérée comme un indicateur de la précision de votre expérience. Si votre expérience n'est pas précise, soit en raison d'un bruit important, soit en raison de la petite taille de l'échantillon, alors même en l'absence d'effet, il peut être probable d'observer un effet dans le bruit (la valeur p indique la probabilité).

Dans votre cas, la corrélation, la valeur p est souvent calculée sur la base d'une statistique $$ t = \ rho \ sqrt {\ frac {n-2} {1 - \ rho ^ 2}} $$ Qui est distribué en t avec $ \ nu = n-2 $ degrés de liberté lorsque certaines hypothèses a sont justes (plus à ce sujet plus tard).

Cela signifie que la valeur p est liée à la corrélation mesurée et à la taille de l'échantillon. Voyons à quoi cela ressemble:

Le graphique montre comment la signification dépend à la fois de la corrélation mesurée et de la taille de l'échantillon (les lignes sont des courbes de niveau pour les valeurs p 0,001, 0,01, 0,02, 0,05, 0,1). Notez que: pour le même effet mesuré (par exemple une corrélation de 0,21), vous pouvez avoir une signification différente en fonction de l'expérience (la taille de l'échantillon). (donc si la signification n'est "pas assez bonne", cela peut dépendre de l'expérience)

Il serait faux de dire qu'il n'y a aucun effet (en mesurant $ \ rho = 0,21 $ ) juste parce que vous n'aviez pas de signification au-dessus d'un certain niveau arbitraire. Au lieu de cela, vous devriez conclure qu'il peut y avoir un effet, mais la signification indique que votre expérience doit être répétée / affinée (précision améliorée) pour être plus sûr.

La corrélation n'est qu'une une façon d'exprimer qu'il y a un effet. Il est uniquement limité aux relations linéaires. Vous pouvez avoir une relation forte (non linéaire) entre vos variables mais toujours une faible corrélation (et si cela joue un rôle, cela fait que vous avez encore plus de raisons de moins vous soucier de la valeur p)

Faites un tracé pour mieux voir ce qui se passe. En savoir plus ici: Anscombe quatuor

2 Les hypothèses sous-jacentes au calcul peuvent être erronées.

Le calcul de la valeur p d'une corrélation est ambigu. Il existe différentes manières. Lorsque vous utilisez la statistique t mentionnée précédemment, vos hypothèses sont que les deux variables sont des variables distribuées normales indépendantes non corrélées. Mais vous pouvez plutôt avoir une autre distribution pour vos données (par exemple, des queues plus larges). Dans ce cas, une méthode bootstrap peut être meilleure.

Exemple. Laissez vos données être deux variables de Bernoulli distribuées indépendantes identiques (avec $ p_ {succes} = 0,05 $ ). Simulons cette situation et voyons comment les valeurs p sont distribuées (ce devrait être une distribution uniforme).

Ces variables distribuées de Bernoulli ne sont pas quelque chose auquel on appliquerait normalement une corrélation et un calcul de p-value. Cependant, c'est un modèle simple pour les cas où vous avez une distribution continue qui est une distribution multimodale.

Vous pouvez faire des simulations similaires avec différentes variables. En général, les p-values observées sous-estiment la vraie probabilité (disons qu’une p-value inférieure à x% se produira en réalité plus souvent que x% des cas). Ainsi, votre valeur p calculée p = 0,06, pourrait sous-estimer la vraie valeur p (si vous utilisez la distribution t et que les hypothèses ne sont pas correctes).

Philosophique

De plus, la différence entre p = 0,05 et p = 0,06 n'est pas très pertinente. Mais il est un peu difficile de dire à quelle valeur il y a une «frontière» entre oui / non significatif. Ceci est lié au paradoxe des sorites. Mon point de vue est que c'est un peu une fausse dichotomie de considérer qu'il y a une limite. Le concept de valeurs p et de signification n'est pas noir et blanc (et les limites imposées, qui ne sont pas réalistes, seront en pratique très arbitraires).

Pratique

Analyse de puissance Normalement, vous évitez ces problèmes en calculant à l'avance le type d'échantillon dont vous avez besoin pour pouvoir mesurer avec précision dans la plage de tailles d'effet.

Tests t bilatéraux. En plus de tester l'hypothèse nulle (mes données / expérience) correspondent-elles ou contrecarrent-elles l'hypothèse nulle, vous pouvez également envisager d'évaluer si vos données / expérience correspondent à l'hypothèse alternative. Ceci est fait avec les tests t bilatéraux. Vous pouvez avoir la situation où vos données ne sont ni (significativement) en désaccord avec l'hypothèse nulle (absence d'effet) ni avec une hypothèse alternative (un niveau minimal d'effet).

Idéalement, vous déclarez toutes vos valeurs. Et pas seulement les plus importants. (mais peut-être voulez-vous dire par "rapporter la valeur" quelque chose comme "discuter de la valeur dans le texte")