Question:
Dois-je faire confiance à la valeur $ p $ dans les tests statistiques?
Lucia
2019-10-09 23:33:40 UTC
view on stackexchange narkive permalink

J'ai eu un débat avec mon superviseur sur un article récent. Le test de corrélation dans un échantillon de 77 participants a donné une valeur p inférieure à 0,05. Après avoir supprimé quelques participants (car nous avons découvert plus tard qu'ils étaient mineurs), la valeur p est de 0,06 (r = 0,21).

Ensuite, mon superviseur dit: "Vous devriez signaler qu'il n'y a pas de corrélation entre ces deux variables, la valeur p n'est pas significative."

Voici ce que je réponds: Cela n’a pas de sens de dire aux gens que le résultat n’est pas significatif dans un échantillon de 71, mais il est significatif dans un échantillon de 77. Il est important de relier les résultats aux conclusions de la littérature lors de l’interprétation d’une tendance. Bien que nous trouvions ici une tendance faible, cette tendance s'aligne avec de nombreuses études de la littérature qui trouvent des corrélations significatives entre ces deux variables.

Voici ce que mon superviseur répond: Je dirais l’inverse: s’il n’est plus significatif dans l’échantillon de 71, il est trop faible pour être signalé. S'il y a un signal fort, nous le verrons également dans le plus petit échantillon.

Ne dois-je pas signaler ce résultat «non significatif»?

Je suis avec ton superviseur
Pourquoi ne pas rédiger un plan d'analyse statistique avant d'examiner les données?Cela fait gagner beaucoup de temps et rend la recherche tellement plus honnête.
Je ne vois pas pourquoi votre superviseur s'attendrait à ce que la valeur p n'augmente pas lorsque vous supprimez certains points.Si vous supprimez les «bons» points, dans certains cas, vous pourriez pousser les valeurs de p de façon spectaculaire (peut-être même de bien en dessous de 0,01 à bien au-dessus de 0,10 dans certains cas).Pourquoi les données ont-elles été supprimées?
La valeur réelle de la corrélation est plus intéressante que de savoir si la valeur p est de 0,05 ou 0,06 (ce qui ne fait pas beaucoup de différence).«(aucune) corrélation» ne signifie pas «valeur p inférieure (supérieure) à 0,05», mais si | r |est proche de un.
La corrélation est de 0,21, d'autres études trouvent une corrélation similaire entre ces deux variables, y compris ma propre étude sur un ensemble de données beaucoup plus grand.
Je ne pense pas que les commentaires de votre professeur aient beaucoup de sens.Même si nous prenons p = 0,05 comme valeur magique (ce qui, comme beaucoup de gens le soulignent, ce n'est pas le cas), cela signifie simplement que 77 participants étaient à peine suffisants pour obtenir un résultat significatif (en supposant que les six personnes que vous avez supprimées ont été sélectionnées au hasard).Cependant, comme beaucoup de gens le soulignent ... pourquoi avez-vous retiré six personnes?La seule justification à laquelle je puisse penser est que vous aviez peut-être un plan d'attaque à l'avance et qu'il s'avère qu'en raison d'une erreur par ailleurs inoffensive, six personnes sont entrées dans l'ensemble de données qui n'auraient pas dû.
@cdalitz Je ne sais pas d'où vous tirez vos calculs: $ | r |\ environ 1 $ est une corrélation presque * parfaite *.Un $ | r |\ approx 0 $ indique "pas de corrélation".
Certes pas mon domaine de recherche, mais avez-vous essayé de visualiser des corrélations simulées de $ \ rho = 0,21 $?Ce n'est guère quelque chose à dire.
Lorsque la corrélation est $ r = 0,21 $, la valeur p n'est pas pertinente (une valeur plus élevée ne fera que rendre l'intervalle de confiance légèrement plus large).Indépendamment de la valeur p, cela signifie qu'il n'y a qu'une très faible corrélation.La règle d'or donnée dans de nombreux manuels de mathématiques est que les valeurs $ | r |> 0,5 $ sont considérées comme une "corrélation", les valeurs $ | r |> 0,8 $ étant considérées comme une "corrélation forte".Je ne comprends toujours pas pourquoi vous considérez la valeur p du tout, ni pourquoi elle devrait être pertinente dans ce cas.
Les personnes que nous avons renvoyées ont moins de 18 ans, elles ne peuvent donc pas participer à l'étude, comme nous l'avons découvert plus tard.Pour moi, je signalerais que le résultat est p = 0,06 et dire que cette tendance s'aligne avec de nombreuses études qui ont trouvé que les deux variables sont légèrement corrélées.Mais mon superviseur le rapporte comme, "en contradiction avec les résultats de nombreuses études, nous trouvons qu'ils ne sont pas corrélés".Je pense que c'est une mauvaise idée.
cette fois, vous avez eu de la malchance, je serais terrifié si la probabilité d'un événement est de 0,5 et que les 100 scientifiques rapportent un succès et 0 échoue ...
Huit réponses:
mkt - Reinstate Monica
2019-10-09 23:51:45 UTC
view on stackexchange narkive permalink

Pour les besoins de cette réponse, je vais supposer que l'exclusion de ces quelques participants était pleinement justifiée, mais je suis d'accord avec Patrick que c'est une préoccupation.


Il n'y a pas de différence significative entre p ~ 0,05 ou p = 0,06. La seule différence ici est que la convention est de traiter le premier comme équivalent à «vrai» et le second comme équivalent à «faux». Cette convention est terrible et injustifiable. Le débat entre vous et votre professeur revient à savoir comment former une règle empirique pour gérer l'arbitraire de la limite p = 0,05. Dans un monde plus sain, nous ne mettrions pas autant de stock dans de minuscules fluctuations d'un échantillon statistique.

Ou pour le dire de manière plus colorée:

... sûrement, Dieu aime le .06 presque autant que le .05. Peut-il y avoir un doute sur le fait que Dieu considère la force des preuves pour ou contre le nul en tant que fonction assez continue de la grandeur de p? »

-Rosnow, R.L. & Rosenthal, R. (1989). Procédures statistiques et justification des connaissances en science psychologique. américain Psychologue, 44 ans, 1276-1284.

Alors allez-y et signalez que p = 0,06. Le nombre lui-même est très bien, c'est la façon dont il est ensuite décrit et interprété qui est important. Gardez à l'esprit que «significatif» et «non significatif» sont des termes trompeurs. Vous devrez aller au-delà pour décrire vos résultats avec précision.

De plus, je vous recommande de lire les réponses à Quelle est la signification des valeurs p et des valeurs t dans les tests statistiques?

Quelle règle de décision utilisez-vous pour "traiter [une quantité] comme équivalente à" vrai "et [une certaine quantité] comme équivalente à" faux "?"Si vous n'avez * pas * une telle règle de décision, comment pouvez-vous fournir des preuves pour ou contre toute affirmation de vérité dans les sciences?[Pertinente] (https://stats.stackexchange.com/questions/204843/is-this-the-solution-to-the-p-value-problem)
@Alexis Comme il n'est pas tout à fait clair si vous vous opposez à ma réponse, je répondrai pour les futurs lecteurs: (1) Accumuler des preuves pour ou contre une réclamation ne nécessite pas de règle de décision binaire.La valeur p continue fournit (certaines) des preuves - mais il n'y a absolument aucune raison pour une limite ferme à 0,05.La plupart des Bayésiens se débrouillent bien sans un tel seuil.
(2) En dehors des mathématiques, rien n'est jamais «prouvé».Nous accumulons des preuves pour ou contre les propositions.Décrire cela avec précision est moche, donc nous utilisons par défaut un langage qui ignore les petits détails de ce qu'une étude identifie / établit réellement.Quelque part le long de la chaîne, généralement en raison d'un mauvais enseignement, la nuance se perd.La confusion s'installe. Et nous nous retrouvons à nouveau avec l'erreur «p <0,05 est égal à la vérité».Au lieu de cela, nous devons nous rappeler qu'aucune étude n'établit ce qui est vrai ou faux: elle ajoute simplement des preuves pour ou contre les propositions.Quels que soient vos résultats, ce qui compte, c'est la mesure dans laquelle ...
ils ajoutent des preuves (pour ou contre).Qui est une fonction * continue * et non binaire.(3) Parfois, vous avez besoin d'une règle de décision binaire (par exemple, devrais-je vendre l'objet A ou l'objet B?).Mais un analyste attentif prendrait toujours en compte les informations supplémentaires, y compris les coûts, les avantages et les informations préalables (et pas nécessairement au sens bayésien formel).Le faux binaire à p = 0,05 n'est PAS le seul moyen de faire une règle de décision binaire.Il ignore beaucoup d'informations précieuses.
Il est inutile de prétendre qu'il existe des mesures continues de la preuve (ce avec quoi je ne suis pas en désaccord) ne fait valoir que ** les scientifiques (et les humains en général) doivent également avoir des * règles de décision ***."un analyste attentif prendrait toujours en compte les informations supplémentaires, y compris les coûts, les bénéfices et les informations préalables". Ma question demeure: quelle règle de décision?
@Alexis Je ne suis pas sûr de vous comprendre.Êtes-vous en train de dire qu'il devrait y avoir un critère / règle de décision universel?Si oui, je ne suis pas d'accord.Les coûts et les avantages diffèrent selon les circonstances.Une règle de décision doit être adaptée au problème à résoudre.
Je n'ai rien dit de tel à propos du "critère universel" (qui est une lecture malhonnête des tests d'hypothèse: divers $ \ alpha $ et $ \ delta $ peuvent être utilisés avec eux, tout comme [TOST] (https: //stats.stackexchange.com / tags / tost / info), sans parler des différents types de statistiques de test correspondant à différents types de variables, de distributions et de plans d'étude).J'ai * demandé * ce que vous proposez comme forme alternative de règle de décision, et vous n'en avez pas proposé.
@Alexis Je crois avoir déjà répondu à cela dans mon commentaire précédent: "Les coûts et les avantages diffèrent selon les circonstances. Une règle de décision doit être adaptée au problème en question".Je n'utiliserais pas la même règle pour décider de changer de marque de brosse à dents que pour décider s'il faut amputer un membre.Votre position à ce sujet est beaucoup moins claire, car vous n’avez pas clarifié la question.
@Alexis Et je ne pense pas que la lecture fallacieuse soit de ma part.J'ai dit clairement dans la réponse que le problème que j'ai est lié à l'utilisation abusive des valeurs p et des tests d'hypothèse.J'ai encouragé l'OP à rapporter le résultat p = 0,06 et à être prudent dans l'interprétation de ce que signifie une valeur p.Je ne leur ai pas dit d'éviter complètement les valeurs p (bien que ce soit une position raisonnable).J'ai * fait * un problème avec l'utilisation de la valeur p comme critère de décision sans considération d'autres facteurs importants, ce que je considère comme un problème très courant.J'espère que cela clarifie cela, même s'il semble que nous ne parviendrons pas à un accord.
(+1), la citation de Gelman me vient à l'esprit "la différence entre significatif et non significatif n'est pas elle-même statistiquement significative".
Ben
2019-10-11 05:00:34 UTC
view on stackexchange narkive permalink

Il y a énormément de problèmes soulevés dans votre question, je vais donc essayer de répondre à chacun des problèmes que vous soulevez. Pour définir clairement certaines de ces questions, il est important de noter au départ qu'une valeur p est une mesure continue de preuves par rapport à l'hypothèse nulle (en faveur de l'alternative énoncée), mais lorsque nous comparez-le à un niveau de signification stipulé pour donner une conclusion de "signification statistique", nous dichotomisons cette mesure continue de preuve en une mesure binaire .

Cela n'a aucun sens de dire aux gens que le résultat n'est pas significatif dans un échantillon de 71, mais il est significatif dans un échantillon de 77.

Vous devez décider lequel de ces deux est réellement l'échantillon approprié - c'est-à-dire est-il approprié de supprimer six points de données de vos données. Pour des raisons expliquées à plusieurs reprises sur ce site (par exemple, ici et ici), il n'est pas judicieux de supprimer les «valeurs aberrantes» qui ne sont pas dues à un enregistrement incorrect des observations. Donc, à moins que vous n'ayez des raisons de croire que c'est le cas, il est probablement approprié d'utiliser les 77 points de données, auquel cas cela n'a aucun sens de dire quoi que ce soit à propos du sous-échantillon de 71 données triés sur le volet. points.

Notez ici que le problème n'a rien à voir avec la question de la signification statistique. Il est parfaitement logique que le résultat de différents tests d'hypothèse (par exemple, le même test sur différentes données) puisse différer, et il n'y a donc aucune raison de considérer comme problématique qu'il y ait des preuves statistiquement significatives pour l'hypothèse alternative dans un cas, mais pas dans l'autre. C'est une conséquence naturelle d'avoir un résultat binaire obtenu en traçant une ligne de "signification" dans une mesure continue de preuves.

Il est important de relier les résultats aux résultats de la littérature lors de l'interprétation d'une tendance. Bien que nous trouvions ici une tendance faible, cette tendance s'aligne avec de nombreuses études de la littérature qui trouvent des corrélations significatives entre ces deux variables.

Si c'est quelque chose que vous voulez faire, alors l'exercice approprié est de faire une méta-analyse pour prendre en compte toutes les données de la littérature. Le simple fait qu'il existe d'autres publications contenant d'autres données / preuves ne justifie pas le traitement des données de cet article différemment de ce que vous feriez autrement. Faites votre analyse des données sur les données de votre propre article. Si vous craignez que votre propre résultat soit une aberration de la littérature, notez cette autre preuve. Vous pouvez alors soit faire une méta-analyse appropriée où toutes les données (les vôtres et les autres publications) sont prises en compte, soit au moins alerter votre lecteur sur l'étendue des données disponibles.

Voici ce que mon superviseur a répondu: je dirais l’inverse: si ce n’est plus significatif dans l’échantillon de 71, c’est trop faible pour être signalé. S'il y a un signal fort, nous le verrons également dans le plus petit échantillon. Ne dois-je pas signaler ce résultat "non significatif"?

Choisir de ne pas rapporter les données parce que les résultats statistiques diffèrent des autres publications est une pratique terrible, horrible, statistiquement en faillite. Il existe une tonne de littérature en théorie statistique mettant en garde contre le problème du biais de publication qui survient lorsque les chercheurs laissent le résultat de leurs tests statistiques influencer leur choix de rapporter / publier leurs données. En effet, le biais de publication dû aux décisions de publication prises sur la base des valeurs p est le fléau de la littérature scientifique. C'est probablement l'un des plus gros problèmes de la pratique scientifique et académique.

Indépendamment de la "faiblesse" des preuves de l'hypothèse alternative, les données que vous avez collectées contiennent des informations qui devraient être rapportées / publiées.Il ajoute 77 points de données à la littérature, quelle que soit la valeur.Vous devez déclarer vos données et indiquer la valeur p pour votre test.Si cela ne constitue pas une preuve statistiquement significative de l'effet à l'étude, qu'il en soit ainsi.

(+1).Je soupçonne que vous vouliez créer un lien vers deux articles lorsque vous avez écrit "(par exemple, ici et ici)" mais que vous avez oublié d'ajouter les hyperliens?
@COOLSerdash: Merci, vous avez raison - mis à jour.
Patrick
2019-10-09 23:45:22 UTC
view on stackexchange narkive permalink

En général, la modification des données qui sont entrées dans un test invalide l'utilisation du test d'hypothèse pour trouver des effets significatifs. Si vous commencez à éditer les données et à relancer le test pour voir les changements, vous pouvez obtenir presque tous les résultats que vous souhaitez. Imaginez ce qui se passerait si vous supprimiez 6 participants et cela rendait votre découverte plus significative. Je vous recommande vivement de lire ceci: http://www.stat.columbia.edu/~gelman/research/unpublished/p_hacking.pdf car il contient une excellente discussion sur les problèmes qui peuvent survenir lors de l'analyse les décisions sont prises après avoir vu les données et le fait que cela invalide l'interprétation habituelle des p-values.

Ma question dans ce cas est donc la suivante: quelle est la motivation derrière la suppression de ces participants? Était-ce uniquement basé sur la métrique des résultats (c'est-à-dire que ces 6 participants ont eu l'effet le plus fort)? Ou y avait-il une raison intrinsèque à ces participants (échec dans l'exécution des tâches, ne répondant pas aux conditions d'entrée, etc.)?

Afin d'utiliser les valeurs p pour discuter de l'importance, ces décisions doivent avoir été prises avant d'exécuter votre test statistique et non après. Je rapporterais donc les résultats aux 77 participants comme vous l'avez fait à l'origine et ignorerais les commentaires de vos supérieurs.

Je veux juste répéter ici: il n'est pas vrai qu'un échantillon plus petit doit montrer le même effet si vous prenez les décisions d'inclusion / exclusion en fonction de la visualisation des données.

Les personnes que nous avons renvoyées ont moins de 18 ans, elles ne peuvent donc pas participer à l'étude, comme nous l'avons découvert plus tard.Pour moi, je signalerais que le résultat est p = 0,06 et dire que cette tendance s'aligne avec de nombreuses études qui ont trouvé que les deux variables sont significativement corrélées.Mais mon superviseur le rapporte comme, "en contradiction avec les résultats de nombreuses études, nous constatons qu'ils ne sont pas corrélés".Je pense que c'est une mauvaise idée.
Je suis d'accord avec vous et je suis en désaccord avec le mot «contredit» et une valeur p si proche.«Contradicted» est une affirmation forte à faire.Toute étude que vous exécutez individuellement est bruyante et vous avez déjà vu les effets de la suppression de quelques participants sur les résultats.Il s'agit d'un problème lors de la prise d'une décision oui / non à une valeur seuil unique.Je suis d'accord avec la réponse de mkt ci-dessous selon laquelle vous devez décrire vos résultats complètement et aller au-delà du simple langage «significatif ou non».
@Lucia Si vous voulez tester si votre étude contredit la littérature, vous voudrez tester si la pente entre votre X et Y est différente de la pente rapportée dans la littérature, pas voir si la pente est significative à la fois dans votre étude et dans la littérature.
@Lucia Bryan Krause fait un point important qui se rapporte également à ce que j'ai écrit sur les valeurs p.Que la valeur p soit 0,04 ou 0,06 ne vous dit PAS si elle est en accord ou en contradiction avec les études précédentes!Corrélé / non corrélé traite cette situation comme binaire alors qu'elle ne l'est pas.Je recommande fortement d'en savoir plus sur la signification exacte des valeurs p;cela pourrait vous aider à éviter des erreurs statistiques importantes.
@Lucia ce sont des informations critiques qui changent considérablement la question.Si la population de l'étude * était incorrecte *, vous devez appliquer des exclusions.Cependant, cela signifie toujours que votre étude est insuffisante.L'interprétation correcte n'est pas «les données ne sont pas corrélées» mais plutôt «nous n'avons pas réussi à démontrer une corrélation».
@AdamO "nous n'avons pas réussi à démontrer une corrélation."pourrait être mal interprété comme "nous n'avons pas réussi à démontrer une corrélation (par conséquent, il existe des preuves supplémentaires qu'il n'y a pas de corrélation)".Peut-être pourrait-il être formulé comme «nous n'avons pas réussi à démontrer une corrélation * au-dessus d'un niveau de x *» (où «x» doit être remplacé par la valeur spécifiée pour l'expérience, et il se peut que cette valeur soit trop élevée, nontellement de données percutantes, pour avoir du sens pour publier le travail)
Sextus Empiricus
2019-10-11 03:02:32 UTC
view on stackexchange narkive permalink

Non, ne faites pas confiance à la valeur p.

1 Cela ne signifie pas si vous avez un effet ou non.

  • Le principal problème doit être de savoir si l'effet (l'effet taille ) que vous mesurez est pertinent ou non. Vous dites que vous avez mesuré $ \ rho = 0.21 $ et que cela est important dans votre domaine. Ensuite, vous devez le signaler.

    La valeur p doit davantage être considérée comme un indicateur de la précision de votre expérience. Si votre expérience n'est pas précise, soit en raison d'un bruit important, soit en raison de la petite taille de l'échantillon, alors même en l'absence d'effet, il peut être probable d'observer un effet dans le bruit (la valeur p indique la probabilité).

    Dans votre cas, la corrélation, la valeur p est souvent calculée sur la base d'une statistique $$ t = \ rho \ sqrt {\ frac {n-2} {1 - \ rho ^ 2}} $$ Qui est distribué en t avec $ \ nu = n-2 $ degrés de liberté lorsque certaines hypothèses a sont justes (plus à ce sujet plus tard).

    Cela signifie que la valeur p est liée à la corrélation mesurée et à la taille de l'échantillon. Voyons à quoi cela ressemble:

    significance as a function of sample size and observed correlation

    Le graphique montre comment la signification dépend à la fois de la corrélation mesurée et de la taille de l'échantillon (les lignes sont des courbes de niveau pour les valeurs p 0,001, 0,01, 0,02, 0,05, 0,1). Notez que: pour le même effet mesuré (par exemple une corrélation de 0,21), vous pouvez avoir une signification différente en fonction de l'expérience (la taille de l'échantillon). (donc si la signification n'est "pas assez bonne", cela peut dépendre de l'expérience)

    Il serait faux de dire qu'il n'y a aucun effet (en mesurant $ \ rho = 0,21 $ ) juste parce que vous n'aviez pas de signification au-dessus d'un certain niveau arbitraire. Au lieu de cela, vous devriez conclure qu'il peut y avoir un effet, mais la signification indique que votre expérience doit être répétée / affinée (précision améliorée) pour être plus sûr.

  • La corrélation n'est qu'une une façon d'exprimer qu'il y a un effet. Il est uniquement limité aux relations linéaires. Vous pouvez avoir une relation forte (non linéaire) entre vos variables mais toujours une faible corrélation (et si cela joue un rôle, cela fait que vous avez encore plus de raisons de moins vous soucier de la valeur p)

    Faites un tracé pour mieux voir ce qui se passe. En savoir plus ici: Anscombe quatuor

2 Les hypothèses sous-jacentes au calcul peuvent être erronées.

  • Le calcul de la valeur p d'une corrélation est ambigu. Il existe différentes manières. Lorsque vous utilisez la statistique t mentionnée précédemment, vos hypothèses sont que les deux variables sont des variables distribuées normales indépendantes non corrélées. Mais vous pouvez plutôt avoir une autre distribution pour vos données (par exemple, des queues plus larges). Dans ce cas, une méthode bootstrap peut être meilleure.

    Exemple. Laissez vos données être deux variables de Bernoulli distribuées indépendantes identiques (avec $ p_ {succes} = 0,05 $ ). Simulons cette situation et voyons comment les valeurs p sont distribuées (ce devrait être une distribution uniforme).

    p-values when distribution is Bernoulli instead of normal

    Ces variables distribuées de Bernoulli ne sont pas quelque chose auquel on appliquerait normalement une corrélation et un calcul de p-value. Cependant, c'est un modèle simple pour les cas où vous avez une distribution continue qui est une distribution multimodale.

    Vous pouvez faire des simulations similaires avec différentes variables. En général, les p-values ​​observées sous-estiment la vraie probabilité (disons qu’une p-value inférieure à x% se produira en réalité plus souvent que x% des cas). Ainsi, votre valeur p calculée p = 0,06, pourrait sous-estimer la vraie valeur p (si vous utilisez la distribution t et que les hypothèses ne sont pas correctes).


Philosophique

De plus, la différence entre p = 0,05 et p = 0,06 n'est pas très pertinente. Mais il est un peu difficile de dire à quelle valeur il y a une «frontière» entre oui / non significatif. Ceci est lié au paradoxe des sorites. Mon point de vue est que c'est un peu une fausse dichotomie de considérer qu'il y a une limite. Le concept de valeurs p et de signification n'est pas noir et blanc (et les limites imposées, qui ne sont pas réalistes, seront en pratique très arbitraires).

Pratique

  • Analyse de puissance Normalement, vous évitez ces problèmes en calculant à l'avance le type d'échantillon dont vous avez besoin pour pouvoir mesurer avec précision dans la plage de tailles d'effet.

  • Tests t bilatéraux. En plus de tester l'hypothèse nulle (mes données / expérience) correspondent-elles ou contrecarrent-elles l'hypothèse nulle, vous pouvez également envisager d'évaluer si vos données / expérience correspondent à l'hypothèse alternative. Ceci est fait avec les tests t bilatéraux. Vous pouvez avoir la situation où vos données ne sont ni (significativement) en désaccord avec l'hypothèse nulle (absence d'effet) ni avec une hypothèse alternative (un niveau minimal d'effet).

  • Idéalement, vous déclarez toutes vos valeurs. Et pas seulement les plus importants. (mais peut-être voulez-vous dire par "rapporter la valeur" quelque chose comme "discuter de la valeur dans le texte")

Pouvez-vous expliquer ce que montrent les lignes de votre premier graphique?Ce n'est pas vraiment clair pour moi de lire votre réponse.
"Dans ce cas, une méthode bootstrap peut être meilleure", ah, j'oublie de mentionner que je lance déjà un test de permutation.
Je remarque un vote défavorable.Je suis prêt à améliorer cette réponse lorsque quelqu'un donne un pointeur.
LSC
2019-10-23 05:37:09 UTC
view on stackexchange narkive permalink

En général, vous ne devez pas choisir de rendre compte des résultats sur la base de l'importance ou de la concordance avec vos objectifs.

Je suis d'accord avec vous qu'une valeur p de 0,06 n'est pas très différente de 0,04 (comme d'autres l'ont indiqué, une valeur p est un résumé continu de la façon dont les données observées sont " compatible "avec l'hypothèse nulle spécifique et une valeur p plus petite signifie une compatibilité plus faible). Par conséquent, ils (0,04 vs 0,06) véhiculent tous deux des preuves légères (très légères dans une étude observationnelle typique) contredisant l'hypothèse nulle et le seuil alpha n'est pas un nombre magique.

Deuxièmement, votre conseiller est sans équivoque incorrect dans l'interprétation de "... 'vous devez signaler qu'il n'y a pas de corrélation entre ces deux variables, la valeur p n'est pas significative." "C'est une erreur d'interpréter le manque de signification comme «aucune relation / corrélation». Veuillez consulter le Point # 6, au minimum. Il s'agit d'une erreur logique rudimentaire qui est généralisée car «l'absence de preuve équivaut à une preuve d'absence», ce que nous savons être faux pour diverses raisons, dont l'une est le problème de l'induction.

Il est préférable que votre conseiller lise la référence ci-dessous.

https://link.springer.com/article/10.1007/s10654-016-0149-3#Sec2

AdamO
2019-10-11 03:21:11 UTC
view on stackexchange narkive permalink

EDIT: Cette réponse suppose que, telle qu'elle est écrite, il s'agit d'un exemple d'exercice de recherche de données. Cependant, les commentaires révèlent qu'un scénario très différent se joue ici.

Voici un exemple de la grille statistique de Munchausen à l'envers. La question devient alors: combien de sujets dois-je supprimer avant que le résultat ne soit plus statistiquement significatif ? Et la réponse est (si je peux délibérément supprimer les observations à forte influence / effet de levier élevé) pas autant! C'est à ce qu'il devrait être, une étude idéale est alimentée proportionnellement à la taille de son effet. Par exemple, si je veux une puissance de 90% pour rejeter l'hypothèse nulle au niveau 0,05, je devrais être très satisfait du calcul de la taille de mon échantillon si, après avoir effectué mon essai, je rejette la valeur nulle seulement à ce niveau . N'importe quel échantillon moins et je ne parviens pas à rejeter la valeur nulle. Tout échantillon en excès et j'ai dépensé trop d'argent ou de temps sur mon étude.

La suppression des observations réduit la puissance. Ce n’est pas intéressant.

Je répondrais que les diagnostics de suppression sont utiles pour identifier les observations à fort effet de levier et à forte influence TOUTEFOIS sans une analyse pré-planifiée pour supprimer ces observations, les résultats n'ont aucun sens.

cdalitz
2019-10-12 00:16:25 UTC
view on stackexchange narkive permalink

Puis-je reformuler votre question comme suit: «Dois-je signaler la valeur p lors de l’estimation de la corrélation»? Je répondrais à cette question par "non": indiquez plutôt un intervalle de confiance pour votre corrélation mesurée!

Cela indiquera clairement si vos résultats sont compatibles avec les résultats rapportés dans la littérature (vérifiez simplement si ces résultats entrent dans votre intervalle de confiance). En revanche, si votre p-valeur de l'hypothèse $ H_0: \, r = 0 $ est de 0,06 et celle des autres études est inférieure à 0,05, cela ne veut pas dire que votre résultat contredit les autres études.

Concernant la remarque de votre superviseur: la corrélation dans votre cas est si petite (0,21) que vous avez besoin d'un échantillon de grande taille pour obtenir un intervalle de confiance ne comprenant pas zéro. Vous pouvez toujours rendre la plus petite corrélation "statistiquement significative" simplement en augmentant la taille de l'échantillon, plus la corrélation est petite, plus la taille de l'échantillon doit cependant être grande pour la rendre "significative". C'est pourquoi je ne rapporterais pas la valeur p, mais la valeur mesurée avec un intervalle de confiance. Il me semble que vos résultats sont en accord avec les autres études, s'ils font également état d'une corrélation positive simplement faible.

Remerciements: je ne suis pas le premier à faire cette recommandation ;-)

JaeHyeok Shin
2019-10-12 05:22:31 UTC
view on stackexchange narkive permalink

Je suis partiellement d'accord avec votre conseiller.Parfois, même des résultats statistiquement significatifs peuvent ne pas être du tout significatifs à signaler.

Vous devez vous demander si la taille de la corrélation d'échantillon est suffisamment grande pour faire une déclaration significative.En tant que cas extrême, disons que la vraie corrélation est en fait de 0,01.Si vous avez suffisamment de participants, vous pouvez toujours obtenir une très petite valeur p (car elle est différente de zéro!).Cependant, selon le contexte, une corrélation de 0,01 pourrait ne rien signifier.Dans votre cas, la vraie corrélation peut être non nulle mais elle est encore trop petite pour être détectée par 71 échantillons.Je pense qu'un meilleur sujet de discussion avec le conseiller est de savoir si la taille de l'effet est suffisamment grande pour indiquer si le test est statistiquement significatif.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...