Question:
Utilisation de corrections de comparaisons multiples dans le cadre de valeur p de Fisher
Ashe
2015-02-26 02:55:59 UTC
view on stackexchange narkive permalink

Je crains de me lancer dans la guerre civile entre les interprétations de Fisher contre Neyman-Pearson de $ p $ -value (qui a été bien expliquée ici et ici), mais j'ai réfléchi à une question sur laquelle je continue de tourner en rond. Est-il approprié de faire une correction pour des comparaisons multiples à une valeur $ p $ dans un paradigme de Fisher d'interprétation des valeurs $ p $?

Maintenant, si je comprends bien, les corrections pour les comparaisons multiples sont officiellement apportées à $ \ alpha $, pas à $ p $ -values. Par exemple, la correction de Bonferroni est $ \ alpha / k $, où $ k $ est le nombre de comparaisons. Mais c'est un commutateur facile de multiplier la valeur $ p $ par $ k $, et des conclusions équivalentes sont tirées dans un cadre Neyman-Pearson (il est également plus facile à présenter aux gens plus à l'aise en voyant $ \ alpha = 0,05 $).

Cependant, le framework Fisher n'a pas de valeur $ \ alpha $. $ P $ -value est davantage considéré comme une preuve contre l'hypothèse nulle plutôt que comme un critère de décision difficile. Compte tenu de cela, est-il toujours raisonnable de corriger cette valeur $ p $ pour des comparaisons multiples?


Pour un contexte supplémentaire, je travaille dans un environnement orienté découverte de médicaments, et les conditions nécessaires à l'utilisation de Neyman -Pearson (en particulier les exigences d'alimentation) ne sont pas satisfaites. Le cadre de Fisher semble beaucoup plus approprié pour guider la poursuite de traitements prometteurs (en mode découverte et non en mode confirmatoire). Un exemple serait s'il existe des options de traitement potentielles de 5 $ par rapport à un contrôle, et la meilleure option a montré une différence cliniquement significative avec une signification à $ p = 0,045 $. Si cela n'est pas corrigé, cela semble prometteur et devrait être poursuivi. Si je le corrige en utilisant Bonferroni cependant, $ p = 0,225 $, et je retournerais probablement à la planche à dessin et jetterais tous les traitements $ 5 $.

[Note: je n'ai pas à corriger en utilisant Bonferroni non plus; c'est simplement l'exemple le plus simple. Je suis plus intéressé par la théorie de l'application des corrections pour les comparaisons multiples et les taux d'erreur au niveau de la famille.]

Deux réponses:
amoeba
2015-02-26 03:32:03 UTC
view on stackexchange narkive permalink

Suite à la réponse de @ MichaelLew (+1), j'ai changé mon point de vue pour le contraire; maintenant je pense que les valeurs de $ p $ ne devraient PAS être corrigées. J'ai retravaillé ma réponse.

Pour rendre la discussion plus vivante, je ferai référence à la célèbre bande dessinée XKCD où les couleurs à 20 $ de jelly beans sont testées indépendamment pour être lié à l'acné, et les bonbons à la gelée verts rapportent $ p<0,05 $; pour plus de précision, supposons que c'était $ p = 0,02 $:

green jelly beans

L'approche de Fisher consiste à considérer $ p $ -value comme quantifier la force de l'évidence, ou plutôt comme mesure de surprise ("surprise") - j'aime cette expression et la trouve intuitivement claire et en même temps assez précise. Nous prétendons que la valeur nulle est vraie et quantifions à quel point nous devrions être surpris d'observer de tels résultats. Cela donne une valeur $ p $. Dans l ' approche "hybride" de Fisher-Neyman-Pearson, si nous sommes plus surpris que certains seuils de surprise choisis ($ p< \ alpha $), nous appelons également les résultats "significatifs"; cela permet de contrôler le taux d'erreur de type I.

Surtout, le seuil doit représenter nos croyances et attentes antérieures. Par exemple, "les réclamations extraordinaires nécessitent des preuves extraordinaires": nous aurions besoin d'être très surpris de croire à la preuve, par exemple. clairvoyance, et voudrait donc fixer un seuil très bas.

Dans l'exemple des jelly beans, chaque $ p $ -value reflète le caractère surprenant de chaque corrélation individuelle. La correction de Bonferroni remplace $ \ alpha $ par $ \ alpha / k $ pour contrôler le taux d'erreur global de type I. Dans la première version de cette réponse, j'ai fait valoir que nous devrions également être moins surpris (et considérer que nous avons moins de preuves) en obtenant $ p = 0,02 $ pour les bonbons à la gelée verte si nous savons que nous avons exécuté des tests à 20 $, d'où Fisher's Les valeurs $ p $ devraient également être remplacées par $ kp $.

Maintenant, je pense que c'est faux, et les valeurs $ p $ ne devraient pas être ajustées.

Tout d'abord, soulignons que pour que l'approche hybride soit cohérente, il est impossible d'ajuster à la fois les valeurs $ p $ et le seuil $ \ alpha $. Seul l'un ou l'autre peut être ajusté. Voici deux arguments expliquant pourquoi il devrait être $ \ alpha $.

  1. Considérez exactement le même paramètre de jelly beans, mais maintenant nous a priori nous attendons ce vert les bonbons à la gelée sont susceptibles d'être liés à l'acné (par exemple, quelqu'un a suggéré une théorie avec cette prédiction). Alors nous serions heureux de voir $ p = 0,02 $ et ne ferions aucun ajustement à quoi que ce soit. Mais rien dans l'expérience n'a changé! Si $ p $ -value est une mesure de la surprise (de chaque expérience individuelle), alors $ p = 0,02 $ devrait rester le même. Ce qui change, c'est notre $ \ alpha $, et ce n'est que naturel, car comme je l'ai expliqué ci-dessus, le seuil toujours reflète d'une manière ou d'une autre nos hypothèses et nos attentes.

  2. $ P $ -value a une interprétation claire: c'est une probabilité d'obtenir les résultats observés (voire moins favorables) sous l'hypothèse nulle. S'il n'y a pas de lien entre les bonbons verts et l'acné, alors cette probabilité est de $ p = 0,02 $. Le remplacer par $ kp = 20 \ cdot 0,02 = 0,4 $ ruine cette interprétation; ce n'est plus une probabilité de quoi que ce soit. De plus, imaginez que ce ne sont pas les couleurs à 20 $ qui ont été testées, mais 100 $. Alors $ kp = 2 $, qui est plus grand que 1 $, et ne peut évidemment pas être une probabilité. Alors que réduire $ \ alpha $ de 100 $ a toujours du sens.

Pour le mettre en évidence, la «preuve» que les bonbons à la gelée verts sont liés à l'acné est mesurée comme $ p = 0,02 $ et c'est tout; ce qui change en fonction des circonstances (dans ce cas, du nombre de tests effectués), c'est la manière dont nous traitons ces preuves.

Je dois souligner que "la façon dont nous traitons les preuves" est quelque chose qui n'est pas du tout corrigé dans le cadre de Fisher non plus (voir cette célèbre citation). Quand je dis que les valeurs $ p $ devraient mieux ne pas être ajustées, cela ne signifie pas que Sir Ronald Fisher regarderait $ p = 0,02 $ pour les bonbons verts et considérerait cela comme un résultat convaincant. Je suis sûr qu'il s'en méfierait encore.

Métaphore de conclusion: le processus de cueillette des cerises ne modifie pas les cerises! Cela modifie la façon dont nous traitons ces cerises.

J'en suis venu moi-même à une pensée similaire.Si je fais 5 comparaisons, je serais moins surpris d'une petite valeur p que si je venais d'en faire une.
Même en termes de «preuves» (c'est ainsi que l'approche de Fisher est généralement formulée), je dirais personnellement qu'avec $ p <0,05 $, j'ai moins de preuves que [les bonbons à la gelée verts causent de l'acné] (http://xkcd.com/882 /), si je sais que j'ai testé 20 couleurs de jelly beans.Si vous voulez une opinion opposée, regardez [les réponses pertinentes d'@MichaelLew] (http://stats.stackexchange.com/search?q=user%3A1679+multiple+comparison) - il a préconisé à plusieurs reprises des ajustements de comparaison multiples pourvaleurs p.
Merci d'avoir accepté ma réponse (comme vous semblez être nouveau ici, permettez-moi de dire qu'en plus * d'accepter * les réponses que vous trouvez satisfaisantes, vous pouvez également * voter pour * toutes les réponses que vous trouvez utiles; accepter sans voterchose étrange à faire).Néanmoins, je vais essayer d'inviter @MichaelLew à répondre ici également.
@Joshua, en plus de ce que j'ai écrit ci-dessus: la réponse de Michael m'a fait reconsidérer le tout et j'ai finalement changé d'avis à ce sujet.J'ai réécrit ma réponse et vous invite à jeter un autre coup d'œil.
@amoeba Ces arguments contre l'ajustement me semblent assez solides, mais notez que les questions sur la façon de calculer les valeurs P doivent être considérées à la lumière de la façon dont les valeurs P vont être utilisées.S'ils doivent être connectés à un algorithme NHST irréfléchi, les valeurs P ajustées sont probablement plus sûres que les valeurs non ajustées.Cependant, des inférences réfléchies devraient être éclairées par les valeurs P non ajustées ainsi que par les caractéristiques du plan expérimental et de la méthode analytique.
Vous avez tous les deux touché à la lutte mentale dans laquelle je faisais des va-et-vient.J'apprécie beaucoup la façon dont @Michael's le formule (méthode expérimentale vs valeurs p probantes).Les ajustements visent à contrôler ce taux d'erreur de type I de longue date, mais je pense que cela doit être moins surpris si je fais k comparaisons.Peut-être que cela est mieux fait de manière plus informelle dans le processus de pondération de toutes les preuves ensemble (valeur P, taille de l'effet, conception, méthode d'échantillonnage, etc.) plutôt que formellement en ajustant une valeur P.
@Joshua: oui.La raison ultime pour laquelle vous ressentez le besoin d'être moins surpris si vous faites des comparaisons de $ k $, c'est que vous regardez la valeur de $ p $ la plus basse sur tous les $ k $ d'entre eux, puis * a posteriori * pensez à son caractère surprenant..Comme vous le savez bien sûr, cela s'appelle * la cueillette des cerises *.Ce que Michael et moi disons essentiellement, c'est que le processus de cueillette des cerises ne modifie pas les cerises!Au lieu de cela, il modifie la façon dont vous devez traiter ces cerises.
Oui, j'aime beaucoup ça.Ce fil a été très utile.Infiniment reconnaissant.
À propos de * surprise *, voir http://ilab.usc.edu/surprise/ et [ma réponse ici] (https://stats.stackexchange.com/questions/66186/statistical-interpretation-of-maximum-entropy-distribution/ 245198 # 245198).
Michael Lew
2015-02-28 05:41:24 UTC
view on stackexchange narkive permalink

La réponse d'Amoeba est bonne, mais ce n'est pas la réponse que je donnerais, comme il le note.

La réponse est, bien sûr, cela dépend. Cela dépend si vous voulez que la valeur P soit conditionnée par les résultats réels de la comparaison particulière ou qu'elle soit conditionnée en plus par le nombre de comparaisons que vous avez effectuées. Dans le premier cas, vous n'avez pas besoin d'ajuster la valeur P pour la multiplicité. Dans ce dernier cas, vous devriez le faire.

Pourquoi voudriez-vous conditionner le nombre de comparaisons? Pour permettre à un processus de décision basé sur un algorithme de fournir une garantie concernant le taux à long terme d'erreurs faussement positives.

Pourquoi ne voudriez-vous pas conditionner sur le nombre de comparaisons? Pour permettre à la valeur P de représenter la preuve dans les résultats expérimentaux particuliers d'intérêt sans être modifiée par la présence d'autres comparaisons impliquant d'autres données.

Le taux d'erreur à long terme est une propriété de la méthode, et la preuve est une propriété de l'ensemble particulier de données considéré. Un ajustement fréquentiste de la valeur P pour la multiplicité considère les propriétés de la méthode comme plus importantes que la signification probante de la valeur P. Je suis d'avis que la performance de la méthode qui a donné les données en question est un élément d'information utile à avoir pour déduire de la preuve, mais elle devrait être conservée comme une information distincte plutôt que d'être intégrée dans la preuve par «correction» de la valeur P. L'intégrer dans la preuve revient à modifier la preuve d'une manière qui enlève la responsabilité de l'inférence à l'analyste.

+1.Merci d'avoir rejoint la discussion, @Michael.Je dois dire que votre réponse m'a amené à repenser toute la question et j'ai en fait changé d'avis.Je pense que je suis d'accord avec vous maintenant!J'ai réécrit ma réponse.
Merci de votre participation. La façon dont vous le dites (processus de décision basé sur un algorithme vs preuves expérimentales individuelles) est très utile.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...