Terminologie recommandée «statistiquement significative»

Peter Flom

2019-12-24 19:58:36 UTC

view on stackexchange narkive permalink

Je ne pense pas que l’objection porte uniquement sur le terme «statistiquement significatif», mais sur l’abus de tout le concept de test de signification statistique et sur l’interprétation erronée de résultats qui sont (ou ne sont pas) ) statistiquement significatif.

En particulier, regardez ces six déclarations:

Les valeurs P peuvent indiquer à quel point les données sont incompatibles avec un modèle statistique spécifié.

Les valeurs P ne mesurent pas la probabilité que l'hypothèse étudiée soit vraie, ni la probabilité que les données aient été produites par le hasard seul.

Les conclusions scientifiques et les décisions commerciales ou politiques ne doivent pas être basées uniquement sur le fait qu'une valeur p dépasse un seuil spécifique.

Une inférence correcte nécessite des rapports et une transparence complets.

Une valeur p, ou signification statistique, ne mesure pas la taille d'un effet ou l'importance d'un résultat.

En soi, une valeur p ne fournit pas une bonne mesure des preuves concernant un modèle ou une hypothèse.

Ainsi, ils recommandent une manière plus complète de faire et de rapporter l'analyse que simplement donner une valeur p, ou même une valeur p avec un CI. Je pense que c'est sage et je ne pense pas que cela devrait être controversé.

Maintenant, passant de leur déclaration à mes propres opinions, je dirais que nous ne devrions souvent pas du tout mentionner la valeur p. Dans de nombreux cas, il ne fournit pas d'informations utiles. Presque toujours, nous savons à l'avance que la valeur nulle n'est pas exactement vraie et, bien souvent, nous savons qu'elle n'est même pas proche de la vérité.

Que faire à la place? Je recommande vivement les critères MAGIC de Robert Abelson: magnitude, articulation, généralité, intérêt et crédibilité. J'en dis beaucoup plus à ce sujet dans mon article de blog: Statistiques 101: les critères MAGIC.

(Mes opinions, contrairement à celles de l'ASA, sont controversées. Beaucoup de gens ne sont pas d'accord avec elles).

Un gros +1.Bien que je sois fortement en désaccord avec votre caractérisation et l'utilisation d'hypothèses nulles, vous avez clairement articulé votre position et, en cours de route, vous fournissez des informations utiles et bien étayées.

Karolis Koncevičius

2019-12-24 20:40:00 UTC

view on stackexchange narkive permalink

À mon avis, l'une des phrases les plus honnêtes mais non techniques serait quelque chose comme:

Le résultat obtenu est surprenant / inattendu (p = 0,03) sous l'hypothèse d'absence de différence moyenne entre les groupes.

Ou, si le format est autorisé, il pourrait être développé:

La différence obtenue de $ \ Delta m $ serait assez surprenante (p = 0,03) dans le scénario de deux groupes normalement distribués avec des moyennes égales et un écart typede $ \ sigma $ .Puisque nos données ne s'écartent pas trop des distributions utilisées dans le test, le résultat obtenu suggère soit que les moyennes réelles de deux groupes sont différentes, soit qu'un résultat d'échantillonnage rare s'est produit.

+1 pour la notion qu'une valeur p mesure inversement la surprenante.J'ajouterais que cela dépend également de la pertinence du modèle statistique et de l'échantillonnage.

J'appuie le +1 pour avoir mentionné qu'une valeur * p * est liée à la surprise.Dans un sens théorique de l'information, la quantité $ -log_2 (p) $ mesure la quantité d'informations (fournies par le test) par rapport à l'hypothèse testée.Cette valeur a également une interprétation agréable / intuitive.Voir le point 4 de mon A.

Une valeur p n'est pas plus valide lorsqu'elle est conçue comme une mesure de surprise que lorsqu'elle est conçue comme une mesure de signification statistique.

Ben

2019-12-25 13:45:17 UTC

view on stackexchange narkive permalink

Je suis d'accord avec la réponse de Peter Flom, mais j'aimerais ajouter un point supplémentaire sur l'utilisation du terme "signification" dans les tests d'hypothèses statistiques. La plupart des tests d'hypothèse d'intérêt en statistique ont une hypothèse nulle qui pose une valeur nulle pour un certain «effet» et une autre hypothèse qui pose une valeur non nulle (ou positive ou négative) pour cet «effet». Correctement interprétée, la p-value est une mesure de la preuve en faveur de l'hypothèse alternative, par rapport à l'hypothèse nulle (et sous le modèle stipulé). Ce n’est pas une mesure de l’ampleur de l’effet qui est censé être non nul dans l’hypothèse alternative. $ ^ \ dagger $

Compte tenu de cela, j'estime que la meilleure pratique pour rendre compte des résultats consiste à faire référence à quelque chose comme "preuve significative d'un effet non nul". L'important ici est que le quantificateur "significatif" soit ajouté à l '"élément de preuve" et non à "l'effet". À mon avis, dire quelque chose comme "il y a un effet significatif" est un raccourci dangereux qui commet l ' erreur de décalage de quantificateur --- en langage vulgaire, les preuves significatives d'un effet non nul sont très différentes de preuve d'un effet significatif. Un tel langage invite le lecteur à mal comprendre la signification de la valeur p et à associer la signification statistique à la signification pratique.

C'est l'abus le plus courant du terme «signification» que je vois dans les articles publiés et ailleurs. Il est omniprésent de voir des références à un "effet significatif" ou à un "effet statistiquement significatif", plutôt qu'à des "preuves significatives d'un effet différent de zéro".

$ ^ \ dagger $ Bien que ces choses soient évidemment liées mathématiquement.D'une manière générale, plus l'effet réel est grand, plus la distribution de la valeur p proche de zéro est concentrée.Nonobstant ce fait, la valeur p ne doit généralement pas être utilisée comme mesure de l'ampleur de l'effet.

statmerkur

2019-12-27 02:18:44 UTC

view on stackexchange narkive permalink

En général, je suis d'accord avec les déclarations suivantes dans l'éditorial Moving to a World Beyond "p < 0.05" qui fait partie du numéro spécial Statistical Inference in the 21st Century: A World Beyond p < 0.05 de The American Statistician:

Ce que vous ne trouverez PAS dans ce numéro est une solution qui remplace majestueusement le rôle démesuré de cette signification statistique est venu jouer. La communauté statistique n’a pas encore convergé vers un paradigme simple pour l'utilisation de l'inférence statistique dans les recherche - et en fait il ne le fera peut-être jamais.

Nous résumons nos recommandations en deux phrases totalisant sept mots: Accept incertitude. Soyez thoughtful, open, et modest. N'oubliez pas «ATOM».

Les auteurs des 43 articles du numéro spécial fournissent chacun des réponses (différentes) à votre question. Personnellement, j'aime beaucoup l'ensemble de suggestions suivantes que Sander Greenland donne (copié-collé de l'éditorial mentionné ci-dessus):

Remplacez toutes les déclarations sur la signification statistique d'un résultat par la p -valeur du test, et présenter la p -value comme une égalité, pas une inégalité. Par exemple, si p = 0,03 alors «… était statistiquement significatif »serait remplacé par«… avait p = 0,03 »et« p < 0,05 » serait remplacé par " p = 0,03." (Une exception: si p est si petit que la précision devient très faible alors une inégalité reflétant que la limite est appropriée; Par exemple, en fonction de la taille de l'échantillon, p -valeurs des approximations normales ou $ \ chi ^ 2 $ aux données discrètes manquent souvent même précision à 1 chiffre lorsque p < 0,0001.) En parallèle, si p = 0,25 alors «… n'était pas statistiquement significatif» serait remplacé par «… avait p = 0,25 "et" p > 0,05 "seraient remplacés par" p = 0,25 ".

Présentez les valeurs p pour plusieurs possibilités lors du test d'un paramètre ciblé. Par exemple, si vous discutez de la valeur p d'un test d'une hypothèse nulle, discutez également à côté de cette valeur nulle p une autre valeur p pour une possibilité de paramètre alternative plausible (idéalement celui utilisé pour calculer la puissance dans la proposition d'étude). Comme un autre exemple: si vous faites un test d'équivalence, présentez les valeurs p pour les bornes inférieure et supérieure de l'intervalle d'équivalence (qui sont utilisés pour les tests d'équivalence basés sur deux tests unilatéraux).

Afficher les intervalles de confiance pour les paramètres d'étude ciblés, mais également les compléter avec des valeurs p pour tester des hypothèses pertinentes (par exemple, les valeurs p pour les hypothèses nulles et alternatives utilisées pour la conception ou la proposition de l'étude, comme au n ° 2). Intervalles de confiance uniquement montrer clairement ce qui est dans ou hors de l'intervalle (c.-à-d. ne montre clairement que ce qui a p > 0,05 ou p ≤ 0,05), mais plus de détails est souvent souhaitable pour les principales hypothèses contestées. [...]

Complétez une p -value p focale avec sa transformation d'information Shannon (valeur s ou surprise) $ s = -log_2 (p) $ . Cela mesure le quantité d'informations fournies par le test par rapport aux hypothèse (ou modèle): arrondie, la valeur s s indique le nombre de têtes d'affilée, il faudrait voir en jetant une pièce pour obtenir le même quantité d'informations contre le fait que les lancers soient «équitables» (indépendant avec une probabilité de «têtes» de 1/2) au lieu d'être chargé pour les têtes.Par exemple, si p = 0,03, cela représente $ - log_2 (0,03) = 5 $ bits d'information par rapport à l'hypothèse (comme obtenir 5se dirige vers un procès «d'équité» avec 5 tirages au sort);et si p = 0,25, ce représente uniquement $ - log_2 (0.25) = 2 $ bits d’information par rapport au hypothèse (comme obtenir 2 têtes dans un procès «d'équité» avec seulement 2 tirages au sort).

Jay Schyler Raadt

2019-12-25 13:47:19 UTC

view on stackexchange narkive permalink

Si nous savons que l'hypothèse nulle n'est pas exactement vraie, mais que le résultat n'est pas statistiquement significatif, alors c'est un problème de taille d'échantillon ou de puissance statistique.La signification statistique n'est pas vraiment un objectif, c'est une nécessité que l'on atteint avec une puissance statistique appropriée.Étant donné la même taille d'effet, les résultats de deux expériences peuvent être statistiquement significatifs ou non selon la taille de l'échantillon.Cependant, je fais plus confiance à la taille de l'effet statistiquement significative que l'autre parce qu'elle avait une taille d'échantillon plus grande.

jerlich

2019-12-25 13:27:13 UTC

view on stackexchange narkive permalink

Vous pouvez simplement indiquer le résultat: "En moyenne, les Gurples mesuraient 10 cm de plus que les Cheebles (différence de hauteur = 10 [5, 14]; moyenne, IC à 95%, p = 0,03)."

Bien qu'il n'y ait rien de * mal * dans votre formulation, je pense que cela va à l'encontre de l'esprit de la déclaration de l'ASA.L'important n'est pas tant d'omettre le mot interdit, mais d'utiliser d'autres moyens pour exprimer la force des preuves.

J'ai inclus la moyenne et l'IC à 95%.C’est la manière recommandée d’exprimer le résultat.La valeur p est juste incluse pour les lecteurs de la vieille école.