Question:
L'insignifiance statistique est-elle fatale?
tom russell
2014-06-02 00:46:45 UTC
view on stackexchange narkive permalink

Je m'excuse si cette question a été posée à mort, mais en tant que non-statisticien, je ne sais vraiment pas quel est le résultat final. Je regarde un échantillon de 30 000 personnes qui ont fait l'objet d'une intervention économique. Cette intervention produit une augmentation moyenne du revenu annuel des sujets de 2000 $. Cependant, le résultat n'est pas statistiquement significatif aux niveaux habituels. D'un point de vue statistique, l'intervention a-t-elle échoué et, sinon, que peut-on faire de plus?

Comment avez-vous testé l'augmentation de la signification? Un groupe témoin a-t-il été utilisé?
L'amour le strict respect des idéaux de la méthode scientifique implicite dans la question. Mensonges, foutus mensonges et statistiques, non? :RÉ
@NathanCooper: Plus comme une adhésion stricte aux conventions de la pratique scientifique statistiquement naïve. Si les statistiques sont à blâmer, sa faute est de fournir des méthodes simples avec trop d'attrait dans des circonstances même inappropriées, ou de ne pas suffisamment souligner leurs limites. (La probabilité que les statistiques soient à blâmer est assez faible IMO.)
Cinq réponses:
heropup
2014-06-02 01:00:33 UTC
view on stackexchange narkive permalink

L'insignifiance statistique ne signifie pas que l'effet testé n'existe pas, mais plutôt que les données observées ne fournissent pas de preuves solides de l'existence de cet effet.

Par exemple, si vous avez un dé à six faces non chargé, mais les chiffres sur ses faces sont {1,2,3,4,5,5} au lieu de {1,2,3,4,5,6}, et vous le lancez seulement 3 fois, il peut ne pas être évident, à travers une taille d'échantillon aussi petite, que la matrice vous en donnerait plus de cinq. Cela ne signifie pas que le dé n'est pas différent d'un dé normal (après tout, nous avons l'avantage de l'inspecter et nous pouvons clairement voir qu'il est différent) - il se peut simplement que nous ayons besoin de collecter plus de données sur le le comportement observé de die afin de faire une inférence statistiquement significative sur les propriétés intrinsèques du dé.

De manière analogue, il se peut que même une taille d'échantillon de 30000 ne soit pas suffisante pour détecter une différence dans le comportement de votre population sous deux traitements, car votre test statistique a une faible puissance. Ou peut-être que la vérité est que l'augmentation moyenne que vous observez est en fait due au hasard et qu'aucun effet n'existe vraiment. Puisque vous n'avez pas spécifié votre tolérance pour l'erreur de type I, je ne peux pas vraiment en parler.

Ce qu'il faut retenir ici, c'est que l'échec de la détection de la signification ne signifie pas qu'aucun effet n'existe - cela signifie simplement que , par hasard ou par manque de puissance, les données fournissent des preuves insuffisantes pour affirmer que l'effet hypothétique existe avec un degré de confiance élevé.

Matt Krause
2014-06-02 03:06:08 UTC
view on stackexchange narkive permalink

Eh bien, ce n'est certainement pas une bonne nouvelle. Désolé.

Vos résultats ne fournissent aucune preuve de l'existence d'un effet. L'effet, bien sûr, peut encore exister: il pourrait être plus petit ou plus variable que prévu, ou votre expérience était en quelque sorte défectueuse et ne l'a pas détectée.

Alors, que pouvez-vous faire maintenant?

0) Vérifiez vos données . Assurez-vous que rien de stupide ne s'est produit. Les valeurs manquantes sont parfois codées comme 0s / -1s / 99s, et ces nombres ne doivent évidemment pas être entrés dans votre analyse en tant que valeurs réelles. De même, si vous randomisez des personnes vers des traitements / contrôles, assurez-vous que ces groupes sont réellement similaires. Les gens sont mordus par ce type de bogues tout le temps.

1) Effectuez une analyse de puissance. Idéalement, vous en auriez effectué une avant de commencer le projet, mais en faire une maintenant peut vous aide encore à déterminer si votre expérience, telle qu'elle est réalisée, aurait une chance raisonnable de détecter l'effet escompté. Sinon (peut-être que votre taux d'abandon / non-conformité était très élevé), vous voudrez peut-être effectuer une expérience plus large.

Vous ne devez pas ajouter de sujets, exécuter l'analyse et répéter jusqu'à ce que votre résultat devienne significatif, mais il existe de nombreuses stratégies pour atténuer les problèmes associés à plusieurs «regards» sur vos données.

2) Examinez les sous-groupes et les covariables. Peut-être que l'intervention que vous proposez fonctionne mieux dans une région géographique spécifique, ou pour des familles plus jeunes, ou autre. En général, il serait préférable de spécifier toutes ces comparaisons à l'avance, car l'exploitation des «degrés de liberté des expérimentateurs» peut augmenter considérablement le taux de faux positifs.

Cela dit, il n'y a rien de mal à chercher en soi . Il vous suffit d'être franc sur le fait qu'il s'agit d'analyses post-hoc / exploratoires et de fournir des preuves plus faibles qu'une étude explicitement confirmatoire. De toute évidence, cela aide beaucoup si vous pouvez identifier les raisons plausibles pour lesquelles les sous-groupes diffèrent. Si vous constatez un effet extrêmement important dans le Nord, mais rien dans le Sud ravagé par la sécheresse et la guerre, alors vous êtes en assez bonne forme. D'un autre côté, je serais beaucoup plus sceptique quant à l'affirmation selon laquelle cela fonctionne sur des sous-groupes de personnes nées pendant la pleine lune mais seulement à marée haute :-)

Si vous trouvez quelque chose, vous pouvez être tenté de publier tout de suite. Beaucoup de gens le font, mais votre argument serait beaucoup plus fort si vous pouviez le confirmer dans un deuxième échantillon. En guise de compromis, envisagez de présenter certaines de vos données comme un ensemble de validation; utilisez certaines des données pour rechercher des covariables et l'ensemble de validation pour confirmer votre modèle final.

3) Un résultat nul pourrait-il être informatif? Si des travaux antérieurs ont trouvé des effets similaires, il peut être utile de voir si vous identifiez des facteurs qui expliquent pourquoi ils ne se sont pas répétés dans votre population. La publication de résultats nuls / d'échecs de réplication est souvent délicate car il faut convaincre les réviseurs que votre expérience est suffisamment bien conçue et bien alimentée pour détecter l'effet recherché. Avec $ n = 30 000 $ cependant, vous êtes probablement en assez bonne forme sur ce front.

Bonne chance!

2) Je sens que quelqu'un pourrait saisir le mauvais bout du bâton ici. Si vous partez en expédition de pêche, vous perdez à peu près tout le pouvoir de preuve. Il est possible de rechercher des sous-groupes dans la conception initiale, mais il y a généralement suffisamment de groupes sensiblement distincts pour fournir des faux types I dans ce type d'analyse exploratoire.
@NathanCooper, vous avez absolument raison. Le document que j'ai lié décrit à quel point les expéditions de pêche peuvent devenir mauvaises (et c'est assez sombre) .Cependant, après avoir passé beaucoup de temps et d'argent à collecter des données, ce serait bien d'en tirer * quelque chose *, même si ce quelque chose est hypothèse provisoire qui doit être rigoureusement confirmée. Si l'inclusion de covariables très plausibles produit une taille d'effet importante, cela peut être relativement convaincant (mais oui, cela doit encore être confirmé explicitement). Si l'on a besoin d'une courtepointe folle d'inclusions et d'exclusions pour pousser quelque chose * juste * dans la signification, alors ... non.
Re # 1: vous semblez recommander une analyse de pouvoir post-hoc.Je ne pense pas que ce soit une chose utile à faire.J'aime cet article d'@rvl sur la question: http://www.stat.uiowa.edu/files/stat/techrep/tr378.pdf
Je visais quelque chose de légèrement différent.Un problème avec l'analyse de puissance post-hoc est qu'ils utilisent la taille de l'effet * observé * (dont nous savons déjà qu'elle est petite, sinon nous ne serions pas ici).Cependant, il n'est pas totalement fou de brancher la taille de votre effet * attendu * dans une analyse de puissance et de voir si votre expérience - en tant que run - aurait pu le détecter.Peut-être vous êtes-vous retrouvé avec beaucoup moins de données que dans votre plan initial (les sujets abandonnent souvent les expériences, le groupe de sujets peut être différent de ce à quoi vous vous attendiez, etc.).Je suis d'accord pour dire qu'il serait préférable d'effectuer une analyse de puissance au préalable.
Nick Stauner
2014-06-02 09:10:50 UTC
view on stackexchange narkive permalink

Concernant la question du titre: catégoriquement, non. Dans votre cas, pas assez d'informations, d'où mon commentaire et mon vote négatif. En outre, l'OMI, les questions qui combinent la signification statistique et pratique ont été traitées à moitié mortes ici, et vous n'en avez pas assez dit pour rendre votre question unique. Veuillez modifier; Je vais annuler mon vote négatif si je vois une amélioration (c'est verrouillé maintenant), et probablement mon vote positif si c'est substantiel. Votre question porte sur une idée fausse courante et importante qui mérite d'être menée jusqu'à la mort, mais telle quelle, il est difficile de dire quoi que ce soit de nouveau sur votre situation qui en ferait un exemple utile.

D'un point de vue statistique, l'intervention a-t-elle échoué, et sinon, que peut-on faire de plus?

Encore une fois, qu'avez-vous fait jusqu'à présent? Il est également fort possible que votre analyse ait échoué, pour emprunter votre terme (IMO, «failed» est clairement trop sévère dans les deux cas). C'est pourquoi j'ai posé des questions sur votre test. Les options d'analyse pré-post-traitement sont assez controversées, et l'échantillonnage aléatoire ou son absence est pertinent pour le choix des options analytiques (voir " Bonnes pratiques lors de l'analyse des modèles de contrôle pré-post-traitement") . C'est pourquoi j'ai posé une question sur un groupe de contrôle.

Si votre choix de test peut être amélioré, faites-le (évidemment). En plus de vérifier vos données (comme @MattKrause suggéré judicieusement), vérifiez les hypothèses de votre test. Il y en a beaucoup dans les conceptions pré-post habituelles, et elles sont souvent violées.

  • Les distributions normales sont probablement des modèles médiocres, en particulier pour les scores de changement et les données financières. Envisagez des analyses non paramétriques.
  • L'hétéroscédasticité est courante, surtout sans sélection aléatoire ou avec une intervention partiellement stochastique. Certains tests y sont plus sensibles que d'autres, en particulier les tests conventionnels.
  • L'ANCOVA conventionnelle ne suppose aucune interaction entre les interventions et les covariables. Si le revenu de base affecte la viabilité de l'intervention, vous devriez probablement utiliser la régression modérée à la place $ (\ text {Revenu final = Revenu de base + Intervention? + Interaction + Erreur} $, en gros), en supposant que vous ayez un groupe témoin. Sinon, avez-vous plus de 2 fois?

Quelles autres informations avez-vous sur vos individus? Explorer les covariables et les modérateurs est un bon moyen de réduire la quantité de «bruit» statistique (erreur) que le «signal» (effet) de votre intervention doit submerger pour que votre test le «détecte» (supporte le rejet du nul). Si vous pouvez expliquer beaucoup de variance par des moyens autres que votre intervention, ou expliquer pourquoi votre intervention n'affecte pas tout le monde de la même manière, vous pourriez avoir une meilleure idée de l'ampleur réelle de l'effet de votre intervention, toutes choses étant égales par ailleurs - ce qui est rarement l'état par défaut de la nature. Je crois que c'était l'esprit de la suggestion n ° 2 de Matt.

Concernant sa mise en garde, n'ayez pas peur d'explorer les covariables et les modérateurs que vous n'avez pas spécifiés à l'avance; adoptez simplement un état d'esprit exploratoire et reconnaissez explicitement cette transition épistémologique dans tout rapport que vous publiez. Le point crucial qu'il convient de répéter sur la signification statistique et pratique est que leur chevauchement est généralement limité. La signification pratique de la signification statistique réside dans ce que vous comptez en faire. Si vous recherchez des preuves pour soutenir des recherches ultérieures (par exemple, pour une subvention de recherche), le rejet des hypothèses exploratoires peut suffire. AFAIK, c'est le seul type de signification pratique que la signification statistique est supposée impliquer par défaut, et explique le choix de la terminologie historiquement: significative suffisamment pour justifier plus de recherche .

Si vous recherchez un point de vue statistique sur la valeur de votre intervention, vous posez probablement la mauvaise question. La signification statistique ne vise pas à répondre à cela par elle-même; il ne représente directement qu'une réponse à une question très spécifique sur une hypothèse nulle. Je suppose que cela équivaut à une autre suggestion: vérifiez votre hypothèse nulle. Il indique généralement par défaut que l'effet observé dans votre échantillon est entièrement dû à une erreur d'échantillonnage (c.-à-d. Effet de l'intervention = 0). Êtes-vous vraiment intéressé par quelque changement que ce soit? Dans quelle mesure en avez-vous besoin pour justifier l'intervention? Ces questions décident en partie de la nullité appropriée; vous devez y répondre.

Lors des tests de confirmation, vous devez répondre à l'avance. Puisque vous avez déjà exécuté un test, tout nouveau test du même type avec différentes hypothèses nulles mais le même échantillon serait exploratoire. À moins que vous ne puissiez collecter un autre échantillon, il serait probablement préférable de considérer les autres types de tests comme exploratoires également. Le sens strict du test d'hypothèse de confirmation est particulièrement strict à propos de la règle du "non-regard"; OMI, c'est une faiblesse du paradigme de test d'hypothèse dans son ensemble. AFAIK, l'analyse bayésienne peut être un peu moins stricte à ce sujet, et pourrait vous être particulièrement utile si vous pouvez collecter plus de données, car votre résultat actuel pourrait aider à informer votre distribution de probabilité antérieure.

Une autre façon d'aborder le problème consiste à se concentrer sur la taille de l'effet et votre intervalle de confiance. $ 2K est un changement dans la direction que vous vouliez, non? Si les résultats de votre test signifiaient ce que je pense que vous pensez qu'ils signifiaient, alors il y a plus de 5% de chances que vous trouviez un changement négatif si vous deviez répéter l'étude, en supposant que l'intervention n'a eu aucun effet. Si votre investissement a eu un effet positif, la probabilité est inférieure à votre valeur p . Si vous êtes suffisamment investi dans la perspective du traitement, vous devriez peut-être reproduire l'étude. Encore une fois, vous savez mieux que moi ce qui affecte cette décision.


P.S. Malgré mon intro, j'ai réussi à en dire beaucoup sur ce sujet "à moitié mort". J'espère avoir fourni un résumé utile d'idées autres que celles des réponses préexistantes, mais je ne serais pas surpris si une grande partie de cela ne vous est pas très utile personnellement. Une grande raison pour laquelle je voulais plus d'informations est que répondre correctement à une question vague nécessite pratiquement de couvrir beaucoup de bases inutiles, ce qui est une sorte de perte de temps. Néanmoins, si vous nous gratifiez d'une modification, je sous-entendrai probablement ce qui ne s'applique plus, et je pourrais développer ce qui continue de fonctionner. Il est évident d'après les vues entrantes que la question résonne avec le public ici, donc cela pourrait devenir une question très utile avec un peu plus de travail.

+1 pour discuter de l'importance de la signification pratique par rapport à la signification statistique (et merci pour les cris / élaborations!)
Je pense que la raison pour laquelle cette question est posée à mort est que, pour le profane, il n'y a tout simplement pas de phrase à emporter. C'est très déconcertant car si l'intervention est, par exemple, un nouveau médicament, connaître son efficacité est littéralement une question de vie ou de mort.
@tomrussell: une phrase à emporter ... À la question du titre: non, l'insignifiance statistique pourrait facilement représenter un échec à contrôler d'autres sources d'erreurs écrasantes plutôt qu'une conclusion d'effet nul. A la question de l'échec: non, d'un point de vue statistique, l'étude n'est pas concluante. Les statistiques peuvent rendre les conclusions d'une phrase dans les applications plus informatives qu'elles ne le seraient autrement, mais une pratique statistique appropriée prend certainement plus de patience à comprendre que cela. Les personnes n'ayant pas la capacité d'attention pendant plusieurs phrases devraient considérer l'éthique de la désinformation.
CoolBuffScienceDude
2015-08-20 19:26:22 UTC
view on stackexchange narkive permalink

En tant que bayésien, je me retrouve souvent à interpréter les expériences comme une preuve positive de l'hypothèse nulle. Je voudrais poser les questions suivantes:

  1. C'est une différence moyenne de \ $ 2 000, mais qu'est-ce que c'est en termes de différence moyenne standardisée?
  2. Quelle est la taille d'un (standardisé ) moyenne que vous vous attendriez à observer si cette intervention avait fonctionné?
  3. Quelle est la précision de votre estimation? Si l'estimation est de + \ $ 2000 +/- \ $ 20,000, alors vous n'avez pas beaucoup appris - il y a peut-être trop de variabilité pour savoir si votre intervention a fonctionné.
  4. Maintenant que vous avez observé cet effet apparemment nul dans un échantillon assez sain de 30 000 personnes, serait-il temps de dire que vous savez que l'intervention est moins susceptible d'être efficace?

De nombreuses considérations s'appliquent, bien sûr. Si vous regardez p = .02 lorsque votre seuil traditionnel est de .01, il serait insensé de conclure que l'hypothèse nulle est vraie, car les données sont probablement assez équiprobables sous les deux hypothèses.

Ainsi, je suggérerais de regarder la page Web de Zoltan Dienes et son calculateur de facteur Bayes. En spécifiant votre estimation de paramètre, sa précision et une plage plausible de valeurs de paramètre si votre intervention a fonctionné, vous pourriez obtenir un facteur Bayes vous indiquant s'il s'agit d'une preuve que votre intervention fonctionne ou ne fonctionne pas, ou s'il n'y a aucune preuve

Bien sûr, les réponses des autres commentateurs sont également importantes: vérifiez votre modèle, vérifiez vos données, etc. pour vous assurer que l'estimation de paramètre que vous avez est appropriée.

Aksakal
2015-08-20 20:04:49 UTC
view on stackexchange narkive permalink

Oui, c'est fatal pour l'intervention économique. La personne à qui vous démontrez vos résultats examinera la signification et déclarera que l'intervention n'a pas fonctionné.

Ceci est à condition que vous ayez correctement testé l'importance. Par exemple, les échantillons avec ou sans intervention sont similaires de manière raisonnable, ou que les différences ont été contrôlées pour etc. Il y a toutes sortes de biais à introduire par inadvertance dans ces tests, vous devez donc en tenir compte d’une manière ou d’une autre.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...