Question:
Y a-t-il un nom pour le phénomène des faux positifs dépassant de manière contre-intuitive les vrais positifs
Roger Heathcote
2019-10-14 16:29:22 UTC
view on stackexchange narkive permalink

Il semble très contre-intuitif pour de nombreuses personnes qu'un test de diagnostic donné avec une très grande précision (disons 99%) puisse générer massivement plus de faux positifs que de vrais positifs dans certaines situations, à savoir lorsque la population de vrais positifs est très petite par rapport àtoute la population.

Je vois des gens faire souvent cette erreur, par exemplelorsque je plaide pour des examens de santé publique plus larges, ou des mesures de surveillance anti-criminalité plus larges, etc., mais je ne sais pas comment décrire succinctement l'erreur que les gens font.

Ce phénomène / erreur statistique a-t-il un nom?À défaut, quelqu'un a une bonne intuition / exemple sans jargon qui m'aiderait à l'expliquer à un profane.

Toutes mes excuses si ce n'est pas le bon forum pour poser cette question.Si tel est le cas, veuillez me diriger vers une solution plus appropriée.

en guise de commentaire rapide, on dirait que le scénario a une «valeur prédictive positive» médiocre, ce qui pourrait être une autre avenue à envisager pour réfléchir à la manière d'expliquer.
Voulez-vous dire que le test génère plus de faux positifs que de vrais positifs en général, bien qu'il soit précis à 99% dans tous les cas, ou voulez-vous dire que le même test a un comportement différent en fonction du sous-ensemble de la population dont on parle?Parce que le taux de précision global implique déjà que le cas dont il a du mal à identifier les vrais positifs est la condition la plus rare."Quand la population de vrais positifs est très petite comparée ..." on dirait que cela caractérise le test sur des populations entières, et non des différences de comportement sur des sous-populations.Est-ce correct?
La réponse actuelle vous donne le terme, mais vous avez également demandé un exemple qui pourrait aider à expliquer cela à un profane: Prenons une maladie qui touche 1 personne sur 1000.Lors d'un test avec une précision de 99% sur 1000 personnes, 10 personnes sont classées de manière incorrecte.Donc, 1 personne peut être un vrai positif, mais il peut quand même y avoir 9 faux positifs.En général, la «précision» (en tant que mesure) n'a de sens que pour les distributions * équilibrées *.Sinon, «l'information» peut être une meilleure mesure.Voir https://en.wikipedia.org/wiki/Confusion_matrix#Table_of_confusion pour plus d'exemples.
@pygosceles Oui.Beaucoup de gens, sinon la plupart, ont l'intuition qu'un test précis à 99% implique un taux de faux positifs de 1% quel que soit le nombre de vrais positifs dans la population et la taille de la population.Il est contre-intuitif pour de nombreuses personnes qu'un test très précis puisse vous donner beaucoup plus de faux positifs que de vrais positifs dans certaines circonstances.
@technicalbloke On dirait qu'ils ne pensent même pas vraiment au vrai taux positif comme à sa propre chose, peut-être confondant à tort l'énorme proportion de vrais négatifs + vrais négatifs avec les vrais positifs, puisque les vrais négatifs déterminent la mesure de la précision pour des conditions rares, etalors ne dites rien sur les vrais taux positifs et faux positifs.Le fait de ne pas tenir compte des faux positifs semble aussi avoir confondu l'exactitude et le rappel et doit donc compléter leur concept de rappel avec précision, ce qui semble être au cœur de votre préoccupation.
Voir aussi: [Erreur du procureur] (https://en.wikipedia.org/wiki/Prosecutor%27s_fallacy), qui en est une conséquence.
M. Pi a la meilleure réponse.On pourrait aussi dire familièrement que "les résultats positifs ont un faible rapport signal / bruit", c'est peut-être plus accessible à une population plus large (... peut-être).Mais ceci décrit la situation indépendamment des erreurs intuitives et logiques. Il s'agit d'un cas de probabilité bayésienne classique qui est souvent exprimé à travers des tests médicaux ou le problème des tireurs d'élite.http://commonsenseatheism.com/?p=13156
Utilisez un test pour les vampires comme analogie.Si vous avez eu un test qui détermine correctement si quelqu'un est un vampire ou non et qui est précis à 99%, * chaque * positif est un faux positif.Cette analogie se double d'un test assez précis pour les personnes qui croient aux vampires.
Ce n'est pas nécessairement une erreur ou une «mauvaise chose».Cela pourrait être considéré comme un bon compromis coût-bénéfice pour les tests de _screening_ qui sont des tests bon marché qui ont une spécificité extrêmement élevée afin de ne pas manquer de vraies instances au détriment d'une faible précision (beaucoup de faux positifs).Ensuite, pour le moins grand nombre de positifs qui pourraient être garantis d'avoir tous les vrais positifs, utilisez un deuxième test plus coûteux pour éliminer la plupart des faux positifs.
Huit réponses:
Mr Pi
2019-10-14 19:29:37 UTC
view on stackexchange narkive permalink

Oui, il y en a.Généralement, il est appelé base rate fallacy ou plus spécifique false paradox.Il y a même un article wikipedia à ce sujet: voir ici

Bernhard
2019-10-14 18:38:09 UTC
view on stackexchange narkive permalink

Malheureusement, je n'ai pas de nom pour cette erreur. Quand j'ai besoin d'expliquer cela, j'ai trouvé utile de parler de maladies qui sont communément connues des profanes mais qui sont ridiculement rares. Je vis en Allemagne et bien que tout le monde ait lu sur la peste dans ses livres d'histoire, tout le monde sait qu'en tant que médecin allemand, je ne diagnostiquerai jamais un vrai cas de peste ni ne m'occuperai d'une morsure de requin.

Lorsque vous dites aux gens qu'il existe un test de détection des morsures de requin positif chez une personne sur cent en bonne santé, tout le monde sera d'accord, que ce test n'a pas de sens, quelle que soit sa valeur prédictive positive.

En fonction de l'endroit où vous vous trouvez et de votre public, des exemples possibles peuvent être la peste, la maladie de la vache folle (ESB), la progeria, la foudre. Il existe de nombreux risques connus, les gens sont bien conscients que leur risque est bien inférieur à 1%.

Modification / Ajout: Jusqu'à présent, cela a attiré 3 votes négatifs et aucun commentaire. Me défendre contre l'objection la plus probable: l'affiche originale a écrit

À défaut, quelqu'un a une bonne intuition / exemple concis et sans jargon qui m'aiderait à l'expliquer à un profane

Et je pense que c'est exactement ce que j'ai fait. M. Pi a posté sa meilleure réponse plus tard que j'ai posté mon explication profane et j'ai voté pour la sienne dès que je l'ai vue.

pygosceles
2019-10-16 00:31:08 UTC
view on stackexchange narkive permalink

L'erreur du taux de base est liée à la spécialisation à différentes populations, ce qui ne rend pas compte d'une idée fausse plus large selon laquelle une haute précision implique à la fois de faibles taux de faux positifs et de faibles taux de faux négatifs.

En abordant l'énigme de la haute précision avec un taux de faux positifs élevé, je trouve impossible d'aller au-delà des explications très superficielles, ondulées et inexactes sans présenter aux gens les concepts de précision et de rappel.

En termes simples, on peut simplement écrire deux valeurs d'intérêt au lieu du taux de "précision" trop simplifié:

  1. Parmi les personnes atteintes de la condition X, quelle proportion le test indique-t-il qu'elles sont atteintes de la condition X? C'est le taux de rappel. Des déterminations incorrectes sont de faux négatifs - des personnes qui auraient dû être diagnostiquées comme atteintes de la maladie, mais qui ne l'ont pas été.
  2. Parmi les personnes dont le test a indiqué qu'elles étaient atteintes de la condition X, quelle est la proportion de personnes atteintes de la condition X? C'est le taux de précision. Les déterminations incorrectes ici sont de faux positifs - les personnes dont nous avons dit qu'elles étaient atteintes de la maladie, mais pas.

Un test de diagnostic n'est utile que s'il donne de nouvelles informations. Vous pouvez leur montrer que pour le diagnostic de toute condition rare (disons, <1% des cas), il est trivialement facile de construire un test qui est très précis (précision> 99%!), Tout en ne nous disant rien que nous n'avons pas déjà savoir qui l'a ou ne l'a pas réellement: dites simplement à tout le monde qu'il ne l'a pas. Un nombre infini de tests ont la même précision mais échangent la précision pour le rappel et vice-versa. On peut obtenir une précision de 100% ou une précision de 100% en ne faisant rien, mais seul un test discriminant maximisera les deux. En fait, calculer et leur montrer la précision et les taux de rappel peut les informer et les aider à réfléchir intelligemment aux compromis et à la nécessité d'un test plus exigeant. La combinaison de tests offrant des informations différentes peut conduire à un diagnostic plus précis, même lorsque le résultat d'un test ou de l'autre est en lui-même inexact de manière inacceptable.

C'est la clé: le test nous donne-t-il de nouvelles informations ou non?

Ensuite, il y a aussi la dimension de l'aversion au risque: combien de faux positifs vaut-il la peine de subir pour trouver un vrai positif? Autrement dit, combien de personnes êtes-vous prêt à induire en erreur en pensant qu'elles ont quelque chose qu'elles pourraient ne pas avoir afin d'en trouver une qui en a? Cela dépendra du risque d'erreur de diagnostic, qui diffère généralement pour les faux positifs et les faux négatifs.

Modifier: Un autre avantage serait un test de confirmation ou des tests de plus en plus précis, peut-être retardés car ils sont plus chers.Les diagnostics avec un biais vers les faux positifs peuvent donc être utilisés de concert pour construire un tamis qui est un discriminateur rentable, éliminant la plupart des vrais négatifs dès le début.Cependant, cela entraîne également un danger accru pour les vrais positifs: vous voulez que les patients cancéreux reçoivent un traitement le plus tôt possible et qu'ils sautent à travers trois ou cinq cerceaux chacun nécessitant de deux semaines à un mois de planification à l'avance avant même de pouvoirl'accès au traitement peut aggraver leur pronostic d'un ordre de grandeur.Par conséquent, il est utile de prendre en compte conjointement d'autres tests moins coûteux lors du triage pour le suivi afin de hiérarchiser les patients qui ont la plus grande probabilité d'avoir la maladie, et d'effectuer plusieurs tests simultanément si possible.

Je pensais que l'erreur du taux de base consistait à ignorer le taux de base, le dénominateur.Si le test a une grande précision, le taux de base doit déjà être pris en compte, donc je ne vois pas comment ce serait une erreur de taux de base qui omet essentiellement de mentionner le dénominateur (le taux de base).
@Mitch Je peux voir ce que vous dites.Dans le cas particulier où la nouvelle population testée est l'un des sous-groupes de la population d'origine, et si la métrique d'intérêt est le taux de faux positifs, alors l'erreur du taux de base et le problème décrit par l'OP sont presque équivalents.Cependant, la plupart des définitions de l'erreur du taux de base que j'ai perçue abordent le problème comme un manque de généralisation entre deux populations potentiellement entièrement différentes.Je crois que la question du PO a plus à voir avec des malentendus sur les taux de faux positifs par rapport aux taux de vrais positifs au sein de la même population.
scott
2019-10-30 10:45:36 UTC
view on stackexchange narkive permalink

Dessinez-vous simplement un arbre de décision simple et cela devient évident.Voir ci-joint.Je peux également envoyer une feuille de calcul ultra simple qui illustre précisément l'impact.enter image description hereenter image description here

La question porte sur le * nom * du principe.
+1 (la question porte sur des exemples sans jargon à expliquer aux profanes, et je pense que l'utilisation de ces types de diagrammes de fréquence naturelle est une aide utile)
@SextusEmpiricus Je conviens qu'il pourrait être utile d'avoir une expression très compacte et bien articulée de la question, mais il peut être difficile de donner un nom court à quelque chose qui est nuancé et dont beaucoup de gens ne sont pas encore conscients.Les suggestions sont les bienvenues.
@pygosceles ce n'est pas une réponse à la question.
meh
2019-11-01 00:37:27 UTC
view on stackexchange narkive permalink

En retard dans le jeu, mais voici certaines choses que d'autres n'ont pas mentionnées.

1) Premièrement, il y a une statistique appelée Kappa ou Kappa de Cohen qui mesure à quel point une méthode s'améliore par rapport à la supposition aléatoire. Pour un test avec deux résultats, deviner au hasard consiste simplement à deviner la classe majoritaire. Par exemple, si une maladie est portée par 1% de la population, un test qui dit «vous n'avez pas la maladie» à tout le monde est précis à 99%. Inutile, mais précis à 99%. Kappa mesure à quel point un test s'améliore par rapport à des suppositions aléatoires. Voir wikipedia pour la formule, mais en gros, elle mesure le pourcentage d'amélioration par rapport à la supposition aléatoire capturée par votre méthode. Donc, dans mon exemple, un test précis à 99,5% aurait un kappa de 0,5, soit 50% de l'amélioration de 1% dans le meilleur des cas.

2) Tout cela est également lié au théorème de Bayes / Bayes. Supposons qu'une condition est rare - se produit dans 0,01% de la population et que le test de la condition est précis à 99% (et détecte toujours la condition). Bayes dit que votre chance antérieure d'avoir la maladie est de 0,01%. Cependant, la probabilité d'avoir la maladie, étant donné un test positif est seulement (.0001 / .01) = 1%. La formule est P (Cond | test = Y) = P (Cond) / P (test = Y). C'est le théorème de Bayes.

3) Enfin, ce genre de paradoxe apparent revient, à mon humble avis, au fait que la probabilité n'est pas intuitive. Des choses comme celle-ci ont des noms différents. Mais des exemples de ce phénomène sous différentes formes ont été appelés, entre autres, le problème du «paradoxe du procureur» et du «Monty Hall». Je pense que je suis déjà à tldnr, alors cherchez-les sur Wikipedia si ce n'est déjà pas ennuyé.

Avoir le terme pour Kappa semble utile, car il se normalise pour le taux de base et exprime ainsi un pouvoir discriminant.J'ai toujours eu du mal à attribuer des lettres grecques et des noms de personnes à une solution ou à un concept jusqu'à ce que je puisse d'abord apprécier le problème.Le théorème de Bayes est en effet une clé pour comprendre le tout.J'expliquerais d'abord le concept aux nouveaux arrivants, puis je leur dirais le nom du découvreur une fois qu'ils ont apprécié ce qu'il a fait.
Curt
2019-10-30 20:47:39 UTC
view on stackexchange narkive permalink

Comme pour de nombreuses questions et réponses, cela dépend ...

Dans le cas du dépistage du cancer (mammographie, coloscopie, etc.) et de nombreux autres tests de dépistage d'une maladie ou d'un état, c'est presque toujours le cas. Pour qu'un test de dépistage ait une certaine valeur, il doit être suffisamment «sensible» pour détecter les cas relativement rares (disons 1% ou parfois beaucoup moins) de la maladie à examiner. La vraie fraction positive (TPF) est presque toujours inférieure à la fraction de faux positifs (FPF).

C'est pourquoi il y a toujours un nouveau test (en appliquant à nouveau le même test) ou des tests de suivi (probablement plus coûteux mais une "spécificité" plus élevée), pour ensuite éliminer les faux positifs.

Donc, dans un sens, le nom que vous demandez est "test de dépistage"!

Le terme «exactitude» a une signification technique très particulière, qui n'est pas nécessairement la signification courante ou communément considérée comme une situation. La plupart du «bon sens» est lié à 50% 50% de chances, que vous ayez un cancer ou non.

Depuis la page wiki: https://en.wikipedia.org/wiki/Receiver_operating_characteristic

accuracy

Une autre façon de le dire est qu'un test est précis s'il obtient la plupart des cas corrects. Quelle est la définition courante. Mais si la condition est rare et que le test est "sensible", il peut (et en fait devrait et doit) donner des faux positifs.

1% de prévalence, 1000 tests, 10 vrais positifs, 20 faux positifs

précision = (10 + (1000 - 10 - 20)) / 1000 = 98%

Encore une autre manière technique de dire cela est que les tests de dépistage ont tendance à opérer du côté haute sensibilité (fort faux positif) de la soi-disant caractéristique de fonctionnement du récepteur (ROC). On veut attraper tous les vrais positifs, au détriment des faux positifs, qui seront retestés et largement éliminés.

Liés au post de jmf7 sur la valeur prédictive positive, les tests de dépistage sont conçus pour avoir une «valeur prédictive négative» élevée ou dire avec certitude que le patient n'a pas la maladie / condition. Les cas malheureux mais inévitables qui sont des faux positifs passent ensuite à l'étape suivante des tests de suivi.Il y a souvent une anxiété inévitable même lorsque les statistiques et les probabilités sont bien expliquées et comprises.
J'aime beaucoup le fait que vous ayez introduit la notion de «spécificité» - je suis surpris qu'aucune réponse ne soit approfondie en comparant la sélectivité et la spécificité en tant que concepts scientifiques liés à cela.
LDBerriz
2019-11-01 19:29:03 UTC
view on stackexchange narkive permalink

Regardez cet outil d'application brillant https://kennis-research.shinyapps.io/Bayes-App/ qui explique la relation entre la sensibilité, la spécificité et la prévalence.Essentiellement, la capacité du test à découvrir de vrais positifs est fonction à la fois de l'efficacité du test (sensibilité et spécificité) et de la prévalence de la condition testée.

Clyde Wilbur
2019-10-31 00:13:18 UTC
view on stackexchange narkive permalink

Utilisez la méthode KISS pour l'expliquer à tout le monde ... Keep It Simple Stupid K.I.S.S..

En comptabilité, un simple audit commence par un échantillon de 1% du total des transactions pour une (des) dépense (s) ou revenu (s) spécifique (s) par rapport aux dépôts bancaires réels retraits &.S'ils ne correspondent pas ou "s'additionnent".Vous augmentez la taille de l'échantillon jusqu'à 5%.Plus vous trouvez d'erreurs, plus le pourcentage de votre échantillon augmente à la recherche d'erreurs ou de fraudes.Jusqu'à 100%.

Un exemple encore plus simple pour les statisticiens est la loi des grands nombres.Plus le nombre d'échantillons individuels est grand, plus le résultat est précis.

L'effet opposé est ce que j'appelle la loi des nombres minuscules.Cela signifie que l'échantillon est trop petit pour refléter la vraie précision.

J'espère que cela vous aidera!



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...