Question:
Des victoires statistiques célèbres et des histoires d'horreur à des fins pédagogiques
Placidia
2019-11-01 18:07:37 UTC
view on stackexchange narkive permalink

Je conçois un programme d'un an d'analyse de données avec un collège communautaire local. Le programme vise à préparer les étudiants à gérer les tâches de base dans l'analyse, la visualisation et la synthèse des données, les compétences avancées d'Excel et la programmation R.

Je voudrais préparer une série d'exemples courts et réels qui illustrent où l'intuition ordinaire échoue et où une analyse statistique est nécessaire. Je suis également intéressé par les "échecs statistiques célèbres", mais plus intéressé par les victoires. Les données concernées doivent être disponibles gratuitement.

Un exemple parfait de ce que je recherche est l'affaire de discrimination de Berkeley, qui illustre le paradoxe de Simpson. Les données pour cela sont mémorisées dans les ensembles de données de R.

Les cas historiques sont également intéressants. L'analyse par John Snow des données de la pompe Broad Street est un bon exemple de la puissance de la visualisation.

Il y a beaucoup d'échecs dans la collecte de données (biais de sélection), etc. et la littérature en statistique médicale en est pleine.

De nombreux "gains statistiques" se produisent dans le domaine de la sélection des variables et du plan d'échantillonnage. Je m'intéresse aux paradoxes qui se produisent dans d'autres domaines - comme l'analyse en tant que telle.

Voir cette question récente: https://stats.stackexchange.com/questions/432866/famous-easy-to-understand-examples-of-a-confounding-variable-invalidating-a-stud/432940#432940
Un très grand nombre d'exemples dans n'importe quelle édition de * Statistics * (Freedman, Pisani et Purves) sont de cette nature: c'est une des raisons pour lesquelles c'est un excellent livre.
"Le signal et le bruit", une lecture simple et non technique par Nate Silver, contient de nombreux exemples intéressants.Y compris comment de mauvaises hypothèses et des modèles statistiques défaillants ont contribué à l'effondrement du marché immobilier américain en 2008.
Une question de «grande liste» pour laquelle il n'y a pas de limite aux réponses correctes rend cela «trop large».
Je ne sais pas si vous pouvez en faire quelque chose, mais j'ai toujours aimé: 30% des décès en automobile impliquent des drogues ou de l'alcool;et 70% n'impliquent ni drogues ni alcool.Par conséquent, tout le monde devrait conduire drogué ou ivre parce que c'est plus sûr que de conduire sobre en 2: 1.
Le classique https://en.m.wikipedia.org/wiki/How_to_Lie_with_Statistics mérite également d'être mentionné.
XKCD pertinent: https://xkcd.com/1138/
Douze réponses:
Semoi
2019-11-01 21:20:21 UTC
view on stackexchange narkive permalink

J'ai beaucoup aimé le problème des chars allemands.Il montre comment des données généralement considérées comme non pertinentes deviennent des informations précieuses entre les mains d'un statisticien.De plus, j'ai aimé la loi des petits nombres et la erreur sur le taux de base.

[Simpson's Paradox] (https://en.wikipedia.org/wiki/Simpson%27s_paradox) est une autre erreur courante similaire au paradoxe des faux positifs (également appelée erreur du taux de base).Cela explique pourquoi, par exemple, la procédure médicale avec les chances de succès les plus élevées aura souvent paradoxalement un taux de réussite inférieur à d'autres options.
La virgule après "montre" est aussi allemande que les chars dont vous parlez.;) excellent exemple, BTW.
carlo
2019-11-01 19:41:28 UTC
view on stackexchange narkive permalink

R vs Sally Clark est un cas célèbre d'une femme condamnée pour meurtre parce que le tribunal n'était pas au courant des statistiques et des principes de base de probabilité.

Mais si je dois dire ce qui m'a le plus impressionné, lorsque j'ai commencé à étudier les statistiques, c'est la régression vers la moyenne, qui a également donné le nom à la régression statistique (même si c'estune chose complètement différente).Le lauréat du prix Nobel (d’économie, même s’il est psychologue), Daniel Kahneman, a raconté une anecdote fascinante sur la façon dont il avait réalisé comment la régression vers la moyenne pouvait conduire les gens à de fausses croyances.

Edit: Une autre histoire très instable qui m'est venue à l'esprit, et qui concerne plutôt l'importance des données manquantes, est celle d'Abraham Wald et des trous de balles des avions de guerre.

Joli!En fait, le point Kahneman est au cœur de la révolution de la qualité de Deming où il a critiqué les récompenses du «vendeur du mois» qui démoralisent les travailleurs en récompensant le hasard.Je vais l'utiliser à coup sûr.
Ce [cas] (https://arxiv.org/abs/math/0607340) (une infirmière condamnée pour un taux de mortalité élevé) est similaire.https://stats.stackexchange.com/a/314249/164061
L'histoire de Wald est une bonne pour démontrer le concept de [biais de survie] (https://en.wikipedia.org/wiki/Survivorship_bias).Il peut également être utilisé comme un exercice éclairant en demandant aux élèves de recommander où placer une armure supplémentaire.
corey979
2019-11-01 19:48:56 UTC
view on stackexchange narkive permalink

Pour illustrer là où l'intuition ordinaire échoue , le paradoxe de Monty Hall est un excellent point de départ.

Huy Pham
2019-11-01 18:50:12 UTC
view on stackexchange narkive permalink

Si l'échantillonnage fait partie de votre cours, il est difficile de battre Dewey bat Truman

J'ai oublié celui-là.Merci.
PsychometStats
2019-11-02 08:21:24 UTC
view on stackexchange narkive permalink

Un autre exemple intéressant de la façon dont les jeux de hasard peuvent mal tourner est l'exemple du casino de Monte Carlo.

Lors d'une partie de roulette au Casino de Monte Carlo le 18 août 1913, la balle est tombée en noir 26 fois de suite.C'était un événement extrêmement rare: la probabilité qu'une séquence de rouge ou de noir se produise 26 fois de suite est d'environ 1 sur 66,6 millions, en supposant que le mécanisme est sans biais.À ce moment-là, Gamblers a perdu des millions de francs en pariant contre les noirs, raisonnant à tort que la séquence provoquait un déséquilibre dans le caractère aléatoire de la roue, et qu'elle devait être suivie d'une longue traînée de rouge.

L'erreur du joueur et la la ruine du joueur donnent une bonne explication à cet exemple.

La roue était-elle gréée?Y a-t-il plus de discussion sur cette histoire dans la littérature statistique?
@innisfree à ma connaissance, ce n'était pas
Compte tenu de la quantité de roulette jouée dans le monde entier, une telle coïncidence se produit quelque part, quelque part, alors qu'elle est en fait tout à fait plausible;il devrait se produire environ une fois pour 66,6 millions d'opportunités.Mais il y a fort à parier que cela se produise à votre table particulière le soir où vous jouez.
@Chromatix absolument raison.Rappelez-vous simplement une étude de cas d'un homme qui a été frappé par un éclairage 7 fois au cours de sa vie.Également un événement très improbable, mais il n'est pas surprenant qu'il se soit produit tout au long de l'histoire
Il est également tout à fait plausible que des escrocs au début du XXe siècle aient truqué une roue de roulette dans un casino;)
L'état d'esprit fréquentiste: pour juger de la plausibilité qu'une séquence particulière de tours sur une table de roulette particulière à Monte Carlo en 1910 a été truquée, je dois penser à tous les tours (réalisés et non réalisés) sur toutes les tables du monde entier dans letoute l'histoire enregistrée de l'humanité: D
Pour info, la source de cette histoire semble être Huff & Geis (1959), How to Take a Chance.Mais je n'y ai pas accès.
Peter - Reinstate Monica
2019-11-03 23:11:54 UTC
view on stackexchange narkive permalink

Je trouve le paradoxe positif false remarquable car il est tellement contre-intuitif. Un bon exemple:

Le dépistage Cancer de la population générale n'augmente pas l'espérance de vie, même si clairement des vies sont sauvées car certains cancers sont détectés précocement et peuvent être mieux traités. En conséquence, le groupe de travail américain sur les services de prévention a cessé de recommander le dépistage systématique des femmes âgées de 40 à 49 ans en 2009.

C'est un bon matériel pédagogique car il s'agit d'un exemple concret non trivial qui concerne presque tout le monde à un moment donné de leur vie. Il y a un article du National Cancer Institute ici.

Le raisonnement va ainsi:

  • Le nombre d'incidents de cancer est petit, de sorte que le "nombre nécessaire pour traiter" (lire: écran) est grand.
  • Les tests sont assez fiables. Mais le faible taux d'incidence conduit à un grand nombre de faux positifs absolus avec la conséquence d'un grand nombre de biopsies inutiles (> 90% sont des faux positifs).
  • Les incidents de cancer appartiennent à l'un des sous-ensembles suivants:
    1. Des cancers agressifs qui tueront le patient quoi qu'il arrive.
    2. Cancers lents qui ne tueront pas le patient avant qu'il ne meure d'autres causes. Les détecter s'appelle surdiagnostic. D'après le document USPSTF: "Même avec une estimation prudente de 1 cas de cancer du sein sur 8 faisant l'objet d'un surdiagnostic, pour chaque femme qui évite de mourir au sein cancer grâce au dépistage, 2 à 3 femmes seront traitées inutilement. "
    3. Cancers qui seront traitables même lorsqu'ils sont détectés tardivement, sans dépistage.
    4. Cancers qui sont suffisamment agressifs pour tuer le patient lorsqu'ils sont détectés tardivement, mais qui sont toujours traitables lorsqu'ils sont détectés tôt.

Seule la classe 4 bénéficie du dépistage, au détriment d'un grand nombre de visites à l'hôpital inutiles, de biopsies inutiles et de nombreuses nuits blanches.Tous ces risques sont petits mais mesurables pour la santé qui s'accumulent sur le grand nombre nécessaire à traiter, l'emportant sur le bénéfice très réel pour le petit nombre du sous-ensemble 4.

La mammographie dans le pop général au-dessus de 40 ou au-dessus de 50 en est-elle un exemple clair?Très faible augmentation du risque de cancer du sein suite à une exposition aux rayons X multipliée par un très grand nombre de mammographies = une compensation à la prévention provoquée par la détection précoce de vos cancers du sein de type 4
@Alexis Oui, ça l'est.J'ai lié un article de l'USPSTF qui est assez éclairant.Ils ont arrêté de recommander le dépistage systématique pour les femmes plus jeunes.Pour les femmes âgées de 50 à 60 ans, il y a une chance de * 60% * pour un faux positif sur 10 ans, et toujours une chance de 9,4% pour une biopsie inutile.(Et notez que les "vrais positifs" incluent toujours les 4 de mes sous-ensembles, c'est-à-dire qu'un nombre important a été surdiagnostiqué ou mortel de toute façon.)
@Alexis Et je ne sous-estimerais pas les autres risques liés aux simples visites à l'hôpital, encore moins aux biopsies.Avec de multiples souches résistantes, toute procédure invasive est un risque important.Le tort causé par le seul mauvais diagnostic ou le surdiagnostic (sans aucun traitement!) Est également significatif.Les gens sont généralement en dehors d'eux-mêmes lorsqu'ils sont diagnostiqués avec un cancer, ne dorment pas bien, ne mangent pas bien, avec des effets secondaires (physiologiques, accidents, toxicomanie).Tout est assez petit mais pour un grand nombre.
Ioannis
2019-11-05 04:48:19 UTC
view on stackexchange narkive permalink

Loi de Benford:

Décrit ici. Les chiffres n'apparaissent pas avec une fréquence uniforme devant les nombres, mais suivent plutôt un modèle spécifique: le chiffre 1 est le plus susceptible d'être le premier chiffre, avec 30% de chance, suivi de 2 (17,6% de chance), et ainsi de suite le. L'image suivante (tirée de Wikipédia) montre la fréquence de chaque chiffre au début de chaque nombre, dans certains ensembles de données naturels:

Frequency of each digit at the beginning of each number, in some naturally-occurring datasets

Il y a certaines conditions dans lesquelles la loi s'applique (par exemple, les données doivent s'étendre sur plusieurs échelles, donc des choses comme la taille des personnes ne sont pas éligibles), mais c'est assez générique.

La application la plus surprenante est peut-être la détection de fraude. Ceci est basé sur l'hypothèse que les gens qui essaient de fabriquer des chiffres ont tendance à distribuer les chiffres uniformément, violant ainsi la loi de Benford.

Je me souviens qu'une fois, j'expliquais cela à une classe, et pendant la pause, l'un des étudiants a proposé une feuille de calcul comptable de son entreprise, dans laquelle il avait essayé de valider mes affirmations. Cela a fonctionné :)

Loi de Zipf

Décrit ici: la fréquence d'un mot dans un corpus est inversement proportionnelle à son rang. Ce qui est surprenant, c'est que cette relation vaut pour tout corpus, même pour les langues anciennes qui n'ont pas encore été traduites. Une vidéo intéressante expliquant pourquoi ce modèle peut tenir est ici. L'image suivante montre le rang (horizontal) par rapport à la fréquence (verticale) dans une échelle log-log pour les 10 premiers millions de mots dans 30 Wikipédias ( source). Notez que la loi prédirait une ligne droite: Rank vs Frequency

Ces deux lois sont puissantes et contre-intuitives, et dans le sens où elles améliorent la compréhension du monde via les statistiques, elles pourraient être qualifiées de "victoires statistiques".

Que signifie «rang» d'un mot?Ma première hypothèse est que cela signifie le rang (fréquence).Si tel est le cas, la partie intéressante est que la ligne entre les deux est si similaire, car elle est par définition monotone.
En effet, il s'agit du rang de fréquence (au sein d'un corpus spécifié).La partie intéressante est que le rang prédit si bien la fréquence - l'inverse est bien sûr vrai par définition.
Chromatix
2019-11-04 01:22:25 UTC
view on stackexchange narkive permalink

Mon exemple préféré, pour illustrer comment des statistiques erronées peuvent avoir des conséquences à long terme lorsqu'elles sont utilisées pour diriger la politique gouvernementale, est l'acte de vandalisme ferroviaire à grande échelle connu sous le nom de Beeching Axe. Il résulte de l’embauche d’un expert de l’industrie pétrochimique ( Richard Beeching) pour déterminer quelles parties du Royaume-Uni ont été engagées par un ministre des transports étroitement lié à l’industrie de la construction routière ( Ernest Marples). le réseau ferroviaire subissait des pertes et devrait donc être élagué.

Environ 4 000 milles de route ont été fermés en conséquence directe, avec un effet positif direct sur la demande de routes (et, inévitablement, une grande partie de la congestion actuelle). D'autres fermetures se sont poursuivies dans les années 80, notamment sur la route Woodhead, importante et relativement récemment modernisée, à travers les Pennines, et ne se sont interrompues que dans le cas de la ligne Settle & Carlisle, qui était autrefois la section nord du Midland. Ligne principale du chemin de fer.

Il est peut-être intéressant de noter que Marples a par la suite fui le pays pour échapper aux poursuites pour fraude fiscale. Des soupçons de conflits d'intérêts ont également été portés à l'époque, car il avait vendu sa participation de 80% dans son ancien bâtiment routier de Marples Ridgeway (comme légalement requis par sa nomination ministérielle) à sa femme, ce qui lui a facilité la tâche. pour les réacquérir ultérieurement.

Une bonne source sur le sujet est "J'ai essayé de diriger un chemin de fer" de Gérard Fiennes.

Les erreurs statistiques impliquées ici étaient en grande partie dues à une vision trop étroite du problème. Les gares des lignes secondaires ont été visitées pour examiner leurs recettes et faire des enquêtes sur le trafic - mais le trafic saisonnier qui utilisait la ligne et dont les billets étaient vendus ailleurs dans le pays a été ignoré. Dans de nombreux cas, les coûts ont été gonflés par des pratiques de travail obsolètes qui auraient pu être rationalisées, mais cette option n'a pas été envisagée au moment de choisir les lignes qui seraient entièrement fermées. Cela a également conduit certaines lignes dont les pertes n'étaient que légères, et qui ont indirectement profité aux chemins de fer dans leur ensemble grâce à «l'effet réseau» de pouvoir atteindre des destinations sans changement de mode, à être inscrites sur la liste de fermeture.

Ces erreurs ont été répétées dans le dernier rapport Serpell qui proposait un programme de fermeture encore plus drastique, mais qui a été heureusement rejeté.

Aujourd'hui, la demande de trafic ferroviaire augmente fortement en Grande-Bretagne, et les lignes sont nouvellement construites et rouvertes pour répondre à la demande. Certaines lignes fermées par les efforts de Beeching et Marples seraient très bénéfiques si elles existaient encore aujourd'hui.

L'histoire de la privatisation ultérieure des chemins de fer est également intéressante comme exemple de pensée erronée.Le chapitre 2 de Private Island en est un excellent récit.https://www.versobooks.com/books/1731-private-island
fr_andres
2019-11-02 08:38:01 UTC
view on stackexchange narkive permalink

Nice QA!voici mes deux centimes: il s'agit principalement de savoir comment la corrélation peut être très suspecte et de quelques moyens traditionnels de la résoudre:

https://www.tylervigen.com/spurious-correlations

https://en.wikipedia.org/wiki/Anscombe%27s_quartet

https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient

Pour élaborer un peu, le canon de corrélation vs causalité dans les statistiques modernes est certainement Judea Perl.Le livre (Web) de Nielsen fournit une bonne critique:

http://www.michaelnielsen.org/ddi/if-correlation-doesnt-imply-causation-then-what-does/

Je me souviens d'un livre de statistiques utilisant les observations de cigognes contre le taux de natalité pour faire valoir que la corrélation ne prouve pas nécessairement la causalité.
Cliff AB
2019-11-04 06:14:04 UTC
view on stackexchange narkive permalink

Je ne sais pas si cela compte comme "l'intuition échoue", mais plutôt une "analyse naïve donne une réponse contre-intuitive et trompeuse".

Un de mes professeurs de statistiques a présenté une étude concernant le lien entre le tabagisme et le FEV chez les jeunes étudiants.

Le VEMS peut être considéré comme une mesure du volume pulmonaire. Lorsque le professeur a présenté les données pour la première fois, il a demandé ce que nous pensions être la relation. Nous pensions tous que le tabagisme serait lié à une baisse du VEMS. Cependant, en regardant les données, ce n'était pas vrai! En fait, les fumeurs avaient un VEMS plus gros que les non-fumeurs. Ce cours était-il enseigné par un négationniste du tabagisme?

Ensuite, il a réanalysé les données, mais cette fois en ajustant l'âge. Une fois cela fait, nous avons vu ce que nous nous attendions à voir: un impact négatif du tabagisme sur le VEMS. Cela était dû au fait que les fumeurs étaient beaucoup plus susceptibles d'être des étudiants plus âgés que des étudiants plus jeunes. Bien que le tabagisme ait eu un impact négatif sur leur FEV, ce n'était pas tellement qu'il a complètement éliminé l'augmentation du FEV de grandir.

Un lien vers une présentation des données dans R est disponible ici.

+1 pour ajouter un lien vers les données.Bel exemple de confusion!
Michelle
2019-11-04 15:16:26 UTC
view on stackexchange narkive permalink

L'incapacité de montrer l'association entre la température de lancement et l'effet de la température de lancement sur les joints toriques de la navette spatiale, conduisant à la panne catastrophique du Columbia peu après le lancement. Un aperçu du problème est ici.

Pour ce que ça vaut, le lien que vous avez fourni ne capture pas tout à fait ce qui s'est passé.En fait, [les ingénieurs ont reconnu le problème à l'avance, mais les responsables ont ignoré leurs préoccupations.] (Https://en.wikipedia.org/wiki/Space_Shuttle_Challenger_disaster#O-ring_concerns)
Citant la même page Wikipédia: "Lorsqu'un directeur de Thiokol a interrogé Ebeling sur la possibilité d'un lancement à 18 ° F (−8 ° C), il a répondu" [Nous] sommes seulement qualifiés pour 40 ° [40 ° F ou 4° C] ... quelle affaire quelqu'un a-t-il même en pensant au 18 °, nous sommes dans un no man's land. '"
David Smith
2019-11-05 01:29:47 UTC
view on stackexchange narkive permalink

Depuis un an et demi, Bloomberg News a effectué des estimations périodiques de la production de Tesla 3 à l'aide de plusieurs sources de données.Ils viennent de terminer ce travail mais je pense que l'histoire est intéressante.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...