Démystifier une mauvaise déclaration CLT

Dave

2020-06-22 21:14:34 UTC

view on stackexchange narkive permalink

Le théorème de limite centrale (CLT) donne quelques propriétés intéressantes sur la convergence vers une distribution normale. Avant d'étudier officiellement les statistiques, j'avais la très mauvaise impression que le CLT disait que les données se rapprochaient de la normalité.

Je me retrouve maintenant à me disputer avec des collaborateurs à ce sujet. Je dis que $ 68 \% $ des données n'a pas besoin d'être dans un écart type de la moyenne lorsque nous avons des distributions non normales. Ils sont d'accord mais disent ensuite que, d'après le CLT, puisque nous avons beaucoup d'observations (probablement 50000), nos données sont très proches de la normale, nous pouvons donc utiliser la règle empirique et dire que 68 $ \% $ des données sont à un écart-type de la moyenne. Ceci est, bien sûr, faux. La population ne se soucie pas du nombre d'observations qui en sont tirées; la population est la population, que nous en échantillonnions ou non!

Quel serait un bon moyen d'expliquer pourquoi le théorème central de la limite ne concerne pas la convergence empirique de la distribution?

Eh bien, la distribution d'échantillonnage (distribution de $ X_1, X_2, \ cdots, X_n $, ou de $ \ bar {X} $, la moyenne de l'échantillon d'ailleurs) ne converge pas non plus vers une distribution normale.Donc, vous devez être plus précis sur ce sur quoi vous voulez vous plaindre.

@DilipSarwate édité.Je me contente de dire aux collaborateurs que le CLT dit que quelque chose de proche de l'échantillon signifie converger vers la normalité (je sais que c'est faux, mais c'est probablement assez proche pour une discussion informelle ... Je n'ai pas besoin d'expliquer pourquoi la convergence dans la distribution signifie, non plus), mais j'ai du mal à expliquer pourquoi la population ne converge pas vers la normalité.

se concentrer sur ce qui converge exactement vers la normale selon CLT.de cette façon, vous pointez facilement vers ce qui n'est * pas * convergent

Demandez à vos collaborateurs de vérifier leurs conclusions lorsque les données sont binaires, comme l'indicateur du flip of a fair coin.

Je ne pense pas qu'il y ait un bon moyen d'expliquer cela aux gens qui sont incapables de suivre un raisonnement logique.Alors, apprenez peut-être simplement à vivre avec vos collaborateurs

Une distribution d'échantillon diverge vers la distribution de population lorsque les nombres augmentent (et vous pouvez le montrer avec plusieurs simulations / tests / exemples).La discussion entre vous et vos collègues semble porter davantage sur la confusion des définitions / termes.Que signifie «nos données sont très proches de la normale»?Peut-être est-il utile d'expliquer dans quelle discussion sous-jacente cela a-t-il été utilisé?Quel est le problème sur lequel vos collègues appliquent une approximation avec une distribution normale?Quel genre de données avez-vous, pourquoi ces données ne permettent-elles pas de montrer facilement que $ 68 \% \ neq 1sd $?Qu'est-ce qui est comparé?

Donc, ce que j'essaie de dire, c'est que, peut-être que vos collègues ne sont pas corrects dans leurs mots (ou peut-être que vous ne les paraphrasez pas correctement), mais nous ne devrions pas peser trop lourdement ces mots (nous ne pouvons pas blâmer les pensées qui les sous-tendent).quand ils ne sont pas exprimés avec beaucoup de rigueur) et nous devrions plutôt essayer de comprendre les pensées sous-jacentes.Par conséquent, pourquoi ne clarifieriez-vous pas la question sous-jacente et ne partageriez pas le problème où ce CLT est censé s'appliquer?C'est beaucoup plus clair qu'une vision unilatérale de la discussion entre vous et vos collègues.https://en.wikipedia.org/wiki/XY_problem

@Dave pourriez-vous décrire le problème sous-jacent.Vous écrivez explicitement que vos collègues sont d'accord.On ne sait donc pas à quoi ils font référence lorsque vous utilisez le mot données deux fois.* "Je dis que 68% des données n'ont pas besoin d'être à un écart-type de la moyenne" * versus * "Ils sont d'accord mais disent ensuite ... que 68% des données sont à un écart-type de la moyenne" *.J'ai l'idée qu'ils pourraient signifier autre chose (car je considère que leur référence aux «données» est «la moyenne des données») mais il n'est pas clair de le dire sans connaître le problème sous-jacent.

Est-ce que cela répond à votre question?[Quelle explication intuitive y a-t-il pour le théorème de la limite centrale?] (Https://stats.stackexchange.com/questions/3734/what-intuitive-explanation-is-there-for-the-central-limit-theorem)