Question:
Démystifier une mauvaise déclaration CLT
Dave
2020-06-22 21:14:34 UTC
view on stackexchange narkive permalink

Le théorème de limite centrale (CLT) donne quelques propriétés intéressantes sur la convergence vers une distribution normale. Avant d'étudier officiellement les statistiques, j'avais la très mauvaise impression que le CLT disait que les données se rapprochaient de la normalité.

Je me retrouve maintenant à me disputer avec des collaborateurs à ce sujet. Je dis que $ 68 \% $ des données n'a pas besoin d'être dans un écart type de la moyenne lorsque nous avons des distributions non normales. Ils sont d'accord mais disent ensuite que, d'après le CLT, puisque nous avons beaucoup d'observations (probablement 50000), nos données sont très proches de la normale, nous pouvons donc utiliser la règle empirique et dire que 68 $ \% $ des données sont à un écart-type de la moyenne. Ceci est, bien sûr, faux. La population ne se soucie pas du nombre d'observations qui en sont tirées; la population est la population, que nous en échantillonnions ou non!

Quel serait un bon moyen d'expliquer pourquoi le théorème central de la limite ne concerne pas la convergence empirique de la distribution?

Eh bien, la distribution d'échantillonnage (distribution de $ X_1, X_2, \ cdots, X_n $, ou de $ \ bar {X} $, la moyenne de l'échantillon d'ailleurs) ne converge pas non plus vers une distribution normale.Donc, vous devez être plus précis sur ce sur quoi vous voulez vous plaindre.
@DilipSarwate édité.Je me contente de dire aux collaborateurs que le CLT dit que quelque chose de proche de l'échantillon signifie converger vers la normalité (je sais que c'est faux, mais c'est probablement assez proche pour une discussion informelle ... Je n'ai pas besoin d'expliquer pourquoi la convergence dans la distribution signifie, non plus), mais j'ai du mal à expliquer pourquoi la population ne converge pas vers la normalité.
se concentrer sur ce qui converge exactement vers la normale selon CLT.de cette façon, vous pointez facilement vers ce qui n'est * pas * convergent
Demandez à vos collaborateurs de vérifier leurs conclusions lorsque les données sont binaires, comme l'indicateur du flip of a fair coin.
Je ne pense pas qu'il y ait un bon moyen d'expliquer cela aux gens qui sont incapables de suivre un raisonnement logique.Alors, apprenez peut-être simplement à vivre avec vos collaborateurs
Une distribution d'échantillon diverge vers la distribution de population lorsque les nombres augmentent (et vous pouvez le montrer avec plusieurs simulations / tests / exemples).La discussion entre vous et vos collègues semble porter davantage sur la confusion des définitions / termes.Que signifie «nos données sont très proches de la normale»?Peut-être est-il utile d'expliquer dans quelle discussion sous-jacente cela a-t-il été utilisé?Quel est le problème sur lequel vos collègues appliquent une approximation avec une distribution normale?Quel genre de données avez-vous, pourquoi ces données ne permettent-elles pas de montrer facilement que $ 68 \% \ neq 1sd $?Qu'est-ce qui est comparé?
Donc, ce que j'essaie de dire, c'est que, peut-être que vos collègues ne sont pas corrects dans leurs mots (ou peut-être que vous ne les paraphrasez pas correctement), mais nous ne devrions pas peser trop lourdement ces mots (nous ne pouvons pas blâmer les pensées qui les sous-tendent).quand ils ne sont pas exprimés avec beaucoup de rigueur) et nous devrions plutôt essayer de comprendre les pensées sous-jacentes.Par conséquent, pourquoi ne clarifieriez-vous pas la question sous-jacente et ne partageriez pas le problème où ce CLT est censé s'appliquer?C'est beaucoup plus clair qu'une vision unilatérale de la discussion entre vous et vos collègues.https://en.wikipedia.org/wiki/XY_problem
@Dave pourriez-vous décrire le problème sous-jacent.Vous écrivez explicitement que vos collègues sont d'accord.On ne sait donc pas à quoi ils font référence lorsque vous utilisez le mot données deux fois.* "Je dis que 68% des données n'ont pas besoin d'être à un écart-type de la moyenne" * versus * "Ils sont d'accord mais disent ensuite ... que 68% des données sont à un écart-type de la moyenne" *.J'ai l'idée qu'ils pourraient signifier autre chose (car je considère que leur référence aux «données» est «la moyenne des données») mais il n'est pas clair de le dire sans connaître le problème sous-jacent.
Est-ce que cela répond à votre question?[Quelle explication intuitive y a-t-il pour le théorème de la limite centrale?] (Https://stats.stackexchange.com/questions/3734/what-intuitive-explanation-is-there-for-the-central-limit-theorem)
Six réponses:
Stephan Kolassa
2020-06-23 01:57:23 UTC
view on stackexchange narkive permalink

Comme le note Whuber, vous pouvez toujours diriger vos collaborateurs vers une distribution discrète binaire. Mais ils pourraient considérer que «tricher» et revenir à l'affirmation la plus faible selon laquelle l'instruction proposée ne s'appliquait qu'aux distributions continues.

Utilisez donc la distribution uniforme sur l'intervalle unitaire $ [0,1] $ . Il a une moyenne de $ \ mu = 0,5 $ , une variance de $ \ frac {1} {12} $ , donc un écart type de $ \ sigma = \ frac {1} {\ sqrt {12}} \ environ 0,289 $ . Mais bien sûr, l'intervalle $ [\ mu- \ sigma, \ mu + \ sigma] \ approx [0.211,0.789] $ de longueur $ 2 \ sigma \ approx 0.577 $ ne contient que 57,7 $ \% $ de vos données (plus précisément: à mesure que la taille de l'échantillon augmente, la proportion approche 0,577 $ ), pas 68 $ \% $ , quel que soit le nombre de points de données que vous échantillonnez.

Dans votre exemple uniforme, en utilisant les statistiques de l'échantillon, la proportion d'observations dans $ [m-s, m + s] $ se rapproche de 0,577 $ à mesure que la taille de l'échantillon augmente
Merci @Henry:.J'ai rendu ma déclaration un peu plus précise.
Merci @Alexis:!Je ne sais pas trop où vous pensez qu'un "parce que" aurait du sens ... voulez-vous simplement le modifier?
Si je comprends bien l'intention d'Alexis, je pense que * parce que * changerait le sens dans une mauvaise direction.
@Alexis, désolé, j'ai mal compris ce que vous vouliez dire.Maintenant éclairci.
Merci @Alexis: pour l'élaboration.En fait, je ne pense pas qu'il y ait quelque chose de particulièrement intéressant ici.C'est souvent le cas où A fait une fausse déclaration, B fournit un contre-exemple (comme celui de Whuber ici), puis A se retire vers une affirmation plus faible (et toujours fausse)."Ne soyez pas stupide, * bien sûr * je ne parle pas ici de distributions discrètes!"Ce serait en fait une conversation intéressante à avoir, si la revendication originale et sa version la plus faible ne présentaient pas un malentendu aussi profond.
Ben
2020-06-23 15:25:09 UTC
view on stackexchange narkive permalink

C'est une incompréhension assez omniprésente du théorème central limite, que j'ai également rencontré dans mon enseignement statistique. Au fil des années, j'ai rencontré ce problème si souvent que j'ai développé une méthode socratique pour y faire face. J'identifie un élève qui a accepté cette idée, puis je l'engage à comprendre ce que cela impliquerait logiquement. Il est assez simple d'accéder à la reductio ad absurdum de la fausse version du théorème, à savoir que chaque séquence de variables aléatoires IID a une distribution normale . Une conversation typique ressemblerait à ceci.

Teacher: J'ai remarqué dans cette question de devoir que vous avez dit que parce que $ n $ est volumineux, les données sont à peu près normalement distribuées. Pouvez-vous m'expliquer votre raisonnement sur ce point?

Student: Est-ce que c'est faux?

Teacher: Je ne sais pas. Jetons un coup d'œil.

Student: Eh bien, j'ai utilisé ce théorème dont vous avez parlé en classe; celui principal que vous avez mentionné plusieurs fois. J'ai oublié le nom.

Teacher: Le théorème de la limite centrale?

Student: Ouais, le théorème de la limite centrale.

Teacher: Génial, et quand ce théorème s'applique-t-il?

Student: Je pense que si les variables sont IID.

Teacher: Et ont une variance finie.

Student: Ouais, et variance finie.

Teacher: D'accord, donc les variables aléatoires ont une distribution fixe avec une variance finie, n'est-ce pas?

Student: Ouais.

Teacher: Et la distribution ne change pas ou quoi que ce soit?

Student: Non, ce sont des IID avec une distribution fixe.

Teacher: Très bien, alors laissez-moi voir si je peux énoncer le théorème. Le théorème de la limite centrale dit que si vous avez une séquence IID de variables aléatoires avec une variance finie, et que vous prenez un échantillon de $ n $ , alors comme cette taille d'échantillon $ n $ devient grand la distribution des variables aléatoires converge vers une distribution normale. Est-ce vrai?

Student: Oui, je pense que oui.

Teacher: Très bien, alors réfléchissons à ce que cela signifierait. Supposons que j'ai une séquence comme celle-là. Si je prends par exemple un millier de valeurs d'échantillon, quelle est la distribution de ces variables aléatoires?

Student: C'est à peu près une distribution normale.

Teacher: À quelle distance?

Student: Assez proche je pense.

Teacher: D'accord, et si je prends un milliard de valeurs d'échantillon. À quelle distance maintenant?

Student: Vraiment proche, je dirais.

Teacher: Et si nous avons une séquence de ces choses, alors en théorie nous pouvons prendre $ n $ aussi haut que nous le voulons, n'est-ce pas? Nous pouvons donc rendre la distribution aussi proche d'une distribution normale que nous le souhaitons.

Student: Ouais.

Teacher: Supposons donc que nous prenions $ n $ assez grand pour que nous soyons heureux de dire que les variables aléatoires ont fondamentalement une distribution normale. Et c'est une distribution fixe, non?

Student: Ouais.

Teacher: Et ils sont IID, non? Ces variables aléatoires sont IID?

Student: Ouais, ils sont IID.

Teacher: D'accord, donc ils ont tous la même distribution.

Student: Ouais.

Teacher: D'accord, donc cela signifie la première valeur de la séquence, elle a également une distribution normale. Est-ce vrai?

Studiant: Ouais. Je veux dire, c'est une approximation, mais oui, si $ n $ est vraiment grand alors il a effectivement une distribution normale.

Teacher: Très bien. Et il en va de même pour la deuxième valeur de la séquence, et ainsi de suite, non?

Student: Ouais.

Teacher: D'accord, donc vraiment, dès que nous avons commencé à échantillonner, nous obtenions déjà des valeurs qui sont essentiellement distribuées normalement. Nous n'avons pas vraiment eu besoin d'attendre que $ n $ devienne volumineux avant que cela ne commence.

Sétudiant: Hmmm. Je ne suis pas sûr. Cela semble faux. Le théorème dit que vous avez besoin d'un grand $ n $ , donc je pense que vous ne pouvez pas l'appliquer si vous n'avez échantillonné qu'un petit nombre de valeurs.

Teacher: D'accord, disons que nous échantillonnons un milliard de valeurs. Ensuite, nous avons un gros $ n $ . Et nous avons établi que cela signifie que les premières variables aléatoires de la séquence sont normalement distribuées, avec une approximation très proche. Si c'est vrai, ne pouvons-nous pas arrêter d'échantillonner tôt? Disons que nous allions échantillonner un milliard de valeurs, mais ensuite nous arrêtons d'échantillonner après la première valeur. Cette variable aléatoire était-elle toujours distribuée normalement?

Student: Je pense que ce n'est peut-être pas le cas.

Teacher: D'accord, donc à un moment donné sa distribution change?

Student: Je ne suis pas sûr. Je suis un peu confus à ce sujet maintenant.

Teacher: Hmmm, eh bien il semble que quelque chose d'étrange se passe ici. Pourquoi n'avez-vous pas une autre lecture du matériel sur le théorème de la limite centrale et voyez si vous pouvez trouver comment résoudre cette contradiction. Parlons-en plus alors.

C'est une approche possible, qui cherche à réduire le faux théorème à la réductio qui dit que chaque séquence IID (à variance finie) doit être composée de variables aléatoires normales. Soit l'élève arrivera à cette conclusion et réalisera que quelque chose ne va pas, soit il se défendra contre cette conclusion en disant que la distribution change à mesure que $ n $ devient grand. Dans tous les cas, cela provoque généralement une réflexion supplémentaire qui peut les amener à relire le théorème. Voici une autre approche:

Teacher: Regardons cela d'une autre manière. Supposons que nous ayons une séquence IID de variables aléatoires d'une autre distribution; celui qui est not une distribution normale. Est-ce possible? Par exemple, pourrions-nous avoir une séquence de variables aléatoires représentant le résultat du tirage au sort, à partir de la distribution de Bernoulli?

Student: Oui, nous pouvons avoir ça.

Teacher: D'accord, super. Et ce sont toutes des valeurs IID, donc encore une fois, elles ont toutes la même distribution. Donc, chaque variable aléatoire de cette séquence aura une distribution qui n'est pas une distribution normale, non?

Student: Ouais.

Teacher: En fait, dans ce cas, chaque valeur de la séquence sera le résultat d'un tirage au sort, que nous définissons comme zéro ou un. Est-ce vrai?

Student: Ouais, tant que nous les étiquetons de cette façon.

Teacher: D'accord, super. Donc, si toutes les valeurs de la séquence sont des zéros ou des uns, peu importe le nombre d'entre eux que nous échantillonnons, nous obtiendrons toujours un histogramme montrant les valeurs à zéro et un, non?

Student: Ouais.

Teacher: D'accord. Et pensez-vous que si nous échantillonnons de plus en plus de valeurs, nous nous rapprocherons de plus en plus de la vraie distribution? Par exemple, s'il s'agit d'une pièce équitable, l'histogramme finit-il par converger vers l'endroit où les barres de fréquence relatives ont la même hauteur?

Student: Je suppose que oui. Je pense que oui.

Teacher: Je pense que vous avez raison. En fait, nous appelons ce résultat la «loi des grands nombres». Quoi qu'il en soit, il semble que nous ayons un petit problème ici, n'est-ce pas. Si nous échantillonnons un grand nombre de valeurs, le théorème de la limite centrale dit que nous convergeons vers une distribution normale, mais cela ressemble à la «loi des grands nombres» dit que nous convergeons réellement vers la distribution vraie, qui n'est pas une distribution normale. En fait, c'est une distribution qui n'est que des probabilités sur la valeur zéro et la valeur unique, qui ne ressemble en rien à la distribution normale. Alors qu'est-ce que c'est?

Student: Je pense que lorsque $ n $ est grand, cela ressemble à une distribution normale.

Teacher: Alors décris-le-moi. Disons que nous avons retourné la pièce un milliard de fois. Décrivez la distribution des résultats et expliquez pourquoi cela ressemble à une distribution normale.

Student: Je ne sais pas vraiment comment faire ça.

Teacher: D'accord. Eh bien, êtes-vous d'accord que si nous avons un milliard de jetons de pièces, tous ces résultats sont des zéros et des uns?

Student: Ouais.

Teacher: D'accord, alors décrivez à quoi ressemble son histogramme.

Student: Il n'y a que deux barres sur ces valeurs.

Teacher: D'accord, donc pas en forme de "courbe en cloche"?

Student: Ouais, je suppose que non.

Teacher: Hmmm, alors peut-être que le théorème de la limite centrale ne dit pas ce que nous pensions.Pourquoi ne relisez-vous pas le matériel sur le théorème de la limite centrale et voyez si vous pouvez comprendre ce qu'il dit.Parlons-en plus alors.

J'aime les dialogues.Mais je pense que le premier ne reconnaît pas la perception erronée de l'élève.On dirait qu'ils ont compris l'idée que la distribution * empirique * d'un petit échantillon est susceptible de s'écarter sensiblement de la * distribution sous-jacente. * Le premier dialogue semble danser autour de cela - principalement à travers la répétition non modifiée d'untentative d'explication - sans y répondre.
Cet enseignant est très patient.Je suppose que vous devez être lorsque vous enseignez au premier cycle
@whuber: L'idée générale de ces dialogues n'est * pas * d'aborder le problème, mais plutôt de simplement attirer l'attention sur certaines contradictions, afin que l'étudiant soit motivé à aller relire le théorème pour tenter de résoudre le paradoxe apparent.Dans le premier cas, vous attirez l'attention sur le fait que l'hypothèse IID force toutes les distributions des variables aléatoires à être les mêmes, donc si elles "convergent en distribution vers la normale" alors elles doivent toutes avoir été normales.Il y a généralement une certaine répétition dans ces consersations pour aider l'élève.
Cole
2020-06-23 11:31:37 UTC
view on stackexchange narkive permalink

Le théorème de limite central stipule que l'mean des données deviendra normalement distribué à mesure que la taille de l'échantillon augmente, dit nothing à propos des données elles-mêmes. Une autre façon de le dire est que la distribution du paramètre (la moyenne) est normale, mais elle est entièrement séparée de la distribution des données sous-jacentes.

La plupart de la valeur du CLT vient du fait que vous pouvez comparer des échantillons qui sont not normalement distribués les uns aux autres (basé uniquement sur le fait que, grâce au CLT, vous savez comment leurs moyens devraient se comporter).

Je pense que là où cela devient déroutant, c'est que ce n'est pas parce que vous pouvez comparer deux moyennes d'échantillons l'une à l'autre sur la base d'un test qui suppose la normalité (par exemple, le test t) que vous devrait . (c.-à-d. comparer les moyennes de deux distributions exponentielles peut ne pas vous dire ce que vous pensez que cela fait, ou deux distributions bimodales, ou une distribution bimodale avec une distribution unimodale, ect).

La question que la plupart des gens devraient se poser est la suivante: "est-ce que la moyenne (ou une différence de moyenne) est une mesure utile compte tenu de la distribution de mes données". Ce n'est que si la réponse à cette question est oui, devrait-on procéder à la comparaison des moyennes (donc en se basant sur le CLT).

En ne posant pas cette question, de nombreuses personnes tombent dans l'erreur logique suivante (grossièrement énoncée):

Le CLT s'applique, donc je peux comparer les moyennes. Et je peux comparer les moyens car ils sont normalement distribués. Cette comparaison doit être significative, car le CLT dit que je peux le faire (et le CLT est très puissant). La comparaison / test que j'utilise le plus intuitivement (/ seulement) a du sens lorsque les données sont normalement distribuées, et après tout, la moyenne est normalement distribuée, donc mes données doivent aussi être normalement distribuées!

Pour répondre directement à la question, vous pouvez:

  1. Montrez-leur la définition, faites remarquer que le CLT ne prétend que sur la distribution de la moyenne approchant la normalité, insister sur la distribution d'un paramètre peut être très différente de la distribution des données dont il est dérivé .

  2. Montrez-leur cette vidéo qui fournit une belle représentation visuelle du fonctionnement du CLT en utilisant plusieurs distributions différentes pour les données sous-jacentes. (c'est un peu bizarre, mais communiqué très clairement)

Addendum:

J'ai passé sous silence certains détails techniques dans mon explication afin de la rendre plus compréhensible pour quelqu'un qui est moins familier avec les statistiques. Plusieurs commentateurs l'ont souligné et j'ai donc pensé inclure leurs commentaires ici:

  • Une déclaration plus précise du CLT serait:

" Le théorème central limite stipule que la moyenne des données deviendra normalement distribuée (plus précisément la différence entre la moyenne des données / échantillon et la vraie moyenne, multipliée par la racine carrée de la taille de l'échantillon $ \ sqrt {n} $ est distribué normalement) "

J'ai également vu cela expliqué comme " la somme correctement normalisée tend vers une distribution normale "

Il convient également de souligner que les données doivent être composées de variables aléatoires indépendantes et distribuées de manière identique avec une variance finie pour que le CLT s'applique.

  • Une manière plus précise et / ou moins bayésienne de dire " la distribution du paramètre (moyenne) " serait " la distribution de l'estimation du paramètre par la moyenne régulière de l'échantillon "
Le CTL ne s'applique-t-il pas également à la distribution de toute estimation de paramètre?Comme la moyenne mais aussi la médiane ou l'écart-type ou tout autre paramètre de synthèse comme le coefficient de régression et la mesure d'erreur associée?
Est-ce que l'OMI est une théorie fondamentale derrière les tests d'hypothèses paramétriques?
Je crois que ce n’est que la moyenne.De nombreux tests d'hypothèses paramétriques reposent sur la distribution normale de la moyenne (ou sur une mesure dérivée de la moyenne).Cela me ramène à mon point de vue sur can vs should.Ce n'est pas parce que le CLT vous permet d'effectuer un test paramétrique que le test vous donnera des résultats "significatifs" à partir de vos données, cela dépend davantage de la pertinence d'une métrique pour le type de comparaison que vous essayez de faire.faire.
Si l'erreur-type des coefficients de régression ne repose pas sur l'hypothèse que les coefficients de régression suivent une distribution normale, alors de quelle distribution sous-jacente sont-ils censés provenir?
Cela dépend du type de régression que vous faites.Une régression linéaire classique consiste à ajuster une ligne aux données en supposant que les erreurs sont normalement distribuées.Il existe d'autres formes, cependant, comme l'ajustement d'une ligne en supposant que les erreurs sont distribuées selon une distribution binomiale négative, etc.
Je crois qu'il y a un mot mal compris ici.Je parle de la distribution de chaque paramètre de régression (la moyenne étant un paramètre de régression parmi d'autres).Vous en avez parlé à juste titre dans votre réponse.Cependant, dans votre dernier commentaire, vous parlez de la répartition des résidus qui est absolument différente et, comme vous l'avez dit, n'est pas affectée par CTL.
* "indique que la moyenne des données ..." * c'est un peu plus la loi ou les grands nombres, la moyenne des données se rapprochera d'une distribution dégénérée.Il serait plus élégant d'ajouter une note d'accompagnement indiquant que plus spécifiquement une moyenne d'échantillon mise à l'échelle et décalée se rapproche d'une distribution normale.des données / échantillon et de la vraie moyenne, multipliée par la racine carrée de la taille de l'échantillon $ \ sqrt {n} $ est distribuée normalement) "* ....
Je suis avec @SextusEmpiricus.Considérons $ U (0,1) $.$ \ bar {X} $ ne peut avoir aucune densité en dehors de $ [0,1] $, et la loi des grands nombres donne une convergence de probabilité encore plus forte (CLT est la convergence dans la distribution) de $ \ bar {X}$ à la vraie valeur attendue.En outre, la «distribution du paramètre» est un commentaire controversé, par nature bayésien.Je pense que vous vouliez dire la distribution de l'estimation des paramètres par la moyenne de l'échantillon régulier.
@SextusEmpiricus et @ Dave Je suis d'accord avec vous deux.Je voulais éviter certains détails techniques pour le rendre plus compréhensible à quelqu'un sans expérience en statistique (comme cela semble être le cas avec les collaborateurs en question).
@Dave et @ SextusEmpiricus J'ai ajouté vos commentaires à mon message, merci!
Je pense que c'est la meilleure réponse à ce jour.C'est le seul qui clarifie réellement ce que dit le CLT (et à partir de la question, il est fort possible que le demandeur soit également confus à ce sujet, pas seulement les collègues).
mpiktas
2020-06-24 01:53:38 UTC
view on stackexchange narkive permalink

CLT concerne la convergence d'une somme de variables aléatoires. Si nous avons un échantillon iid $ X_1, ..., X_n $ , où $ EX_i = \ mu $ span > et $ Var (X_i) < \ infty $ puis

$$ \ frac {1} {\ sqrt {n}} \ left (X_1 + ... + X_n-n \ mu \ right) \ to N (0, Var (X_i)) $$

Cette déclaration concerne uniquement la proximité d'une distribution de somme convenablement normalisée $ (X_1 + ... + X_n) $ par rapport à la distribution normale. Cela ne dit rien sur la convergence de la distribution de $ X_i $ . Puisque $ X_i $ ne dépend pas de $ n $ pourquoi devraient-ils converger n'importe où?

La distribution empirique d'un échantillon $ X_i $ convergera en fait (à mesure que la taille de l'échantillon augmente) vers la distribution réelle de $ X_i $ selon le théorème de Donsker, donc à moins que la distribution réelle ne soit pas proche de la normale, la distribution empirique n'en sera pas non plus proche.

Donsker semble concerner les processus stochastiques.Vouliez-vous dire Glivenko – Cantelli?
Glivenko-Cantelli est la loi des grands nombres pour les processus stochastiques, Donsker est le théorème limite central.La première concerne la convergence des probabilités, la seconde la convergence de la distribution.
dariober
2020-06-23 15:50:52 UTC
view on stackexchange narkive permalink

C'est ainsi que j'aime visualiser le CLT.Cependant, je ne suis pas sûr à 100% que l'argument est correct, veuillez vérifier.

Commencez par une population de valeurs dont la distribution est loin d'être normale. Ex. , une distribution uniforme:

  X <- runif (n = 50000)
hist (X)
 

enter image description here

Maintenant, prenez des échantillons $ n $ de cette population, calculez la moyenne de chaque échantillon, décalez la moyenne de l'échantillon par la moyenne de la population et mettez-la à l'échelle de $ \ sqrt {n} $ , tracez un histogramme de ces $ n $ signifie. Cet histogramme est (presque) normal:

  mu <- 1/2 # Moyenne de la population X
x <- représentant (NA, 1000)
taille <- 10
for (i in 1: length (x)) {
    x [i] <- sqrt (taille) * (moyenne (échantillon (X, taille = taille)) - mu)
}
 

enter image description here

Le CLT ne concerne pas les moyennes d'échantillon, qui convergent en probabilité (donc en distribution comme la convergence du CLT) vers la moyenne de la population.CLT dit $ \ sqrt {n} (\ bar {X} _n- \ mu) \ overset {d} {\ rightarrow} N (0, \ sigma ^ 2) $.
Merci @Dave, - je savais que j'étais confus moi-même.Cependant, j'ai lu [ici] (https://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_Probability/BS704_Probability12.html): * Le CLT déclare que si vous avez une population avec une moyenne μ etécart type σ et prélever des échantillons aléatoires suffisamment grands de la population avec remise, alors la distribution des moyennes de l'échantillon sera approximativement normalement distribuée * N'est-ce pas ce que j'ai fait ci-dessus?
Demandez-vous comment la moyenne de l'échantillon d'une distribution de Bernoulli peut avoir une distribution normale alors que la moyenne de l'échantillon ne peut littéralement jamais être de -1 $.Ce site Web donne la fausse déclaration du théorème de la limite centrale.
@Dave (j'essaie de comprendre - pas d'argumentation).Si je remplace `runif (n = 50000)` par `rbinom (n = 50000, size = 1, prob = 0.5)` (50k coins flips), alors l'histogramme de 1000 échantillons signifie toujours à peu près normal
Le binôme en particulier peut être amené à converger vers la normale, alors considérez $ U (0,1) $ pour vous faciliter la vie.Vous ne pouvez littéralement pas avoir une moyenne d'échantillon de $ -1 $.L'échantillon signifie un cluster autour de $ 1/2 $ et, par la loi des grands nombres (pas CLT), $ \ bar {X} $ converge vers $ 1/2 $.Ma suggestion est de supprimer cet article afin que les nouveaux arrivants ne le lisent pas et ne se trompent pas sur le théorème de limite centrale, puis publient sur votre confusion sous forme de question distincte.Comme vous pouvez le voir, vous n’êtes pas la seule personne à avoir publié une réponse qui a la même confusion.
@Dave, J'ai modifié ma réponse pour inclure le décalage et l'échelle.Diriez-vous que c'est acceptable maintenant?Sinon, je supprimerai la réponse - pas de problème
Pas tout à fait, mais vous arrivez à l’énoncé réel du théorème de la limite centrale.Vous devez soustraire la moyenne de la population (connue) et non une estimation de la moyenne de la population.Votre population est de $ U (0,1) $, donc vous savez que la moyenne de la population est de 1/2 $.
Bonne prise - Post édité à nouveau.C'est incroyable combien il y a de sous-titres
@Dave, êtes-vous sûr que les moyennes de l'échantillon convergent en probabilité, donc en distribution, vers les moyennes de population?La moyenne de la population (lorsqu'elle existe) n'est qu'un nombre, n'est-ce pas?Je pense que le vrai problème est: est-ce que $ \ sqrt {n} (\ overline {X} _n- \ mu) \ overset {d} {\ rightarrow} N (0, \ sigma ^ 2) $ implique $ \ overline {X} _n \ overset {d} {\ rightarrow} N (\ mu, \ sigma ^ 2 / n) $?Si la réponse est «oui», alors vous pouvez dire que si vous «prenez des échantillons aléatoires suffisamment grands de la population avec remplacement, alors la distribution des moyennes de l'échantillon sera approximativement normalement distribuée».
@Sergio Loi des grands nombres
@Dave, Oui, mais quelle est la * distribution * de $ \ mu $?Est-ce significatif?Je dirais que CLT * concerne * les moyennes d'échantillons et leur distribution asymptotique normale, car $ \ sqrt {n} (\ overline {X} _n- \ mu) \ overset {d} {\ rightarrow} N (0,\ sigma ^ 2) $ implique $ \ overline {X} _n \ overset {d} {\ rightarrow} N (\ mu, \ sigma ^ 2 / n) $.
@Sergio, ce que vous écrivez est incorrect, et si vous ne suivez pas pourquoi, cela semble être une bonne question à publier sur la validation croisée.La manipulation symbolique du déplacement de $ n $ de l'autre côté semble juste et donne une intuition sur la raison pour laquelle la moyenne de l'échantillon converge vers la vraie valeur de $ \ mu $, mais je pense que vous rencontrerez des problèmes prouvant la convergence si la valeur vers laquelle vous convergezdépend de la taille de l'échantillon.
@Dave Ok, tu as raison, j'étais trop pressé, mais je peux toujours utiliser CLT pour dire que $ \ overline {X} _n \ overset {\ cdot} {\ sim} N (\ mu, \ sigma ^ 2 / n)$ quand $ 1 \ ll n <\ infty $ même si $ n $ est énorme.
@Sergio Je ne comprends pas votre réticence à utiliser la loi des grands nombres ou votre insistance à utiliser le théorème de la limite centrale.Cela ressemble au genre de confusion qui justifie la publication en tant que question distincte.
@Dave Par exemple, http://www.math.utah.edu/~anna/Sum12/LessonPlans/Section54.pdf, http://www.stat.yale.edu/Courses/1997-98/101/sampmn.htm,http://homepages.math.uic.edu/~bpower6/stat101/Sampling%20Distributions.pdf etc.
@Sergio Cela ressemble au genre de confusion qui justifie la publication en tant que question distincte.
On dirait que vous n'avez pas remarqué le point sur le symbole $ \ sim $ :)
@dariober Continuez votre bon travail!Merci de votre participation, le site a besoin de plus de personnes prêtes à répondre!Je ne serais pas découragé par la critique.Je trouve que c'est une énorme technicité.Ce qui, je suppose, est assez juste étant donné que nous faisons des mathématiques, mais à toutes fins pratiques, la moyenne de l'échantillon est normalement distribuée.Toutes les statistiques inférentielles sont construites à partir de cela.J'ai utilisé exactement votre approche d'échantillonnage pour montrer aux autres le CLT.
ajax2112
2020-06-25 10:53:38 UTC
view on stackexchange narkive permalink

Le point de confusion ici est ce qui converge réellement vers une distribution normale.Je pense que le moyen le plus simple de surmonter cela est d'expliquer des exemples des extrêmes d'une distribution d'échantillonnage, une avec une mesure par échantillon (comme si vous preniez des mesures directement à partir de la population comme vous le décrivez) et une où chaque échantillon est la population entière.À partir de là, il est plus facile de comprendre ce qui se passe dans le milieu.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...