C'est une incompréhension assez omniprésente du théorème central limite, que j'ai également rencontré dans mon enseignement statistique. Au fil des années, j'ai rencontré ce problème si souvent que j'ai développé une méthode socratique pour y faire face. J'identifie un élève qui a accepté cette idée, puis je l'engage à comprendre ce que cela impliquerait logiquement. Il est assez simple d'accéder à la reductio ad absurdum de la fausse version du théorème, à savoir que chaque séquence de variables aléatoires IID a une distribution normale . Une conversation typique ressemblerait à ceci.
Teacher: J'ai remarqué dans cette question de devoir que vous avez dit que parce que $ n $ est volumineux, les données sont à peu près normalement distribuées. Pouvez-vous m'expliquer votre raisonnement sur ce point?
Student: Est-ce que c'est faux?
Teacher: Je ne sais pas. Jetons un coup d'œil.
Student: Eh bien, j'ai utilisé ce théorème dont vous avez parlé en classe; celui principal que vous avez mentionné plusieurs fois. J'ai oublié le nom.
Teacher: Le théorème de la limite centrale?
Student: Ouais, le théorème de la limite centrale.
Teacher: Génial, et quand ce théorème s'applique-t-il?
Student: Je pense que si les variables sont IID.
Teacher: Et ont une variance finie.
Student: Ouais, et variance finie.
Teacher: D'accord, donc les variables aléatoires ont une distribution fixe avec une variance finie, n'est-ce pas?
Student: Ouais.
Teacher: Et la distribution ne change pas ou quoi que ce soit?
Student: Non, ce sont des IID avec une distribution fixe.
Teacher: Très bien, alors laissez-moi voir si je peux énoncer le théorème. Le théorème de la limite centrale dit que si vous avez une séquence IID de variables aléatoires avec une variance finie, et que vous prenez un échantillon de $ n $ , alors comme cette taille d'échantillon $ n $ devient grand la distribution des variables aléatoires converge vers une distribution normale. Est-ce vrai?
Student: Oui, je pense que oui.
Teacher: Très bien, alors réfléchissons à ce que cela signifierait. Supposons que j'ai une séquence comme celle-là. Si je prends par exemple un millier de valeurs d'échantillon, quelle est la distribution de ces variables aléatoires?
Student: C'est à peu près une distribution normale.
Teacher: À quelle distance?
Student: Assez proche je pense.
Teacher: D'accord, et si je prends un milliard de valeurs d'échantillon. À quelle distance maintenant?
Student: Vraiment proche, je dirais.
Teacher: Et si nous avons une séquence de ces choses, alors en théorie nous pouvons prendre $ n $ aussi haut que nous le voulons, n'est-ce pas? Nous pouvons donc rendre la distribution aussi proche d'une distribution normale que nous le souhaitons.
Student: Ouais.
Teacher: Supposons donc que nous prenions $ n $ assez grand pour que nous soyons heureux de dire que les variables aléatoires ont fondamentalement une distribution normale. Et c'est une distribution fixe, non?
Student: Ouais.
Teacher: Et ils sont IID, non? Ces variables aléatoires sont IID?
Student: Ouais, ils sont IID.
Teacher: D'accord, donc ils ont tous la même distribution.
Student: Ouais.
Teacher: D'accord, donc cela signifie la première valeur de la séquence, elle a également une distribution normale. Est-ce vrai?
Studiant: Ouais. Je veux dire, c'est une approximation, mais oui, si $ n $ est vraiment grand alors il a effectivement une distribution normale.
Teacher: Très bien. Et il en va de même pour la deuxième valeur de la séquence, et ainsi de suite, non?
Student: Ouais.
Teacher: D'accord, donc vraiment, dès que nous avons commencé à échantillonner, nous obtenions déjà des valeurs qui sont essentiellement distribuées normalement. Nous n'avons pas vraiment eu besoin d'attendre que $ n $ devienne volumineux avant que cela ne commence.
Sétudiant: Hmmm. Je ne suis pas sûr. Cela semble faux. Le théorème dit que vous avez besoin d'un grand $ n $ , donc je pense que vous ne pouvez pas l'appliquer si vous n'avez échantillonné qu'un petit nombre de valeurs.
Teacher: D'accord, disons que nous échantillonnons un milliard de valeurs. Ensuite, nous avons un gros $ n $ . Et nous avons établi que cela signifie que les premières variables aléatoires de la séquence sont normalement distribuées, avec une approximation très proche. Si c'est vrai, ne pouvons-nous pas arrêter d'échantillonner tôt? Disons que nous allions échantillonner un milliard de valeurs, mais ensuite nous arrêtons d'échantillonner après la première valeur. Cette variable aléatoire était-elle toujours distribuée normalement?
Student: Je pense que ce n'est peut-être pas le cas.
Teacher: D'accord, donc à un moment donné sa distribution change?
Student: Je ne suis pas sûr. Je suis un peu confus à ce sujet maintenant.
Teacher: Hmmm, eh bien il semble que quelque chose d'étrange se passe ici. Pourquoi n'avez-vous pas une autre lecture du matériel sur le théorème de la limite centrale et voyez si vous pouvez trouver comment résoudre cette contradiction. Parlons-en plus alors.
C'est une approche possible, qui cherche à réduire le faux théorème à la réductio qui dit que chaque séquence IID (à variance finie) doit être composée de variables aléatoires normales. Soit l'élève arrivera à cette conclusion et réalisera que quelque chose ne va pas, soit il se défendra contre cette conclusion en disant que la distribution change à mesure que $ n $ devient grand. Dans tous les cas, cela provoque généralement une réflexion supplémentaire qui peut les amener à relire le théorème. Voici une autre approche:
Teacher: Regardons cela d'une autre manière. Supposons que nous ayons une séquence IID de variables aléatoires d'une autre distribution; celui qui est not une distribution normale. Est-ce possible? Par exemple, pourrions-nous avoir une séquence de variables aléatoires représentant le résultat du tirage au sort, à partir de la distribution de Bernoulli?
Student: Oui, nous pouvons avoir ça.
Teacher: D'accord, super. Et ce sont toutes des valeurs IID, donc encore une fois, elles ont toutes la même distribution. Donc, chaque variable aléatoire de cette séquence aura une distribution qui n'est pas une distribution normale, non?
Student: Ouais.
Teacher: En fait, dans ce cas, chaque valeur de la séquence sera le résultat d'un tirage au sort, que nous définissons comme zéro ou un. Est-ce vrai?
Student: Ouais, tant que nous les étiquetons de cette façon.
Teacher: D'accord, super. Donc, si toutes les valeurs de la séquence sont des zéros ou des uns,
peu importe le nombre d'entre eux que nous échantillonnons, nous obtiendrons toujours un histogramme montrant les valeurs à zéro et un, non?
Student: Ouais.
Teacher: D'accord. Et pensez-vous que si nous échantillonnons de plus en plus de valeurs, nous nous rapprocherons de plus en plus de la vraie distribution? Par exemple, s'il s'agit d'une pièce équitable, l'histogramme finit-il par converger vers l'endroit où les barres de fréquence relatives ont la même hauteur?
Student: Je suppose que oui. Je pense que oui.
Teacher: Je pense que vous avez raison. En fait, nous appelons ce résultat la «loi des grands nombres». Quoi qu'il en soit, il semble que nous ayons un petit problème ici, n'est-ce pas. Si nous échantillonnons un grand nombre de valeurs, le théorème de la limite centrale dit que nous convergeons vers une distribution normale, mais cela ressemble à la «loi des grands nombres» dit que nous convergeons réellement vers la distribution vraie, qui n'est pas une distribution normale. En fait, c'est une distribution qui n'est que des probabilités sur la valeur zéro et la valeur unique, qui ne ressemble en rien à la distribution normale. Alors qu'est-ce que c'est?
Student: Je pense que lorsque $ n $ est grand, cela ressemble à une distribution normale.
Teacher: Alors décris-le-moi. Disons que nous avons retourné la pièce un milliard de fois. Décrivez la distribution des résultats et expliquez pourquoi cela ressemble à une distribution normale.
Student: Je ne sais pas vraiment comment faire ça.
Teacher: D'accord. Eh bien, êtes-vous d'accord que si nous avons un milliard de jetons de pièces, tous ces résultats sont des zéros et des uns?
Student: Ouais.
Teacher: D'accord, alors décrivez à quoi ressemble son histogramme.
Student: Il n'y a que deux barres sur ces valeurs.
Teacher: D'accord, donc pas en forme de "courbe en cloche"?
Student: Ouais, je suppose que non.
Teacher: Hmmm, alors peut-être que le théorème de la limite centrale ne dit pas ce que nous pensions.Pourquoi ne relisez-vous pas le matériel sur le théorème de la limite centrale et voyez si vous pouvez comprendre ce qu'il dit.Parlons-en plus alors.