Question:
Concepts de statistiques visuellement intéressants et faciles à expliquer
David Veitch
2020-03-02 07:00:33 UTC
view on stackexchange narkive permalink

J'ai remarqué sur Math Stack Exchange un excellent fil de discussion qui mettait en évidence un certain nombre de concepts mathématiques très intéressants visuellement.Je serais curieux de voir des graphiques / gifs que tout le monde a et qui illustrent très clairement un concept de statistique (en particulier ceux qui pourraient servir de motivation pour les étudiants qui commencent tout juste à apprendre les statistiques).

Je pense à des choses comme la façon dont les vidéos d'un tableau Galton rendent le CLT instantanément accessible.

Treize réponses:
Henry
2020-03-02 19:31:31 UTC
view on stackexchange narkive permalink

J'aime les images illustrant comment différents modèles peuvent avoir une corrélation similaire.Ceux ci-dessous sont issus d'articles de Wikipédia sur la corrélation et la dépendance

enter image description here

et le quatuor d'Anscombe avec des corrélations d'environ 0,816 $

enter image description here

Excellent commentaire!J'ai déjà vu le quatuor d'Anscombe et je pense que c'est peut-être l'un des meilleurs graphismes "méfiez-vous de la corrélation" que j'ai jamais vu.
@David Ensuite, consultez [ces articles] (https://stats.stackexchange.com/search?q=anscombe*+quartet) pour en savoir plus sur le sujet.
Au risque d'être trop évident, j'ajouterais que «réfléchir à ce que cela signifie sur un nuage de points» peut éclairer de nombreuses questions, et pas seulement pour les apprenants.Dans plusieurs domaines (aucun nom ici), il y a une tendance à rejeter ce qui a été enseigné dans un cours d'introduction comme des trucs pour bébés et / ou à commencer à enseigner en supposant que tous les étudiants l'ont fait et se souviennent également d'un cours d'introduction.
@Alexis.Laquelle?L'article Science de décembre 2011 est protégé par un paywall, donc je ne vois pas ce que vous voulez dire mais les deux images sont [plus anciennes que cela] (https://en.wikipedia.org/wiki/File:Correlation_examples.png).Les chiffres d'Anscombe existent depuis qu'il les a publiés en 1973
Oh!Pas l'Anscomb, les images d'association non fonctionnelles.Aussi: je viens de relire l'article de Reshef, et il y a des images * similaires *, mais elles sont en fait différentes.Donc je me souvenais mal / attribuais mal.Toutes mes excuses pour toute alarme.:)
TH58PZ700U
2020-03-03 04:46:55 UTC
view on stackexchange narkive permalink

Le paradoxe de Simpson

Un phénomène qui apparaît lorsqu'une variable clé est omise de l'analyse d'une relation entre une ou plusieurs variables indépendantes et une variable dépendante.Par exemple, cela montre que plus les maisons ont de chambres, plus le prix de la maison est bas :

Average Home Price vs. Avg Number of Bedrooms

qui semble contre-intuitif, et se résout facilement en traçant tous les points de données qui composent la moyenne pour chaque zone, sur le même graphique.Ici, le plus grand nombre de chambres indique correctement les maisons les plus chères en observant également la variable quartier:

Home Price vs. Number of Bedrooms

Si vous souhaitez en savoir plus sur l'exemple ci-dessus et obtenir une bien meilleure explication que celle que j'ai pu fournir, cliquez ici.

Notez que vous n'avez pas besoin de regarder les moyennes pour que le paradoxe de Simpson se produise - ne dites simplement pas au modèle qu'il y a quatre groupes.De plus, bien que cela puisse être difficile, l'ajustement dans le graphique inférieur n'est pas très convaincant, car il semble supposer que toutes les pentes sont égales, ce que vous pouvez clairement dire n'est pas le cas.
Comme ailleurs dans ce fil, mélanger le rouge et le vert est problématique pour de nombreux lecteurs.Pour toute personne confrontée à ce choix de couleur, le graphique montre quatre grappes légèrement superposées, chacune résumée par des lignes en pente ascendante, alors que l'ensemble de données montre une relation négative.
D'accord Frans, prendre des moyennes est une simplification excessive, tout comme la pente sur le graphique du bas.En fait, je pense que les deux graphiques sont des représentations purement fictives du concept.Ils provenaient du dernier lien de ma réponse, qui était lié à un autre article que je lisais et qui illustrait le paradoxe de Simpson dans un contexte économétrique: [Tax Burdens, Per Capita Income, and Simpson's Paradox] (https: //trends.ufm.edu / fr / article / fardeaux-fiscaux-revenu-par-habitant-simpsons-paradox / # _ ftnref1)
C'est soit très peu ou très nombreuses chambres!:)
DanielTheRocketMan
2020-03-02 12:31:20 UTC
view on stackexchange narkive permalink

L'un des concepts les plus intéressants qui sont aujourd'hui très importants et très faciles à visualiser est "overfitting".Le classificateur vert ci-dessous présente un exemple clair de surajustement [Edit: "le classificateur vert est donné par la ligne très ondulée séparant les points de données rouges et bleus" - Nick Cox].

De Wikipédia:

enter image description here

Pour ceux qui ont du mal à distinguer le rouge et le vert: le classificateur vert est donné par la ligne très ondulante séparant les points de données rouge et bleu.
@NickCox L'image est parfaitement compréhensible même en noir et blanc.
@user76284 Bien sûr, si et seulement si on vous dit, ou vous le croyez en toute confiance, que la ligne ondulée est un classificateur parfait et la ligne lisse ne l'est pas.Le fait est que OP a choisi le rouge et le vert lorsqu'il existe une manière plus polie et plus inclusive d'utiliser les couleurs.Gee, ce fil est censé être sur des exemples "très clairs" mais les exemples déficients sont-ils admissibles?Je serais heureux avec par exemplecercles et plus en noir et blanc, mais ce n'est pas ce qui est proposé.
@NickCox Rouge et vert pour quoi?Les points d'un côté sont rouges.Les points de l'autre côté sont * bleus *, pas verts.De quoi te plains tu?
Le vert n'est pas une couleur neutre lorsque la ligne aura la même couleur qu'un groupe de points pour certains lecteurs.Ce ne sera pas très déroutant mais le choix aurait pu être amélioré.
Pour tous ceux qui supposent par réflexe que cela ne fonctionnera pas pour les personnes daltoniennes, essayez peut-être de l'examiner d'abord dans un simulateur de daltonisme, comme à l'adresse https://www.color-blindness.com/coblis-color-blindness-simulator/ Cela montre que cette image fonctionne plutôt bien sous la plupart des formes de daltonisme - il existe d'autres dimensions de perception des couleurs au-delà de la teinte qui permettent de distinguer facilement les couleurs de cette image, même lorsque l'apparence subjective diffère considérablement.
@MichaelMacAskill Vous avez raison, et par exemple je ne suppose pas que cela "ne fonctionnera" pour aucun groupe de personnes.Je dis simplement que la conception pourrait être améliorée de manière petite mais utile et inclusive.Le point concerne l'étiquette graphique autant que toute autre chose.Cela ne me dérange pas que les gens considèrent cela comme un petit point, comme c'est le cas, mais je pense que cela vaut toujours la peine d'être souligné.Vous dites que cela fonctionne "plutôt bien", je suppose que votre point de vue est proche du mien;vous n'avez pas dit «excellemment».
Davidmh
2020-03-03 19:25:35 UTC
view on stackexchange narkive permalink

Comment fonctionne un jeu de données 2D où la moyenne de X est de 54 avec un SD 17, et pour Y 48 et 27, respectivement, et la corrélation entre les deux est de -0,06?

Présentation de l ' Anscombosaurus:

enter image description here

Et son compagnon, le Datasaurus Dozen:

enter image description here

Pour intéresser les étudiants, voici des exemples * fantastiques *!
JeroendeK
2020-03-03 15:26:41 UTC
view on stackexchange narkive permalink

Je pense que les fausses corrélations méritent également leur propre message.C'est à dire.la corrélation n'égale pas la causalité.Peut-être l'une des choses les plus souvent utilisées pour tenter de contourner la vérité à l'aide de statistiques.Tyler Vigen a un site Web célèbre avec de nombreux exemples.Pour illustrer, voyez le graphique ci-dessous où le nombre de cas de polio et les ventes de crème glacée sont clairement corrélés.Mais supposer que la polio entraîne des ventes de crème glacée ou l'inverse est clairement absurde. Polio causes ice cream

P.S: xkcd 1 pertinent et xkcd 2 pertinent

Pour tous ceux qui font cela, je conseillerais de faire très attention à ne pas mélanger _ "la corrélation n'est pas égale à la causalité" _ et _ "la corrélation de l'échantillon n'est pas égale à la corrélation" _.Le graphique de la polio par rapport à la crème glacée est bon, mais de nombreux exemples prétendus être des démonstrations de _ "la corrélation n'équivaut pas à la causalité" _ ne sont en fait que des artefacts de petite taille d'échantillon et ne démontrent même pas une corrélation réelle.
Frans Rodenburg
2020-03-04 09:08:26 UTC
view on stackexchange narkive permalink

Le biais peut être bon

Un $ \ color {orangered} {\ text {estimateur sans biais}} $ est en moyenne correct. Un $ \ color {steelblue} {\ text {biased estimator}} $ est en moyenne incorrect.

Pourquoi alors voudriez-vous utiliser un estimateur biaisé (par exemple, la régression des crêtes)?

biased_estimator

La réponse est que introduire un biais peut réduire la variance.

Dans l'image, pour un échantillon donné, le $ \ color {orangered} {\ text {estimateur sans biais}} $ , a un 68 $ \% $ chance d'être dans $ 1 $ unité arbitraire du paramètre vrai, tandis que le $ \ color {steelblue} {\ text {biased estimator}} $ a une chance beaucoup plus grande de $ 84 \% $ .

Si le biais que vous avez introduit réduit suffisamment la variance de l'estimateur, votre seul échantillon a de meilleures chances de produire une estimation proche du paramètre de population.

"En moyenne correct" sonne bien, mais ne donne aucune garantie sur la mesure dans laquelle les estimations individuelles peuvent s'écarter du paramètre de population. Si vous dessinez de nombreux échantillons, le $ \ color {steelblue} {\ text {biaisé estimator}} $ serait en moyenne erroné par 0,5 $ unités arbitraires. Cependant, nous avons rarement beaucoup d'échantillons de la même population pour observer cette «estimation moyenne», nous préférerions donc avoir de bonnes chances d'être proches du vrai paramètre.

TrynnaDoStat
2020-03-04 00:08:58 UTC
view on stackexchange narkive permalink

Lors de la première compréhension des estimateurs et de leur erreur, il est utile de comprendre deux sources d'erreur: le biais et la variance.L'image ci-dessous illustre parfaitement cela tout en mettant en évidence les compromis entre ces deux sources d'erreur.

enter image description here

La bulle est la vraie valeur que l'estimateur tente d'estimer et chaque point représente une estimation de cette valeur.Idéalement, vous avez un biais et une variance faibles, mais les autres fléchettes représentent des estimateurs moins qu'idéaux.

C'est un excellent exemple classique, mais il serait bien d'ajouter peut-être aussi le terme «précision» comme terme équivalent (si inverse) à la variance ici, car c'est aussi ainsi que cela est souvent communiqué.c'est-à-dire faible variance = précis, variance élevée = imprécis.Je suppose que la variance pourrait être plus pertinente pour les données elles-mêmes, alors que la précision est plus pertinente pour les estimations basées sur les données, tandis que le biais est un terme qui fonctionne pour les deux.
J'ai vu cela souvent exprimé en termes d'exactitude et de précision.De nombreux spécialistes des sciences sociales ou comportementales voudront peut-être parler de validité et de fiabilité.
DanielTheRocketMan
2020-03-02 13:01:35 UTC
view on stackexchange narkive permalink

PAnalyse des composants principaux (PCA) PCA est une méthode de réduction de dimension.Il projette les variables d'origine dans la direction qui maximise la variance.

Dans notre figure, les points rouges proviennent d'une distribution normale bivariée.Les vecteurs sont les vecteurs propres et la taille de ces vecteurs est proportionnelle aux valeurs des valeurs propres respectives.L'analyse en composantes principales fournit de nouvelles directions orthogonales et pointant vers les directions de forte variance.

enter image description here

Cela pourrait faire avec une explication moins technique / plus profane.J'ai suivi quelques cours de statistiques et j'ai * fait * l'APC et je ne comprends toujours pas une grande partie de l'explication.Quels sont les vecteurs / valeurs propres?Je sais ce qu'est la variance, mais qu'est-ce que cela signifie pour une * direction * d'avoir une variance élevée?Et pourquoi nous soucions-nous de cela?
Merci pour les commentaires.Je vais améliorer la réponse.Permettez-moi d'arriver à un ordinateur.
kedarps
2020-03-03 21:35:47 UTC
view on stackexchange narkive permalink

Vecteurs propres & Valeurs propres

Le concept de vecteurs propres et de valeurs propres qui sont à la base de l'analyse en composantes principales (ACP), comme expliqué sur wikipedia:

En substance, un vecteur propre $ v $ d'une transformation linéaire $ T $ est un vecteur différent de zéro qui, lorsque $ T $ lui est appliqué, ne change pas de direction. L'application de $ T $ au vecteur propre ne met à l'échelle le vecteur propre que par la valeur scalaire $ \ lambda $ , appelée un valeur propre. Cette condition peut être écrite comme l'équation: $ T (v) = \ lambda v $ .

La déclaration ci-dessus est très élégamment expliquée en utilisant ce gif:

enter image description here

Vecteurs indiqués en bleu $ \ begin {bmatrix} 1 \\ 1 \\ \ end {bmatrix} $ et magenta $ \ begin {bmatrix} 1 \\ - 1 \\ \ end {bmatrix} $ sont des vecteurs propres pour la transformation linéaire, $ T = \ begin {bmatrix} 2 & 1 \\ 1 & 2 \\ \ end {bmatrix} $ . Les points qui se trouvent sur la ligne passant par l'origine, parallèles aux vecteurs propres, restent sur la ligne après la transformation. Les vecteurs en rouge ne sont pas des vecteurs propres, donc leur direction est modifiée par la transformation. Les vecteurs bleus sont mis à l'échelle d'un facteur 3 - qui est la valeur propre du vecteur propre bleu, tandis que les vecteurs magenta ne sont pas mis à l'échelle, car leur valeur propre est 1.


Lien vers l'article Wikipedia.

DanielTheRocketMan
2020-03-02 12:52:36 UTC
view on stackexchange narkive permalink

Tvariance du biais de compromis est un autre concept très important dans les statistiques / apprentissage automatique.

Les points de données en bleu proviennent de $ y (x) = \ sin (x) + \ epsilon $ , où $ \ epsilon $ a une distribution normale. Les courbes rouges sont estimées à l'aide de différents échantillons. La figure «Large Variance and Small Bias» présente le modèle original, qui est un réseau de fonctions de base radiale avec 24 bases gaussiennes.

La figure "Small Variance and Large Bias" présente le même modèle régularisé.

Notez que dans la figure "Petite variance et grand biais" les courbes rouges sont très proches les unes des autres (petite variance). La même chose ne se produit pas dans la figure "Grande variance et petit biais" (grande variance).

Spetite variance et grand biais enter image description here

Large variance et petit biais enter image description here

De mon cours de méthodes informatiques et d'apprentissage automatique.

Parce que ces parcelles ne sont pas étiquetées et inexpliquées, elles sont si intrinsèquement ambiguës qu'elles ne montrent rien du tout.Peut-être pourriez-vous développer votre réponse?
Merci d'avoir attiré mon attention.Je vais l'améliorer.Permettez-moi d'arriver à un ordinateur.
Une autre visualisation courante du compromis biais-variance $ \ operatorname {MSE} = \ operatorname {Bias} ^ 2 + \ operatorname {Var} + \ sigma ^ 2 $ qui est habituellement rencontrée est comme [this] (https: //i.stack.imgur.com/0trcp.png)
Gerardo Furtado
2020-03-03 18:24:49 UTC
view on stackexchange narkive permalink

En voici une très basique, mais à mon avis très puissante car ce n'est pas seulement une explication visuelle d'un concept mais demande également de visualiser ou d'imaginer un objet réel représentant le concept:

Les néophytes ont parfois du mal à comprendre des concepts très basiques comme la moyenne, la médiane et le mode.

enter image description here

Donc, pour les aider à mieux saisir l'idée de méchanceté:

Prenez cette distribution biaisée et faites-en une impression 3D, en plastique, ou sculptez-la dans du bois, vous avez maintenant un véritable objet entre vos mains.Essayez de l'équilibrer en utilisant un seul doigt ... la moyenne est le point only où vous pouvez le faire.

enter image description here

J'aime le principe.Dans l'exemple donné, je ne pense pas que la position du doigt fonctionnerait: la queue droite n'est pas assez longue.Aussi, bien que nombreux.de nombreuses complications sont possibles, il est peu probable que le mode, la médiane et le mode soient également espacés pour de nombreuses distributions, même approximativement.
@NickCox C'est juste une image que j'ai obtenue de wikipedia (https://en.wikipedia.org/wiki/Skewness), et bien qu'elle soit assez mauvaise, elle est bien meilleure que la plupart des autres images d'une distribution biaisée (en ligne + libre de droit).L'important ici est le principe, qui reste vrai.
La question demande "des graphiques / gifs que tout le monde a qui illustrent très clairement un concept de statistiques" et je n'achète pas "très clairement" dans ce cas.
Votre logiciel préféré devrait vous permettre de dessiner par ex.une exponentielle avec moyenne 1, médiane $ \ ln 2 $ et mode 0, ce qui serait l'un des nombreux meilleurs exemples.
DanielTheRocketMan
2020-03-05 21:29:28 UTC
view on stackexchange narkive permalink

La figure ci-dessous montre l'importance de définir précisément les objectifs et les hypothèses d'un problème de clustering (et d'un problème statistique général).Différents modèles peuvent donner des résultats très différents:

enter image description here

Sources: ScikitLearn

Je pense que cela peut être un peu plus clair si vous choisissez simplement deux méthodes de clustering.Y en a-t-il deux avec une bonne interprétation statistique à laquelle nous pourrions nous limiter?
anjama
2020-03-02 21:33:41 UTC
view on stackexchange narkive permalink

D'accord, donc celui-ci est moins une illustration d'un concept de base, mais il est très intéressant à la fois visuellement et en termes d'applications. Je pense que montrer aux gens ce qu'ils peuvent finalement accomplir avec ce qu'ils apprennent est une excellente forme de motivation, vous pouvez donc le présenter comme un exemple de développement et d'application de modèles statistiques, qui dépend de tous les concepts statistiques plus fondamentaux qu'ils apprennent. Sur ce, je vous présente ...

Species Distribution Modelling

C'est en fait un sujet très large avec beaucoup de nuances en termes de types de données, de collecte de données, de configuration de modèle, d'hypothèses, d'applications, d'interprétations, etc. Mais en termes simples, vous prenez des exemples d'informations sur l'emplacement d'une espèce, puis utiliser ces emplacements pour échantillonner des variables environnementales potentiellement pertinentes (par exemple, données climatiques, données sur le sol, données sur l'habitat, altitude, pollution lumineuse, pollution sonore, etc.), développer un modèle en utilisant les données (par exemple, GLM, modèle de processus ponctuel, etc.) , puis utilisez ce modèle pour prédire dans un paysage à l'aide de vos variables environnementales. En fonction de la configuration du modèle, ce qui est prédit peut être un habitat convenable potentiel, des zones d'occurrence probables, la distribution des espèces, etc. Vous pouvez également modifier les variables environnementales pour voir comment elles affectent ces résultats. Les gens ont utilisé des MDS pour trouver des populations auparavant inconnues d'une espèce, ils les ont utilisés pour découvrir de nouvelles espèces, avec des données climatiques historiques, ils les ont utilisées pour prédire à rebours dans le temps où une espèce se trouvait et comment elle est arrivée là où elle est aujourd'hui (même tout au long des périodes de glaciation), et avec des choses comme les prévisions climatiques futures et la perte d'habitat, elles sont utilisées pour prédire comment les activités humaines affecteront l'espèce à l'avenir. Ce ne sont là que quelques exemples, et si j'ai le temps plus tard, je trouverai et relierai des articles intéressants. En attendant, voici une petite image que j'ai trouvée illustrant les bases:

Source: https://www.natureserve.org/conservation-tools/species-distribution-modeling

Je ne vois pas du tout que cela réponde à la question.
@NickCox Le PO a demandé une image montrant un concept statistique (aucune mention de sujet réel), et a préféré quelque chose qui serait motivant.La construction d'un modèle n'est-elle pas un concept statistique?Peut-être pas un test de base, comme un test t ou le théorème de la limite centrale, mais je le considérerais certainement comme un.Et en tant que concept plus global, il pourrait être plus motivant pour les élèves qui commencent à peine les statistiques en leur montrant ce qu'ils seront éventuellement capables d'accomplir.Je dis littéralement qu'ils peuvent utiliser des modèles statistiques pour découvrir de nouvelles espèces;essayez de faire un test t intéressant pour les élèves.
La question est de demander "des graphiques / gifs que tout le monde a et qui illustrent très clairement un concept de statistiques".Votre graphique ne fait rien pour moi mais illustre le fait que les données sur l'occurrence des espèces et les prédicteurs environnementaux permettent des prédictions d'aptitude, ce qui me convient (j'ai moi-même fait des analyses de ce type).Le graphisme est agréable mais pas plus, donc désolé, mais vous n'avez pas changé d'avis (ni encore obtenu de votes positifs).
Je ne m'attends pas à ce que mon exemple corresponde à la réponse choisie, et je pense personnellement que les autres réponses sont intéressantes et répondent certainement à ce que le PO attendait probablement le plus.Cela dit, OP demandait également des éléments de motivation.Ayant donné aux étudiants de première année leur première introduction aux statistiques dans le passé, je sais à quel point il est difficile de les impliquer, et j'espère que les gens qui verront ma réponse encourageront les gens à être plus créatifs pour fournir des idées et des applications globales quiaider à rendre les statistiques plus intéressantes pour les étudiants.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...