Question:
Identifier les distributions de probabilité
Pragya
2011-05-08 23:56:08 UTC
view on stackexchange narkive permalink

Étant donné un exemple d'ensemble de données de nombres à virgule flottante, comment déterminer sa distribution de probabilité et la prouver? Générez également des nombres aléatoires des mêmes distributions par la suite.

Cette question est peut-être trop large. Vous avez un problème spécifique que vous souhaitez résoudre? Dans l'affirmative, veuillez les décrire et comment vous générez les données, car ce sont des informations cruciales pour la sélection des distributions de probabilité.
Si vous ne disposez que des données, vous ne pouvez ni déterminer la distribution à partir de laquelle elles ont été tirées, ni - même si vous l'avez devinée correctement - pouvez-vous le prouver.Dans certaines situations restreintes, vous pouvez arriver quelque part.
Trois réponses:
#1
+10
Greg Snow
2011-05-09 21:26:19 UTC
view on stackexchange narkive permalink

La réponse courte est que vous ne pouvez pas.

La réponse la plus longue est que vous devez vraiment réfléchir à ce que vous essayez d'accomplir et à la ou aux questions auxquelles vous essayez de répondre.

Les tests sur les distributions ne sont pas conçus pour prouver une distribution particulière, mais pour réfuter (ils ne sont pas parfaits pour cela, vous avez toujours des erreurs de type I et de type II). Mais il est souvent moins important d'établir une distribution exacte que de trouver une approximation raisonnable. Avec l'erreur d'arrondi et la précision de la machine, vous ne pouvez pas faire la différence entre si les données proviennent d'une distribution normale ou d'une autre distribution qui n'est que légèrement différente de la normale sans une quantité infinie de données (et peut-être toujours pas alors en raison de la arrondi). Mais traiter ces données comme normales est probablement toujours raisonnable. Le CLT nous dit que nous pouvons souvent modéliser en utilisant la distribution normale même lorsque les données ne proviennent clairement pas d'une distribution normale (à condition que nous modélisions le comportement de la moyenne de l'échantillon, pas de la population).

Qu'est-ce que la connaissance de la science qui a généré les données est plus importante que les tests statistiques et les preuves. Une distribution particulière (et les hypothèses qui vont avec) est-elle raisonnable d'après la science?

Je préfère un test visuel plutôt que le test exact pour regarder les distributions, générer des données à partir de la distribution hypothétique et créer plusieurs graphiques , un avec les données d'origine, le reste avec les données générées, puis voyez si vous pouvez choisir ce qui est différent (la fonction vis.test du package TeachingDemos pour R le fait). Si vous ne pouvez pas dire ce qui est différent, alors la distribution hypothétique est probablement "assez proche". Même si vous pouvez faire la différence, vous pouvez décider que les différences ne sont pas si importantes.

Si vous souhaitez générer de nouvelles données à partir d'une distribution similaire à vos données existantes, vous pouvez prendre des échantillons bootstrap, ou des échantillons bootstrap plus un peu de bruit aléatoire (il s'agit d'un échantillonnage à partir de l'estimation de la densité du noyau), ou vous pouvez faire un ajustement logpline et générer à partir de cette distribution (voir le package logspline pour R comme un outil pour cela).

#2
+5
benhamner
2011-05-09 22:17:21 UTC
view on stackexchange narkive permalink

La seule façon de "prouver" que les données proviennent d'une certaine distribution (sans un nombre infini d'échantillons) est de savoir précisément comment ces données sont générées. Par exemple, si vous savez que les données proviennent de la magnitude d'une variable aléatoire normale circulaire bivariée, elle a une distribution ricienne. Ou si les données proviennent du temps entre les événements dans un processus de Poisson, alors elles ont une distribution exponentielle.

Faute d'une définition précise du processus de génération, il existe un certain nombre de mesures empiriques que vous pouvez utiliser pour déterminer la distribution sous-jacente. Tout d'abord, regardez les données elles-mêmes: sont-elles discrètes ou continues? Est-il pris en charge sur (-inf, inf), [0, inf), (0,1) ou un autre intervalle? Ces connaissances peuvent être utilisées pour affiner les distributions paramétriques univariées possibles qui pourraient correspondre à vos données. Les exemples incluent la distribution gaussienne, Cauchy, Exponentielle, Gamma, Valeur extrême généralisée, Rician, Cauchy enveloppé, Von Mises, Binomial et Beta. Une fois que vous avez déterminé le support de la distribution, testez les distributions univariées potentielles avec un critère d'information - tel que le critère d'information d'Akaike (AIC) ou le critère d'information bayésien (BIC). Ceux-ci équilibrent le nombre de paramètres dans une distribution donnée avec la probabilité que les données correspondent à une distribution donnée. Vérifiez visuellement la (les) distribution (s) ayant le meilleur score pour voir si elles semblent correspondre aux données.

Une alternative est de construire une estimation de la densité du noyau des données. Il s'agit essentiellement d'une version sophistiquée de la création d'un histogramme des données, où une petite distribution gaussienne (ou autre) est placée à chaque point de données, et la distribution estimée est construite à partir de la somme de ceux-ci. Pour plus d'informations, voir Estimation de la densité du noyau. Cela a l'avantage de pouvoir ajuster des distributions arbitraires dans les données, mais l'échantillonnage à partir de cette distribution a un coût de calcul élevé, en particulier avec de grands ensembles de données.

Une autre option consiste à construire un modèle de mélange gaussien (GMM) à partir des données, où un petit nombre de distributions gaussiennes est utilisé pour approximer la distribution sous-jacente. Pour plus d'informations, consultez Modèles de mélange.

La méthode appropriée pour votre application dépend de l'application elle-même. Si vous pouvez déterminer la distribution à partir du processus de génération, super, estimez les paramètres et c'est fait! Sinon, le meilleur scénario suivant consiste à trouver une distribution paramétrique univariée qui décrit avec précision les données. À défaut, des modèles de mélange, des KDE ou d'autres méthodes peuvent être utilisés pour approximer la distribution.

#3
+1
Inon
2016-03-22 23:30:21 UTC
view on stackexchange narkive permalink

Si vous essayez de faire une analyse exploratoire des données, vous pouvez utiliser des techniques graphiques.

Je peux suggérer le chapitre 1.3.4 du manuel NIST. En particulier, n'importe lequel des graphiques de probabilité peut être perspicace (par exemple, diagramme de probabilité, diagramme de coefficient de corrélation, diagramme quantile-quantile, etc.).

Pour un certain nombre de distributions courantes, vous pouvez essayer d'ajuster le Distribution Tukey-Lambda, et extraction des informations de distribution à partir de la valeur ajustée du paramètre de forme lambda.

Consultez également [l'exemple de travail] (http://www.itl.nist.gov/div898/handbook/eda/section4/eda424.htm).(pas assez de rep. pour ajouter ce lien dans la réponse originale ...) -;
(+1) Ces recommandations semblent suffisamment constructives pour être affichées comme réponse, d'autant plus que (comme cela a été remarqué dans d'autres réponses) la demande de "le prouver" est erronée.Merci de visiter notre site et de contribuer!
Merci, @whuber.Je suppose que certains visiteurs mettent davantage l'accent sur une approche théorique des statistiques que sur des besoins plus pragmatiques.Cela pourrait même être un `` méta '' post décent ...


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...