Question:
Quelle est la bonne façon d'estimer le CDF pour une distribution à partir d'échantillons prélevés dans cette distribution?
wnoise
2011-09-22 09:16:14 UTC
view on stackexchange narkive permalink

Étant donné $ n $ échantillons d'une distribution (continue) X, la chose évidente à faire est de les trier, et de les répartir également sur $ [0,1] $ en prenant $ (x _ {(k)}, (k -1/2) / n) $ comme estimations de points particuliers sur le CDF, et faire une sorte d'interpolation entre les points, si nécessaire.

Est-ce la "bonne" façon de faire cette estimation? Comment obtenir des barres d'erreur pour les points estimés? Il ne semble pas qu'ils soient nécessairement symétriques.

Ma première pensée était: «Je ne pense pas qu'il y ait de réponse à cette question». Similaire à ce qui est écrit dans l'une des réponses. L'idée d'un intervalle de confiance sur une courbe lisse, puis de se rétrécir à mesure que n augmente, semble cependant être une bonne idée.
L'estimation habituelle du CDF lui-même est le [CDF empirique] (http://en.wikipedia.org/wiki/Empirical_distribution_function).
Je suis également intéressé par ce sujet.Je suggère également le livre "Extreme Value Theory in Engineering", Academic Press (1988), d'Enrique Castillo, où sont présentées différentes estimations non paramétriques du CDF.
Quatre réponses:
#1
+9
Jonathan Lisic
2011-09-22 10:33:17 UTC
view on stackexchange narkive permalink

Dans les statistiques, il n'y a vraiment pas de concept d'estimation «correcte», c'est juste si l'estimation que vous construisez a les propriétés que vous recherchez.

En général, si vous essayez d'estimer un CDF, vous utiliserez le ECDF (Empirical CDF) qui est juste $ Pr (X < x) = \ Sigma_ {i = 1} ^ n \ mathbb {I} _ {x _ {(i)} \ le x} (x) n ^ {- 1} $. Où $ X _ {(i)} $ est la statistique de l'ordre $ i $ ème.

L'ECDF a de nombreuses propriétés intéressantes comme être fortement cohérent (même ponctuellement) avec le CDF.

Puisque vous avez une approximation discrète d'une distribution continue, vous pouvez générer des quantiles qui peuvent être utilisés pour les intervalles de confiance de la manière discrète habituelle.

$ inf_x (x: Pr (X <x) \ ge \ pi) $

Bien sûr, il n'y a aucune raison pour laquelle un intervalle de confiance devrait être symétrique, donc je suis confus par votre dernière déclaration qui, je pense, devrait être clarifiée.

The comment was just that error bars are often reported as one number, as if they were symmetric, unless there is a good reason to expect strong asymmetry. Near the middle of the CDF I expect symmetry. At the edges, I don't have a reason to expect symmetry.
This directly gives estimates everywhere, rather than just at the samples. Between the samples these make some sense, but a bit less at the samples. For a continuous distribution, there is essentially no distinction between $<$ and $\leq$. Symmetry consideration suggest "k-1/2" rather than k-1 or k at the points. This should have very similar properties in the $n \rightarrow \infty$ limit, but seems much saner for low n. The median of an odd number of points is an estimator for an x such that $Pr[X < x] = 1/2$, not some offset to 1/2 varying with n.
I'm afraid I don't know the "usual discrete way" of generating these confidence intervals, nor does your $\inf$ notation make sense to me.
la notation inf dit la plus petite valeur de x dans l'ensemble de x telle que $ Pr (X
#2
+4
soakley
2015-02-09 08:22:28 UTC
view on stackexchange narkive permalink

Pour obtenir des barres d'erreur, vous pouvez construire un intervalle de confiance autour de l'ensemble de la fonction de distribution cumulative empirique (ECDF). Cela peut être fait en utilisant l'inégalité Dvoretzky-Kiefer-Wolfowitz. Si vous voulez que l'ECDF soit à moins de $ \ epsilon $ du vrai CDF avec confiance $ 1- \ alpha, $ choisissez alors la taille de l'échantillon $ n $ en utilisant $$ n \ ge \ left ({{1} \ over {2 \ epsilon ^ 2}} \ right) \ mathrm {ln} \ left ({{2} \ over {\ alpha}} \ right) $$

Donc, par exemple, si vous voulez que l'ECDF être à moins de 0,01 $ du CDF avec une confiance de 95%, nous trouvons en branchant que $$ n \ ge 18444.4 $$ donc nous sélectionnons $ n = 18445. $

#3
+3
Dikran Marsupial
2011-09-23 13:28:33 UTC
view on stackexchange narkive permalink

Vous pouvez toujours utiliser un estimateur de densité de noyau (qui donnerait également le c.d.f. comme somme pondérée du composant c.d.f.s). Vous pourriez alors obtenir des barres d'erreur en amorçant les données disponibles. Ce serait assez simple à implémenter et donnerait de jolis c.d.f.s lisses et bien comportés avec des barres d'erreur.

The KDE doesn't seem to add anything to just bootstrapping with the Empirical CDF.
Smoothness and differentiability? It achieves the "interpolation" between points, but in a more probabilistic manner than direct interpolation. If you don't need a smooth c.d.f. then the bootstrapped empirical CDF sounds as good an approach as any other.
#4
+2
yannick
2011-09-22 13:21:10 UTC
view on stackexchange narkive permalink

Dans une approche bayésienne, vous pouvez utiliser un Processus Dirichlet (DP) pour estimer le PDF puis l'intégrer. Ce que vous essayez de faire est d'estimer la fonction sur la base d'échantillons à certaines valeurs. L'approche DP vous permet d'incorporer une hypothèse de régularité, ce qui est utile car vous préférerez souvent une solution différenciable à celle qui ressemble à un escalier. Le résultat de votre analyse est alors une distribution sur les fonctions, qui vous donne en particulier une fonction moyenne, et quelques barres d'erreur dessus.

Le livre suivant contient un joli chapitre sur les processus Dirichlet: O'Hagan, A. et Forster, JJ (2004). Bayesian Inference, 2e édition, volume 2B de "Kendall's Advanced Theory of Statistics". Arnold, Londres.

Je ne suis pas intéressé par le PDF, juste le CDF, donc les propriétés de fluidité du PDF n'ont pas d'importance. (Et en fait, j'ai assez de points pour que n'importe quelle procédure de lissage fonctionne assez bien sauf près des extrémités.) Ce que je veux faire, c'est ajuster les courbes au CDF. À cette fin, j'aimerais pouvoir traiter les données comme des estimations pour le CDF d'une manière cohérente, avec des barres d'erreur pour les pondérations.
@wnoise vous obtenez des barres d'erreur sur le CDF avec cette méthode, c'est le point que j'essayais de faire. Si vous ne souhaitez pas intégrer le PDF et travailler directement sur le CDF, vous pouvez utiliser un processus gaussien sur vos points de données, à peu près comme vous l'avez suggéré. Le processus gaussien donnera alors l'interpolant le plus probable et ses barres d'erreur.
Why Gaussian error bars though? I'd think that something like beta(k, n-k) error bars on the point at $x_{(k)}$ would be appropriate. And of course it really seems like adjacent points are correlated...
qu'entendez-vous par barres d'erreur gaussiennes? Je dois ajouter que ce que je voulais dire, c'était vraiment un intervalle de confiance et non des barres d'erreur. Et le GP tient compte de la corrélation dans les points voisins, c'est tout l'intérêt de l'utiliser.
For the Beta, that's actually why I was alluding to the Dirichlet process, which is a generalization to functions of the beta distribution.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...