Question:
Une variable peut-elle être normalement distribuée sur un intervalle fini?
ThePhysicist92
2020-01-28 17:19:19 UTC
view on stackexchange narkive permalink

Je calcule des tarifs, qui peuvent prendre n'importe quelle valeur entre 0 et 1. Peut-il être normalement distribué même si le domaine ne correspond pas aux nombres réels?


Normal distribution fit to the means of the lapses (bootstrapped data)

Merci beaucoup pour les réponses, ici je représente les moyennes des données sur lesquelles sont ajustées une distribution normale. J'ai créé quelque chose comme 1000 moyennes des données en utilisant le bootstrap.

Raw data

Quant aux données brutes, elles sont en effet fortement biaisées avec une grande valeur d'asymétrie positive. Sur la base de vos réponses, la normalité du test t ne peut pas être supposée à 100%. Au lieu de tests t, j'essaie de calculer des intervalles de confiance. J'ai un intervalle de confiance pour la prédiction utilisant le bootstrap, même si je ne suis pas sûr à 100% que ce soit la bonne manière. Je compare 4 modèles prédictifs pour décider de ce qui donne les meilleurs résultats. Les taux individuels prévus sont regroupés par âge de la police et pris leur moyenne, les prévisions sont donc par exemple: pour l'âge = 4 le taux = 4,2%. Je veux utiliser une autre méthode pour l'IC, à savoir l'inégalité de Chebyshev. Mais pour cela, j'ai besoin d'adapter une distribution aux données. J'ai déjà essayé weibull, beta, gamma mais aucun d'entre eux ne semble fonctionner.

EDIT: Le modèle que j'ai créé prédit les taux individuels et je prends la moyenne de ces taux pour obtenir le taux moyen pour un groupe. Cette moyenne doit être estimée correctement, un IC lui est également attribué. J'ai pensé que si j'effectuais un test t sur chaque groupe entre les prédictions du modèle et les valeurs réelles à prédire (jeu de données de test) et que j'obtenais des valeurs p non significatives, alors le modèle était bon. J'avais besoin de ces informations concernant la normalité possible des valeurs à cause du test t.

Merci beaucoup pour toutes les informations que vous m'avez données jusqu'à présent! Vous êtes génial!

Seulement environ.Alternativement, si vous consultez la distribution bêta, vous constaterez que cela respecte les limites tout en pouvant être proche de symétrique.
... peut aussi être exactement symétrique!
Dans de nombreux cas, les taux ne présentent pas de distributions qui peuvent être bien approximées par une distribution normale, en particulier lorsque la plupart des taux sont extrêmes (près de 0 $ ou 1 $), vous pourriez donc chercher au mauvais endroit si vous essayezpour développer un modèle de probabilité pour vos taux calculés.
Cela dépend * beaucoup * de la situation.Il se peut très bien que vos taux puissent être approximés avec une distribution normale (je suppose que cette approximation, au lieu d'une équivalence exacte, est ce que vous visez).Lorsque vous calculez des taux, vous calculez souvent des comptes.Ces dénombrements peuvent être distribués en binôme, ce qui peut être bien approximé avec une distribution normale si le nombre est suffisamment grand ...
.... Voir [ici] (https://stats.stackexchange.com/questions/398436/ab-testing-ratio-of-sums) pour un exemple où les taux sont bien approximés par une distribution normale (c'est unrapport de deux variables distribuées approximativement normales, qui est elle-même également approximativement distribuée normale. Mais oui, il suit plus précisément une distribution légèrement différente qui peut être décrite plus précisément par une courbe différente, mais plus complexe)
Je vote pour clore cette question.Implicitement, cette question demande s'il est ou non * pratique * d'utiliser une approximation avec la distribution normale.Pour répondre à cette question, vous devez clarifier davantage sur "Je calcule les tarifs"
Juste par curiosité, un homéomorphisme fonctionnerait-il pour cela?(-inf, inf) est comme (0,1) au sens topologique non?Je demande parce que je ne suis pas sûr.Je suppose que la question signifiait un intervalle borné par opposition à un intervalle fini.
Pouvez-vous s'il vous plaît ajouter les informations supplémentaires que vous avez fournies dans les commentaires, à la question d'origine?Tout le monde ne lit pas les commentaires ... et les questions sont censées être autonomes sans avoir besoin d'informations supplémentaires
qu'essayez-vous de réaliser?pourquoi il est important de savoir si (et de combien) vos données sont "normalement distribuées sur [0,1]"
Re la vérification: (1) vous ne pouvez pas utiliser valablement l'inégalité de Chebyshev pour construire un IC, car cela nécessite une certaine connaissance de la variance de la distribution sous-jacente.(2) Cependant, l'inégalité de Chebyshev s'applique à toutes les distributions, donc si vous pouviez l'appliquer, vous n'auriez pas besoin d'adapter une distribution aux données.
Votre distribution a deux composantes une proche de 0 et une proche de 1. Pourquoi voulez-vous comparer uniquement la moyenne (qui est une combinaison de plus d'informations, à savoir la distribution entre ces deux composants ainsi que les valeurs moyennes de ces composants)?Quels sont les enjeux de la prédiction, un modèle qui prédit les valeurs proches de 1 est-il meilleur ou un modèle qui prédit les modèles proches de 0 est-il meilleur?Un modèle qui prédit bien la moyenne est-il meilleur, ou un modèle qui prédit bien les individus (mais pas un si bon résultat moyen) est-il meilleur?
@Sextus Empiricus: Le modèle que j'ai créé prédit des taux individuels et je prends la moyenne de ces taux pour obtenir le taux moyen pour un groupe.Cette moyenne doit être estimée correctement, un CI lui est également attribué.J'ai pensé que si j'effectuais un test t sur chaque groupe entre les prédictions du modèle et les valeurs réelles à prédire (jeu de données de test) et que j'obtenais des valeurs p non significatives, alors le modèle était bon. J'avais besoin de ces informations concernant la normalité possible des valeurs à cause du test t.
@whuber: (1): Mais si j'arrive à adapter une distribution aux données?Si j'adapte une distribution bêta et que j'obtiens les paramètres avec un maximum de vraisemblance et que je prends sa moyenne et sa variance pour créer les limites de Chebyshev?Ou il y a trop d'incertitude.
Cinq réponses:
kjetil b halvorsen
2020-01-28 17:29:08 UTC
view on stackexchange narkive permalink

Non, ça ne peut pas.Du moins si vous par "distribué en tant que" implique exactement .La plage de la distribution normale s'étend de moins à plus l'infini.En pratique, si la variance est suffisamment petite, disons de l’ordre de $ (0,1) ^ 2 $ , alors une variable contrainteà $ (0,1) $ peut être approximativement normalement distribué.

Je vous remercie!J'ai des valeurs comme 0,004, 0,02 et ainsi de suite ... ce sont des taux de déchéance, donc la variance est très faible. Je vous remercie!Je prends la moyenne de ces valeurs et j'obtiens 0,04 (sur 400 000 échantillons).Selon le théorème limite de Cetral, puis-je dire que cette moyenne suit une distribution normale?Dans ce cas, distribution approximativement normale.
Le taux de déchéance peut signifier beaucoup de choses, mais aucune à ma connaissance n'a une limite supérieure de 1 (ceux que je connais ont des unités de mesure, donc même si elle est bornée, la limite supérieure dépend d'une convention sur les unités.)
Par taux de déchéance, j'entends la probabilité de rachat de la police d'assurance donnée.Je prédis la probabilité individuellement afin de connaître la probabilité de déchéance pour chaque contrat.Ensuite, je prends la moyenne de ces probabilités en fonction d'une méthode de regroupement.La moyenne en question est la moyenne de ces probabilités.
Bien;c'est vraiment une probabilité.Je n'utiliserais pas du tout une normale ici, même pour des moyens.
Je suppose que la moyenne est normalement distribuée à cause du théorème central de limite, mais seulement parce que je veux faire un test t entre les moyennes réelles et prédites.La normalité n'est donc requise que pour le test t.Considérez-vous cette exigence satisfaite pour cela?Si non, pourquoi?Je vous remercie!
Vous nous dites que la moyenne est très proche de la frontière.C'est toujours dangereux.Je ne peux que préférer travailler sur une échelle transformée ou utiliser une distribution non normale comme référence si j'avais des données similaires.En supposant que les données sont comme vous préférez, vous avez de nombreux avantages, mais cela peut être un vœu pieux.Vos données sont, je suppose, non seulement trop volumineuses pour être montrées, mais aussi susceptibles d'être confidentielles ou sensibles, mais j'aimerais voir un graphique quantile.
@user268825 * "Je suppose que le moyen est normalement distribué ...." * cela deviendra une déclaration correcte lorsque vous le changez en: Je suppose que le moyen est * approximativement * normalement distribué.
Je vous recommande de logit transformer votre variable (https://en.wikipedia.org/wiki/Logit).Cette transformation éliminerait l'une des raisons pour lesquelles la variable ne peut pas être distribuée normalement: la variable transformée aura son domaine dans les nombres réels.Si la variable transformée est alors distribuée à peu près normalement (par exemple, aucun écart significatif tel qu'évalué par un test shapiro), vous pouvez appliquer un test t aux valeurs transformées.
@fabiob, un test t peut également s'appliquer à la variable non transformée.Cela dépendra de la situation et le simple fait que le domaine soit compris entre 0 et 1 ne suffit pas.Une condition supplémentaire suffisante est que la variation standard soit d'un ordre inférieur à la moyenne.
@SextusEmpiricus "Je suppose que la moyenne est normalement distribuée ...." Cela deviendra correct lorsque vous remplacerez "la moyenne" par "la distribution des moyennes d'échantillon de taille $ N = 400 000 $".Une moyenne d'échantillon * unique * n'a pas de distribution normale… pas même approximative.
@Alexis Je suis meilleur pour les nombres / images que pour les mots.Ainsi, lorsque nous corrigeons la logique (ce n'est pas * exactement * distribué normalement) * et * le langage (un * simple * moyen n'a pas * de * distribution. Nous ne pouvons pas dire qu'une observation * est * distribuée) alors ildevient: "Je suppose que la moyenne doit être échantillonnée à partir d'une distribution qui peut être approximée avec une distribution normale" ou plus courte "Je suppose que la moyenne peut être modélisée / approximée avec une distribution normale".
@SextusEmpiricus true.Il est également vrai qu'un test t pourrait ne pas être applicable même à la variable transformée.Mais je pense toujours que supprimer l'une des raisons pour lesquelles certaines hypothèses sous-jacentes au test t pourraient ne pas être satisfaites est une chose recommandable à faire.
@fabiob, sur la base des informations de cette question, nous * ne savons pas * si les hypothèses sous-jacentes du test t ne sont pas satisfaites.Nous ne savons pas non plus si l'OP souhaite réellement faire un test t.* Faire juste * une transformation logit sur * la variable de résultat * peut être dénué de sens.Oui, peut-être que l'OP souhaiterait effectuer une régression logistique, mais ce n'est * pas * la même chose que de faire une transformation logit (on traiterait la * moyenne * conditionnelle * du résultat comme une transformation logit de la fonction linéaire sous-jacente des régresseurs $\ beta X $).
@SextusEmpiricus l'OP veut faire un t-test, comme il le mentionne dans un commentaire.
@fabiob, ah ces commentaires qui ne sont jamais mis à jour dans les questions, je les ai négligés.Mais encore, un test t sur une variable transformée n'aurait pas non plus de sens.Supposons que vous ne mesuriez que les valeurs 0,004 et 0,02, pourquoi une transformation de ces valeurs en une échelle différente vous permettrait-elle de mieux effectuer le test t?Je ne crois pas que le test t soit beaucoup aidé en transformant la variable (aussi, je ne crois pas que le test t se soucie vraiment beaucoup quelle que soit la distribution, car il s'agit plus de la distribution dusignifier).
@SextusEmpiricus pourquoi sans signification?remarquez qu'une transformation logit ne change pas seulement l'échelle.vrai, le test t se soucie de la distribution de la moyenne.ce qui est normal même lorsque la distribution de la variable originale n'est pas normale si les hypothèses du théorème central limite sont satisfaites.si la variable d'origine est normale, vous pouvez être assuré que la moyenne est normalement distribuée.donc dans ce contexte, une transformation logit réduit le risque que l'une des hypothèses sur lesquelles vous vous appuyez pour appliquer un test t ne soit pas satisfaite.êtes-vous d'accord?
@fabiob Si vous avez un tas de résultats distribués par Bernoulli comme: $$ X = 0,004, 0,02, 0,02, 0,02, 0,02, 0,004 $$ alors leur transformation sera tout aussi bien une distribution de Bernoulli mais seulement avec des valeurs différentes $$ log (X/ (1-X)) = 5,52, -3,89, -3,89, -3,89, -3,89, -5,52 $$ lorsque vous effectuez une régression logistique, alors souvent vous ne transformez * pas * la variable de résultat, mais vous transformez à la place l'attendusignifier.
* "une transformation logit réduit le risque que l'une des hypothèses sur lesquelles vous vous basez pour appliquer un test t ne soit pas satisfaite." * Vous réduisez le risque en considérant attentivement la variable considérée et non en appliquant de manière aléatoire / aveugle un tas de transformationsavec * l'espoir * que tout se termine bien.
* "si les hypothèses du théorème de la limite centrale sont satisfaites" * Les hypothèses du théorème de la limite centrale ne nécessitent pas que la variable d'origine soit distribuée entre $ - \ infty, \ infty $.En fait, ce serait encore mieux lorsque la distribution est restreinte à un intervalle fini (ce qui signifie également une variance finie).Par exemple, si vous avez une variable $ Y \ sim Cauchy $ (qui est distribuée entre $ - \ infty, \ infty $) et $ X = logistique (Y) $ (qui est distribuée entre $ 0,1 $) alors vous pouvezutilisez le test t sur $ X $ mais * pas * sur $ Y $.Transformer $ X $ en $ Y $ pour utiliser le test t serait une erreur.
Laissez-nous [continuer cette discussion dans le chat] (https://chat.stackexchange.com/rooms/103890/discussion-between-fabiob-and-sextus-empiricus).
AiliezcwfyCMT Beuatiful!Oui.
Acccumulation
2020-01-29 03:17:19 UTC
view on stackexchange narkive permalink

La réponse à votre question littérale est «non», mais la question implicite plus large de la manière dont vous devez modéliser vos données est plus compliquée. Comme le dit Jim, un modèle normal tronqué est une option. Vous pouvez également chercher à convertir vos probabilités en cotes de journalisation, qui vont de $ - \ infty $ à $ \ infty $ , ou la distribution bêta comme le mentionne Nick Cox.

Le théorème de limite central s'applique dans un certain sens à vos données, mais le CLT dit simplement que les données vont à la distribution normale dans le cas limite, il ne dit pas qu'une distribution particulière pour une taille d'échantillon finie est normalement distribuée . Autrement dit, pour n'importe quel niveau de précision, il existe une taille d'échantillon pour laquelle la distribution est normale dans ce niveau de précision, mais cela ne signifie pas que vous avez une taille d'échantillon suffisante pour qu'elle soit normale au niveau de précision nécessaire.

Vous mentionnez dans les commentaires que les probabilités sont faibles, ce qui signifie probablement que les données sont biaisées. Plus les données sont biaisées, plus la taille de l'échantillon est importante pour atteindre un niveau de précision particulier à l'aide du CLT. Vous voudrez peut-être examiner l'approximation avec une distribution asymétrique, telle que Poisson. Selon les données, vous pourriez converger vers une telle distribution plus rapidement que la normale.

Dans le pire des cas, vous pouvez probablement utiliser les limites de Chebyshev.

Jim
2020-01-28 18:34:37 UTC
view on stackexchange narkive permalink

Par définition, la distribution normale a un support $ (- \ infty, \ infty) $ .

Vous voudrez peut-être examiner la distribution normale tronquée.Il peut avoir un support limité $ [a, b] $ .Citant son wiki:

[...] la distribution normale tronquée est la distribution de probabilité dérivée de celle d'une variable aléatoire normalement distribuée en délimitant la variable aléatoire par le bas ou le dessus (ou les deux).

Sextus Empiricus
2020-01-29 15:56:23 UTC
view on stackexchange narkive permalink

De nombreuses situations ne sont pas exactement distribuées normalement. Il est possible que la plupart des situations pratiques ne soient pas vraiment distribuées normalement (lorsque nous modélisons la longueur ou le poids humain par une distribution normale, cela signifie-t-il que nous considérons des valeurs négatives?).

La distribution normale est une distribution de plusieurs nombres. Lorsque vous avez une somme de nombreux effets / variables, la distribution suivra approximativement la distribution normale. La première application de la distribution normale (ou quelque chose qui lui ressemble) remonte à deMoivre qui l'a utilisé comme modèle pour approcher une distribution binomiale (qui n'a pas un support infini), ce qui peut être considéré comme une somme de nombreuses variables distribuées de Bernouilli.

La question pour vous est de savoir si votre situation particulière permet l'utilisation d'une approximation avec la distribution normale. Vous avez mentionné dans les commentaires une moyenne / somme de 400k échantillons, qui ressemble beaucoup à une variable distribuée (à peu près) normale (bien que, en fonction de vos objectifs, vous souhaiterez peut-être toujours étudier plus que la moyenne de votre échantillon, et recueillir plus d'informations à partir de la distribution de vos échantillons qui n'est probablement pas normalement distribuée, puisque nous parlons de quelques nombres individuels).

Ci-dessous se trouve une image d'un histogramme (et approximation normale) de $ X / 400000 $ avec $ X \ sim Binom (n = 400000, p = 0,04) $ . Cette variable va de 0 à 1.

example

Itamar
2020-02-04 14:19:53 UTC
view on stackexchange narkive permalink

À proprement parler, une variable définie sur un intervalle fini ne peut pas être distribuée normalement.Cependant, comme mentionné précédemment, il peut en être approximativement ainsi.

De plus, dans certains cas, il peut être transformé en une variable normalement distribuée.Par exemple, le coefficient de corrélation de Pearson entre deux variables indépendantes, qui est limité à un intervalle fini ( $ - 1 \ le r \ le1 $ ), peut être transformé en unvariable à peu près normalement distribuée $ z $ en utilisant la transformation de Fisher: $$ z = {1 \ over2} \ ln {1 + r \ over1-r} $$



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...