Question:
Mesure de l'étalement d'une distribution normale multivariée
Kristian D'Amato
2011-07-07 15:21:26 UTC
view on stackexchange narkive permalink

Quelle est une bonne mesure de la dispersion pour une distribution normale multivariée?

Je pensais utiliser une moyenne des écarts types des composants; peut-être la trace de la matrice de covariance divisée par le nombre de dimensions, ou une version de cela. Est-ce que c'est bon?

Merci

en tant que tel, la diffusion du gaussien multivarié n'a pas de sens. Cependant, selon vos besoins, il peut exister des approches pour répondre à votre question. La trace de la matrice est l'une des nombreuses façons, mais vous ignorez les corrélations, ce qui peut faire une énorme différence. Les valeurs propres, l'ACP, etc. pourraient être bien meilleures. Par conséquent, pourriez-vous préciser vos besoins?
En tant que tel, je veux un analogue de l'écart type à un espace multidimensionnel. Oui, la trace ignorerait les corrélations, ce que je crains. Cela dit, cela n'a pas besoin d'être mathématiquement exact. Fondamentalement, une bonne indication de la propagation serait la taille de l'hypervolume de l'hyperellipse définie par 1 std. écart par rapport à la moyenne. Mais une formule agréable et pratique sans dériver le volume exact serait très appréciée.
On dirait que PCA pourrait répondre à votre question.
Trois réponses:
#1
+13
schenectady
2011-07-07 16:41:19 UTC
view on stackexchange narkive permalink

Qu'en est-il du déterminant de la matrice de variance-covariance de l'échantillon: une mesure du volume au carré entouré par la matrice dans l'espace de dimension du vecteur de mesure. En outre, une version invariante d'échelle souvent utilisée de cette mesure est le déterminant de la matrice de corrélation de l'échantillon: le volume de l'espace occupé dans les dimensions du vecteur de mesure.

+1 Oui, les déterminants sont directement liés à «l'hypervolume ... de l'ellipse définie par 1 sd à partir de la moyenne».
C'est donc le déterminant de la matrice de covariance, non?
@Kristian La racine carrée du déterminant de la matrice de covariance vous indique l'hypervolume, en incorporant à la fois les informations de forme (corrélation) et de taille (écart type). C'est le produit des écarts types des principaux composants. Le déterminant de la matrice de corrélation est essentiellement un facteur de forme uniquement, allant de 0 pour les distributions dégénérées à 1 lorsque tous les composants ne sont pas corrélés.
@whuber, et si j'aimerais avoir une mesure séparée de la forme et de la taille?(Je ne suis en fait intéressé que par la taille, je pense.)
@Atcold Vous auriez besoin d'établir une définition quantitative de la «taille».Cela équivaudrait à établir ce qu'est une distribution de taille unitaire pour chaque forme donnée.(Par définition, la «forme» est toutes les propriétés qu'une distribution peut avoir qui ne sont pas modifiées par la traduction ou la remise à l'échelle.) Il existe d'innombrables façons de le faire, donc en fin de compte, le problème se résume à choisir une définition appropriée pour votre analyse particulière.C'est l'une des raisons pour lesquelles il ne peut pas y avoir de définition universelle de la taille (ou «étalement») pour toute famille de distribution qui comprend plusieurs formes.
Disons que j'ai des bulles D-dimensionnelles (Gaussiennes).J'étais après leurs rayons.Plus précisément, j'ai une collection de ces bulles et j'aimerais comparer leurs distances avec leurs spreads.Faites-moi savoir si vous préférez que je crée une nouvelle question.
#2
+3
MRocklin
2011-07-16 01:23:11 UTC
view on stackexchange narkive permalink

J'irais avec trace ou déterminant avec une préférence pour trace en fonction de l'application. Ils sont tous deux bons en ce sens qu'ils sont invariants à la représentation et ont une signification géométrique claire.

Je pense qu'il y a un bon argument à faire pour Trace over Determinant.

Le déterminant mesure efficacement le volume de l'ellipsoïde d'incertitude. S'il y a une redondance dans votre système cependant, la covariance sera presque singulière (l'ellipsoïde est très mince dans une direction) et alors le déterminant / volume sera proche de zéro même s'il y a beaucoup d'incertitude / propagation dans le d'autres directions. Dans un environnement de dimension moyenne à élevée, cela se produit très fréquemment

La trace est géométriquement la somme des longueurs des axes et est plus robuste à ce genre de situation. Il aura une valeur non nulle même si certaines directions sont certaines.

De plus, la trace est généralement beaucoup plus facile à calculer.

+1 Bons points. Cela me fait réfléchir: toute fonction symétrique des valeurs propres $ n $ serait qualifiée de «bonne». Toutes ces fonctions polynomiales sont des polynômes dans les fonctions symétriques élémentaires $ n $, qui incluent le déterminant et la trace.
Oui, la somme (trace) n'est pas forcément la meilleure façon de procéder. Vous avez raison de dire que vous pourriez imaginer beaucoup de mélanges ici en fonction de l'application. Je me demande s'il existe une famille de fonctions standard qui conviendrait ici ...
@MR Je ne connais personne qui ait tenté d'utiliser une seule statistique pour calculer la propagation d'une distribution normale multivariée (sauf, bien sûr, lorsque l'indépendance de tous les composants est supposée). Cela m'amène à croire qu'il n'y a peut-être pas de famille standard.
#3
+1
jpillow
2011-07-08 10:16:02 UTC
view on stackexchange narkive permalink

Une autre grandeur (étroitement liée) est l'entropie de la distribution: pour une gaussienne multivariée, c'est le log du déterminant de la matrice de covariance, ou

$ \ frac {1} {2} \ log | (2 \ pi e) \ Lambda | $

où $ \ Lambda $ est la matrice de covariance. L'avantage de ce choix est qu'il peut être comparé à la "dispersion" de points sous d'autres distributions (par exemple non gaussiennes).

(Si nous voulons être techniques, c'est l ' entropie différentielle d'un gaussien).



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...