Question:
Si deux séries temporelles $ X $ et $ Z $ suivent $ 0 \ leq Z \ leq X $, peut-on dire que $ \ text {var} (Z) \ leq \ text {var} (X) $?
Douglas
2014-07-21 10:26:12 UTC
view on stackexchange narkive permalink

Maintenant, je vois que ça ne tient plus. Merci pour les contre-exemples ... Vous avez la règle!

Merci beaucoup pour vos commentaires!

J'ai cependant ajouté , quelques observations manquantes. Le plus important est le fait que l'on peut supposer qu'il existe une covariance positive entre X et Y.

Au début, il me semblait que ce serait facile à démontrer ... mais je n'ai toujours pas réussi pour résoudre ce problème. Pouvez-vous me donner un coup de main?

Supposons que nous utilisions

$ \ mathbf {i)} $ une série chronologique $ X = [x_1, ..., x_N] $ contenant seulement des entrées positives (ie $ 0 \ leq x_i $ pour tout $ i $),

$ \ mathbf {ii)} $ un vecteur de poids de même longueur donné par $ Y = [y_1 , ..., y_N] $ où $ 0 \ leq y_i \ leq 1 $ pour tout $ i $

à construire

$ \ mathbf {iii)} $ une série chronologique $ Z = [z_1, ..., z_N] $, où le $ i $ ème terme est donné par $ z_i = x_i y_i $, soit $ Z = [x_1 y_1, ..., x_N y_N] $. Clairement, comme $ Y \ in [0,1] $, nous avons que $ 0 \ leq Z \ leq X $ pour tout $ i $.

$ \ mathbf {Question)} $ Pouvons-nous démontrer que $ \ text {var} (Z) \ leq \ text {var} (X) $?

Par exemple, si

$ X = [2, 6, 99, 12 , 3, 1] $ et $ Y = [0,34, 0,01, 0,2, 1, 0,3, 0,17] $, nous avons

$ Z = [x_1 y_1, ..., x_N y_N] = [ 0,68, 0,06, 19,8, 12, 0,9, 0,17] $

$ \ widehat {\ sigma} ^ {2} _ {X} = 1494,70 $

$ \ widehat {\ sigma} ^ {2} _ {Z} = 69.81 $

$ \ mathbf {Important} \ text {} \ mathbf {observations} $:

1) $ X $ et $ Y $ sont des processus aléatoires stationnaires et ergodiques

2) $ X $ n'est pas une série temporelle constante, au sens où $ \ text {var} (X) \ geq 0 $

3) On peut supposer que $ \ text {var} (X) \ geq \ text {var} (Y) \ geq 0 $

4) Il existe une covariance positive $ X $ entre et $ Y $

  • Implication possible de 4)?

Comme $ 0 \ leq Z \ leq X $, nous pourrions définir une série temporelle donnée $ W \ geq 0 $ telle que $ Z + W = X $. Ainsi, $ \ text {var} (X) = \ text {var} (Z + W) = \ text {var} (Z) + \ text {var} (W) + 2 \ text {cov} (Z, W) $. Notez que si $ \ text {cov} (Z, W) \ geq 0 $ alors $ \ text {var} (X) \ geq \ text {var} (Z) $ parce que $ \ text {var} (W) $ est également supérieur à zéro.

Le fait que $ \ text {cov} (X, Y) \ geq 0 $ en déduit-il que $ \ text {cov} (Z, W) \ geq 0 $? Il y a une condition qui garantit $ \ text {cov} (Z, W) > 0 $

Pourquoi j'étais si convaincu de $ \ text {var} (Z) \ leq \ text {var} ( X) $?

Dans l'application qui m'intéresse, j'ai observé que la relation $ \ text {var} (Z) \ leq \ text {var} (X) $ est surveillée à chaque fois Je lance mon algorithme. Si je ne peux pas démontrer que $ \ text {var} (Z) \ leq \ text {var} (X) $ tient compte tenu des observations 1) à 4), j'aimerais savoir ce qui force cette relation, comme, par exemple , $ \ text {cov} (Z, W) \ geq 0 $ comme mentionné ci-dessus.

Merci encore pour les réponses!

Cheers

Voici un indice pour la question générale: considérez $ a = 10 $ avec la probabilité un, donc une variable constante, et $ b $ uniforme sur, disons, [0,1]. Notez cependant que bien que cela réponde à votre question générale, cela ne répond pas à votre question principale puisque Z et X sont dépendants.
La notation n'est pas claire sur votre question spécifique. Comment X est-il défini? Il me semble que X est à la fois un vecteur de nombres (N réalisations d'une variable aléatoire?) Et une variable aléatoire (vous demandez $ var (X) $).
Comment votre première «observation» (que $ X $ n'est pas constante) découle-t-elle de vos hypothèses? Je ne vois pas comment ça marche. En effet, supposons que $ X = 1 $ soit constant, alors bien sûr votre conclusion ne suit pas. Ou si vous * ajoutez * l'hypothèse que $ X $ est non constant, alors vous pouvez le faire fluctuer un tout petit peu autour de 1, comme dans [la réponse d'Alexis] (http://stats.stackexchange.com/a/108678/ 1352), et votre conclusion ne suit pas non plus.
Je vois que ce n'était pas assez clair.
Merci pour votre observation! Je vois que cela peut être plus clair: i) X est un processus stochastique pour lequel nous avons N observations (voir http://i.imgur.com/YhILAj3.png)ii) X peut être supposé être stationnaire et ergodiciii) Il existe une covariance positive entre X et Y (cela peut être important, j'ai oublié de mentionner) iv) "a" et "b" sont des variables aléatoires. J'ajouterai ces observations supplémentaires ci-dessus dans la description du problème encore
Douglas - où vous avez «inférer», je pense que vous voulez dire «impliquer». * Inférer * c'est '* déduire ou conclure quelque chose à partir de preuves et de raisonnements *' (nécessitant un raisonnement, donc pas quelque chose fait par les relations entre les variables elles-mêmes, qui ne peuvent pas raisonner par elles-mêmes) tandis que * impliquer * signifie '* suggérer quelque chose qui n'est pas directement énoncé * '. Les relations entre les variables peuvent (sans doute) impliquer quelque chose, que vous ou moi pourrions alors déduire.
Désolé, Glen_b. L'anglais n'est pas ma langue maternelle. :-(Merci de me le faire savoir!
Maintenant je vois que ça ne tient pas. Merci pour les contre-exemples ... Vous êtes les gars!
Cinq réponses:
Alexis
2014-07-21 10:54:58 UTC
view on stackexchange narkive permalink

Je ne pense pas que Var $ (Z) \ le $ Var $ (X) $. Imaginons que $ X $ soit une série temporelle qui serpente autour de valeurs proches de 100, presque toujours entre 98 et 102. Maintenant, imaginez que $ Z $ serpente entre 0 et 100, mais est toujours inférieur à $ X $. La variance de $ Z $ va clairement être plus grande dans un tel cas que la variance de $ X $. Ceci est un exemple où $ X $ et $ Z $ sont stationnaires autour de certaines constantes, mais il pourrait facilement être étendu à un exemple de tendance stationnaire ... Je ne suis pas sûr si cela s'étendrait à des séries temporelles intégrées ... il faut réfléchir à ce sujet.

Salut Alexis! Merci pour votre commentaire. Je vois votre argument: bien sûr, la dispersion de $ Z $ autour de $ \ mu_Z $ peut être plus grande que la dispersion de $ X $ autour de $ \ mu_X $ indépendamment du fait que $ Z \ leq X $. Cependant, il y a un point important que j'ai oublié de mentionner: $ \ text {cov} (X, Y)> 0 $. Le fait que cette covariance positive soit valable implique-t-il que le signal pondéré $ Z $ devrait avoir $ \ text {var} (Z) \ leq \ text {var} (X) $? Je vais essayer de le préciser dans ma question initiale ci-dessus. Merci encore!
La réponse est toujours non.
probabilityislogic
2014-07-21 12:38:04 UTC
view on stackexchange narkive permalink

Pour le cas général, la réponse est non. Pour les cas spécifiques, c'est aussi non.

Un exemple de compteur simple est de prendre $ y \ sim U (0,1) $ et de prendre $ x \ sim Gamma (a, a) $ tel que nous ont $ E (x) = 1 $ et $ var (x) = a ^ {- 1} $. Prenons $ x $ et $ y $ comme indépendants, et nous avons:

$$ var (z) = E [var (z | y)] + var [E (z | y)] = E [y ^ 2a ^ {- 1}] + var [y] = var (y) + E (y ^ 2) a ^ {- 1} = \ frac {1} {12} + \ frac {1} {3 } var (x) = var (x) \ frac {a + 4} {12} $$

Maintenant, nous choisissons simplement n'importe quelle valeur pour $ a $ telle que $ a> 8 $ et nous aurons $ var (z) > var (x) $

salut! Merci beaucoup pour votre commentaire! Malheureusement (ou pas), $ x $ et $ y $ ne sont pas indépendants. J'ai ajouté ces informations supplémentaires dans ma question initiale ci-dessus. Pour le cas général de $ a $ et $ b $, cependant, je vois que cela ne peut pas tenir.
Glen_b
2014-07-21 15:45:54 UTC
view on stackexchange narkive permalink

Clairement non.

Un contre-exemple simple (ici fait en R), qui, je pense, satisfait toutes vos contraintes:

  set.seed (239843) x = rnorm (100,100,1) y = rep (c (0,01,0,99), fois = 50) z = x * y var (x) [1] 0.8413043var (y) [1] 0.2425253 var (z) [1] 2425.296  

Que se passe-t-il:

  1. x est une série de moyenne 100 et sd 1.

  2. y alterne entre 0,01 et 0,99.

  3. z = xy alterne donc entre (about) 1 et 99, mais est toujours $ <x $

Question alternative [plus générale]) En supposant des variances finies, est-il vrai que pour toute variable aléatoire a et b telle que 0≤a≤b, on a var (a) ≤var (b)?

Encore plus clairement non; sans avoir besoin d'une variable comme "y", c'est assez évident:

Considérons un ensemble de valeurs qui alterne entre 1 et 99, et un second qui alterne entre 100 et 101.


Ajout de la nouvelle condition que X et Y ont une covariance positive:

  set.seed (239843) oldx = rnorm (100,100,1) y = rep (c (0,01, 0.99), times = 50) x = oldx + y # oldX et Y sont indépendants, donc X et Y ont maintenant une covariance + ve z = x * y cov (x, y) [1] 0.2739745 # la covariance de l'échantillon se trouve être positive dans ce cas aussi var (x); var (y); var (z) [1] 1.065326 [1] 0.2425253 [1] 2481.243  

Si vous trouvez les réponses pour ce cas algébriquement (calculez les variances de population et la covariance de population pertinente), vous verrez qu'il ne s'agit pas simplement d'un accident numérique dû à un choix chanceux de semences.

Bonjour Glen_b! Je vois maintenant que pour le cas plus général, cela ne peut pas tenir. Mais pour ma question initiale, j'ai oublié de mentionner que X et Y ne sont pas indépendants. En fait, nous devrions avoir cov (X, Y)> 0. Je vais écrire un exemple détaillé ci-dessus. Merci beaucoup pour votre commentaire!
Avoir X et Y avec une covariance positive n'aidera pas. Voir le nouvel exemple dans ma réponse (une * minuscule * modification de l'ancien). Si vous souhaitez modifier à nouveau les circonstances, je vous propose une nouvelle question.
+1. Vous n'avez même pas besoin de générer «oldx». Essayez ceci: `z <- (x <-1+ (y <-runif (100))) * y; var (z) / var (x); cor (x, y) `.
@whuber Merci - en effet, j'ai vu qu'il y aurait des exemples plus simples de ce nouveau cas, mais je voulais montrer à l'OP qu'il était déjà clair d'après mon exemple précédent que rendre la covariance positive n'aiderait pas. J'ai décidé que montrer une minuscule modification de ce cas pourrait servir à souligner cela. Je pense que c'est bien qu'il y ait autant de contre-exemples présentés; les différentes approches pour identifier les contre-exemples dans les réponses rendent cela plus instructif que la question ne l'indique.
Maintenant je vois que ça ne tient pas. Merci pour les contre-exemples ... Vous êtes les gars!
whuber
2014-07-22 00:55:58 UTC
view on stackexchange narkive permalink

Soyons clairs, la "variance" en discussion semble être une variable aléatoire dérivée d'une partie finie d'une série chronologique. Plus précisément, le moment brut $ k ^ \ text {th} $ de $ \ mathrm {X} = (X_1, X_2, \ ldots, X_N) $ est

$$ \ mu_k (\ mathrm {X }) = (X_1 ^ k + X_2 ^ k + \ cdots + X_N ^ k) / N, $$

qui est une variable aléatoire, et la variance est

$$ \ text {var} (\ mathrm {X}) = \ mu_2 (\ mathrm {X}) - \ mu_1 ^ 2 (\ mathrm {X}), $$

qui est aussi une variable aléatoire.

De même, nous pouvons définir des moments $ \ mu_ {jk} $ de la série bivariée $ (X_i, Y_i) $ et à partir de ceux-ci calculer une covariance. Toutes ces définitions ont du sens même lorsque l'une ou l'autre des séries est constante (bien que les moments et la variance puissent se réduire à des nombres plutôt qu'à des variables aléatoires).

Pour montrer que des contre-exemples existent même lorsque $ X $ et $ Y $ ont une covariance positive, laissez le $ Y_i $ être borné par $ 0 $ et $ 1 $, laissez $ \ mathrm {Y} $ avoir une variance non nulle, choisissez $ 0 \ lt \ varepsilon \ lt 1 $, et définissez

$$ X_i = 1 + \ varepsilon Y_i \ ge 0. $$

Par construction, il existe une corrélation (unitaire) parfaite entre chaque $ X_i $ et $ Y_i $ ainsi qu'entre $ \ mu_k (\ mathrm {X}) $ et $ \ mu_k (\ mathrm {Y}) $ pour tout $ k \ gt 0 $; les covariances sont certainement positives.

Pourtant, puisque $ Z_i = X_iY_i = Y_i + \ varepsilon Y_i ^ 2 $,

$$ \ text {Var} (\ mathrm {Z} ) = \ text {Var} (\ mathrm {Y}) + 2 \ varepsilon \ mu_1 (\ mathrm {Y} ^ 3) + \ varepsilon ^ 2 \ mu_1 (\ mathrm {Y} ^ 4) \ gt \ text { Var} (\ mathrm {Y}) \ gt \ varepsilon ^ 2 \ text {Var} (\ mathrm {Y}) = \ text {Var} (\ mathrm {X}), $$

réfutant la conjecture de la question.

La même analyse (couplée au fait que $ \ mu_1 (\ mathrm {Y} ^ 4) \ lt \ mu_1 (\ mathrm {Y} ^ 2) $) démontre que pour $ \ varepsilon \ gt 1 $ suffisamment grand, l'inégalité doit être inversée. Il n'y a donc pas d'inégalité nécessaire entre $ \ text {Var} (\ mathrm {X}) $ et $ \ text {Var} (\ mathrm {Z}) $.

Alecos Papadopoulos
2014-07-21 15:59:10 UTC
view on stackexchange narkive permalink

Supposons que les processus $ \ {X \} $ et $ \ {Y \} $ sont ergodiques / stationnaires à moments finis, et indépendants. Alors $ \ {XY \} $ est également ergodique et

$$ \ operatorname {Var (XY)} = E (X ^ 2Y ^ 2) - [E (XY)] ^ 2 = E ( X ^ 2) E (Y ^ 2) - [E (X)] ^ 2 [E (Y)] ^ 2 $$

la rupture des valeurs attendues en raison de l'indépendance.

Vous demandez

$$ E (X ^ 2) E (Y ^ 2) - [E (X)] ^ 2 [E (Y)] ^ 2 \ leq E (X ^ 2) - [E (X)] ^ 2 \; \; ?? $$

$$ \ Rightarrow [E (X)] ^ 2 \ cdot [1- [E ( Y)] ^ 2] \ leq E (X ^ 2) \ cdot [1-E (Y ^ 2)] \; \; ?? \ qquad [1] $$

Depuis $ 0 \ leq Y \ leq 1 $ nous avons

$$ 0 \ leq E (Y) \ leq 1 \ Rightarrow 0 \ leq [E (Y)] ^ 2 \ leq1, \; \; 0 \ leq E (Y ^ 2) \ leq1 $$

et aussi

$$ E (Y ^ 2) > [E (Y)] ^ 2 \ Rightarrow [1 - [E (Y)] ^ 2] > [1-E (Y ^ 2)] \ qquad [2] $$

Examen de l'inégalité souhaitée $ [1] $ et de la vraie inégalité $ [ 2] $ on voit que $ [1] $ peut ou peut ne pas tenir, puisque $ [E (X)] ^ 2 < E (X ^ 2) $.

Je dirais que c'est instructif exemple de la façon dont les choses changent lorsque nous passons d'une hypothèse déterministe à une hypothèse stochastique - car si les $ y_i $ sont désignés comme une séquence déterministe, alors bien sûr la variance de $ X_iy_i $ n'est pas supérieure à la variance de $ X_i $ .

Soit vous changez ce que vous entendez par «variance», soit vous semblez avoir oublié quelque part l'idée de base communiquée dans les contre-exemples publiés dans d'autres réponses. Dans le dernier paragraphe, laissez le $ X_i $ avoir une moyenne de $ 1 $ et une petite variance. Laisser le $ y_i $ alterner entre $ 0 $ et $ 1 $ rendra la variance de $ X_iy_i $ plus grande que celle du $ X_i $ seul.
@whuber. Si les $ y_i $ sont déterministes, ne tient-il pas que $ \ operatorname {Var} (y_iX_i) = y_i ^ 2 \ operatorname {Var} (X_i) $? Dans ce cas, si $ y_i = 0 $ alors $ \ operatorname {Var} (0 \ cdot X_i) = 0 <\ operatorname {Var} (X_i) $ while if $ y_i = 1 $, alors $ \ operatorname {Var} (y_iX_i) = \ nom_opérateur {Var} (X_i) $? (J'ai également changé "plus petit" en "pas plus grand que")
Ce que j'ai du mal à comprendre, ce sont les significations voulues du terme «variance» dans vos remarques. Votre commentaire fait référence à la variance d'une seule variable aléatoire $ X_i $ (avec $ i $ fixe), alors que j'avais compris que la question faisait référence aux variances de séquences $ (X_1, X_2, \ ldots, X_N) $ extraites du temps séries. (Voir les exemples de calculs à la fin de la question.)
@whuber hmmm ... avec le déterministe de $ y_i $, le processus $ y_iX_i $ n'est plus ergodique (ou stationnaire). Ainsi, les «moyennes temporelles» des moments ne coïncident pas avec les «moments d'ensemble». Il semble donc que ma réponse soit adaptée (et contrainte) par ses propres hypothèses.
À droite: la seule façon pour un $ (y_i) $ déterministe d'être stationnaire serait que tous les $ y_i $ soient constants, ce qui ne présente pas de situation intéressante.
Bonjour Alecos, Merci beaucoup pour votre réponse! Je ne peux pas supposer que X et Y sont indépendants. En fait, cov (X, Y)> 0.
Eh bien, ce sont de nouvelles informations.
C'est vrai Alecos, mais je ne pense pas que cela vaille la peine de s'inquiéter car cela n'invalide aucune réponse correcte. Tout contre-exemple avec des séries non corrélées peut être modifié en un contre-exemple avec des séries légèrement corrélées. (Il s'avère que la conjecture est fausse même si $ X $ et $ Y $ peuvent être parfaitement corrélés.)


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...