Question:
Quelqu'un peut-il expliquer l'importance de la stationnarité moyenne dans les séries chronologiques?
confused
2020-06-01 10:18:54 UTC
view on stackexchange narkive permalink

En régression régulière, la valeur attendue de Y |X est autorisé à changer.En fait, nous utilisons généralement la régression lorsque nous voulons modéliser ce changement de moyenne conditionnelle.

Je ne comprends pas pourquoi dans les séries chronologiques, nous voulons que nos séries soient immobiles.J'obtiens l'hypothèse de variance stationnaire car elle est similaire à l'hypothèse de distribution identique dans la régression régulière.Mais pourquoi la stationnarité moyenne est-elle si importante?

Plus tôt, j'ai publié une réponse très basique basée sur le titre seul, qui ne prenait pas en compte les détails de votre message sur la stationnarité moyenne.Après avoir relu votre message, je l'ai mis à jour avec des détails plus spécifiques à votre question, auxquels je pense que cela répond complètement maintenant.
Prenons par exemple les niveaux des prix et les niveaux du PIB réel au fil du temps.Les deux ont tendance à augmenter et ne sont donc pas stationnaires et il existe donc une corrélation positive entre eux, parfois une corrélation très élevée [comme au Royaume-Uni de 1993 à 2007] (https://economics.stackexchange.com/questions/14259/can-cpi-and-real-gdp-have-high-correlation / 14261).Mais il serait faux de penser que cela implique une sorte de relation entre l'inflation et la croissance du PIB réel - la relation entre les séries chronologiques pour les niveaux est largement déterminée par les séries chronologiques, les deux mesures de changement ayant des moyennes positives
Cinq réponses:
Skander H.
2020-06-01 11:46:04 UTC
view on stackexchange narkive permalink

Dans le cas de la prévision de séries temporelles, tout d'abord, vous devez comprendre que la stationnarité est importante principalement dans le contexte de l'ARMA et des modèles associés (AR: Auto-Regressive, MA: Moving Average). Il existe d'autres types de modèles de prévision de séries chronologiques où la stationnarité n'est pas une exigence, comme Holt-Winters ou Facebook Prophet.

Voici deux explications intuitives, sinon entièrement mathématiquement rigoureuses, expliquant pourquoi la stationnarité moyenne est importante dans le cas ARMA:

  • Le composant AR des modèles ARMA, traite la modélisation de séries temporelles comme un problème d'apprentissage supervisé, $ Y_t = a_1Y_ {t-1} + ... a_nY_ {tn} + c + \ sigma (t) $ . Une règle de base courante dans l'apprentissage supervisé est que la distribution des données d'entraînement et la distribution des données de test doivent être identiques, sinon votre modèle fonctionnera mal sur les tests hors échantillon et sur les données de production. Étant donné que pour les données de séries chronologiques, votre ensemble de trains est le passé et votre ensemble de test est l'avenir, l'exigence de stationnarité consiste simplement à garantir que la distribution reste la même dans le temps. De cette façon, vous évitez les problèmes liés à l'entraînement de votre modèle sur des données dont la distribution est différente de la distribution de test / production. Et la stationnarité moyenne en particulier signifie simplement que la moyenne de la rame et la moyenne du test doivent rester les mêmes.

  • Une considération encore plus simple: prenez le modèle ARMA le plus basique possible, un modèle $ AR (1) $ : $$ Y_t = aY_ {t-1} + c + \ sigma $$ donc la relation récursive pour estimer le pas basé sur la précédente est: $$ \ hat {Y} _t = a \ hat {Y} _ {t-1} + c $$ , $$ \ hat {Y} _t - c = a \ hat {Y} _ {t-1} $$ prenant la valeur attendue: $$ E (\ hat {Y} _t) - c = aE (\ hat { Y} _ {t-1}) $$ signifiant que: $$ a = \ frac {E (\ hat {Y} _t) - c} {E ( \ hat {Y} _ {t-1})} $$ donc si nous voulons que $ a $ reste constant dans le temps, ce qui est le début hypothèse d'un modèle $ AR (1) $ puisque nous voulons qu'il soit similaire à une régression linéaire, alors $ E ( \ hat {Y} _t) $ doit rester le même pour tous les $ t $ , c'est-à-dire que votre série a être moyen stationnaire.

Les considérations ci-dessus s'appliquent également au cas ARMA général, avec $ AR (p) $ et $ MA (q) termes $ , bien que le calcul soit un peu plus compliqué que ce que je décris, mais intuitivement, l'idée est toujours la même. Le «I» dans ARIMA signifie «intégré» qui fait référence au processus de différenciation qui permet de transformer une série chronologique plus générale en une série qui est stationnaire et peut être modélisée à l'aide de processus ARMA.

Je ne suis pas d'accord avec la caractérisation de @Alexis selon laquelle " que les séries temporelles sont stationnaires incarne plus ou moins la vision du monde selon laquelle le passé n'a pas d'importance " - si quelque chose est l'inverse: Transformer un tempssérie en une série stationnaire à des fins de modélisation consiste exactement à voir s'il existe des structures causales / déterministes dans la série chronologique au-delà de la simple tendance et de la saisonnalité.C'est à dire.le passé a-t-il un impact sur le présent ou le futur de manière plus subtile que les variations à grande échelle?(Mais je pourrais simplement mal interpréter ce qu'elle essaie de dire).

Elle, pas lui.Je me demande si nous parlons les uns après les autres?Je suis d'accord sur "au-delà des tendances et au-delà de la saisonnalité".Ce que je veux dire, c'est que si, par exemple, vous créez un modèle, comme $ y_ {ti} = \ beta_0 + BX_ {ti} + f (t, T) + \ text {error} $ (c'est-à-dire "modèles longitudinaux"), vousignorent la nature dynamique / non linéaire du passé de $ y $ l'affectent au temps $ t $.
@Alexis mes excuses les plus sincères.(Skander signifie "Alexandre" en arabe, donc j'ai tendance à me projeter sur n'importe qui avec un modèle de nom similaire.) Et oui, nous semblons être d'accord sur les faits. Une chose que je voudrais souligner cependant que dans monl'expérience, même un processus simple qui est «vraiment» AR et également stationnaire, est extrêmement rare. Il existe toutes sortes d'exemples non stationnaires (par exemple, la dynamique de la population), mais les chances qu'un processus soit à la fois stationnaire ET ayant un DGP quiressemble à $ Y_t = a_1Y_ {t-1} + a_2Y_ {t-2} $? Donc ARIMA est une hypothèse assez forte à faire.
Pas de soucis!Eh bien, j'ai * donné * deux exemples (consommation de produits addictifs et prévalence des maladies infectieuses) où les modèles causaux * doivent * impliquer le passé influençant le présent.:)
"les modèles causaux doivent impliquer le passé influençant le présent" mais c'est le point: ils ont un sens parfait, mais pour la même raison qu'ils ont un sens, ils ne peuvent pas non plus être stationnaires (par exemple, l'exemple de maladie infectieuse que vous avez donné montre unecroissance, même pas linéaire ou polynomiale, ce qui est le plus ARIMA peut gérer avec la différenciation).
Eh bien ... vous auriez besoin d'équations simultanées, pas d'une seule équation, pour, par exemple, produire un modèle compartimenté (et qui peut modéliser les types de croissance que vous mentionnez) ... (Aussi: je ne prétends * pas * qu'ARIMAet s'occuper de la stationnarité / de la non-stationnarité sont la priorité et la fin).La modélisation (stationnaire) * du changement * est plus importante que la modélisation (non stationnaire) pour faire des inférences causales.Stil: J'aime votre point ... c'est moelleux, et ce sera le genre de chose auquel je pense, alors merci!
Pourquoi y a-t-il un $ \ sigma $ au lieu de $ \ varepsilon_t $ dans votre définition du modèle AR (1)?Et à partir de votre définition, comment obtenez-vous $ \ hat Y_t = a \ hat Y_ {t − 1} + c $?
@RichardHardy $ \ sigma $, $ \ sigma (t) $, $ \ sigma_t $, $ \ epsilon_t $, différentes manières de dire la même chose.
Voici une référence (parmi d'autres) pour l'équation de prévision: https://people.duke.edu/~rnau/411arim.htm#arima100
Je vous remercie.$ \ sigma $ et $ \ sigma_t $ ne peuvent pas être la même chose car le premier est constant dans le temps tandis que le second varie avec le temps.De plus, $ \ sigma $ est la notation standard de l'écart type.Dans un paramètre de série chronologique, il peut être constant ou variable dans le temps, désigné universellement par $ \ sigma $ et $ \ sigma_t $, respectivement.Pour éviter toute confusion, j'utiliserais $ \ varepsilon_t $ (ou le moins populaire mais toujours répandu $ u_t $ ou $ v_t $, ou même le rare $ a_t $ comme dans les manuels de Ruey S. Tsay) pour désigner le terme d'erreur de l'AR, Modèles MA et ARMA.
Aussi, où dans le document cité trouvez-vous $ Y $ avec des chapeaux sur * les deux côtés * d'une équation?
@RichardHardy si vous faites plus d'une prévision à la fois, alors les Y des deux côtés de l'équation sont des estimations $ \ hat {Y} $, voir le concept de prévision itérative ou récursive.
Thomas Lumley
2020-06-01 11:26:27 UTC
view on stackexchange narkive permalink

La stationnarité est importante car c'est une hypothèse mathématiquement forte qui est encore beaucoup plus faible que l'indépendance ou la dépendance à plage finie.

Dans certains contextes, c'est principalement important pour la traitabilité mathématique: il est plus facile de découvrir d'abord ce qui est vrai pour les séries temporelles stationnaires, puis vous pouvez travailler sur la façon d'assouplir les hypothèses. Peut-être n'avez-vous besoin que d'une stationnarité de sens faible, ou d'une stationnarité moyenne plus une condition de queue, ou autre. Ou peut-être avez-vous besoin de stationnarité pour qu'un résultat tienne exactement, mais il tient approximativement sous des hypothèses plus faibles.

Dans d'autres contextes, la stationnarité est importante car il y a tellement de façons d'être non stationnaire qu'il serait difficile de gérer chacune d'elles. Si un problème peut être approché par une série stationnaire, c'est un gros avantage pratique. Ici, il est important de se rappeler que la série stationnaire $ X (t) $ qui apparaît dans les mathématiques peut ne pas être vos données brutes. Par exemple, les modèles ARMA traditionnels sont stationnaires, mais vous souhaiterez généralement supprimer les relations de saison et de tendance avant d'en ajuster une. Vous souhaiterez peut-être transformer en journal une série dont la moyenne et la variance augmentent. Et ainsi de suite.

Alexis
2020-06-01 10:36:56 UTC
view on stackexchange narkive permalink

Premièrement, vos estimations moyennes et vos erreurs standard seront fortement biaisées si vous utilisez l'un des outils inférentiels qui supposent i.i.d, ce qui signifie que vos résultats risquent d'être faux.Cela peut même être vrai si vos données sont faiblement stationnaires, mais votre période d'étude est plus courte que le temps nécessaire à votre série pour atteindre l'équilibre après une perturbation.

Deuxièmement, supposer que les séries chronologiques sont stationnaires incarne plus ou moins la vision du monde selon laquelle le passé n'a pas d'importance (par exemple, la prévalence du COVID-19 aujourd'hui est complètement indépendante de la prévalence du COVID-19 hier; le \ $ par habitant dépensé pour des produits qui créent une dépendance comme les cigarettes cette année est complètement indépendant du \ $ par habitant dépensé pour eux l'année dernière)… un peu irréaliste.

Je suis respectueusement en désaccord avec votre deuxième déclaration.Voir ma réponse.
Si le passé n'avait pas d'importance, la collecte de données passées pour faire des déductions sur les propriétés actuelles du processus d'intérêt ou pour prédire la réalisation future du processus aurait-elle un sens?
@SkanderH.Je ne pense pas que vous compreniez ma deuxième déclaration.
@RichardHardy Cela n'aurait d'importance que dans le sens où la taille de votre échantillon augmente dans vos efforts pour estimer une propriété d'un i.i.d.variable.Mon commentaire est basé sur le fait que les programmes de formation de * beaucoup * de sciences de la population de niveau doctoral sont plus ou moins aveugles aux questions de stationnarité et de modélisation de séries chronologiques, préférant apprendre aux chercheurs à simplement jeter une fonction du temps dans le modèle et l'appelerjournée.
@RichardHardy, "si le passé n'avait pas d'importance" signifie ici qu'une solution du système dynamique n'est pas dépendante du chemin (sauf peut-être de manière triviale), et qu'il existe des paramètres fixes (indépendants du chemin) à estimer par une technique appropriée.
Merci @PatrickT,, ceci est utile.
@PatrickT Merci d'être plus éloquent.:)
Noah Tsaying
2020-06-02 08:35:41 UTC
view on stackexchange narkive permalink

Stationnaire signifie que les statistiques qui décrivent le processus aléatoire sont constantes. «Un processus de Markov sans mémoire» est une autre façon de dire stationnaire, tout en disant que la fonction génératrice de probabilité n’a pas de termes de «rétroaction», mais si vous reconnaissez ces mots, vous ne posez peut-être pas cette question. FWIW «faiblement stationnaire» n'est pas tout à fait la même chose, un taux de changement constant ou connaissable des statistiques serait faiblement stationnaire, comme le ferait quelque chose qui est en moyenne, mais c'est un peu plus compliqué, alors considérez cet avertissement juste qu'il y a plus à savoir au cas où cela ferait partie du puzzle, mais décrire tout ce qui n'est pas stationnaire en détail transformerait une réponse simple en une réponse complexe.

Pourquoi la stationnaire est-elle importante? Les formules statistiques couramment utilisées sont conçues pour utiliser un ensemble de données pour extraire une description imprécise avec une précision estimable d'un processus aléatoire autrement inconnu. Les formules supposent que l'ajout d'échantillons supplémentaires augmente la précision de la description en réduisant l'incertitude. Pour cela, la tendance moyenne centrale, c'est-à-dire ergodique dans la moyenne, doit être vraie. Si le processus aléatoire lui-même change, par ex. la valeur moyenne ou la variance change, alors une hypothèse sous-jacente essentielle est invalide, vous ne pouvez pas faire une meilleure estimation.

En règle générale, «que se passe-t-il» si la moyenne se déplace en fonction linéaire du temps, la moyenne calculée représentera la moyenne à un moment moyen pondéré et la variance calculée sera gonflée. Il est possible de calculer une estimation «optimale a posteriori» (après coup) d'un processus non stationnaire, puis de l'utiliser pour extraire des statistiques significatives car la meilleure estimation de la fonction de temps minimise la variance. Il est également facile d'émettre des hypothèses sur une fonction temporelle d'ordre élevé et de créer un modèle complexe qui semble être valide et prédictif qui n'a en fait aucun pouvoir prédictif car il a modélisé un instantané du caractère aléatoire, et non une tendance temporelle sous-jacente.

Ryan
2020-06-02 20:44:32 UTC
view on stackexchange narkive permalink

Bref et doux:

Les paramètres doivent être constants. Si la série n'est pas stationnaire, alors les paramètres que vous estimez seront eux-mêmes des fonctions du temps. Mais le modèle suppose qu'il s'agit de constantes, en tant que telles, vous estimerez la valeur moyenne du paramètre sur la période. Voir la réponse de Skander pour savoir pourquoi, je ne vais pas me plonger dans les mathématiques puisqu'il l'a déjà fait.

Cela pose au moins 2 problèmes:

  1. Vos estimations de la valeur réelle du paramètre sont probablement erronées, car à tout moment, la valeur du paramètre est susceptible d'être différente de sa valeur moyenne. Par conséquent, toute inférence que vous faites à partir des données est probablement erronée. Cela conduit à de fausses régressions / corrélations.
  2. Vous ne pouvez pas utiliser le modèle pour prédire l'avenir. Puisque votre paramètre est maintenant une fonction du temps, et que vous ne savez pas comment il évolue dans le temps, toute prévision que vous faites est complète (pardonnez mon français) horseshit.

Arriver à la stationnarité est en fait assez facile. Nous avons juste besoin de faire la différence jusqu'à ce que nous ayons une série stationnaire. Alors fais ça.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...