Détection du point de changement bayésien

German Demidov

2016-02-23 19:23:33 UTC

view on stackexchange narkive permalink

Question vraiment naïve. J'ai une série chronologique. Je sais comment effectuer une segmentation (comme l'algorithme de segmentation binaire). Le but est de trouver des intervalles générés à partir de différents modèles probabilistes.

Mais j'ai toutes les informations sur les modèles possibles (forme de distribution, variance, moyenne). Donc, pour chaque point dans le temps, j'ai la probabilité de chaque modèle et de son a priori. => Je peux calculer le postérieur pour chaque point temporel, tout modèle et tout intervalle.

Problème: si je segmente simplement la série temporelle en utilisant la probabilité postérieure maximale, j'aurai trop de points de changement. HMM peut être une solution, mais il ne prend également en compte qu'un seul point et ne «regarde» pas tout l'intervalle. Il est également difficile d'appliquer HMM pour des données non normales.

Il peut être résolu avec une fenêtre coulissante, mais on ne sait pas comment choisir la taille de la fenêtre coulissante.

Y a-t-il un algorithme pour ce type de détection de point de changement bayésien (lorsque vous connaissez des modèles possibles)? Comme HMM, mais prend en compte l'intervalle et peut fonctionner avec n'importe quelle distribution paramétrique? L'algorithme heuristique est bon aussi.

Comment puis-je appliquer la classification par maximum de vraisemblance à ce problème?

UPD: Simulation du problème:

  variances < - runif (1000,0.01,0.5) couvre <- c () for (i in seq (1: 100)) {couvertures <- c (couvertures, rnorm (1, mean = 0, sd = variances [i])) } for (i in seq (101: 200)) {coverages <- c (coverages, rnorm (1, mean = -log (2), sd = variances [i] / 0.75))} for (i in seq (201 : 300)) {couvertures <- c (couvertures, rnorm (1, moyenne = log (3/2), sd = variances [i] * 0,75))} pour (i en seq (301: 1000)) {couvertures < - c (couvertures, rnorm (1, moyenne = 0, sd = variances [i]))} plot (couvertures)

Dans la vraie vie, je connais les écarts et les moyennes possibles pour chaque point dans le temps. Je dois déduire la prévalence de l'un des modèles à l'intérieur du segment.

summary (fit)) Famille: gaussienne (lien = 'identité') Itérations: 9000 à partir de 3 chaînes. Segments: 1: y ~ 1 2: y ~ 1 ~ 1 3: y ~ 1 ~ 1 4: y ~ 1 ~ 1 Paramètres au niveau de la population: nom signifie inférieur supérieur Rhat n.eff cp_1 101,280 99,38 103,0000 1 5627 cp_2 199,562 199,00 200,4314 1 5038 cp_3 299,365 296,85 301,7760 1 2340 int_1 -0,047 -0,11 0,0104 1 5614 int_2 -0,620 -0,68 -0,5592 1 5792 int_3 0,423 0,37 0,4838 1 6463 int_4 -0,018 -0,04 0,0036 1 5382 sigma_1 0,295 0,28 0,3082 1 5963