Question:
Un graphique des cas quotidiens de COVID-19 dans une région russe me semble étrangement égal - est-ce le cas du point de vue des statistiques?
CopperKettle
2020-05-21 16:53:48 UTC
view on stackexchange narkive permalink

Vous trouverez ci-dessous un graphique quotidien des infections à COVID récemment détectées dans le Kraï de Krasnodar, une région de Russie, du 29 avril au 19 mai. La population de la région est de 5,5 millions de personnes.

J'ai lu à ce sujet et je me suis demandé - est-ce que cela (dynamique relativement fluide des nouveaux cas) semble correct du point de vue statistique? Ou est-ce que cela semble suspect? Une courbe peut-elle être aussi nivelée pendant une épidémie sans aucun bricolage des données par les autorités de la région? Dans ma région d'origine, l'oblast de Sverdlovsk, par exemple, le graphique est beaucoup plus chaotique .

Je suis un amateur de statistiques, alors peut-être que je me trompe et que ce graphique n'a rien d'extraordinaire.

enter image description here

Selon un reportage du 18 mai 2020, un total de 136695 tests de dépistage du COVID-19 avaient été effectués dans la région depuis le début de la période épidémique et jusqu'à ce jour.

Au 21 mai 2020, 2974 infections au total avaient été enregistrées dans la région.

P.S. Voici un lien que j'ai trouvé vers une page avec des statistiques plus belles et couvrant une période plus longue, en particulier pour le kraï de Krasnodar. Sur cette page, vous pouvez placer votre curseur sur le graphique pour obtenir des chiffres spécifiques pour la journée. (Le titre utilise le terme «nombre de cas provoqué quotidiennement» et le nombre de cas «confirmé quotidiennement» dans la barre de titre):

enter image description here

@Tim, J'ai demandé à CopperKettle de poster ceci ici.Même si je ne l'avais pas fait, je pense qu'il y a des problèmes statistiques significatifs dont on peut discuter ici, pas seulement des opinions.
@ttnphns - par "suspect", je veux dire "des données falsifiées ou falsifiées exprès pour produire une courbe de niveau anormalement".
@ttnphns,, un "amateur de statistiques", peut ne pas être en mesure de dire clairement ce qui, selon lui, semble bizarre en termes techniques.Quand * je * le regarde, les données me semblent certainement sous-dispersées.
@CopperKettle, La somme de vos données énumérées est 1903, s'il y en a eu un total de 2974, alors il y en avait 1071 avant le 29 avril. Est-ce exact?
@ttnphns, c'est bien de créer une nouvelle balise (c'est-à-dire, `[manipulation-détection]`), mais veuillez en créer au moins un extrait.
@gung-ReinstateMonica, Je n'ai pas _create_ cette balise.Il existait sur le site.
Le graphique rouge plus complet est révélateur.Cependant, une seule remarque: les barres indiquent le «nombre de cas confirmés» par jour.Eh bien, "confirmé" n'est pas tout à fait la même chose que "survenu" ou même "suscité", c'est plus un événement médiatisé que ceux-là.L'une des médiations possibles peut être une sorte de manipulation injuste.Mais d'autres variantes sont également possibles, par exemple des facteurs concernant la disponibilité et la planification des procédures de diagnostic de virus.Ces facteurs pourraient également avoir changé entre avril et mai dans la région.Comme «confirmé» est moins immédiat que (approximativement poissonien) «émergé», cela pourrait affecter la courbe.
@SextusEmpiricus, qui peut être le cas.Cependant, il peut aussi y avoir l'effet anti-brouillage du «trafic» de test ou encore des applications pour les tests (malades qui étaient en lock-out en avril massivement appliqués dans les cliniques à partir de début mai), etc.
Peut-être ne peuvent-ils effectuer que 100 tests par jour?(C'est un peu plaisantant, car la proportion de cas confirmés serait trop élevée. Cependant, certaines régions ont des contraintes de capacité de test. C'était le cas même ici, dans la région de San Francisco.)
@steveo'america ce sera probablement plus de 100 tests par jour, sinon presque toutes les personnes testées auraient le virus, que vous ne voyez pas ailleurs.Dites, cela pourrait être 300 par jour, et 1/3 d'entre eux sont positifs.Dans ce cas, la moyenne des tests positifs par jour est de 100 et la variance est de 66,6 (et l'écart type d'environ 8).C'est une façon dont vous pouvez avoir la sous-dispersion, mais ce n'est toujours pas très différent de l'écart type de 10 pour une distribution de Poisson.Bien sûr, il peut y avoir plus d'effets qui provoquent une sous-dispersion (par exemple, la `` source '' des patients est hétérogène).
Les Russes doivent avoir un "plan", peut-être que c'est 100 nouveaux cas par jour, donc ils le frappent parfaitement!
@Arkasal: Ce sont des données très soviétiques.
Par intérêt - [ici] (https://www.worldometer.info/coronavirus/country/russia/) est la version Worldometer des données.
Quelqu'un qui connaît le russe pourrait-il poster une traduction des mots sur les graphiques?
Statistiques @JDL des infections à coronavirus Covid-19 dans le kraï de Krasnodar (territoire);graphique des infections diagnostiquées par date;nombre de cas confirmés par jour;les valeurs nulles indiquent un manque de données.
@CopperKettle Est-ce ce que signifie "aplatir la courbe"?:)
Toutes les régions n'ont pas des données étrangement plates, voir [Chine] (https://www.worldometer.info/coronavirus/country/china/)
@steveo'america Nous avons vu cela en Chine pendant un certain temps - la croissance des cas était constante pendant des jours, un pli vers le haut au milieu.Évidemment, cela reflétait leur capacité à tester, pas la maladie.
Un peu lié: [Kobak, Shpilkin & Pshenichnikov, "Des empreintes statistiques de fraude électorale?"* Significance * 13 (4), 20-23, 2016] (https://doi.org/10.1111/j.1740-9713.2016.00936.x), également sur des données russes.
Six réponses:
#1
+69
whuber
2020-05-21 18:22:25 UTC
view on stackexchange narkive permalink

Il sort définitivement de l'ordinaire.

La raison en est que des nombres comme ceux-ci ont tendance à avoir des distributions de Poisson. Cela implique que leur variance inhérente est égale au dénombrement. Pour des décomptes proches de 100 $, $ cette variance de 100 $ $ signifie que les écarts types sont presque $ 10. $ À moins qu'il y ait une corrélation sérielle extrême des résultats (qui n'est pas biologiquement ou médicalement plausible), cela signifie que la majorité des valeurs individuelles devraient s'écarter de manière aléatoire de le taux "vrai" hypothétique sous-jacent jusqu'à 10 $ (au-dessus et au-dessous) et, dans un nombre appréciable de cas (environ un tiers de tous), devrait s'écarter de plus que cela.

C'est difficile à tester de manière vraiment robuste, mais une façon serait de surajouter les données, en essayant de les décrire très précisément et de voir à quel point les résidus ont tendance à être. Voici, par exemple, deux ajustements de ce type, un lowess smooth et un overfit Poisson GLM:

Figure

La variance des résidus pour cet ajustement du modèle linéaire généralisé (GLM) (sur une échelle logit) n'est que de 0,07 $. $ Pour les autres modèles avec (visuellement) fermer correspond à la variance a tendance à être de 0,05 $ $ à 0,10 $. $ C'est trop petit.

Comment pouvez-vous savoir? Bootstrap it. J'ai choisi un bootstrap paramétrique dans lequel les données sont remplacées par des valeurs de Poisson indépendantes tirées de distributions dont les paramètres sont égaux aux valeurs prédites. Voici un tel jeu de données bootstrap:

Figure 2

Vous pouvez voir à quel point les valeurs individuelles fluctuent davantage qu'auparavant et de combien.

Faire ceci $ 2000 $ fois produit des écarts $ 2001 $ (en deux ou trois secondes de calcul). Voici leur histogramme:

Figure 3

La ligne rouge verticale marque la valeur de la variance des données.

(Dans un modèle bien ajusté, la moyenne de cet histogramme doit être proche de $ 1. $ La moyenne est 0,75 $, $ un peu moins que 1 $, $ donnant une indication du degré de surajustement.)

La valeur p de ce test est la fraction de ces variances $ 2001 $ qui sont égales ou inférieures à la variance observée. Puisque chaque variance bootstrapée était plus grande, la valeur p est seulement $ 1/2001, $ essentiellement zéro.

J'ai répété ce calcul pour d'autres modèles. Dans le code R ci-dessous, les modèles varient en fonction du nombre de nœuds k et du degré d de la spline. Dans tous les cas, la valeur p est restée à $ 1 / 2001. $

Cela confirme l'aspect suspect des données. En effet, si vous n'aviez pas déclaré que ce sont des comptes de cas, j'aurais deviné qu'il s'agissait de pourcentages de quelque chose. Pour des pourcentages proches de 100 $ , la variation sera bien moindre que dans ce modèle de Poisson et les données n'auraient pas l'air si suspectes.


C'est le code qui a produit les premier et troisième chiffres. (Une légère variante a produit la seconde, remplaçant X par X0 au début.)

  y <- c (63, 66, 66, 79, 82, 96, 97, 97, 99, 99, 98, 99, 98,
       99, 95, 97, 99, 92, 95, 94, 93)
X <- data.frame (x = seq_along (y), y = y)

bibliothèque (splines)
k <- 6
d <- 4
forme <- y ~ bs (x, nœuds = k, degré = d)
fit <- glm (formulaire, données = X, famille = "poisson")
X $ y.hat <- predire (fit, type = "response")

bibliothèque (ggplot2)
ggplot (X, aes (x, y)) +
  geom_point () +
  geom_smooth (étendue = 0,4) +
  geom_line (aes (x, y.hat), taille = 1,25) +
  xlab ("Jour") + ylab ("Nombre") +
  ggtitle ("Données avec ajustement lisse (bleu) et GLM (noir)",
          coller (k, "nœuds de degré", d))

stat <- fonction (ajustement) var (résidus (ajustement))
X0 <- X
ensemencée (17)
sim <- répliquer (2e3, {
  X0  $ y <- rpois (nrow (X0), X0 $  y.hat)
  stat (glm (formulaire, données = X0, famille = "poisson"))
})

z <- stat (ajustement)
p <- moyenne (c (1, sim < = z))
hist (c (z, sim), breaks = 25, col = "# f0f0f0",
     xlab = "Variance résiduelle",
     main = paste ("Variances bootstrapped; p =", round (p, log10 (length (sim)))))
abline (v = z, col = 'Rouge', lwd = 2)
 
Vos réponses sont toujours exceptionnelles.J'adore les lire parce que j'aime apprendre et j'apprends beaucoup de vous.Je vous remercie.
Vous supposez une distribution de Poisson, mais examinons-nous vraiment les nombres à partir d'un processus de Poisson?Peut-être que les nombres sont «pour mille» et ne comptent pas ou peut-être sont-ils un pourcentage ou mis à l'échelle de telle sorte qu'un maximum est égal à cent (comme les données de tendance Google)?Peut-être que les chiffres ne proviennent pas d'un processus de Poisson, et ils se rapportent à une limite du processus (par exemple, beaucoup de ces données présentent des lacunes le week-end lorsque moins de données sont traitées)?La conclusion selon laquelle ces données sont «hors du commun» dépend de ces hypothèses.
@Sextus C'est une observation intéressante.Je soupçonne en effet que les chiffres ne soient pas des comptes.Mais ce ne sont certainement pas des cas pour mille - cela représenterait plus de cas que de personnes!Dans n'importe quelle région de Russie, le total de quelques milliers semble être du bon ordre de grandeur.Pour que ces données survivent à mon analyse, elles devraient représenter des nombres au moins trois fois plus importants que les nombres bruts.(J'ai calculé cela simplement en multipliant `y` par 3 dans le code et en le relançant, puis en le faisant à nouveau avec un multiple de 10.)
BTW, ma première réaction a été de me concentrer sur les week-ends, car ils ne présentent aucun creux: c'est un changement extraordinaire par rapport aux habitudes de déclaration de nombreux autres pays.Mais, ne souhaitant pas spéculer sur de telles questions et ne souhaitant pas me mêler de détails plus fins de l'analyse des séries chronologiques, j'ai opté pour l'approche exploratoire plus simple que j'ai décrite ici.
Quelle est la raison pour laquelle vous avez opté pour des cannelures de degré 4?J'ai relancé votre code avec des splines cubiques et l'ajustement était en effet bien pire.
@COOL Comme je l'ai expliqué, il n'y a rien de spécial dans le modèle.Ce qui fait que cette analyse fonctionne, c'est que lorsque nous faisons varier le nombre de nœuds et le degré des splines, pour ajuster le degré de surajustement, le résultat reste le même.J'ai exploré les plages de 2 à 12 pour «k» et de 3 à 6 pour «d».Nous pourrions faire de même en employant des modèles lowess avec différents degrés de tension ainsi que par de nombreux autres modèles de régression.
@Sextus Je n'ai aucune idée de ce que vous entendez par «lacunes» et «week-ends soudainement partis:» ils sont présents dans le graphique de la question et il n'y a pas de lacunes visibles.La valeur p sera * bien * inférieure à 1/2001 simplement en exécutant plus d'itérations bootstrap.Essayez-le!(Je viens de relancer le code avec $ k = d = 6 $ pour 20000 itérations et maintenant la valeur p est à 1/20001, ce qui est aussi petit que possible pour ce nombre d'itérations.)
@SextusEmpiricus les nombres sont des comptes
@Aksakal Je me rends compte maintenant que les nombres sont effectivement des comptes, bien que je doute encore du type de processus de comptage qui les a générés (ce n'est qu'une supposition que ces nombres sont des comptes d'un processus de Poisson).Peut-être s'agit-il d'un processus par lots, où les cas sont signalés par 100. Ou peut-être que c'est autre chose.Afin de savoir si ces chiffres sont suspects, nous ne devons pas exécuter nos modèles et calculs, mais plutôt rechercher des informations sur le processus qui a généré les données.
@SextusEmpiricus, cela pourrait être quelque chose comme si cette région ne veut pas être pire que la région suivante, alors ils recherchent la moyenne et plafonnent leur rapport
@Aksakal une explication plausible pourrait être que tous les cas positifs trouvés dans un laboratoire local sont retestés dans un laboratoire national, et les chiffres de * ce * laboratoire sont rapportés.Peut-être pourriez-vous répondre au cas de Московская область (comment avez-vous obtenu les données pour la ville uniquement?) Qui compte ~ 1000 cas / jour avec une faible dispersion.Je ne serais pas surpris si vous retrouviez à nouveau une dispersion plus élevée dans les sous-régions.
@SextusEmpiricus J'ai gratté l'intrigue qui se trouve dans ma réponse, et l'URL est là aussi.
Est-ce vraiment ce qu'on appelle habituellement * le bootstrapping? * J'appellerais cela un échantillonnage de Monte Carlo d'un modèle nul, de substitution ou similaire.(N'oubliez pas qu'il ne s'agit que de terminologie; l'analyse me semble tout à fait saine.)
@Wrzlprmft Oui, c'est un bootstrap honnête envers Dieu.Il existe différentes saveurs.Celui-ci est * paramétrique * dans le sens où l'on suppose que les données se présentent comme des réalisations indépendantes de variables de Poisson - en fait, un processus de Poisson inhomogène.Il n'y a pas de «modèle nul» ou autre hypothèse en vigueur.
@whuber: J'ai posé une [question de suivi] (https://stats.stackexchange.com/q/467975/36423) à ce sujet.
#2
+24
Sextus Empiricus
2020-05-22 03:27:22 UTC
view on stackexchange narkive permalink

L'affaire Krasnodar Krai n'est pas la seule. Vous trouverez ci-dessous un graphique pour les données de 36 régions (j'ai sélectionné les meilleurs exemples sur 84) où nous voyons soit

  • une sous-dispersion similaire
  • ou du moins les nombres semblent atteindre un plateau autour d'un "joli" nombre (j'ai tracé des lignes à 10, 25, 50 et 100, là où plusieurs régions trouvent leur plateau)

more cases

À propos de l'échelle de ce graphique: cela ressemble à une échelle logarithmique pour l'axe des y, mais ce n'est pas le cas. C'est une échelle de racine carrée. J'ai fait cela de telle sorte qu'une dispersion comme pour les données distribuées de Poisson $ \ sigma ^ 2 = \ mu $ aura la même apparence pour tous les moyens. Voir aussi: Pourquoi la transformation de racine carrée est-elle recommandée pour les données de comptage?

Ces données recherchent certains cas clairement sous-dispersés, s'il s'agissait d'une distribution de Poisson. (Whuber a montré comment dériver une valeur de signification, mais je suppose que cela passe déjà le test de traumatisme interoculaire. J'ai quand même partagé cette intrigue parce que j'ai trouvé intéressant qu'il y ait des cas sans sous-dispersion, mais ils semblent néanmoins coller à un plateau. Il peut y avoir plus qu'une simple sous-dispersion. Ou il y a des cas comme le n ° 15 et le n ° 22, en bas à gauche de l'image, qui montrent une sous-dispersion, mais pas la valeur de plateau fixe.).

La sous-dispersion est en effet étrange. Mais nous ne savons pas quel type de processus a généré ces chiffres. Ce n'est probablement pas un processus naturel et des humains sont impliqués. Pour une raison quelconque, il semble qu'il y ait un certain plateau ou une limite supérieure. Nous ne pouvons que deviner ce que cela pourrait être (ces données ne nous en disent pas grand chose et il est hautement spéculatif de l'utiliser pour deviner ce qui pourrait se passer). Il peut s'agir de données falsifiées, mais il peut également s'agir d'un processus complexe qui génère les données et a une limite supérieure (par exemple, ces données sont des cas signalés / enregistrés et peut-être le signalement / enregistrement est limité à un nombre fixe).

  ### à l'aide du fichier JSON suivant
### https://github.com/mediazona/data-corona-Russia/blob/master/data.json
bibliothèque (rjson)
#data <- fromJSON (fichier = "~ / Downloads / data.json")
données <- fromJSON (file = "https://raw.githubusercontent.com/mediazona/data-corona-Russia/master/data.json")

layout (matrice (1: 36,4, byrow = TRUE))
par (mar = c (3,3,1,1), mgp = c (1,5,0,5,0))

## moyens de calcul et dispersion des 9 derniers jours
signifie <- rep (0,84)
disp <- rep (0,84)
pour (i en 1:84) {
  x <- c (-4: 4)
  y <- data [[2]] [[i]]  $ confirmé [73:81]
  signifie [i] <- mean (y)
  mod <- glm (y ~ x + I (x ^ 2) + I (x ^ 3), famille = poisson (lien = identité), start = c (2,0,0,0))
  disp [i] <- mod $  deviance / mod $ df.residual
}

### choisir des étuis intéressants et les commander
cas <- c (4,5,11,12,14,15,21,22,23,24,
   26,29,30,31,34,35,37,41,
   42,43,47,48,50,51,53,56,
   58,67,68,71,72,75,77,79,82,83)
cases <- cases [ordre (signifie [cases])]

pour (i dans les cas) {
  col = 1
  si (i == 24) {
    col = 2
    bg = "rouge"
  }
  plot (-100, -100, xlim = c (0,85), ylim = c (0,11), yaxt = "n", xaxt = "n",
       xlab = "", ylab = "compte", col = col)
  axis (2, at = c (1:10), labels = c (1:10) ^ 2, las = 2)
  axis (1, at = c (1:85), labels = rep ("", 85), tck = -0.04)
  axis (1, at = c (1,1 + 31,1 + 31 + 30) -1, labels = c ("Mar 1", "Apr 1", "May 1"), tck = -0.08)


  pour (lev dans c (10,25,50,100)) {
    #polygon (c (-10,200,200, -10), sqrt (c (lev-sqrt (lev), lev-sqrt (lev), lev + sqrt (lev), lev + sqrt (lev))),
    # col = "gris")
    lignes (c (-10200), sqrt (c (lev, lev)), lty = 2)
  }
  lignes (sqrt (data [[2]] [[i]]  $ confirmé), col = col)
  points (sqrt (données [[2]] [[i]] $  confirmées), bg = "white", col = col, pch = 21, cex = 0.7)
  title (paste0 (i, ":", data [[2]] [[i]] $ name), cex.main = 1, col.main = col)
}


### un graphique intéressant de sous / surdispersion et de la moyenne des 9 derniers points de données
### on peut reconnaître un cluster avec une faible déviance et signifie juste en dessous de 100
plot (signifie, disp, log = "xy",
     yaxt = "n", xaxt = "n")
axe (1, las = 1, tck = -0.01, cex.axis = 1,
     at = c (100 * c (1: 9), 10 * c (1: 9), 1 * c (1: 9)), labels = rep ("", 27))
axe (1, las = 1, tck = -0.02, cex.axis = 1,
     étiquettes = c (1,10,100,1000), à = c (1,10,100,1000))
axe (2, las = 1, tck = -0.01, cex.axis = 1,
     at = c (10 * c (1: 9), 1 * c (1: 9), 0.1 * c (1: 9)), labels = rep ("", 27))
axe (2, las = 1, tck = -0.02, cex.axis = 1,
     étiquettes = c (1,10,100,1000) / 10, à = c (1,10,100,1000) / 10)
 

Peut-être que cela surinterprète un peu les données, mais de toute façon voici un autre graphique intéressant (également dans le code ci-dessus). Le graphique ci-dessous compare les 84 régions (à l'exception des trois plus grandes qui ne rentrent pas dans le graphique) en fonction de la valeur moyenne des 13 derniers jours et d'un facteur de dispersion basé sur un modèle GLM avec la famille de Poisson et un ajustement cubique. Il semble que les cas de sous-dispersion sont souvent proches de 100 cas par jour.

Il semble que quelle que soit la cause de ces valeurs de niveau suspect dans le kraï de Krasnodar, cela se produit dans plusieurs régions, et cela pourrait être lié à une limite de 100 cas / jour. Il est possible qu'une censure se produise dans le processus qui génère les données et qui limite les valeurs à une limite supérieure. Quel que soit ce processus qui cause les données censurées, il semble se produire dans plusieurs régions de la même manière et a probablement une cause artificielle (humaine) (par exemple une sorte de limitation des tests de laboratoire dans les petites régions).

comparing dispersion

Belle réponse (+1).
Bonne réponse.Je m'étais demandé s'il pouvait y avoir un biais de sélection - les données semblent certainement très inhabituelles, mais avec autant de statistiques locales suivies dans le monde entier, on s'attend à ce qu'un petit nombre de régions aient des données correctes statistiquement improbables en raison du seul hasard,et il est facile de se concentrer sur ces cas.Mais le modèle cohérent de résultats improbables indique que ce n'est pas une instance unique due au hasard.
@NuclearWang, il est également intéressant que ces courbes montrent que ce n'est ni comme si une seule personne * fabriquait * les données (je suppose que cela circule dans l'esprit de certaines personnes).Pour que cela soit vrai, la personne qui a fabriqué les données doit avoir eu beaucoup d'imagination pour créer ces différentes courbes qui ont toutes le même comportement, mais à chaque fois d'une manière légèrement différente.Cela ne me semble pas avoir été fabriqué par une seule source.(Je suppose que les cas positifs des régions subissent un deuxième test de laboratoire fédéral, et ce test est limité à 100 / jour)
La corrélation des cas avec la population pourrait également être informative.Une «limite» autour de 100 semble suspecte, mais pour corriger les données de cette façon, toutes les autorités locales devraient corriger leurs séries temporelles individuellement.C'est un travail difficile.Et la variance / moyenne semble façonnée individuellement.Je suppose qu'il s'agit d'une combinaison d'inexactitude des tests, de lits d'hôpitaux limités, de biais dans l'échantillonnage des patients pour les tests et peut-être d'une sous-estimation artificielle (et moins possible) du nombre de cas.Tout cela a été officiellement rapporté à la télévision et aux nouvelles, attendez-vous au dernier point.De plus, les gens disent que le nombre de cas est surestimé dans toute la Russie.
@AlexeyBurnakov * »Je suppose qu'il s'agit d'une combinaison d'imprécision des tests, de lits d'hôpitaux limités, de biais dans l'échantillonnage des patients pour les tests et peut-être d'une sous-estimation artificielle (et moins possible) du nombre de cas."* Certes, tous ces aspects sont probables. Mais je ne vois pas comment l'un d'entre eux est une cause de sous-dispersion (faible bruit).
Je ne comprends pas non plus.Mais je fais attention à ne pas dire comme "la Fed filtre les résultats" ou que la Fed force les régions à filtrer les résultats.Une logique profane à propos des statistiques covid que nous avons tendance à avoir est qu'il est bon pour tout le monde, mais pour les gens, de surestimer (et non sous) les cas.C'est une bonne raison de montrer des efforts pour sauver le peuple et gagner plus de points, pour tous les niveaux, du président, au gouverneur, en passant par les médecins en chef (plus de budget).C'est juste un bon sens, pas des maths.
@AlexeyBurnakov, il est extrêmement improbable de * ne pas * sous-estimer les cas avec ces statistiques de cas vérifiés (à moins que cela ne soit fait intentionnellement, mais je ne comprends pas vos raisons pour lesquelles les gens aimeraient faire cela).En effet, il est * très difficile * de retracer tous les cas et de les vérifier.Ainsi, pour toutes les régions / pays, afin d'estimer la prévalence ou le nombre total de personnes qui ont été touchées dans le passé, il faut à terme utiliser des tests immunologiques sur un échantillon aléatoire et les extrapoler.Il n'y a qu'une seule statistique qui n'est pas si difficile à retracer et qui est les décès hebdomadaires
Une hypothèse: il n'y a qu'un seul hôpital dans chaque krai, il fait 100 tests par jour, et refuse de signaler les cas qui n'ont pas été testés, quelle que soit la correspondance des symptômes.
@JohnDvorak, cela pourrait être quelque chose comme ça.Mais je suppose que c'est plus précisément comme si les hôpitaux avaient eux-mêmes plus de capacités de test (au moins certains rapports indiquent qu'il y a beaucoup de tests), mais les tests utilisés pour les rapports officiels sont limités.Il ne s'agit peut-être que d'un seul laboratoire dont les données sont utilisées.De cette façon, vous obtenez que le test n'est pas seulement limité, mais * aussi * que la probabilité / fraction de cas positifs est élevée (en raison de la présélection).
#3
+18
Lewian
2020-05-22 16:19:03 UTC
view on stackexchange narkive permalink

Je mentionnerai simplement un aspect que je n'ai pas vu mentionné dans les autres réponses. Le problème avec toute analyse indiquant que cela sort de l'ordinaire est qu'elle ne tient pas compte du fait que les données ont été sélectionnées en fonction de leur apparence étrange. Au moins, je suppose que l'ouvre-fil n'a pas seulement vu ces données, mais aussi d'autres ensembles de données de type similaire (peut-être même pas consciemment, mais dans les médias sans le remarquer car ils ne semblaient pas spéciaux - mais je m'attendrais à ce que quelqu'un qui écrit une publication comme celle-ci pour avoir vu plus consciemment). La question à se poser n'est donc pas de savoir si les données, considérées comme isolées, sont significativement différentes de ce à quoi on pouvait s'attendre, mais plutôt si, si tout est normal (pas entendu comme "normalement distribué", vous voyez ce que je veux dire), tout ensemble de données comme celui-ci ou avec un modèle différent qui inciterait également l'ouvreur de thread à publier ici pourrait être supposé être parmi tous ceux qu'il voit . Comme nous ne savons pas ce qu'ils ont vu, c'est assez difficile à évaluer, à moins que nous ne trouvions une valeur p de 10 $ ^ {- 10} $ qui serait encore un ajustement significatif pour presque n'importe quel nombre de tests multiples.

Une autre façon de tester cela serait de faire des prédictions pour l'avenir en fonction de ce que montrent les données, puis de tester si l'étrange tendance se poursuit avec des observations qui ne faisaient pas partie de celles qui ont conduit à choisir cet ensemble de données.

Bien sûr, l'autre réponse qui déclare que ce type de modèle douteux se produit également dans d'autres régions peut contribuer à rassurer sur le fait que quelque chose de significatif se passe car ce n'est pas une chose si spéciale à choisir. Cependant, le point que je veux souligner est que, quelle que soit l'analyse, le biais de sélection ne doit pas être oublié.

Ceci est également lié à [l'erreur du procureur] (https://en.wikipedia.org/wiki/Prosecutor%27s_fallacy#The_Sally_Clark_case).Un [exemple de ceci] (https://arxiv.org/abs/math/0607340) des tribunaux néerlandais a été ma première introduction aux statistiques bayésiennes.Il est également important de garder à l'esprit la collecte de données.Au lieu d'appliquer sans réfléchir nos équations, nous devons également examiner attentivement le processus qui génère les données.Regardez d'abord ce qui se passe avant d'appliquer les modèles.
#4
+17
Aksakal
2020-05-22 00:26:17 UTC
view on stackexchange narkive permalink

Krasnodar

Les données pour une région ne sont manifestement pas réalistes en termes de dispersion. Voici des données sur la ville de Krasnodar. La moyenne de l'échantillon est de 34 en mai et la dispersion est de 8,7.

enter image description here

C'est plus que ce que suggère la distribution de Poisson, où la dispersion est la racine carrée de la moyenne, c'est-à-dire 5,9. Ceci est surdispersé mais la taille de l'échantillon est assez petite, il est donc difficile de rejeter simplement la distribution de Poisson. La ville a une population d'environ 1 million d'habitants.

Cependant, lorsque nous sautons dans le krai de Kransodar avec une population de 5,5 millions d'habitants, tout d'un coup la dispersion s'effondre. Dans votre graphique, la moyenne des nouveaux cas est d'environ 100, mais la dispersion est de 1 à 2. Dans Poisson, on s'attendrait à une dispersion de 10. Pourquoi la capitale serait-elle surdispersée alors que toute la région serait très sous-dispersée? Cela n'a aucun sens pour moi.

Où est également passée toute la dispersion depuis la capitale de la région? "C'est inconcevable!" (c) penser que l'incidence régionale est très fortement corrélée négativement avec son capital. Voici un diagramme de dispersion des cas en dehors de Krasnodar dans la région par rapport à la ville de Krasnodar. enter image description here

Source

graphique: source: https://www.yuga.ru/media/d7/69/photo_2020-05-21_10-54-10__cr75et3.jpg

données récupérées: 14 45 37 37 32 25 33 40 47 40 33 38 47 25 37 35 20 25 30 37 43

Russie

@AlexeyBurnakov a tiré le tableau pour toute la Russie: enter image description here

J'ai récupéré les données du mois de mai, et elles sont gravement dispersées. La moyenne est de 10K mais la variance est de 756K, avec une dispersion 870 beaucoup plus élevée que le processus de Poisson ne le suggère. Par conséquent, les données globales de la Russie étayent mon affirmation selon laquelle les données du kraï de Krasnodar sont anormales.

9623 10633 10581 10102 10559 11231 10699 10817 11012 11656 10899 10028 9974 10598 9200 9709 8926 9263 8764 8849 8894

Source

https://yandex.ru/covid19/stat?utm_source=main_title&geoId=225

Analyse intéressante (+1), mais il n'est pas vraiment inconcevable que vous puissiez obtenir une corrélation négative.Si certaines des personnes présentant des signes de maladie sont transportées vers la capitale pour des tests / traitements (ou vice versa), cela induirait une corrélation négative entre l'incidence dans les deux endroits, n'est-ce pas?(Je ne dis pas que c'est ce qui se passe; juste qu'il y a des possibilités «concevables» qui peuvent expliquer la corrélation négative ici.)
Je trouve cette approche intéressante et je me demande si la région de la banlieue de Moscou (~ 1000 cas / jour) peut avoir des corrélations similaires.Si jamais je trouve du temps, je vais gratter les données https://www.google.com/search?q="Балашиха"+covid+site:https://covid.mz.mosreg.ru et effectuer pca pour trouvercorrélations et voir si les sous-régions totalisent un multiple de 100.
#5
+12
EngrStudent
2020-05-21 18:23:52 UTC
view on stackexchange narkive permalink

Je pense donc que ce sont les données:

  mois jour nouveau delta dizaines un
     4 29 63 NA 6 3
     4 30 66 3 6 6
     5 1 65-1 6 5
     5 2 79 14 7 9
     5 3 82 3 8 2
     5 4 96 14 9 6
     5 5 97 1 9 7
     5 6 97 0 9 7
     5 7 99 2 9 9
     5 8 99 0 9 9
     5 9 98-1 9 8
     5 10 99 1 9 9
     5 11 98-1 9 8
     5 12 99 1 9 9
     5 13 96-3 9 6
     5 14 97 1 9 7
     5 15 99 2 9 9
     5 16 92 -7 9 2
     5 17 95 3 9 5
     5 18 94 -1 9 4
     5 19 93 -1 9 3
 

La loi de Benford est l’un des éléments d’introduction amusants de la juricomptabilité.

Quand je regarde les fréquences des chiffres à un et des chiffres des dizaines, j'obtiens ceci:

  Taux de comptage des uns
    1 0 0,0
    2 2 9,5
    3 2 9,5
    4 1 4,8
    5 2 9,5
    6 3 14,3
    7 3 14,3
    8 2 9,5
    9 6 28,6

 Taux de comptage des dizaines
    1 0 0,0
    2 0 0,0
    3 0 0,0
    4 0 0,0
    5 0 0,0
    6 3 14,3
    7 1 4,8
    8 1 4,8
    9 16 76,2
 

Je remarque une très forte prépondérance de «6» et «9» dans les données.

Si les chiffres à une place (secondes) étaient distribués selon les règles de Benford, ils devraient se produire respectivement près de 9,7% et 8,5% du temps, au lieu de mieux que 20% du temps.

Penser à la loi de Benford est bien, mais ce n'est pas applicable.La raison en est que l'on peut s'attendre à ce que la loi de Benford ne soit valable que lorsque les données se situent sur plusieurs ordres de grandeur.Ici, leurs chiffres initiaux seront évidemment concentrés autour de 9 et 1 même lorsque les données reflètent un rapport honnête de valeurs qui ont tendance à se situer entre 90 et 199. Ainsi, la loi de Benford (en elle-même) est inutile pour distinguer les données honnêtes des fausses données dans ce domaine.exemple.
Si c'est ainsi que fonctionnait la loi de Benford, alors vous pourriez montrer que "tout" ensemble de données avec un petit écart type est faux en l'affichant dans une base (non) appropriée.
@BlueRaja-DannyPflughoeft, si je voulais (beaucoup moins) agiter la main, j'utiliserais la taille de l'échantillon pour créer des limites décentes.À l'heure actuelle, j'ai une moyenne, et la moitié du temps vous êtes au-dessus et la moitié en dessous: la cible moyenne peut être bien pire pour la carrière que la fenêtre IC à 95%.
Juste dans un sens non statistique, la prévalence des 9 dans les uns et les dizaines implique qu'ils essaient de faire paraître même ces chiffres plus petits qu'ils ne le sont, par exemple.«Ce n’est qu’environ 10 cas» (19) ou «ce n’est même pas encore cent» (99), ce qui est un truc bien connu pour faire paraître quelque chose moins, par exemple le truc à 99/95
@Bob Le problème avec ce raisonnement est que si le taux réel pendant cette période était proche de 100, environ un tiers du temps nous verrions des comptes dans les années 90 et la moitié du temps, nous les verrions dans les 100, donc en observant une prépondérance deLes 9 et 1 parmi les chiffres initiaux ne distinguent pas un comportement aléatoire et indépendant d'un comportement qui semble inhabituel ou suspect.La loi de Benford n'est ni applicable ni utile dans cette circonstance.
La critique des «dizaines» est un bon point, mais EngrStudent montre également qu'il y a un écart dans les «uns» (où il manque également la valeur zéro qui rend l'écart plus grand).Cependant, pour ceux-là, le `` problème '' est que le test n'est pas très puissant pour ces petits nombres (avec une grande variance) un test chisquare ne donne qu'une valeur p autour de 0,17, il n'est donc pas si spécial de voir ces écarts.Exemple: exécutez le code R suivant `chisq.test (c (0,0,2,2,1,2,3,3,2,6))`
#6
+5
Alexey Burnakov
2020-05-22 14:34:03 UTC
view on stackexchange narkive permalink

Points intéressants de tout le monde. Laissez-moi en contredire.

1) Pourquoi Poisson? Le processus de génération de cas est intrinsèquement interdépendant en tant qu'interaction pandémique entre malade et sain, donc la survenue de cas dans un intervalle de temps peut être affectée par les occurrences de l'intervalle précédent. La dépendance peut être compliquée mais forte.

UDPATE (au 23 mai)

1.1) Imaginez la physique du processus.

  • a) Une personne est en bonne santé ->
  • b) Ils sont infectés par un covid positif ->
  • c) ils sont malades et vont à l'hôpital ->
  • d) ils sont dépistés après - et très probablement - avoir fait la queue, ou créneau horaire ->
  • e) le laboratoire traite les tests et détermine les nouveaux positifs ->
  • f) un rapport est envoyé à un ministère et est résumé pour une rapport.

Je voudrais insister à nouveau, après une longue discussion et votes négatifs que j'ai eu, que lorsque vous voyez les rapports de stade F, vous devez comprendre que les événements se sont produits en fonction de nombreuses interactions humaines, et il est important qu'ils aient été accumulés pour passer un «goulot d'étranglement» soit: leur propre temps pour consulter un médecin, le calendrier des rendez-vous chez le médecin, ou les limites de traitement des tests de laboratoire. Tous ces éléments le rendent non-Poissonien, car nous n'utilisons pas le Poisson pour les événements qui attendent dans une ligne. Je pense qu'il s'agit principalement de tests de laboratoire effectués par des humains qui travaillent avec une capacité moyenne et ne peuvent pas en traiter trop par jour. Il est également possible que la phase finale du rapport accumule des informations dans une sorte de compartiments.

Ce que je veux dire, c'est qu'il ne s'agit ni de Poisson, ni de généralisation. C'est le "Poisson avec attente en ligne et accumulation de données en périodes". Je ne vois pas de preuves à 100% de "manipulations de données de style soviétique". Il peut s'agir simplement de volumes de données prétraitées à signaler.

2) Pour la région de Krasnodar, la moyenne quotidienne semble être non stationnaire. Il n'est pas du tout bon d'approcher ces données de la vue de Poisson, ou au moins on ne devrait en prendre que la partie stationnaire.

Ces points concernent environ 2 violations majeures des hypothèses de distribution Possion.

3) Pourquoi 100 tests par jour? C'est une information officielle qu'en Russie (et je suis en Russie, lisant constamment des nouvelles), 7,5 millions de tests ont été effectués jusqu'à présent, et environ 330000 cas confirmés (au 22 mai) . La proportion de positifs est inférieure à 5%. Avec cela, vous devriez vous attendre à au moins 2000 tests par jour autorisés. Cela pourrait être réel, car les tests sont des articles rares et coûteux et pas seulement à Krasnodar, en Russie ou en Europe. C'est partout pareil. @Aksakal

enter image description here

(source: https://yandex.ru/covid19/stat?utm_source=main_title&geoId=225)

4) Pourquoi pensez-vous que ce sont des "données soviétiques"? Regardez les données mondiales pour de nouveaux cas de covid. C'est extremely à faible variance si vous pensez que ce doit être Poisson (une somme de Poissons est un Poisson). Le monde est-il "soviétique" (je suppose que vous voulez dire mentir?) Alors? @Ben - Réintégrer Monica

enter image description here

(source: https://yandex.ru/covid19/stat?utm_source=main_title&geoId=225)

Donc, il me semble que l'application des statistiques en cas de pandémie est une chose dangereuse. De nombreuses hypothèses de toutes sortes doivent être vraies pour conclure ce qui a été conclu.

MISE À JOUR

Pour aborder le point sur les données mondiales sous / surdispersion,

  bibliothèque (data.table)
bibliothèque (magrittr)

dat <- read.csv (url ('https://covid.ourworldindata.org/data/owid-covid-data.csv'))

setDT (dat)

dt <-
    dat [location == 'Monde', somme (new_cases), date]% >%
    . [, date: = as.Date (date)]% >%
    . [date > = '01/04/2020']% >%
    setorder (date)

min (dt $ V1)

max (dt $ V1)

moyenne (dt $ V1)
var (dt $ V1)

var (dt  $ V1) / mean (dt $  V1) # énorme surdispersion, en effet

plot (dt $ V1, type = 'l')

acf (dt $ V1)
 

J'ai des données pour le 1er avril à aujourd'hui (en tant que phase plateu plus stationnaire).

enter image description here

Le calcul a montré que le rapport variance / dispersion est de 1083. C'est une énorme surdispersion.Mon analyse à l'œil nu était erronée.

Il existe une autocorrélation hebdomadaire importante.

enter image description here

Cela peut être l'une des raisons d'une variance plus élevée, mais est-ce suffisant?Et pourquoi y a-t-il un modèle quotidien?S'agit-il toujours du processus de Poisson ou de statistiques mensongères dans le monde?

Je ne sais pas si le monde est soviétique, mais je sais que les politiciens modernes sont filtrés pour deux compétences: l'attrait de la scène (bon escroc) et la collecte de fonds (bonne vente).Je ne sais pas si le processus de Poisson capture réellement la physique des phénomènes.Je ne vois pas le suivi des contacts sur le graphe social, la charge virale ou rien de tout cela.
Le fait est que les données sont sous-dispersées.Même en dépit de vos points (1) et (2), il faut s'attendre à ce que la variance du bruit dans les données soit proche de la moyenne des données (ou plus grande / surdispersée).Ceci est également évident à partir du graphique des courbes où nous voyons l'étrange * drastique * diminution du bruit en mai.(3) * "Avec cela, vous devriez vous attendre à au moins 2 000 tests par jour autorisés" * qu'entendez-vous par là?(4) Les données mondiales n'ont pas de faible variance.Il varie de 80k à 100k.Donc à peu près un coefficient de variation d'environ 10%.C'est * surdispersion * pas * sousdispersion *.
1) et 2).Je ne vois pas pourquoi la sous-dispersion devrait être mentionnée si vous n'êtes pas sûr qu'il s'agit de données de Poisson.C'était le point.3) Je veux dire qu'il y a en moyenne 5 personnes sur 100 qui étaient positives pour les covid après avoir passé des tests, donc 100 positifs signifient 100 * 20 tests en moyenne ... Cela peut vraiment être un grand nombre de tests pour une petite région comme Krasnodaret le nombre de tests peut être limité à 2000 par des contraintes budgétaires liées au manque de personnel médical.4) Permettez-moi d'ajouter quelques recherches à ma réponse, vous avez peut-être raison.
@EngrStudent, Je n'aimerais jamais voir ou me lancer dans la politisation des données sur ce site Web que j'aime.Sans compter qu'en Union soviétique, les statistiques et la science économique étaient très sophistiquées.Sur vos deux autres commentaires, intuitivement, le processus de génération de données dépend, et les données que j'ai vues étaient toujours étranges, non aléatoires.
@AlexeyBurnakov - Je pleurerais si cela arrivait.J'ai appris les équations aux dérivées partielles par Basil Nikolaenko.Il a géré 2 équipes à la NASA, un chauffeur de calcul américain et un autre immigrant russes utilisateurs de crayons et il a dit que lorsque le groupe d'immigrants venait à lui avec quelque chose, leurs affaires étaient toujours bonnes.Je respecte énormément les mathématiques russes.De toute façon, je ne connais pas l'économie russe.
Le rythme quotidien peut provenir de plusieurs facteurs: activité / loisirs des travailleurs pendant la semaine de travail ou le week-end, heures du médecin (généralement pas le week-end), calendrier des mises à jour des rapports, heures de fonctionnement du laboratoire / des installations
@EngrStudent, Je suis d'accord avec cela.Mais cela rend les données étranges, violant ce que nous savons sur les vraies distributions.L'aplatissement du nombre de cas est également possible de provoquer une sous-dispersion et rend également les données étranges.Et je conviens que cela peut être une manupulation, mais peut aussi être dû au manque de personnel médical (un énorme problème, les médecins ont travaillé des quarts supplémentaires partout) et au nombre restreint de tests effectués.
Selon les nouvelles d'hier, la région de Krasnodar (1) est désignée pour ouvrir encore la saison touristique à partir de juillet (la région est une importante station balnéaire);(2) régime d'isolement considérablement assoupli à partir de demain.Ces faits doivent être pris en compte car les autorités ont commencé certaines activités pour respecter les plans.Ces actions peuvent impliquer, mais pas nécessairement, une sorte de falcification des nombres.Cependant, ils impliqueraient un processus définitivement non poissonien de «cas confirmés quotidiennement».
@ttnphns, oui, c'est vrai.Et d'autres régions dépendantes du tourisme assouplissent également le régime carantin, comme la Turquie, l'Italie et peut-être encore plus.
@AlexeyBurnakov - les données "Diamond Princess" sont presque intactes.Les données démographiques sont un peu plus anciennes.(https://www.nature.com/articles/d41586-020-00885-w) Le défi est alors un modèle de système dynamique qui transforme cette phénoménologie non-cylindique en choses compliquées que nous voyons.
@AlexeyBurnakov si vous avez chaque jour 2000 tests dont chaque test a une probabilité de 5% d'être positif, alors vous avez quelque chose comme une valeur distribuée binomiale (avec $ n = 2000 $ et $ p = 0,05 $) pour laquelle la valeur d'attente, $ np $ et la variance $ np (1-p) $ sont encore très proches (cela explique pourquoi vous pouvez obtenir en moyenne 100 tests, mais pas pourquoi vous obtenez 100 * avec si peu de variation *) ....
..... Pour la plupart des situations avec des données de dénombrement, nous devrions nous attendre à ce que la variance et la moyenne soient à peu près égales.Ce n'est pas le cas uniquement lorsque vous avez quelque chose comme une variable distribuée binomiale avec une valeur élevée pour $ p $.(J'imagine que cela pourrait être le cas ici lorsque les rapports sont basés sur des tests de deuxième opinion d'un laboratoire central où la capacité de test est limitée)
* Pourquoi Poisson?Le processus de génération des cas est intrinsèquement interdépendant en tant qu'interaction pandémique entre malades et sains * - Bien sûr, le processus de Poisson est une hypothèse approximative, mais, lorsqu'il s'agit d'enquêter sur la sous-dispersion, il est bénin.La plupart des mécanismes d'interdépendance tels que les super-étaleurs, les week-ends, la météo * augmenteraient * la dispersion par rapport à un processus de Poisson.Je ne peux penser à aucun mécanisme épidémiologique qui réduirait la dispersion.…
Il peut y avoir des mécanismes de réduction de la dispersion au niveau des rapports, mais cela signifie que les chiffres ne reflètent en fait pas la réalité et que la suspicion est donc justifiée.De plus, comme expliqué par @SextusEmpiricus,, même des capacités de test limitées ne peuvent pas expliquer cela.La seule chose à laquelle je peux penser est un goulot d'étranglement dans le traitement des rapports, par exemple, le bureau peut traiter au maximum 99 rapports par jour.Mais dans ce cas, les données sont en effet assez inutiles.
* "mais cela signifie que les chiffres ne reflètent en fait pas la réalité et que la suspicion est donc justifiée." * Nous pouvons déjà nous attendre à ce que les chiffres ne reflètent pas la réalité sans l'observation de la sous-dispersion.Le monde entier devient fou de ces chiffres qui sont quotidiennement rapportés et trop dispersés entre les nombreux médias différents, alors qu'ils ne sont pas très précis (de nombreux pays ont des capacités de test limitées).
@SextusEmpiricus, le point sur la distribution binomiale est logique.Alors, oui, la faible variance observée est également étrange.Mais gardez à l’esprit que j’ai fait référence à un chiffre national.Le nombre de tests quotidiens n'est pas publié publiquement ni par région.Il se peut que la proportion fluctue davantage si des nombres de tests exacts étaient donnés.
@AlexeyBurnakov Je ne comprends pas ce que vous voulez dire.Ce que j'ai retenu de votre texte, c'est que vous vouliez dire que le chiffre de 100 cas positifs / jour provient de quelque chose comme 2000 tests / jour.Cela peut en effet expliquer pourquoi vous avez une valeur de plateau.Mais ... cela n'explique * pas * pourquoi vous avez si peu de variation dans les nombres.Si vos tests sont limités à, disons 2000, et si la valeur attendue est de 100, alors vous devez toujours vous attendre à un écart type d'environ 10. Les données sont fortement sous-dispersées si elles proviennent d'une distribution binomiale avec un faible $ p $.(mais si $ p $ est grand alors c'est logique).
* "Mais gardez à l'esprit que j'ai fait référence à un chiffre à l'échelle du pays." * Qu'est-ce que cela signifie par rapport à mon commentaire sur la distribution binomiale ayant toujours la variance et la valeur attendue étant approximativement la même?
@SextusEmpiricus: Mon point est qu'il existe de nombreux mécanismes qui expliquent la surdispersion.Cela n'invalide pas automatiquement les données.Bien sûr, il ne faut pas être surexcité lors d'un saut soudain d'un jour à l'autre, mais lorsque vous tenez compte de ces effets et que vous regardez une moyenne mobile appropriée, les données peuvent toujours avoir une certaine valeur.En revanche, tous les mécanismes conduisant à une sous-dispersion auxquels je peux penser conduisent également à des données totalement inutiles.
* "Il se peut que la proportion fluctue davantage si des numéros de test exacts étaient donnés." * Les chiffres que nous examinons actuellement ne sont pas des numéros de test exacts et non des numéros mis à jour quotidiennement?
@SextusEmpiricus, pourquoi?C'est facile.Nous ne savons pas combien de tests ($ n $) ont été effectués chaque jour dans la région de Krasnodar.Cette information est absente.Nous savons seulement que dans tout le pays, la proportion de positifs ($ k $) aux tests est d'environ 0,05.Si nous connaissions les statistiques quotidiennes non seulement sur les points positifs, mais aussi sur les tests, nous pourrions légitimement essayer Binomial.C'est ce que je viens d'écrire.
@Wrzlprmft Je ne suis pas tellement inquiet de la surdispersion.C'est plus que les chiffres sous-estiment fortement le nombre réel de cas.Il n'est pas impensable que le degré de sous-déclaration puisse changer avec le temps (la courbe pour la Chine le montre clairement avec un choc soudain lorsque le protocole de test a été modifié).Ainsi, la courbe montrera des modèles qui reflètent en partie la façon dont nous testons et rapportons.C'est comme utiliser un très mauvais thermomètre qui n'indique pas la température exacte et ni cohérente.C'est le pire des cas [des quatre options] (https://en.wikipedia.org/wiki/Accuracy_and_precision).
@AlexeyBurnakov nous n'avons pas besoin de connaître les nombres exacts dans le cas binomial.Cela pourrait être n = 2000 ou n = 500, peu importe.Si $ p $ est petit (ou de manière équivalente $ n $ grand) alors la variance et la valeur attendue sont approximativement égales (en fait, vous pouvez approximer les données binomiales avec une distribution de Poisson https://en.wikipedia.org/wiki/Poisson_limit_theorem).Ce n'est que si vous avez une situation étrange où p est très élevé> 0,9 que le rapport bruit / signal n'a de sens.J'ai mentionné avant une situation comment cela pourrait arriver.
Notez que pour une distribution binomiale nous avons: $$ \ text {mean} = np $$ $$ \ text {variance} = np (1-p) $$ and $$ \ frac {\ text {variance}} {\ text {mean}} = 1-p\, \ underbrace {\ approx 1} _ {\ llap {\ text {if $ p $}} \ rlap {\ text {proche de 0}}} $$ Donc, si $ p $ est petit (environ 5% comme vousdire) alors peu importe ce que c'est exactement et la variance / moyenne ~ 1.
@SextusEmpiricus, Je comprends.Je ne peux pas entièrement convenir que cela s'applique ici.Les expériences binomiales impliquent que nous faisons des essais $ n $ plusieurs fois, non?Le nombre d'expériences correspond au nombre de jours.Si, en effet, nous savions que $ n $ est égal à chaque fois (sans même savoir $ n $), alors, je suis d'accord, nous ne pourrions pas aller sans biais.Mais nous ne savons pas si $ n $ est égal.Voyez-vous que c'est logique?CEPENDANT, même si $ n $ n'est pas connu et que l'utilisation stricte du binôme est également trompeuse, je peux imaginer que faire varier $ n $ n'est pas susceptible de produire des résultats à faible variance, cela devrait plutôt augmenter la variance.Alors, je suis d'accord.
@AlexeyBurnakov ce que nous savons, c'est que si ces données sont distribuées en binôme avec une petite valeur pour $ p $, alors nous ne devrions pas observer le rapport bruit / signal que nous observons.Bien sûr, le nombre $ n $ peut ne pas être égal d'un jour à l'autre (et le nombre $ p $ ne l'est pas non plus d'un jour à l'autre).Mais les variations qui peuvent se produire dans $ n $ et $ p $ ne seront pas du genre à lisser les données.Revenons donc (après une longue discussion) au point 3 de votre message.Vous suggérez que le nombre de tests est en quelque sorte limité, mais cela n'explique pas le faible rapport signal / bruit.
@SextusEmpiricus.Je vois maintenant que limiter le nombre de tests est * peu probable * d'aplatir les données.Il est difficile d'imaginer que, par exemple, $ p $ si une fonction teste $ n $.Oui, d'accord.Ensuite, la source de faible var / moyenne peut être une manipulation de données, mais je ne sais pas quel genre de chose.Il peut s'agir simplement de «disperser» les comptes plus uniformément au fil du temps ou pire.Merci pour la discussion.
@AlexeyBurnakov dans un commentaire sous ma réponse, j'explique pourquoi je ne crois pas que ce soit une sorte de manipulation intentionnelle de données de fabrication.Ou du moins, la manipulation n'est pas faite par une seule personne.Pour que cela soit vrai, les différentes régions semblent trop différentes dans la manière dont elles sont fabriquées.Ce que j'imagine, c'est que cela pourrait être une sorte de limitation procédurale pour les régions qui transforme cela en données distribuées binomiales avec un $ p $ élevé.Par exemple, les cas positifs observés au niveau régional font l'objet d'une double vérification, et la double vérification est effectuée par lots quotidiens de taille fixe.
@AlexeyBurnakov, sur # 3, je pense que votre intrigue pour les nouveaux cas dans toute la Russie n'est pas incompatible avec le type de processus de Poisson.Il montre 10k nouveaux cas par jour, donc la dispersion serait d'environ 100, et cela semble être le cas si vous regardez la fluctuation des nouveaux cas quotidiens.
@Aksakal, Je n'ai pas mesuré la variance ou l'écart pour ce graphique.Ce n'est pas la raison pour laquelle je l'ai publié.C'était pour montrer que les cas positifs et les tests sont des processus différents.Environ 4% des tests ont abouti à des cas.Vous venez de mentionner les "tests".
@AlexeyBurnakov, jetez un œil à ma réponse mise à jour.J'ai gratté vos données sur la Russie, et elles sont trop dispersées, la variance quotidienne est très grande.Les données du kraï de Kransodar sont "gérées" d'une manière ou d'une autre
@Aksakal.Je vois, bon point.À propos, en haut dans les commentaires, nous avons déjà commencé à traiter les données comme binomiales car les nombres de cas sont des fractions de tests effectués
@AlexeyBurnakov, cette page yandex me montre 8M de tests et 326K infectés, soit un taux d'incidence de 4%.Donc, Poisson devrait être une approximation assez correcte
@Aksakal, C'est bon à savoir, je n'étais pas familier avec cette corrélation des distributions.
@Aksakal vous supposez que ces chiffres se rapportent aux tests 8M et à la distribution binomiale avec un taux d'incidence de 4%, mais cela peut ne pas être le cas.Les données ont très peu de méta-informations fournies indiquant comment les données sont collectées.Il se peut également que les chiffres se rapportent à un test secondaire qui a une certaine limite pour les différentes régions (comme environ 100) et que les régions n'envoient que leurs cas positifs pour les seconds tests, ce qui rend le taux d'incidence très élevé.
@SextusEmpiricus, ce sont tous des points justes, nous ne savons pas grand chose sur le processus de collecte de données réel
@EngrStudent, "Je respecte beaucoup les mathématiques russes. Je ne connais pas l'économie russe de toute façon".J'étais fatigué hier, désolé.Sur les mathématiques russes, rappelez-vous les noms: Markov, Chebyshev, Kolmogorov (probabilité), Lyapunov, Arnold (nath général), Lobachevskiy (géométrie), Keldysh.Ils sont partout.Sur la science économique, vous pourriez entendre parler de Leontyev (un prix Nobel).Et plus encore moins connu.Ils étaient vraiment perspicaces, mais, hélas, parfois, les politiciens les ont rendus misérables, ce qui peut être une source de partialité.
@Aksakal, J'ai ajouté plus d'argumentation pourquoi je pense que ces données ne sont pas de nature de Poisson.Puce dans ma réponse 1.1)
Ce n’est clairement pas du poisson mais ce n’est pas le but.Le fait est que la dispersion est trop faible.
Re "Manipulations de style soviétique:" une recherche sur cette page Web montre que * vous * êtes la seule personne à faire référence à une telle affirmation!Je pense que la plupart, sinon la totalité, des affiches et des lecteurs de cette page comprennent les limites de l'analyse statistique et ne présumeraient pas qu'un ensemble de données d'apparence irréaliste indique nécessairement qu'il y avait de la sottise à l'œuvre.Vos arguments sur la non-Poissonness ne sont pas vraiment clairs, car finalement * le virus * détermine qui tombe malade et quand;et cela va être proche de Poisson.C'est le processus de base qui conduit tout le reste.
@whuber «manipulations à la soviétique» est une réponse aux «données soviétiques».Ce dernier est une caractérisation qui n'a pas été commencée par Alexey.
La question de la poissonne des données est en quelque sorte aussi une question de savoir si ces données sont censées se rapporter ou non à ce que `` le virus détermine '' (l'alternative est que les données reflètent les capacités de mesure et de rapport, et c'est un scénario probablesi vous comparez les différents pays avec une énorme hétérogénéité dans les approches et les chiffres).Aucune de ces statistiques n'est réaliste (indépendante de la dispersion) et toutes nécessitent une description claire des limites.Sauf l'Islande, qui teste énormément, toutes ces données ne sont que des indices des virus-icebergs.
@whuber, monsieur, je l'ai fait dans un seul but."@Arkasal: Ce sont des données très soviétiques. - Ben - Réintégrer Monica hier" La réponse à ce commentaire sous la question.Pas d'autres fins.
@Alexey Merci pour l'explication.
@whuber, existe-t-il des "données soviétiques"?Je pense que les Soviétiques manipulaient toujours les statistiques.C'est une question pour moi que les pays post-soviétiques conservent cette tradition.Presque tous ceux que je connais et vivent encore là-bas affirmeraient que c'est toujours le cas.Je n'ai pas d'expérience de première main avec les statistiques récentes.Je soupçonne fortement toutes les données liées au COVID de la région au moins jusqu'en avril.Pour le moment, il est probablement impossible de cacher la propagation
@Aksakal Je ne suis pas celui à qui adresser ce commentaire.J'ai déjà protesté que "soviétique" n'est pas un adjectif que j'utilise.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...