Question:
Comment gérer les valeurs de cellule égales à zéro dans une table de contingence?
DrWho
2011-02-13 19:14:55 UTC
view on stackexchange narkive permalink

Comment gérer une valeur de cellule dans une table de contingence égale à zéro dans les calculs statistiques? (Notez qu'une telle valeur peut être structurelle , c'est-à-dire qu'elle doit être nulle par définition, ou aléatoire , c'est-à-dire qu'elle aurait pu être une autre valeur, mais zéro a été observé .)

Plus d'informations sont nécessaires ici, par zéro voulez-vous dire manquant? Pourquoi pensez-vous que vous devez faire quelque chose de spécial parce que la valeur est zéro?
Je le fermerais en double http://stats.stackexchange.com/questions/1444/how-should-i-transform-non-negative-data-including-zeros/1445#1445
Cette question portait sur les transformations plutôt que sur les problèmes inférentiels.
Trois réponses:
#1
+17
DWin
2011-02-13 23:16:00 UTC
view on stackexchange narkive permalink

Les zéros dans les tableaux sont parfois classés comme structurels, c'est-à-dire zéro par conception ou par définition, ou comme aléatoires, c'est-à-dire une valeur possible qui a été observée. Dans le cas d'une étude où aucun cas n'a été observé alors que c'était possible, la question se pose souvent: quel est l'intervalle de confiance unilatéral à 95% au-dessus de zéro? Cela peut être raisonnablement répondu. Elle est, par exemple, abordée dans "Si rien ne va pas, tout va-t-il bien? Interprétation des nombres à zéro" Hanley et Lippman-Hand. JAMA. 1983; 249 (13): 1743-45. Leur conclusion était que l'extrémité supérieure de l'intervalle de confiance autour de la valeur observée de zéro était 3 / n où n était le nombre d'observations. Cette "règle de 3" a été abordée plus en détail dans des analyses ultérieures et à ma grande surprise j'ai trouvé qu'elle avait même une page Wikipédia. La meilleure discussion que j'ai trouvée a été celle de Jovanovic et Levy dans le statisticien américain. Cela ne semble pas être disponible en texte intégral dans les recherches, mais peut signaler après l'avoir parcouru une deuxième fois qu'ils ont modifié la formule pour être 3 / (n + 1) après des considérations bayésiennes raisonnables, ce qui resserre l'IC a bit. Il y a un examen plus récent dans Revue internationale de statistiques (2009), 77, 2, 266-275.

Addenda: Après avoir examiné de plus près la dernière citation, ci-dessus, je rappelez-vous avoir trouvé la discussion approfondie dans Agresti & Coull "The American Statistician", Vol. 52, n ° 2 (mai 1998), pp. 119-126 informatif. Les intervalles «Agresti-Coull» sont intégrés dans différentes fonctions SAS et R. Une fonction R avec elle est binom.confint {package: binom} par Sundar Dorai-Raj.

Il existe plusieurs méthodes pour traiter des situations où une accumulation d'observations «nulles» déforme une distribution autrement agréable et traitable des coûts ou des modèles d'utilisation des soins de santé. Celles-ci incluent des modèles gonflés à zéro et des obstacles tels que décrits par Zeileis dans "Modèles de régression pour les données de comptage dans R". Une recherche sur Google démontre également que Stata et SAS ont des installations pour gérer de tels modèles.

Après avoir vu la citation de Browne (et corrigé la modification de Jovanovic et Levy), j'ajoute cet extrait de la réplique encore plus divertissante à Browne:

"Mais à mesure que la taille de l'échantillon devient plus petite, les informations préalables deviennent encore plus importantes car il y a si peu de points de données pour" parler d'eux-mêmes ". En effet, la petite taille des échantillons offre non seulement l’occasion la plus convaincante de réfléchir sérieusement au préalable, mais aussi l’obligation de le faire. "Plus généralement, nous aimerions profiter de cette occasion pour dénoncer l’utilisation insensée et non critique de formules simples ou règles. "

Et j'ajoute la citation à l'article de Winkler et al qui était en litige.

Merci pour la réponse sensiblement détaillée avec références.
Jovanovic et Levy recommandent 3 / (n + 1) - voir le tableau 1, page 138 pour confirmation. Il y a aussi une suggestion de Browne pour 3 / (n + 1,7). http://faculty.fuqua.duke.edu/~jes9/bio/The_Role_of_Informative_Priors_in_Zero_Numerator_Problems_Comments_and_Replies.pdf
C'est une bonne réponse. Pouvez-vous améliorer la mise en forme du 2ème au dernier paragraphe (par exemple, w / `>`)? Les guillemets ne correspondent pas; tout le paragraphe est-il une citation? De plus, le 4e au dernier paragraphe semble commencer par deux points pour une raison quelconque.
Merci. Comme vous l'avez suggéré. Je suis plus familier avec le formatage SO. CV est un peu plus "littéraire".
Je vous en prie. Je pense que le formatage est le même, sauf que CV prend également en charge $ \ LaTeX $ via mathjax. Le paragraphe entier est-il une citation, cependant (b / c il y a des guillemets sans correspondance avec i)?
Je pense que tout cela est une citation.
#2
+8
Rick
2011-02-22 03:01:11 UTC
view on stackexchange narkive permalink

Une très belle discussion sur les zéros structurels dans les tableaux de contingence est fournie par West, L. et Hankin, R. (2008), «Exact Tests for Two-Way Contingency Tables with Structural Zeros», Journal of Statistical Software, 28 ( 11), 1–19.URL http://www.jstatsoft.org/v28/i11

Comme le titre l'indique, ils implémentent le test exact de Fisher pour la contingence bidirectionnelle tables dans le cas où certaines des entrées de table sont contraintes à zéro.

Agresti et Finlay mentionnent que généraliser le test exact de Fisher est également logique lorsque le nombre de cellules tombe en dessous de 5 dans n'importe quel tableau de contingence.
#3
+3
Mike Hunter
2017-01-20 01:35:17 UTC
view on stackexchange narkive permalink

Thomas Wickens, dans son excellent livre Multiway Contingency Table Analysis for the Social Sciences , propose une suggestion différente de celles déjà proposées. Il distingue les zéros aléatoires, «qui sont des accidents d'échantillonnage et dont le traitement consiste en grande partie à ajuster les degrés de liberté (chapitre 5, p. 120,« Cellules vides »),« des vides structurels ou des zéros », qui manquent d'un structure factorielle et dont l'analyse nécessite une modification du concept d'indépendance »(chapitre 10, p. 246).

Le chapitre 10 est intitulé "Tableaux structurellement incomplets" et considère le traitement des données dans lequel certaines cellules sont a priori exclues de la considération. "Des exemples de ceci incluent les admissions à l'hôpital par sexe: bien que les hommes enceintes puissent avoir une cellule dans le tableau de contingence, aucune n'est observée" (p. 247).

Plus important encore, "Si l'on traite les cellules impossibles (zéros structurels) en tant que fréquences nulles, ils s'affirment comme dépendances dans un test d'indépendance (p. 246). "

Ce que l'on veut faire, c'est ignorer les cellules impossibles dans tout test d'indépendance ou d'association . La façon de faire est d'estimer le modèle approprié sur le tableau de contingence complet (y compris les zéros structurels), puis de soustraire la somme des valeurs du chi carré associées aux cellules nulles du test du chi carré total. Cela génère un test d'indépendance du chi carré réduit uniquement pour la table de contingence réduite.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 2.0 sous laquelle il est distribué.
Loading...