Question:
Les mesures effectuées sur le même patient sont-elles indépendantes?
Jorge Amaral
2012-10-29 19:16:07 UTC
view on stackexchange narkive permalink

Je travaille actuellement sur la classification des maladies pulmonaires par spirométrie. Il s'agit d'une procédure dans laquelle le patient souffle de l'air dans un tube et nous collectons le volume d'air, la pression, etc., afin d'obtenir les paramètres spirométriques.

Ma question est la suivante: si j'effectue la spirométrie chez le même patient trois fois, puis-je considérer ces trois examens, le même jour, comme trois points de données différents dans ma formation sur l'ensemble de tests ou c'est mieux vaut faire la moyenne des résultats et ne considérer qu'un seul point de données? Si le patient arrive un autre jour, puis-je considérer ces examens comme indépendants?

Je pense qu'il est normal de considérer les examens comme des points de données différents, mais j'aimerais entendre d'autres opinions.

FWIW, pour la spirométrie, la norme de l'industrie est d'exécuter chaque patient 3x. Si les mesures varient de <10%, cela est considéré comme un bon test. La plupart préconisent de faire la moyenne des mesures, mais une minorité préconise d'utiliser le meilleur de la théorie, c'est une mesure plus précise de ce que leurs poumons peuvent faire. Du point de vue des statistiques, soit est une bonne mesure tant que la même méthode est utilisée pour tout le monde, et l'utilisation de la moyenne donne une réduction de 58% de l'erreur de mesure par rapport au meilleur. Il n'y a pas de tendance appréciable, sauf pour les patients atteints de MPOC, car le souffle et les bouffées les amènent à dégager leurs voies respiratoires.
@gung: Wow. C'est une connaissance très impressionnante et très inattendue.
Cinq réponses:
Peter Flom
2012-10-29 19:21:54 UTC
view on stackexchange narkive permalink

Ce sont certainement trois points de données différents, mais ils ne sont certainement pas non plus indépendants (qu'ils soient le même jour ou un jour différent). Ce que vous devez faire à ce sujet dépend des objectifs de votre analyse, mais il est probable qu'un modèle à plusieurs niveaux soit un bon choix. La moyenne des points est également possible, mais elle réduit la variabilité et élimine la capacité de regarder les tendances au fil du temps.

Stephan Kolassa
2012-10-29 20:14:19 UTC
view on stackexchange narkive permalink

Je suis généralement d'accord avec la réponse de @ PeterFlom. À mon avis, vous ne devriez pas faire la moyenne de vos données (vous jetez essentiellement 2/3 de vos informations, pourquoi voudriez-vous faire cela?), Mais vous devez absolument tenir compte du fait que les mesures sur le même patient auront tendance à être plus proches que les mesures effectuées sur différents patients. Dans une telle situation, je recommande généralement des modèles linéaires mixtes, qui sont une simple instance des modèles multi-niveaux recommandés par @PeterFlom.

Plus précisément, vous utiliseriez un modèle mixte linéaire généralisé. La fonction de liaison serait logistique, comme dans la régression logistique «ordinaire». Cependant, la forme fonctionnelle inclurait de multiples observations sur chaque participant, modélisées par un effet aléatoire, tout comme dans les modèles mixtes linéaires «ordinaires», $ y∼F (Xβ + Zγ) $. Dans R, vous pouvez ajuster cela par glmer () dans le paquet lme4, en utilisant la famille binomiale. Pour la prédiction, vous pouvez utiliser une seule mesure.

Il est bien entendu difficile de dire si un modèle mixte prédit mieux qu'un modèle non mixte dans un contexte particulier. Le modèle mixte tient compte de la variabilité intra-individuelle. Si vous faites la moyenne des trois points de données d'origine, vous perdez toute la variabilité entre les mesures, vous serez donc trop optimiste quant à votre capacité à prédire à partir d'une seule nouvelle observation.

Si, au contraire, vous ajoutez simplement toutes les observations sans prendre en compte le regroupement, vous serez encore une fois trop optimiste, car toutes les erreurs standard vont diminuer. Pensez à ce qui se passerait si vous commenciez avec une seule observation par participant, disons 100 points de données ... et que vous copiiez simplement chaque observation 100 fois. Vous vous retrouveriez avec 10 000 «observations» et des erreurs standard bien plus petites qu'avec les données d'origine, bien que vous n'ayez pas entré de nouvelles informations.

De plus, les modèles mixtes permettent de modéliser d'autres facteurs de regroupement, comme l'emplacement, ses caractéristiques démographiques spécifiques, son personnel, les caractéristiques diagnostiques, etc. Ils sont donc beaucoup plus généraux que la moyenne.

(-1) Le PO a écrit que son objectif est "la classification des maladies pulmonaires à l'aide de la spirométrie". Votre réponse concerne la modélisation des résultats de spirométrie en DV, mais ce que OP voulait, c'est utiliser les résultats de spirométrie en IV pour classer les maladies ...
@amoeba: Je pense que vous avez peut-être mal compris ma réponse (et peut-être aussi les autres que vous avez rejetées). Je n'ai pas parlé de modéliser les résultats de la spirométrie comme un DV, mais comme un IV - avec le défi que les mesures sont corrélées pour chaque participant. Ma suggestion était que le PO ne devrait pas faire la moyenne des trois mesures et utiliser la moyenne comme IV, mais utiliser les trois mesures comme IV et tenir compte de la dépendance entre les multiples mesures de chaque participant en utilisant des modèles mixtes. Veuillez reconsidérer votre vote négatif sur mes réponses et les autres.
Je serai heureux de revenir sur mon vote défavorable, mais laissez-moi voir si je comprends. Disons que nous voulons prédire un seul catégoriel $ y $ (sain / malade) par un ensemble d'observations de spirométrie $ \ mathbf {X} $ (volume d'air, pression, etc.). Je suppose que vous parlez d'un modèle de régression logistique (n'est-ce pas?), $ Y \ sim F (\ boldsymbol {\ beta} \ mathbf {X}) $. Maintenant, pour chaque participant, nous avons trois ensembles de mesures de spirométrie, $ \ mathbf {X} ^ {(i)} $ avec $ i $ de 1 à 3. Comment incluez-vous cela dans le glm? Je ne suis pas familier avec les modèles mixtes pour la classification, c'est pourquoi je me suis (probablement) confus. Si oui, je m'excuse.
(suite) J'ai oublié d'ajouter qu'au moment du test, nous voulons prédire $ y $ pour un nouveau patient en n'ayant qu'une seule instance de $ \ mathbf {X} $, pas trois.
Vous utiliseriez un modèle mixte linéaire généralisé. La fonction de liaison serait logistique, comme dans la régression logistique «ordinaire». Cependant, la forme fonctionnelle inclurait de multiples observations sur chaque participant, modélisées par un effet aléatoire, tout comme dans les modèles mixtes linéaires "ordinaires", $$ y \ sim F (X \ beta + Z \ gamma) $$. En R, vous pouvez adapter cela par glmer () dans le paquet lme4, en utilisant la famille binomiale: http://cran.rstudio.com/web/packages/lme4/lme4.pdf Et oui, pour la prédiction, vous pouvez utiliser un mesure unique.
Alors maintenant, vous incluez les trois mesures par sujet sous forme de lignes + un effet aléatoire du sujet: $ Z $ code l'identifiant du sujet, et $ \ gamma $ est un coefficient d'effet aléatoire - ai-je bien compris? Mais quand un nouveau sujet arrive, qu'utilisons-nous comme $ Z \ gamma $? Je suppose que sans aucune information à ce sujet, nous y mettons simplement 0 $, non? Donc, au moment du test, nous finissons par calculer $ F (X \ beta) $? Si c'est le cas, dites-vous que ce modèle se classera mieux qu'un simple modèle $ y \ sim F (X \ tilde \ beta) $ sans effet aléatoire? Y a-t-il une intuition pourquoi? Merci beaucoup.
Oui, exactement. Il est bien entendu difficile de dire si un modèle mixte prédit mieux qu'un modèle non mixte dans un contexte particulier. Le modèle mixte tient compte de la variabilité intra-individuelle. Si vous faites simplement la moyenne des trois points de données d'origine, vous perdez toute la variabilité entre les mesures, vous serez donc trop optimiste quant à votre capacité à prédire à partir d'une seule nouvelle observation. De plus, les modèles mixtes permettent de modéliser d'autres facteurs de regroupement, comme l'emplacement, ses caractéristiques démographiques spécifiques, son personnel, les caractéristiques des diagnostics, etc. Ils sont donc beaucoup plus généraux que la moyenne.
Je ne pense pas que je suggérerais de faire la moyenne, je mettrais simplement en commun les observations sans regrouper. Alors le problème d'être trop optimiste ne devrait pas se poser. Il serait très intéressant de voir des exemples de cas où un tel modèle fonctionnerait sensiblement différemment de ce que vous avez suggéré! Mais dans tous les cas, je vois maintenant que ma critique initiale était erronée, alors je supprime le ou les votes négatifs. Merci encore.
Je suis désolé, mais il s'avère que les votes ne peuvent être modifiés que pendant les 5 premières minutes, puis ils sont verrouillés à moins que la réponse ne soit mise à jour. Je n'étais pas au courant de ça. Je serais donc heureux de supprimer par vote négatif (et en fait par vote positif), mais vous devrez d'abord mettre à jour votre réponse. Si vous le souhaitez, vous pouvez par exemple ajoutez ce dont nous parlions dans les commentaires ...
J'ai mis la plupart de mes commentaires dans l'article original et j'ai également discuté de votre suggestion de simplement mettre toutes les observations dans le modèle.
FairMiles
2013-04-05 00:59:06 UTC
view on stackexchange narkive permalink

Les trois examens sont des points de données différents. Bien qu'ils ne soient clairement pas des observations indépendantes (ni aléatoires) de tous les examens possibles dans votre population d'intérêt, du moins pour toute analyse que je peux imaginer.

D'autres ont souligné que vous pourriez faites bien d'inclure ces points de données dans votre analyse (puisque vous les avez déjà), en tant que simples répliques au sein du patient [un plan imbriqué] ou en incluant «heure / visite» en tant que variable absolue (par exemple, date) ou relative (nombre de visites) d'intérêt [une forme de conception à mesures répétées], si intéressant. Je conviens qu'il s'agit du scénario le plus intéressant (et probable).

Cependant , il peut ne pas être nécessaire, payer pour une complexité accrue ou améliorer vos conclusions si vous ne s'intéressent qu'aux variables inter-sujets. Disons que vous ne vous souciez que des différences entre les hommes et les femmes, ou que vous souhaitiez expliquer le volume d'air en fonction de l'âge du patient. Puisque vous savez que vous ne pouvez pas correctement caractériser un patient en un seul coup (parce que le résultat des mesures est variable même pour le même patient au même moment), alors vous prenez plusieurs mesures et faites leur moyenne. Vous ne vous souciez pas de cette variation, c'est juste inévitable; vous voulez juste vous rapprocher le plus possible de la valeur «vraie» (moyenne) pour ce patient (à / pendant ce moment). Cette peut être l'analyse la plus raisonnable.

[Consultez cet article pour une bonne lecture sur la simplicité et la complexité dans les analyses statistiques.]

Merci pour le lien vers un joli papier, cela fait un très bon point!
D L Dahly
2013-04-05 20:43:11 UTC
view on stackexchange narkive permalink

Conformément aux autres réponses (non, ces observations ne sont certainement pas indépendantes, alors que faites-vous à ce sujet) ....

Mais voulez-vous utiliser ces informations pour prédire d'autres variables ? La plupart des suggestions jusqu'à présent semblent supposer que vous souhaitez utiliser la spirométrie comme variable dépendante, et donc la modélisation de l'erreur est plus simple (en utilisant un modèle à plusieurs niveaux). Si vous souhaitez plutôt utiliser les mesures de spirométrie comme variable indépendante, vous seriez bien servi en utilisant un modèle d'analyse factorielle confirmatoire avec les 3 mesures répétées modélisées comme des indicateurs d'une seule variable latente sous-jacente. La variance de la variable latente sous-jacente est celle partagée par les trois mesures, et donc un meilleur reflet de ce que vous recherchez vraiment (par rapport à la moyenne, par exemple).

Je ne suis pas sûr qu'une analyse factorielle serait utile ici: je suppose que OP voulait utiliser le classificateur pour classer la maladie à partir d'une seule mesure de spirométrie d'un nouveau patient, sans attendre de collecter trois mesures au préalable (vous ne pourriez donc pas appliquer FA sur les données de test réelles).
Aksakal
2014-03-06 21:58:44 UTC
view on stackexchange narkive permalink

les mesures peuvent être indépendantes ou non. si vous décrivez la valeur mesurée comme $ y_t = x_t + \ varepsilon_t $, où $ x_t $ - valeur vraie, et $ \ varepsilon_t $ - erreur de mesure, alors l'indépendance signifie que $ cov (\ varepsilon_t, \ varepsilon_ {ti}) = 0 $ pour tous les temps. cela peut être vrai ou non. si vous avez deux mesures l'une après l'autre, ce n'est probablement pas vrai. si deux mesures étaient séparées dans le temps mais effectuées, achetez à nouveau le même technicien, cela peut ne pas être vrai. etc.

d'autre part, il doit être possible de configurer la mesure de manière à ce que $ \ varepsilon_t $ soit indépendant l'un de l'autre et le $ x_t $.

Les $ y_t $ ne sont certainement pas indépendants via des corrélations $ x_t $, mais ce n'est pas ce que l'on entend par indépendance



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...