Question:
Dichotomiser les variables continues à leur seuil optimal pour l'interprétation clinique
Paze
2020-01-14 02:58:46 UTC
view on stackexchange narkive permalink

Dans le contexte médical, lors de la présentation des résultats d'un résultat binaire avec un prédicteur continu, le OR (odds ratio) peut être difficile à interpréter.

Exemple:

Un médecin mène une étude dans laquelle il souhaite voir si une pression artérielle élevée (continue) peut potentiellement augmenter le risque de crise cardiaque (crise cardiaque binaire non / oui).

Il le fait en examinant rétrospectivement les dossiers des patients et en notant s'ils ont eu une crise cardiaque ou non et quelle était leur tension artérielle.

Il effectue une régression logistique avec la variable de pression artérielle continue et obtient un OR de 1,01.

La question est maintenant. Cette RO ne semble pas très drastique et peut être difficile à comprendre pour certains cliniciens. Le médecin fait donc une analyse ROC pour voir à quelle valeur la sensibilité et la spécificité de la pression artérielle sont les plus élevées pour prédire une crise cardiaque. Il remarque que c'est à 150 mmHg (ignorez le contexte, supposons que c'est la meilleure valeur pour ses besoins).

Il régresse à nouveau, avec des crises cardiaques et la nouvelle TA dichotomisée au-dessus ou en dessous de 150 mmHg et obtient un OR de 5.

C'est beaucoup plus facile à comprendre pour les cliniciens. Si votre tension artérielle est supérieure à 150 mmHg, vos chances d'avoir une crise cardiaque augmentent de 5 fois (cela ne veut bien sûr pas dire que votre probabilité augmente de 5 fois).

Ma question est la suivante: est-ce que ce serait une manière correcte de traiter ces données? Connaissant les statistiques, il y a presque toujours des écueils aux moindres ajustements, donc je veux entendre votre avis.

Je devrais dire que je comprends les problèmes liés à la dichotomisation des données continues, par exemple il prétend que la différence passe de l'absence de risque à un risque massif de 1 mmHg à l'autre, mais s'il devait relayer certaines informations à ses pairs de ses découvertes de manière digestible, serait-ce possible?

Merci James, cela signifie beaucoup pour moi.Je suis étudiant en médecine dans les derniers tronçons de la faculté de médecine et j'ai fait de mon mieux pour comprendre les statistiques au cours de la dernière année, car je ressens définitivement un grand fossé entre les statisticiens et les étudiants en médecine (et les médecins d'ailleurs),mon objectif est donc d'essayer de combler une partie du fossé des connaissances pour pouvoir travailler plus efficacement avec les statisticiens au cours de mes recherches.Cela signifie également que mes questions sont très aléatoires car mes connaissances sont malheureusement très limitées par rapport aux étudiants en statistiques / mathématiques.
Cela dit, cette communauté a été absolument inestimable et continue de l'être pour mes progrès.
Votre classificateur essaie d'apprendre une transformation fortement non linéaire d'une entrée continue, alors pourquoi pensez-vous que la régression logistique est un bon choix?D'autres algorithmes (par exemple basés sur des arbres) peuvent apprendre automatiquement le seuil.Ou bien vous pouvez caractériser la pression artérielle dans plusieurs bacs (mais plus de granularité que la dichotomisation).Ne vous dichotomisez pas à un certain seuil estimé.(Btw, la valeur seuil elle-même pourrait varier en fonction d'autres variables, par exemple l'âge, le sexe, l'origine ethnique, le poids)
Quatre réponses:
Demetri Pananos
2020-01-14 05:51:41 UTC
view on stackexchange narkive permalink

La dichotomisation d'une covariable continue est peu judicieuse, comme l'ont noté d'autres utilisateurs.

Une stratégie que j'emploie est de redimensionner le prédicteur à quelque chose de plus raisonnable.1 mmHg peut ne pas être une échelle très significative sur laquelle interpréter les changements de PA.Mais, si vous redimensionnez le prédicteur de sorte qu'une différence de 1 unité représente disons une différence de 10 mmHg alors les choses deviennent un peu plus faciles à digérer et le rapport de cotes sera plus appréciable et aura l'interprétation suivante

Pour chaque augmentation de 10 mmHg de la pression artérielle, la probabilité d'IM augmente d'un facteur $ \ exp (\ beta) $ .

+1 Je suis d'accord avec cela * tellement *!(La dichotomisation sacrifie le pouvoir et crée un biais.) J'ajouterais simplement que l'on peut produire des contrastes de probabilité ou de risque pour deux valeurs quelconques d'une variable continue que l'on se soucie d'examiner à partir d'un modèle de résultat par rapport à un prédicteur continu sans avoir besoin de la dichotomiser.
Tomas Bencomo
2020-01-14 05:38:00 UTC
view on stackexchange narkive permalink

Semblable à la réponse d'EdM, un graphique des effets marginaux est un moyen utile de montrer la relation entre une mesure clinique et le résultat tout en maintenant les autres variables constantes. Ces graphiques sont utiles car ils montrent la relation entre le prédicteur et le résultat, donc si le résultat n'est pas linéaire, les médecins peuvent facilement le voir et l'interpréter de manière appropriée. Voici un exemple du livre de Frank Harrell Regression Modeling Strategies

Une des préoccupations liées à la dichotomisation de la variable de pression artérielle et à l'inférence est que vous avez supposé que tous les patients dont la tension artérielle est inférieure à 150 mmHg courent le même risque en raison de leur tension artérielle, ce que je ne crois pas être vrai. Je ne pense pas qu'il y ait de biologie derrière l'hypothèse qu'une fois que la pression artérielle d'un patient dépasse 150 mmHg, il devient comme par magie plus à risque de crise cardiaque. Il est plus probable que de petites augmentations de la pression artérielle entraînent de légères augmentations du risque.

Des hypothèses incorrectes comme celle-ci peuvent invalider l'inférence car le modèle n'est plus correct. Des modèles incorrects conduiront à des inférences invalides et à des valeurs p incorrectes, il est donc essentiel de définir le modèle pour qu'il corresponde le mieux à ce qui est biologiquement plausible. Cela signifie traiter la tension artérielle comme continue au lieu de la dichotomiser.

EdM
2020-01-14 04:36:58 UTC
view on stackexchange narkive permalink

Pour la digestibilité, utilisez des exemples de situations représentatives: dans votre exemple, comparez peut-être les risques à une PA de 160 et à une PA de 120.

Pour une approche qui peut prendre en compte les multiples prédicteurs généralement importants dans les études cliniques, utilisez un nomogramme. Il fournit un outil graphique pour montrer comment les valeurs des prédicteurs affectent les résultats. Le rms package de R fournit des outils pour construire des nomogrammes à partir de modèles de régression ajustés.

Cette approche particulière que vous proposez:

Le médecin effectue donc une analyse ROC pour voir à quelle valeur la sensibilité et la spécificité de la pression artérielle sont les plus élevées pour prédire une crise cardiaque. Il remarque que c'est à 150 mmHg ... Il régresse à nouveau, avec des crises cardiaques et la nouvelle TA dichotomisée au-dessus ou en dessous de 150 mmHg et obtient un OR de 5

n'est pas judicieux pour des raisons autres que les problèmes généraux de dichotomisation que vous reconnaissez. D'une part, l'utilisation de la sensibilité et de la spécificité a tendance à impliquer une hypothèse cachée selon laquelle les classifications faux-positif et faux-négatif ont les mêmes coûts. D'autre part, une fois que vous avez utilisé les données pour définir le seuil, les hypothèses sous-jacentes aux calculs de la valeur de p et de l'intervalle de confiance ne sont plus valables.

Merci pour votre réponse.Je voudrais en aborder certaines parties: "D'une part, l'utilisation de la sensibilité et de la spécificité tend à impliquer une hypothèse cachée selon laquelle les classifications faux-positifs et faux-négatifs ont les mêmes coûts." Je veux juste être sûr, n'est-ce pas ce que j'ai abordé avec ceci: "(ignorez le contexte, supposons que c'est la meilleure valeur pour ses besoins)."Il a été fait dans une édition, donc je m'excuse si vous avez répondu pendant que j'étais en train de modifier.
La prochaine chose que je veux discuter est: "Pour un autre, une fois que vous utilisez les données pour définir le seuil, les hypothèses sous-jacentes aux calculs de la valeur p et de l'intervalle de confiance ne sont plus valables." Je comprends cela dans la plupart des exemples de dragage de données, mais dans ce cas, les données nous ont donné la réponse et nous voulions mieux comprendre la réponse, pas proposer de nouvelles hypothèses.Cette ligne est-elle toujours vraie?
Les réponses @Paze doivent être complètes pour les visiteurs ultérieurs du site, pas seulement l'affiche originale, d'où la prudence concernant la sensibilité, etc. Pour la dichotomisation, les estimations ponctuelles des effets peuvent être trompeuses sans intervalles de confiance.Pour les intervalles de confiance, vous avez besoin d'une inférence fiable, de sorte que les problèmes liés à l'utilisation des données pour choisir les seuils restent un obstacle.Avec les relations non linéaires entre les prédicteurs linéaires et les rapports de cotes ou de risques dans les régressions logistiques ou de Cox, il y a aussi la question de savoir quel type de moyenne les estimations basées sur la dichotomie représentent.
Peter Flom
2020-01-14 18:53:18 UTC
view on stackexchange narkive permalink

Un autre problème est que la relation entre l'IV et la DV (ici, BP et risque de crise cardiaque) peut ne pas être linéaire.Je pense que ce genre de non-linéarité serait assez courant dans les domaines médicaux.En effet, cela est parfois donné comme raison de catégoriser la variable continue (quoique en plus de deux catégories).Mais ce n'est pas bon.Une meilleure méthode consiste à utiliser une spline de l'IV.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...