Dichotomiser les variables continues à leur seuil optimal pour l'interprétation clinique

Paze

2020-01-14 02:58:46 UTC

view on stackexchange narkive permalink

Dans le contexte médical, lors de la présentation des résultats d'un résultat binaire avec un prédicteur continu, le OR (odds ratio) peut être difficile à interpréter.

Exemple:

Un médecin mène une étude dans laquelle il souhaite voir si une pression artérielle élevée (continue) peut potentiellement augmenter le risque de crise cardiaque (crise cardiaque binaire non / oui).

Il le fait en examinant rétrospectivement les dossiers des patients et en notant s'ils ont eu une crise cardiaque ou non et quelle était leur tension artérielle.

Il effectue une régression logistique avec la variable de pression artérielle continue et obtient un OR de 1,01.

La question est maintenant. Cette RO ne semble pas très drastique et peut être difficile à comprendre pour certains cliniciens. Le médecin fait donc une analyse ROC pour voir à quelle valeur la sensibilité et la spécificité de la pression artérielle sont les plus élevées pour prédire une crise cardiaque. Il remarque que c'est à 150 mmHg (ignorez le contexte, supposons que c'est la meilleure valeur pour ses besoins).

Il régresse à nouveau, avec des crises cardiaques et la nouvelle TA dichotomisée au-dessus ou en dessous de 150 mmHg et obtient un OR de 5.

C'est beaucoup plus facile à comprendre pour les cliniciens. Si votre tension artérielle est supérieure à 150 mmHg, vos chances d'avoir une crise cardiaque augmentent de 5 fois (cela ne veut bien sûr pas dire que votre probabilité augmente de 5 fois).

Ma question est la suivante: est-ce que ce serait une manière correcte de traiter ces données? Connaissant les statistiques, il y a presque toujours des écueils aux moindres ajustements, donc je veux entendre votre avis.

Je devrais dire que je comprends les problèmes liés à la dichotomisation des données continues, par exemple il prétend que la différence passe de l'absence de risque à un risque massif de 1 mmHg à l'autre, mais s'il devait relayer certaines informations à ses pairs de ses découvertes de manière digestible, serait-ce possible?

Merci James, cela signifie beaucoup pour moi.Je suis étudiant en médecine dans les derniers tronçons de la faculté de médecine et j'ai fait de mon mieux pour comprendre les statistiques au cours de la dernière année, car je ressens définitivement un grand fossé entre les statisticiens et les étudiants en médecine (et les médecins d'ailleurs),mon objectif est donc d'essayer de combler une partie du fossé des connaissances pour pouvoir travailler plus efficacement avec les statisticiens au cours de mes recherches.Cela signifie également que mes questions sont très aléatoires car mes connaissances sont malheureusement très limitées par rapport aux étudiants en statistiques / mathématiques.

Cela dit, cette communauté a été absolument inestimable et continue de l'être pour mes progrès.

Votre classificateur essaie d'apprendre une transformation fortement non linéaire d'une entrée continue, alors pourquoi pensez-vous que la régression logistique est un bon choix?D'autres algorithmes (par exemple basés sur des arbres) peuvent apprendre automatiquement le seuil.Ou bien vous pouvez caractériser la pression artérielle dans plusieurs bacs (mais plus de granularité que la dichotomisation).Ne vous dichotomisez pas à un certain seuil estimé.(Btw, la valeur seuil elle-même pourrait varier en fonction d'autres variables, par exemple l'âge, le sexe, l'origine ethnique, le poids)