Question:
Signe de changement de coefficient lors de l'ajout d'une variable dans la régression logistique
Greg Snow
2013-12-17 03:13:02 UTC
view on stackexchange narkive permalink

En plus des liens vers le paradoxe de Simpson dans les commentaires, voici une autre façon d'y penser.

Imaginez un ensemble de données qui est collecté en comptant le nombre et les types de pièces que différentes personnes ont avec (J'utiliserai la devise américaine pour l'exemple, mais cela pourrait également être traduit dans d'autres devises).

Maintenant, nous créons 3 variables, la variable y est un indicateur pour savoir si le changement totalise plus de 1 dollar (\ 1,00 $), x1 est le nombre total de pièces et x2 est le nombre total de centimes (\ $ 0,01) et de nickels (\ $ 0,05) (ce sera un sous-ensemble de x1). Maintenant, si nous régressions individuellement, nous nous attendrions à ce que x1 et x2 aient des coefficients positifs, plus il y a de pièces, plus le total est probablement supérieur à \ $ ​​1. Mais s'il est mis ensemble dans un modèle de régression, il est logique que le coefficient sur x2 devienne négatif, rappelez-vous que la définition du coefficient individuel est le changement de y (ou dans le cas logistique, le changement du log des cotes de y) pour un 1 changement d'unité en x tout en maintenant les autres variables constantes . Donc, si nous avons le même nombre de pièces totales (x1) mais que nous augmentons le nombre de pièces de petite valeur (x2), nous avons moins de pièces de grande valeur et donc une moindre chance de totaliser plus de \ $ 1.

Cinq réponses:
aruna r
2014-09-26 02:49:50 UTC
view on stackexchange narkive permalink

Dans ma régression logistique, le signe des coefficients d'une variable (distance de localisation d'un équipement) change en fonction d'autres variables (avec le temps -ve, avec la distance de déplacement + ve) dans le modèle. Lorsque la distance d'emplacement est la seule variable du modèle, elle a le signe + ve.

  • La variable doit-elle conserver le signe + ve quelles que soient les autres variables ajoutées au modèle?
  • Le changement de signe signifie-t-il un problème de multicolinéarité? Certains IV gagnent en importance alors que dans un modèle bivarié, ils n'ont pas montré de signification et vice versa.
  • Est-il correct d'ajouter des variables qui n'ont pas beaucoup de signification (ex: la distance de déplacement a une signification de 0,33 individuellement, mais 0,05 lorsqu'il est ajouté avec d'autres variables) mais devient significatif dans le modèle? Merci.
J'arrive pour la même raison que cela se produit dans la régression multiple ordinaire. Voir le diagramme [ici] (http://en.wikipedia.org/wiki/Simpson%27s_paradox). Il y aura une certaine colinéarité entre les variables, mais elle peut être assez modérée.
Le paradoxe de Simpson est expliqué ici. http://stats.stackexchange.com/questions/78255/how-to-resolve-simpsons-paradox
Vous avez inclus la balise `[multivariate-regression]` & indiquez "Je l'ai entrée dans une régression multivariée". Voulez-vous dire que vous réexécutez le modèle avec> 1 variable prédictive, ou que vous réexécutez le modèle avec> 1 réponse / modèle dépendant? Notez que> 1 * prédicteur *, mais seulement 1 * variable de réponse * est ** régression logistique multiple **. * Multivarié * LR est lorsqu'il y a> 1 variable de réponse. Si votre situation est en fait la première (ce que je soupçonne), veuillez modifier pour clarifier et changer la balise.
Si votre situation est multiple LR, alors Simpson's Paradox est ce qui se passe. Pour aider à comprendre l'idée de l'inclusion / exclusion d'une variable confondante changeant le signe d'une variable focale, cela peut vous aider à lire ma réponse ici: [Y a-t-il une différence entre 'contrôler' et 'ignorer' d'autres variables dans plusieurs regression?] (http://stats.stackexchange.com/questions/78828//78830#78830) Bien que cette réponse soit centrée sur une question différente, et écrite dans le contexte de la régression linéaire, elle illustre la confusion d'une manière qui peut le rendre intuitivement accessible.
voir [Le paradoxe de Simpson] (https://en.wikipedia.org/wiki/Simpson%27s_paradox)
Masato Nakazawa
2014-09-26 20:13:06 UTC
view on stackexchange narkive permalink

Les prédicteurs changent leurs signes en présence d'autres personnes dans un modèle. Je pense que vous voyez un cas particulier de «suppression». Laissez-moi vous expliquer en utilisant des corrélations (ce principe devrait être applicable à la régression logistique). Supposons que vous essayez de prédire l'étendue des dommages causés par le feu à une maison ($ Y $) à partir de la gravité de l'incendie ($ X_1 $) et du nombre de pompiers envoyés pour éteindre le feu ($ X_2 $). Supposons que $ r_ {YX_1} = 0,65, \: r_ {YX_2} = 0,25, \: r_ {X_1X_2} = 0,70 $. Ensuite, si vous calculez des corrélations semi-partielles,

$ r_ {Y (X_1X_2)} = \ displaystyle \ frac {0,65-0,25 * 0,70} {\ sqrt {1-0,70 ^ 2}} = 0,67 , \: r_ {Y (X_2X_1)} = \ displaystyle \ frac {0,25-0,65 * 0,70} {\ sqrt {1-0,70 ^ 2}} = -0,29 $

C'est un cas de suppression (bien que très faible) parce que $ X_2 $ a supprimé la variance non prise en compte de $ X_1 $, ce qui donne $ r_ {Y (X_1X_2)} > r_ {YX_1} $. De plus, la corrélation semi-partielle de $ X_2 $ ($ r_ {Y (X_2X_1)} $) a changé de signe car sa corrélation positive avec Y était principalement due à sa grande corrélation positive avec $ X_1 $. D'un point de vue conceptuel, cela a du sens: si la gravité du feu est maintenue constante, l'envoi de plus de pompiers devrait entraîner moins de dégâts dans une maison (Messick & Van de Geer, 1981).

Dans votre cas, vous devez vous demander s'il est logique que, tout en maintenant la variable de temps constante, la distance de localisation d'un équipement soit liée négativement à la variable dépendante. Je suggère également quelques bons articles sur ce problème dans la validation croisée

En répondant à vos autres questions, je ne pense pas que vos données souffrent de multicolinéarité; sinon, tous les prédicteurs devraient afficher des erreurs standard gonflées et des valeurs p inférieures. Enfin, bien sûr, vous pouvez ajouter la variable de distance de déplacement au modèle car il semble que sa véritable relation ait été masquée par une variance non pertinente (qui a été «supprimée» par d'autres prédicteurs).

C'est vraiment à la hauteur des questions originales auxquelles vous tentiez de répondre en concevant votre étude.

Référence

Messick, D.M. & Van de Geer, J.P. "Un paradoxe d'inversion." Bulletin psychologique 90.3 (1981): 582.

Glen_b
2014-09-27 20:52:39 UTC
view on stackexchange narkive permalink

Dans ma régression logistique, le signe des coefficients d'une variable (distance de localisation d'un agrément) change en fonction d'autres variables (avec le temps -ve, avec la distance de déplacement + ve) dans le modèle. Lorsque la distance de localisation est la seule variable du modèle, elle a le signe + ve.

Ce n'est pas surprenant. Cela se produit également dans la régression ordinaire. Voir l'exemple dans l'image ici

La variable doit-elle conserver le signe + ve, quelles que soient les autres variables ajoutées au modèle?

Je ne vois pas pourquoi cela serait le cas.

Le changement de signe signifie-t-il un problème de multicolinéarité?

Pas nécessairement multicollinéarité; cela peut se produire avec une non-orthogonalité assez ordinaire.

Certains IV gagnent en importance alors que dans un modèle bivarié, ils n'ont pas montré de signification et vice versa.

Bien sûr, également courant.

Peut-on ajouter des variables qui n'ont pas beaucoup de signification (ex: la distance parcourue a une signification de 0,33 individuellement, mais de 0,05 lorsqu'elle est ajoutée avec d'autres variables) mais devient significatif dans le modèle?

Bien sûr. Vous pouvez également ajouter des variables qui ne sont pas significatives dans les deux cas (bien que si vous en jetez un grand nombre, cela peut causer des problèmes. Cependant, il semble que vous fassiez une sélection de variables; soyez très prudent lorsque vous interprétez les valeurs p / testez les statistiques lorsque vous faites cela.

Dimitriy V. Masterov
2014-09-26 22:42:17 UTC
view on stackexchange narkive permalink

Je pense que cela peut être un cas de ceteris paribus confusion. Lorsque la distance parcourue est la seule variable, l'effet sur le résultat est positif. Si le résultat est un achat, cela peut s'expliquer par le fait que lorsqu'un agent habite loin, un voyage au magasin coûte plus cher, il est donc plus susceptible de s'approvisionner s'il est déjà là. Les gens qui vivent loin remplissent complètement leur charrette, mais font moins de déplacements que les gens qui vivent plus près. Je parierais des dollars sur des beignets, c'est aussi ce que vous trouveriez si vous utilisiez uniquement le temps de trajet dans le modèle comme mesure du coût.

Lorsque vous avez à la fois la distance et le temps de trajet dans le modèle, le signe du coefficient de distance vous donne le signe de l'effet maintien du temps de trajet fixe. Lorsque la distance s'allonge, mais le temps de parcours reste constant, l'effet devient négatif. Comment la distance peut-elle s'allonger, mais le temps de trajet reste le même? Si la vitesse de déplacement sur route devenait plus rapide, peut-être parce que c'était une autoroute avec une limite de vitesse plus élevée. La comparaison que vous faites maintenant lorsque les deux variables sont dans le modèle est entre deux personnes identiques qui vivent toutes les deux $ X $ minutes d'un magasin, mais l'une habite plus loin et prend une autoroute pour s'y rendre. Cet agent est moins susceptible de faire un achat, peut-être parce qu'il est plus facile de voyager sur l'autoroute que de prendre les routes locales avec de l'essence, ou peut-être que c'est la route qu'il utilise pour se rendre au travail et qu'il passe devant le magasin sur le chemin du retour (un type de variable omise dans votre modèle).

Pour résumer, lorsque les régresseurs sont différents, les coefficients correspondent à différentes comparaisons d'expériences de pensée et l'interprétation change en conséquence. Les signes changeants n'indiquent pas nécessairement une multicolinéarité. La sélection des variables doit être guidée par la théorie, une réflexion approfondie et vos objectifs ultimes.

Bien que j'apprécie la pensée qui y est allée, -1 à cause de "Lorsque la distance parcourue est la seule variable, l'effet sur le résultat est positif."Le PO, j'ai remarqué, a pris soin d'utiliser un langage qui évite l'attribution inappropriée de causalité.
@rolando2 Je suis d'accord pour dire qu'il faut se méfier des données d'observation, mais pourquoi quelqu'un se préoccuperait-il des signes s'il n'espérait pas tirer des conclusions causales?
Ce que je veux dire, c'est que, comme vous le savez sûrement, «l'effet sur le résultat», s'il était déterminé, serait une chose du monde réel et ne changerait jamais selon la façon dont nous le modélisons.Ce que le modèle montre est un coefficient, une association statistique, ... peut-être "un effet apparent"?
Maarten Buis
2014-09-26 13:32:18 UTC
view on stackexchange narkive permalink

Rien de ce que vous avez dit ne m'indique qu'il y a un problème avec vos modèles: ce sont tous de bonnes réponses à différentes questions. C'est à vous de décider à quelle question vous voulez répondre, et donc quel modèle vous souhaitez signaler.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...