En plus des liens vers le paradoxe de Simpson dans les commentaires, voici une autre façon d'y penser.
Imaginez un ensemble de données qui est collecté en comptant le nombre et les types de pièces que différentes personnes ont avec (J'utiliserai la devise américaine pour l'exemple, mais cela pourrait également être traduit dans d'autres devises).
Maintenant, nous créons 3 variables, la variable y est un indicateur pour savoir si le changement totalise plus de 1 dollar (\ 1,00 $), x1 est le nombre total de pièces et x2 est le nombre total de centimes (\ $ 0,01) et de nickels (\ $ 0,05) (ce sera un sous-ensemble de x1). Maintenant, si nous régressions individuellement, nous nous attendrions à ce que x1 et x2 aient des coefficients positifs, plus il y a de pièces, plus le total est probablement supérieur à \ $ 1. Mais s'il est mis ensemble dans un modèle de régression, il est logique que le coefficient sur x2 devienne négatif, rappelez-vous que la définition du coefficient individuel est le changement de y (ou dans le cas logistique, le changement du log des cotes de y) pour un 1 changement d'unité en x tout en maintenant les autres variables constantes . Donc, si nous avons le même nombre de pièces totales (x1) mais que nous augmentons le nombre de pièces de petite valeur (x2), nous avons moins de pièces de grande valeur et donc une moindre chance de totaliser plus de \ $ 1.