Voici un exemple de ce que j'entends par "résultat conditionné par la covariable".
Je veux faire une régression linéaire. J'ai un résultat continu et je le régresse sur une variable binaire. Cela équivaut à un test t, mais faisons comme si nous ne le savons pas.
La plupart des gens regardent la distribution des données sans condition sur le résultat . Cela équivaut à tracer l'histogramme de la variable de résultat. Regardons ça maintenant
Ew, dégoûtant, c'est bimodal. La régression linéaire suppose que le résultat est normalement distribué, non? Nous ne pouvons pas utiliser de régression linéaire là-dessus!
... ou pouvons-nous? Voici la sortie d'un modèle linéaire adapté à ces données.
Appel:
lm (formule = y ~ x, données = d)
Résidus:
Min 1Q Médiane 3Q Max
-7,3821 -1,7504 -0,0194 1,7190 7,8183
Coefficients:
Estimer Std. Erreur t valeur Pr (> | t |)
(Interception) 9,8994 0,1111 89,13 <2e-16 ***
x 12,0931 0,1588 76,14 <2e-16 ***
---
Signif. codes: 0 «***» 0,001 «**» 0,01 «*» 0,05 «.» 0,1 «» 1
Erreur standard résiduelle: 2,511 sur 998 degrés de liberté
R carré multiple: 0,8531, R carré ajusté: 0,853
Statistique F: 5797 sur 1 et 998 DF, valeur p: < 2.2e-16
Un ajustement incroyablement bon. Alors qu'est-ce qui donne?
Le graphique ci-dessus est le résultat marginal. La régression, qu'elle soit linéaire ou non, ne se soucie que du résultat conditionnel ; la distribution du résultat conditionnée aux covariables. Voyons ce qui se passe lorsque je colorie les observations par la variable binaire.
Vous pouvez voir ici que les données conditionnées au résultat sont normales et s'inscrivent donc dans les hypothèses de la régression linéaire.
Donc, quand je dis "pensez au résultat conditionné par les covariables", ce que je vous demande vraiment de faire est de penser à un ensemble particulier de covariables et de réfléchir à la distribution des résultats de ces covariables.Cela déterminera la famille.