Question:
Comment choisir "famille" dans le modèle additif généralisé (GAM)
T X
2019-03-18 08:46:13 UTC
view on stackexchange narkive permalink

Lors de la modélisation d'un modèle GAM en utilisant mgcv dans R, nous devons définir la family = .J'ai essayé certaines familles (par exemple, Gaussian, Gamma), R semble les construire toutes avec succès.Y a-t-il des guildes sur la façon de choisir la «famille» appropriée?

Il faut penser à la distribution du résultat conditionnée par les covariables.Donc, si vous modélisez le poids en fonction de la taille, quelle est la répartition du poids pour les personnes de 6 pieds?Cela déterminera la famille.
@DemetriPananos J'utilise le package "fitdistrplus" (fonction "descdist") pour examiner la distribution la plus possible de la variable de réponse.Cette méthode est-elle appropriée?Je pense qu'il ne prend pas en compte «... conditionné par les covariables».
L'utilisation de fitdistplus n'est pas la méthode appropriée.Lorsque vous utilisez fitdistplus, vous ajustez la distribution marginale du résultat (c'est-à-dire la distribution du résultat sans tenir compte des covariables).Si vous modélisez le poids en fonction de la taille et du sexe, considérez la répartition du poids pour tous les hommes de 6 pieds de haut.C'est la distribution du résultat conditionnée par des covariables.
Un répondre:
Demetri Pananos
2019-03-20 20:51:25 UTC
view on stackexchange narkive permalink

Voici un exemple de ce que j'entends par "résultat conditionné par la covariable".

Je veux faire une régression linéaire. J'ai un résultat continu et je le régresse sur une variable binaire. Cela équivaut à un test t, mais faisons comme si nous ne le savons pas.

La plupart des gens regardent la distribution des données sans condition sur le résultat . Cela équivaut à tracer l'histogramme de la variable de résultat. Regardons ça maintenant

enter image description here

Ew, dégoûtant, c'est bimodal. La régression linéaire suppose que le résultat est normalement distribué, non? Nous ne pouvons pas utiliser de régression linéaire là-dessus!

... ou pouvons-nous? Voici la sortie d'un modèle linéaire adapté à ces données.

  Appel:
lm (formule = y ~ x, données = d)

Résidus:
    Min 1Q Médiane 3Q Max
-7,3821 -1,7504 -0,0194 1,7190 7,8183

Coefficients:
            Estimer Std. Erreur t valeur Pr (> | t |)
(Interception) 9,8994 0,1111 89,13 <2e-16 ***
x 12,0931 0,1588 76,14 <2e-16 ***
---
Signif. codes: 0 «***» 0,001 «**» 0,01 «*» 0,05 «.» 0,1 «» 1

Erreur standard résiduelle: 2,511 sur 998 degrés de liberté
R carré multiple: 0,8531, R carré ajusté: 0,853
Statistique F: 5797 sur 1 et 998 DF, valeur p: < 2.2e-16
 

Un ajustement incroyablement bon. Alors qu'est-ce qui donne?

Le graphique ci-dessus est le résultat marginal. La régression, qu'elle soit linéaire ou non, ne se soucie que du résultat conditionnel ; la distribution du résultat conditionnée aux covariables. Voyons ce qui se passe lorsque je colorie les observations par la variable binaire.

enter image description here

Vous pouvez voir ici que les données conditionnées au résultat sont normales et s'inscrivent donc dans les hypothèses de la régression linéaire.

Donc, quand je dis "pensez au résultat conditionné par les covariables", ce que je vous demande vraiment de faire est de penser à un ensemble particulier de covariables et de réfléchir à la distribution des résultats de ces covariables.Cela déterminera la famille.

Maintenant je comprends votre sens.Une question «pratique»: comment penser la distribution conditionnelle de Y?Par exemple, s'il existe de nombreuses covariables (X1, X2, ..., X10), y a-t-il un moyen de déterminer la distribution de Y étant donné X?J'ai remarqué que dans "https://stats.stackexchange.com/questions/190763/how-to-decide-which-glm-family-to-use", Tim a dit: "Si vous avez affaire à un résultat non négatif continu,alors vous pourriez considérer la distribution gamma, ou distribution gaussienne inverse. "Cela ne semble pas considérer le "X1, ..., X10", car il recommande la distribution quand on voit Y non négatif.
Vous devez utiliser certaines de vos connaissances de base sur le problème.Il n'y a aucun moyen de déterminer à partir des données la famille la plus appropriée.
Je suis moi-même un peu novice mais cela me déroute beaucoup ... pourquoi dites-vous que la régression linéaire suppose une distribution normale?Je veux dire, vous semblez suggérer que nous sommes heureux parce que les données conditionnées au résultat sont normales.Pourquoi est-ce important pour la régression linéaire?Je ne sais jamais vraiment pourquoi les statisticiens disent que l'ajustement d'un modèle suppose en fait quelque chose au sujet des données.Le modèle n'est-il pas juste un modèle (bien que sa performance dépendra bien sûr des caractéristiques des données, mais cela ne repose pas sur une `` hypothèse '')
@T_M Les inférences du modèle sont faites sous l'hypothèse que les données sont normales.La validité de ces inférences repose sur cette hypothèse.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...