Question:
Valeur r-carré acceptable pour le modèle de régression linéaire multiple
Steffi
2011-08-21 20:25:18 UTC
view on stackexchange narkive permalink

Je travaille actuellement sur ma thèse, plus précisément j'analyse certaines données collectées auprès des chercheurs sur les projets sur lesquels ils travaillent.

Au final, j'ai effectué une régression linéaire multiple pour vérifier quels déterminants (budget, taille de l'équipe, ...) influencent significativement l'impact externe d'un projet de recherche. Alors que la variable dépendante (impact du projet) a été évaluée à partir d'une enquête (menée auprès des chercheurs de l'institut), les variables indépendantes sont basées sur des mesures objectives.

Dans un tel scénario, que serait pourcentage r carré acceptable? Un faible pourcentage pourrait-il être justifié par la «subjectivité» de la variable dépendante? J'ai entendu dire que le domaine scientifique compte ... c'est-à-dire qu'en physique il faut plutôt avoir un r-carré> 95% alors qu'en sociologie> 5% pourrait être déjà intéressant ...

Avez-vous des références à ce sujet?

(1) Vous pourriez trouver [R-carré: utile ou dangereux?] (Http://stats.stackexchange.com/q/13314) informatif. (2) En ce qui concerne l'expression "influencer de manière significative", vous devriez également lire certains des fils trouvés en recherchant sur ce site "causalité", y compris [Statistiques et inférence causale?] (Http://stats.stackexchange.com/q/ 2245).
@whuber: (+1) cette question est née sur math.SE, et j'ai pointé l'OP vers la même question que vous avez liée. Je pense que cela a entraîné la suppression de la question là-bas et le déménagement ici.
Six réponses:
#1
+12
Frank Harrell
2011-08-21 22:04:19 UTC
view on stackexchange narkive permalink

Il n'y a pas d'absolus. Différents problèmes ont des difficultés différentes. La seule chose qui ferait rejeter un certain $ R ^ 2 $ est une autre approche obtenant un $ R ^ 2 $ beaucoup plus gros à partir du même jeu de données, en utilisant un modèle pré-spécifié ou corrigé par sur-ajustement.

#2
+9
rolando2
2011-08-21 23:02:31 UTC
view on stackexchange narkive permalink

Le fait que votre variable de résultat soit subjective suggère qu'elle sera mesurée avec une fiabilité assez imparfaite. Plus la fiabilité est faible, plus les corrélations avec d'autres variables auront tendance à être atténuées, il faut donc abaisser ses normes.

Je vais essayer de vous donner une réaction plus concrète. Ne connaissant que la petite quantité que je connais, je suppose qu'un RSQ proche de 0,35 me rendrait très intéressé en tant que critique ou autre lecteur, et assez bien impressionné par le pouvoir explicatif de ce modèle; celui-là près de 0,20 m'intéresserait légèrement; et celui près de .10 semblerait à la frontière entre l'indication d'un modèle utile et inutile.

alors ... mon r ^ 2 d'environ 0,38 serait bien alors :) btw, avez-vous des papiers à portée de main qui indiquent en quelque sorte qu'un tel r ^ 2 pourrait convenir au type d'étude que je mène ?? C'est juste que je pourrais faire référence à quelque chose d '"officiel"
Je ne le fais pas, mais comme le suggère @Frank Harrell, il n'y a pas beaucoup de besoin ou d'utilisation pour l'imprimeur de quiconque disant "ce rsq est suffisant. Normalement, il y a beaucoup plus à accomplir avec une telle recherche, comme l'estimation des coefficients, la spécification des erreurs standard d'estimation, etc.
#3
+3
Dave Owen
2011-08-22 21:00:03 UTC
view on stackexchange narkive permalink

Je suppose que votre variable dépendante est une sorte de score discret de style Likert. Si tel est le cas, je m'assurerais simplement que le R-carré n'était pas proche des extrêmes et je mettrais plus d'attention sur vos coefficients de régression.

Au fait, quel type de modèle de régression avez-vous utilisé? Les moindres carrés ordinaires peuvent être désapprouvés pour la présentation des résultats finaux, mais peuvent fournir un bon premier indicateur d'une relation. Pour un dernier article, j'irais avec un probit ou un logit ordonné. Vous voulez être très clair sur la distribution que vous imposez à la variable dépendante - par exemple, l'utilisation des moindres carrés suppose que les nombres sur l'échelle sont équidistants, alors qu'en réalité les gens sont assez incohérents lorsqu'ils fournissent des scores subjectifs.

Juste pour clarifier: je n'utiliserais pas OLS pour une variable dépendante discrète et ordonnée. C'est bien dans de nombreuses autres applications.
Bienvenue sur notre site, Dave! Merci d'avoir pris en compte vos pensées.
#4
+2
Sympa
2011-08-21 22:47:33 UTC
view on stackexchange narkive permalink

Comme vous, j'ai souvent entendu dire qu'en sociologie un carré R de 0,05 est acceptable. Je me demande parfois si cela peut vraiment être correct, ou est-ce que cela reflète la rigueur scientifique terne au sein de la sociologie (du moins sur la base de cette référence). Accordé un carré R de 0,05 correspond à un niveau R absolu de 0,22 qui semblerait vous dire quelque chose.

Cependant, avant de me mettre à l'aise avec un R Square aussi bas, je ferais plusieurs choses. Exécutez votre modèle en utilisant différents ensembles de données. Utilisez des points de données suspendus dans vos données et voyez dans quelle mesure votre modèle prédit la variable dépendante. En d'autres termes, les résultats de votre modèle peuvent-ils être répliqués avec différents ensembles de données? Votre modèle est-il prédictif? Cela définira si votre modèle a un minimum de robustesse directionnelle pour être utile beaucoup plus qu'un seuil arbitraire de R Square ne vous le dirait.

J'aurais l'intuition qu'avec un R Square de 0,05, les résultats d'un modèle associé sont dépassés par l'erreur standard du modèle. Et, les méthodes simples utilisées ci-dessus pourraient vous aider à documenter ce phénomène.

Parfois, il est moins important de prévoir que de comprendre l'effet global du coefficient. C'est très vrai pour des modèles comme celui-ci.
Je ne pense pas que cela ait à voir avec la rigueur scientifique, mais plutôt avec la difficulté de la tâche. Si l'on prévoit combien de jours une personne doit vivre, le $ R ^ 2 $ sera assez bas (Dieu merci).
+1 @Frank, mais je ne peux m'empêcher de souligner que $ R ^ 2 $ sera assez élevé pour de simples prédictions de dates de décès (basées sur des tables actuarielles), * sauf si vous contrôlez l'âge *! Cela montre bien pourquoi $ R ^ 2 $ en lui-même est presque une mesure inutile de la qualité ou de "l'acceptabilité" d'un modèle.
Vous pensez aux prédictions de groupe, qui sont faciles par rapport à la prédiction des résultats des individus.
#5
+1
user34889
2013-11-16 19:34:27 UTC
view on stackexchange narkive permalink

Il semble y avoir beaucoup de confusion autour de l'importance du RQS. RSQ n'implique pas que vous avez un modèle valide, mais plutôt qu'il y a une certaine "qualité d'ajustement".

Voir mon blog pour un bref aperçu.

http: / /www.excel-with-data.co.uk/blog-1

Cela vous inciterait à répondre de manière autonome si vous résumiez les principaux points de votre article de blog qui se rapportent à la question des PO. Aussi, par RQS et RSQ, voulez-vous dire la même chose et que signifient exactement les abréviations?
#6
-1
Jordache
2012-08-14 02:05:02 UTC
view on stackexchange narkive permalink

Vous ne pouvez certainement pas utiliser la régression linéaire multiple pour l'analyse d'une variable de réponse catégorielle. Dans ce cas, vous devriez plutôt utiliser le modèle logistique avec un lien logit ou probit (il importe également de savoir si la réponse est ordinale ou nominale). Cela pourrait cependant être une réponse très tardive.

Oui, vous pouvez, par exemple le modèle de probabilité linéaire pour toute variable catégorielle à 2 états prenant 1 ou 0
Ou pour les variables catégorielles ordonnées avec une certaine hypothèse de linéarité
Cela concerne http://stats.stackexchange.com/questions/29469/ols-vs-logistic-regression-for-exploratory-analysis-with-a-binary-outcome. Souvent, une déclaration "vous ne pouvez certainement pas" peut être satisfaite "peut-être que je ne peux pas le faire et satisfaire toutes les hypothèses qui sont importantes pour vous; mais je peux le faire et apprendre quelque chose de valeur pour moi."


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...