Question:
Dans le cas de la régression linéaire, si les paramètres ne sont pas corrélés, cela améliore-t-il le modèle? Si oui, pourquoi?
Kcd
2020-03-27 02:12:49 UTC
view on stackexchange narkive permalink

Je suis un débutant en statistiques, toute aide serait appréciée.

La corrélation entre les paramètres n'est pas la façon dont vous déterminez normalement la qualité d'un modèle.Sans une mesure du bien ou du mal, cette question devient très large / subjective.(Il y a certes quelque chose à propos de la corrélation entre les paramètres mais la question lui est posée de manière indirecte et très ouverte)
Sans clarification, nous devrions considérer OP signifie paramètres comme paramètres réels du modèle.En régression linéaire, il est impossible d'obtenir des paramètres non corrélés IIRC, augmenter l'estimation de l'intersection signifie nécessairement changer l'estimation de la pente et vice-versa.Dans les modèles plus complexes, il devient vraiment difficile d'argumenter en termes de corrélations entre paramètres.
Qu'entendez-vous par «mieux»?
Six réponses:
JDL
2020-03-27 17:12:47 UTC
view on stackexchange narkive permalink

Cela dépend de ce que vous entendez par "améliorer le modèle".Voulez-vous utiliser ce modèle pour dire quelque chose sur le fonctionnement du monde ou pour faire des prédictions?

  • si les covariables ne sont pas corrélées, alors les valeurs bêta qui leur sont associées seront généralement proches de indépendantes.(Ceci est lié mais pas identique à l'idée de l ' orthogonalité des paramètres .) Ceci est utile si vous voulez interpréter les bêtas comme disant quelque chose sur le monde réel et que vous ne voulez pas qu'ils soient confondus avecles uns des autres.
  • si vous êtes préoccupé par la précision des prédictions du modèle, cela ne fait aucune différence.Les valeurs bêta seront corrélées, mais les prévisions ne seront pas affectées.Vous pourriez orthogonaliser vos covariables et cela changerait complètement la définition et l'interprétation de bêta, mais les valeurs ajustées, les résidus et les prédictions seraient les mêmes qu'auparavant.
Votre réponse va certainement au cœur du problème, mais je pense qu'elle pourrait être énoncée plus succinctement.L'interprétation du coefficient a dans l'analyse de régression (a bêta) est qu'il représente le changement moyen de la variable dépendante pour un changement d'unité de la variable indépendante ** lorsque toutes les autres variables indépendantes sont maintenues constantes **.Si des variables indépendantes sont corrélées, l'interprétabilité de votre modèle / coefficients va pour un tirage au sort.
Le commentaire ci-dessus n'était pas exactement mes mots, j'en ai tiré l'essentiel de ce merveilleux article: Récupéré d'ici: https://statisticsbyjim.com/regression/multicollinearity-in-regression-analysis/
@shinvu, ce n'est pas forcément vrai - cela dépendra du fait que les covariables peuvent être manipulées manuellement (et si elles l'étaient réellement).C'est essentiellement la différence entre la modélisation de p (Y | X) et P (Y | do (x)), pour utiliser la notation de Pearl.Mais c'est toute une digression dans le contexte de cette question, je pense.
Et si les covariables du véritable processus de génération de données étaient fortement corrélées les unes aux autres?
@trynnaDoStat, cela dépend toujours de ce pour quoi vous voulez utiliser le modèle.Si vous ne faites des prédictions qu'avec lui, cela n'a pas beaucoup d'importance.Si vous `` interprétez les bêtas '', les bêtas eux-mêmes seront (anti) corrélés (et auront un se plus large que prévu), mais cela peut être acceptable (eh bien, cela devra être - il n'y a rien que vous puissiez faire tout en gardantl'interprétation de bêta est la même, car si vous orthogonisez alors bêta signifie une chose différente maintenant)
gunes
2020-03-27 02:23:58 UTC
view on stackexchange narkive permalink

Je suppose que vous entendez par paramètres les fonctionnalités, ce qui est assez inhabituel comme l'a commenté @whuber.Le paragraphe suivant suit cette hypothèse.

Pas nécessairement.Les entités hautement corrélées peuvent entraîner une multi-colinéarité, mais cela ne signifie pas qu'un modèle avec des caractéristiques corrélées est pire que des entités non corrélées.Un modèle peut avoir un ensemble de caractéristiques corrélées qui décrivent très bien la variable cible, ou un ensemble de caractéristiques non corrélées et qui ne sont en aucun cas liées à la variable cible.

Pour l'estimation du paramètre non corrélée, en utilisant une idée similaire, supposons que vous ayez des caractéristiques aléatoires non corrélées qui ne sont pas non plus liées à la variable cible.Les caractéristiques étant totalement aléatoires, les estimations des paramètres le seront également et ne montreront aucune corrélation.Il est donc toujours difficile de dire que le modèle est meilleur si vous n’avez pas de corrélation.

Il serait utile d'indiquer comment vous interprétez cette question, car «les paramètres ne sont pas corrélés» peut signifier au moins trois choses très différentes, allant de (1) un a priori bayésien avec corrélation à (2) corrélation des paramètres * estimations * à (3) corrélation des variables *. * Votre interprétation de «paramètre» comme signifiant «caractéristique» est inhabituelle, mais c'est peut-être ce que l'OP voulait dire.
Certainement @whuber!Je n'utiliserais pas non plus `` paramètre '' pour désigner les fonctionnalités, mais je pensais que je comprenais en quelque sorte ce que signifiait OP, mais sans l'expliquer.
Je serais choqué si l'OP signifiait autre chose que des caractéristiques corrélées, même si «paramètre» est une façon peu orthodoxe de le dire.
Désolé pour cela, je voulais dire «décorrélation entre les estimations de paramètres», où «paramètre» signifie «coefficients de variables» utilisés dans le modèle.Ces termes prêtent parfois à confusion.
C'est pratiquement la même chose, c'est-à-dire si vos entités sont corrélées - les coefficients de ces entités dans le modèle linéaire seront corrélés à l'inverse.
@MichaelSidoroff si le modèle n'est pas linéaire alors la corrélation des coefficients est plus générale.(De plus, ne pourrait-il pas y avoir de cas pratiques où ce n'est pas beaucoup la même chose? La corrélation des paramètres se rapporte à l'inverse de la matrice $ (X ^ tX) ^ {- 1} $. Je n'ai pas une vue intuitive demais, il y a une différence, et je peux imaginer que dans des circonstances particulières la situation est un peu plus différente)
@Sextus Empiricus - Je suis totalement d'accord avec vous sur le cas non linéaire.Ici cependant, nous avons affaire à un modèle linéaire, et c'est pourquoi j'ai affirmé que la corrélation dans les caractéristiques et la corrélation donne une corrélation dans les coefficients.
Michael Sidoroff
2020-03-27 03:46:33 UTC
view on stackexchange narkive permalink

Je suis d'accord avec @gunes pour dire que vous pourriez tomber sur des cas où l'entraînement sur des fonctionnalités hautement corrélées donnera de meilleurs résultats que sur un ensemble de fonctionnalités non corrélées, mais à condition que vos fonctionnalités soient bonnes (c'est-à-dire bien expliquer la cible).

D'après mon expérience, il vaut mieux se débarrasser des fonctionnalités hautement corrélées, car cela simplifiera votre modèle et ne nuira pas trop à la prévisibilité (car si cor (x, y) est élevé, il suffit de savoirl'une de ces fonctionnalités pour obtenir la prédiction).

Par exemple, si vous avez des pieds carrés de la maison et le nombre de pièces à l'intérieur, ces caractéristiques sont très probablement fortement corrélées, vous pouvez donc envisager de ne prendre que la plus informative d'entre elles et de simplifier le modèle, tout en conservantla précision.

Par contre, si toutes vos fonctionnalités ne sont pas corrélées, chacune d'elles donne à votre modèle une perspective différente sur le problème, ce qui l'aidera à mieux se généraliser.

J'espère que cela aide.Bravo.

Thomas Bilach
2020-03-27 20:57:49 UTC
view on stackexchange narkive permalink

À mon avis, votre question correspond davantage à la troisième interprétation de @ whuber mentionnée dans les commentaires.

Voici un modèle de régression linéaire simple:

$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ epsilon. $$

Je suppose que vous avez déjà construit un modèle et que vous étudiez l’impact d’une variable $ X_ {1} $ qui, selon vous, a un effet causal sur votre variable dépendante $ Y $ . À ce stade, vous souhaiterez peut-être étudier l'effet des autres variables sur votre résultat. Cependant, vous avez découvert que d'autres fonctionnalités de votre ensemble de données sont liées à $ Y $ , ou peuvent prédire $ Y $ span >, mais n'ont aucune association avec $ X_ {1} $ . Dans ce cas, je dirais que ces variables peuvent être omises en toute sécurité de votre analyse. Dans l'intérêt de cette explication, je suppose que vous n'automatisez pas votre choix de variables prédictives et qu'un modèle explicatif de base a déjà été envisagé.

L'un des principaux objectifs de l'analyse de régression est de "séparer" l'association de $ X_ {1} $ avec d'autres variables sur le côté droit de l'équation afin que nous puissions examiner l'influence unique de $ X_ {1} $ sur $ Y $ . Maintenant, voici un deuxième modèle avec une variable de contrôle, $ X_ {2} $ , incluse:

$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ beta_ {1} X_ {2} + \ epsilon. $$

En général, deux conditions doivent être remplies. Tout d'abord, la variable $ X_ {2} $ doit également être associée à $ Y $ . Deuxièmement, la variable doit être corrélée avec $ X_ {1} $ , mais pas parfaitement corrélée . Si $ X_ {2} $ est corrélé avec $ X_ {1} $ span >, puis l'inclure dans l'équation ci-dessus nous donne la possibilité d'examiner l'effet de $ X_ {1} $ sur $ Y $ tout en maintenant $ X_ {2} $ fixe . Si, cependant, cette dernière condition n'est pas remplie et que $ X_ {2} $ est un corrélé avec $ X_ {1} $ , alors cette variable peut être supprimée de l'analyse. Je dirais qu'il devrait plus probablement être abandonné dans les cas où $ X_ {2} $ est explicitement mesuré et explicitement inclus - et il n'est pas lié à la ou aux principales variables explicatives déjà dans le modèle . Encore une fois, une caractéristique importante de la régression multiple est de purger la corrélation de $ X_ {1} $ avec $ X_ {2} $ . Ajouter une série de régresseurs orthogonaux, s'ils sont grands, diminue la précision des coefficients estimés. Donc, de mon point de vue, je ne dirais pas qu’un modèle est «meilleur» avec des commandes plus non pertinentes sur le côté droit de votre équation.

Je suis d'accord avec la réponse de @ MichaelSidoroff qu'une fois qu'un ensemble de caractéristiques non corrélées entre dans le modèle et que vous ne disposiez d'aucune base théorique a priori pour les inclure, chaque facteur offre une perspective différente sur le phénomène à l'étude.Notez pourquoi la régression multiple n'est souvent pas nécessaire dans la plupart des études randomisées.La randomisation élimine toute corrélation entre la principale variable de traitement (variable indépendante) à l'étude et d'autres caractéristiques observées (et non observées) des individus.Ainsi, il n'est pas nécessaire de contrôler explicitement les autres facteurs observés chez les individus à l'aide d'un cadre de régression multiple, car la corrélation a été supprimée (ou du moins nous l'espérons).

Federico Poloni
2020-03-28 02:41:01 UTC
view on stackexchange narkive permalink

Je ne suis pas un statisticien, donc je serais heureux d'être corrigé par les autres utilisateurs si cette réponse est fausse / naïve.Quoi qu'il en soit: du point de vue d'un analyste numérique, je dirais oui, c'est mieux , car alors vous pouvez conclure que la matrice à (pseudo-) inverser est bien conditionnée, et donc votre solution ne sera pas très sensible aux perturbationsdes données d'entrée (c'est-à-dire les observations que vous essayez d'ajuster).

ravindu93
2020-03-28 14:08:16 UTC
view on stackexchange narkive permalink

C'est une très bonne question. Le concept lié à votre question est la multicollinéarité.Lorsque les variables prédictives (a.k.a paramètres) sont corrélées, nous appelons ce scénario la multicollinéarité.La présence ou l'absence de multicollinéarité ne donne aucune indication sur la précision de notre modèle.Vous pouvez avoir une idée de la multicollinéarité dans votre modèle en exécutant une analyse de régression dans n'importe quel logiciel statistique comme «Minitab» ou «SPSS».Dans la sortie, vous verrez une métrique appelée «VIF».C'est la forme abrégée du Variance Inflation Factor. Le VIF indique les variables corrélées.Donc, si le VIF> 10, vous pouvez conclure que Multicollineariy affecte votre modèle de manière négative et il est préférable de supprimer ces variables.
C'est ainsi que vous pouvez décider si le fait d'avoir des paramètres non corrélés dans le modèle l'améliore. Si vous avez besoin de plus d'informations sur ce sujet, veuillez visiter



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...