Je suis un débutant en statistiques, toute aide serait appréciée.
Je suis un débutant en statistiques, toute aide serait appréciée.
Cela dépend de ce que vous entendez par "améliorer le modèle".Voulez-vous utiliser ce modèle pour dire quelque chose sur le fonctionnement du monde ou pour faire des prédictions?
Je suppose que vous entendez par paramètres les fonctionnalités, ce qui est assez inhabituel comme l'a commenté @whuber.Le paragraphe suivant suit cette hypothèse.
Pas nécessairement.Les entités hautement corrélées peuvent entraîner une multi-colinéarité, mais cela ne signifie pas qu'un modèle avec des caractéristiques corrélées est pire que des entités non corrélées.Un modèle peut avoir un ensemble de caractéristiques corrélées qui décrivent très bien la variable cible, ou un ensemble de caractéristiques non corrélées et qui ne sont en aucun cas liées à la variable cible.
Pour l'estimation du paramètre non corrélée, en utilisant une idée similaire, supposons que vous ayez des caractéristiques aléatoires non corrélées qui ne sont pas non plus liées à la variable cible.Les caractéristiques étant totalement aléatoires, les estimations des paramètres le seront également et ne montreront aucune corrélation.Il est donc toujours difficile de dire que le modèle est meilleur si vous n’avez pas de corrélation.
Je suis d'accord avec @gunes pour dire que vous pourriez tomber sur des cas où l'entraînement sur des fonctionnalités hautement corrélées donnera de meilleurs résultats que sur un ensemble de fonctionnalités non corrélées, mais à condition que vos fonctionnalités soient bonnes (c'est-à-dire bien expliquer la cible).
D'après mon expérience, il vaut mieux se débarrasser des fonctionnalités hautement corrélées, car cela simplifiera votre modèle et ne nuira pas trop à la prévisibilité (car si cor (x, y) est élevé, il suffit de savoirl'une de ces fonctionnalités pour obtenir la prédiction).
Par exemple, si vous avez des pieds carrés de la maison et le nombre de pièces à l'intérieur, ces caractéristiques sont très probablement fortement corrélées, vous pouvez donc envisager de ne prendre que la plus informative d'entre elles et de simplifier le modèle, tout en conservantla précision.
Par contre, si toutes vos fonctionnalités ne sont pas corrélées, chacune d'elles donne à votre modèle une perspective différente sur le problème, ce qui l'aidera à mieux se généraliser.
J'espère que cela aide.Bravo.
À mon avis, votre question correspond davantage à la troisième interprétation de @ whuber mentionnée dans les commentaires.
Voici un modèle de régression linéaire simple:
$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ epsilon. $$
Je suppose que vous avez déjà construit un modèle et que vous étudiez l’impact d’une variable $ X_ {1} $ qui, selon vous, a un effet causal sur votre variable dépendante $ Y $ . À ce stade, vous souhaiterez peut-être étudier l'effet des autres variables sur votre résultat. Cependant, vous avez découvert que d'autres fonctionnalités de votre ensemble de données sont liées à $ Y $ , ou peuvent prédire $ Y $ span >, mais n'ont aucune association avec $ X_ {1} $ . Dans ce cas, je dirais que ces variables peuvent être omises en toute sécurité de votre analyse. Dans l'intérêt de cette explication, je suppose que vous n'automatisez pas votre choix de variables prédictives et qu'un modèle explicatif de base a déjà été envisagé.
L'un des principaux objectifs de l'analyse de régression est de "séparer" l'association de $ X_ {1} $ avec d'autres variables sur le côté droit de l'équation afin que nous puissions examiner l'influence unique de $ X_ {1} $ sur $ Y $ . Maintenant, voici un deuxième modèle avec une variable de contrôle, $ X_ {2} $ , incluse:
$$ Y = \ beta_ {0} + \ beta_ {1} X_ {1} + \ beta_ {1} X_ {2} + \ epsilon. $$
En général, deux conditions doivent être remplies. Tout d'abord, la variable $ X_ {2} $ doit également être associée à $ Y $ . Deuxièmement, la variable doit être corrélée avec $ X_ {1} $ , mais pas parfaitement corrélée . Si $ X_ {2} $ est corrélé avec $ X_ {1} $ span >, puis l'inclure dans l'équation ci-dessus nous donne la possibilité d'examiner l'effet de $ X_ {1} $ sur $ Y $ tout en maintenant $ X_ {2} $ fixe . Si, cependant, cette dernière condition n'est pas remplie et que $ X_ {2} $ est un corrélé avec $ X_ {1} $ , alors cette variable peut être supprimée de l'analyse. Je dirais qu'il devrait plus probablement être abandonné dans les cas où $ X_ {2} $ est explicitement mesuré et explicitement inclus - et il n'est pas lié à la ou aux principales variables explicatives déjà dans le modèle . Encore une fois, une caractéristique importante de la régression multiple est de purger la corrélation de $ X_ {1} $ avec $ X_ {2} $ . Ajouter une série de régresseurs orthogonaux, s'ils sont grands, diminue la précision des coefficients estimés. Donc, de mon point de vue, je ne dirais pas qu’un modèle est «meilleur» avec des commandes plus non pertinentes sur le côté droit de votre équation.
Je suis d'accord avec la réponse de @ MichaelSidoroff qu'une fois qu'un ensemble de caractéristiques non corrélées entre dans le modèle et que vous ne disposiez d'aucune base théorique a priori pour les inclure, chaque facteur offre une perspective différente sur le phénomène à l'étude.Notez pourquoi la régression multiple n'est souvent pas nécessaire dans la plupart des études randomisées.La randomisation élimine toute corrélation entre la principale variable de traitement (variable indépendante) à l'étude et d'autres caractéristiques observées (et non observées) des individus.Ainsi, il n'est pas nécessaire de contrôler explicitement les autres facteurs observés chez les individus à l'aide d'un cadre de régression multiple, car la corrélation a été supprimée (ou du moins nous l'espérons).
Je ne suis pas un statisticien, donc je serais heureux d'être corrigé par les autres utilisateurs si cette réponse est fausse / naïve.Quoi qu'il en soit: du point de vue d'un analyste numérique, je dirais oui, c'est mieux , car alors vous pouvez conclure que la matrice à (pseudo-) inverser est bien conditionnée, et donc votre solution ne sera pas très sensible aux perturbationsdes données d'entrée (c'est-à-dire les observations que vous essayez d'ajuster).
C'est une très bonne question.
Le concept lié à votre question est la multicollinéarité.Lorsque les variables prédictives (a.k.a paramètres) sont corrélées, nous appelons ce scénario la multicollinéarité.La présence ou l'absence de multicollinéarité ne donne aucune indication sur la précision de notre modèle.Vous pouvez avoir une idée de la multicollinéarité dans votre modèle en exécutant une analyse de régression dans n'importe quel logiciel statistique comme «Minitab» ou «SPSS».Dans la sortie, vous verrez une métrique appelée «VIF».C'est la forme abrégée du Variance Inflation Factor. Le VIF indique les variables corrélées.Donc, si le VIF> 10, vous pouvez conclure que Multicollineariy affecte votre modèle de manière négative et il est préférable de supprimer ces variables.
C'est ainsi que vous pouvez décider si le fait d'avoir des paramètres non corrélés dans le modèle l'améliore.
Si vous avez besoin de plus d'informations sur ce sujet, veuillez visiter