Question:
Quand utiliser les parcelles résiduelles?
eXpander
2013-10-24 18:13:58 UTC
view on stackexchange narkive permalink

J'ai effectué une analyse de régression simple entre une variable dépendante (DV) et une variable explicative (IV).

Si la valeur p de l'analyse de régression pour l'IV n'est pas significative, devrais-je utiliser encore des graphiques résiduels pour vérifier que le modèle de régression utilisé était correct (et que l'énoncé de IV non significatif est correct)?

Ou devrait-on utiliser des graphiques résiduels uniquement pour les modèles qui incluent des IV significatives?

des coefficients non significatifs signifient toujours qu'un modèle existe. le modèle indique simplement que les variables dépendantes sont juste égales au terme d'erreur. par conséquent, toutes les procédures de construction de modèles devraient idéalement être suivies. également en vue d'une vue d'ensemble, généralement pour documenter les résultats, toutes les procédures doivent être effectuées de sorte que si à un stade ultérieur vous testez le même ensemble de variables et qu'une dépendance apparaît, vous pouvez faire une étude comparative.
Deux réponses:
Andy W
2013-10-24 18:44:20 UTC
view on stackexchange narkive permalink

Ils sont toujours utiles pour évaluer si la relation entre les variables explicatives et la variable dépendante est linéaire (ou correctement modélisée compte tenu de l'équation). Pour un exemple extrême, j'ai généré des données avec une relation quadratique et ai ajusté une régression linéaire de la forme $ Y = \ alpha + \ beta (X) + e $. (Parce que la parabole est approximativement centrée sur zéro $ \ beta $ est insignifiant dans l'équation).

enter image description here

Si vous tracez $ X $ par rapport aux résidus, la relation quadratique est toujours très claire. (Imaginez que vous détiltiez simplement le premier tracé.)

enter image description here

Je suis sûr que vous pouvez imaginer d'autres scénarios dans lesquels les coefficients de régression sont insignifiants mais l'examen des résidus montrera comment le le modèle est inadéquat.

OK merci. J'ai tracé un tracé résiduel qui semble assez bon, voir http://postimg.org/image/gz4twyytd/. Ainsi, le tracé résiduel dit que le modèle est correctement donné même le fait que l'IV n'est pas significatif.
Je suppose donc que vous pouvez vérifier un résultat non significatif en ayant un bon tracé résiduel montrant que le modèle est correctement défini.
Ce graphique montre qu'il n'y a pas d'hétéroscédasticité @user1261558. Je suggère cependant un graphique différent, des résidus sur l'axe Y et de la variable explicative sur l'axe X. Ceci est juste un exemple de cas où les tracés résiduels seraient utiles même avec une variable qui n'était pas significative dans une équation de régression.
C'est la variable explicative, sur l'axe X (standardisée). Merci!
Vraiment? «Régression Standardized Predicted Value» est l'étiquette de la seule variable explicative - semble un peu étrange, voire trompeuse. (Pour info, je suis presque sûr que vous avez assez de représentants maintenant pour publier des images à votre question.)
Oui, ils l'appellent ainsi dans SPSS.
Il peut être préférable de déplacer ceci vers [chat] (http://chat.stackexchange.com/rooms/18/ten-fold). Ce n'est * pas * ce que SPSS nomme la variable explicative! C'est l'étiquette donnée à la valeur * prédite * d'un modèle de régression linéaire.
Tracer (a) résiduel vs prédicteur et (b) résiduel vs ajusté sont le même tracé (c'est-à-dire la même configuration de point de données, et en ignorant les valeurs numériques indiquées sur l'axe $ x $) si et seulement si le modèle ajusté est une ligne droite . (a) peut avoir une valeur distincte pour un "prédicteur" non inclus dans un modèle.
Nick Cox
2013-10-24 19:12:26 UTC
view on stackexchange narkive permalink

Supposons pour simplifier que vous avez ajusté une ligne $ \ hat y = b_0 + b_1 x $ étant donné une variable dépendante ou de réponse $ y $ et un prédicteur ou une variable indépendante $ x $. Cette hypothèse spécifique peut être assouplie, ce à quoi nous reviendrons en temps utile.

Avec une variable de chaque côté, un tracé résiduel (c'est-à-dire un tracé de $ y résiduel - \ hat y =: e $ par rapport à $ \ hat y $ ajusté ou prédit) montre en principe exactement la même chose informations sous forme de nuage de points avec une ligne de régression superposée. Sur ce dernier, les résidus ne sont que les différences verticales entre les points de données et la ligne et les ajustés sont les valeurs correspondantes sur la ligne, c'est-à-dire pour la même valeur de $ x $.

En pratique, un graphique des résidus peut rendre la structure des résidus plus évidente:

  • La droite de régression est tournée vers l'horizontale. Voir la structure en quoi que ce soit est plus facile lorsque la référence n'indiquant aucune structure est une ligne droite horizontale, ici la ligne $ e = 0 $.

  • Il y a une meilleure utilisation de l'espace.

Dans cet exemple simple, une certaine structure dans les résidus est discernable dans le nuage de points

enter image description here

mais même plus facile à voir dans le graphique résiduel:

enter image description here

La recette ici était simple. Les données ont été fabriquées sous la forme d'un bruit quadratique plus gaussien, mais le quadratique n'est que grossièrement capturé par l'ajustement linéaire naïf.

Mais il reste généralement vrai que la structure est plus facile à voir sur un tracé résiduel. Une certaine prudence est nécessaire pour ne pas surinterpréter les graphiques résiduels, en particulier avec des échantillons de très petite taille. Comme d'habitude, ce que vous repérez doit également avoir un sens scientifique ou pratique.

Et si l'ajustement est plus compliqué que $ b_0 + b_1 x $? Il y a deux cas:

  • Tout peut encore être affiché sur un nuage de points, par exemple le côté droit est un polynôme ou quelque chose dans les fonctions trigonométriques de $ x $. Ici, le cas échéant, le tracé des résidus est encore plus précieux pour tout mapper de sorte que zéro résidu soit une référence.

  • Le modèle utilise deux ou plusieurs prédicteurs. Ici aussi, le graphique résiduel peut être inestimable comme une sorte de bilan de santé montrant à quel point vous avez bien fait et ce que vous avez manqué.

L'analogie du bilan de santé est plus juste: les tracés résiduels peuvent vous aider à détecter si quelque chose ne va pas. Si rien n'est manifestement faux, aucune nouvelle n'est une bonne nouvelle, mais il n'y a pas de garantie absolue: quelque chose d'important a peut-être été oublié.

Quant à savoir si le prédicteur a eu un effet significatif, je ne connais aucune règle pour dessiner ou ne pas dessiner un graphique résiduel. Dans l'exemple concocté ici, les niveaux de signification et les chiffres de mérite tels que $ R ^ 2 $ sont extrêmement bons, mais le modèle en ligne droite manque toujours un élément clé de la structure réelle. À l'inverse, un tracé résiduel éclaire souvent pourquoi un modèle n'a pas fonctionné: soit le motif est vraiment composé de bruit, pour autant que l'on puisse le voir, soit votre modèle manque quelque chose de vraiment important, comme une non-linéarité.

Note de bas de page: pour de nombreux statisticiens, IV signifie variable instrumentale et non variable indépendante.

Mon écriture chevauchait clairement celle d'@Andy W.
C'est mieux que le mien! Cela montre avec une régression linéaire variable que le traçage de «résiduel ~ prédit» et «résiduel ~ explicatif» fait peu de différence (du moins, je ne peux penser à aucun scénario dans lequel cela fait une différence).
Merci! Je pense que si vous commencez à vous adapter, par exemple tendance exponentielle + tendance saisonnière sinusoïdale avec changement d'amplitude comme modèle, toute structure dans les résidus devient plus difficile à voir sur le nuage de points d'origine. Le nuage de points plus la courbe et le diagramme résiduel sont complémentaires; s'il arrive que l'un n'ajoute pas beaucoup d'informations à l'autre, il est indolore de la produire, de la regarder rapidement et de la jeter (ou devrait être avec un logiciel décent).


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...