Supposons pour simplifier que vous avez ajusté une ligne $ \ hat y = b_0 + b_1 x $ étant donné une variable dépendante ou de réponse $ y $ et un prédicteur ou une variable indépendante $ x $. Cette hypothèse spécifique peut être assouplie, ce à quoi nous reviendrons en temps utile.
Avec une variable de chaque côté, un tracé résiduel (c'est-à-dire un tracé de $ y résiduel - \ hat y =: e $ par rapport à $ \ hat y $ ajusté ou prédit) montre en principe exactement la même chose informations sous forme de nuage de points avec une ligne de régression superposée. Sur ce dernier, les résidus ne sont que les différences verticales entre les points de données et la ligne et les ajustés sont les valeurs correspondantes sur la ligne, c'est-à-dire pour la même valeur de $ x $.
En pratique, un graphique des résidus peut rendre la structure des résidus plus évidente:
-
La droite de régression est tournée vers l'horizontale. Voir la structure en quoi que ce soit est plus facile lorsque la référence n'indiquant aucune structure est une ligne droite horizontale, ici la ligne $ e = 0 $.
-
Il y a une meilleure utilisation de l'espace.
Dans cet exemple simple, une certaine structure dans les résidus est discernable dans le nuage de points
![enter image description here](https://statistiques.narkive.fr/1iwnf9RK/quand-utiliser-les-parcelles-residuelles:i.3.full)
mais même plus facile à voir dans le graphique résiduel:
![enter image description here](https://statistiques.narkive.fr/1iwnf9RK/quand-utiliser-les-parcelles-residuelles:i.4.full)
La recette ici était simple. Les données ont été fabriquées sous la forme d'un bruit quadratique plus gaussien, mais le quadratique n'est que grossièrement capturé par l'ajustement linéaire naïf.
Mais il reste généralement vrai que la structure est plus facile à voir sur un tracé résiduel. Une certaine prudence est nécessaire pour ne pas surinterpréter les graphiques résiduels, en particulier avec des échantillons de très petite taille. Comme d'habitude, ce que vous repérez doit également avoir un sens scientifique ou pratique.
Et si l'ajustement est plus compliqué que $ b_0 + b_1 x $? Il y a deux cas:
-
Tout peut encore être affiché sur un nuage de points, par exemple le côté droit est un polynôme ou quelque chose dans les fonctions trigonométriques de $ x $. Ici, le cas échéant, le tracé des résidus est encore plus précieux pour tout mapper de sorte que zéro résidu soit une référence.
-
Le modèle utilise deux ou plusieurs prédicteurs. Ici aussi, le graphique résiduel peut être inestimable comme une sorte de bilan de santé montrant à quel point vous avez bien fait et ce que vous avez manqué.
L'analogie du bilan de santé est plus juste: les tracés résiduels peuvent vous aider à détecter si quelque chose ne va pas. Si rien n'est manifestement faux, aucune nouvelle n'est une bonne nouvelle, mais il n'y a pas de garantie absolue: quelque chose d'important a peut-être été oublié.
Quant à savoir si le prédicteur a eu un effet significatif, je ne connais aucune règle pour dessiner ou ne pas dessiner un graphique résiduel. Dans l'exemple concocté ici, les niveaux de signification et les chiffres de mérite tels que $ R ^ 2 $ sont extrêmement bons, mais le modèle en ligne droite manque toujours un élément clé de la structure réelle. À l'inverse, un tracé résiduel éclaire souvent pourquoi un modèle n'a pas fonctionné: soit le motif est vraiment composé de bruit, pour autant que l'on puisse le voir, soit votre modèle manque quelque chose de vraiment important, comme une non-linéarité.
Note de bas de page: pour de nombreux statisticiens, IV signifie variable instrumentale et non variable indépendante.