Les 5 premières réponses ne permettent pas de faire la distinction entre estimation loss et prediction loss, ce qui est crucial pour répondre à la question.A priori, il n'y a aucune raison que les deux coïncident.Je discuterai des deux types de perte dans le contexte de la prédiction ponctuelle utilisant la régression linéaire.La discussion peut être étendue à des modèles autres que la régression linéaire et à des tâches autres que la prédiction de points, mais l’essence reste la même.
Configuration
Supposons que vous soyez confronté à un problème de prédiction où le modèle
$$
y = X \ beta + \ varepsilon
$$
avec $ \ varepsilon \ sim D (0, \ sigma) $ , $ D $ étant une distribution de probabilité avec l'emplacement $ 0 $ et l'échelle $ \ sigma $ . Votre objectif est de prédire $ y_0 $ donné $ x_0 $ , et votre prédiction de points sera $ \ hat y_0 $ , une fonction de $ x_0 $ , l'échantillon de données, le modèle et la pénalité (le négatif de récompense) fonction définie sur l'erreur de prédiction. La fonction de pénalité à laquelle vous faites face est $ L_P (y- \ hat y) $ . Il a un minimum à zéro (la valeur $ L_P (0) $ peut être mis à zéro sans perte de généralité) et ne diminue pas des deux côtés de zéro; il s'agit d'une caractérisation typique d'une fonction sensible prediction loss. Vous pouvez choisir librement une fonction estimation loss $ L_E (\ cdot) $ et une fonction de prédiction de points $ y_hat_0 $ span >. Quels sont vos choix optimaux pour chacun? Cela dépendra de la distribution des erreurs $ D $ et de la fonction de perte de prédiction $ L_P (\ cdot) $ .
Perte d'estimation
La perte d'estimation spécifie la manière dont les estimations des paramètres d'un modèle sont obtenues à partir d'échantillons de données. Dans notre exemple de régression linéaire, il s'agit de l'estimation de $ \ beta $ et $ \ sigma $ . Vous pouvez les estimer en minimisant la somme des carrés des résidus (OLS) entre le réel $ y $ et les valeurs ajustées correspondantes, somme des résidus absolus (régression quantile à la médiane ) ou une autre fonction. Le choix de la perte d'estimation peut être déterminé par la distribution des erreurs du modèle. L'estimateur le plus précis au sens technique * sera obtenu par la perte d'estimation qui fait de l'estimateur de paramètre l'estimateur du maximum de vraisemblance (ML). Si les erreurs de modèle sont distribuées normalement ( $ D $ est normal), ce sera OLS; s'ils sont distribués selon une distribution de Laplace ( $ D $ est Laplace), ce sera une régression quantile à la moyenne; etc.
* Pour simplifier, étant donné un estimateur ML, vous pouvez vous attendre à des estimations de paramètres plus précises de votre modèle que celles fournies par d'autres estimateurs.
Perte de prévision
La perte de prédiction spécifie comment les erreurs de prédiction sont pénalisées. Vous ne le choisissez pas, il est donné. (Habituellement, c'est le client qui le spécifie. Si le client n'est pas capable de le faire mathématiquement, l'analyste doit s'efforcer de le faire en écoutant attentivement les arguments du client.) Si l'erreur de prédiction entraîne la perte du client (par exemple, une perte financière ) pour croître quadratiquement et symétriquement autour de zéro, vous êtes confronté à une perte de prédiction carrée. Si la perte du client croît linéairement et symétriquement autour de zéro, vous êtes confronté à une perte de prédiction absolue. Il existe de nombreuses autres possibilités pour les types de pertes de prédiction auxquels vous pourriez être confronté.
Prédiction
Compte tenu des estimations des paramètres du modèle et des valeurs des régresseurs du point d'intérêt, $ x_0 $ , vous devez choisir la prédiction ponctuelle $ \ hat y_0 $ basé sur la perte de prédiction. Pour la perte carrée, vous choisirez la moyenne estimée de $ y_0 $ , car la vraie moyenne minimise la perte carrée en moyenne (où la moyenne est prise sur des échantillons aléatoires de $ y_0 $ sous réserve de $ x = x_0 $ ). Pour la perte absolue, vous choisirez la médiane estimée. Pour d'autres fonctions de perte, vous choisirez d'autres fonctionnalités de la distribution de $ y_0 $ que vous avez modélisée.
Retour à votre question
Pourquoi les gens choisissent fréquemment l'erreur carrée plutôt que l'erreur absolue, ou par conséquent la perte carrée plutôt que la perte absolue, comme estimation loss? Parce que les erreurs normales ( $ D $ étant normal) sont courantes dans les applications, sans doute plus que les erreurs de Laplace ( $ D $ étant Laplace). Ils rendent également les estimateurs de régression traitables analytiquement. Cependant, ils ne sont pas beaucoup plus faciles à calculer. La complexité de calcul de l'OLS (correspondant à l'estimation ML sous des erreurs normales) par rapport à la régression quantile à la médiane (correspondant à l'estimation ML sous les erreurs de Laplace) ne sont pas très différentes. Il y a donc quelques arguments valables pour le choix de l'OLS sur la régression quantile à la médiane, ou l'erreur carrée sur l'erreur absolue.
Pourquoi les gens choisissent l'erreur carrée, ou la perte carrée correspondante, comme prediction loss?Peut-être par simplicité.Comme certaines des réponses précédentes l'ont peut-être mentionné, vous devez choisir une base de référence pour une exposition de manuels;vous ne pouvez pas discuter de tous les cas possibles en détail.Cependant, le cas pour préférer la perte quadratique à la perte absolue comme perte de prédiction est moins convaincant que dans le cas de la perte d'estimation.La perte de prédiction réelle est susceptible d'être asymétrique (comme indiqué dans certaines réponses précédentes) et pas plus susceptible de croître de manière quadratique que linéaire avec l'erreur de prédiction.Bien sûr, en pratique, vous devez suivre les spécifications du client concernant la perte de prédiction.Pendant ce temps, dans les exemples occasionnels et les discussions où il n'y a pas de client concret, je ne vois pas d'argument solide pour préférer l'erreur carrée à l'erreur absolue.