Pourquoi l'utilisation de l'erreur quadratique est-elle la norme lorsque l'erreur absolue est plus pertinente pour la plupart des problèmes?

Ryan Volpi

2020-06-06 00:47:04 UTC

view on stackexchange narkive permalink

Je reconnais que certaines parties de ce sujet ont été discutées sur ce forum. Quelques exemples:

Est-ce que minimiser l'erreur quadratique équivaut à minimiser l'erreur absolue? Pourquoi l'erreur quadratique est plus populaire que cette dernière?
Pourquoi mettre au carré la différence au lieu de prendre la valeur absolue de l'écart type?

Ce que je ne comprends toujours pas, c'est pourquoi la régression OLS est toujours la solution par défaut au problème de la régression linéaire. Il me semble que dans la majorité des situations pratiques, les coûts associés aux erreurs sont linéaires ou approximativement linéaires. Si je commande 2 pièces supplémentaires, j'engage deux fois le coût inutile par rapport à la commande d'une pièce supplémentaire. Par conséquent, la solution optimale produite par OLS ne correspondra pas à une solution optimale dans la réalité. Je comprends qu'en général, vous pouvez minimiser toute mesure d'erreur qui a le plus de sens dans la situation. Ma question n'est pas de savoir s'il est possible ou judicieux d'utiliser MAE dans un cas particulier; il s'agit de la convention. Pourquoi le MSE est-il minimisé dans presque tous les cas simples au lieu de MAE lorsque le coût réel est généralement linéaire?

Les cas que j'ai vus pour minimiser MSE sont les suivants:

MSE est continuellement différenciable
La quadrature donne une plus grande pénalité aux erreurs importantes
Cela a du sens car nous supposons que les erreurs sont normalement distribuées

Cependant, si nous pouvons effectuer facilement une régression avec des erreurs absolues, et que nous nous intéressons principalement à la prédiction, je ne vois pas comment ces points amènent quiconque à choisir des erreurs au carré. Si nous devons choisir une convention, l’erreur absolue n’est-elle pas meilleure?

TCe message a reçu de nombreuses excellentes réponses qui m'ont toutes été utiles. Parmi ces réponses, et les réponses ailleurs qui, selon les mods, répondent à ma question, aucune n'aborde exactement la véritable source de ma confusion, à l'exception de la réponse de @ richard-hardy.

Une sorte d'@stephan-kolassa,, mais il ne discute pas du choix de minimiser une perte par rapport à l'autre, ni de la raison pour laquelle l'erreur quadratique est appliquée de manière omniprésente.C'est cependant une ressource utile.

"il ne discute pas du choix de minimiser une perte par rapport à l'autre" - je vois "dans quel cas l'erreur quadratique moyenne serait une mesure d'erreur plus appropriée que l'erreur absolue moyenne" dans cette question, ce qui semble êtreprécisément ce que vous demandez.Quant à savoir pourquoi la MSE est omniprésente, eh bien, d'une part, c'est l'argument de la différentiabilité, et d'autre part, c'est la seule erreur qui sera minimisée par des estimations / prédictions non biaisées, ce que nous voulons très souvent.Voir [ma réponse] (https://stats.stackexchange.com/a/210857/1352) dans ce fil.

@StephanKolassa, sur le biais - uniquement lorsque le biais est défini comme $ E [y] - \ hat y $ et peut-être aussi seulement lorsque la distribution est symétrique (pas sûr de ce dernier)

@Aksakal: bien, c'est * est * la définition du biais (sauf pour l'utilisation technique dans les réseaux de neurones).Et non, le fait que le (R) MSE (et rien d'autre) soit optimisé dans l'espérance précisément par une prévision non biaisée n'est pas seulement vrai pour les distributions symétriques.La chaussure est sur l'autre pied: pour les distributions symétriques, le MAE est également minimisé par une prévision non biaisée (car il est minimisé par la médiane, qui est l'espérance dans le cas symétrique), mais en général, ce n'est pas le cas, et c'estune raison de regarder le MSE.

Je pense que la traitabilité analytique de la perte au carré a toujours été un argument puissant en sa faveur.

Voici une autre question connexe: https://stats.stackexchange.com/q/369589/164061.Lorsque nous optimisons le résultat d'une fonction de coût qui dépend de l'erreur absolue, il peut encore être utile d'utiliser des estimations basées sur MSE.La question pertinente n'est pas seulement la fonction de coût, mais aussi la distribution des erreurs.Donc ... nous utilisons souvent MSE parce que c'est ainsi que sont la plupart des distributions d'erreur (comme Gauss l'a soutenu sur la base de quelques axiomes simples).Mais pour des distributions plus funky, il est logique d'utiliser d'autres méthodes, et je pense que celles-ci sont omniprésentes (parfois déguisées en moindres carrés comme GLM).

La question en double répond-elle vraiment à la question ici?Il existe * de nombreuses façons * de discuter de l'utilisation relative de MAE par rapport à MSE.Dans cette question, le moyen de comparaison semble être d'optimiser le résultat * par rapport à une fonction de coût *.Je ne vois pas cela dans l'autre question en double.Dans * aucune * des réponses, je ne vois une explication relative à la distribution de l'échantillon de l'estimation et l'idée que la sélection de la méthode qui optimise le coût attendu le plus bas, pourrait encore optimiser MSE même lorsque la fonction de coût est liée à l'erreur absolue.

Configuration

Supposons que vous soyez confronté à un problème de prédiction où le modèle $$ y = X \ beta + \ varepsilon $$ avec $ \ varepsilon \ sim D (0, \ sigma) $ , $ D $ étant une distribution de probabilité avec l'emplacement $ 0 $ et l'échelle $ \ sigma $ . Votre objectif est de prédire $ y_0 $ donné $ x_0 $ , et votre prédiction de points sera $ \ hat y_0 $ , une fonction de $ x_0 $ , l'échantillon de données, le modèle et la pénalité (le négatif de récompense) fonction définie sur l'erreur de prédiction. La fonction de pénalité à laquelle vous faites face est $ L_P (y- \ hat y) $ . Il a un minimum à zéro (la valeur $ L_P (0) $ peut être mis à zéro sans perte de généralité) et ne diminue pas des deux côtés de zéro; il s'agit d'une caractérisation typique d'une fonction sensible prediction loss. Vous pouvez choisir librement une fonction estimation loss $ L_E (\ cdot) $ et une fonction de prédiction de points $ y_hat_0 $ span >. Quels sont vos choix optimaux pour chacun? Cela dépendra de la distribution des erreurs $ D $ et de la fonction de perte de prédiction $ L_P (\ cdot) $ .

Perte d'estimation

La perte d'estimation spécifie la manière dont les estimations des paramètres d'un modèle sont obtenues à partir d'échantillons de données. Dans notre exemple de régression linéaire, il s'agit de l'estimation de $ \ beta $ et $ \ sigma $ . Vous pouvez les estimer en minimisant la somme des carrés des résidus (OLS) entre le réel $ y $ et les valeurs ajustées correspondantes, somme des résidus absolus (régression quantile à la médiane ) ou une autre fonction. Le choix de la perte d'estimation peut être déterminé par la distribution des erreurs du modèle. L'estimateur le plus précis au sens technique * sera obtenu par la perte d'estimation qui fait de l'estimateur de paramètre l'estimateur du maximum de vraisemblance (ML). Si les erreurs de modèle sont distribuées normalement ( $ D $ est normal), ce sera OLS; s'ils sont distribués selon une distribution de Laplace ( $ D $ est Laplace), ce sera une régression quantile à la moyenne; etc.
* Pour simplifier, étant donné un estimateur ML, vous pouvez vous attendre à des estimations de paramètres plus précises de votre modèle que celles fournies par d'autres estimateurs.

Perte de prévision

La perte de prédiction spécifie comment les erreurs de prédiction sont pénalisées. Vous ne le choisissez pas, il est donné. (Habituellement, c'est le client qui le spécifie. Si le client n'est pas capable de le faire mathématiquement, l'analyste doit s'efforcer de le faire en écoutant attentivement les arguments du client.) Si l'erreur de prédiction entraîne la perte du client (par exemple, une perte financière ) pour croître quadratiquement et symétriquement autour de zéro, vous êtes confronté à une perte de prédiction carrée. Si la perte du client croît linéairement et symétriquement autour de zéro, vous êtes confronté à une perte de prédiction absolue. Il existe de nombreuses autres possibilités pour les types de pertes de prédiction auxquels vous pourriez être confronté.

Prédiction

Compte tenu des estimations des paramètres du modèle et des valeurs des régresseurs du point d'intérêt, $ x_0 $ , vous devez choisir la prédiction ponctuelle $ \ hat y_0 $ basé sur la perte de prédiction. Pour la perte carrée, vous choisirez la moyenne estimée de $ y_0 $ , car la vraie moyenne minimise la perte carrée en moyenne (où la moyenne est prise sur des échantillons aléatoires de $ y_0 $ sous réserve de $ x = x_0 $ ). Pour la perte absolue, vous choisirez la médiane estimée. Pour d'autres fonctions de perte, vous choisirez d'autres fonctionnalités de la distribution de $ y_0 $ que vous avez modélisée.

Retour à votre question

Pourquoi les gens choisissent fréquemment l'erreur carrée plutôt que l'erreur absolue, ou par conséquent la perte carrée plutôt que la perte absolue, comme estimation loss? Parce que les erreurs normales ( $ D $ étant normal) sont courantes dans les applications, ~~sans doute~~ plus que les erreurs de Laplace ( $ D $ étant Laplace). Ils rendent également les estimateurs de régression traitables analytiquement. Cependant, ils ne sont pas beaucoup plus faciles à calculer. La complexité de calcul de l'OLS (correspondant à l'estimation ML sous des erreurs normales) par rapport à la régression quantile à la médiane (correspondant à l'estimation ML sous les erreurs de Laplace) ne sont pas très différentes. Il y a donc quelques arguments valables pour le choix de l'OLS sur la régression quantile à la médiane, ou l'erreur carrée sur l'erreur absolue.

Pourquoi les gens choisissent l'erreur carrée, ou la perte carrée correspondante, comme prediction loss?Peut-être par simplicité.Comme certaines des réponses précédentes l'ont peut-être mentionné, vous devez choisir une base de référence pour une exposition de manuels;vous ne pouvez pas discuter de tous les cas possibles en détail.Cependant, le cas pour préférer la perte quadratique à la perte absolue comme perte de prédiction est moins convaincant que dans le cas de la perte d'estimation.La perte de prédiction réelle est susceptible d'être asymétrique (comme indiqué dans certaines réponses précédentes) et pas plus susceptible de croître de manière quadratique que linéaire avec l'erreur de prédiction.Bien sûr, en pratique, vous devez suivre les spécifications du client concernant la perte de prédiction.Pendant ce temps, dans les exemples occasionnels et les discussions où il n'y a pas de client concret, je ne vois pas d'argument solide pour préférer l'erreur carrée à l'erreur absolue.

Exemple

Considérez la répartition suivante des coups produits par une arme à feu fixée mécaniquement. Vous placez un cercle d'une taille donnée quelque part sur la cible. Si le prochain coup atterrit entièrement à l'intérieur de votre cercle, vous gagnez, sinon vous perdez. La fonction de coût est de la forme $ f_C (x, y) = sign ((x-x_C) ^ 2 + (y-y_C) ^ 2-R ^ 2) $ span>.

Si vous minimisez $ \ sum_i f_C (x_i, y_i) $ , vous placeriez le cercle en position bleue, contenant entièrement le nombre maximum de plans passés. Mais si vous saviez que le pistolet est fixé en place et que l'erreur est gaussienne, vous placeriez le cercle en position verte, centré sur la moyenne / centroïde des données (minimisant MSE), car vous optimisez le gain futur attendu, pas le passé moyen gain.