Question:
Pourquoi l'utilisation de l'erreur quadratique est-elle la norme lorsque l'erreur absolue est plus pertinente pour la plupart des problèmes?
Ryan Volpi
2020-06-06 00:47:04 UTC
view on stackexchange narkive permalink

Je reconnais que certaines parties de ce sujet ont été discutées sur ce forum. Quelques exemples:

Ce que je ne comprends toujours pas, c'est pourquoi la régression OLS est toujours la solution par défaut au problème de la régression linéaire. Il me semble que dans la majorité des situations pratiques, les coûts associés aux erreurs sont linéaires ou approximativement linéaires. Si je commande 2 pièces supplémentaires, j'engage deux fois le coût inutile par rapport à la commande d'une pièce supplémentaire. Par conséquent, la solution optimale produite par OLS ne correspondra pas à une solution optimale dans la réalité. Je comprends qu'en général, vous pouvez minimiser toute mesure d'erreur qui a le plus de sens dans la situation. Ma question n'est pas de savoir s'il est possible ou judicieux d'utiliser MAE dans un cas particulier; il s'agit de la convention. Pourquoi le MSE est-il minimisé dans presque tous les cas simples au lieu de MAE lorsque le coût réel est généralement linéaire?

Les cas que j'ai vus pour minimiser MSE sont les suivants:

  1. MSE est continuellement différenciable
  2. La quadrature donne une plus grande pénalité aux erreurs importantes
  3. Cela a du sens car nous supposons que les erreurs sont normalement distribuées

Cependant, si nous pouvons effectuer facilement une régression avec des erreurs absolues, et que nous nous intéressons principalement à la prédiction, je ne vois pas comment ces points amènent quiconque à choisir des erreurs au carré. Si nous devons choisir une convention, l’erreur absolue n’est-elle pas meilleure?

TCe message a reçu de nombreuses excellentes réponses qui m'ont toutes été utiles. Parmi ces réponses, et les réponses ailleurs qui, selon les mods, répondent à ma question, aucune n'aborde exactement la véritable source de ma confusion, à l'exception de la réponse de @ richard-hardy.

Une sorte d'@stephan-kolassa,, mais il ne discute pas du choix de minimiser une perte par rapport à l'autre, ni de la raison pour laquelle l'erreur quadratique est appliquée de manière omniprésente.C'est cependant une ressource utile.
"il ne discute pas du choix de minimiser une perte par rapport à l'autre" - je vois "dans quel cas l'erreur quadratique moyenne serait une mesure d'erreur plus appropriée que l'erreur absolue moyenne" dans cette question, ce qui semble êtreprécisément ce que vous demandez.Quant à savoir pourquoi la MSE est omniprésente, eh bien, d'une part, c'est l'argument de la différentiabilité, et d'autre part, c'est la seule erreur qui sera minimisée par des estimations / prédictions non biaisées, ce que nous voulons très souvent.Voir [ma réponse] (https://stats.stackexchange.com/a/210857/1352) dans ce fil.
@StephanKolassa, sur le biais - uniquement lorsque le biais est défini comme $ E [y] - \ hat y $ et peut-être aussi seulement lorsque la distribution est symétrique (pas sûr de ce dernier)
@Aksakal: bien, c'est * est * la définition du biais (sauf pour l'utilisation technique dans les réseaux de neurones).Et non, le fait que le (R) MSE (et rien d'autre) soit optimisé dans l'espérance précisément par une prévision non biaisée n'est pas seulement vrai pour les distributions symétriques.La chaussure est sur l'autre pied: pour les distributions symétriques, le MAE est également minimisé par une prévision non biaisée (car il est minimisé par la médiane, qui est l'espérance dans le cas symétrique), mais en général, ce n'est pas le cas, et c'estune raison de regarder le MSE.
Je pense que la traitabilité analytique de la perte au carré a toujours été un argument puissant en sa faveur.
Voici une autre question connexe: https://stats.stackexchange.com/q/369589/164061.Lorsque nous optimisons le résultat d'une fonction de coût qui dépend de l'erreur absolue, il peut encore être utile d'utiliser des estimations basées sur MSE.La question pertinente n'est pas seulement la fonction de coût, mais aussi la distribution des erreurs.Donc ... nous utilisons souvent MSE parce que c'est ainsi que sont la plupart des distributions d'erreur (comme Gauss l'a soutenu sur la base de quelques axiomes simples).Mais pour des distributions plus funky, il est logique d'utiliser d'autres méthodes, et je pense que celles-ci sont omniprésentes (parfois déguisées en moindres carrés comme GLM).
La question en double répond-elle vraiment à la question ici?Il existe * de nombreuses façons * de discuter de l'utilisation relative de MAE par rapport à MSE.Dans cette question, le moyen de comparaison semble être d'optimiser le résultat * par rapport à une fonction de coût *.Je ne vois pas cela dans l'autre question en double.Dans * aucune * des réponses, je ne vois une explication relative à la distribution de l'échantillon de l'estimation et l'idée que la sélection de la méthode qui optimise le coût attendu le plus bas, pourrait encore optimiser MSE même lorsque la fonction de coût est liée à l'erreur absolue.
Sept réponses:
Aksakal
2020-06-06 01:03:06 UTC
view on stackexchange narkive permalink

TLDR; quand on ne sait rien du coût réel de l'erreur pour l'utilisateur du modèle, MSE est une meilleure option par défaut par rapport à MAE car, à mon avis, il est plus facile à manipuler analytiquement et est plus susceptible de correspondre au coût réel de l'erreur.

C'est une excellente question. J'aime que vous commenciez avec le désir de faire correspondre votre fonction de perte aux coûts réels. C'est ainsi que c'est censé être fait idéalement à mon avis. Cependant, il n'est pas pratique de dériver la fonction de coût à partir des coûts réels chaque fois que vous créez un modèle, c'est pourquoi nous avons tendance à utiliser l'une des fonctions de perte disponibles dans le logiciel. Les moindres carrés sont l'une des fonctions les plus populaires principalement en raison de la commodité mathématique. Il est plus facile de le gérer analytiquement. De plus, dans certains cas, les moindres carrés produisent des prévisions ponctuelles non biaisées, c'est-à-dire $ E [y] - \ hat y = 0 $ , ce qui est souvent considéré comme souhaitable pour des raisons sentimentales.

Cela dit, je dois affirmer qu'il n'est pas évident pour moi que la perte de valeur absolue soit plus réaliste. Considérez les surdoses de médicaments - elles sont beaucoup plus coûteuses que les sous-doses dans certaines situations: ne pas être assez élevé vs mourir. Dans votre exemple de pièces, considérez ceci: que se passe-t-il si vous sous-estimez le coût des pièces à \ $ ​​1 et concluez un accord à terme pour livrer un million de pièces un mois plus tard à \ $ ​​1,1 sachant que vous aurez 1 million de dollars dans un mois. Vous allez faire 10% de profit!

Puis vient le jour et les pièces coûtent en fait 1,2 $ pièce. Ainsi, vous n'allez pas seulement subir une perte de \ $ 100K, mais vous manquerez également de fonds pour livrer 1 million de pièces. Ainsi, vous êtes obligé de faire défaut et de faire faillite, ce qui coûte très cher. D'un autre côté, si vous surestimiez le coût des pièces, vous renonceriez à certains bénéfices, mais vous ne vous retrouveriez pas dans une situation désastreuse d'insolvabilité ou de crise de liquidité.

Il s'agit d'une situation très courante dans les entreprises où les pertes sont asymétriques et hautement non linéaires avec des coûts en augmentation rapide dans un sens de l'erreur de prévision mais pas dans l'autre. Par conséquent, je dirais que la perte absolue, qui est symétrique et a des pertes linéaires sur l'erreur de prévision, n'est pas réaliste dans la plupart des situations commerciales. De plus, bien que symétrique, la perte au carré est au moins non linéaire.

Pourtant, les différences entre les fonctions de perte absolue et quadratique ne s'arrêtent pas là. Par exemple, on peut montrer que la prévision ponctuelle optimale en perte absolue est la médiane tandis que pour la perte au carré, elle est moyenne.

Je pense que la fonction de perte suivante est plus adaptée à la prévision commerciale dans de nombreux cas où une erreur de sur-prévision $ e = y- \ hat y $ peut devenir très coûteuse très rapidement: $$ \ mathcal L (e, \ hat y) = | \ ln \ left (1+ \ frac e {\ hat y} \ right) | $$ span> Ici, si vous prévoyez une quantité non négative $ y $ , alors une sur-prévision est potentiellement dévastatrice. Imaginez que votre banque prévoie le volume des dépôts et que le volume réel des dépôts s'est avéré bien inférieur à ce que vous espériez. Cela peut avoir de graves conséquences. Ce type de fonction de perte asymétrique conduira à une prévision ponctuelle optimale biaisée , ie $ E [y] - \ hat y \ ne 0 $ , mais c'est exactement ce que vous voulez: vous voulez vous tromper du côté de la sous-prévision dans ce type de problème commercial.

Comment cela s'applique-t-il à MSE vs MAE?Cela semble être un inconvénient pour les fonctions de perte symétrique en général.
+1.Très souvent, les coûts sont asymétriques: si nous avons trop de produit sous la main, nous pourrons peut-être le vendre demain si nous ne pouvons pas le vendre aujourd'hui, mais si nous en avons trop peu, nous perdons une vente - dans une telle situationil vaut mieux sur- que sous-estimer.À l'inverse, si nous parlons de fraises, tout ce que nous ne vendons pas aujourd'hui, nous devons le jeter, alors les sous-estimations valent mieux que les surestimations.Cela conduit rapidement à une régression quantile et à des mesures d'erreur appropriées, c'est-à-dire des pertes de flipper.
@Dave, la discussion détaillée peut être trouvée dans le document "Optimal Point Forecast for Certain Bank Deposit Series" voir https://cer.columbian.gwu.edu/sites/g/files/zaxdzs2011/f/downloads/FFC2015.pdf, le PDFcontient un papier intégré.C'est un truc assez standard cependant
Concernant votre modification: la fonction de perte proposée récompensera bien sûr la sur-prévision (augmenter $ \ hat {y} $ aura tendance à réduire la perte).Je me demande quelle fonctionnelle votre fonction de perte entraînerait ([Kolassa, 2020] (https://doi.org/10.1016/j.ijforecast.2019.02.017), notez l'auto-promotion éhontée).
@Aksakal: Je ne pense pas avoir pleinement compris.Il me semble que votre perte récompensera la sur-prévision.(Pouvons-nous être d'accord sur cela?) Alors pourquoi l'utiliserions-nous si la sur-prévision est * plus * coûteuse que la sous-prévision?Plus généralement, je ne suis pas à l'aise avec l'utilisation d'une fonction de perte sans savoir quelle fonctionnelle de la future distribution elle suscite - voir ce petit article que j'ai lié.Je préfère d'abord déterminer quelle fonctionnelle je veux, puis choisir une fonction de perte appropriée.
(Incidemment, quelle convention utilisez-vous pour $ e $? Est-ce $ e = y- \ hat {y} $, ou $ e = \ hat {y} -y $? [Les deux sont communs, et les deux ont de bons argumentsen faveur.] (https://ideas.repec.org/a/for/ijafaa/y2008i10p38-40.html))
L'erreur de prévision @StephanKolassa est $ e = y- \ hat y $.cette fonction est pour un cas où la sur-prévision d'une quantité positive est plus coûteuse que la sous-prévision.Imaginez que vous vous attendiez à des dépôts de \ $ 100B mais que vous n'obteniez que \ $ 10B.Dans ce cas, vous obtenez un coût $ | \ ln 1-90 / 100 | = 2,3 $ tout en étant sous la prévision du même montant + \ $ 90B donne un coût $ | \ ln 1 + 100/190 | = 0,42 $ car le dépôt réelle volume était de \ $ 190
Hm.Il semble que je ne vois pas quelque chose, je vais devoir regarder un peu plus.Intéressant.Je ne trouve généralement pas très intéressant d'échanger des chiffres dans l'étude des fonctions de perte, je préfère regarder les distributions futures (inconnues) et déterminer quel point de prévision minimise la perte attendue.Par exemple, [pour une future distribution gamma] (https://stats.stackexchange.com/q/389318/1352), il semble que la perte $ | \ log (y / \ hat {y}) | $ est minimiséepar une prévision ponctuelle qui est en effet biaisée faible, c'est-à-dire inférieure à l'espérance.
@StephanKolassa vous l'avez!la fonction de perte est en fait $ | \ ln y / \ hat y | $, elle dépend de l'emplacement, pas seulement asymétrique
Seriez-vous intéressé à modifier [mon fil de discussion sur les prévisions optimales pour la distribution gamma] (https://stats.stackexchange.com/q/389318/1352) pour cette fonction de perte?Peut-être aussi pour [la distribution lognormale] (https://stats.stackexchange.com/q/389315/1352)?
Merci pour votre réponse @akaskal.Votre réponse met bien en évidence la faiblesse de MAE, mais je ne peux pas dire si elle prétend que MSE est généralement préférable.Pensez-vous que si l'on applique aveuglément une métrique, la MSE est meilleure?
Je pense que si rien d'autre n'est connu, MSE est préférable à MAE.
@StephanKolassa J'ai ajouté ma réponse à lognormal, mais je fermerais la question et en ferais une nouvelle sur les fonctions de perte car les réponses sont les mêmes pour toute distribution.Ma réponse n'utilise nulle part une forme spécifique de distribution, elle est donc applicable à Gamma ou à toute autre distribution telle que bêta ou gaussienne, etc.
J'ai lu le journal Kuketayev.Il s'avère que la fonction de perte que vous proposez est minimisée dans l'espérance par la médiane de la distribution future, tout comme la MAE.La prévision optimale pour les deux pertes est donc exactement la même.Intéressant, merci d'avoir attiré notre attention sur cela!Connaissez-vous des arguments pour préférer cette fonction de perte au MAE (qui est beaucoup plus simple à comprendre et à expliquer)?
Peter Flom
2020-06-06 01:51:35 UTC
view on stackexchange narkive permalink

Je pense que la raison est plus sociologique que statistique.

Version courte: nous procédons de cette façon parce que nous l'avons toujours fait.

Version plus longue: Historiquement, nous ne pouvions pas faire beaucoup de choses que nous tenons maintenant pour acquises. Beaucoup de choses demandent beaucoup d'informatique et Ronald Fisher est né avant Alan Turing.

Ainsi, les gens ont fait beaucoup de régression OLS. Et les gens lisent ces régressions dans toutes sortes de domaines de fond et les cours de statistiques dans ces domaines enseignés ANOVA / régression et pas des méthodes plus modernes.

De plus, les éditeurs de revues ont appris ces méthodes et pas d'autres, et beaucoup rejetteront les articles avec des méthodes modernes parce que, par exemple, "ils ne seront pas compris".

De nombreux praticiens rejettent également les méthodes modernes; J'étais une sorte de geek d'analyse de données dans un hôpital. Les médecins venaient me demander mon avis et, si ce n'était pas "faire une régression OLS" ou "faire une régression logistique", ils rejetteraient mon avis.

J'ai obtenu mon doctorat en psychométrie et beaucoup de mes professeurs dans d'autres branches de la psychologie ne connaissaient aucune méthode moderne (l'un disait: "il suffit de rapporter la valeur p, c'est ce qui compte").

Je pense que la raison pour laquelle OLS est si populaire est parce qu'il a commencé dans la science (Laplace, etc.) où le coût d'erreur de prévision est symétrique et peut-être non linéaire, il répond donc aux exigences les plus importantes et il est plus facile à manipuler analytiquement.Si cela avait commencé dans les affaires, je parie que ce ne serait pas aussi populaire car le coût des erreurs de prévision pour les entreprises est souvent asymétrique.
Avec la régression logistique, vous avez déjà un exemple où nous nous écartons de la minimisation du MSE.
Richard Hardy
2020-06-07 01:00:37 UTC
view on stackexchange narkive permalink

Les 5 premières réponses ne permettent pas de faire la distinction entre estimation loss et prediction loss, ce qui est crucial pour répondre à la question.A priori, il n'y a aucune raison que les deux coïncident.Je discuterai des deux types de perte dans le contexte de la prédiction ponctuelle utilisant la régression linéaire.La discussion peut être étendue à des modèles autres que la régression linéaire et à des tâches autres que la prédiction de points, mais l’essence reste la même.

Configuration

Supposons que vous soyez confronté à un problème de prédiction où le modèle $$ y = X \ beta + \ varepsilon $$ avec $ \ varepsilon \ sim D (0, \ sigma) $ , $ D $ étant une distribution de probabilité avec l'emplacement $ 0 $ et l'échelle $ \ sigma $ . Votre objectif est de prédire $ y_0 $ donné $ x_0 $ , et votre prédiction de points sera $ \ hat y_0 $ , une fonction de $ x_0 $ , l'échantillon de données, le modèle et la pénalité (le négatif de récompense) fonction définie sur l'erreur de prédiction. La fonction de pénalité à laquelle vous faites face est $ L_P (y- \ hat y) $ . Il a un minimum à zéro (la valeur $ L_P (0) $ peut être mis à zéro sans perte de généralité) et ne diminue pas des deux côtés de zéro; il s'agit d'une caractérisation typique d'une fonction sensible prediction loss. Vous pouvez choisir librement une fonction estimation loss $ L_E (\ cdot) $ et une fonction de prédiction de points $ y_hat_0 $ span >. Quels sont vos choix optimaux pour chacun? Cela dépendra de la distribution des erreurs $ D $ et de la fonction de perte de prédiction $ L_P (\ cdot) $ .

Perte d'estimation

La perte d'estimation spécifie la manière dont les estimations des paramètres d'un modèle sont obtenues à partir d'échantillons de données. Dans notre exemple de régression linéaire, il s'agit de l'estimation de $ \ beta $ et $ \ sigma $ . Vous pouvez les estimer en minimisant la somme des carrés des résidus (OLS) entre le réel $ y $ et les valeurs ajustées correspondantes, somme des résidus absolus (régression quantile à la médiane ) ou une autre fonction. Le choix de la perte d'estimation peut être déterminé par la distribution des erreurs du modèle. L'estimateur le plus précis au sens technique * sera obtenu par la perte d'estimation qui fait de l'estimateur de paramètre l'estimateur du maximum de vraisemblance (ML). Si les erreurs de modèle sont distribuées normalement ( $ D $ est normal), ce sera OLS; s'ils sont distribués selon une distribution de Laplace ( $ D $ est Laplace), ce sera une régression quantile à la moyenne; etc.
* Pour simplifier, étant donné un estimateur ML, vous pouvez vous attendre à des estimations de paramètres plus précises de votre modèle que celles fournies par d'autres estimateurs.

Perte de prévision

La perte de prédiction spécifie comment les erreurs de prédiction sont pénalisées. Vous ne le choisissez pas, il est donné. (Habituellement, c'est le client qui le spécifie. Si le client n'est pas capable de le faire mathématiquement, l'analyste doit s'efforcer de le faire en écoutant attentivement les arguments du client.) Si l'erreur de prédiction entraîne la perte du client (par exemple, une perte financière ) pour croître quadratiquement et symétriquement autour de zéro, vous êtes confronté à une perte de prédiction carrée. Si la perte du client croît linéairement et symétriquement autour de zéro, vous êtes confronté à une perte de prédiction absolue. Il existe de nombreuses autres possibilités pour les types de pertes de prédiction auxquels vous pourriez être confronté.

Prédiction

Compte tenu des estimations des paramètres du modèle et des valeurs des régresseurs du point d'intérêt, $ x_0 $ , vous devez choisir la prédiction ponctuelle $ \ hat y_0 $ basé sur la perte de prédiction. Pour la perte carrée, vous choisirez la moyenne estimée de $ y_0 $ , car la vraie moyenne minimise la perte carrée en moyenne (où la moyenne est prise sur des échantillons aléatoires de $ y_0 $ sous réserve de $ x = x_0 $ ). Pour la perte absolue, vous choisirez la médiane estimée. Pour d'autres fonctions de perte, vous choisirez d'autres fonctionnalités de la distribution de $ y_0 $ que vous avez modélisée.

Retour à votre question

Pourquoi les gens choisissent fréquemment l'erreur carrée plutôt que l'erreur absolue, ou par conséquent la perte carrée plutôt que la perte absolue, comme estimation loss? Parce que les erreurs normales ( $ D $ étant normal) sont courantes dans les applications, sans doute plus que les erreurs de Laplace ( $ D $ étant Laplace). Ils rendent également les estimateurs de régression traitables analytiquement. Cependant, ils ne sont pas beaucoup plus faciles à calculer. La complexité de calcul de l'OLS (correspondant à l'estimation ML sous des erreurs normales) par rapport à la régression quantile à la médiane (correspondant à l'estimation ML sous les erreurs de Laplace) ne sont pas très différentes. Il y a donc quelques arguments valables pour le choix de l'OLS sur la régression quantile à la médiane, ou l'erreur carrée sur l'erreur absolue.

Pourquoi les gens choisissent l'erreur carrée, ou la perte carrée correspondante, comme prediction loss?Peut-être par simplicité.Comme certaines des réponses précédentes l'ont peut-être mentionné, vous devez choisir une base de référence pour une exposition de manuels;vous ne pouvez pas discuter de tous les cas possibles en détail.Cependant, le cas pour préférer la perte quadratique à la perte absolue comme perte de prédiction est moins convaincant que dans le cas de la perte d'estimation.La perte de prédiction réelle est susceptible d'être asymétrique (comme indiqué dans certaines réponses précédentes) et pas plus susceptible de croître de manière quadratique que linéaire avec l'erreur de prédiction.Bien sûr, en pratique, vous devez suivre les spécifications du client concernant la perte de prédiction.Pendant ce temps, dans les exemples occasionnels et les discussions où il n'y a pas de client concret, je ne vois pas d'argument solide pour préférer l'erreur carrée à l'erreur absolue.

c'est absolument sur le nez et aborde précisément les points sur lesquels j'étais confus.L'application de la méthode que vous décrivez dans la section «prédiction» pour une distribution d'erreur arbitraire et une fonction de coût nécessite d'évaluer la valeur attendue de la fonction de coût.Cela nécessite que le produit de la distribution des erreurs et de la fonction de coût soit intégrable.Est-ce exact?
@RyanVolpi, oui, je pense que c'est correct.Curieusement, j'ai rencontré des situations dans lesquelles ce n'est pas le cas;voir ["Dans la sélection du modèle, que faire si la perte de prédiction attendue de tous les modèles est infinie?"] (https://stats.stackexchange.com/questions/425663/).
`` Parce que les erreurs normales sont courantes dans les applications, sans doute plus que les erreurs de Laplace '' Je ne pense pas que vous ayez besoin de mettre cela en garde avec `` discutable '' - les variables distribuées laplaciennes ne surviennent que comme la différence entre deux variables distribuées exponentiellement, ce qui est clairement un jolisituation rare par rapport à une variable qui est elle-même la somme de nombreuses variables indépendantes (ie ~ gaussienne)
En corollaire, considérons un problème de classification.Nous nous entraînons généralement avec une perte d'entropie croisée (c'est-à-dire que nous supposons que les données sont le résultat d'essais de Bernoulli indépendants), mais considérons les métriques comme une précision ou un rappel lorsque nous examinons les données de validation ou de test.
Merci @stuart10, pour le commentaire, j'ai frappé "sans doute".
Il semble que vous déclarez que ce que vous appelez une «perte d'estimation» doit être MLE.Je pense qu'il y a un argument circulaire ici.Pourquoi MLE?Nous savons que MLE et OLS donnent les mêmes estimations sous l'hypothèse de normalité.Il semble que vous liez l'hypothèse distributionnelle à la fonction de perte.Ce n'est pas évident, et je ne pense pas que ce soit correct non plus
Merci @Aksakal, pour le commentaire.Premièrement, je ne dis pas que ce doit être MLE;Je dis que d'un point de vue fréquentiste, c'est un premier choix judicieux en raison des propriétés d'optimalité du MLE.(D'un point de vue bayésien, ce serait un choix judicieux sous un a priori plat.) Compte tenu de l'optimalité du MLE et de l'ubiquité des erreurs normalement distribuées, la perte quadratique constitue un défaut raisonnable d'estimation.Cela peut justifier sa popularité.Mon point central, cependant, est la clarification de la perte d'estimation et de la perte de prédiction.C'est ce que les gens trouvent souvent déroutant.
@RichardHardy votre point central est intéressant.Je ne suis pas sûr qu'il soit optimal de séparer les étapes comme celle-ci.Imaginez que vous ayez fait quelque chose comme MLE directement à la prévision optimale.dans ma réponse, je suppose implicitement que la distribution est connue, donc en ce sens je ne mélange pas vraiment estimation et prévision, je prétends qu'aucune estimation n'est nécessaire.
@Aksakal, qui est une question intéressante, une que j'ai également examinée avant et discutée dans les commentaires quelque part.D'un point de vue bayésien et dans le cadre de la maximisation de l'utilité attendue, les deux étapes consécutives seraient optimales.D'un point de vue fréquentiste, je trouve que les propriétés d'optimalité sont plus difficiles à saisir (voir ["Décisions optimales basées sur des estimateurs fréquentistes"] (https://stats.stackexchange.com/questions/451246)) et moins pertinentes pour la résolution de problèmes pratiques.Quoi qu'il en soit, le cadre que je présente est assez orthodoxe;la nouveauté, le cas échéant, réside dans son articulation.
@Aksakal, et voici quelques questions plus vaguement liées: ["Maximisation de l'utilité attendue lorsque les croyances sont inexactes"] (https://stats.stackexchange.com/questions/425655), ["Optimisation des fonctions de perte AIC wrt utilisées pour l'évaluation"](https://stats.stackexchange.com/questions/425675), ["Un décalage entre les fonctions de perte utilisées pour la sélection des paramètres d'ajustement et de réglage pourrait-il être justifié?"] (https://stats.stackexchange.com/questions/369589).
Et puis il y a le cas curieux contre les règles de notation appropriées qui pourraient être en quelque sorte liées à la discussion.Lorsque l'utilité n'est pas une transformation affine du score (qui pourrait être justifiée par l'aversion au risque et autres), la maximisation de l'utilité attendue serait en conflit avec la maximisation du score attendu;voir Winkler & Jose "Scoring rules" (2010).(Ceci est plus une note à moi-même pour le moment.)
stuart10
2020-06-06 19:05:33 UTC
view on stackexchange narkive permalink

Je pense qu'il vaut la peine de prendre du recul et de considérer ce qu'impliquent les deux pertes.

En la regardant d'un point de vue probabiliste, la fonction de perte est équivalente à la fonction de vraisemblance logarithmique supposée et devrait donc correspondre à la façon dont nous pensons que nos mesures sont distribuées autour de leurs «vraies» valeurs inconnues.

Comme vous le dites, dans le cas de l'OLS, cela équivaut à supposer une vraisemblance gaussienne, où en tant que fonction de perte d'erreur absolue équivaut à une vraisemblance laplacienne.Les vraisemblances gaussiennes sont beaucoup plus souvent une bonne correspondance avec la vie réelle en raison du théorème de limite central.

Nos prédictions sont en général améliorées en rendant notre modèle supposé (et implicitement génératif) aussi proche que possible de la réalité.Dans de nombreux cas (la plupart?), Cela améliorera la précision prédictive par n'importe quelle métrique sensible (y compris par exemple l'erreur absolue moyenne).C'est beaucoup plus souvent le cas en supposant qu'une probabilité gaussienne y parviendra.

Affirmez-vous qu'un ajustement de modèle par OLS aura en fait un MAE attendu plus faible sur des données invisibles qu'un ajustement utilisant MAE?
Pas dans absolument tous les cas non, mais si le processus sous-jacent produisant les données est (approximativement) gaussien, alors supposer une perte au carré de la formation (c'est-à-dire la probabilité gaussienne) produira souvent des MAE plus faibles sur des données invisibles que l'hypothèse d'un modèle clairement incorrect dans la formation(c'est-à-dire une vraisemblance laplacienne).
Museful
2020-06-06 19:20:59 UTC
view on stackexchange narkive permalink

Si les erreurs sont indépendantes et suivent la distribution normale (de toute variance mais cohérente), alors la somme des erreurs quadratiques correspond à leur probabilité / vraisemblance conjointe.

$ \ Pi e ^ {- x_i ^ 2} = e ^ {- \ Sigma x_i ^ 2} $

Dans ces conditions, minimiser la somme des erreurs carrées revient à maximiser la vraisemblance.


Si une prédiction minimisant les coûts est nécessaire (lorsque la métrique de coût est différente de MSE), l'approche générale / précise consisterait à minimiser explicitement le coût attendu sur toute la distribution des modèles pondérés par leurs probabilités (ou probabilités si vous avez connaissance préalable). Ceci dissocie complètement le problème de la minimisation du coût attendu du problème de l'estimation en présence de bruit.

Supposons que vous mesuriez une quantité constante en présence de bruit gaussien. Même si votre métrique de coût pour les résultats futurs est MAE, vous préférez prédire avec la moyenne (minimisant MSE passé) que la médiane (minimisant MAE passé), si en effet vous savez que la quantité est constante et que le bruit de mesure est gaussien.

Exemple

Considérez la répartition suivante des coups produits par une arme à feu fixée mécaniquement. Vous placez un cercle d'une taille donnée quelque part sur la cible. Si le prochain coup atterrit entièrement à l'intérieur de votre cercle, vous gagnez, sinon vous perdez. La fonction de coût est de la forme $ f_C (x, y) = sign ((x-x_C) ^ 2 + (y-y_C) ^ 2-R ^ 2) $ span>.

enter image description here

Si vous minimisez $ \ sum_i f_C (x_i, y_i) $ , vous placeriez le cercle en position bleue, contenant entièrement le nombre maximum de plans passés. Mais si vous saviez que le pistolet est fixé en place et que l'erreur est gaussienne, vous placeriez le cercle en position verte, centré sur la moyenne / centroïde des données (minimisant MSE), car vous optimisez le gain futur attendu, pas le passé moyen gain.

Y a-t-il une raison pratique pour laquelle il serait préférable de maximiser la probabilité plutôt que de minimiser l'attente d'un paramètre de coût réaliste?
@RyanVolpi Prenons le cas le plus simple par exemple: essayer de mesurer une quantité constante en présence de bruit gaussien.Même si votre métrique de coût pour les résultats futurs est une erreur absolue, vous préférez prédire avec la moyenne (minimisant l'erreur quadratique passée) que la médiane (minimisant l'erreur absolue passée), si en effet vous savez que la quantité est constante et que le bruit de mesure est gaussien.
@RyanVolpi Dans mon esprit, minimiser le coût de la prédiction (futur) est une préoccupation distincte de la suppression du bruit de mesure (passé).La manière explicite d'y parvenir serait de minimiser une distribution de modèles pondérés.
Je n'y ai jamais pensé de cette façon.Ainsi, en présence de bruit gaussien, la moyenne minimise mieux le MAE attendu que la médiane.Cela s'étend-il à d'autres circonstances?Par exemple, pour un modèle linéaire avec erreur gaussienne, les estimations des moindres carrés sont-elles meilleures que les estimations de l'erreur absolue en termes de MAE attendue?
@RyanVolpi Je présume que oui tant que les erreurs proviennent (pour des raisons pratiques) d'un bruit gaussien aléatoire et non de votre modèle surcontraint.
Seriez-vous prêt à modifier votre réponse pour le déclarer plus explicitement?Je pense que cela fait un point très important que je n'ai pas tiré des autres réponses.
@RyanVolpi Pas de problème, mais cela me prendra un peu de temps car je ne parle pas couramment le jargon.
@Aksakal centrant le cercle sur la moyenne fait cela.
@Aksakal sur la moyenne de l'échantillon (centroïde) en l'absence d'informations préalables: le point minimisant la MSE sur l'échantillon.
@Museful, il ne m'est jamais venu à l'esprit que les coups de feu sont modélisés avec une distribution gaussienne corrélée.on pourrait penser qu'il devrait y avoir une distribution asymétrique sur les deux axes en raison des asymétries du pistolet par rapport au corps et de l'action de recul.Je regarde souvent la feuille cible, mais je n'ai jamais pensé à modéliser les données.exemple intéressant
supercat
2020-06-06 22:35:58 UTC
view on stackexchange narkive permalink

Supposons que l'on lance un dé (numéroté de 1 à 6) et souhaite calculer son écart moyen par rapport à la valeur moyenne de 3,5. Deux rouleaux différeraient de 0,5, deux de 1,5 et deux de 2,5, pour un écart moyen de 1,5. Si l'on prend la moyenne des carrés des valeurs, on aurait un écart de 0,25, un de 2,25, et un de 6,25, pour une moyenne de 2,916 (35/12).

Supposons maintenant qu'au lieu de lancer un dé, on en lance deux. L'écart moyen serait de 1,94 (35/18) et le carré moyen de l'écart serait de 5,833 (70/12).

Si, au lieu de lancer deux dés, on voulait estimer l'écart attendu en fonction de ce qu'il était avec un dé, doubler l'écart moyen linéaire d'un seul dé (c'est-à-dire 1,5) donnerait une valeur de 3, ce qui est beaucoup plus grand que l'écart moyen linéaire réel de 1,94. D'un autre côté, doubler le carré moyen de l'écart lors de l'utilisation d'un seul dé (2,916) donnerait précisément le carré moyen de l'écart lors de l'utilisation de deux dés.

En général, la racine carrée de la moyenne des carrés est un nombre plus utile que la moyenne des carrés elle-même, mais si l'on veut calculer la racine carrée de la moyenne d'un tas de carrés, c'est plus facile à garder les valeurs à ajouter sous forme de carrés, plutôt que de prendre les racines carrées chaque fois que les rapportent et de les mettre au carré avant de pouvoir être ajoutées ou moyennées.

Drunk Deriving
2020-06-07 04:32:24 UTC
view on stackexchange narkive permalink

À mon avis, cela revient à dire que l'erreur quadratique garantit une solution unique, plus facile à travailler et donc beaucoup plus d'intuition. Par seulement deux hypothèses principales (et la linéarité du terme d'erreur), une fonction de perte quadratique garantit que le coefficient estimé est l'unique minimisé. Les écarts les moins absolus n'ont pas cette propriété. Il existe toujours un potentiel pour un nombre infini de solutions. En supposant que $ \ existe \ theta_o \ in \ Theta $ tel que $ E (y | x) = m (x, \ theta_o) $ et $ E ((m (x, \ theta) -m (x, \ theta_o) ^ 2) >0 $ pour tout $ \ theta \ neq \ theta_o $ , alors $ \ theta_o $ est le minimiseur unique pour les moindres non linéaires carrés.

Preuve: Soit $ y = m (x, \ theta_o) + u $ et $ E (u | x ) = 0 $ . Alors $$ E _ {\ theta_o} ((ym (x, \ theta)) ^ 2) = E _ {\ theta_o} ((ym (x, \ theta_o) + m (x , \ theta_0) -m (x, \ theta)) ^ 2) $$

$$ = E _ {\ theta_o} (u ^ 2) + E _ {\ theta_o} ((m (x, \ theta_o) -m (x, \ theta)) ^ 2) + 2E _ {\ theta_o} (u (m (x, \ theta_o) -m (x, \ theta))). $$

Selon la loi des attentes itérées, le troisième terme est nul. Par conséquent

$$ E _ {\ theta_o} ((ym (x, \ theta)) ^ 2) = u ^ 2 + E _ {\ theta_o} ((m (x, \ thêta_o) -m (x, \ thêta)) ^ 2) $$ est minimisé de manière unique à $ \ theta_o $ .

Une autre propriété intéressante est la loi totale de la variance

$$ Var (Y) = Var_X (E_Y (Y | X)) + E_X (Var_Y (Y | X)), $$

qui peut être lu comme la variance de la variable dépendante est la variance de la valeur ajustée plus la variance du résidu.

Sur une note plus technique, les formules asymptotiques sont beaucoup plus faciles pour une fonction de perte quadratique.Surtout, les formules ne dépendent pas de la densité de probabilité du terme d'erreur.Malheureusement, ce n'est pas vrai pour les écarts les moins absolus.Par conséquent, la plupart des praticiens finissent par devoir assumer l'indépendance du terme d'erreur (la formule a la densité conditionnelle du terme d'erreur à 0 conditionnée sur $ x $ , ce qui est impossible àestimation ( $ f_ {u | x} (0) $ )) pour estimer $ f_u (0) $ span>.

Et le point le moins rigoureux est que les gens ont plus de facilité à comprendre ce qu'est une valeur moyenne ou attendue, et la perte quadratique se résout pour l'espérance conditionnelle.Les écarts les moins absolus semelles pour la médiane, qui est juste plus difficile à interpréter.Une autre raison pour laquelle les régressions quantiles ne sont pas très populaires.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...