Pourquoi nous inquiétons-nous du surajustement même si «tous les modèles sont faux»?

Dave

2019-10-31 18:31:58 UTC

view on stackexchange narkive permalink

La citation de Box est du type "Tous les modèles sont faux, mais certains sont utiles."

Si nous avons un mauvais surajustement, notre modèle ne sera pas utile pour faire des prédictions sur de nouvelles données.

Cela devrait vraiment être "Tous les modèles sont faux, mais certains sont plus utiles que d'autres."

Actuellement, c'est la réponse avec le plus de votes positifs.Je pense que cette question mérite une réponse plus longue, par ex.qui explique pourquoi le surajustement implique une mauvaise généralisation, ce qui cause le surajustement et peut-être même ce qu'est le surajustement et ce qu'il n'est pas.

Par exemple: si le surajustement serait défini comme obtenant une erreur de prédiction d'échantillon qui est bien en dessous de l'erreur dans les données, alors je ne vois pas comment ni pourquoi cela implique une mauvaise généralisation.

Ben

2019-11-01 08:32:36 UTC

view on stackexchange narkive permalink

Pourquoi nous inquiétons-nous du surajustement même si "tous les modèles sont faux"?

Votre question semble être une variante de l ' erreur Nirvana, suggérant implicitement que s'il n'y a pas de modèle parfait, alors chaque modèle est également satisfaisant (et donc les défauts des modèles ne sont pas pertinents). Notez que vous pouvez tout aussi bien poser cette même question sur tout défaut d'un modèle:

Pourquoi nous préoccupons-nous de l'estimation du maximum de vraisemblance même si "tous les modèles sont faux"?
Pourquoi nous inquiétons-nous des erreurs standard même si "tous les modèles sont erronés"?
Pourquoi nous préoccupons-nous de nettoyer nos données même si "tous les modèles sont erronés"?
Pourquoi nous inquiétons-nous de l'arithmétique correcte même si "tous les modèles sont faux"?

La bonne réponse à toutes ces questions est que nous ne devons pas faire du parfait l’ennemi du bien --- même si "tous les modèles sont faux", un modèle qui est moins mal est toujours préférable à un modèle qui est plus faux .

Cliff AB

2019-11-01 05:47:41 UTC

view on stackexchange narkive permalink

La citation complète est "Tous les modèles sont faux, mais certains sont utiles".Nous nous soucions du surajustement, car nous voulons toujours que nos modèles soient utiles.

Si vous êtes familier avec le compromis biais-variance, l'affirmation «tous les modèles sont faux» équivaut à peu près à dire «tous les modèles ont un biais non nul».Le surajustement est le problème du fait que même si nous pouvons augmenter le nombre de paramètres dans un modèle pour réduire le biais, généralement plus nous avons de paramètres, plus il y aura de variance dans notre estimation.Un modèle utile est celui qui équilibre entre être suffisamment flexible pour réduire le biais, mais pas si flexible que la variance est trop élevée.

@CagdasOzgenc, c'est intéressant.Comment définissez-vous exactement le biais du modèle?(Un exemple trivial complétant la réponse théorique pourrait être utile.) Un fil conducteur est [Quelle est la variable aléatoire lorsque nous parlons de modèle à variance élevée ou de modèle à biais élevé?] (Https://stats.stackexchange.com/questions/433972/ quelle-est-la-variable-aléatoire-quand-on-parle-de-modèle-de-variance-élevée-ou-de-biais-élevé / 433988 # 433988).Votre réponse pourrait également être appréciée;J'ai encore du mal avec la formulation du mien.

"La littérature standard suppose que le modèle paramétrique subsume la vérité et nous pouvons donc parler d'un vecteur de biais proche de zéro."Le point de la citation «Tous les modèles sont faux» est que, bien que nous partions souvent de cette hypothèse parce qu'elle facilite les calculs, c'est une hypothèse fondamentalement erronée.

@CagdasOzgenc, votre définition du biais de modèle est-elle conforme à la caractérisation suivante?L'erreur de prédiction au carré attendue peut être décomposée de manière additive en biais au carré, variance et erreur irréductible.La partie déterministe du modèle se traduit par une erreur quadratique attendue égale au carré du biais + variance.Avec une précision d'estimation parfaite, la variance est nulle.Par conséquent, le biais au carré est l'erreur quadratique attendue dans l'estimation de la partie déterministe du résultat lorsque la précision de l'estimation est parfaite.Ainsi, le biais reflète la meilleure approximation possible du DGP permise par le modèle.

@CagdasOzgenc: Je pense que votre argument est alors "il y a des modèles qui ne sont pas faux".Cela vaut la peine d'être discuté, mais cela devient beaucoup plus compliqué.De plus, nous introduisons généralement ** un biais ** dans de tels modèles sans limiter la flexibilité (c'est-à-dire la régularisation) afin d'apprivoiser la variance.Il y a plusieurs façons de discuter de cela, alors je dirais que cela dépasse le cadre de cette question.

La régularisation @CliffAB, introduit un biais dans un estimateur de paramètre, pas dans un modèle.Par exemple, si le modèle (la forme fonctionnelle) coïncide avec le DGP (même si peu probable, supposons que pour les besoins de l'illustration), il n'y a pas de biais de modèle.Cependant, nous pouvons toujours introduire un biais dans un estimateur de paramètre de ce modèle en effectuant une certaine régularisation.

Merci @CagdasOzgenc,.Le chiffre en outre est également utile;Je l'avais oublié, mais maintenant je suis heureux de le redécouvrir.

James

2019-10-31 19:19:39 UTC

view on stackexchange narkive permalink

Une Citroën 2CV est, à bien des égards, une voiture médiocre. Lent, non raffiné et bon marché. Mais il est polyvalent et peut fonctionner efficacement sur les routes goudronnées et les champs fraîchement labourés.

En comparaison, une voiture de F1 est considérée comme le summum de l'ingénierie automobile. Rapide, précis et utilisant uniquement les meilleurs composants. Je n'aimerais pas en conduire un à travers un champ ouvert.

La 2CV a une applicabilité générale, tandis que la voiture F1 n'a qu'une applicabilité très spécifique. La voiture de F1 a été suréquipée pour répondre au problème spécifique de faire le tour d'un circuit le plus rapidement possible avec le bénéfice d'une équipe d'ingénieurs professionnels pour surveiller, évaluer et résoudre les problèmes pouvant survenir lors d'un fonctionnement à haute performance.

De même, un modèle sur-ajusté fonctionnera bien dans des situations où il est sur-ajusté, mais mal (ou pas du tout) ailleurs. Un modèle d'application générale sera plus utile s'il sera exposé à différents environnements hors de votre contrôle, même s'il n'est pas aussi bon que des modèles spécifiques.

L'avocat du diable: Le problème avec la conduite d'une F1 sur un terrain ouvert n'est pas que la F1 convient si bien aux pistes de course (je pourrais imaginer qu'il peut y avoir une voiture qui convient à la fois aux champs ouverts et aux pistes de course),mais que le F1 est juste un mauvais ajustement pour les champs ouverts.

@Dirk en fait oui, littéralement, le problème avec la conduite d'une F1 sur un terrain dégagé est que c'est un si bon choix pour les pistes de course.À savoir, il s'adapte très bien au sol d'un chemin de roulement plat (faible garde au sol), mais n'est donc pas aussi flexible pour s'adapter également à tout ce qui n'est pas plat.Une voiture normale a une suspension plus flexible, ce qui signifie qu'elle ne «colle pas au trottoir» aussi mais qu'elle gère également d'autres tâches.- «Il peut y avoir une voiture qui convient à la fois aux terrains ouverts et aux circuits» - qui nécessiterait une très bonne suspension active, serait probablement lourde et donc plus lente.

Je ne trouve pas cela une très bonne analogie.Un modèle gravement surajusté (comme un polynôme à n degrés ajusté à n + 1 points) n'est utile pour rien.Un F1 n'est pas suréquipé, c'est juste un outil hautement spécialisé utile pour un rôle très spécifique.L'analogie statistique serait un modèle qui est formé et utile pour un type très spécifique de prévision, mais pas utile pour d'autres rôles;un tel modèle n'est pas suréquipé, mais d'une portée très limitée.

@gerrit le modèle sur-ajusté prédit exactement n + 1 points.Cela ne sert à rien ailleurs.

@Caleth Les points d'entraînement ne sont pas une prévision / prédiction, ils sont une mesure.

Les modèles surajustés @gerrit sont utiles dans des tâches telles que la compression de données, où l'objectif est la reconstruction des données de test.Les voitures de F1 reconstruisent la piste.C'est pourquoi ils modifient la configuration de chaque piste plutôt que d'utiliser une configuration générale pour toute la saison.

@James J'avoue que je ne connais pas grand-chose à la compression ou à ce que le surajustement implique pour elle, bien qu'il me semble que stocker un polynôme à n degrés au lieu de (n + 1) points de données ne permet pas d'économiser beaucoup ou pas d'espace.

@gerrit Je peux vous donner 10 000 points de données à partir d'une courbe quadratique, mais vous pouvez la décrire entièrement avec seulement 3 paramètres.

@James Oui - mais alors vous n'êtes pas surajustement.Je peux voir comment les modèles peuvent être utilisés pour la compression, mais je ne suis pas sûr de la place du surajustement.Dans votre exemple, une compression sans perte ne fonctionnera que si les points de données restants correspondent parfaitement au modèle, et pour une compression avec perte (peut-être qu'il y a du bruit sur la courbe quadratique), il faut à nouveau un modèle qui généralise (interpole) bien de sorte que l'utilisation ausside nombreux paramètres aggraveraient l'ajustement, n'est-ce pas?Le surajustement ne conduit pas toujours à une mauvaise généralisation.

@gerrit Le bruit est le signal.Vous overfit jusqu'à ce que vous capturiez tout le bruit afin de récupérer les données d'origine avec l'entrée spécifique (du signal compressé) et ne vous souciez pas qu'il ne sera d'aucune utilité avec une entrée différente (et préférez en fait cela).

Laissez-nous [continuer cette discussion dans le chat] (https://chat.stackexchange.com/rooms/100584/discussion-between-gerrit-and-james).

Peter Flom

2019-11-01 16:57:29 UTC

view on stackexchange narkive permalink

Comme d'autres l'ont noté, la citation complète est "tous les modèles sont faux, mais certains sont utiles."

Lorsque nous surajustons un ensemble de données, nous créons un modèle qui n'est pas utile. Par exemple, composons quelques données: set.seed (123)

  x1 <- rnorm (6)
x2 <- rnorm (6)
x3 <- rnorm (6)
x4 <- rnorm (6)
y <- rnorm (6)

qui crée 5 variables, chacune une normale standard, chacune avec N = 6.

Maintenant, adaptons un modèle:

  overfit <- lm (y ~ x1 + x2 + x3 + x4)

Le modèle a $ R ^ 2 $ de 0,996. x2 a une valeur p significative et x4 est presque sig. (au niveau habituel de 0,05).

  Coefficients:
            Estimer Std. Erreur t valeur Pr (> | t |)
(Interception) -0,54317 0,08887 -6,112 0,1032
x1 2,01199 0,14595 13,785 0,0461 *
x2 0,14325 0,08022 1,786 0,3250
x3 0,45653 0,08997 5,074 0,1239
x4 1,21557 0,15086 8,058 0,0786.
---
Signif. codes: 0 «***» 0,001 «**» 0,01 «*» 0,05 «.» 0,1 «» 1

Erreur standard résiduelle: 0,1601 sur 1 degré de liberté
R-carré multiple: 0,9961, R-carré ajusté: 0,9805
Statistique F: 64,01 sur 4 et 1 DF, valeur p: 0,09344

Cela correspond presque parfaitement aux données, par exemple essayez

tracé (prédire (surajustement), y)

Mais ce n'est que du bruit aléatoire.

Si nous essayons d'appliquer ce modèle à d'autres données, nous obtiendrons des fichiers indésirables.

Carl

2019-11-01 16:46:54 UTC

view on stackexchange narkive permalink

Chaque modèle a une erreur. Le meilleur modèle est celui qui minimise l'erreur associée à ses prédictions. C'est pourquoi les modèles sont généralement construits en utilisant uniquement une partie des données (dans l'échantillon), puis appliqués à l'ensemble de données restant «hors échantillon». Un modèle sur-ajusté aura généralement une plus grande erreur de prédiction en pratique qu'un modèle bien formulé. De plus, un modèle doit être intellectuellement robuste: il ne sert à rien de construire un modèle qui fonctionne dans un «régime» s'il ne fonctionne pas du tout en cas de changement de régime. Un tel modèle peut sembler très bien formé jusqu'à ce que le régime change, car essentiellement un tel modèle a été construit «dans l'échantillon». Une autre façon de dire cela est que l'erreur attendue du modèle doit également être bien formulée. Il y a aussi la question du «rasoir d'Occam», qui est une idée philosophique selon laquelle le modèle devrait essentiellement être le plus simple possible, en utilisant le moins de variables nécessaires pour décrire le système modélisé. Cela sert de guide utile, plutôt que de règle fixe, mais je pense que c'est l'idée derrière l'utilisation du `` R ajusté au carré '' plutôt que du R au carré, pour ajuster l'amélioration naturelle de l'ajustement associée à l'utilisation plus de variables (par exemple, vous auriez un ajustement parfait, un R au carré de 100% si vous aviez une variable distincte pour chaque donnée!). C'est aussi une idée qui devrait être appliquée aux techniques modernes de ML: lancer par ex. des milliers de variables dans un algorithme ML sont dangereux à moins que vous n'ayez des millions de données (et même alors ... vous feriez peut-être mieux de transformer vos données pour réduire d'abord le nombre de variables). Un dernier point: chaque modèle nécessite une croyance. Même nos lois de la physique sont basées sur l'observation, et en fait elles ont nécessité des modifications lorsque nous sommes passés de la physique newtonienne aux domaines du très petit (mécanique quantique) et du très grand (relativité générale). Nous ne pouvons pas dire avec une certitude absolue que nos lois actuelles de la physique tiendront dans le futur, ou même dans le passé (par exemple à l'époque du big bang). Mais faire appel à notre croyance philosophique dans le rasoir d'Occam nous amène à accepter ces modèles et idées car ce sont les modèles les plus simples à ce jour qui correspondent à nos observations et à nos données.

En résumé, il n'y a pas de règles strictes et rapides.Imaginez un système dynamique complexe (chaotique?), Par exemple, l'économie mondiale.Vous pouvez construire un modèle bien formé qui fonctionne bien pendant une courte période de temps.Mais le `` changement de régime '' est un problème très réel: le système économique est très complexe et non linéaire, et il y a beaucoup plus de variables que vous ne pouvez en mesurer, qui pourraient être sans conséquence dans le régime de l'échantillon, mais d'une importance énormedans un autre «régime».Mais au cours de votre courte période, essentiellement dans l'échantillon, vous constaterez peut-être que la régression linéaire fonctionne assez bien.Le bon sens doit prévaloir: parfois un modèle très complexe est nécessaire, mais il doit être fortement mis en garde si l'erreur associée à ses prédictions est inconnue.

Je suis sûr qu'un bon statisticien peut donner une bien meilleure réponse que celle-ci, mais comme aucun des points ci-dessus ne semble encore avoir été soulevé, j'ai pensé que je tiendrais le cou ...

NotThatGuy

2019-11-01 20:27:51 UTC

view on stackexchange narkive permalink

Tous les modèles sont faux, mais certains sont moins faux que d'autres.

Le surajustement rend généralement votre modèle plus erroné lorsqu'il traite des données du monde réel.

Si un médecin essayait de diagnostiquer si vous avez un cancer, préférez-vous qu'il se trompe 50% du temps ( très faux) ou 0,1% du temps (beaucoup moins faux)?

Ou disons que vous offrez quelque chose gratuitement si votre modèle prédit que cela conduira le client à acheter quelque chose plus tard.Préférez-vous donner beaucoup de choses gratuitement sans que cela fasse une différence quant à savoir si les clients achètent des choses plus tard (tout à fait faux) ou si la plupart des clients reviennent pour acheter des choses plus tard (moins de mal)?

Il est clair que moins de mal, c'est mieux.