Je me demande pourquoi nous nous soucions autant du surajustement.Nous savons que les modèles statistiques sont des outils pour nous fournir certaines informations, mais ils ne sont même pas totalement exacts.
Je me demande pourquoi nous nous soucions autant du surajustement.Nous savons que les modèles statistiques sont des outils pour nous fournir certaines informations, mais ils ne sont même pas totalement exacts.
La citation de Box est du type "Tous les modèles sont faux, mais certains sont utiles."
Si nous avons un mauvais surajustement, notre modèle ne sera pas utile pour faire des prédictions sur de nouvelles données.
Pourquoi nous inquiétons-nous du surajustement même si "tous les modèles sont faux"?
Votre question semble être une variante de l ' erreur Nirvana, suggérant implicitement que s'il n'y a pas de modèle parfait, alors chaque modèle est également satisfaisant (et donc les défauts des modèles ne sont pas pertinents). Notez que vous pouvez tout aussi bien poser cette même question sur tout défaut d'un modèle:
Pourquoi nous préoccupons-nous de l'estimation du maximum de vraisemblance même si "tous les modèles sont faux"?
Pourquoi nous inquiétons-nous des erreurs standard même si "tous les modèles sont erronés"?
Pourquoi nous préoccupons-nous de nettoyer nos données même si "tous les modèles sont erronés"?
Pourquoi nous inquiétons-nous de l'arithmétique correcte même si "tous les modèles sont faux"?
La bonne réponse à toutes ces questions est que nous ne devons pas faire du parfait l’ennemi du bien --- même si "tous les modèles sont faux", un modèle qui est moins mal est toujours préférable à un modèle qui est plus faux .
La citation complète est "Tous les modèles sont faux, mais certains sont utiles".Nous nous soucions du surajustement, car nous voulons toujours que nos modèles soient utiles.
Si vous êtes familier avec le compromis biais-variance, l'affirmation «tous les modèles sont faux» équivaut à peu près à dire «tous les modèles ont un biais non nul».Le surajustement est le problème du fait que même si nous pouvons augmenter le nombre de paramètres dans un modèle pour réduire le biais, généralement plus nous avons de paramètres, plus il y aura de variance dans notre estimation.Un modèle utile est celui qui équilibre entre être suffisamment flexible pour réduire le biais, mais pas si flexible que la variance est trop élevée.
Une Citroën 2CV est, à bien des égards, une voiture médiocre. Lent, non raffiné et bon marché. Mais il est polyvalent et peut fonctionner efficacement sur les routes goudronnées et les champs fraîchement labourés.
En comparaison, une voiture de F1 est considérée comme le summum de l'ingénierie automobile. Rapide, précis et utilisant uniquement les meilleurs composants. Je n'aimerais pas en conduire un à travers un champ ouvert.
La 2CV a une applicabilité générale, tandis que la voiture F1 n'a qu'une applicabilité très spécifique. La voiture de F1 a été suréquipée pour répondre au problème spécifique de faire le tour d'un circuit le plus rapidement possible avec le bénéfice d'une équipe d'ingénieurs professionnels pour surveiller, évaluer et résoudre les problèmes pouvant survenir lors d'un fonctionnement à haute performance.
De même, un modèle sur-ajusté fonctionnera bien dans des situations où il est sur-ajusté, mais mal (ou pas du tout) ailleurs. Un modèle d'application générale sera plus utile s'il sera exposé à différents environnements hors de votre contrôle, même s'il n'est pas aussi bon que des modèles spécifiques.
Comme d'autres l'ont noté, la citation complète est "tous les modèles sont faux, mais certains sont utiles."
Lorsque nous surajustons un ensemble de données, nous créons un modèle qui n'est pas utile. Par exemple, composons quelques données: set.seed (123)
x1 <- rnorm (6)
x2 <- rnorm (6)
x3 <- rnorm (6)
x4 <- rnorm (6)
y <- rnorm (6)
qui crée 5 variables, chacune une normale standard, chacune avec N = 6.
Maintenant, adaptons un modèle:
overfit <- lm (y ~ x1 + x2 + x3 + x4)
Le modèle a $ R ^ 2 $ de 0,996. x2 a une valeur p significative et x4 est presque sig. (au niveau habituel de 0,05).
Coefficients:
Estimer Std. Erreur t valeur Pr (> | t |)
(Interception) -0,54317 0,08887 -6,112 0,1032
x1 2,01199 0,14595 13,785 0,0461 *
x2 0,14325 0,08022 1,786 0,3250
x3 0,45653 0,08997 5,074 0,1239
x4 1,21557 0,15086 8,058 0,0786.
---
Signif. codes: 0 «***» 0,001 «**» 0,01 «*» 0,05 «.» 0,1 «» 1
Erreur standard résiduelle: 0,1601 sur 1 degré de liberté
R-carré multiple: 0,9961, R-carré ajusté: 0,9805
Statistique F: 64,01 sur 4 et 1 DF, valeur p: 0,09344
Cela correspond presque parfaitement aux données, par exemple essayez
tracé (prédire (surajustement), y)
Mais ce n'est que du bruit aléatoire.
Si nous essayons d'appliquer ce modèle à d'autres données, nous obtiendrons des fichiers indésirables.
Chaque modèle a une erreur. Le meilleur modèle est celui qui minimise l'erreur associée à ses prédictions. C'est pourquoi les modèles sont généralement construits en utilisant uniquement une partie des données (dans l'échantillon), puis appliqués à l'ensemble de données restant «hors échantillon». Un modèle sur-ajusté aura généralement une plus grande erreur de prédiction en pratique qu'un modèle bien formulé. De plus, un modèle doit être intellectuellement robuste: il ne sert à rien de construire un modèle qui fonctionne dans un «régime» s'il ne fonctionne pas du tout en cas de changement de régime. Un tel modèle peut sembler très bien formé jusqu'à ce que le régime change, car essentiellement un tel modèle a été construit «dans l'échantillon». Une autre façon de dire cela est que l'erreur attendue du modèle doit également être bien formulée. Il y a aussi la question du «rasoir d'Occam», qui est une idée philosophique selon laquelle le modèle devrait essentiellement être le plus simple possible, en utilisant le moins de variables nécessaires pour décrire le système modélisé. Cela sert de guide utile, plutôt que de règle fixe, mais je pense que c'est l'idée derrière l'utilisation du `` R ajusté au carré '' plutôt que du R au carré, pour ajuster l'amélioration naturelle de l'ajustement associée à l'utilisation plus de variables (par exemple, vous auriez un ajustement parfait, un R au carré de 100% si vous aviez une variable distincte pour chaque donnée!). C'est aussi une idée qui devrait être appliquée aux techniques modernes de ML: lancer par ex. des milliers de variables dans un algorithme ML sont dangereux à moins que vous n'ayez des millions de données (et même alors ... vous feriez peut-être mieux de transformer vos données pour réduire d'abord le nombre de variables). Un dernier point: chaque modèle nécessite une croyance. Même nos lois de la physique sont basées sur l'observation, et en fait elles ont nécessité des modifications lorsque nous sommes passés de la physique newtonienne aux domaines du très petit (mécanique quantique) et du très grand (relativité générale). Nous ne pouvons pas dire avec une certitude absolue que nos lois actuelles de la physique tiendront dans le futur, ou même dans le passé (par exemple à l'époque du big bang). Mais faire appel à notre croyance philosophique dans le rasoir d'Occam nous amène à accepter ces modèles et idées car ce sont les modèles les plus simples à ce jour qui correspondent à nos observations et à nos données.
En résumé, il n'y a pas de règles strictes et rapides.Imaginez un système dynamique complexe (chaotique?), Par exemple, l'économie mondiale.Vous pouvez construire un modèle bien formé qui fonctionne bien pendant une courte période de temps.Mais le `` changement de régime '' est un problème très réel: le système économique est très complexe et non linéaire, et il y a beaucoup plus de variables que vous ne pouvez en mesurer, qui pourraient être sans conséquence dans le régime de l'échantillon, mais d'une importance énormedans un autre «régime».Mais au cours de votre courte période, essentiellement dans l'échantillon, vous constaterez peut-être que la régression linéaire fonctionne assez bien.Le bon sens doit prévaloir: parfois un modèle très complexe est nécessaire, mais il doit être fortement mis en garde si l'erreur associée à ses prédictions est inconnue.
Je suis sûr qu'un bon statisticien peut donner une bien meilleure réponse que celle-ci, mais comme aucun des points ci-dessus ne semble encore avoir été soulevé, j'ai pensé que je tiendrais le cou ...
Tous les modèles sont faux, mais certains sont moins faux que d'autres.
Le surajustement rend généralement votre modèle plus erroné lorsqu'il traite des données du monde réel.
Si un médecin essayait de diagnostiquer si vous avez un cancer, préférez-vous qu'il se trompe 50% du temps ( très faux) ou 0,1% du temps (beaucoup moins faux)?
Ou disons que vous offrez quelque chose gratuitement si votre modèle prédit que cela conduira le client à acheter quelque chose plus tard.Préférez-vous donner beaucoup de choses gratuitement sans que cela fasse une différence quant à savoir si les clients achètent des choses plus tard (tout à fait faux) ou si la plupart des clients reviennent pour acheter des choses plus tard (moins de mal)?
Il est clair que moins de mal, c'est mieux.