Nous avons un ensemble de données avec 10 000 instances étiquetées manuellement et un classificateur qui a été formé sur toutes ces données. Le classificateur a ensuite été évalué sur TOUTES ces données pour obtenir un taux de réussite de 95%.
Qu'est-ce qui ne va pas exactement avec cette approche? Est-ce juste que la statistique 95% n'est pas très informative dans cette configuration? Peut-il encore y avoir une certaine valeur dans ce nombre de 95%? Bien que je comprenne que, théoriquement, ce n'est pas une bonne idée, je n'ai pas assez d'expérience dans ce domaine pour être sûr par moi-même. Notez également que je n'ai ni construit ni évalué le classificateur en question.
À part le bon sens, quelqu'un pourrait-il me donner une référence très solide et faisant autorité, disant que cette configuration est en quelque sorte erronée?
Tout ce que je trouve sur Internet, ce sont des exemples de jouets censés transmettre une certaine intuition. Ici, j'ai un projet de professionnels avec une expérience établie, donc je ne peux pas simplement dire "c'est faux", d'autant plus que je n'en suis pas sûr.
Par exemple, ceci La page dit:
L'évaluation des performances du modèle avec les données utilisées pour l'entraînement n'est pas acceptable dans l'exploration de données car elle peut facilement générer des modèles suroptimistes et surajustés.
Cependant, ce n'est guère une référence faisant autorité. En fait, cette citation est manifestement erronée, car l'évaluation n'a rien à voir avec la génération de modèles sur-ajustés. Cela pourrait générer des data scientists suroptimistes qui choisiraient les mauvais modèles, mais une stratégie d'évaluation particulière n'a rien à voir avec le surajustement des modèles en soi.