Pourquoi ne pas valider sur l'ensemble de la formation?

osa

2015-01-02 22:34:46 UTC

view on stackexchange narkive permalink

Nous avons un ensemble de données avec 10 000 instances étiquetées manuellement et un classificateur qui a été formé sur toutes ces données. Le classificateur a ensuite été évalué sur TOUTES ces données pour obtenir un taux de réussite de 95%.

Qu'est-ce qui ne va pas exactement avec cette approche? Est-ce juste que la statistique 95% n'est pas très informative dans cette configuration? Peut-il encore y avoir une certaine valeur dans ce nombre de 95%? Bien que je comprenne que, théoriquement, ce n'est pas une bonne idée, je n'ai pas assez d'expérience dans ce domaine pour être sûr par moi-même. Notez également que je n'ai ni construit ni évalué le classificateur en question.

À part le bon sens, quelqu'un pourrait-il me donner une référence très solide et faisant autorité, disant que cette configuration est en quelque sorte erronée?

Tout ce que je trouve sur Internet, ce sont des exemples de jouets censés transmettre une certaine intuition. Ici, j'ai un projet de professionnels avec une expérience établie, donc je ne peux pas simplement dire "c'est faux", d'autant plus que je n'en suis pas sûr.

Par exemple, ceci La page dit:

L'évaluation des performances du modèle avec les données utilisées pour l'entraînement n'est pas acceptable dans l'exploration de données car elle peut facilement générer des modèles suroptimistes et surajustés.

Cependant, ce n'est guère une référence faisant autorité. En fait, cette citation est manifestement erronée, car l'évaluation n'a rien à voir avec la génération de modèles sur-ajustés. Cela pourrait générer des data scientists suroptimistes qui choisiraient les mauvais modèles, mais une stratégie d'évaluation particulière n'a rien à voir avec le surajustement des modèles en soi.

De nombreuses personnes (à tort ou à raison) utilisent les évaluations de modèles pour sélectionner leur modèle final.Si tel est le cas, il y a un sens dans lequel une stratégie d'évaluation particulière (inappropriée) peut générer des modèles [finaux] sur-équipés.

Je voudrais simplement soulever vos doutes plus directement.Étant donné que vous dites que ce sont des professionnels avec une expérience établie, pourquoi ne leur demandez-vous pas spécifiquement pourquoi ils n'ont pas utilisé un ensemble de test indépendant.Je soupçonne que c'est un malentendu - peut-être qu'ils ont utilisé un ensemble de test séparé et ensuite formé sur toutes les données.

@seanv507, nous allons demander.Je m'assure simplement qu'il n'y a pas de recherche de pointe dans le domaine de la validation sur l'ensemble de formation ...

Bien que ce ne soit pas une réponse complète à votre question, peut-être qu'une certaine intuition peut être obtenue en considérant le cas suivant.Si un algorithme mémorisait explicitement les 10 000 de vos instances étiquetées, il aurait une précision de 100% lors de l'affichage de l'une de ces instances.Mais que ferait-il avec un label qu'il n'avait jamais vu auparavant ...

Maintenant que j'y pense, de par la nature de l'apprentissage, quel qu'il soit, tout modèle sensé devrait faire mieux quand il a vu les données sur lesquelles il est testé.Il serait vraiment étrange qu'un modèle fasse mieux sur d'autres ensembles de données du monde réel que sur celui sur lequel il a été formé, et il semble statistiquement improbable d'obtenir la même chose, disons 81% dans les deux cas.