Why is leave-one-out cross-validation (LOOCV) variance about the mean estimate for error high?

Question:

xyzzy

2014-03-21 21:55:32 UTC

view on stackexchange narkive permalink

Dans la validation croisée de type «laisser-un-dehors» (LOOCV), chacun des ensembles d'apprentissage ressemble beaucoup aux autres, différant par une seule observation. Lorsque vous souhaitez estimer l'erreur de test, vous prenez la moyenne des erreurs sur les plis. Cette moyenne a une variance élevée.

Existe-t-il une formule mathématique, visuelle ou intuitive pour comprendre pourquoi cette moyenne a une variance plus élevée par rapport à la validation croisée $ k $ -fold?

Cinq réponses:

amoeba

2014-03-21 22:12:37 UTC

view on stackexchange narkive permalink

La version originale de cette réponse manquait le point (c'est alors que la réponse a obtenu quelques votes négatifs). La réponse a été corrigée en octobre 2015.

C'est un sujet quelque peu controversé.

On prétend souvent que LOOCV a une variance plus élevée que $ k $ -fold CV, et qu'il en est ainsi parce que les ensembles d'apprentissage dans LOOCV se chevauchent davantage. Cela rend les estimations des plis différents plus dépendants que dans le CV multiplié par $ k $, le raisonnement va et augmente donc la variance globale. Voir par exemple une citation de The Elements of Statistical Learning par Hastie et al. (Section 7.10.1):

Quelle valeur devrions-nous choisir pour $ K $? Avec $ K = N $, l'estimateur de validation croisée est approximativement sans biais pour l'erreur de prédiction vraie (attendue), mais peut avoir une variance élevée parce que les «ensembles d'apprentissage» $ N $ sont si similaires les uns aux autres.

Voir aussi une citation similaire dans la réponse de @BrashEquilibrium (+1). Les réponses acceptées et les plus votées dans Variance et biais dans la validation croisée: pourquoi le CV sans un seul élément a-t-il une variance plus élevée? donnent le même raisonnement.

TOUTEFOIS, notez que Hastie et al. ne donnez aucune citation, et bien que ce raisonnement semble plausible, j'aimerais voir des preuves directes que tel est effectivement le cas. Une référence qui est parfois citée est Kohavi 1995 mais je ne la trouve pas très convaincante dans cette affirmation particulière.

EN SAVOIR PLUS, voici deux simulations qui montrent que LOOCV a la même variance ou même un peu plus faible que le CV 10 fois:

https://stats.stackexchange.com/a/357572.
Est-ce que $ K $ -fold CV avec $ K = N $ (LOO) fournit les estimations de variables LE PLUS ou MOINS, et quel est le rôle de la "stabilité"?.
Voir également l'article lié dans https://stats.stackexchange.com/a/252031. Il dit que c'est une "idée fausse" que LOOCV a une variance élevée.

pourriez-vous aussi donner l'intuition de la régression?

@xyzzy: Pouvez-vous préciser le problème de régression que vous avez à l'esprit et quel est exactement le rapport avec la validation croisée? Si j'ai mal compris votre question, vous pouvez peut-être la mettre à jour. Je pensais que vous parliez d'un problème de classification parce que vous parliez de «taux d'erreur».

c'est une question d'intuition de base. Je pense que vous pouvez faire une validation croisée sur n'importe quel problème de régression, mais vous obtenez toujours des erreurs de prédiction que vous pouvez mesurer comme une erreur quadratique moyenne. le taux de variance pour le facteur k serait N / k fois plus petit?

@xyzzy: Oui, je pense que la même intuition s'applique. Dans le CV de k fois, vous considérez N / k échantillons dans chaque ensemble de test au lieu de seulement 1, donc la moyenne de vos erreurs de prédiction sur ces N / k échantillons (pour obtenir l'erreur de prédiction moyenne dans chaque pli) conduira à la réduction de la variance ( sur ces erreurs de prédiction moyennes) par N / k. Le point crucial ici est encore une fois que plus vous avez d'échantillons dans votre ensemble de test, plus l'estimation de l'erreur de prédiction / classification est précise dans chaque pli, et plus les estimations sont précises, plus leur variance est petite.

Mais la moyenne sur tous les plis $ k $ et $ n $ fait respectivement la moyenne du même nombre de cas ...

@cbeleites: Oui, certainement. J'ai compris la question comme une question sur la variance * sur les plis *, et non sur * sur les répétitions *. OP pourrait peut-être clarifier ce qu'il ou elle voulait dire.

Je crois que je voulais dire une variance plus élevée dans l'estimation moyenne sur tous les plis (pour LOOCV vs k-pli). J'essaie de distinguer un commentaire que j'ai entendu selon lequel LOOCV a une variance plus élevée dans l'erreur moyenne parce que les ensembles d'apprentissage sont tous fortement corrélés. Je ne sais pas comment comprendre pourquoi il en est ainsi. Je me demande si c'est une combinaison à la fois de la petite taille de l'échantillon (1), à laquelle l'amibe et les cbéléites ont fait allusion, en plus d'avoir quelque chose à voir avec la corrélation dans tous les groupes de train, mais toujours pas capable de l'intuitionner. J'espère que c'est clair.

Cette réponse montre que la variance d'une * une seule estimation * est plus élevée pour LOO que pour k fois.Mais si je ne me trompe pas, en pratique, l'estimation finale est considérée comme la moyenne des estimations sur tous les k plis (avec k = n dans le cas de LOO).La variance pertinente est donc la variance de la * moyenne * des k estimations, n'est-ce pas?Dans ce cas, pour votre exemple de LOO par rapport à 10 fois, les deux expressions de variance se réduisent à $ p (1-p) / N $ et sont donc égales.Cela serait également en accord avec le corollaire 2 ici: http://ai.stanford.edu/~ronnyk/accEst.pdf.Voulez-vous commenter cela?Ai-je mal compris quelque chose?

Je vois maintenant que mon commentaire ignorait la covariance entre les estimations faisant l'objet d'une moyenne.Mais en tout cas, c'est la variance des moyennes qui est intéressante, non?

@Jake, vous avez raison, ma réponse (d'il y a plus d'un an) n'a pas beaucoup de sens;Je l'ai déjà remarqué moi-même mais j'ai oublié de m'en occuper.C'est drôle qu'il ait obtenu 12 votes positifs: - / Je le mettrai à jour quand j'aurai le temps, mais je n'ai pas une très bonne compréhension du sujet.Je sais que les gens disent que la variance élevée de LOOCV est due au fait que les ensembles de tests sont presque les mêmes (voir la citation de la réponse Brash'es, +1), et cela a du sens, mais toute cette question n'est pas tout à fait claire pour moi.

@amoeba J'ai étudié cela et j'ai trouvé de nombreuses déclarations contradictoires provenant de diverses sources pour savoir si c'est vrai.La plupart des sources ont juste un état des stocks sur les estimations corrélées, puis citent peut-être ESL.Au moins un dit que cela n'a pas d'importance (voir la citation précédente).D'autres sources disent explicitement le contraire (par exemple, p. 60 ici: http://projecteuclid.org/euclid.ssu/1268143839).J'ai lancé une petite simulation comparant le nombre de plis $ k $ = 2, 5, 10, $ n $ ce qui suggère que, au moins pour la régression multiple, la variance est la plus petite pour $ k = n $.Envisager d'écrire une réponse avec mes conclusions

C'est intéressant, @Jake.Je voyage actuellement et je dispose de peu de temps pour y travailler.Mais pensez certainement à publier une réponse.Notez qu'il existe deux threads plus anciens qui sont très liés à celui-ci;peut-être que celui-ci devrait même être fermé en double, mais peut-être pas non plus.Voici les fils: [Nombre de plis pour K-fold] (http://stats.stackexchange.com/questions/61546) et [Variance et biais du modèle dans la validation croisée] (http://stats.stackexchange.com/questions / 61783).

@Jake, J'ai maintenant corrigé ma réponse (provoquée par quelques votes négatifs), mais j'ai également voté pour fermer cette question comme un double d'une autre.Je pense toujours que ce sujet nécessite une réponse plus réfléchie / élaborée que toutes les réponses existantes.Je me demande si vous avez davantage expérimenté ce problème.

@amoeba J'ai finalement réussi à poster une question sur ce problème, vous voudrez peut-être la vérifier: https://stats.stackexchange.com/q/280665/5829

Brash Equilibrium

2014-08-04 10:13:09 UTC

view on stackexchange narkive permalink

De Une introduction à l'apprentissage statistique

Lorsque nous effectuons LOOCV, nous faisons en fait la moyenne des sorties de $ n $ modèles ajustés, chacun étant entraîné sur un ensemble d'observations presque identique; par conséquent, ces sorties sont fortement corrélées (positivement) les unes avec les autres. En revanche, lorsque nous exécutons $ k $ -fold CV avec $ k<n $ , nous calculons la moyenne des résultats des modèles ajustés de $ k $ qui sont un peu moins corrélés les uns aux autres, car le chevauchement entre les ensembles d'apprentissage dans chaque modèle est plus petit. Étant donné que la moyenne de nombreuses quantités hautement corrélées a une variance plus élevée que la moyenne de nombreuses quantités qui ne sont pas aussi fortement corrélées, l'estimation de l'erreur de test résultant de LOOCV a tendance à avoir une variance plus élevée que l'estimation de l'erreur de test résultant de $ k $ -fold CV.

Pour résumer, il y a un compromis biais-variance associé au choix de $ k $ en $ k $ -fold validation croisée. En règle générale, compte tenu de ces considérations, on effectue une $ k $ -fold validation croisée avec $ k = 5 $ ou $ k = 10 $ , car il a été démontré empiriquement que ces valeurs donnent des estimations de taux d'erreur de test qui ne souffrent ni d'un biais excessivement élevé ni d'une variance très élevée.

cbeleites unhappy with SX

2014-03-22 09:51:20 UTC

view on stackexchange narkive permalink

Dans les cas simples, je pense que la réponse est: la grande moyenne (sur tous les cas de test et tous les replis) a la même variance pour $ k $ -fold et la validation LOO.
Simple signifie ici: les modèles sont stables, donc chacun des modèles de substitution $ k $ ou $ n $ donne la même prédicion pour le même échantillon (expérience de pensée: tester des modèles de substitution avec un grand ensemble de tests indépendants).
Si les modèles ne sont pas stables, la situation devient plus complexe: chacun des modèles de substitution a ses propres performances , vous avez donc une variance supplémentaire. Dans ce cas, tous les paris sont ouverts, que LOO ou $ k $ -fold ait plus de variance supplémentaire *. Mais vous pouvez itérer le CV multiplié par $ k $ et prendre la moyenne générale sur tous les cas de test et tous les modèles de substitution $ i \ times k $ peuvent atténuer cette variance supplémentaire. Une telle possibilité n'existe pas pour LOO: les modèles de substitution $ n $ sont tous des modèles de substitution possibles.
La grande variance est généralement due à deux facteurs :
- petite taille de l'échantillon (si vous n'étiez pas dans une situation de petite taille d'échantillon, vous ne vous inquiéteriez pas de la variance ;-)).
- Type de mesure d'erreur à variance élevée. Toutes les erreurs de classification de type proportion de cas de test sont sujettes à une variance élevée. Il s'agit d'une propriété de base de l'estimation des fractions en comptant les observations. Les erreurs de type régression comme MSE ont un comportement beaucoup plus bénin à cet égard.

Pour les erreurs de classification, il existe un certain nombre d'articles qui examinent les propriétés de différents schémas de validation de rééchantillonnage dans lesquels vous voyez également des variances, par exemple:

Kohavi, R .: A Study of Cross-Validation and Bootstrap for Precuracy Estimation and Model Selection, Mellish, CS ( ed.) Artificial Intelligence Proceedings 14 $ ^ th $ International Joint Conference, 20-25 août 1995, Montréal, Québec, Canada, Morgan Kaufmann, États-Unis, 1137 - 1145 (1995).
Nous avons observé un comportement très similaire pour les données spectroscopiques vibrationnelles:
Beleites, C .; Baumgartner, R .; Bowman, C.; Somorjai, R .; Steiner, G .; Salzer, R. & Sowa, M. G.: Réduction de la variance dans l'estimation de l'erreur de classification à l'aide d'ensembles de données clairsemés, Chemom Intell Lab Syst, 79, 91-100 (2005).

(Je suppose que des articles similaires peuvent également exister pour des erreurs de régression, mais je ne suis pas au courant)

* on peut s'attendre à ce que LOO ont moins de variance parce que les modèles de substitution sont entraînés avec plus de cas, mais au moins pour certains types de modèles de classification, LOO ne se comporte pas très bien.

Thilanka-minion91

2015-09-26 14:07:34 UTC

view on stackexchange narkive permalink

Il n'y a pas de plis dans LOOCV comme la validation croisée k-Fold (en fait, ils peuvent être nommés sous forme de plis mais sans signification). dans LOOCV, il laisse une instance de l'ensemble de données pour les données de test et utilise toutes les autres instances pour l'entraînement. Ainsi, à chaque itération, il laissera une instance de l'ensemble de données à tester.Ainsi, dans une itération particulière d'évaluation, il n'y a qu'une seule instance dans les données de test et le reste se trouve dans les données d'entraînement.C'est pourquoi vous avez vu tous les ensembles de données d'entraînement égaux à tous le temps.

Dans la validation croisée K-fold en utilisant la Stratification (une méthode avancée utilisée pour équilibrer l'ensemble de données en veillant à ce que chaque classe représente approximativement dans une proportion égale dans tous les échantillons) nous pouvons réduire la variance des estimations.

comme LOOCV n'utilise qu'une seule instance pour les tests, il ne peut pas appliquer la stratification. Ainsi, LOOCV a une variance plus élevée dans les estimations d'erreur que la validation croisée k fois.

-1.Je ne vois pas en quoi la stratification est pertinente ici.Avez-vous des références qui soutiennent votre point de vue?

danuker

2015-06-19 15:49:22 UTC

view on stackexchange narkive permalink

C'est comme passer un test avec une seule question - c'est beaucoup plus aléatoire.

Il s'agit d'une explication intuitive de l'écart type d'une instance par rapport à celui d'une moyenne - le score sur un lot d'instances a moins de variance.

Voici quelques plus de détails.

Et pourquoi est-ce que?Pouvez-vous développer un peu plus à ce sujet?Pour le moment, c'est plus un commentaire qu'une réponse.

Cela ne répond pas à la question.Pour critiquer ou demander des éclaircissements à un auteur, laissez un commentaire sous son message - vous pouvez toujours commenter vos propres messages, et une fois que vous avez une [réputation] suffisante (http://stats.stackexchange.com/help/whats-reputation)vous pourrez [commenter n'importe quel message] (http://stats.stackexchange.com/help/privileges/comment).

Lorsque vous passez un test avec plus de questions, le score est en moyenne. Et la variance d'une moyenne est inférieure à la variance sur une seule question, voir plus de détails ici: [Écart type de la moyenne] (https://en.wikipedia.org/wiki/Standard_deviation#Standard_deviation_of_the_mean).

@ChristophHanck C'est une explication intuitive, bien que ce ne soit pas une réponse complète.

C'est pourquoi j'ai suggéré de l'afficher en commentaire à la place.

ⓘ

Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.

À propos - jargon juridique