1/2 sur l'équation lagrangienne du lasso

Question:

ancamar

2017-06-26 20:25:40 UTC

view on stackexchange narkive permalink

J'ai lu ce livre fantastique Les éléments de l'apprentissage statistique et j'ai une question sur l'équation du lasso pour le problème du Lasso sous sa forme lagrangienne :

$ \ hat {\ beta} _ {lasso} = argmin \ {\ frac {1} {2} \ sum_ {i = 1} ^ {N} (y_i - \ beta_0 - \ sum_ {j = 1}^ {p} x_ {ij} \ beta_ {j}) ^ 2 + \ lambda \ sum_ {j = 1} ^ {p} | \ beta_j |\} $

Je ne sais pas pourquoi $ \ frac {1} {2} $ est nécessaire pour le lasso, mais ce n'est pas le cas pour la crête.

$ \ hat {\ beta} _ {ridge} = argmin \ {\ sum_ {i = 1} ^ {N} (y_i - \ beta_0 - \ sum_ {j = 1} ^ {p} x_ {ij}\ beta_ {j}) ^ 2 + \ lambda \ sum_ {j = 1} ^ {p} \ beta_j ^ 2 \} $

Références

Friedman, J., Hastie, T., & Tibshirani, R. (2001).Les éléments de l'apprentissage statistique (Vol. 1, pp. 241-249).New York: série Springer en statistiques.

Deux réponses:

Mark L. Stone

2017-06-26 20:45:45 UTC

view on stackexchange narkive permalink

Il n'y a rien de "nécessaire" dans le facteur de $ \ frac {1} {2} $.Il est souvent utilisé, par commodité, pour des objectifs quadratiques de la forme $ \ frac {1} {2} x ^ TQx + g ^ Tx $ de sorte que la matrice $ Q $ finit par être le hessien de la fonction objectif.

Dans ce cas, les auteurs n'étaient pas cohérents entre ces deux problèmes.Le facteur de $ \ frac {1} {2} $ peut être absorbé dans (ajustement apporté à) $ \ lambda $ et aboutir à un problème équivalent, c'est-à-dire avoir le même argmin (mais pas la même valeur objective optimale).

Plus largement, le PO doit être conscient qu'il existe de nombreuses façons de formuler ce qui est essentiellement le même problème d'optimisation.L'équivalence de minimiser $ f (x) $ ou $ \ frac {1} {2} f (x) $ est un cas simple.Un autre exemple est l'équivalence entre la maximisation de la fonction de vraisemblance et le logarithme de la fonction de vraisemblance (puisque le logarithme est une [fonction strictement monotone] (https://en.wikipedia.org/wiki/Monotonic_function)).Il existe toutes sortes de situations où un problème d'optimisation équivalent est plus pratique.

BloXX

2017-06-26 21:12:45 UTC

view on stackexchange narkive permalink

Le facteur $ \ frac {1} {2} $ n'a manifestement aucune importance pratique et n'est qu'une remise à l'échelle. Pour voir cela, il suffit de multiplier la fonction objectif par $ 2 $, puis le lasso résout évidemment aussi le problème équivalent $$ \ beta_ {lasso} \ in \ arg \ min \ {\ sum_ {i = 1} ^ n (y_i- \ beta_0 - \ sum_ {j = 1} ^ p x_ {ij} \ beta_j) ^ 2 + \ lambda ^ * \ sum_ {j = 1} ^ p | \ beta_j | \} $$ où $ \ lambda ^ * = 2 \ lambda \ geq 0 $. Puisque le lasso est un problème d'optimisation convexe, les solutions aux problèmes seront identiques, de plus il existe une relation un-à-un entre $ \ lambda ^ * $ et $ \ lambda $. enfin, les deux problèmes de minimisation équivalents se traduisent par le même problème de minimisation contrainte (juste avec des $ \ lambda $ différents): $$ \ min _ {\ beta} \ sum_ {i = 1} ^ n (y_i- \ beta_0 - \ sum_ {j = 1} ^ p x_ {ij} \ beta_j) ^ 2 \ qquad st \ qquad \ sum_ {j = 1} ^ p | \ beta_j | \ leq t. $$

Le facteur $ \ frac {1} {2} $ est juste introduit par commodité, c'est-à-dire pour simplifier l'écriture au sein de l'analyse théorique du lasso. par exemple, les conditions KKT sont alors bien "mises à l'échelle", sinon vous emporteriez avec vous le facteur $ 2 $ de la dérivée de la somme quadratique pendant toute votre analyse.

ⓘ

Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.

À propos - jargon juridique