Regression Lasso vs Ridge et norme L1 et L2

Bonjour , pour définir Lasso il est indiqué :
La régression Lasso est similaire à la régression Ridge, la seule différence entre les deux étant la contrainte sur la norme L1 avec Lasso, plutôt que sur la norme L2.

La régression Lasso peut donc s’écrire ainsi :
minβ1,…βp∑i=1n(yi−∑i=jpβjxi,j)2+α∑j=1p||βj||
minβ1,…βp∑i=1n(yi−∑i=jpβjxi,j)2+α∑j=1p|βj|

L’intérêt principal de la régression Lasso, par rapport à la régression Ridge, est qu’elle peut faire office de dispositif de sélection de variables en annulant certains coefficients βj .
En effet certaines variables voient leur coefficient estimé nuls. Elles sont de facto exclues du modèle prédictif.
Évidemment, plus le coefficient de pénalité est élevé, plus le nombre de coefficients estimés à 0 augmente.

Attention, souvent, parmi un groupe de variables corrélées, Lasso en choisit une, généralement celle qui est la plus liée à la cible, masquant parfois l’influence des autres.

Pourriez-vous réexpliqué ce qu’est L1 et ce qu’est L2 s’il vous plaît ?
Merci .

Bonjour Anne,

la norme l2 est la plus utilisée. c’est la norme canoniquement associée au produit salaire. Sur un vecteur x, N2(x)=(sum(xi²))^0.5 C’est la racine de la somme du carré des termes.
La norme L1, somme les valeurs absolues des xi, N1(x)=sum (abs(xi)).

Si vous voulez plus d’explication sur les normes vous pouvez consulter ce lien : Pourquoi la norme L1 crée la rareté par rapport à la norme L2
Et si vous voulez en savoir encore plus sur les théorie mathématiques derrière la régression lasso et ridge vous pouvez consulter ce lien : https://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-m-app-linSelect.pdf

J’espère que j’ai bien répondu à toutes vos questions.
Bonne journée

Bonjour,

Euh… j’ai bien peur de ne pas comprendre …
la norme l2 est la plus utilisée. c’est la norme canoniquement associée au produit salaire . Sur un vecteur x, N2(x)=(sum(xi²))^0.5 C’est la racine de la somme du carré des termes.
La norme L1, somme les valeurs absolues des xi, N1(x)=sum (abs(xi)).

Auriez-vous un schéma, une explication pour les non matheux ? s’il vous plaît ? Merci de votre aide ! Anne

Bonjour Anne,

En fait, la contrainte rajouté pour la régression ridge est sous la forme d’une norme L2 des coefficients beta et qui correspond à la partie encadré en rouge de cette formule mathématique :
1

Alors que pour la regression lasso la contrainte est sous la forme d’une norme L1 des coefficients beta et qui correspond à la partie encadré en rouge de cette formule mathématique :
2

La différence c’est que pour l’une c’est la somme des carrés des coefficients et que pour l’autre c’est la somme de valeurs absolu des différents coefficients.
J’espère que c’est plus clair maintenant.

2 Likes

Merci Rania, c’est beaciup plus clair maintenant !
Anne