Vous êtes sur la page 1sur 6

TD 2 : Optimisation quadratique

Optimisation pour l’apprentissage automatique, M2 Big Data

25 novembre 2021

Exercice 1 : Régression affine


On se donne un jeu de données sous la forme d’une matrice de caractéristiques X ∈ Rn×d
et d’un vecteur de labels y ∈ Rn , et on considère le problème de régression affine suivant :
 
  1
w 1 2  .. 
minimiser f := kXw + ze − yk , e =  .  . (1)
w∈Rd z 2
z∈R 1

a) Le gradient de ce problème est donné par


   
w T w
∇f =Y Y − Y T y,
z z

où Y = [X e] ∈ Rn×(d+1) . Quelle est la condition d’optimalité du premier ordre


pour ce problème ?
b) Supposons qu’il existe une solution au problème de moindres carrés linéaires impli-
quant X et y, c’est-à-dire qu’il existe w∗ ∈ Rd tel que Xw∗ = y. Montrer alors
que le couple (w∗ , z ∗ = 0) est solution du problème de régression affine.

Exercice 2 : Un problème quadratique


On considère le problème
µ
minimiser ϕ(v) := g T v + kv − wk22 . (2)
v∈Rd 2

où g, w ∈ Rd et µ > 0.
2 TD 02 Optim. - 2021/2022

a) En développant la norme au carré, on obtient :


µ T µ
ϕ(v) = v (Id )v + (g − µw)T v + kwk22 .
2 2
et on voit que le dernier terme ne dépend pas de v. Justifier alors que
µ
argmin ϕ(v) = argmin v T (Id )v + (g − µw)T v.
v∈Rd v∈Rd 2

b) En utilisant le même raisonnement, montrer que


  2
1 1
argmin ϕ(v) = argmin v − w − g
.
v∈Rd v∈Rd 2 µ

c) En déduire que le problème possède un unique minimum global c∗ dont on donnera


la valeur.
d) Soit ψ : Rd → R la fonction définie par
  2
1 1
ψ(v) := v − w − g
.
2 µ

Cette fonction est de classe C 1 , et son gradient est donné par


 
1
∇ψ(v) = v − w − g ∀v ∈ Rd .
µ

i) Écrire l’itération générique de la descente de gradient sur ce problème.


ii) En prenant αk = 1, montrer que l’algorithme de descente de gradient partant
de z 0 converge vers le minimum z ∗ identifié à la question c) en une itération.

Exercice 3 : Modèle stratifié


On considère un jeu de données divisé en deux groupes, de la forme

X 1 ∈ Rn1 ×d , y 1 ∈ Rn1 , X 2 ∈ Rn2 ×d , y 2 ∈ Rn2 .

Une telle distinction provient généralement d’une disparité dans les données entre deux populations
(par exemple entre hommes et femmes, ou entre deux générations).
Pour chacun des groupes, on souhaite construire un modèle linéaire qui explique les données,
c’est-à-dire que l’on recherche un vecteur w1 ∈ Rd tel que X 1 w1 ≈ y 1 et un vecteur w2 ∈ Rd tel
que X 2 w2 ≈ y 2 . On peut parfois souhaiter que les deux modèles obtenus diffèrent le moins possible
l’un de l’autre, c’est-à-dire que w1 ≈ w2 . Ces considérations conduisent au problème d’optimisation
suivant :
1 1 λ
min kX 1 w1 − y 1 k22 + kX 2 w2 − y 2 k22 + kw1 − w2 k22 , (3)
w1 ∈R ,w2 ∈R 2
d d 2 2
où λ ≥ 0.
TD 02 Optim. - 2021/2022 3

 
w1
a) En posant w := ∈ R2d , la fonction objectif du problème (3) peut se réécrire sous la
w2
forme
T
XT XT
  
1 1 X 1 + λI −λI 1y 1
f (w) := wT w+ w + (y T y + yT
2 y 2 ),
2 −λI XT
2 X 2 + λI XT
2y 2 1 1

avec I ∈ Rd×d la matrice identité. Comment appelle-t-on un problème de cette forme ?

b) Donner la condition nécessaire d’optimalité à l’ordre un pour cette fonction.

c) On considère le cas λ = 0, où w1 et w2 sont appris indépendamment.

i) Montrer que le problème correspondant est convexe.


ii) Donner une solution du problème (3) dans ce cas.
4 TD 02 Optim. - 2021/2022

Solutions des exercices


Solutions de l’exercice 1
But de l’exercice : généraliser les résultats des moindres carrés linéaires vus en cours.

a) Si (w∗ , z ∗ ) ∈ Rd × R est un minimum local du problème, alors il vérifie la condition nécessaire


d’optimalité à l’ordre 1, à savoir  ∗ 
w
∇f = 0.
z∗
En utilisant la formule du gradient, on obtient alors
 
w
Y TY − Y T y = 0.
z

w∗

b) En observant la valeur de l’objectif en ∗ , on voit que
z =0
 ∗ 
w 1
f = kXw∗ + z ∗ e − yk2
z∗ 2
1
= kXw∗ − yk2
2
= 0.

w∗
 
Par conséquent, le point conduit à une valeur de l’objectif nulle. Comme
0
 
w 1
f = kXw + ze − yk2 ≥ 0,
z 2

w∗
 
pour tous w ∈ Rd et z ∈ R, le point est un minimum global du problème.
0

Solutions de l’exercice 2
But de l’exercice : revoir les définitions d’argument minimal, identifier des solutions évidentes

a) Pour tout problème d’optimisation de la forme minimiserv∈Rd f (v) et tous a > 0 et b ∈ R, le


problème minimiserv∈Rd = af (v) + b possède le même ensemble de solutions. Par conséquent,
comme
µ µ
ϕ(v) = v T (Id )v + (g − µw)T v + kwk22
2 2
et que le dernier terme ne dépend pas de v, on a bien
µ
argmin ϕ(v) = argmin v T (Id )v + (g − µw)T v.
v∈Rd v∈Rd 2
TD 02 Optim. - 2021/2022 5

  2
1
b) Si on développe l’expression v − w − µ1 g , on obtient

2 2
  2  T 2
1
v − w − 1 g = 1 v T (Id )v + 1 g − w
1 1
v + w − g
,
2 µ 2 2 µ 2 µ

où le dernier terme ne dépend pas de v. Comme µ > 0, on applique le même argument qu’en
question a) (avec cette fois a = µ et b = 12 kw − µ1 gk2 ), et on obtient
µ
argmin ϕ(v) = argmin v T (Id )v + (g − µw)T v
v∈Rd v∈Rd 2
1 1
= argmin v T (Id )v + ( g − w)T v
v∈Rd 2 µ
  2
1 1
= argmin v − w − g
.
v∈Rd 2 µ

c) On utilise l’équivalence de la question b), et on considère le problème


  2
1 1
minimiser v − w − g
.
v∈Rd 2 µ
La fonction objectif de ce problème est toujours supérieure ou égale à 0, et on a
  2  
1 v − w − 1 g = 0 ⇔ v − w − 1 g = 0 ⇔ v = w − 1 g.

2 µ µ µ

On en conclut que ce problème (et, par conséquent, la fonction ϕ) admet une unique solution
donnée par v ∗ = w − µ1 g.

d) À l’itération k, l’algorithme de descente de gradient produit wk+1 à partir de wk selon la formule


  
1
wk+1 = wk − αk ∇ψ(wk ) = wk − αk wk − w − g .
µ
avec une longueur de pas αk > 0.

e) Si l’on applique la descente de gradient avec αk = 1 pour tout k, alors à l’itération k = 0, si


w0 ∈ Rd est le point initial, on a
     
1 1 1
w 1 = w 0 − α0 w 0 − w − g = w0 − w0 − w − g = w − g = v∗.
µ µ µ
Par conséquent, l’algorithme de descente de gradient converge en une seule itération sur ce
problème.

Solutions de l’exercice 3
a) En reformulant l’objectif de la question (3), on obtient une fonction quadratique en les coor-
données de w : le problème est donc un problème d’optimisation quadratique.
6 TD 02 Optim. - 2021/2022

b) La matrice définissant la partie quadratique de la fonction f est symétrique. On sait alors que la
condition d’optimalité au premier ordre s’écrit
 T   T 
X 1 X 1 + λI −λI X1 y
∇f (w) = T w+ = 0.
−λI X 2 X 2 + λI XT2y

c) On utilisera ci-dessous la notation générique f (w) mais en considérant toujours le cas particulier
λ = 0.

i) Lorsque λ = 0, le problème s’écrit sous la forme


1 1
minimiser kX 1 w1 − y 1 k2 + kX 2 w2 − y 2 k2
w∈R 2d 2 2

Il s’agit donc d’une somme de deux termes de moindres carrés linéaires dépendant chacun de
composantes différentes du vecteur w. Le terme 21 kX 1 w1 − y 1 k2 ne dépend que de w1 et
est une fonction convexe de w1 , donc de w également. De même, le terme 12 kX 2 w2 − y 2 k2
ne dépend que de w2 et est une fonction convexe de w2 , donc de w. Par conséquent,
la fonction objectif est une fonction convexe de w. Remarque : Un tel problème est dit
partiellement séparable car on peut dissocier deux groupes de variables.
ii) Le vecteur " #
∗ X †1 y 1
w =
X †2 y 2

est une solution de ce problème. En effet, les vecteurs w∗1 := X †1 y 1 et w∗2 := X †2 y 2 sont
respectivement solutions de
1 1
minimiser kX 1 w1 − y 1 k2 et minimiser kX 2 w2 − y 2 k2 .
w1 ∈Rd 2 w2 ∈Rd 2
 
v
Par conséquent, pour tout v = 1 ∈ R2d , on a :
v2

1 1 1 1
kX 1 v 1 − y 1 k2 ≥ kX 1 w∗1 − y 1 k2 et kX 2 v 2 − y 2 k2 ≥ kX 2 w∗2 − y 2 k2
2 2 2 2
par définition de w∗1 et w∗2 . Il en résulte que

1 1 1 1
f (v) = kX 1 v 1 − y 1 k2 + kX 2 v 2 − y 2 k2 ≥ kX 1 w∗1 − y 1 k2 + kX 2 w∗2 − y 2 k2 = f (w∗ ),
2 2 2 2
ce qui montre bien que w∗ est une solution du problème.

Vous aimerez peut-être aussi