Vous êtes sur la page 1sur 10

Règles de dérivation matricielles JFB Draft : Attention il peut y avoir des erratas v4.

1-Dériver une sommation (un produit scalaire de deux vecteurs) par un vecteur -colonne

Soit
a  z 
 1   1 
a  z 
   
am×1 =  2  et z m×1 =  2  ,
 ⋮   ⋮ 
   
 am   zm 
   
m
alors a ' z = ∑ ai z i = a1 z1 + a2 z 2 + ... + am z m = z ' a
i =1

 ∂z ' a   ∂(a z + a z + ... + a z ) 


   1 1 2 2 m m 
 ∂z   ∂z 1 
 1    a 
 ∂z ' a   ∂(a z + a z + ... + a z )   1 
   1 1 2 2 m m   
∂a ' z ∂z ' a      a2 
= =  ∂z 2  = ∂z 2  =   =a
∂z ∂z  ⋮     ⋮ 
   ⋮   
 ∂z ' a     am 
   ∂(a1 z1 + a2 z 2 + ... + am z m )   
 ∂z   
 m  m×1  ∂z m 
 

pour résumer
∂a ' z ∂z ' a
= =a
∂z ∂z

Exemple:
1 z 
   1 3
a =  2  , z 3×1 =  z 2  , a ' z = ∑ ai z i = z ' a = 1z1 + 2z 2 + 3z 3
3   i =1
   z3 
 

 ∂z ' a   ∂(1z + 2z + 3z ) 
   1 2 3 
 ∂z   ∂z1 
 1    1
   ∂(1z + 2z + 3z )   
∂a ' z ∂z ' a ∂z ' a   3  2 = a
= =   = 
1 2
 =  
∂z ∂z  ∂z 2   ∂z 2   3
 ∂z ' a     
   ∂(1z 1 + 2z 2 + 3z )
3 
   
 ∂z 3  3×1  ∂z 3 

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 1 of 10


2-Dériver une forme quadratique par un vecteur-colonne

Soit
z  a ⋯ a1m 
 1   11 a12
z  a a22 ⋯ a2m 
  
z m×1 =  2  , Am×m =  21 
 ⋮   ⋮ ⋮ ⋱ ⋮ 
   
 zm   am 1 am 2 ⋯ amm 
   

a ⋯ a1m   z1 
 11 a12
a a22 ⋯ a2m   z 2 

avec la fonction quadratique f (z ) = z ' Az =  z1 z2 
⋯ z m   21  
  ⋮ ⋮ ⋱ ⋮  ⋮ 
  
 am 1 a m 2 ⋯ amm   z m 
  

 m 
 
 ∑ a1i z i 
 a z + a z + ... + a z   i =1 
 11 1 12 2 1m m   m 
 a z + a z + ... + a z    m  m 
⋯ zm   ∑
 2m m   a2i z i = 
=  z1 z2 ⋯ z m   21 1 22 2
 =  z1 z2 
 ∑ z j  ∑ a ji zi 
    i =1 
  j =1  i =1 
   
 a z + am 2z 2 + ... + amm z m   m 
 m1 1   
 ∑ ami z i 
 i =1 

Pour le gradient on a :
 ∂f (z ) 
 
 ∂z 
 1 
 ∂f (z ) 
∂f (z )   ∂z ' Az  Az + A ' z = (A + A ')z ∀Am×m
gradf (z ) = ∇z f (z ) = =  ∂z 2  = = 
  ∂z  2Az si A = A ' (A est symétrique)
 z1   ⋮  
z   
   ∂f (z ) 
∂ 2   
 ⋮   ∂z 
   m  m×1
 zm 
 

pour résumer
∂z ' Az  Az + A ' z = (A + A ')z ∀Am×m
= 
∂z  2Az si A = A ' (A est symétrique)

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 2 of 10


Exemple:
a a  z 
A2×2 =  11 12  , z 2×1 =  1  ,
 a21 a22   z 2 

a a  z  a z + a z 
z 'A z =  z1 z 2   11 12   1  =  z1 z 2   11 1 12 2 
 = z1 a11z1 + z1 a12z 2 + z 2 a21z1 + z 2 a22z 2
  a   a z +a z
 21 a22   z 2   21 1 22 2 

 ∂z 'A z   ∂(z a z + z a z + z a z + z a z ) 
   1 11 1 1 12 2 2 21 1 2 22 2 
     
∂z 'A z
=
∂z 'A z
=
∂z 1 
= 
∂z1  =  2a11z1 + a12z 2 + a21z 2 
∂z ∂z  ∂z 'A z    a z + a z + 2a z 
   ∂(z1 a11z1 + z1 a12z 2 + z 2 a21z1 + z 2 a22z 2 )   12 1 21 1 22 2 
 ∂z   
 2   ∂ z 2 
a z + a z  a z + a z  a a   z   a a   z 
=  11 1 12 2 
 +  11 1 21 2 
 =  11 12   1  +  11 21   1 
 a21z1 + a22z 2   a12z1 + a22z 2   a21 a22   z 2   a12 a22   z 2 
 a     
  11 a12   a11 a12    z1 
=  +  '    = (A + A ')z
  a21 a22   a21 a22    z 2 

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 3 of 10


3- Hessien d’une forme quadratique

Pour le Hessien avec la fonction quadratique f (z ) = z ' Az


 A + A ' ∀Am×m
∂2 z ' Az     
∂  ∂z ' Az  ∂   
Hessf (z ) = ∇2z f (z ) = =   =  (A + A ')z =
  2A si A = A '
∂z ∂z ' ∂z '  ∂z  ∂z '    
m×1 

Notez aussi que par le théorème de Hume on a


∂  ∂z ' Az  ∂  ∂z ' Az  ∂f (z ) ∂f (z )
 =   car =

∂z '  ∂z  ∂z  ∂z '   ∂z i ∂z j ∂z j ∂z i

Pour résumer
∂2 z ' Az ∂  ∂z ' Az  ∂  A + A ' ∀Am×m

=   = ( (A + A ')z ) = 
∂z ∂z ' ∂z '  ∂z  ∂z '  2A si A = A '

Si on a
z  a ⋯ a13  b 
 1   11 a12  1 
z  a a22 ⋯ a2m  b 
    2 
zm×1 =  2  , Am×m =  21  et bm×1 =  
 ⋮   ⋮ ⋮ ⋱ ⋮   ⋮ 
     
 zm   am 1 am 2 ⋯ amm   bm 
     

et que l'on a la fonction quadratique suivante: ℓ(z ) = z ' Az + b ' z, alors

 ∂ℓ(z ) 
 
 ∂z 
 1 
 ∂ℓ(z ) 
∂ℓ(z ) ∂ℓ(z )  
gradℓ(z ) = ∇z ℓ(z ) = = =  ∂z 2 
∂z z 
 1   ⋮ 
z   
 2  ∂ℓ(z ) 
∂   
 ⋮   ∂z 
   m m×1
 zm 
 

∂(z ' Az + b ' z )  Az + A ' z + b = (A + A ')z + b ∀Am×m


= =
∂z  2Az + b si A = A ' (A est symétrique)

Le Hessien lui sera:


∂2 ℓ(z ) ∂
Hessℓ(z ) = ∇2z ℓ(z ) = = ( (A + A ')z ) = A + A '
∂z ∂z ' ∂z '

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 4 of 10


Exemple :

a a  z 
A2×2 =  11 12  , z 2×1 =  1  ,
a a z
 21 22   2 

a a  z  a z + a z 
z 'A z =  z1 z 2   11 12   1  =  z1 z 2   11 1 12 2  = z a z +z a z +z a z +z a z

  a   a z +a z 1 11 1 1 12 2 2 21 1 2 22 2
 21 a22   z 2   21 1 22 2 

 ∂  ∂z 'A z     ∂ 
    (2a z + a z + a z ) (a z + a z + 2a z )  
2
∂ z ' Az ∂  ∂z ' Az   ∂z  ∂z '     11 1 12 2 21 2 12 1 21 1 22 2  
=   =  1  =  ∂z1 
∂z ∂z ' ∂z  ∂z '   ∂  ∂z 'A z    ∂ 
     (2a z + a z + a z ) (a z + a z + 2a z )  
 ∂z  ∂z '    ∂z  11 1 12 2 21 2 12 1 21 1 22 2  
 2  2 

 2a (a12 + a21 )  a + a  a + a 
=  11
 =  11

12 
 +  11 21 
 = (A + A ')
 (a12 + a21 ) 2a22   a21 + a22   a12 + a22 

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 5 of 10


4- Conditions de premier ordre (C.P.O) et de deuxième ordre (C.D.O) pour les extremums.

Ici f (z ) est une forme quadratique.

Condition pour un minimum


Pour que z * soit le minimum unique d’une fonction quadratique f (z ) (pour l’estimateur des moindres carrés
ordinaires par exemple) on doit avoir :
∂f (z )
C.P.O. : gradf (z ) * ≡ = 0m×1
z =z ∂z z =z *
Et

∂2 f (z ) ∂  ∂f (z ) 
C.D.O. : ≡   = H >> 0 , ce qui veut dire que la forme quadratique est positive définie
∂z ∂z ' ∂z  ∂z '  z =z *
z =z *

car H est une matrice positive définie. Bref la fonction f (z ) est strictement convexe au point z * .

Condition pour un maximum


Pour que z * soit le maximum unique d’une fonction quadratique f (z ) (pour l’estimateur du maximum de
vraisemblance par exemple) on doit avoir :
∂f (z )
C.P.O. : gradf (z ) ≡ = 0m×1
z =z * ∂z z =z *
Et

∂2 f (z ) ∂  ∂f (z ) 
C.D.O. : ≡   = H << 0 , ce qui veut dire que la forme quadratique est négative
∂z ∂z ' ∂z  ∂z '  z =z *
z =z *

définie car H est une matrice négative définie. Bref la fonction f (z ) est strictement concave au point z * .

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 6 of 10


5- Formes Quadratiques

Soit une matrice An×n carrée et symétrique et le vecteur x ∈ ℝ n , alors:


- Si ∀x ≠ 0 on a x ' Ax > 0 ⇒ A est Positive définie
- Si ∀x ≠ 0 on a x ' Ax ≥ 0 ⇒ A est Positive semi-définie

- Si ∀x ≠ 0 on a x ' Ax < 0 ⇒ A est Négative définie


- Si ∀x ≠ 0 on a x ' Ax ≤ 0 ⇒ A est Négative semi-définie

- Si x ' Ax > 0 pour un ou des x ∈ ℝ n et x ' Ax < 0 pour un ou plusieurs autre(s) x ∈ ℝ n ⇒ A est Non-définie

Exemples

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 7 of 10


Forme Forme de la Règles des déterminants des Type d’extrema ou d’extremum
fonction mineurs principaux primaires possibles avec le gradient
mi* de la matrice Hessienne ∂f (x)
= 0n
 ∂f ( x1 , x2 ,..., xn )  ∂x x = x*
H = 
 ∂x∂x '  Ou les dérivées partielles
de la fonction f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn )
= 0 ∀i = 1,..., n
avec x n×1 ∈ ℝ n ∂xi x=x*

Positive définie Convexe mi* > 0 ∀i = 1,..., n Minimum stricte


x ' Ax > 0 strictement
Positive semi- Convexe mi* ≥ 0 ∀i = 1,..., n Plusieurs minima (non strictes)
définie x ' Ax ≥ 0
Négative définie Concave (−1)i +1 mi* < 0 ∀i = 1,..., n Maximum stricte
x ' Ax < 0 strictement
ou
m1* < 0, m2* > 0, m3* < 0, m4* > 0,...
On a alternance de signe
commençant par < 0
Négative semi- Concave (−1)i +1 mi* ≤ 0 ∀i = 1,..., n Plusieurs maxima (non strictes)
définie
ou
x ' Ax ≤ 0
m1* ≤ 0, m2* ≥ 0, m3* ≤ 0, m4* ≥ 0,...
On a potentiellement alternance
de signe commençant par ≤ 0
Indéfinie Point(s) d’inflexion, Autres ????
Points de selle
Et autres

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 8 of 10


6- Mineurs principaux primaires
∂f ( x1 , x2 ,..., xn )
Mineurs principaux primaires mi* de la matrice Hessienne H =
∂x∂x '
∂f ( x1 , x2 ,..., xn )
m1* = det( M 1* ) =
∂x1 ∂x1
 ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
 
∂x1 ∂x1 ∂x1 ∂x2
m2* = det( M 2* ) = det  
 ∂f ( x , x ,..., x ) ∂f ( x1 , x2 ,..., xn ) 
 1 2 n

 ∂ x 2 ∂ x1 ∂x2 ∂x2 
 ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
 
 ∂x1 ∂x1 ∂x1 ∂x2 ∂x1 ∂x3 
 ∂f ( x , x ,..., x ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
m3* = det( M 3* ) = det  1 2 n

 ∂ x 2 ∂ x1 ∂x2 ∂x2 ∂x2 ∂x3 
 ∂f ( x , x ,..., x ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
 1 2 n 
 ∂ x 3 ∂ x1 ∂x3 ∂x2 ∂x3 ∂x3 

 ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
 ⋯ 
 ∂x1 ∂x1 ∂x1 ∂x2 ∂x1 ∂xn 
 ∂f ( x , x ,..., x ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
* *  1 2 n
⋯ 
mn = det( M n ) = det  ∂x2 ∂x1 ∂x2 ∂x2 ∂x2 ∂xn 
 ⋮ ⋮ ⋱ ⋮ 
 
 ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
 
 ∂xn ∂x1 ∂xn ∂x1 ∂xn ∂xn 

M i* est la matrice composée de la sous-matrice prenant les i -ièmes premières lignes et i -ièmes colonnes de la matrice
Hessienne H , donc M i* comporte i × i éléments.

Ainsi mi* = det( M i* ) est le i -ième mineur principal primaire, c’est donc le déterminant de la matrice M i*

Attention : il ne faut pas confondre le i -ième mineur principal primaire noté mi* = det( M i* ) avec le mineur
mij = det( M ij ) de la matrice de mineur M ij qui est construite à partir d’une matrice A auquel on a enlevé la ligne i et
la colonne j . Pour éviter la confusion j’ai ajouté un * lorsque l’on parle de mineurs principaux primaires.

Les mineurs principaux primaires sont utilisés pour déterminer la forme de la matrice Hessienne dans les problèmes
d’optimisation.

Les mineurs (simples) sont utilisés pour calculer des déterminants avec l’expansion de Laplace.

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 9 of 10


Le déterminant d’une matrice carrée n × n est une mesure du volume dans ℝ n (d’aire dans ℝ 2 ) de la forme
géométrique construite par les vecteurs qui composent la matrice A = [aij ] .

 a11 a12   a b 
Pour A2×2 =  =
a22   c d 
on a la définition suivante
 a21

a11 a12
det( A2×2 ) = A2×2 = = a11a22 − a21a12 = ad − bc
a21 a22

 a11 a12 a13 


Pour A3×3 =  a21 a22 a23  avec la règle de Sarrus (applicable seulement pour les 3x3), on a la définition suivante
 a31 a32 a33 

a11 a12 a13


det( A3×3 ) = a21 a22 a23 = a11a22 a33 + a12 a23 a31 + a13 a21a32 − a31a22 a13 − a32 a23 a11 − a33 a21a12
a31 a32 a33

Pour le cas général on a avec l’expansion de Laplace

n
det( A) =| A | = ai1ci1 + ai 2 ci 2 + ⋯ + ain cin = ∑ aij cij
j =1
∀i, j ∈ ℕ* tel que 1 ≤ i ≤ n et 1 ≤ j ≤ n
n
= a1 j c1 j + a2 j c2 j + ⋯ + anj cnj = ∑ aij cij
i =1

où le cofacteur ij de A est le scalaire cij défini par cij = (−1)i + j mij

où mij est le mineur ij de A , c’est-à-dire le déterminant de la sous matrice de dimension (n − 1) × (n − 1) construite à


partir de la matrice A en enlevant la ligne i et la colonne j . On pourrait noter cette matrice M ij = A¬i ,¬j .

 a1,1 ⋯ a1, j −1 a1, j +1 ⋯ a1,n 


 
 ⋮ ⋱ ⋮ ⋮ ⋮ ⋮ 
a ⋯ ai −1, j −1 ai −1, j +1 ⋯ ai −1,n 
mij = det( M ij ) = det( A¬i ,¬j ) = det  i −1,1 
 ai +1,1 ⋯ ai +1, j −1 ai +1, j +1 ⋯ ai +1,n 
 ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ 
 
 an ,1 ⋯ an , j −1 an , j +1 ⋯ an ,n  ( n −1)×( n −1)

Notez aussi que la matrice des cofacteurs Cij = (−1)i + j M ij .

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 10 of 10

Vous aimerez peut-être aussi