th00 Matrices JFB Derivation

Règles de dérivation matricielles JFB Draft : Attention il peut y avoir des erratas v4.
1-Dériver une sommation (un produit scalaire de deux vecteurs) par un vecteur -colonne
Soit
a  z 
 1   1 
a  z 
   
am×1 =  2  et z m×1 =  2  ,
 ⋮   ⋮ 
   
 am   zm 
   
m
alors a ' z = ∑ ai z i = a1 z1 + a2 z 2 + ... + am z m = z ' a
i =1
 ∂z ' a   ∂(a z + a z + ... + a z ) 

   1 1 2 2 m m 
 ∂z   ∂z 1 
 1    a 
 ∂z ' a   ∂(a z + a z + ... + a z )   1 
   1 1 2 2 m m   
∂a ' z ∂z ' a      a2 
= =  ∂z 2  = ∂z 2  =   =a
∂z ∂z  ⋮     ⋮ 
   ⋮   
 ∂z ' a     am 
   ∂(a1 z1 + a2 z 2 + ... + am z m )   
 ∂z   
 m  m×1  ∂z m 
 
pour résumer
∂a ' z ∂z ' a
= =a
∂z ∂z
Exemple:
1 z 
   1 3
a =  2  , z 3×1 =  z 2  , a ' z = ∑ ai z i = z ' a = 1z1 + 2z 2 + 3z 3
3   i =1
   z3 
 
 ∂z ' a   ∂(1z + 2z + 3z ) 
   1 2 3 
 ∂z   ∂z1 
 1    1
   ∂(1z + 2z + 3z )   
∂a ' z ∂z ' a ∂z ' a   3  2 = a
= =   = 
1 2
 =  
∂z ∂z  ∂z 2   ∂z 2   3
 ∂z ' a     
   ∂(1z 1 + 2z 2 + 3z )
3 
   
 ∂z 3  3×1  ∂z 3 
derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 1 of 10

2-Dériver une forme quadratique par un vecteur-colonne
Soit
z  a ⋯ a1m 
 1   11 a12
z  a a22 ⋯ a2m 
  
z m×1 =  2  , Am×m =  21 
 ⋮   ⋮ ⋮ ⋱ ⋮ 
   
 zm   am 1 am 2 ⋯ amm 
   
a ⋯ a1m   z1 
 11 a12
a a22 ⋯ a2m   z 2 

avec la fonction quadratique f (z ) = z ' Az =  z1 z2 
⋯ z m   21  
  ⋮ ⋮ ⋱ ⋮  ⋮ 
  
 am 1 a m 2 ⋯ amm   z m 
  
 m 
 
 ∑ a1i z i 
 a z + a z + ... + a z   i =1 
 11 1 12 2 1m m   m 
 a z + a z + ... + a z    m  m 
⋯ zm   ∑
 2m m   a2i z i = 
=  z1 z2 ⋯ z m   21 1 22 2
 =  z1 z2 
 ∑ z j  ∑ a ji zi 
    i =1 
  j =1  i =1 
   
 a z + am 2z 2 + ... + amm z m   m 
 m1 1   
 ∑ ami z i 
 i =1 
Pour le gradient on a :
 ∂f (z ) 
 
 ∂z 
 1 
 ∂f (z ) 
∂f (z )   ∂z ' Az  Az + A ' z = (A + A ')z ∀Am×m
gradf (z ) = ∇z f (z ) = =  ∂z 2  = = 
  ∂z  2Az si A = A ' (A est symétrique)
 z1   ⋮  
z   
   ∂f (z ) 
∂ 2   
 ⋮   ∂z 
   m  m×1
 zm 
 
pour résumer
∂z ' Az  Az + A ' z = (A + A ')z ∀Am×m
= 
∂z  2Az si A = A ' (A est symétrique)

Exemple:
a a  z 
A2×2 =  11 12  , z 2×1 =  1  ,
 a21 a22   z 2 
a a  z  a z + a z 
z 'A z =  z1 z 2   11 12   1  =  z1 z 2   11 1 12 2 
 = z1 a11z1 + z1 a12z 2 + z 2 a21z1 + z 2 a22z 2
  a   a z +a z
 21 a22   z 2   21 1 22 2 
 ∂z 'A z   ∂(z a z + z a z + z a z + z a z ) 
   1 11 1 1 12 2 2 21 1 2 22 2 
     
∂z 'A z
=
∂z 'A z
=
∂z 1 
= 
∂z1  =  2a11z1 + a12z 2 + a21z 2 
∂z ∂z  ∂z 'A z    a z + a z + 2a z 
   ∂(z1 a11z1 + z1 a12z 2 + z 2 a21z1 + z 2 a22z 2 )   12 1 21 1 22 2 
 ∂z   
 2   ∂ z 2 
a z + a z  a z + a z  a a   z   a a   z 
=  11 1 12 2 
 +  11 1 21 2 
 =  11 12   1  +  11 21   1 
 a21z1 + a22z 2   a12z1 + a22z 2   a21 a22   z 2   a12 a22   z 2 
 a     
  11 a12   a11 a12    z1 
=  +  '    = (A + A ')z
  a21 a22   a21 a22    z 2 

3- Hessien d’une forme quadratique
Pour le Hessien avec la fonction quadratique f (z ) = z ' Az

 A + A ' ∀Am×m
∂2 z ' Az     
∂  ∂z ' Az  ∂   
Hessf (z ) = ∇2z f (z ) = =   =  (A + A ')z =
  2A si A = A '
∂z ∂z ' ∂z '  ∂z  ∂z '   
m×1 

Notez aussi que par le théorème de Hume on a

∂  ∂z ' Az  ∂  ∂z ' Az  ∂f (z ) ∂f (z )
 =   car =

∂z '  ∂z  ∂z  ∂z '   ∂z i ∂z j ∂z j ∂z i
Pour résumer
∂2 z ' Az ∂  ∂z ' Az  ∂  A + A ' ∀Am×m

=   = ( (A + A ')z ) = 
∂z ∂z ' ∂z '  ∂z  ∂z '  2A si A = A '
Si on a
z  a ⋯ a13  b 
 1   11 a12  1 
z  a a22 ⋯ a2m  b 
    2 
zm×1 =  2  , Am×m =  21  et bm×1 =  
 ⋮   ⋮ ⋮ ⋱ ⋮   ⋮ 
     
 zm   am 1 am 2 ⋯ amm   bm 
     
et que l'on a la fonction quadratique suivante: ℓ(z ) = z ' Az + b ' z, alors
 ∂ℓ(z ) 
 
 ∂z 
 1 
 ∂ℓ(z ) 
∂ℓ(z ) ∂ℓ(z )  
gradℓ(z ) = ∇z ℓ(z ) = = =  ∂z 2 
∂z z 
 1   ⋮ 
z   
 2  ∂ℓ(z ) 
∂   
 ⋮   ∂z 
   m m×1
 zm 
 
∂(z ' Az + b ' z )  Az + A ' z + b = (A + A ')z + b ∀Am×m

= =
∂z  2Az + b si A = A ' (A est symétrique)

Le Hessien lui sera:

∂2 ℓ(z ) ∂
Hessℓ(z ) = ∇2z ℓ(z ) = = ( (A + A ')z ) = A + A '
∂z ∂z ' ∂z '

Exemple :
a a  z 
A2×2 =  11 12  , z 2×1 =  1  ,
a a z
 21 22   2 
a a  z  a z + a z 
z 'A z =  z1 z 2   11 12   1  =  z1 z 2   11 1 12 2  = z a z +z a z +z a z +z a z

  a   a z +a z 1 11 1 1 12 2 2 21 1 2 22 2
 21 a22   z 2   21 1 22 2 
 ∂  ∂z 'A z     ∂ 
    (2a z + a z + a z ) (a z + a z + 2a z )  
2
∂ z ' Az ∂  ∂z ' Az   ∂z  ∂z '     11 1 12 2 21 2 12 1 21 1 22 2  
=   =  1  =  ∂z1 
∂z ∂z ' ∂z  ∂z '   ∂  ∂z 'A z    ∂ 
     (2a z + a z + a z ) (a z + a z + 2a z )  
 ∂z  ∂z '    ∂z  11 1 12 2 21 2 12 1 21 1 22 2  
 2  2 
 2a (a12 + a21 )  a + a  a + a 
=  11
 =  11

12 
 +  11 21 
 = (A + A ')
 (a12 + a21 ) 2a22   a21 + a22   a12 + a22 

4- Conditions de premier ordre (C.P.O) et de deuxième ordre (C.D.O) pour les extremums.
Ici f (z ) est une forme quadratique.
Condition pour un minimum

Pour que z * soit le minimum unique d’une fonction quadratique f (z ) (pour l’estimateur des moindres carrés
ordinaires par exemple) on doit avoir :
∂f (z )
C.P.O. : gradf (z ) * ≡ = 0m×1
z =z ∂z z =z *
Et
∂2 f (z ) ∂  ∂f (z ) 
C.D.O. : ≡   = H >> 0 , ce qui veut dire que la forme quadratique est positive définie
∂z ∂z ' ∂z  ∂z '  z =z *
z =z *
car H est une matrice positive définie. Bref la fonction f (z ) est strictement convexe au point z * .
Condition pour un maximum

Pour que z * soit le maximum unique d’une fonction quadratique f (z ) (pour l’estimateur du maximum de
vraisemblance par exemple) on doit avoir :
∂f (z )
C.P.O. : gradf (z ) ≡ = 0m×1
z =z * ∂z z =z *
Et
∂2 f (z ) ∂  ∂f (z ) 
C.D.O. : ≡   = H << 0 , ce qui veut dire que la forme quadratique est négative
∂z ∂z ' ∂z  ∂z '  z =z *
z =z *
définie car H est une matrice négative définie. Bref la fonction f (z ) est strictement concave au point z * .

5- Formes Quadratiques
Soit une matrice An×n carrée et symétrique et le vecteur x ∈ ℝ n , alors:

- Si ∀x ≠ 0 on a x ' Ax > 0 ⇒ A est Positive définie
- Si ∀x ≠ 0 on a x ' Ax ≥ 0 ⇒ A est Positive semi-définie
- Si ∀x ≠ 0 on a x ' Ax < 0 ⇒ A est Négative définie

- Si ∀x ≠ 0 on a x ' Ax ≤ 0 ⇒ A est Négative semi-définie
- Si x ' Ax > 0 pour un ou des x ∈ ℝ n et x ' Ax < 0 pour un ou plusieurs autre(s) x ∈ ℝ n ⇒ A est Non-définie
Exemples

Forme Forme de la Règles des déterminants des Type d’extrema ou d’extremum
fonction mineurs principaux primaires possibles avec le gradient
mi* de la matrice Hessienne ∂f (x)
= 0n
 ∂f ( x1 , x2 ,..., xn )  ∂x x = x*
H = 
 ∂x∂x '  Ou les dérivées partielles
de la fonction f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn )
= 0 ∀i = 1,..., n
avec x n×1 ∈ ℝ n ∂xi x=x*
Positive définie Convexe mi* > 0 ∀i = 1,..., n Minimum stricte

x ' Ax > 0 strictement
Positive semi- Convexe mi* ≥ 0 ∀i = 1,..., n Plusieurs minima (non strictes)
définie x ' Ax ≥ 0
Négative définie Concave (−1)i +1 mi* < 0 ∀i = 1,..., n Maximum stricte
x ' Ax < 0 strictement
ou
m1* < 0, m2* > 0, m3* < 0, m4* > 0,...
On a alternance de signe
commençant par < 0
Négative semi- Concave (−1)i +1 mi* ≤ 0 ∀i = 1,..., n Plusieurs maxima (non strictes)
définie
ou
x ' Ax ≤ 0
m1* ≤ 0, m2* ≥ 0, m3* ≤ 0, m4* ≥ 0,...
On a potentiellement alternance
de signe commençant par ≤ 0
Indéfinie Point(s) d’inflexion, Autres ????
Points de selle
Et autres

6- Mineurs principaux primaires
∂f ( x1 , x2 ,..., xn )
Mineurs principaux primaires mi* de la matrice Hessienne H =
∂x∂x '
∂f ( x1 , x2 ,..., xn )
m1* = det( M 1* ) =
∂x1 ∂x1
 ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
 
∂x1 ∂x1 ∂x1 ∂x2
m2* = det( M 2* ) = det  
 ∂f ( x , x ,..., x ) ∂f ( x1 , x2 ,..., xn ) 
 1 2 n

 ∂ x 2 ∂ x1 ∂x2 ∂x2 
 ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
 
 ∂x1 ∂x1 ∂x1 ∂x2 ∂x1 ∂x3 
 ∂f ( x , x ,..., x ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
m3* = det( M 3* ) = det  1 2 n

 ∂ x 2 ∂ x1 ∂x2 ∂x2 ∂x2 ∂x3 
 ∂f ( x , x ,..., x ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
 1 2 n 
 ∂ x 3 ∂ x1 ∂x3 ∂x2 ∂x3 ∂x3 
⋮
 ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
 ⋯ 
 ∂x1 ∂x1 ∂x1 ∂x2 ∂x1 ∂xn 
 ∂f ( x , x ,..., x ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
* *  1 2 n
⋯ 
mn = det( M n ) = det  ∂x2 ∂x1 ∂x2 ∂x2 ∂x2 ∂xn 
 ⋮ ⋮ ⋱ ⋮ 
 
 ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) ∂f ( x1 , x2 ,..., xn ) 
 
 ∂xn ∂x1 ∂xn ∂x1 ∂xn ∂xn 
M i* est la matrice composée de la sous-matrice prenant les i -ièmes premières lignes et i -ièmes colonnes de la matrice
Hessienne H , donc M i* comporte i × i éléments.
Ainsi mi* = det( M i* ) est le i -ième mineur principal primaire, c’est donc le déterminant de la matrice M i*
Attention : il ne faut pas confondre le i -ième mineur principal primaire noté mi* = det( M i* ) avec le mineur
mij = det( M ij ) de la matrice de mineur M ij qui est construite à partir d’une matrice A auquel on a enlevé la ligne i et
la colonne j . Pour éviter la confusion j’ai ajouté un * lorsque l’on parle de mineurs principaux primaires.
Les mineurs principaux primaires sont utilisés pour déterminer la forme de la matrice Hessienne dans les problèmes
d’optimisation.
Les mineurs (simples) sont utilisés pour calculer des déterminants avec l’expansion de Laplace.

Le déterminant d’une matrice carrée n × n est une mesure du volume dans ℝ n (d’aire dans ℝ 2 ) de la forme
géométrique construite par les vecteurs qui composent la matrice A = [aij ] .
 a11 a12   a b 
Pour A2×2 =  =
a22   c d 
on a la définition suivante
 a21
a11 a12
det( A2×2 ) = A2×2 = = a11a22 − a21a12 = ad − bc
a21 a22
 a11 a12 a13 

Pour A3×3 =  a21 a22 a23  avec la règle de Sarrus (applicable seulement pour les 3x3), on a la définition suivante
 a31 a32 a33 
a11 a12 a13

det( A3×3 ) = a21 a22 a23 = a11a22 a33 + a12 a23 a31 + a13 a21a32 − a31a22 a13 − a32 a23 a11 − a33 a21a12
a31 a32 a33
Pour le cas général on a avec l’expansion de Laplace
n
det( A) =| A | = ai1ci1 + ai 2 ci 2 + ⋯ + ain cin = ∑ aij cij
j =1
∀i, j ∈ ℕ* tel que 1 ≤ i ≤ n et 1 ≤ j ≤ n
n
= a1 j c1 j + a2 j c2 j + ⋯ + anj cnj = ∑ aij cij
i =1
où le cofacteur ij de A est le scalaire cij défini par cij = (−1)i + j mij
où mij est le mineur ij de A , c’est-à-dire le déterminant de la sous matrice de dimension (n − 1) × (n − 1) construite à

partir de la matrice A en enlevant la ligne i et la colonne j . On pourrait noter cette matrice M ij = A¬i ,¬j .
 a1,1 ⋯ a1, j −1 a1, j +1 ⋯ a1,n 

 
 ⋮ ⋱ ⋮ ⋮ ⋮ ⋮ 
a ⋯ ai −1, j −1 ai −1, j +1 ⋯ ai −1,n 
mij = det( M ij ) = det( A¬i ,¬j ) = det  i −1,1 
 ai +1,1 ⋯ ai +1, j −1 ai +1, j +1 ⋯ ai +1,n 
 ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ 
 
 an ,1 ⋯ an , j −1 an , j +1 ⋯ an ,n  ( n −1)×( n −1)
Notez aussi que la matrice des cofacteurs Cij = (−1)i + j M ij .

th00 Matrices JFB Derivation

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

th00 Matrices JFB Derivation

Transféré par

Droits d'auteur :

Formats disponibles

Règles de dérivation matricielles JFB Draft : Attention il peut y avoir des erratas v4.

 ∂z ' a   ∂(a z + a z + ... + a z ) 

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 1 of 10

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 2 of 10

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 3 of 10

Pour le Hessien avec la fonction quadratique f (z ) = z ' Az

Notez aussi que par le théorème de Hume on a

et que l'on a la fonction quadratique suivante: ℓ(z ) = z ' Az + b ' z, alors

∂(z ' Az + b ' z )  Az + A ' z + b = (A + A ')z + b ∀Am×m

Le Hessien lui sera:

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 4 of 10

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 5 of 10

Ici f (z ) est une forme quadratique.

Condition pour un minimum

Condition pour un maximum

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 6 of 10

Soit une matrice An×n carrée et symétrique et le vecteur x ∈ ℝ n , alors:

- Si ∀x ≠ 0 on a x ' Ax < 0 ⇒ A est Négative définie

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 7 of 10

Positive définie Convexe mi* > 0 ∀i = 1,..., n Minimum stricte

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 8 of 10

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 9 of 10

 a11 a12 a13 

a11 a12 a13

Pour le cas général on a avec l’expansion de Laplace

où le cofacteur ij de A est le scalaire cij défini par cij = (−1)i + j mij

où mij est le mineur ij de A , c’est-à-dire le déterminant de la sous matrice de dimension (n − 1) × (n − 1) construite à

 a1,1 ⋯ a1, j −1 a1, j +1 ⋯ a1,n 

Notez aussi que la matrice des cofacteurs Cij = (−1)i + j M ij .

derivationmatrices4.0.doc 2015-09-13 20:25:12 Page 10 of 10

Vous aimerez peut-être aussi