Vous êtes sur la page 1sur 9

Factorizaciones A = XΣX −1 y A = SV D

Elaborado por Prof. M. Monsalve


15 de Diciembre de 2019

Planteamiento

Dada una matriz A ∈ Rn×n se quiere factorizar A como A = XΣX −1 donde Σ es diagonal
con los autovalores de A y X es una matriz cuyas columnas son los autovectores de A.

Preliminares
Iniciemos recordando que, dada M ∈ Rn×n , se tiene que las siguientes proposiciones son equiv-
alentes:

• Existe M −1 tal que M −1 M = M −1 = I. La matriz M −1 se denomina inversa de M .

• M es no singular

• N ulo(M ) = {0}

• Alcance(M ) = Rn

• rango(M ) = n

• Todas las columna de M forman un conjunto li

• La única solución del sistema homogéneo M x = 0 es x = 0

• det(M ) 6= 0

• ∀b ∈ Rn , ∃!x ∈ Rn : M x = b

Autovalor/Autovector
Sea A ∈ Cn×n , x ∈ Cn con x 6= 0. Se dice que x es autovector de A y λ ∈ C su autovalor
asociado si Ax = λx. En este caso se dice que (λ, x) es una par autovalor-autovector de A.

Atención
Si bien es cierto que en este curso hemos asumido que A es de elementos reales, para el
problema de autovalores puede ocurrir que, aunque A sea real, sus autovalores y autovec-
tores sean elementos en C y Cn respectivamente. Por ejemplo:

     
0 1 1 i
A= : λ = i, x = y λ = −i, x = , donde i = −1.
−1 0 i 1

Observe que:

1. Ax = λx ≡ Ax − λx = 0 ≡ (A − λI)x = 0,

2. x 6= 0 si y solo si A − λI es singular, es decir, no si A es no invertible.

1
Fig. 1: Significado geométrico de un par autovalor-autovector

3. A − λI es no invertible, si y solo si det(A − λI) = 0

Polinomio caracterı́stico: El polinomio de grado n en λ, definido como p(λ) = det(A − λI),


se denomina polinomio caraterı́stico de A. Las n raı́ces de p(λ) son los n autovalores de A.

Los dos siguientes resultados nos indican que calcular autovalores necesariamente es un
problema que solo se puede resolver de forma aproximada:
Teorema Fundamental del Álgebra

Cada polinomio de grado n tiene, tomando en cuentas las multiplicidades, exactamente


n raı́ces.

Por tanto, siempre es posible hallar las raı́ces de p(λ) = det(A − λI).

Teorema de la Imposibilidad de Abel

Las ecuaciones polinómicas de grado mayor o igual a 5 no tienen solución algebraica.

Por tanto, NO hay fórmula para resolver p(λ) = det(A − λI) para n ≥ 5

Caso Simétrico
Necesitamos algunas definiciones para conversar sobre los autovalores-autovectores de una matriz
simétrica.

• Transpuesto conjugado: Sea un x ∈ C cualquiera de la forma x = a + ib, el transpuesto


conjugado de x, denotado por x o x∗ , se define como x = a − ib. Note que si x ∈ R,
entonces x = x, pues x no posee parte compleja.

• Matriz adjunta: Sea A una matriz de orden m × n de elementos aij . La matriz adjunta
de A denotada por A∗ , es la matriz de orden n × m cuya entrada i, j es la transpuesta
conjugada de aji de A. Por ejemplo,
 
a11 a12  
∗ a 11 a21 a 31
A = a21 a22  ⇒ A = .
a12 a22 a32 2×3
a31 a32 3×2

2
Si A ∈ Rm×n entonces A∗ ∈ Rn×m se construye simplemente intercambiando las filas y
columnas de A. En este caso, la matriz adjunta se conoce como matriz transpuesta, y se
denota por AT .

• Matriz hermitiana: Si A es orden m × m y A∗ = A, se dice que A es hermitiana. Si


A ∈ Rm×m , usualmente se dice que A es simétrica.

• Matriz unitaria: Sea Q ∈ Cm×m . Se dice que Q es unitaria si Q∗ = Q−1 , y por tanto
Q∗ Q = QQ∗ = I. Si Q ∈ Rm×m entonces se dice que Q es ortogonal.

Supongamos una matriz simétrica A, es decir, A ∈ Rm×m y A∗ = AT = A. Sea (λ, x) un


par autovalor-autovector cualquiera de A, es decir,

Ax = λx. (1)

Apliquemos la operación de transpuesta conjugada a (1):

(Ax)∗ = (λx)∗ ≡ x∗ A∗ = λx∗ ≡ x∗ A = λx∗ . (2)

Multiplicando a (1) por la izquierda por x∗ y a (2) por la derecha por x, se obtiene que:

x∗ Ax = λx∗ x (3)
∗ ∗
x Ax = λx x. (4)

Igualando (3) y (4) se obtiene que λx∗ x = λx∗ x. Dado que x 6= 0 (x es autovector), se tiene que
λ = λ y esto último sólo ocurre si λ es un número real.
VERDAD

Si A ∈ Rm×m y A = AT , entonces TODOS sus autovalores son reales.

Usando un procedimiento similar también se puede probar que


VERDAD
Sean (λ, x) y (β, y) dos pares autovalor-autovector cualesquiera de A.
Si β 6= λ, entonces x e y son ortogonales, es decir x∗ y = y ∗ x = 0

Diagonalización
Sea A ∈ Rm×m con m autovalores λi y xi autovectores asociados

• Axi = λi xi con i = 1, 2, · · · , m

• Las m igualdades anteriores se pueden escribir de forma matricial:


 
λ1
  
| | | |
A x1 . . . xm  = x1 . . . xm  
 .. 
. 
| | | | λm
| {z } | {z }
X Σ

3
• Ahora bien, Si los autovectores forman un conjunto li , entonces X es invertible, y por
tanto:   −1
λ1

| | | |
A = x1 . . . xm  
 ..  x1 . . . xm  = XΛX
 −1
.
| | λm | |

• De lo anterior se desprende que X −1 AX = Λ. Y esto se conoce como la Diagonalización


de A.

Observe que para lograr la digonalización es necesario que X sea invertible, y X será invertible
si y solo si todas sus columnas (autovectores) forman un conjunto li.

Diagonalización Unitaria
En el proceso de diagonalización, si X es unitaria, es decir, si X −1 = X ∗ , entonces el proceso se
conoce como Diagonalización Unitaria y en ese caso X ∗ AX = Σ.

La diagonalización unitaria solo es posible cuando A∗ A = AA∗ . Por ejemplo, las matrices
simétricas, evidentemente cumples que A∗ A = AA∗ , y por tanto toda matriz simétrica posee
diagonalización unitaria.

Descomposición en Valores Singulares (SVD)


SVD Full
Para cada matriz A ∈ Cm×n , existen dos matrices unitaria U ∈ Cm×m y V ∈ Cn×n y Σ =
diag(σ1 , σ2 , . . . , σp ) ∈ Rm×n con p = min(m, n) tales que

A = U ΣV ∗ .

• Los elementos diagonales de Σ son los valores singulares de A y son tales que σ1 ≥
σ2 ≥ . . . ≥ σp ≥ 0. Cada σi es un valor real, independientemente de si A posee entradas
reales o complejas.

• Las columnas de U son los vectores singulares por la izquierda.

• Las columnas de V son los vectores singulares por la derecha.

Fig. 2: SVD Full

4
Interpretación geométrica
Observe que
A = U ΣV ∗ ≡ AV = U Σ,
y por tanto
Avj = σj uj .
Por tanto, los vectores vj son transformados mediante A a los vectores σj uj . Dicho de
otro modo, si consideramos a los vj como los semi-ejes de la esfera ortogonal, entonces Avj se
transforma a σj uj , que son los semi-ejes de un elipsoide, ver la Figura (3)

Fig. 3: A transforma los semi-ejes de la esfera, en los semi-ejes del elipsoide

SVD reducida
Un análisis similar al realizado sobre la factorización QR full nos permite concluir que, en la
SVD full de A, las últimas m − n columnas de U estarán multiplicadas por cero. Esto nos lleva
a definir una forma reducida de la SDV.

Para cada matriz A ∈ Cm×n con m ≥ n, existen una matriz unitaria V ∈ Cn×n , una matriz de
b ∈ Cm×n y Σ
columnas ortonormales U b = diag(σ1 , σ2 , . . . , σn ) ∈ Rn×n tales que

A=U b T,
b ΣV

con σ1 ≥ σ2 ≥ . . . ≥ σn ≥ 0.

Fig. 4: SVD Reducida

5
Relación entre la SVD y la Diagonalización
Suponga A ∈ Rm×n con m ≥ n, y considere la SVD full de A. No olvide que los elementos de
Σ son reales.

A = U ΣV ∗ ≡ AV = U Σ ≡ Avj = σj uj para j = 1, 2, . . . , n. (5)


Observe que si A = U ΣV ∗ entonces A∗ = (U ΣV ∗ )∗ = V Σ∗ U ∗ y por tanto,

A∗ = V Σ∗ U ∗ ≡ A∗ U = V Σ∗ ⇒ A∗ uj = σj vj para j = 1, 2, . . . , n. (6)

Cada una de las n igualdades definidas por (5) más las n igualdades definidas por (6) se pueden
escribir matricialmente, mediante una matriz en bloques
zj zj
 z }| {
 z }| {

0 A uj u
T = σj j ≡ Mzj = σj zj . (7)
A 0 vj vj
| {z }
M

Estrategia uno para calcular valores singulares

De (7) podemos concluir que (σj , zj ) es un par autovalor-autovector de M. Por


tanto, es posible usar los métodos numéricos para el cálculo de autovalores,
para calcular los valores singulares. Ya que, al calcular los autovalores de M, en
realidad estamos calculando los valores singulares de A. Por supuesto, en esta primera
estrategia se debe asegurar que al programar el método numérico, la matriz M nunca se
construya de forma explı́cita pues dicha matriz de orden (m + n) × (m + n).

Por otro lado, de (5) se tiene que

Avj = σuj De (5)

A∗ Avj = σA∗ uj Mult. por A∗

A∗ Avj = σj σj vj De (6),

de donde finalmente se obtiene que


(A∗ A)vj = σj2 vj (8)

Estrategia dos para calcular valores singulares

De (8) podemos concluir que (σj2 , vj ) es un par autovalor-autovector de A∗ A, y nue-


vamente, es posible usar los métodos numéricos para el cálculo de autovalores,
para calcular los valores singulares. En esta segunda estrategia se debe asegurar que
al programar el método numérico, la matriz A∗ A no se construya de forma explı́cita, pues
si bien es cierto dicha matriz de orden n × n, es una matriz que puede generar problemas
numéricos (Esto último será explicado más adelante en el curso).

6
Propiedades de interés
A ∈ Cm×n y rango(A) = r ≤ min(m, n). Recuerde que los σj representan los valores singulares
de A mientras que los λj denotan los autovalores de A. Las siguientes son propiedades de interés
que involucran a la SVD y a la Diagonalización de A.

1. rango(A) = rango(Σ) = #σj distintos de cero.

2. Si A = AT entonces sus λj (autovalores) son reales

3. Si A = AT entonces los autovectores asociados a autovalores distintos son ortogonales.

4. Si A = AT entonces σj = |λj | para todo j

5. Si A es positiva definida entonces λj > 0 para todo j

6. Si A es simétrica positiva definida entonces σj = λj para todo j

7. kAk2 = σ1 y kAk2F = ri=1 σi2


P

8. Si A es cuadrada y no singular, entonces kA−1 k−1 −1


2 = σn . Por tanto kAk2 kAk2 =
σ1
σn .

Aproximaciones de rango bajo


Todas las matrices poseen SVD full, i.e. A = U ΣV ∗ ; más aún el siguiente Teorema nos permite
escribir A como la suma de matrices de rango 1, definidas usando los valores singulares σi , los
vectores singulares por derecha e izquierda vi y ui respectivamente.
Teorema
Sea A ∈ Rm×n tal que rango(A) = r ≤ min(m, n).
r
X
A= σi ui viT .
i=1

Más aún,
Si k < r = rango(A) y
k
X
Ak = σi ui viT (9)
i=1
entonces
min kA − Bk2 = kA − Ak k2 = σk+1 .
rango(B)≤k

La segunda parte del Teorema sencillamente establece lo siguiente: La matriz de rango k


más cercana a la matriz A, se denota por Ak y se define según (9); y la distancia de A a Ak es
exactamente σk+1 . Más aún, conviene recordar que los valores singulares aparecen ordenados de
forma descendente en la matriz Σ por tanto, si A es de rango bajo, usando k no muy grande es
posible obtener una buena aproximación de A.

7
Compresión de imágenes
El Teorema anterior tiene diferentes aplicaciones prácticas, una de ellas es la compresión de
imágenes. Supongamos que A ∈ Rm×n representa una imágen. En este caso se necesitan mn
valores para almacenar toda la imagen. Ahora bien, usando (9) es posible aproximar A mediante
Ak (de rango mucho menor que A). La ventaja de esta estrategia es que para construir Ak
solamente deben almacenarse k valores singulares, k vectores de tamaño m (los ui ), k vectores
de tamaño n (los vi ). En total se requiere de k(1 + m + n) valores. Es bastante obvio que si
k(1 + m + n) es mucho menor que mn, entonces tenemos una aproximación a la imagen A pero
con menor información. Más aún, el valor

k(1 + m + n)
Ck = ,
mn
denominado, coeficiente de compresión nos indica la proporción de data requerida por Ak . Si
para un k especı́fico Ck < 1, entonces Ak es una aproximación de A que requiere menos data
que A para generarse.

Para ver la calidad de las aproximaciones usando la SVD, considere la siguiente imagen de
orden m × n = 362 × 357 de mi gata pretendiendo descansar en un lugar prohibido:

Fig. 5: Imagen original de Michi

Ahora bien, en la Figura 6 se tienen diferente aproximaciones para distintos valores de k.


Especı́ficamente, la imagen (6a) se generó con k = 20, es decir, con 20 valores singulares, 20
vectores ui de tamaño 362, y 20 vectores de tamaño 357. En este caso C20 = 0.1114 y por tanto,
la aproximación A20 requiere solo el 11.14 % de la data original. Claramente, con k = 20 la
aproximación no es buena.

Con k = 60 se generó la imagen (6b) que requiere solo el 33.43 %. Esta nueva aproximación
es mejor que la generada con k = 20, pero aún deficiente. Finalmente, al usar k = 100 se obtiene
la imagen (6c) que resulta una aproximación bastante aceptable de la imagen original pero que
solo requiere el 55.71% de la data original.

8
(a) Michi con k = 20. 11.14% (b) Michi con k = 60. 33.43% (c) Michi con k = 100. 55.71%

Fig. 6: Aproximaciones de rango bajo de Michi

Este tipo de aproximaciones resulta de mucha utilidad en la transmisión de imágenes que


deben viajar grandes distancias. Por ejemplo, las imágenes de telescopios, ya que la data a
transmitir es mucho menos que la data de la imagen original, pero la imagen que se recobra es
bastante aceptable.

Vous aimerez peut-être aussi