Vous êtes sur la page 1sur 35

Métodos Matemáticos de Especialidad

Ingeniería Eléctrica

Repaso de Matemáticas

Definiciones, notaciones y
relaciones básicas

José Luis de la Fuente O’Connor


jldelafuente@etsii.upm.es
joseluis.delafuente@upm.es

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Madrid

Repaso_matemáticas_2010.pdf

1
2
E
N ESTA INTRODUCCIÓN se recopilan algunos conceptos y resultados que son básicos pa-
ra seguir la asignatura. Casi todos se han presentado en cursos anteriores. En ningún caso
es un exhaustivo recordatorio de las matemáticas elementales que se deben conocer. Tam-
bién se introduce una notación que, de forma uniforme, trataremos de usar en todas las lecciones y
presentaciones de las clases.

1 Conjuntos

Un conjunto es una colección de objetos: los números naturales, las soluciones de un problema
determinado, los municipios de una provincia, etc. Se identifica por una letra mayúscula: el conjunto
S , el conjunto de los números naturales N, el de los enteros Z, el de los reales R, complejos C,
racionales Q, etc.
Los componentes de un conjunto se denominan elementos. Si un elemento a pertenece a un con-
junto se indica a 2 S . Los conjuntos se definen mediante la enumeración entre llaves de sus ele-
mentos, S D fa; b; : : : g, o especificando, también entre llaves, la propiedad que los caracteriza,
S D fx W x 2 R; x  2g: números reales menores o iguales que dos.
El conjunto sin elementos se denomina vacío, designándose ;. Ejemplo: el conjunto S de los
números reales x que son mayores que 1 y menores que 0: esto es, S D fx 2 R W x > 1; x < 0g.
Si S y S 0 son dos conjuntos y todos los elementos del conjunto S 0 lo son de S, se dice que S 0 es un
subconjunto del conjunto S , o que está contenido en S 0 , expresándose S 0  S o S  S 0 .
La unión de dos conjuntos S y T , expresada S [ T , es el conjunto formado por los elementos que
pertenecen a S o a T .
La intersección de S y T , expresada S \ T , es el conjunto formado por los elementos que perte-
necen a S y a T .
Si S 0 es un subconjunto de S, el complemento de S 0 en S es el conjunto formado por los elementos
de S que no pertenecen a S 0 .
Si a y b son números reales, a  b, el conjunto de números de la recta real x, a  x  b, se indica
Œa; b. El formado por los x, a < x  b, por .a; b. El de los x, a < x < b, por .a; b/.
Si S es un conjunto no vacío de números reales acotados superiormente, o mayorados, existe un
número real mínimo y tal que x  y para todo x 2 S . Al número y se le denomina cota superior
mínima o supremo de S ; se expresa
sup .x/ o sup fx W x 2 S g :
x2S

De forma similar se define la cota inferior máxima o ínfimo de un conjunto S no vacío de números
reales acotados inferiormente o minorados:
Kınf .x/ o Kınf fx W x 2 Sg :
x2S

2 Aplicaciones

Dados dos conjuntos S y T , una aplicación f de S en T , expresada como f W S ! T , es una


asociación o criterio que a cada elemento de S hace corresponder uno de T .
La imagen de un elemento x 2 S con la aplicación f W S ! T es el elemento f .x/ 2 T . El
conjunto imagen f .S/ = ff .x/ 2 T; para todo x 2 Sg. La imagen de un subconjunto S 0  S con
la aplicación f sería, por consiguiente, el subconjunto imagen f .S 0 /. El conjunto S se conoce como
origen o dominio de definición y el T como dominio de valores. Una aplicación f W S ! T se dice
3
inyectiva si para cualquier par de elementos x; y 2 S , x ¤ y, se cumple que f .x/ ¤ f .y/. Ejemplo,
la aplicación f W R ! R, definida por f .x/ D x 2 , no es inyectiva, pues f .1/ D f . 1/ D 1.
Una función es un caso particular de aplicación en donde los conjuntos origen e imagen son con-
juntos de números: R, C, Z, N, etc.
Una aplicación f W S ! T se dice suprayectiva —sobreyectiva, epiyectiva, suryectiva o exhaustiva—
si el conjunto imagen f .S/ es igual a todo el conjunto T ; es decir, para todo y 2 T existe un x 2 S
tal que f .x/ D y.
Una aplicación se dice biyectiva si es inyectiva y suprayectiva. Ejemplo, si Jn es el conjunto de los
números enteros de 1 a n, Jn D f1; : : : ; ng, y se define una aplicación  W Jn ! Jn que modifica el
orden de disposición de los elementos de Jn —estas aplicaciones se denominan permutaciones—, tal
aplicación es biyectiva.
Un conjunto S se dice numerable si existe una biyección entre N y S : a cada unos de los n elemen-
tos k, 1  k  n, se le asocia un elemento ak 2 S, esto es: k 7! ak .
Una sucesión de elementos de un conjunto T es una aplicación de N en T : a cada elemento n  1
se le hace corresponder un x .n/ 2 T : n 7! x .n/ . Tal sucesión se expresa como fx .1/ ; x .2/ ; : : : g o
fx .n/ gn1 .
Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplica-
ción, división o cualquier otra—, se dice que poseen una estructura. Las estructuras fundamentales
son: grupo, anillo (Z por ejemplo), cuerpo (R y C, por ejemplo) y espacio vectorial.

3 Espacios vectoriales

Sea K un cuerpo, un espacio vectorial E sobre K es un conjunto dotado de una ley de composición
interna, adición, con la siguientes propiedades —grupo conmutativo—,
xCy DyCx
.x C y/ C z D x C .y C z/
xCøDx
x C . x/ D ø;
y una ley de composición externa, producto por un escalar, de la que el dominio de operadores es K,
con las siguientes propiedades,
1x Dx
˛.ˇx/ D .˛ˇ/x
.˛ C ˇ/x D ˛x C ˇx
˛.x C y/ D ˛x C ˛y;
válidas cualesquiera que sean x; y; z en E y ˛; ˇ en K; a ø se le denomina elemento neutro y a
x el opuesto de x. Es usual denominar vectores a los elementos de E y escalares a los de K. En
las aplicaciones que se estudian en la asignatura los casos más importantes ocurren cuando K D R
o K D C. Con la notación K designaremos a cualquiera de los cuerpos R o C y por x un vector
cualquiera de un espacio vectorial.
Un ejemplo característico de espacio vectorial lo constituye el formado por sucesiones ordenadas
de n elementos cualesquiera de K, o n-uplas x D .x1 ; : : : ; xn /, definiendo la suma de vectores
mediante
.x1 ; : : : ; xn / C .y1 ; : : : ; yn / D .x1 C y1 ; : : : ; xn C yn /

4
y el producto por un escalar mediante
˛.x1 ; : : : ; xn / D .˛x1 ; : : : ; ˛xn / :

Si X es un conjunto arbitrario, el conjunto de aplicaciones ' W X ! K se estructura también como


un espacio vectorial definiendo las operaciones
.' C / W x 7 ! '.x/ C .x/
.'/ W x 7 ! '.x/ :
El ejemplo anterior es un caso particular de este espacio vectorial tomando X D f1; 2; : : : ; ng.
Un subespacio M , de un espacio vectorial E sobre un cuerpo K, es un subconjunto no vacío
cerrado respecto de las operaciones de adición y producto por un escalar; es decir, se cumple que:
8x; y 2 M H) x C y 2 M;
8x 2 M y 8 2 K H) x 2 M:
La intersección de una familia cualquiera de subespacios de E es también un subespacio.
Si X es un subconjunto cualquiera de E, el subespacio hX i engendrado por X es la intersección se
todos los subespacios que contienen a X. Cuando hXi D E, se dice que X es una parte generadora
de E.
Dados vectores x1 ; : : : ; xn y escalares 1 ; : : : ; n , el vector formado según la expresión
x D 1 x1 C    C n xn
se dice que es combinación lineal de los vectores x1 ; : : : ; xn de coeficientes 1 ; : : : ; n . Un sub-
conjunto X de E es un subespacio si y sólo si contiene a cualquier combinación lineal de cualquier
subconjunto finito de vectores de X . También se demuestra que el subespacio hX i es el conjunto de
todas las combinaciones lineales de vectores de X .
Un conjunto de vectores x1 ; x2 ; : : : ; xk se dicen linealmente dependientes si existen escalares i ,
no todos cero, tales que kiD1 i xi D 0 ; linealmente independientes, si
P

k
X
i xi D 0 H) i D 0; 0i k:
i D1

Una parte X de un espacio vectorial E se dice que es una familia libre si los vectores de cualquier
subconjunto finito de X son linealmente independientes.
La dimensión de un subespacio es el máximo número de vectores linealmente independientes en el
subespacio.
Una base de un espacio vectorial E es cualquier subconjunto B de E que sea, simultáneamen-
te, una parte libre y generadora de E; dicho de otra forma, una base de un espacio vectorial es un
conjunto —normalmente se supone ordenado (numerado)— de vectores linealmente independientes
que generan dicho espacio. Se demuestra que cualquier espacio vectorial tiene una base y que todas las
bases de un mismo espacio tienen la misma cardinalidad —se pueden poner en biyección—. Cuando
el cardinal de las bases es un número natural, n 2 N, se dice que el espacio es de dimensión finita n.
En un espacio vectorial K n ,
2 3 2 3 2 3
1 0 0
6 0 7 6 1 7 6 0 7
6 7 6 7 6 7
e1 D 66 :: 7 ; e2 D 6 :: 7 ; : : : ; en D 6 :: 7 ;
7 6 7 6 7
4 : 5 4 : 5 4 : 5
0 0 1

5
forman una base en dicho espacio; éste, por tanto, tiene dimensión n. Esta base se denomina base ca-
nónica de K n . En esta base, cualquier vector x T D Œx1 ; x2 ; : : : ; xn  se puede expresar de la siguiente
forma: 2 3 2 3 2 3 2 3
x1 1 0 0
6 x2 7 6 0 7 6 1 7 6 0 7
6 7 6 7 6 7 6 7
6 : 7 D x1 6 : 7 C x2 6 : 7 C    C xn 6 : 7 :
6 : 7 6 : 7 6 : 7 6 : 7
4 : 5 4 : 5 4 : 5 4 : 5
xn 0 0 1

Si A y B son subconjuntos de un espacio vectorial E, el conjunto A C B se define como:


A C B D fa C b W a 2 A; b 2 Bg :
Cuando A y B son subespacios, también lo es la suma A C B. Si además A \ B D ;, la suma se
denomina directa, escribiéndose A ˚ B. Si A ˚ B D E, cualquier vector c 2 E se descompone de
manera única como c D a C b, con a 2 A y b 2 B; también se dice que A y B son subespacios
suplementarios.

3.1 Espacios normados

Si en un espacio vectorial E sobre K (R o C) se define una norma vectorial como una aplicación
k  k W E ! R que verifica

kvk D 0 H) v D 0 y x ¤ 0 H) kxk > 0;


k˛vk D j˛jkvk para ˛ 2 K y v 2 E;
ku C vk  kuk C kvk 8u; v 2 E;

se dice que E es un espacio vectorial normado.


La condición kuCvk  kukCkvk es la desigualdad de Minkowski; se conoce también como regla
del triángulo. Es una generalización del hecho de que un lado de un triángulo no puede ser mayor que
la suma de los otros dos: ver figura 3.1. Una variante también útil de esta regla es la siguiente:
ku vk  kuk kvk:

En el espacio vectorial Kn , para 1  p < 1, se tiene la familia de normas


 1=p
p p
kxkp D jx1 j C    C jxn j ;

u+v v

u
Figura 3.1: Representación gráfica de la regla del triángulo

6
denominadas normas p de Hölder. Casos particulares lo constituyen las correspondientes a p D 1 y
p D 2:
n
X
kxk1 D jxi j
i D1
p
kxk2 D jx1 j2 C    C jxn j2 :

Esta última se denomina en Rn norma euclídea. También en Kn es una norma la dada por
kxk1 D mKax jxi j :
1in

Estas normas cumplen, cualquiera que sea x 2 Kn , que


kxk1  kxk2  kxk1  nkxk1 :

Si la bola cerrada unidad en R2 es el conjunto fx 2 R2 W kxk  1g, sus formas para las normas
vectoriales 1, 2, 1, y p son las que representa la figura 3.2.
En el espacio C Œ0; 1 de funciones continuas del intervalo Œ0; 1 en C, son normas las dadas por
"Z #1=p
1
kf kp D jf .t/jp dt
0

y por
kf k1 D mKax jf .t/j :
t 2Œ0;1

En un espacio vectorial normado se define la distancia entre dos elementos u y v mediante

d.u; v/ D ku vk :

Esta definición convierte a cualquier espacio vectorial normado en un espacio métrico.


Sea E un espacio vectorial normado; se dice que una sucesión1 fx .n/ g en E converge a un límite
v 2 E, si para todo " > 0, existe un N 2 N tal que a partir de él, n  N , se cumple que kx .n/ vk < ".
Cuando una sucesión fx .n/ g admite un vector límite v sólo tiene ese vector como límite —si existe
límite es único—: se escribe lKımn!1 x .n/ D v. Es equivalente decir que lKımn!1 x .n/ D v y que
lKımn!1 kx .n/ vk D 0. En particular, x .n/ ! 0 si y sólo si kx .n/ k ! 0.
Una sucesión fx .n/ g en un espacio vectorial normado por k  k se denomina sucesión de Cauchy,
si para cada " > 0, existe un n 2 N tal que cualesquiera que sean p; q  n, se cumple que
kx .p/ x .q/ k < ". Toda sucesión convergente es una sucesión de Cauchy pero pueden existir es-
pacios normados con sucesiones de Cauchy que no son convergentes. Un espacio vectorial normado
se dice completo si toda sucesión de Cauchy en él tiene límite.
Un espacio de Banach es un espacio vectorial completo respecto de la norma a él asociada. Todo
espacio vectorial normado de dimensión finita es un espacio de Banach. En un espacio de dimensión
infinita esto no es cierto; por ejemplo, es fácil ver que en C Œ0; 1 la sucesión de funciones cuyas
gráficas son las de la figura 3.3 es una sucesión de Cauchy para cualquier norma k  kp , pero no tiene
límite en C Œ0; 1.
1 Cuando así lo aconseja la dificultad de la notación, una sucesión también se designa por fxn g; sus integrantes, x .k/ .

7
2

x1 = |xi |
i=1

 √
x2 = |x1 |2 + |x2 |2 = xT x

x∞ = max |xi |


1≤i≤2

 1/p
p p
xp = |x1 | + |x2 | , (1 ≤ p < ∞)

Figura 3.2: Forma de la bola unidad para diferentes normas en R2

3.2 Espacios con producto interior

Sea E un espacio vectorial sobre un cuerpo K (R o C); una forma sesquilineal —vez y media
lineal— sobre E es una aplicación, hji W E  E ! K, que verifica2 :

1) h˛u C ˇvjwi D ˛hujwi C ˇhvjwi y


2) huj˛v C ˇwi D ˛hujvi C ˇhujwi;

cualesquiera que sean u, v, w en E y ˛; ˇ en K. Si además se cumple que

hujvi D hvjui ;
la forma se denomina hermítica. Es claro que hujui es siempre un número real. Cuando se cumple
que
u ¤ 0 H) hujui > 0 ;
se dice que la forma es definida positiva, denominándosela también producto escalar. Una forma
sesquilineal sobre R es siempre bilineal.
Un espacio prehilbertiano es un espacio vectorial sobre K dotado de una forma hermítica definida
positiva. Todo espacio prehilbertiano es un espacio normado mediante
p
kvk D hvjvi :
2 La barra designa complejo conjugado.

8
fn .x/ 6 1
n
= =





 -
0  1 x





= =
1
n

Figura 3.3: Gráfica de una de las funciones de una sucesión de Cauchy

En la demostración de que esta definición corresponde a la de una norma en E juega un papel impor-
tante la desigualdad de Cauchy-Schwarz: a saber,
ˇ ˇ
ˇhujviˇ  kuk  kvk :
ˇ ˇ

Un espacio de Hilbert p
es un espacio prehilbertiano completo respecto de la norma que deriva del
producto escalar k  k D h; i . Dicho de otra forma, un espacio prehilbertiano que con esta norma
da un espacio de Banach.
El espacio euclídeo n-dimensional, expresado Rn o En , es un espacio de Hilbert de dimensión
finita.
Dos vectores cuyo producto escalar es cero se denominan ortogonales; si su k  k2 es igual a la
unidad, se denominan ortonormales. Para dos vectores ortogonales se tiene la identidad
ku C vk2 D kuk2 C kvk2 ;
que es una generalización del teorema de Pitágoras. En un espacio prehilbertiano, el único vector
ortogonal a todos los vectores del espacio es el vector nulo; si este espacio es de dimensión finita es
posible construir una base ortonormalizada.
Una familia cualquiera de vectores distintos del nulo y ortogonales dos a dos es una familia libre.
Si M es un subespacio de un espacio prehilbertiano E de dimensión finita, el subespacio ortogonal
de M , M ? , es el subespacio formado por todos los vectores ortogonales a los de M , siendo un
subespacio suplementario de M ; es decir M ˚ M ? D E. Cualquier x 2 E, por consiguiente, se
puede expresar como x D a C b, con a 2 M y b 2 M ? .

3.3 Aplicaciones lineales

Dados dos espacios vectoriales E y F sobre el mismo cuerpo K, se define una aplicación lineal, u
homomorfismo, f de E en F , como una aplicación f W E ! F que verifica

f .x C y/ D f .x/ C f .y/ ;


cualesquiera que sean los vectores x, y en E y los escalares  y . Existen dos casos particulares
interesantes: el primero cuando E D F , en este caso se dice que f es un operador lineal de E o

9
endomorfismo de E; el segundo cuando F D K —el cuerpo base—, en cuyo caso la aplicación se
denomina forma lineal sobre E.
El conjunto L.E; F / de todas las aplicaciones lineales del espacio E en el espacio F se estructura
como un espacio vectorial si se definen las siguientes operaciones:

a) adición .f C g/ W .f C g/.x/ D f .x/ C g.x/ 8x 2 EI


b) producto por un escalar f W .f /.x/ D f .x/ 8x 2 E y 8 2 K:

En particular, el conjunto L.E; K/ de formas lineales es un espacio vectorial denominado dual de E,


representándose con E  .
Para una aplicación lineal f W E ! F , el conjunto de vectores de F que son la imagen de los de
un subespacio de E forma un subespacio de F . En particular, la imagen de todo E es un subespacio
de F que se denomina subespacio imagen de f , representándose mediante Im.f /. Análogamente, el
conjunto anti-imagen de un subespacio de F forma un subespacio de E. En particular, la anti-imagen
del subespacio nulo de F forma lo que se denomina el núcleo de la aplicación, representándose por
ker.f /. Así pues
ker.f / D fx 2 E W f .x/ D 0g :
Si b 2 F , la ecuación lineal f .x/ D b tiene solución si y sólo si b 2 Im.f /. En ese caso
el conjunto de todas las soluciones es la variedad lineal —traslación de un subespacio— dada por
x0 C ker.f /, donde x0 es una solución particular de la ecuación. En particular, la aplicación es
inyectiva si y sólo si ker.f / D ;.
Sean E y F dos espacios prehilbertianos sobre el cuerpo K; si f W E ! F es una aplicación lineal,
la aplicación traspuesta de f es la aplicación f  W F ! E que cumple

hxjf  .y/i D hf .x/jyi ;


cualesquiera que sean los vectores x 2 E e y 2 F . Particularmente importante es el caso en que
E D F : f  se dice entonces que es el operador adjunto de f . Cuando un operador f de E cumple
que f  D f se denomina operador autoadjunto. En el caso de que E sea un espacio vectorial real,
también se dice que f es un operador simétrico y cuando es un espacio vectorial complejo, que f es
un operador hermítico. Un operador simétrico cumple que
hxjf .y/i D hf .x/jyi;
mientras que uno hermítico, que
hxjf .y/i D hf .x/jyi:
Un operador f de E es unitario cuando es invertible y su inverso coincide con su adjunto. Es decir,
si f  D f 1 . Para un operador unitario se tiene que
hf .x/jf .y/i D hf  .f .x//jyi D hxjyi ;

de manera que kf .x/k D kxk. Por este motivo a los operadores unitarios también se les denomina
operadores isométricos.

4 Matrices

Sean dos espacios vectoriales E y F de dimensiones finitas n y m sobre el mismo cuerpo K.


Una aplicación lineal g W E ! F , g 2 L.E; F /, está caracterizada o representada en dos bases

10
fe1 ; e2 ; : : : ; en g de E y ff1 ; f2 ; : : : ; fm g de F por una tabla de coeficientes, matriz asociada, de m
filas y n columnas: 2 3
a11    a1n
6 : :: :: 7 mn
A D 4 :: 6 : : 752K :
am1    amn
Los elementos aij están definidos por
m
X
g.ej / D aij fi ; 1  j  n:
i D1

El vector columna j -ésimo 2 3


a1j
6 a2j
6 7
7
6 : 7
6 :
4 :
7
5
amj
representa el vector g.ej / en la base .fi /. A partir de la matriz A se pueden calcular los componentes
y1 ; y2 ; : : : ; ym del vector y D g.x/ en la base .fi /, conociendo los componentes x1 ; x2 ; : : : ; xn en
la base .ej /. En efecto:
2 3 2 3 2 3 2 3
y1 a11 a12 a1n
6 y2 7 6 a21 7 6 a22 7 6 a2n 7
6 7 6 7 6 7 6 7
6 : 7 D x1 6 : 7 C x2 6 : 7 C    C xn 6 : 7 :
6 : 7 6 : 7 6 : 7 6 : 7
4 : 5 4 : 5 4 : 5 4 : 5
ym am1 am2 amn
Expresión que también se puede escribir de la siguiente forma:
n
X
yD xi ai ;
i D1

donde ai es el vector columna i -ésimo de la matriz A. Así pues, si se fijan dos bases en E y F , cada
aplicación lineal, g W E ! F , queda unívocamente representada por una matriz. Recíprocamente,
toda matriz en K mn define unívocamente una aplicación lineal entre dos espacios E y F de dimen-
siones n y m en los que se han fijado dos bases. En particular, se pueden identificar las matrices m  n
con las aplicaciones lineales de K n en K m .
Las matrices de m filas y n columnas con elementos en el cuerpo K forman un espacio vectorial,
K mn , sobre dicho cuerpo K.
Si E y F son dos espacios de dimensión finita dotados de un producto escalar y la aplicación
˛ 2 L.E; F / se representa en dos bases ortonormalizadas mediante una matriz A, la aplicación
˛ T 2 L.F; E/, traspuesta de ˛, viene representada por la matriz A T , traspuesta de A.
El núcleo y la imagen de una matriz A 2 K mn , ker.A/ y Im.A/, respectivamente, se definen
como los subespacios de K n y K m que son el núcleo y la imagen de la aplicación lineal asociada:

ker.A/ D fx 2 K n W Ax D 0g
%
:
Im.A/ D fy 2 K m W y D Ax; x 2 K n g A2K mn
Dicho de otra forma, la imagen de una matriz es el subespacio generado por los vectores columna de
la matriz; los vectores fila también generan un subespacio que no es otro que la imagen de A T .
11
Para una matriz A 2 Rmn se cumple que:
ker A T D .Im.A//? I


Im A T D .ker.A//? I

?
ker.A/ D Im A T I
?
Im.A/ D ker A T

:

El Teorema fundamental del algebra lineal establece que si A 2 Rmn se cumple que
ker .A/ ˚ Im A T D Rn :


El rango de una matriz es la dimensión3 de su subespacio imagen:


rango.A/ D dim.Im.A//
Una matriz A 2 K mn se dice de rango completo si rango.A/ D mKın.m; n/. Una matriz cuadrada
A 2 K nn se denomina singular si rango.A/ < n; regular si rango.A/ D n.
La aplicación asociada a una matriz A 2 Rmn es suprayectiva si rango.A/ D m. Para una matriz
A 2 K mn se cumple que
dim.ker.A// C rango.A/ D n ;
o, alternativamente, dim.ker.A// D n rango.A/. La aplicación lineal asociada a A es, por tanto,
inyectiva, si y sólo si rango.A/ D n.

4.1 Normas de matrices

Aun cuando en lo que sigue nos limitaremos a matrices cuadradas, la mayor parte de las definicio-
nes y resultados son extensibles a matrices rectangulares; también supondremos que las matrices son
reales.
Las matrices cuadradas de orden n forman un espacio vectorial con un producto, esto es, un álgebra.
Una norma matricial es una norma vectorial compatible con el producto. Se define formalmente sobre
Rmn como una aplicación k  k W Rmn ! R que cumple:

1) kAk D 0 H) A D 0:
2) kAk D jj  kAk:
3) kA C Bk  kAk C kBk:
4) kABk  kAk  kBk:

Existen normas sobre el espacio Rmn que no son normas matriciales pues no cumplen la propiedad
4). Así, si se define
kAk D mKax jaij j ;
1i;j n
h i
se satisfacen 1), 2) y 3); sin embargo, tomando A D B D 11 11 , es fácil ver que kABk D 2 >
kAk  kBk D 1, por lo que no se cumple 4).
Un ejemplo importante de norma matricial es la norma de Frobenius, definida como:
X
kAk2F D aij2 D traza.A T A/;
1i;j n
3 Recordemos: máximo número de vectores linealmente independientes.

12
donde la traza de una matriz A de orden n es niD1 ai i . Es fácil ver que esta norma deriva del producto
P
escalar hAjBi D traza.A T B/, que configura al espacio de las matrices cuadradas como un espacio
prehilbertiano. La norma de Frobenius cumple que
kABkF  kAkF  kBkF :

Una norma matricial k  k sobre Rmn se dice consistente con una norma vectorial k  k0 sobre Rn
cuando para cada matriz A y cada vector x se cumple que
kAxk0  kAk  kxk0 :
Por ejemplo, la norma de Frobenius y la norma euclídea de Rn son consistentes pues
kAxk2  kAkF  kxk2 :
Se demuestra que para toda norma matricial es posible construir una norma vectorial consistente.
Recíprocamente, a toda norma vectorial sobre Rn se le puede asociar una norma matricial consis-
tente. Una norma matricial consistente con una cierta norma vectorial k  k se construye mediante la
definición
kAxk
kAk D sup :
0¤x2Rn kxk
Esta norma matricial se dice inducida por la norma vectorial. Ejemplo: la norma matricial inducida
por la norma euclídea de Rn es la norma espectral:
" #1=2
x T A T Ax p
kAk2 D sup Tx
D max .A T A/ D max .A/;
0¤x2Rn x

donde  designa un valor propio de A y  un valor singular. Si k  k es la norma inducida por una
cierta norma vectorial y k  k0 es una norma matricial cualquiera consistente con esa norma vectorial,
se cumple, para toda matriz A, que kAk  kAk0 . En particular, para la norma espectral y la norma
de Frobenius, se cumple que
kAk2  kAkF :
Las normas matriciales inducidas más usadas son
m
X
kAk1 D mKax jaij j y
1j n
i D1
n
X
kAk1 D mKax jaij j :
1i m
j D1

Ejemplo 4.1 El efecto que produce aplicar la transformación lineal basada en la matriz
" #
1 2
AD
0 2

sobre la bola unidad definida a partir de las normas k  k1 , k  k2 y k  k1 en R2 , se representa en la


figura 4.4. La aplicación transforma el vector e1 D Œ1; 0T en sí mismo y e2 D Œ0; 1T en Œ2; 2T .
Tomando la norma 1, el vector unitario que más se amplifica al aplicarle la transformación es Œ0; 1T
(o Œ0; 1T ), que pasa a ser Œ2; 2T . Su factor de amplificación, en términos de la norma 1, es 4.
Tomando la norma 2, el vector unitario que más se amplifica es el que se representa en la figura
con una recta discontinua. El factor de amplificación es 2,9208.

13
[2, 2]T

[0, 1]T
A1 = 4
[1, 0]T
norma 1
[1, 0]T

A2 ≈ 2,9208
norma 2

A∞ = 3
norma ∞

Figura 4.4: Efecto de una aplicación lineal sobre la bola unidad para diferentes normas

Para la norma 1, igualmente, el vector unitario que más se amplifica es el que se representa tam-
bién con la recta discontinua: Œ1; 1T , que pasa a transformarse en Œ3; 2T . El factor de amplificación
correspondiente es en este caso 3 ya que

Œ1; 1T D 1
1

Œ3; 2T D 3:
1
u

4.2 Matrices ortogonales, matrices de permutación y matrices de proyección

Una matriz Q 2 Rmn se dice ortogonal si verifica que QT Q D I; es decir, cuando sus vectores
columna son ortogonales dos a dos y de norma euclídea unitaria (ortonormales). Si Q 2 Rnn es
ortogonal, se cumple que QQT D QT Q D I.
Las matrices ortogonales Q 2 Rmn verifican:
9
kQk2 D 1 >
>
>
>
1=2
kQkF D n
>
=
si m  n
kQAk2 D kAk2 > >
>
>
>
kQAkF D kAkF
;

14
y 9
kQk2 D 1 >
>
>
>
kQkF D m1=2
>
=
si m  n
kAQk2 D kAk2 >
>
>
>
>
kAQkF D kAkF
;

Una matriz de permutación es una matriz cuadrada cuyas columnas están formadas por las de la
matriz unidad permutadas. Una matriz de permutación es una matriz ortogonal.
Una matriz se dice simétrica si se verifica que A T D A. Para una matriz cualquiera A 2 Rmn , la
matriz A T A es simétrica.
Se denomina proyector o matriz de proyección a una matriz P 2 Rnn que verifica que
P2 D P
Si P además es simétrica, se denomina proyector ortogonal o matriz de proyección ortogonal. Si, en
este último caso, F es el subespacio imagen de la matriz P (el mismo que el de la matriz P T ), Px
define la proyección ortogonal del vector x sobre F .
Se denomina proyector suplementario de P al proyector S D I P. Si F D Im.P/ y G D
ker.P/, entonces F D ker.S/ y G D Im.S/.
En el caso de un proyector ortogonal P en el que F D Im.P/, se tiene que Rn D F ˚ F ? ,
verificándose que kPxk2  kxk2 y que
kx Pxk2 D mKın kx yk2 :
y2Im.P /DF

5 Valores propios, valores singulares y formas cuadráticas

5.1 Valores propios

Sea A una matriz cuadrada de orden n y elementos en K (R o C). Un vector no nulo u 2 Kn se


denomina vector propio de A si para algún  2 K se cumple que

Au D u :
A este  se le denomina valor propio o autovalor de la matriz A. El conjunto de los valores propios
de una matriz A se denomina espectro de A, designándose por ƒ.A/. El radio espectral, .A/, se
define de la siguiente manera:
.A/ D mKax ji j:
1i n

Para que un número  sea valor propio de A, el sistema lineal y homogéneo de ecuaciones dado
por
.I A/x D 0
debe tener soluciones distintas de la trivial x D 0. Esto equivale a que
det.A I/ D 0 :

Esta es una ecuación polinómica de grado n en  que se denomina ecuación característica de la


matriz A. La ecuación característica admite la raíz  D 0 si y sólo si det.A/ D 0. Una matriz es
invertible, por tanto, si y sólo si no admite al cero como vector propio.

15
Una matriz real de orden n no tiene necesariamente valores propios reales pero, como consecuen-
cia del teorema fundamental del álgebra, cualquier matriz compleja tiene al menos un valor propio
complejo. El número máximo de valores propios es n.
Siendo  un valor propio de la matriz A, el conjunto de soluciones del sistema de ecuaciones
.I A/x D 0
es un subespacio de Kn que se denomina subespacio propio asociado al valor propio , designándose
con E . Si n es la multiplicidad de  como raíz de la ecuación característica de A, se cumple que
dim.E /  n :
La intersección de subespacios propios correspondientes a valores propios distintos se reduce al
subespacio nulo; esto es,
 ¤  H) E \ E D ; :
De este modo, la suma de subespacios propios es directa. Se cumple que
M
E D Kn
2ƒ.A/

si y sólo si para cada  2 ƒ.A/, dim.E / D n ; en ese caso existe una base de Kn formada toda ella
por vectores propios de A. Siendo V una matriz cuadrada invertible de orden n cuyas columnas son
los vectores de esa base, se tiene que
AV D V D ;
donde D D diag.1 ; : : : ; n /. Alternativamente, se puede escribir que
1
V AV D D ;
por lo que la matriz A es semejante a una matriz diagonal; se dice entonces que la matriz A es
diagonalizable por semejanza.
Toda matriz real y simétrica tiene todos sus valores propios reales y es diagonalizable por semejan-
za. Se demuestra además que los subespacios propios correspondientes a valores propios distintos son
ortogonales. De aquí se sigue que es siempre posible formar una base ortonormalizada de vectores
propios para una matriz real y simétrica A. Existe entonces una matriz ortogonal Q tal que se verifica
que
QT AQ D D; con QT D Q 1 ;
y, de aquí que, toda matriz real y simétrica es congruente ortogonal con su reducida diagonal. Es-
te resultado fundamental de la teoría de matrices es la versión elemental del denominado teorema
espectral.

5.2 Valores singulares

La noción de valor propio, o autovalor, no tiene significado para matrices rectangulares. En éstas,
por el contrario, se introduce el concepto de valor singular. Si A es una matriz rectangular m  n
con elementos en R, se definen sus valores singulares i ; i D 1; : : : ; mKınfm; ng, como las raíces
cuadradas positivas de los valores propios de la matriz cuadrada A T A 2 Rnn .
Se demuestra que si A 2 Rmn , existen dos matrices ortogonales,
U D Œu1 ; : : : ; um  2 Rmm
y
V D Œv1 ; : : : ; vn  2 Rnn ;
16
tales que
U T AV D diag.1 ; : : : ; p /; p D mKınfm; ng ;
y donde
1  2      p  0 :
Los vectores ui se denominan vectores singulares izquierdos; los vi , vectores singulares derechos.
Los valores singulares de A son las longitudes de los semiejes del hiperelipsoide E definido por
E D fy W y D Ax; kxk2 D 1g :

Es decir, las longitudes de los semiejes del hiperelipsoide imagen de la esfera unidad resultante de
la aplicación que caracteriza la matriz A. En la figura 5.5 se describe gráficamente el caso en que
m D n D 2.
Para una matriz A 2 Rmn cuya descomposición en valores singulares es A D U †V T , se define
su matriz pseudoinversa, A Ž , como
AŽ D V †ŽU T ;
donde
† Ž D diag.1 1 ; : : : ; r 1 ; 0; : : : ; 0/ 2 Rnm :
Si A 2 Rmn es de rango completo y m > n,
1
AŽ D AT A AT I


si m < n
1
A Ž D A T AA T

:

Para cualquier matriz A 2 Rmn , la matriz A Ž A es la matriz n  n de proyección ortogonal sobre


el subespacio de los vectores fila de A, AA Ž la m  m de proyección ortogonal sobre la imagen de
la matriz A (subespacio de sus vectores columna) y .I A Ž A/ la de proyección ortogonal sobre el
núcleo de A.

5.3 Formas cuadráticas

Una forma cuadrática en n variables es un polinomio de segundo grado en esas variables. La


expresión más general de una forma cuadrática es

q.x/ D x T Qx ;
donde Q D QT es una matriz simétrica de orden n. Nos limitaremos al análisis de formas cuadráticas
con coeficientes reales.
Mediante una transformación lineal de variables, x D T y, una forma cuadrática se puede reducir
a la forma canónica de suma de cuadrados siguiente:
p pCq
X X
q.x/ D yi2 yi2 :
i D1 i DpC1

El rango de la forma es p C q y la signatura p q (p números positivos y q negativos).


Una forma cuadrática real es definida positiva si para todo vector x ¤ 0, q.x/ > 0. El rango y
signatura de una forma cuadrática definida positiva valen n. Si Q la forman los coeficientes qij y se

17
σ2 σ1

{x} {Ax}
Figura 5.5: Representación en dos dimensiones de una transformación lineal de la esfera unidad

introducen los números menores como


2 3
q11 q12    q1i
q21 q22    q2i
6 7
i D det 6
6 7
:: :: : : : 7;
6
4 : : : :: 7
5
qi1 qi 2    qi i
la forma cuadrática asociada a Q es definida positiva si y sólo si todos los menores i son positivos.
Sean 1 ; : : : ; n los valores propios —que sabemos son reales— de la matriz Q; por el teorema
espectral, existe una matriz ortogonal P tal que
P T QP D diag.1 ; : : : ; n /:
Haciendo en la forma cuadrática q.x/ D x T Qx el cambio de variables x D Py, se tiene que
q.x/ D y T P T QPy D 1 y12 C    C n yn2 ;
lo que hace ver que el rango de la forma cuadrática es el número total —teniendo en cuenta las
multiplicidades— de valores propios no nulos de Q, mientras que la signatura coincide con la dife-
rencia entre los números de valores propios positivos y negativos. En particular, la forma cuadrática
asociada a Q es definida positiva si y sólo si todos los valores propios de Q son positivos.
En ciertos casos es importante acotar el cociente de una forma cuadrática al cuadrado de la norma
euclídea, es decir, el cociente
x T Qx
r.x/ D ; x ¤ 0:
xT x
Mediante una transformación ortogonal x D Py, este cociente se escribe como
1 y12 C    C n yn2
r.x/ D ;
y12 C    C yn2
de manera que se deducen las acotaciones
x T Qx
mi n .Q/  T  max .Q/ :
x x
18
Estas acotaciones no se pueden mejorar ya que si Qv D v,
vT Qv
D :
vT v

Una matriz A se dice definida positiva si la forma cuadrática x T Ax es positiva para todo vector
x ¤ 0. De forma similar se definen matrices semidefinida positiva, definida negativa y semidefinida
negativa, si x T Ax  0, < 0 y  0, respectivamente, para todo vector x ¤ 0. La matriz A se dice
indefinida si la forma x T Ax es positiva para algún x y negativa para otros.
Lema 5.1 Para que una matriz simétrica sea definida positiva, es necesario que todos los coeficien-
tes de la diagonal principal sean positivos.
Lema 5.2 Para que una matriz simétrica A sea definida positiva es necesario que el coeficiente de
mayor valor absoluto esté en la diagonal principal. Más concretamente,

mKax jaij j < mKax akk :


i ¤j k

La matriz 2 3
0 1 2
4 1 2 3 5;
6 7

2 3 4
de acuerdo con el lema 5.1, no puede ser definida positiva, aunque cumple el lema 5.2. Por el contrario,
la matriz 2 3
5 2 7
4 2 5 2 5;
6 7

7 2 5
satisface el lema 5.1 pero no el 5.2. La matriz
2 3
1 1 1
4 1 2 4 5;
6 7

1 4 5

satisface los dos criterios enunciados pero no es definida positiva ya que, por ejemplo,

q Œ2; 3; 1T D 5:


Lema 5.3 Si en cada fila de una matriz simétrica A el elemento de la diagonal principal es mayor
que la suma de los valores absolutos de todos los demás elementos de la fila, es decir, si
n
X
akk > jakj j k D 1; : : : ; n;
j D1
j ¤k

A es definida positiva.

19
D EMOSTRACIÓN . Para x ¤ 0 se tendrá que
XX X XX
q.x/ D aij xi xj  ai i xi2 jaij jjxi jjxj j
i j i i j ¤i
0 1
X X XX
> @ jaij jA jxi2 j jaij jjxi jjxj j
i j ¤i i j ¤i
XX  XX
D jaij jjxi j jxi j jxj j D jaij jjxj j jxj j jxi j


i j ¤i i j ¤i

1 XX 2
D jaij j jxi j jxj j  0:
2 i
j ¤i

Es importante destacar que este último criterio define una condición suficiente, no necesaria. En
efecto, la matriz 2 3
3 2 2
4 2 3 2 5;
6 7

2 2 3
es definida positiva, pues
q.x/ D x12 C x22 C x32 C 2.x1 C x2 C x3 /2 ;
lo que atestigua que, cualquiera que sea x ¤ 0, q.x/ > 0. Esta matriz, sin embargo, no satisface el
lema 5.3.
Como ya se ha visto, una matriz simétrica definida positiva tiene todos sus valores propios reales
y positivos; si es semidefinida, alguno es cero. Si la matriz es negativa definida, todos sus valores
propios son negativos.
Un resultado muy interesante para averiguar el orden de magnitud de los valores propios de una
matriz es el del teorema de Gerschgorin, que dice que si A 2 Rnn es una matriz simétrica con
valores propios 1 ; 2 ; : : : ; n , entonces
8 9
ˆ
ˆ n
>
>
< X =
mKın i  mKın ai i jaij j ;
1i n 1in ˆ >
ˆ j D1 >
j ¤i
: ;
8 9
ˆ
ˆ n
>
>
< X =
mKax i  mKax akk C jakj j :
1kn 1kn ˆ >
ˆ j D1 >
j ¤k
: ;

Como corolario de este teorema se puede probar también que si A es de diagonal estrictamente
dominante y simétrica, es definida positiva.
Se dice que una matriz compleja A, de coeficientes aij , cuadrada y de orden n, es de diagonal
estrictamente dominante por filas, o simplemente de diagonal dominante por filas, cuando cumple
que X
jai i j > jaij j; i D 1; : : : ; n:
j ¤i
Puede darse una definición análoga de matriz de diagonal dominante por columnas.
20
6 Topología

En un espacio vectorial normado se define una bola abierta, S.x0 ; r/, de centro x0 y radio r, como
el conjunto de puntos x que verifican kx x0 k < r. Es decir:
S.x0 ; r/ D fx 2 Rn W kx x0 k < rg:

N 0 ; r/, se define, por el contrario, como el conjunto de puntos x que verifican


Una bola cerrada, S.x
kx x0 k  r. Es decir:
N 0 ; r/ D fx 2 Rn W kx x0 k  rg:
S.x
Consideraremos en lo que sigue de este apartado un subconjunto S del espacio vectorial métrico
hasta ahora estudiado (puede ser, por ejemplo, Rn ).
Un punto y 2 S es un punto interior del conjunto S si existe un " tal que
kx yk < " ) x 2 S :
En otras palabras, existe una bola abierta S.y; "/ de centro y y radio " contenida íntegramente en S .
El conjunto de todos los puntos interiores del conjunto S se denomina interior de S . Este conjunto
puede, evidentemente, ser vacío. Ejemplo: un plano del espacio R3 .
Un subconjunto de S se dice abierto si coincide con su interior; es decir, si alrededor de todo
punto de S existe una bola abierta contenida íntegramente en S . Dos ejemplos: la bola abierta unidad,
S.x; 1/ D fx W kxk < 1g y el espacio Rn en su totalidad. En general los subconjuntos o conjuntos
abiertos se caracterizan por no tener límites definidos o ser disjuntos de su frontera (ver más adelante
la definición del concepto frontera).
Un entorno de un punto x, E.x/, es un conjunto abierto que contiene a x. En otras palabras, E.x/
es un entorno de x si contiene una bola abierta de centro x.
Se dice que un punto x es un punto de acumulación del subconjunto S si en todo entorno de x
existen un número infinito de puntos de S .
Un punto x se denomina punto de adherencia del subconjunto S cuando todo entorno de dicho
punto x contiene al menos un punto de S ; es decir, para todo " existe un y 2 S tal que kx yk < ".
El conjunto de todos los puntos de adherencia se denomina adherencia —en la literatura anglosajona
y latinoamericana, clausura cl.S/—. La adherencia de la bola abierta S.x; 1/ D fx W kxk < 1g es la
cerrada SN .x; 1/ D fx W kxk  1g.
Se denomina frontera de un conjunto a la parte de la adherencia que no está en el interior.
Un conjunto, o subconjunto, se dice cerrado si coincide con su adherencia. La adherencia de cual-
quier conjunto S es el conjunto cerrado más pequeño que contiene a S . Se puede demostrar que un
conjunto es cerrado si y sólo si toda sucesión convergente de elementos de S tiene un límite en ese
conjunto.
Un conjunto, o subconjunto, se dice compacto si es cerrado y acotado (contenido en una bola de
radio r < 1). Un importante resultado, debido a Weierstrass, dice que si S es un conjunto compacto,
de cada sucesión o sucesión infinita fx .n/ gn2N de elementos de dicho conjunto es posible extraer una
subsucesión n o
x .`/ LN
`2L
que converge a un elemento del propio conjunto S .
Si fr .k/ g es una sucesión de números reales y s .k/ D sup fr .i / W i  kg, entonces fs .k/ g converge a
un número real s0 ; a este número se le denomina límite superior de fr .k/ g y se expresa como
   
lKım sup r .k/ o lKım r .k/ :
k!1

21
El límite superior de una sucesión de números reales es el mayor punto de acumulación de la sucesión.
De forma similar se define el límite inferior.

7 Teorema de la proyección

Gran parte de las teorías de sistemas de ecuaciones y de optimización que se estudian en la asigna-
tura están basadas en unos pocos resultados simples e intuitivos. Entre estos, quizás el más sencillo
y usado sea el teorema de la proyección. Su aplicación en la teoría de mínimos cuadrados lineales es
fundamental. En un espacio Euclídeo ordinario de tres dimensiones determina que la distancia más
corta de un punto exterior a un plano a ese plano la proporciona la perpendicular al plano desde dicho
punto. La expresión formal de este teorema en espacios de Hilbert es la que sigue.
Teorema 7.1 Sea H un espacio de Hilbert y M un subespacio cerrado de H . Para todo vector
x 2 H existe un único vector m0 2 M tal que kx m0 k2  kx mk2 , para todo m 2 M .
La condición necesaria y suficiente además para que m0 2 M sea el vector mínimo único es que
x m0 sea ortogonal a M .

D EMOSTRACIÓN . Primero probaremos que si m0 es un vector que minimiza kx mk, x m0 es


ortogonal a M . Supongamos para ello, por el contrario, que existe un m que no es ortogonal a x m0 ;
sin pérdida de generalidad podemos suponer que kmk D 1 y que hx m0 jmi D ı ¤ 0. Definamos
el vector m1 2 M como m1 D m0 C ım. Tendremos que
kx m1 k22 D kx m0 ımk22 D kx m0 k22 hx m0 jımi hımjx m0 i C jıj2
D kx m0 k22 jıj2 < kx m0 k22 :
De esta manera, si x m0 no es ortogonal a M , m0 no es el mínimo que decíamos.
Veamos ahora cómo, si x m0 es ortogonal al subespacio M , m0 es el único vector de M que
minimiza kx mk2 . En efecto, para todo m 2 M , el teorema de Pitágoras dice que
kx mk22 D kx m0 C m0 mk22 D kx m0 k22 C km0 mk22 :
Por lo tanto kx mk2 > kx m0 k2 para m ¤ m0 .
Demostraremos ahora la existencia de un m0 que minimiza kx mk2 . Si x 2 M , entonces m0 D x
y todo estaría probado como es obvio. Si x … M , definamos un ı D Kınfm2M kx mk2 ; lo que
queremos es obtener un m0 2 M tal que kx m0 k2 D ı.
A tal fin, sea fm.i / g una sucesión de vectores en M tal que kx m.i / k2 ! ı. Por la ley del
paralelogramo4 se tiene que
2 2 2 2
.j /
.m x/ C .x m.i / / C .m.j / x/ .x m.i / / D 2 m.j / x C 2 x m.i / :

2 2 2 2
Reordenando, se obtiene
2
m.i / C m.j /
2 2 2
.j /
m.i / D 2 m.j / .i /

m x C 2 x m 4
x
:

2 2 2 2
2

Para todo i; j , el vector .m.i / C m.j / /=2 está en M pues éste es un espacio vectorial (lineal). De la
definición de ı se deduce que kx .m.i / C m.j / /=2k2  ı, por lo que
2 2 2
.j /
m m.i /  2 m.j / x C 2 x m.i / 4ı 2 :

2 2 2

Como km ! ı cuando i ! 1, km
.i /
xk22 2
! 0 cuando i; j ! 1. Es decir, fm.i / g es
.j /
m.i / k22
una sucesión de Cauchy; como M es un subespacio cerrado, la sucesión fm.i / g tiene un límite m0 en
M y, debido a la continuidad de la norma, kx m0 k2 ! ı.
4 Para u, w 2 M , ju C wj2 C ju wj2 D 2juj2 C 2jwj2 .

22
x  es entonces un mínimo relativo estricto de f .

9 Conjuntos convexos
8 Conjuntos convexos

Un conjunto UnC conjunto  R sesi dice convexo


si para si y sólo
par desi puntos
para todo
x1 ; xpar de puntos x1 ; x2 2 C
n
C convexo
Rn se dice y sólo todo 2 2 C todas las
combinacionescombinaciones
de la forma x de la 1forma
D x D x
C .1 x /x 1 C0.1
2 , con  /x , conen
1,2están 0 1, están
C .Esdecir, en C
cuando . Es decir, cu
para
cada par
cada par de puntos del de puntosconvexo,
conjunto del conjunto convexo,
todos los todos
puntos de los puntos
la recta de laestán
que los une recta
enque los une están en el
el conjunto.

2 Convex sets

Conjunto convexo Conjunto no convexo


La expresión x D x1 C .1 /x2 , 0    1, define la combinación convexa de x1 y x2 . Si
0 <  < 1, es decir  2 .0; 1/,xla D
La expresión combinación
x1 C .1se denomina
/x2 , 0 estrictamente
   1, defineconvexa.
la combinación convexa de x
El concepto de combinación convexa se puede generalizar a cualquier número finito de puntos
0 <  < 1, es decir  2 .0; 1/, la combinación se denomina estrictamente de
convexa.
la siguiente manera:
p
X 25
xD i xi ;
i D1
Figure 2.2 Some simple convex and nonconvex sets. Left. The hexagon,
dondewhich includes its boundary (shown darker), is convex. Middle. The kidney
p
shaped set is not convex, since
1; the
i  line
0; isegment between the two points in
X
i D D 1; : : : ; p:
the set shown as dotsi D1 is not contained in the set. Right. The square contains
some boundary points but not others, and is not convex.
El conjunto intersección de todos los conjuntos convexos que contienen a un subconjunto S  Rn
se llama envoltura convexa de S y se designa por conv.S/.

Figura 8.6: Envoltura convexa de dos conjuntos de R2 . La de la izquierda de 15 puntos; la de la derecha de un conjunto
Figure 2.3 The convex hulls of two sets in R2 . Left. The convex hull of a
no convexo
set of fifteen points (shown as dots) is the pentagon (shown shaded). Right.
UnThe
conjunto C R
convex n
se of
hull dicethe
quekidney
es afín (también
shapedseset
dicein
quefigure
C es una
2.2variedad
is the afín o una set.
shaded variedad
lineal) si para cualesquiera x; y 2 C y cualquier  2 R se tiene que .1 /x C y 2 C . El conjunto
vacío es afín.
Un conjunto C  Rn es afín si y sólo si es de la forma C D fa C l W a 2 Rn ; l 2 Lg, donde L es
un subespacio vectorial de Rn asociado a C . Es decir, un conjunto afín es un subespacio desplazado
del origen.
Roughly La dimensión
speaking, de un
a set isconjunto
convexafín x C L es
if every la de in
point su correspondiente
the set can be subespacio
seen byL.every other
Es evidente
point, along queancualquier conjunto afín
unobstructed es convexo
straight aunque
path el recíproco
between no es cierto
them, where en general.
unobstructed
means lying in the set. Every affine set is also convex, since it contains the entire
Ejemplo 8.1 El conjunto de soluciones de un sistema de ecuaciones lineales, C D fx W Ax D b; A 2
line between any two distinct points in it, and therefore also the line segment
Rmn ; b 2 Rm g, es un conjunto afín. En efecto, supongamos que x1 ; x2 2 C , es decir, Ax1 D b,
between the points. Figure 2.2 illustrates some simple convex and nonconvex sets
in R2 . 23
We call a point of the form θ1 x1 + · · · + θk xk , where θ1 + · · · + θk = 1 and
θi ≥ 0, i = 1, . . . , k, a convex combination of the points x1 , . . . , xk . As with affine
D
C C

0 2 D b. Entonces, para cualquier , 0


Ax
A .x1 C .1 / x / D Ax C .1
2 1 / Ax2
Fig. B.2 Properties of convex sets
D b C .1 / b
26 D b; 2 Convex sets
lo que prueba que la combinación
Definition. Let S be aafín x1 Cof.1E n/x
subset 2 está
. The tambiénhull
convex en el of
conjunto C . El subespacio
S, denoted co(S), is
asociado con el conjunto afín C en este caso es el espacio nulo de A, ker.A/.
the set which is the intersection of all convex sets containing S. The closed
convex hull of S is defined as the closure of co(S).
Si S  Rn , la envoltura afín de S , aff .S/, es la intersección de todos los conjuntos afines que
contienen a S. Como se puede comprobar, aff .S/ D aff .conv.S//.
Finally, we conclude this section by defining a cone and a convex cone. A
Un conjunto C  Rn se dice un cono si para todo x 2 C , x 2 C , para todo escalar  2 R
convex cone is a special kind of convex set that arises quite frequently.
tal que   0. Un cono que también es convexo se denomina cono convexo. En este caso, para todo
x1 ; x2 2 C y 1 ; 2  0, 1 x1 C 2 x2 2 C .
x1

x2

0 0
Figure 2.4 The pie slice shows all points of the form θ1 x1 + θ2 x2 , where
θ1 , θ2 ≥ 0. The apex of the slice (which corresponds to θ1 = θ2 = 0) is at
0; its edges (which correspond to θ1 = 0 or θ2 = 0) pass through the points
x1 and x2 .

0 0
Not convex Figura 8.7:Not
Tres convex
conos: el primero y el segundo no son convexos; el tercero si
Convex

El conjunto fx 2 Rm W x D A˛; A 2 RFig. mn


˛2R
;B.3 n
; ˛  0g es un cono convexo generado por los
Cones
vectores columna de la matriz A.
El conjunto de todas las combinaciones cónicas, 1 x1 C    C k xk , 1 ; : : : ; k  0, de los puntos
de un conjunto C es la envoltura cónica de C , cone.C /..

0 0
Figure 2.5 The8.8:
Figura conic hulls (shown
Envoltura shaded)
cónica de los dos of the twodesets
conjuntos of figure
la figura 8.6 2.3.

Un punto x es un punto extremo de un conjunto convexo C si y sólo si no es interior a un segmento


de recta contenido en C . Es decir, si y sólo si
x D .1 ˇ/y C ˇz con 0 < ˇ < 1 y y; z 2 C ) x D y D z:
24

 

i=1 i=1
Teorema de Carathéodory para convexos
a de Carathéodory para conos
n i
Teorema
n 2.2. Si X ⊂ R y x
i ∈ conv (X), existen x ∈ Xexisten
y λi ≥ 0, i
a 2.1. Si XDos⊂ resultados ∈ cone (X),
R yn+1x importantes debidoexisten x
a Carathéodory∈ X
diceny λ
que i si≥X 0,
R i n
=y x1,2 cone.X/,
2, · · · , n,
P P: : : ; n, tales que x D niD1 i xi . Es n+1
n xi y i , i D 1;
P P cualquier
decir, i elemento de la envoltura cónica
e x = de i con
λi Xx .esEs λ =
decir, cualquier
combinación i 1, tales que
cónica de, a loelemento x =
sumo, n puntos dedelaλ Igualmente,decir,
x .
X. envoltura
i Es cónica
si X R cualquier
n
y de
x 2X eselemento d
conv.X/,
i=1 existen xi y i=1
i , i D 1; : : : ; n C 1, tales que x D
i=1nC1 i xi . Es decir, cualquier elemento de la
P
convexa de X es combinación convexa de, a lo sumo, n + 1 puntos
i D1
ación cónica de,convexa
envoltura a lo sumo,
de X es n elementos
combinación de de,
convexa X.a lo sumo, n C 1 puntos de X . La figura 8.9
ilustra estos resultados.

a de Carathéodory para convexos


Figura 8.9: El teorema de Carathéodory

n i
a 2.2. Si aXTLlamaremos
y hiperplano
x conv H(X),
de vector característico
existen x ∈X 0, al conjunto
a 2yRλ; a≥¤ 0,
i de unai ecuación
= 1, . .lineal
n en+R21,R
n n
⊂ R ∈ H. ,D fx W
x D cg, con c 2 R. Un hiperplano es el conjunto de soluciones n
.
n+1
Pn
λi = 1, tales que x = R λesi xuni .Tespacio
Un hiperplano en Es decir, cualquier
afín o una elemento
variedad lineal de la envoltura
.n 1/-dimensional.
Dado un ˚hiperplano
i=1 H , a x D c, llamaremos semiespacios cerrados de borde H a los conjun-
de X es combinación
tos D 2 R n
convexa
W T
 de,
y a lo
D sumo,
2 R n
W anT x
+1c puntos de X.abiertos de borde
, y semiespacios
˚
HC x a x c H x
ı ı
H a H C D x 2 Rn W aT x > c y H D x 2 Rn W aT x < c . Los semiespacios de borde H son
˚ ˚
convexos; la unión de HC y H es el espacio Rn .

H+
y
xx̄0
H−

H
a

Figura 8.10: Hiperplano x1 C 4x2 D 11 y los semiespacios en los que divide R2

En la figura 8.10 se representa el hiperplano x1 C4x2 D 11, su vector característico a D Œ 1; 4T


y los semiespacios HC y H .
En un hiperplano aT x D c, la constante c determina el desplazamiento del hiperplano del origen.
Un hiperplano se puede expresar de la forma fx W aT .x x0 / D 0g, donde x0 es cualquier punto del
hiperplano (aT x0 D c). Esa última expresión se puede trabajar un poco más pues fx W aT .x x0 / D

25
0g D x0 C a? , donde a? es el complemento ortogonal de a, es decir fv W aT v D 0g. Lo que lleva
a que un hiperplano consiste en un desplazamiento x0 más todos los vectores ortogonales al vector
característico a: el conjunto de soluciones de aT x D c: x0 C ker.a/, recordemos.
Un politopo es un conjunto formado por la intersección de un número finito de semiespacios cerra-
dos. Un politopo cónico es un conjunto formado por la intersección de un número finito de semiespa-
cios cerrados que pasan por un punto.
B.3 Separating and Supporting Hyperplanes 519
Un poliedro es un politopo acotado y no vacío. Es fácil comprobar que la intersección de conjuntos
convexos es convexa y que por lo tanto los politopos y los poliedros son conjuntos convexos. En esta
figura se muestran varios politopos; el del centro es un poliedro.

Si un politopo P es un poliedro, cualquier punto se puede expresar como combinación convexa de


sus puntos extremos. Fig. B.5 Polytopes
Teorema 8.1 Sea C un conjunto convexo e y un punto exterior a la adherencia de C . Existe un
vector a tal que aT y < Kınfx2C aT x.

DItEMOSTRACIÓN
is easy to see
. Sea that half spaces are convex sets and that the union of H+ and
H− is the whole space. ı D Kınf kx yk2 > 0:
x2C

Existe un x0 en la frontera de C tal que kx0 yk2 D ı. Esto es así pues la función continua
Definition. A set which can be expressed as the intersection of a finite number
f .x/ D kx yk2 alcanza su mínimo en cualquier conjunto cerrado y acotado por lo que sólo es
of closed
necesario half spaces
considerar is said todebela adherencia
x en la intersección a convexdepolytope.
C y la bola abierta de centro y y radio
2ı.
We see that convex
A continuación probaremospolytopes
que a D x0arey the setslasobtained
satisface condicionesasdelthe familydelofteorema.
enunciado solutions
to a En
setefecto,
of linear inequalities
para cualquier ˛, 0  ˛ of the
 1, form
al ser C un conjunto convexo, el punto x0 C ˛.x x0 / 2 C ,
por lo que
kx0 C ˛.x xT0 / yk22  kx0 yk22 :
a1 x  b 1
Desarrollando, a2T x  b2
2˛.x0 y/ .x x0 / C ˛ kx x0 k22  0:
T
· ·
Considerando esta expresión cuando ˛ ! 0C, se tiene que
· ·
T
.x0 y/ ·.x · x0 /  0

o que amT x  bm 
.x0 y/T x  .x0 y/T x0 D .x0 y/T y C .x0 y/T .x0 y/
since each individual inequality defines a half space and the solution
D .x0 y/T y C ı 2 :
family is
the intersection of these half spaces. (If some ai = 0, the resulting set can still, as
Haciendo a D x0 y queda probado el teorema.
the reader may verify, be expressed as the intersection of a finite number of half
La interpretación geométrica de este teorema es que, dado un conjunto convexo C y un punto y
spaces.)
exterior
Several a lapolytopes
adherencia deare
C , existe un hiperplano
illustrated que contiene
in Fig. B.5. We a y,note
sin tocar a Ca, estando
that C en may
polytope uno be

empty, bounded, or unbounded. The case 26 of a nonempty bounded polytope is of


special interest and we distinguish this case by the following.
2

de sus semiespacios abiertos. Este hiperplano (de vector característico a en el teorema) se denomina
hiperplano separador de C e y.
Si C y D son dos conjuntos convexos disjuntos, C \ D D ;, existe entonces un a ¤ 0 y un b
tales que aT x  b, para todo x 2 C , y aT x  b, para todo x 2 D. ˚Dicho de otra manera, la función
aT x b es no positiva en C y no negativa en D. El hiperplano x W aT x D b es un hiperplano
separador de los conjuntos C y D.
aT x ≥ b aT x ≤ b

D
C

Existen
Figure bastantes
2.19 principios de{xdualidad
The hyperplane | aT x =queb} se usan en la
separates asignatura,
the disjoint en especial
convex setsen la teoría y
técnicas de optimización, que relacionan
T un problema en términos de
C and D. The affine function a x − b is nonpositive on C and nonnegative vectores en un espacio vectorial
conD.
on otro expresado en términos de subespacios en ese espacio. En gran cantidad de esos principios
está presente la relación que se ilustra en la figura que sigue. La distancia más corta de un punto a un
conjunto convexo es igual al máximo de las distancias desde el punto a los hiperplanos que separan
el conjunto convexo del punto. El problema original de minimización sobre vectores se convierte en
otro de maximización sobre hiperplanos.

Figura 8.11: Distancia más corta de un punto a un conjunto convexo en términos de las distancias a hiperplanos separa-
dores

Teorema 8.2 Sea C un conjunto convexo e y un punto frontera de C . Existe un hiperplano que
contiene a y y a C en uno de sus semiespacios cerrados.

D EMOSTRACIÓN . Sea fy .k/ g una sucesión de puntos exteriores a la adherencia de C . Sea fa.k/ g la
sucesión de puntos normalizados, ka.k/ k2 D 1, obtenida de aplicar el teorema anterior a la sucesión
anterior, tales que,
 T  T
a.k/ y .k/ < Kınf a.k/ x:
x2C

27
Como fa.k/ g es una sucesión acotada, una subsucesión fa.k/ g, k 2 H, convergerá a un límite a. Para
este a se tiene que, para cualquier x 2 C ,
 T  T
aT y D lKım a.k/ y .k/  lKım a.k/ x D aT x:
k2H k2H

Un hiperplano que contiene un conjunto convexo C en uno de sus semiespacios cerrados y que
2.6 contiene
Dual algún
cones punto
and frontera de C inequalities
generalized se denomina hiperplano de apoyo de C . 51
De acuerdo con esta definición, el teorema anterior dice que, dado un conjunto convexo C y un
punto frontera y de C , existe un hiperplano de apoyo de C que contiene y.

x0
C

En
Figure 2.21 The hyperplane {x | a x = aes
esta figura el hiperplano W T
D T T el hiperplano de apoyo de C en el punto x0 .
˚
x a x a
T x 0 x0 } supports C at ˚ x0 .
Es decir, el punto x0 y el conjunto C están˚ separados por el hiperplano x W aT x D aT x0 . La ex-

plicación geométrica es que el hiperplano x W aT x D aT x0 es tangente al conjunto C en x0 y el


semiespacio x W aT x  aT x0 contiene a C .
˚
that the point x0 and the set C are separated by the hyperplane {x | aT x = aT x0 }.
Lema 8.3 (Farkas) El sistema de ecuaciones
The geometric interpretation is that the hyperplane {x | aT x = aT x0 } is tangent
to C at x .I0/, and the halfspace {x | aT xAx ≤D aTb; x  0; C. This is illustrated in
x0 } contains
figure 2.21.
no tiene solución si y sólo si la tiene el sistema
A basic result, called the supporting hyperplane T
theorem, states that for any
T T
.II / y A 
nonempty convex set C, and any x0 ∈ bd C, there exists>a0;supporting hyperplane to
0 ; b y
C at x0 . donde
The A supporting
2 Rmn . hyperplane theorem is readily proved from the separating
hyperplane theorem. We distinguish two cases. If the interior of C is nonempty,
D EMOSTRACIÓN
the result . El teoremaby
follows immediately se puede reformular
applying the de la siguientehyperplane
separating manera. Si existe un x  to
theorem 0 tal que
T
no existe ningún y tal que y A  0 y b y > 0. Recíprocamente, si no existe ningún
T T
{x D} b,
the sets Ax and int C. If the interior of C is empty, then C must lie in an affine
x 00 tal que Ax D b, existe un y tal que y T A  0T y bT y > 0.
set of dimension less than n, and any hyperplane containing that affine set contains
Supongamos que el sistema (I) tiene una solución x tal que Ax D b y x  0. Sea y un punto tal
C and xque0 , and
y T A is a0T(trivial) supporting
. En este caso bT y D xhyperplane.
A y  0 pues x  0 y y T A  0T . Esto demuestra que
T T
There T
b y is no
also a partial
puede converse
ser positivo y, por loof theelsupporting
tanto, sistema (II) nohyperplane
tiene solución.theorem: If a set
is closed, Supongamos
has nonempty ahorainterior, and (I)
que el sistema hasnoatiene
supporting hyperplane
solución. Esto atque
quiere decir everyb … point
S D fv D
in its boundary,
Ax W x  0g; then it isque
es decir convex. (See exercise
b no pertenece al politopo2.27.)
cónico S. Observando la figura 8.12, está claro
que si b … S, existe un hiperplano separador definido por un y, que separa S y b, y para el cual
y T ai  0, i D 1; : : : ; n y y T b > 0, es decir, y forma un ángulo de más de 90 grados con cada uno
Dual cones and generalized inequalities
28
Dual cones
8.1 Dualidad y condiciones de óptimo 473
5
de los vectores columna de A y de menos de 90 grados con b. Esto verifica que el sistema (II) tiene
solución.
Politopo cónico S

a2 a3
a4

a1
a5

Hiperplano

b∈
/S

y
Figura 8.12: Demostración
Figura 8.2 del lema de Farkas
Descripción geométrica de la existencia de un hiperplano separador
El lema de Farkas es un resultado importante para el estudio de sistemas lineales de igualdades y
desigualdades. Su interpretación
El par (P)-(D) se denominageométrica es la siguiente:
habitualmente, en la literatura especializada, forma simétrica
474 Capı́tulo 8. Dualidad y análisis
1 Si ai ; i D 1; : : : ; n, son los n vectores
de la dualidad. de sensibilidad
columna de la matriz A, que se cumpla que b D Ax, x  0,
A continuación
quiere exponemos
decir que el vector b D dosniD1
P teoremas
ai xi , xque caracterizan las soluciones óptimas del par de
i  0; en otras palabras, que b pertenece al politopo
problemas primal-dual.
cónico generado por los vectores columna de A. En la figura 8.13 se muestra un ejemplo donde
Teorema 8.3 (Complementariedad de Holguras) Sean
Semiespacio xey
abierto : bT y > 0} factibles del par de
{ysoluciones
programas primal-dual en forma simétrica (P)-(D) de (8.8). Las condiciones necesarias y
suficientes para que sean óptimos de sus respectivos
a2 problemas son:
an
(cT − y T A)x = 0 (8.9)
a1 a3
y
y T (Ax − b) = 0. b (8.10)

Demostración. Como x e y son soluciones factibles de (P) y (D), respectivamente, se tiene


que
s = Ax − b ≥ 0, x ≥ 0 (8.11)
y
wT = cT − y T A ≥ 0T , y ≥ 0. (8.12)
Cono {y : y T A ≤ 0T }

Figura 8.13: El sistema (I) del lema de Farkas no tiene solución; si (II)
Figura 8.3
el sistema (I) no tiene solución: el vector b Farkas
El sistema (I) del lema de no tiene
no pertenece al solución. La tiene
cono generado (II)
por a1 , a2 , a3 y an .
5 El hiperplano separador del politopo cónico S de la figura debería “casi” tocar a éste a lo largo de a . El hiperplano de apoyo correspondiente, sí
5
tocaría a a5 . a2

29
an

a1 b
Cono {y : y T A ≤ 0T }
La intersección del cono fy W y T A  0T g (conjunto formado por los vectores y que forman un
ángulo mayor o igual de 90ı con los vectores columna de la matriz A) y el semiespacio abierto
fy W bT y > 0g, no es el conjunto vacío: el sistema (II) tiene solución, pues b y cualquier y en el
cono que define la zona sombreada forma unFigura menor de 90ı y, por lo tanto, bT y > 0.
ángulo 8.3
2 El sistema (II) noEltiene
sistema (I) del
solución si lema de Farkas no
la intersección deltiene
conosolución.
fy W y TLaA tiene
 0T(II)
g y el semiespacio
abierto fy W bT y > 0g es el conjunto vacío. En la figura 8.14 se muestra un ejemplo donde el
a2

an

a1 b

Semiespacio abierto {y : bT y > 0}

Cono {y : y T A ≤ 0T }

Figura 8.14: El sistema (II) no tiene solución. La tiene (I)


Figura 8.4
sistema (II) no tiene solución.
El sistema (II)Todo vector
del lema en lano
de yFarkas zona que
tiene define La
solución. el cono
tiene indicado
(I) forma un
ı
ángulo mayor de 90 con b. La tiene sin embargo (I) pues b pertenece al cono generado por a1 , a2
y an .

9 Funciones

Recordemos que una función es un caso particular de aplicación donde los conjuntos origen e
imagen son conjuntos de números.
Una función f W Rn ! R se dice continua en x si para toda sucesión fx .k/ g que converge a x
(expresado x .k/ ! x), se cumple que f .x .k/ / ! f .x/. De forma equivalente, f se dice continua en
x si dado un " > 0, existe un ı > 0 tal que
ky xk < ı H) kf .y/ f .x/k < " :

Una función f W R ! R se dice satisface la condición de Lipschitz con constante en un conjunto


X , si para todo x e y pertenecientes a X se cumple que
jf .x/ f .y/j  jx yj:
Una función que satisface la condición de Lipschitz en un conjunto X se dice continua -Lipschitz
en ese X, designándose f 2 Lip .X/.
Dada una norma vectorial k  k en Rn y otra matricial k  k en Rmn , m; n > 0, una función
g W Rn ! Rmn se dice satisface la condición de Lipschitz con constante en un abierto D  Rn , si
para todo x e y pertenecientes a D se cumple que
kg.x/ g.y/k  kx yk:
Una función g que satisface la condición de Lipschitz en D se dice continua -Lipschitz en ese D,
designándose g 2 Lip .D/.
30
Un resultado muy interesante referido a funciones continuas es el teorema de Weierstrass, que
dice que una función continua definida en un conjunto compacto S tiene un punto donde alcanza un
mínimo en S . Es decir, existe un x  2 S tal que para todo x 2 S , f .x/  f .x  /.
Un conjunto de funciones f1 ; f2 ; : : : ; fm de Rn en R se puede considerar como una función vecto-
rial
f D Œf1 ; f2 ; : : : ; fm T :
Esta función asigna a todo vector x 2 Rn otro vector f .x/ D Œf1 .x/; f2 .x/; : : : ; fm .x/T de Rm .
Tal función vectorial se dice continua si lo es cada uno de sus componentes f1 ; f2 ; : : : ; fm .
Si cada uno de los componentes de f D Œf1 ; f2 ; : : : ; fm T es continua en algún conjunto abierto
de Rn , se dice f 2 C . Si además cada función componente tiene derivadas parciales de primer
orden continuas en ese abierto, se dice que f 2 C 1 . En general, si las funciones componentes tienen
derivadas parciales de orden p continuas, se indica f 2 C p .
Si f W Rn ! R y f 2 C 1 , se define el vector gradiente de f como el vector

@f .x/ T
 
@f .x/ @f .x/
rf .x/ D ; ;:::; :
@x1 @x2 @xn
También se puede ver expresado alguna vez como fx .x/.
Si f 2 C 2 , se define la Hessiana, o matriz Hessiana, de f en x como la matriz n  n
2 2
@ f .x/ @2 f .x/ @2 f .x/
3
6 @2 x 1 
6 @x1 @x2 @x1 @xn 7 7
6 2 2 2
7
6 @ f .x/ @ f .x/ @ f .x/ 7
2
6    7
r f .x/ D 66 @x2 @x1 @2 x 2 @x2 @xn 7 7:
:: :: :: ::
: : : :
6 7
6 7
6 7
4 @2 f .x/ @2 f .x/ @2 f .x/ 5

@xn @x1 @xn @x2 @2 xn
A esta matriz también se la puede ver designada como F .x/.
Para una función vectorial f D Œf1 ; f2 ; : : : ; fm T , si f 2 C 1 , se define la matriz Jacobiana o,
simplemente, la Jacobiana, como la matriz m  n
@f1 .x/ @f1 .x/ @f1 .x/
2 3
6 @x1 
6 @x2 @xn 7 7
6 7
6 @f2 .x/ @f2 .x/ @f2 .x/ 7
6  7
rf .x/ D J .x/ D 6 6 @x: 1 @x2 @xn 7 7:
:: :: :: ::
6
6 : : :
7
7
6 7
4 @fm .x/ @fm .x/ @fm .x/ 5

@x1 @x2 @xn
Si f 2 C 2 , es posible definir m Hessianas F1 .x/; F2 .x/; : : : ; Fm .x/ correspondientes a cada una de
las m funciones componentes.
Un resultado de extraordinaria importancia es el conocido teorema de Taylor. Dice que si f W Rn !
R y f 2 C 1 en una región que contiene el segmento Œx1 ; x2 , es decir puntos ˛x1 C .1 ˛/x2 ; 0 
˛  1, existe un , 0    1, tal que
 
f .x2 / D f .x1 / C r T f x1 C .1 /x2 .x2 x1 / :

31
Además, si f 2 C 2 , existe un ; 0    1, tal que
1  
f .x2 / D f .x1 / C r T f .x1 /.x2x1 / C .x2 x1 /T F x1 C .1 /x2 .x2 x1 / ;
7.42 Convex and Concave Functions 193
donde F denota la matriz Hessiana de f .
Una función f W Rn ! R se dice convexa si cumple que f .˛x C ˇy/  ˛f .x/ C ˇf .y/ para
todo x; y 2 Rn y todo ˛; ˇ 2 R, con ˛ C ˇ D 1, ˛  0, ˇ  0.
f

x
convex
Una función f W Rn ! Rm es afín si es la suma
(a) de una función lineal y una constante; es decir,
tiene la forma f .x/ D Ax C b, donde A 2 Rmn y b 2 Rm .
Si S  Rn es un conjuntof convexo y f W Rn ! Rm es una función afín, la imagen de f .S/ D
ff .x/ W x 2 S g es un conjunto convexo. De forma similar, si f W Rk ! Rn es una función afín, la
imagen inversa f 1 .S/ D fx W f .x/ 2 Sg también es convexa.

9.1 Condiciones necesarias y suficientes de primer y segundo orden que ha de cumplir un


punto mínimo

Se trata de definir condiciones necesarias y suficientes para determinar si un punto x  cumple

minimizar f .x/;
x

donde f W  ! R y  2 Rn .
Un punto x  2  se dice que es un mínimo relativo de la función f W  ! R si existe un  > 0
tal que f .x/  f .x  / para todo x 2  a una distancia
convex
menor que  de x x . Es decir, para todo x 2 
tal que jx x j < . Si f .x/ > f .x / para todo x 2 , x ¤ x  , a una distancia menor que  de
 

x  , se dice que x  es un mínimo relativo estricto (b)


de f en .
Proposición 9.1 (Condiciones necesarias de primer orden) Sea  un subconjunto de Rn y una
función f W  ! R, f 2 Cf 1 . Si x  en un mínimo relativo de f en , para toda dirección d 2 Rn ,
factible desde x  , se cumple que rf .x  /d  0.

Corolario 9.2 Sea  un subconjunto de Rn y una función f W  ! R, f 2 C 1 . Si x  es un


mínimo relativo de f en  y x  es un punto interior de , se cumple que rf .x  / D 0.

32
Proposición 9.3 (Condiciones necesarias de segundo orden) Sea  un subconjunto de Rn y una
función f W  ! R, f 2 C 2 . Si x  en un mínimo relativo de f en , para toda dirección d 2 Rn ,
factible desde x  , se cumple que:

rf .x  /d  0:
Si rf .x  /d D 0; entonces d T r 2 f .x  /d  0:

Proposición 9.4 (Condiciones necesarias de segundo orden) Sea x  un punto interior de  y su-
póngase que también un mínimo relativo de f W  ! R, f 2 C 2 . Entonces:

rf .x  / D 0:
Para todo d; d T r 2 f .x  /d  0:

Proposición 9.5 (Condiciones suficientes de segundo orden) Sea f 2 C 2 una función definida en
una región en la cual x  es un punto interior. Supóngase además que:

rf .x  / D 0:
La matriz Hessiana r 2 f .x  / es definida positiva:

x  es entonces un mínimo relativo estricto de f .

10 Teorema de la función implícita

Este teorema —cuyos orígenes están asociados a Newton, Leibnitz y Lagrange, pero que fue for-
mulado por Cauchy— es muy útil para respaldar la caracterización de puntos óptimos en programa-
ción matemática con y sin condiciones, solución de ecuaciones lineales y no lineales y muchos otros
aspectos que analizamos en la asignatura.
Supóngase que se tiene una función vectorial f W Rn ! Rm que cumple
fi .x/ D 0; i D 1; 2; : : : ; m:
El teorema de la función implícita estudia, si n m de las variables son fijas, si el problema se puede
resolver en m incógnitas. Es decir, si x1 , x2 ; : : : ; xm se pueden expresar en función de las restantes
n m de la forma
xi D i .xmC1 ; xmC2 ; : : : ; xn / ; i D 1; 2; : : : ; m:
A las funciones i W Rn m
! R, si existen, se las denomina funciones implícitas.

33
Teorema 10.1 Sea x0 D .x01 ; x02 ; : : : ; x0n / un punto de Rn que satisface las siguientes condicio-
nes:
(a) Las m funciones fi 2 C p , i D 1; 2; : : : ; m en algún entorno de x0 , para alguna p  1.
(b) fi .x0 / D 0; i D 1; 2; : : : ; m:
(c) La matriz Jacobiana de la función vectorial,
@f1 .x0 / @f1 .x0 /
2 3
6 @x1   
6 @xm 7
7
:: ::
6 7
rf .x0 / D 6 :: 7;
:
6 7
6 : : 7
6 7
4 @fm .x0 / @fm .x0 / 5

@x1 @xm
es regular.
Entonces existe un entorno de xO 0 D .x0mC1 ; x0mC2 ; : : : ; x0n / 2 Rn m tal que para xO D
.xmC1 ; xmC2 ; : : : ; xn / en ese entorno existen funciones i .x/,
O i D 1; 2; : : : ; m tales que:
(i) i 2 C p .
(ii) x0i D i .xO 0 /; i D 1; 2; : : : ; m.
(iii) fi .1 .x/;
O 2 .x/;
O : : : ; m .x/;
O x/O D 0; i D 1; 2; : : : ; m.

Ejemplo 10.1 Consideremos la ecuación x12 C x2 D 0. Una solución de la misma es x1 D, x2 D 0.


En un entorno de esta solución, sin embargo, no hay función  tal que x1 D .x2 /. En esta solución
no se cumple la condición .c/ del teorema de la función implícita. En cualquier otra solución si existe
dicha .

Ejemplo 10.2 Sea A una matriz m  n y considérese el sistema de ecuaciones lineales Ax D b. Si A


se estructura así, A D ŒB; C , donde B es m  m, entonces se satisface la condición .c/ del teorema
de la función implícita si, y sólo si, B es regular. Esta condición se corresponde con los requisitos
y enunciados de la teoría de ecuaciones lineales. La función implícita se puede considerar como una
generalización no lineal de la teoría lineal.

11 Bibliografía
B ERTSEKAS , D.P. 2003. Convex Analysis and Optimization. Athena Scientific.
B OYD , S. Y VANDENBERGHE , L. 2004. Convex Optimization. Cambridge University Press.
DE LA F UENTE , J.L. 1998. Técnicas de cálculo para sistemas de ecuaciones, programación lineal
y programación entera. Segunda edición. Reverté.
ROCKAFELLAR , R.T. 1970. Convex Analysis. Princeton University Press.
H ALMOS , P.R. 1974. Finite-Dimensional Vector Spaces. Springer Verlag.
K UHN , H.W. Y T UCKER , A.W. 1951. Nonlinear Programming. Proceedings of the Second Berke-
ley Symposium on Mathematical Statistics and Probability. University of California Press. Verlag.
L UENBERGER , D.G. 1969. Optimization by Vector Space Methods. John Wiley and Sons.

34
L UENBERGER , D.G. Y Y E , Y. 2009. Linear and Nonlinear Programming. Springer Verlag.
R IAZA , R. Y Á LVAREZ , M. 1996. Cálculo infinitesimal. Vol. I. Sociedad de Amigos de la Escuela
Técnica Superior de Ingenieros Industriales de Madrid.
R IAZA , R. Y Á LVAREZ , M. 1997. Cálculo infinitesimal. Vol. II. Sociedad de Amigos de la Escuela
Técnica Superior de Ingenieros Industriales de Madrid.
W OLFE , P. 1961. A Duality Theorem for Non-Linear Programming. Quart. Appl. Math. 19, Nı 3.

35

Vous aimerez peut-être aussi