Filtro Adaptativo

Universidad de Mendoza Dr. Ing.
Jesús Rubén Azor Montoya
FILTRADO ADAPTIVO
EL COMBINADOR LINEAL ADAPTIVO
El combinador lineal adaptivo, o filtro adaptivo No Recursivo, es fundamental

para el procesamiento adaptivo de señales. Aparece de una u otra forma, en mucho de
los filtros adaptivos y sistemas, y es el elemento más simple e importante en sistemas de
"aprendizaje" y procesos adaptivos en general.
Debido a sus estructura no recursiva, el combinador lineal adaptivo es
relativamente fácil de comprender y analizar. En esencia, es un filtro digital no
recursivo, tiempo-variante y como tal su comportamiento es muy simple. Su
comportamiento y los medios de adaptarlo, así también como su implementación en
diferentes formas, son bien comprendidas. Además, se saben las aplicaciones
especificas donde su performance es "la mejor" en algún sentido.
Un diagrama de la forma general se muestra en la siguiente figura.
Hay un vector de señal de entrada con elementos x0, x1, . . . , xL , un

correspondiente conjunto de pesos ajustables, w0, w1, . . . , wL , una unidad sumadora,
y una señal de salida única, y. Un procedimiento para ajustar o adaptar los pesos se
llama "ajuste de peso", "ajuste de ganancia", o "adaptación". El combinador se llama
"lineal" porque para un seteo fijo de los pesos su salida es una combinación lineal de las
componentes de entrada. Sin embargo, cuando los pesos están en el proceso de ajuste,
ellos también son una función de las componentes de entrada y la salida del combinador
ya no es una función lineal de la entrada.
SEÑAL DE ENTRADA Y VECTORES PESO
Hay dos formas de interpretar físicamente los elementos del vector de entrada de
la figura anterior. Primero, puede ser considerado como entradas simultáneas desde
L+1 fuentes diferentes de señal. Un ejemplo de esta interpretación sería una antena
adaptiva o un sistema de detección acústica adaptivo, en el cual cada línea de entrada es
conectada a un sensor separado.
Alternativamente, los elementos x0 - xL pueden ser considerados L+1 muestras
secuenciales de la misma fuente de señal.
Se hará referencia a estas dos interpretaciones como los casos múltiple-entrada
y única-entrada, y es conveniente etiquetar el vector de entrada diferentemente para los
dos casos como sigue:
Múltiple-entrada: Xk = [ x0k x1k . . . xLk ] T (2-1)
_______________________________________________________________________________ 1
Cátedra de Análisis de Señales - Filtrado Adaptivo
Universidad de Mendoza Dr. Ing. Jesús Rubén Azor Montoya
Unica-entrada: Xk = [ xk xk-1 . . . xk-L ] T (2-2)
En esta notación T indica traspuesta, de modo que Xk es un vector columna en

ambos casos.
El subíndice k es usado como un índice de tiempo. Así en el caso múltiple-
entrada, todos los elementos son tomados en el k-ésimo tiempo de muestreo, mientras
que en el caso de única-entrada, los elementos son muestras secuenciales tomadas en los
puntos k, k-1,..., llendo hacia atrás en el tiempo a través de la secuencia de muestras de
dato.
En el caso única-entrada, el procesador adaptivo puede ser implementado con un
combinador lineal adaptivo y unidades de elementos de retardo (delay), como se
muestra en la siguiente figura:
La estructura de esta figura se llama "filtro transversal adaptivo". Nótese que un

segundo subíndice, k, ha sido agregado a los pesos, para hacer más explícito el tiempo-
variante. El filtro transversal adaptivo es la forma temporal (como lo opuesto a lo
espacial) del filtro adaptivo no recursivo.
Tiene un amplio rango de aplicaciones en los campos de modelamiento adaptivo
y procesamiento de señal adaptivo. Muchos de los sistemas adaptivos descriptos más
adelante están basados en el uso de un filtro transversal adaptivo.
En algunos sistemas múltiple-entrada, se necesita un peso de ajuste que
simplemente agrega un ajuste variable a la sumatoria, yk. Se obtiene esto
convenientemente donde es necesitado poniendo el primer elemento de entrada x0k, en
la primera figura, permanentemente igual a 1 (o algún otro valor constante) como se
muestra en la siguiente figura:
El peso ajuste no se requiere normalmente en sistemas única-entrada.

A partir de la notación de señal de entrada en (2-1) y (2-2), se obtienen las relaciones
entrada-salida para las dos últimas figuras como sigue:
_______________________________________________________________________________ 2
L
yk wlk. xk l única-entrada (2-3)
l= 0
L
yk wlk. xlk múltiple-entrada (2-4)
l= 0
donde x0k es puesto idénticamente igual a 1 en (2-4) como se describió, w0k se

convierte en peso de ajuste.
Correspondientemente con (2-1) y (2-2), se tiene el vector peso:
wk = [ w0k w1k . . . wLk ] T (2-5)
Con esta definición se pueden expresar (2-3) y (2-4) en una relación simple
usando la notación vectorial:
yk Xk . Wk Wk . Xk
T T
Con esta descripción de la operación del combinador lineal adaptivo, se puede

proceder a una discusión de cómo adaptarlo, esto es, de los efectos de cambiar el vector
Wk a medida que el índice de tiempo, k, cambia.
RESPUESTA DESEADA Y ERROR
El combinador lineal adaptivo puede ser usado tanto en sistemas adaptivos de

lazo abierto como de lazo cerrado. Como se ha discutido, el ajuste del vector de pesos
en sistemas de lazo abierto no depende explícitamente de las propiedades de la salida
sino sólo de la entrada y sobre las propiedades del contexto.
Con sistemas de lazo cerrado, sin embargo, el vector de pesos depende de la
señal de salida así también como de otros datos. Generalmente para el combinador
lineal adaptivo los otros datos incluyen "respuesta deseada" o "señal de entrenamiento".
La discusión en adelante estará relacionada primariamente con sistemas de lazo cerrado,
de modo que se necesita comprender estas señales.
En procesos de adaptación con performance realimentada, el vector de pesos del
combinador lineal es ajustado para llevar a una salida, yk, que concuerde lo más
ajustadamente posible con la señal de respuesta deseada. Esto se lleva a cabo
comparando la salida con la respuesta deseada para obtener una señal de "error" y luego
ajustar u optimizar el vector de pesos para minimizar esta señal. En muchas instancias
prácticas el proceso adaptivo es orientado hacia minimizar el valor medio cuadrado, o
potencia promedio de la señal de error. La optimización de este criterio, tanto en
sistemas adaptivos como no adaptivos, ha sido ampliamente practicado y tiene muchas
ventajas.
El método de derivar la señal de error por medio del ingreso de la respuesta
deseada se muestra en el diagrama de la siguiente figura:
_______________________________________________________________________________ 3
La señal de salida, yk, es simplemente restada desde la señal deseada, dk, para
producir la señal de error, k.
La fuente de la señal de respuesta deseada, dk, depende de la aplicación del
combinador adaptivo. Para el estado actual, se supondrá la disponibilidad de tal señal.
Nótese qué considerable ingenuidad se requiere para encontrar una señal
adecuada, ya que si la respuesta deseada actual estuviese disponible generalmente no se
necesitaría el sistema adaptivo.
Se procederá a discutir la función performance, la cual es una función de la señal
error recién descripta.
LA FUNCION PERFORMANCE
Según la última figura, la señal de error con índice de tiempo k es:
 k dk yk (2-7)
Sustituyendo (2-6) en esta expresión produce:
 k dk Xk . W dk W . Xk
T T
(2-8)
Aquí no aparece el subíndice k para el vector de pesos W por conveniencia,

debido a que en esta discusión no se desea ajustar los pesos. Elevando (2-8) al cuadrado
para obtener el error cuadrado instantáneo:
2
k Xk . W 2. dk. W . Xk W . Xk. Xk . W
2 T 2 T T T
dk dk
k 2. dk. W . Xk W . Xk. Xk . W
2 2 T T T
dk
Se supone que k , dk , Xk son estadísticamente estacionarios y toman el valor

esperado sobre k:
E k W . E Xk. Xk . W 2. E dk. Xk . W
2 2 T T T
E dk (2-10)
Nótese que el valor esperado de cualquier sumatoria es la sumatoria de los

valores esperados, pero el valor esperado de un producto es el producto de los valores
_______________________________________________________________________________ 4
esperados cuando las variables son estadísticamente independientes. Las señales xk y

dk generalmente no son independientes.
La función error medio cuadrado puede ser más conevenientemente expresada
como sigue:
Sea R la siguiente matríz cuadrada:
Esta matríz se designa como "Martiz de Correlación de Entrada". Los términos

de la diagonal principal son los cuadrados medios de las componentes de entrada y los
términos cruzados son las correlaciones cruzadas entre las componentes de entrada. Sea
P similarmente definida como el vector columna:
P = E[ dk.Xk ] = E [ dkx0k dkx1k dkx2k . . . dkxLk ] T (2-12)
Este vector es el conjunto de correlaciones cruzadas entre la respuesta deseada y

los componentes de entrada. Los elementos tanto de R como de P son todos estadísticos
constantes de segundo orden cuando Xk y dk son estacionarios. Note que la forma
múltiple-entrada de Xk fue usada en (2-11) y (2-12), pero la forma única-entrada podría
haber sido fácilmente usada.
Ahora el error medio cuadrático en (2-10) será designado por  y reexpresado en
términos de (2-11) y (2-12) como.
MSE =  = E [ 2 ] = E [ dk2 ] + WT.R.W - 2.PT.W (2-13)
Es claro a partir de esta expresión que el error medio cuadrático  es

precisamente una función cuadrática de las componentes del vector peso W cuando las
componentes de entrada y la respuesta deseada introducida son variables estocásticas
estacionarias. Esto es, cuando (2-13) es expandida, los elementos de W aparecerán
solamente con grados de primer y segundo órden.
Para dos entradas:
x0k. x1k dk. x0k

2
x0k w0k w0k
 E dk
2
wok w1k . . 2. .
x1k. x0k x1k
2 w1k dk. x1k w1k
 E dk x0k . w0k ... 2. dk. x0k. w0k d1k. x1k. w1k

2 2 2
+ 2. w0k. x1k. x0k. w1k x1k . w1k

2 2
_______________________________________________________________________________ 5
GRADIENTE Y MINIMO ERROR MEDIO CUADRATICO
Muchos útiles procesos adaptivos que causan que el vector peso busque el
mínimo de la superficie de performance se hacen por los métodos de gradiente. El
gradiente de la superdicie de performance de error medio cuadrático, designado por
 o simplemente  se puede obtener diferenciando la última expresión para obtener
el vector columna:
Se verifica derivando el ejemplo de dos entradas. Derivando primero respecto de

w0k:
2. x0k . w0k 2. x1k. x0k. w1k 2. dk. x0k
2
y después respecto de w1k:

2. x1k . w1k 2. x1k. x0k. w0k 2. dk. x1k
2
Lo que conforma el vector:
2. x0k . w0k 2. x1k. x0k. w1k 2. dk. x0k

2
2. x1k . w1k 2. x1k. x0k. w0k 2. dk. x1k

2
que proviene de 2.R.W - 2.P.
x0k. x1k dk. x0k 2. x0k . w0k 2. x1k. x0k. w1k 2. dk. x0k
2 2
x0k w0k
2. . 2.
x1k. x0k x1k
2 w1k dk. x1k 2. x1k. x0k. w0k 2. x1k . w1k
2
2. dk. x1k
Para obtener el error medio cuadrático mínimo el vector peso W es puesto a su

valor óptimo W*, donde el gradiente es cero:
 = 0 = 2.R.W* - 2.P (2-16)
Suponiendo que R es no singular, el vector peso óptimo W*, algunas veces

llamado vector peso de Wiener, se encuentra a partir de (2-16):
W* = R-1.P (2-17)
Esta ecuación es una expresión de la ecuación de Wiener-Hopf en forma

matricial. El error cuadrado medio mínimo se obtiene ahora sustituyendo W* desde (2-
17) por W en (2-13):
min = E [ dk2 ] + W*T.R.W* - 2.PT.W*
_______________________________________________________________________________ 6
= E [ dk2 ] + [R-1.P]*T.R.R-1.P - 2.PT.R-1.P (2-18)
Ahora se simplifica este resultado usando tres reglas que son de utilidad general
en la discusión de superficies de performance:
1) Regla de identidad para cualquier matríz cuadrada: A.A-1 = I
2) Traspuesta de un producto de matrices: [A.B]T = BT.AT
3) Simetría de la matriz de correlación de entrada: RT = R, [R-1]T = R-1
Usando estas reglas, (2-18) queda:
min = E [ dk2 ] - 2.PT.R-1.P = E [ dk2 ] - PT.W* (2-19)
Ahora se introducirá un ejemplo para ayudar a clarificar los conceptos de

superficie de performance cuadrática, gradiente y error medio cuadrático.
EJEMPLO DE UNA SUPERFICIE DE PERFORMANCE
Un simple ejemplo de un combinador lineal adaptivo con dos pesos se muestra

en la siguiente figura.
Las señales de entrada y la deseada son sinusoides muestreadas a la misma
frecuencia con N muestras por ciclo. Se supone que N>2 de modo tal que las muestras
de entrada no sean todas cero. No está considerado aquí el origen de estas señales, sino
con la superficie de performance resultante y sus propiedades.
Para obtener la función de performance [en este caso  en (2-13)], se necesitan los
productos de la señal esperada en (2-11) y (2-12). Note que se debe cambiar el
subíndice de x por el caso de única-entrada, como en (2-2).
Los productos esperados pueden ser encontrados para cualquier producto de

funciones sinusoidales promediando sobre uno o más períodos del producto.
Se partirá de una situación particular con N=5, esto es 5 muestras por ciclo.
Conforme a esto, los vectores x y d, para un ciclo completo se calculan del siguiente
modo:
_______________________________________________________________________________ 7
 sin  2   0    2 cos  2   0  
  5    
 5 

   
 sin  2   1    0   2 cos  2   1    2 
  5      5   
  2   2       2   2    
0.951 0.618
x  sin    0.588  d  2 cos    1.618 
 
5   5 
  0.588    1.618 
 sin  2   3      2 cos  2   3    
  5    0.951   
 5 
  0.618 
   
 sin 
2   4 
 2 cos 
2   4 
 
  5    5 
Se comenzará por calcular los elementos de la matriz R.
R
0 0  k2
E x R
0 1  k
E x  x
k 1 2 R
1 1  k 12
E x
R
x02  x12  x22  x32  x42 0.5
0 0 5
x x  x x  x x  x x  x x
0 4 1 0 2 1 3 2 4 3
R 0.155
0 1 5
R
x42  x02  x12  x22  x32 0.5
1 1 5
Dado que la matriz R es simétrica queda:
 0.5 0.155 
 R 
 0.155 0.5 
Para el cálculo del vector P
P
0 0 
E d x  P
0 1 
E d x
k k 1 
d 0 x0  d 1 x1  d 2 x2  d 3 x3  d 4 x4
k k
P 0
0 0 5
P
d 0 x4  d 1 x0  d 2 x1  d 3 x2  d 4 x3 0.95
0 1 5
 0 
P  
 0.95 
Finalmente se calcula el término E[dk2]
 d 0 2   d 1  2   d 2 2   d 3  2   d 4  2
 
E d
2
2
k 5
_______________________________________________________________________________ 8
Usando estos resultados en (2-13), se obtiene la función performance para este

ejemplo:
 2  WT  R W  2 PT  W
 E d
k
 w0   0.5 0.155    w0   2  0    w0 
T T
 2         
 w1   0.155 0.5   w1   0.95   w1 
Desarrollando, queda en el segundo miembro un polinomio cuadrático en w0 y
w1
2 2
 0.5 w0  0.5 w1  0.31 w0  w1  1.9 w1  2
Lo que conforma la siguiente función a representar gráficamente
2 2
v ( w0 w1 )  0.5 w0  0.5 w1  0.31 w0  w1  1.9 w1  2
n1  40 tamaño de la matriz
i  0  n1  1 j  0  n1  1
w0min   3 Mínimo de abscisa

w1min   4 Mínimo de ordenada
w0max  3 Máximo de abscisa
w1max  0 Máximo de ordenada
w0max  w0min w1max  w1min

t  w0min  i k  w1min 
j
j grilla
i n1 n1
M1
i j  i j
 v t k Función de performance
Esta superficie está representada para N=5 muestras por ciclo. Nótese que es
cuadrática en w0 y w1 y que tiene un único mínimo global. El vector gradiente en
cualquier punto (w0,w1) puede encontrarse sustituyendo (2-22) y (2-23) en (2-15) y es:
_______________________________________________________________________________ 9
 0.5 0.155    w0   2  0 
2 
 2 R  W  2 P    
 0.155 0.5   w1   0.95 
El vector peso de Wiener para este ejemplo, W*, se puede encontrar
formalmente de (2-17) invirtiendo R, o puede ser encontrado poniendoigual a 0 en
(2-25). Estos son, por supuesto, operaciones equivalentes, en uno u otro caso el
resultado es:
1
 1  0.5 0.155    0   0.652 
W R P      
 0.155 0.5   0.95   2.102 
En forma genérica, la función de performance y el vector óptimo de Wiener

están dados por:
1 1. 2. 
cos
w0 w0
1. 2 2 N 2. 
 2 w0 w1 . . 2. 0 sin .
2 2.  1 w1 N w1
cos
N 2
1.  
cos 2. . sin 2.
2 N N
 
2
1.
sin 2. 2. cot 2. (2-26)
1. 4 N N
R P
1.  
sin 2. 2. csc 2.
2 N N

2
1.
sin 2.
4 N
Finalmente, el error mínimo cuadrático se obtiene sustituyendo (2-23) y (2-26)

en (2-19):
E d    P  W 2  
 0    0.652 
T
T 
  
2

 
0
min k
 0.95   2.102 
Genéricamente

2. cot 2.
2.  N  
min 2 0 sin . 2. sin 2. . csc 2. 2 0 (2-27)
N  N N
2. csc 2.
N
Este resultado, el cual dice que los pesos en el combinador lineal adaptivo
pueden ser ajustados para reducir k a cero para cualquier valor de N puede ser
sorprendente en un principio. La unidad de retardo por sí misma puede cambiar xk
desde una función seno a una función coseno sólo cuando N=4, esto es, sólo cuando la
unidad de retardo es un cuarto de ciclo. Nótese que en este caso (2-26) da w0* = 0 y
w1* = -2. Si embargo, con dos pesos además del delay, el combinador lineal adaptivo
_______________________________________________________________________________ 10
puede siempre desplazar xk de modo tal que se convierta en la función coseno

apropiada, para cualquier N mayor que 2.
EXPRESION ALTERNATIVA DEL GRADIENTE
Ya que el error medio cuadrático es una forma cuadrática en W la cual alcanza

su mínimo valor cuando W es igual a W*, se puede esperar que podría ser expresado
como:
T
  min W W . R. W W (2-28)
Obsérvese que, por comodidad, se ha cambiado W "asterisco" por W "rayado".

Se demuestra que esta expresión es válida de la siguiente manera. Considerando
que en general:
T T T
(A B) A B
la expresión (2-28) expandida queda:
T T
W . R. W
T.
  min  min W .R . W
T
W W W R W
T T
  min W . R. W W . R. W W . R. W W . R. W
T T
(2-29)
Cada término en (2-29) es un escalar y por lo tanto igual a su propia traspuesta.

Así los términos negativos son iguales. Ahora, combinando estos y también
sustituyendo (2-19) por min:
T
 E dk P .W W . R. W W . R. W 2. W . R. W
2 T T T
(2-30)
Luego sustituyendo (2-17) por W "rayado" y recalcando nuevamente que R es

simétrico, queda:
W R .P
1
(2-17)
 E dk P .R .P W . R. W P . R . R. R . P 2. W . R. R . P
2 T 1 T T 1 1 T 1
 E dk W . R. W 2 . W . P E dk W . R. W 2. P . W
2 T T 2 T T
(2-31)
Este resultado se corresponde con (2-13) y así valida a (2-28)

La forma cuadrática en (2-28) puede ser expresada más convenientemente
cuando se define un vector desviación peso, como sigue:
V W W (2-32)
de acuerdo a esto, (2-28) se convierte en:
_______________________________________________________________________________ 11
  min V . R. V
T
(2-33)
La cantidad V es la desviación del vector peso a partir del vector peso óptimo de
Wiener. Cualquier apartamiento de W respecto de W "rayado" causará un exceso de
error medio cuadrático de acuerdo a la forma cuadrática VT.R.V.
Con el objeto que  sea no-negativo para todos los V posibles, es necesario que
V .R.V >= 0 para todo V. Cuando VT.R.V >= 0 para todo V <> 0, la matriz R se dice
T
que es "definida positiva". Cuando VT.R.V = 0 para cierto valor finito de V o para todo
V, la matriz R se dice que es "semi-definida positiva". En situaciones físicas, R casi
siempre será "definida positiva" pero también pueden ocurrir matrices R "semi-definida
positiva".
El gradiente del error medio cuadrático con respecto a V se obtiene derivando
(2-33)
Este gradiente es el mismo que el dado por (2-15), porque W y V difieren sólo
en una constante.
Así:
Esta expresión será usada en el desarrollo y análisis de una variedad de

algoritmos adaptivos.
PROPIEDADES DE LA SUPERFICIE DE PERFORMANCE CUADRATICA
Habiendo definido la superficie de performance para una clase de sistemas

adaptivos, la meta es ahora proceder a discutir los algoritmos para el ajuste de los pesos
y descenso por la superficie de performance hasta el mínimo error cuadrático medio. Se
hace esto más adelante, pero primero se necesitará discutir algunas importantes
propiedades de la superficie de performance cuadrática.
Las propiedades de la superficie de performance con las que se habrá de trabajar,
se deben primariamente a propiedades de la matríz de correlación de entrada, R.
En (2-23) se mostró que cuando un combinador linead adaptivo es usado con
entradas estacionarias, el error medio cuadrático puede ser expresado en términos de la
matriz de correlación de la señal de entrada R como:
T
  min W . R. W  min V . R. V
T
W W (2-33)
Nótese que ya que hay L+1 pesos (componentes de W), la matriz R tiene L+1
columnas por L+1 filas.
_______________________________________________________________________________ 12
Es claro a partir de (2-33) que la orientación y la forma de la superficie de

performance del error medio cuadrático es una función de R. Mucho puede ser
aprendido acerca de la superficie de performance expresando a R en forma normal, en
término de sus eigenvalores y eigenvectores.
FORMA NORMAL DE LA MATRIZ DE CORRELACION DE ENTRADA
Los valores característicos (eigenvalores) de la matriz R son desarrollados a

partir de la ecuación homogénea:
( R  . I ) . Qn 0 (3 1)
donde es una variable escalar, Qn es un vector columna, I es la matriz identidad, y 0

es el vector con todos lo elementos nulos. Esta ecuación homogénea tiene soluciones no
triviales para  y Qn si y sólo si se anula el siguiente determinante:
R  .I 0 (3-2)
La ecuación (3-2) se llama "ecuación característica" de R, es una ecuación

algebraica en  de grado (L+1). Sus (L+1) soluciones se designan por 0 , 1 , ... , n .
Ellas son los eigenvalores de R, los cuales puede ser o no distintos unos de otros.
Correspondientemente a cada eigenvalor, n, existe al menos un vector solución, Qn, el
cual se determina como sigue:
R. Qn  n . Qn (3-3)
El vector Qn es el n-ésimo eigenvector de R y está asociado con n .

Extendiendo (3-3) se obtiene:
La cual puede ser reescrita como:
R. Q Q .  R Q.  . Q
1
o (3-5)
A modo de ejemplo con Mathcad:
 0.5 0.155 
R   
 0.155 0.5 
 0.707 0.707   0.655 

Q  eigenvecs ( R )      eigenvals ( R )   
 0.707 0.707   0.345 
_______________________________________________________________________________ 13
  0 0 0 
       0.655 0 
 0   


1 0   0 0.345 
1  0.5 0.155 
( Q  )  Q   
 0.155 0.5 
La ecuación (3-5) da la forma normal de R en la cual los eigenvalores aparecen

explícitamente en . La "matriz de eigenvalores"  es diagonal, como se indica en
(3-4). Todos sus elementos son nulos excepto los de la diagonal principal, cuyos
elementos son los eigenvaloes de R. La matriz modal Q es llamada "matriz de
eigenvectores" de R, debido a que sus columnas son los eigenvectores de R. Tanto 
como Q son cuadradas con dimensiones (L+1) x (L+1), tal como R.
BUSQUEDA EN LA SUPERFICIE DE PERFORMANCE
Se ha visto que la superficie de performance del error medio cuadrático para el

combinador lineal adaptivo es una función cuadrática de los pesos cuando las señales de
entrada y la respuesta deseada son estadísticamente estacionarias. En muchas
aplicaciones de interés los parámetros de esta superficie cuadrática son desconocidos y
una descripción analítica de los mismos no está disponible. La ubicación de los puntos
sobre la superficie, sin embargo, pueden ser medidos o estimados promediando el error
cuadrado en un período de tiempo. El problema es desarrollar procedimientos
sistemáticos o algoritmos capaces de buscar en la superficie de performance y encontrar
los vectores peso óptimos cuando sólo se dispone de datos medidos o estimados.
IDEAS BASICAS DE LOS METODOS DE BUSQUEDA POR GRADIENTE
Para introducir el concepto básico de los métodos de búsqueda por gradiente,

incluyendo aquellos de algoritmo recursivo y convergencia, primero se considera el
caso más simple donde hay sólo un peso. Para este caso, el cual tiene significación
práctica limitada, todos los métodos de búsqueda por gradiente se resumen a un único
método.
La superficie de performance para un peso (univariable), la cual es una parábola,
se ilustra en la siguiente figura:
Esta superficie puede ser representada como en (3-4):

2
  min . w w (4-1)
_______________________________________________________________________________ 14
Se nota que el eigenvalor  es igual a r00 en el caso univariable. La primera

derivada es:
d
 2.  . w w (4-2)
dw
La derivada segunda, es constante sobre toda la curva y vale:

2
d
 2.  (4-3)
d w2
El problema es encontrar w* (w "rayado"), el ajuste de peso que causa que el

error medio cuadrático sea minimizado. No conociendo la función de performance, se
comienza con el valor arbitrario w0 y se mide la pendiente de la curva en este punto.
Entonces se elige un nuevo valor w1 igual al valor inicial w0 más un incremento
proporcional a la negativa de la pendiente. Otro nuevo valor, w2, se deriva entonces en
la misma forma midiendo la pendiente de la curva en w1. Este procedimiento se repite
hasta que el valor w* óptimo es alcanzado.
El valor obtenido midiendo la pendiente de la curva de performance en los
intervalos discretos w0, w1, w2, ...se llama "Estimado Gradiente". Nótese que el use
de negativo de gradiente es necesario para que el algoritmo vaya hacia abajo de la
cúpula de la superficie.
UN SIMPLE ALGORITMO DE BUSQUEDA DE GRADIENTE Y SU SOLUCION
Con un único peso, el procedimiento de búsqueda repetitivo o iterativo descripto

arriba puede ser representado algebraicamente como:
wk 1 wk .  k (4-4)
done k es escalón o número de iteración. Así wk es el valor de ajuste "presente",

mientras que wk+1 es el "nuevo" valor. El gradiente en w = wk se designa por k. El
parámetro  es una constante que gobierna estabilidad y tasa de convergencia.
El gradiente k para el caso de único peso se obtiene de (4-2) como:
El comportamiento dinámico o transitorio del proceso iterativo, a partir del valor

inicial w0 hasta la solución óptima w*, puede ser analizada a través de la ecuación
formada cuando (4-5) es sustituida en (4-4):
wk 1 wk  . 2.  . wk w wk 2.  .  . wk w (4-6)
rearreglando términos:
_______________________________________________________________________________ 15
wk 1 ( 1 2.  .  ) . wk 2.  .  . w (4-7)
Esta es una ecuación lineal de diferencias de primer orden y coeficientes

constantes, Puede ser resuelta por inducción a partir de unas pocas iteraciones.
Arrancando con el intento inicial w0, las tres primeras iteraciones producen:
w1 ( 1 2.  .  ) . w0 2.  .  . w
2.  .  ) . w0 2.  .  . w. ( ( 1 2.  .  )
2
w2 ( 1 1)
2.  .  ) . w0 2.  .  . w. ( 1 2.  .  ) 2.  .  )
3 2
w3 ( 1 (1 1
A partir de estos resultados se puede generalizar para la k-ésima iteración:

k 1
w ( 1 2.  .  ) . w 2.  .  . w. ( 1 2.  .  )
k n
k 0
(4-11)
n=0
2.  .  )
k
1 (1
2.  .  ) . w0 2.  .  . w.
k
wk ( 1
1 ( 1 2.  .  )
2.  .  ) . w0 w. 1 2.  .  )
k k
wk ( 1 (1
2.  .  ) . w0
k
wk w (1 w (4-13)
Este resultado da wk explícitamente en cualquier punto del procedimiento de búsqueda,

y es así la "solución" al algoritmo de búsqueda por gradiente.
ESTABILIDAD Y TASA DE CONVERGENCIA
En (4-13) la cantidad r = 1 - 2 se conoce como la "razón geométrica" debido

a que es la razón de términos sucesivos en la sumatoria geométrica en (4-11). Es
evidente que r es la cantidad crítica en el proceso iterativo. La ecuación (4-13) se dice
que es "estable" si y sólo si:
r 1 2.  .  < 1 (4-14)
Esta condición se puede expresar como:

1
> >0 (4-15)

Si la condición en (4-14) o (4-15) se cumple, esto es, si el algoritmo en (4-13) es

estable, el mismo converge a la solución óptima:
lim wk w (4-16)
k 
_______________________________________________________________________________ 16
La figura siguiente muestra la acción típica que tiene lugar durante el proceso de
ajuste para diferentes valores de la razón r.
Las líneas no tienen ningún significado físico sino que simplemente juntan la
serie de puntos representando los valores discretos de wk. Nótese que cuando el valor
absoluto de r es menor que 1, la tasa de convergencia se incrementa a medida que r
decrece, alcanzando su máximo en r=0, cuando se alcanza la solución óptima en un
único paso. Nótese también que para valores positivos de r de magnitud menor que 1 no
hay oscilación en los valores peso transitorios, mientras que para valores negativos los
valores peso pegan un salto y convergen en una oscilación amortiguada.
En el primer caso se dice que el proceso es "sobreamortiguado" y en el último
que es "subamortiguado". Cuando r=0 el proceso es equivalente al método de Newton
(discutido más adelante) y se dice que es "críticamente amortiguado". Cuando el valor
absoluto de r es mayor o igual a 1, de acuerdo con (4-14), el proceso es inestable y no
converge.
Los efectos de elegir  sobre r y sobre el proceso iterativo de peso único, se ven
en la siguiente tabla:
LA CURVA DE APRENDIZAJE
El efecto de las variaciones en el ejuste del peso sobre el error medio cuadrático
puede ser observado desde (4-1). Si k se define como el valor del error medio
cuadrático cuando el peso se fija en wk, entonces se puede escribir desde (4-1):
_______________________________________________________________________________ 17
2
 k  min  . wk w (4-17)
Sustituyendo wk desde (4-13) en esta expresión queda:

2
 k  min . w 2.  .  ) . w0
k
(1 w w
2
2. k.
 k  min . (1 2.  .  ) w0 w (4-18)
Es evidente que si wk va en progresión geométrica hacia w*, el error medio

cuadrático también va en progresión geométrica hacia min. La razón geométrica de la
progresión del error medio cuadrático se ve en (4-18) que es:
2.  .  )
2 2
rmse r (1 (4-19)
Ya que esta razón jamás puede ser negativa, la progresión del error medio
cuadrático jamás será oscilatoria. La estabilidad está asegurada como antes si se
satisface la condición (4-14).
Para el sistema de único-peso, la siguiente figura muestra la relajación del error
medio cuadrático a partir de su valor inicial 0 hacia el valor óptimo min. La instancia
mostrada representa un valor de rmse = 0.5, correspondiente a r = 0.707.
Esta curva tampoco tiene significado físico entre los valores enteros de k, simplemente
conecta los valores transitorios del error. A esta curva se la llama "curva de aprendizaje"
e indica la reducción del error medio cuadrático durante el proceso iterativo.
METODO DE NEWTON EN EL ESPACIO MULTIDIMENSIONAL
Se ha visto que el método de Newton encuentra el peso óptimo, w*, en un único

paso cuando hay un peso y la superficie de performance es cuadrática. Se extenderá el
método de Newton al caso multivariado con muchos pesos simplemente definiéndolo
como un método que actuará similarmente, esto es, que irá al valor óptimo en un paso
sobre una superficie de performance cuadrática.
_______________________________________________________________________________ 18
Recuérdese que en (2-17) el vector peso óptimo estaba dado por:
W R .P
1
(4-28)
y que el vector gradiente en (2-21) es:
 2. R. W 2. P (4-29)
Multiplicado por izquierda (1/2).R-1 y luego combinando estas dos ecuaciones

para obtener:
1 . 1.
R  R . R. W R . P R . R. W W
1 1 1
2
despejando:
1.
R .
1
W W (4-30)
2
Cambiando el resultado a un algoritmo adaptivo:

1 . 1.
Wk 1 Wk R k (4-31)
2
El subíndice (k) del vector gradiente implica que el gradiente se mide en el paso
k, donde el vector peso es Wk.
La ecuación (4-31) es de este modo el método de Newton para el caso
multivariado. Cuando la superficie de error es cuadrática, el método procede a la
solución óptima en un paso, como en (4-30). El caso cuadrático de dos pesos, se ilustra
en la siguiente figura. En este "perfecto" seteo, los pesos saltan desde cualquier intento
inicial, W0 = (w00,w10), al valor óptimo W*0=(w*0,w*1) en un único paso.
2 1 7 2
R P E dk 42 Datos
1 2 8
 2. w0 2. w1 2. w0. w1 14. w0 16. w1

2 2
42 Superficie de performance
´_w0( w0 , w1 ) 4. w0 2. w1 14 derivada primera
´_w1( w0 , w1 ) 4. w1 2. w0 16 derivada segunda
_min E dk P .R .P
2 T 1
_min P .R .P _min = 4
T 1
42
5
W0 intento ´_w0( 5 , 3 ) = 0 ´_w1( 5 , 3 ) = 18
3
_______________________________________________________________________________ 19
1.
R . k
1
Wk 1 Wk
2
1. 0 2 2
R .
1
W0 = W1
2 18 3 3
( 2. w0 ( 2. w0 8. 2. w0 14. w0
2 2
16 ) 16 ) 42 K
f1( w0 , K )
4
( 2. w0 ( 2. w0 8. 2. w0 14. w0
2 2
16 ) 16 ) 42 K
f2( w0 , K )
4
w0 5 , 4.9 .. 10 K 10 , 20 .. 60
Como se muestra en la figura y en (4-31), los pasos en el método de Newton no

proceden en la dirección del gradiente. Para hacer esto, la senda del peso en la figura
necesitaría ser perpendicular a cada línea de contorno. Se observa que este sería sólo el
caso en que W0 describe un punto sobre uno de los ejes principales.
Nótese en (4-31) que se podría generalizar el método de Newton reintroduciendo
la constante , introducida previamente en (4-4) para regular la tasa de convergencia. Si
se cambia (4-31) a:
.R . k
1
Wk 1 Wk (4-32)
entonces se obtiene la fórmula de paso único poniendo . Si no, se podría elegir
cualquier otro valor de  en el rango estable visto en (4-35), esto es
0< <1 (4-33)
Sin embargo, las razones para desear la operación sobreamortiguada y pasos de

más pequeño tamaño con <1/2, se discutirán en la próxima sección. En (4-32)  es
adimensional.
_______________________________________________________________________________ 20
Además, se puede obtener una solución para (4-32) sobre superficies de

performance cuadráticas sustituyendo (4-29) por el término gradiente y luego usando
(4-28) para obtener:
 . R . 2. R. Wk 2. P 2.  . Wk 2.  . R . P
1 1
Wk 1 Wk Wk
Wk 1 Wk. ( 1 2.  ) 2.  . W (4-34)
Ahora se tiene una ecuación en la forma de (4-7), y se puede obtener una

solución inductivamente, tal como (4-13) se obtuvo de (4-7). La solución
correspondiente aquí es:
2.  ) . W0
k
Wk W (1 W (4-35)
Como chequeo de esta solución, se observa que en algoritmo de un paso,

Wk=W*, resulta cuando =1/2, y que Winfinito=W* resulta cuando se cumple la
condición (4-33).
El algoritmo LMS (Least Mean Square)

“La inteligencia puede entenderse como la capacidad de adaptación a situaciones
nuevas” (Piaget)
Introducción
Este algoritmo es el más ampliamente usado y el más barato de los algoritmos de

filtrado adaptivo. Como cualquier algoritmo adaptivo, está basado en optimizar un
cierto valor. En el caso del algoritmo LMS, este valor es el Error Media Cuadrático (en
este caso, el valor medio cuadrático de la señal de error, E[ek2]
Esto se alcanza ajustando los valores de los pesos del filtro FIR visto.
El valor para minimizar E[ek2] se demuestra que es una función cuadrática de los
pesos del filtro que en el caso bidimensional puede ser graficada como una superficie en
forma de paraboloide elíptico.
Los métodos típicos para alcanzar el valor mínimo (“fondo del paraboliode”)
incluyen el uso del gradiente (ver “Método del Descenso Más Abrupto [Steepest
Descent Method].
El algoritmo LMS es una aproximación del Steepest Descent usando un
estimador de gradiente en vez del valor corriente del mismo. Esto simplifica
considerablemente los cálculos a realizar y permite que el algoritmo LMS sea realizado
en tiempo real.
Deducción del algoritmo
El método de máxima pendiente requiere conocer los estadísticos de 2º orden
Wk +1  Wk   .[ ( R.Wk  P)]
R y P son raramente conocidos en la práctica (hay que estimarlos).
_______________________________________________________________________________ 21
El algoritmo LMS (Least Mean Square) realiza una estima instantánea
Por lo tanto, el ajuste de pesos anterior queda:

Wk +1  Wk  .xk .(d k  xkT .Wk )
Finalmente:
Wk +1  Wk   .xk .ek
donde xk.ek es un estimador instantáneo del gradiente.
El método visto presenta las siguientes ventajas:
-- No precisa conocer los estadísticos de la señal.
-- Permite seguir cambios en las señales involucradas (tracking).

-- Fácil implementación y baja carga computacional (2L+1 multiplicaciones y 2L
sumas por iteración, en el caso de señales reales).
y los siguiente inconvenientes:
-- La estima instantánea del gradiente es ruidosa.

-- La convergencia de los coeficientes está acoplada.
Algunas características del LMS
En el método de máximo descenso los coeficientes describen una trayectoria que
acaba en la solución de Wiener
En el LMS (asumiendo convergencia) realizan un movimiento aleatorio

alrededor de la solución de Wiener
_______________________________________________________________________________ 22
Se define como ruido de desajuste:
D = ((w) – min) / min
Ejemplo práctico mediante Mathcad

Se pretende que mediante el método LMS se encuentren los pesos óptimos del
siguiente filtro para las funciones de entrada xk y deseada dk indicadas en la figura:
k := 0 .. 2000
índice para las muestras
N := 5
número de muestras por ciclo
 2   k 
xk  sin 
 N 
vector de muestras de la señal de entrada
 2  k 
dk  2 cos  
 N 
vector de muestras de la señal esperada
n := 1 .. 2000
  0.1
 1 
W1   
 3 
_______________________________________________________________________________ 23
donde: n es un nuevo índice,  es una constante que gobierna estabilidad y tasa de

convergencia y W1 es el peso inicial.
 xn 
Wn 1  Wn      dn   xn xn1  Wn
 xn1 
Producido el proceso iterativo, el último peso
 0.65 
W2000   
 2.103 
es el vector óptimo de Wiener.
En el siguiente gráfico se aprecia la evolución de los pesos en cada iteración,

indicándose además el peso de partida (box) y el final (círculo).
1
1.1
 Wn 0 0.5
 W2000 0 2.5 2 1.5 1 0.5 0 0.5 1 1.5 2 2.5 3

 W1 0 0.5
1
 1.084
1.5
 2.103  Wn 1   W2000 1   W1 1 3.1
 0.65 
Para determinar la variación del Error medio cuadrático en cada iteración, se plantea la
siguiente expresión:
E  dn   W  Re  W  Pe W
2 T T
n
donde Re y Pe son las estimaciones de R y P.
  xn 2 xnxn1   
 W  2   dnxn  W 
T
 n   dn  Wn 

 
2 T
 2  d x 
 xnxn1  xn1 
n n
  n n1  
Representado gráficamente las primeras 50 iteraciones:
_______________________________________________________________________________ 24
20
17.759
10
n
0 10 20 30 40 50
 15
 1.77610
10
1 n 50
Cuando el vector peso toma el valor óptimo, la salida del filtro es:
yn   W2000  xn   W2000  xn1

0 1
Comparada gráficamente con la deseada, se ve que son iguales (adaptación perfecta,

error cero):
2.5 2
yn
dn 0 10 20 30 40 50
 2.5 2
0 n 50
Proceso de eliminación de una frecuencia pura usando filtro adaptivo
La señal contaminada de ruido se inyecta por el terminal dk (señal de deseada), mientras

que el ruido (representado en este caso por una senoide de 200 Hz) se inyecta por el
terminal xk (señal de entrada).
La señal filtrada se obtiene de la resta entre d e y.
Gráficamente, las 100 primeras muestras de la señal contaminada y su transformada de
Fourier se ven así:
_______________________________________________________________________________ 25
La señal de entrada y su transformada de Fourier:
La diferencia entre la señal deseada y la salida del filtro y su fft:
Donde se observa la desaparición completa de la componente de ruido.

function e=ap_lms(w1,w2,mu)
% Extrae ruido de una señal contaminada
% Funcion de entrada x(i), deseada d(i)

f=20; % frecuencia de la señal pura
f1=200; % frecuencia de la contaminante
FS=1000; % frecuencia de muestreo
N=1000; % Numero de muestras
% señal de entrada (ruido puro, proporcional)
i=1:N;x=sin(2*pi*i*f1/FS);
% señal deseada (señal + ruido)
i=1:N;
_______________________________________________________________________________ 26
d=sin(2*pi*i*f/FS)+0.1*sin(2*pi*i*f1/FS);
% Calculo de la matriz de autocorrelacion
suma=0;for i=1:N, suma=suma+x(i)*x(i); end
R(1,1)=suma/N;
suma=0;for i=2:N, suma=suma+x(i-1)*x(i-1); end
R(2,2)=suma/N;
suma=0;for i=2:N, suma=suma+x(i)*x(i-1); end
R(1,2)=suma/N;R(2,1)=suma/N;
% Calculo del vector de correlacion cruzada P

suma=0;for i=1:N, suma=suma+x(i)*d(i); end
P(1,1)=suma/N;
suma=0;for i=2:N, suma=suma+x(i-1)*d(i); end
P(2,1)=suma/N;
PT=P';
% Calculo de E[d^2]
suma=0;for i=2:N, suma=suma+d(i)*d(i); end
Ed=suma/N;
w_opt=R^-1*P; % vector optimo de Wiener
% Calculo del vector optimo con el algoritmo LMS
w=[w1; w2];weight=w;
for i=2:N,
X=[x(i-1); x(i)];
y(i) = X'*w;
e(i) = d(i) - y(i);
w=w+mu*e(i)*X;
weight=[weight w];
end
W(1)=weight(1,N);W(2)=weight(2,N);
% Fin del calculo
% Calculo de la salida del filtro adaptado
for i=2:N,
X=[x(i-1); x(i)];
y(i)=W*X;
end
% Grafica parte de la salida filtrada
plot(d(1:100)-y(1:100))
pause
% Grafica la fft de la salida filtrada
plot(abs(fft(d-y)))
pause
% Grafica la fft de la señal sin filtrar
plot(abs(fft(d)))
_______________________________________________________________________________ 27
_______________________________________________________________________________ 28

Filtro Adaptativo

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Filtro Adaptativo

Transféré par

Droits d'auteur :

Formats disponibles

Universidad de Mendoza Dr. Ing.

Jesús Rubén Azor Montoya

EL COMBINADOR LINEAL ADAPTIVO

El combinador lineal adaptivo, o filtro adaptivo No Recursivo, es fundamental

Hay un vector de señal de entrada con elementos x0, x1, . . . , xL , un

SEÑAL DE ENTRADA Y VECTORES PESO

Múltiple-entrada: Xk = [ x0k x1k . . . xLk ] T (2-1)

Unica-entrada: Xk = [ xk xk-1 . . . xk-L ] T (2-2)

En esta notación T indica traspuesta, de modo que Xk es un vector columna en

La estructura de esta figura se llama "filtro transversal adaptivo". Nótese que un

El peso ajuste no se requiere normalmente en sistemas única-entrada.

donde x0k es puesto idénticamente igual a 1 en (2-4) como se describió, w0k se

wk = [ w0k w1k . . . wLk ] T (2-5)

Con esta descripción de la operación del combinador lineal adaptivo, se puede

RESPUESTA DESEADA Y ERROR

El combinador lineal adaptivo puede ser usado tanto en sistemas adaptivos de

Según la última figura, la señal de error con índice de tiempo k es:

Sustituyendo (2-6) en esta expresión produce:

Aquí no aparece el subíndice k para el vector de pesos W por conveniencia,

Se supone que k , dk , Xk son estadísticamente estacionarios y toman el valor

Nótese que el valor esperado de cualquier sumatoria es la sumatoria de los

esperados cuando las variables son estadísticamente independientes. Las señales xk y

Esta matríz se designa como "Martiz de Correlación de Entrada". Los términos

P = E[ dk.Xk ] = E [ dkx0k dkx1k dkx2k . . . dkxLk ] T (2-12)

Este vector es el conjunto de correlaciones cruzadas entre la respuesta deseada y

MSE =  = E [ 2 ] = E [ dk2 ] + WT.R.W - 2.PT.W (2-13)

Es claro a partir de esta expresión que el error medio cuadrático  es

x0k. x1k dk. x0k

 E dk x0k . w0k ... 2. dk. x0k. w0k d1k. x1k. w1k

+ 2. w0k. x1k. x0k. w1k x1k . w1k

GRADIENTE Y MINIMO ERROR MEDIO CUADRATICO

Se verifica derivando el ejemplo de dos entradas. Derivando primero respecto de

y después respecto de w1k:

Lo que conforma el vector:

2. x0k . w0k 2. x1k. x0k. w1k 2. dk. x0k

2. x1k . w1k 2. x1k. x0k. w0k 2. dk. x1k

que proviene de 2.R.W - 2.P.

Para obtener el error medio cuadrático mínimo el vector peso W es puesto a su

 = 0 = 2.R.W* - 2.P (2-16)

Suponiendo que R es no singular, el vector peso óptimo W*, algunas veces

Esta ecuación es una expresión de la ecuación de Wiener-Hopf en forma

min = E [ dk2 ] + W*T.R.W* - 2.PT.W*

= E [ dk2 ] + [R-1.P]*T.R.R-1.P - 2.PT.R-1.P (2-18)

1) Regla de identidad para cualquier matríz cuadrada: A.A-1 = I

2) Traspuesta de un producto de matrices: [A.B]T = BT.AT

3) Simetría de la matriz de correlación de entrada: RT = R, [R-1]T = R-1

Usando estas reglas, (2-18) queda:

min = E [ dk2 ] - 2.PT.R-1.P = E [ dk2 ] - PT.W* (2-19)

Ahora se introducirá un ejemplo para ayudar a clarificar los conceptos de

EJEMPLO DE UNA SUPERFICIE DE PERFORMANCE

Un simple ejemplo de un combinador lineal adaptivo con dos pesos se muestra

Los productos esperados pueden ser encontrados para cualquier producto de

Se comenzará por calcular los elementos de la matriz R.

Dado que la matriz R es simétrica queda:

Finalmente se calcula el término E[dk2]

Usando estos resultados en (2-13), se obtiene la función performance para este

Lo que conforma la siguiente función a representar gráficamente

w0min   3 Mínimo de abscisa

w0max  w0min w1max  w1min

En forma genérica, la función de performance y el vector óptimo de Wiener

Finalmente, el error mínimo cuadrático se obtiene sustituyendo (2-23) y (2-26)

puede siempre desplazar xk de modo tal que se convierta en la función coseno

EXPRESION ALTERNATIVA DEL GRADIENTE

min = E [ dk2 ] + WT.R.W - 2.PT.W*