Vous êtes sur la page 1sur 82

UNIVERSIDAD CARLOS III DE MADRID

ESCUELA POLITECNICA SUPERIOR

MSTER EN INGENIERA ELCTRICA,


ELECTRNICA Y AUTOMTICA

TESIS DE MSTER

ESTUDIO DE TCNICAS ICA PARA LA


SEPARACIN DE MEZCLAS DE SEALES
ACSTICAS

AUTOR: Carlos Allan Boya Lara

TUTOR: Marta Ruiz-Llata

Legans, 18 de junio de 2011

AGRADECIMIENTOS
Agradezco a mi familia, que sin su apoyo no hubieran cumplido este objetivo. Doy
gracias a la Secretaria Nacional de Ciencia, Tecnologa e Innovacin (SENACYT) y al
Instituto para la Formacin y Aprovechamiento de Recursos Humanos (IFARHU), dos
importantes instituciones del Gobierno de la Panam, las cuales han credo en m y me
han apoyado econmicamente.
A mi tutora Marta Ruiz-Llata que me ha apoyado en todo, ha tenido mucha paciencia,
desde el primer momento ha credo en mis ideas y me ha enseado a investigar. Por
ltimo, agradezco el apoyo de todos mis amigos. No menciono el nombre de ninguno
porque no quiero dejar a nadie fuera.

RESUMEN
En este trabajo se realiza un estudio sobre tcnicas que enfrentan el problema de la
separacin ciega de mezclas acsticas. El estudio se centra en el enfoque dado por
Anlisis de Componentes Independientes o ICA (siglas en ingles, de Independent
Component Analysis) donde se asume que las fuentes que forman la mezcla son
mutuamente independientes.
Para comprender las bases fundamentales de ICA se realizar un estudio terico
enfocado en dos tipos de mezclas: instantneas y convolutivas. Aqu se describe el
funcionamiento de los algoritmos ms importantes utilizados en ICA: FASTICA e
INFOMAX tomando en cuenta sus virtudes y limitaciones.
Para analizar la operacin de los algoritmos FASTICA e INFOMAX se realizaran
pruebas utilizando mezclas sintticas, lo que nos permitir evaluar su rendimiento
utilizando varios ndices de evaluacin.
parmetros iniciales.

Adems, se estudiar el efecto de los

Las conclusiones de estas pruebas nos ofrecern un marco

operativo de los algoritmos que nos servirn para enfrentar la separacin de seales
provenientes de mezclas reales.
Seguido a las evaluaciones presentadas, se realizaran pruebas con mezclas de audio
grabadas en un cuarto y mezclas de seales ultrasnicas emitidas por descargas
parciales con el objetivo de probar los algoritmos en entornos reales.

NOTACIN
A continuacin se muestran los smbolos ms utilizados:

Matriz de mezclado con elementos aij

A(z)

Matriz de mezclado de filtros con elementos Aij ( z )

Matriz diagonal

D(. .)

Divergencia Lullback-Leibler

E[.]

Valor esperado o expectacin

g(.)

Funcin de transformacin no lineal

H(.)

Entropa

Matriz identidad

I(.)

Informacin mutua

J(.)

Negentropa

Nmero de fuentes

Numero de mezclas o sensores

P(.)

Probabilidad

p(.)

Funcin de densidad de probabilidad

s(t)

Vector de fuentes independientes s(t)= [s1 (t ), s2 (t ),..., sM (t )]T

ndice de tiempo o muestra

u(t)

Vector de fuentes estimadas u(t)= [u1 (t ), u2 (t ),..., uM (t )]T

Vector de pesos

Matriz de pesos

Variable aleatoria con limitados estados

x(t)

Vector de mezclas x(t)= [x1 (t ), x2 (t ),..., xN (t )]T

y(t)

Vector

de

salidas

de

la

red

neuronal

y(t)= [y1 (t ), y2 (t ),..., yM (t )]T

(.)

Funcin de activacin

(u)

Matriz de transformaciones por la funcin de activacin

(u) = [( u1 ), ( u2 ),...( uM )]T


Operador de norma
4

CONTENIDO
AGRADECIMIENTOS .................................................................................................... 2
RESUMEN ....................................................................................................................... 3
NOTACION ..................................................................................................................... 4
1.

CAPITULO. PROBLEMA Y OBJETIVOS ......................................................... 7


1.1

PLANTEAMIENTO DEL PROBLEMA DE INVESTIGACION .................... 7

1.2

MOTIVACION .................................................................................................. 9

1.3

OBJETIVOS .................................................................................................... 10

1.4

ESTRUCTURA DEL DOCUMENTO ............................................................ 10

2.

CAPITULO. ALGORITMOS PARA ICA.......................................................... 12


2.1

ANALISIS DE COMPONENTES INDEPENDIENTES................................ 12

2.1.1

DESCRIPCION GENERAL DE ICA ...................................................... 12

2.1.2

INDEPENDENCIA ESTADISTICA ....................................................... 15

2.2

ALGORITMOS PARA ICA ............................................................................ 15

2.2.1

FASTICA ................................................................................................. 16

2.2.2

INFOMAX ............................................................................................... 20

2.3

ICA PARA MEZCLAS CONVOLUTIVAS ................................................... 26

2.3.1

MODELO ICA PARA MEZCLAS CONVOLUTIVAS ......................... 27

2.3.2

ALGORITMO INFOMAX PARA MEZCLADO CONVOLUTIVO ..... 28

2.4
3.

RESUMEN Y CONCLUSIONES ................................................................... 32


CAPITULO. METODOLOGIA .......................................................................... 35

3.1

HERRAMIETAS PARA EL ESTUDIO DE LOS ALGORITMOS. .............. 35

3.2

INDICES DE EVALUACION ........................................................................ 35

3.2

SEPARACION DE MEZCLAS SIMULTNEAS ......................................... 37

3.2

EVALUACION DEL ALGORITMO FASTICA ........................................ 38

3.3

EVALUACION DEL ALGORITMO INFOMAX ...................................... 50

3.3

MEZCLAS CONVOLUTIVAS ...................................................................... 58

3.4.1
3.4
4.

EVALUACION DEL ALGORITMO TORKKOLA ............................... 58


CONCLUSIONES ........................................................................................... 61

CAPITULO. APLICACIONES DE ICA EN ENTORNOS REALES ............... 63


4.1

SEPARACION DE SEALES DE AUDIO ................................................... 63

4.2

SEPARACION DE SEALES ULTRASONICAS EN UN EXPERIMENTO

DE SIMULACION ACUSTICA GENERADAS POR DESCARGAS PARCIALES 68


4.2.1

DESCRIPCION DEL BANCO DE ENSAYOS ...................................... 69

4.2.2

ADQUISICION DE LAS SEALES DE REFERENCIA. ..................... 70

4.2.3

RESULTADOS ........................................................................................ 71

4.3
5

CONCLUSIONES ........................................................................................... 76

CAPITULO. CONCLUSIONES Y TRABAJO FUTURO ..................................... 77


5.1

CONCLUSIONES ........................................................................................... 77

5.2

TRABAJO FUTURO ...................................................................................... 78

REFERENCIAS ............................................................................................................. 80

1. CAPITULO. PROBLEMA Y OBJETIVOS


1.1

PLANTEAMIENTO DEL PROBLEMA DE INVESTIGACION

En este trabajo se realiza un estudio sobre tcnicas que enfrentan el problema de la


separacin ciega de mezclas de seales acsticas. Por separacin ciega se entiende que
no se tiene conocimiento de las fuentes que forman la mezcla y tampoco de los
parmetros de mezclados. El estudio se centra en el enfoque dado por Anlisis de
Componentes Independientes o ICA (siglas en ingles, de Independent Component
Analysis) donde se asume que las fuentes son mutuamente independientes.
El problema tpico es el llamado: coctail-party problem.. Es uno de los problemas
insignia que abarca el rea de separacin ciega de seales o BSS[1] (siglas en ingls de
Blind Signal Separation) donde se establecen principios, mtodos y tcnicas que tienen
como objetivo encontrar fuentes originales latentes en mezclas, sin informacin a priori
de las fuentes o de cmo se realiz sta.
Por ejemplo, si tenemos en un cuarto a tres personas conversando simultneamente y
grabamos la conversacin con el objetivo posterior de separar cada una de sus voces
(Figura 1.1), tendramos que tener informacin sobre cada una de estas voces o
informacin sobre el canal. En el coctail party problem, se describe el problema de
extraccin o separacin, pero slo utilizando la informacin suministra por los
micrfonos. Es decir, obtener las fuentes con poca o ninguna informacin sobre ellas o
del canal.

Figura 1.1. Tres personas conversando y siendo grabadas por tres micrfonos. Donde si son las fuentes y
mezclas.

xi

las

BSS no slo enfrenta el problema de mezclado voz, sino cualquier situacin donde
exista un mezclado se seales y se necesite extraer o separar las fuentes que han
formado la mezcla. En la bibliografa, se han identificado cuatro enfoques para BSS[2]:
-Uso de la estructura temporal de las fuentes.
-Separar a travs de caractersticas de las seales como: espacio, tiempo y frecuencia.
-No estacionalidad de las seales.
-Medicin de la independencia estadstica de las seales.
De estos cuatro enfoques el ms utilizado es el que explota la independencia estadsticas
de las seales. Su principal ventaja es que puede tratar con seales no gaussianas, y de
esta forma, afrontar el problema de BSS de manera mucho ms general.
Este enfoque fue propuesto por Pierre Common en 1994[3] y es llamado Anlisis de
componentes independientes o ICA (Siglas en ingles, Independent Component
Analysis).

En su propuesta introdujo una manera para separar mezclas en sus

componentes estadsticamente independientes. El enfoque ICA ha sido utilizado para


una gran cantidad de reas y aplicaciones, tales como[4]: separacin o extraccin de
voces (coctail party problem), extraccin de caractersticas o patrones, procesamiento
de seales en biomdica, anlisis acsticos en ambientes industriales, deteccin de
seales ssmicas, prediccin de series en el tiempo en finanzas, mejoramiento de seales
en telecomunicaciones, etc.

1.2

MOTIVACION

Como hemos discutido anteriormente, el problema de obtener fuentes originales a partir


de mezclas es difcil de enfrentar y seria muy valioso solucionarlo. Con este objetivo en
mente, podemos utilizar Anlisis de Componentes Independientes (ICA) que propone
una solucin muy general al problema de mezclado. ICA es base fundamental de
algoritmos que tienen una slida base matemtica, que los hace muy robustos para
enfrentar todo tipo de problema de mezclado de seales.
Anlisis de Componentes Independientes ofrece soluciones cuando se trabaja con poca
informacin sobre un fenmeno que se desea medir. En el caso de seales acsticas ha
sido utilizado con xito en muchas aplicaciones prcticas. Como un ejemplo de
aplicacin para ICA podemos utilizarlo para solucionar problemas presentados en uno
de los proyectos del grupo de investigacin de optoelectrnica y tecnologa laser
(GOTL) de la Universidad Carlos III de Madrid. Dentro del grupo se est realizando un
proyecto de investigacin sobre la deteccin e identificacin de descargas parciales en
los transformadores. En el marco de este proyecto se ha creado un entorno que emula la
cuba de un transformador y puntos de generacin de descargas parciales. Estos puntos
generan ondas acsticas ultrasnicas que se propagan por toda la cuba y que son
medidas por sensores externos. Esta situacin es similar al coctail party problem.
Cuando se realizan las medidas, lo que se capta es una copia distorsionada de las fuentes
debido a la interferencia entre las mltiples seales generadas. ICA puede ser aplicada
en este entorno y solucionar este problema separando las mezclas en sus fuentes
acsticas originales.

1.3

OBJETIVOS

-Realizacin de un estudio terico sobre la separacin de fuentes utilizando algoritmos


basados en ICA.
-Implementar un banco de ensayos de algoritmos basados en ICA enfocados a la
separacin de mezclas de seales acsticas donde se consideren dos situaciones: la
primera en la que no hay retardos entre las seales (mezclas instantneas) y la segunda
en la puedan existir retardos entre las seales (mezclas convolutivas),
- Evaluar el desempeo de los algoritmos mediante mezclas de seales sintticas y
realizar un estudio de la optimizacin de los parmetros tanto de las seales (tales como
la frecuencia de muestreo o su duracin del intervalo de tiempo) como de los algoritmos
(tales como tasa de aprendizaje, funcin de activacin, etc)
-Evaluar el desempeo de los algoritmos en mezclas de seales reales de audio y
ultrasnicas.

1.4

ESTRUCTURA DEL DOCUMENTO

En el captulo 2 desarrollaremos un estudio terico sobre ICA y los algoritmos ms


importantes utilizados con este enfoque. Iniciaremos explicando que es Anlisis de
componentes independientes; revisaremos algunos conceptos bsicos de teora de la
informacin fundamentales para la comprensin de los algoritmos; describiremos los
algoritmos para ICA con sus virtudes y sus limitaciones; y terminaremos con una
revisin de publicaciones sobre aplicaciones de estos algoritmos.
En el captulo 3 se describir la implementacin de los algoritmos FASTICA e
INFOMAX para mezclas sintticas y convolutivas. Para analizar su operacin en la
separacin las mezclas sern creadas de manera sinttica a partir de fuentes acsticas
independientes, lo que nos permitir evaluar su rendimiento utilizando ndices de
evaluacin. Adems, se estudiar como afecta la operacin diferentes valores en los
parmetros iniciales como: la tasa de aprendizajes, funciones de aproximacin y
activacin, tipo de seales fuentes y de mezclados. Este estudio nos ofrecer un marco
operativo de los algoritmos para luego enfrentarnos a seales provenientes de mezclas
reales.

10

Una vez implementados los algoritmos FASTICA e INFOMAX y evaluadas sus


prestaciones se utilizaran estas implementaciones para la separacin de mezclas
provenientes de entornos reales. Se probaran sobre mezclas de audio grabadas en un
cuarto y para separar mezclas de seales ultrasnicas generadas por descargas parciales
simuladas Estas aplicaciones y sus resultados se describen en el captulo 4.
Finalmente en el capitulo 5 se expondrn las conclusiones finales sobre el trabajo y se
propondrn lneas futuras de investigacin.

11

2. CAPITULO. ALGORITMOS PARA ICA


2.1

ANALISIS DE COMPONENTES INDEPENDIENTES

2.1.1 DESCRIPCION GENERAL DE ICA

Para entender el funcionamiento de ICA, realizamos un anlisis asumiendo un


mezclado simultneo. En esto caso, estudiamos el coctail party problem, despreciando
los ecos y reverberaciones.

En este caso slo tendramos en cada micrfono una

combinacin ponderada de cada seal de voz, es decir, la intensidad de cada seal


depender de la distancia entre cada fuente y sensor. De esta manera, podemos modelar
matemticamente esta situacin como:
x1 (t ) = a11s1 (t ) + a12 s2 (t ) + a13 s3 (t )
x2 (t ) = a21s1 (t ) + a22 s2 (t ) + a23 s3 (t )

(2.1)

x3 (t ) = a31s1 (t ) + a32 s2 (t ) + a33 s3 (t )

Donde x1 (t ) , x2 (t ) y x3 (t ) son las grabaciones en cada instante t tomadas por los


micrfonos, las cuales llamaremos mezclas xi (t ) ; s1(t) s2 (t) y s3 (t) son las seales
provenientes de cada individuo que llamaremos fuentes si (t ) .
Para generalizar este problema no limitaremos las seales emitidas por las fuentes, slo
a voces sino a cualquiera seal que puede sufrir los efectos de mezclado. De esta
manera no slo mediremos con micrfonos, sino con cualquier otro tipo de sensor.
Los coeficientes aij con i, j = 1, 2,3 , se denominan parmetros de mezclado y
representan la contribucin de cada fuente a cada mezcla xi (t ) . El valor de estos
parmetros depender de la distancias entre los individuos y los sensores.
Podemos simplificar la ecuacin (2.1) utilizando notacin matricial, de manera que el
proceso de mezclado lo expresamos como:

(2.2)

x(t) = As(t)

12

Donde

x (t ) = [ x1 (t ), x2 (t ),..., xN (t )]T ,

s(t ) = [ s1 (t ), s2 (t ),..., sM (t )]

a11 a1N
Y A =
a

M 1 aMN

Y M y N representan el nmero de fuentes y de mezclas respectivamente.


Si los parmetros de mezclado aij fueran conocidos, el sistema de ecuaciones lineales
sera resuelto invirtiendo el sistema de la siguiente forma
s (t ) = A1 x (t )

(2.3)

Sin embargo, estos parmetros no se conocen, ni tampoco las fuentes.

El

desconocimiento de las fuentes y los parmetros de mezclados se conoce con el trmino


blind o ciego (en espaol).
Para resolver este problema Anlisis de Componentes Independientes (ICA) utiliza una
transformacin lineal W , tal que:

u(t ) = Wx (t )

(2.4)

Donde u(t ) = [u1 (t ),..., uM (t )]T es una estimacin de s (t ) y


w11 w1N

W =
.es una matriz de pesos
w

M 1 wMN

En el caso donde las estimaciones son iguales las fuentes, u (t ) = s (t ) ) entonces


W = A 1 . ICA no puede garantizar esta igualdad ya que se desconoce el orden exacto y

la amplitud de las fuentes, sin embargo puede proporcionar unas formas de onda las
cuales tienen la informacin que nos interesa. Para conseguir este objetivo, en ICA se
13

asume que las fuentes son independientes. De esta manera se adapta la matriz de pesos
W por medio de una regla de adaptacin que busca la independencia estadstica entre

las salidas ui (t ) . En el caso ptimo obtenemos:


W = PA 1

Donde es una matriz diagonal no singular, P es matriz permutacin y A1 es la


inversa de la matriz de mezclado. As obtenemos las formas de onda de las fuentes en
diferente orden al que fueron mezclas y escaladas.
Para estimar W , la regla de bsqueda de independencia puede estar enfocada en
alguno de los siguientes criterios:
-Maximizacin de la No gaussianidad.
-Estimacin de la mxima verosimilitud.
-Anlisis no lineal de componentes principales.
-Mtodos tensoriales
-Minimizacin de la mutua informacin.
-Maximizacin de la informacin
Todos estos criterios estn relacionados entre s y su operacin puede ser expresado
mediante la siguiente expresin [5]:

Mtodo ICA = funcin objetivo + algoritmo de optimizacin

Donde la funcin objetivo es alguna regla o funcin que mide la independencia y que se
busca maximizar o minimizar bajo algn tipo de restriccin.

El algoritmo de

optimizacin es algn mtodo como gradiente descendiente, natural o Newton para


buscar esta maximizacin o minimizacin.
Todos estos mtodos buscan como objetivo general la independencia estadstica entre
las salidas, y su eleccin depende de las propiedades estadsticas de la funcin objetivo
y de la velocidad de convergencia, requerimientos de memoria, estabilidad numrica,
etc., que ofrece el algoritmo de optimizacin escogido.

14

2.1.2 INDEPENDENCIA ESTADISTICA

Un concepto clave que constituye el fundamento de ICA es la independencia


estadstica, la cual es definida en trminos de densidades de probabilidad. Si tenemos
dos variables aleatorias x y y , se dicen que son independientes si y slo si[6]:

p ( x, y ) = p ( x ) p ( y )

(2.5)

Donde p ( x, y ) es la densidad de probabilidad conjunta de x y y ; p ( x ) y p ( y ) la


densidades marginales de x y y , respectivamente. En otras palabras, la densidad
conjunta p ( x, y ) debe ser factorizable en los productos de sus densidades marginales
p ( x ) y p ( y ) para que las dos variables sean consideradas independientes entre si.

Una manera mas prctica para entender la independencia es expresada as:


Si una variable no da ninguna informacin que permita conocer otra variable se dice
que son totalmente independientes.
En otras palabras dos variables son independientes si no tienen ninguna relacin entre
ellas. Esta relacin no slo debe ser lineal, sino tener en el mbito de la no linealidad.
De esta manera, si se logra eliminar correlaciones lineales no basta para decir que son
independientes, ya que existen otras correlaciones no lineales que podran no ser cero.
Aqu es donde el enfoque ICA es tan robusto, pues la bsqueda de independencia va
ms all de una decorrelacin lineal.

2.2

ALGORITMOS PARA ICA

En nuestra revisin bibliogrfica hemos encontrado que los algoritmos FASTICA e


INFOMAX, basados en ICA son los mas representativos y populares para aplicaciones
con mezclas reales. Adems de esto son los que han sido llevados a aplicaciones
embebidas[7].

15

2.2.1 FASTICA

El algoritmo FASTICA fue desarrollado en el Laboratorio de Informacin y Ciencias


Computacionales de la Universidad Tecnolgica de Helsinki, por Hugo Gvert, Jarmo
Hurri, Jaakko Srel y Aapo Hyvarinen. Este algoritmo busca la independencia basndose
en la medida de la no gaussianidad.
Segn el teorema de lmite central[8] si mezclamos dos o mas seales independientes, la
mezcla resultante ser mas gaussiana que las seales originales. Recordando el coctail
party problem, los micrfonos grababan mezclas de seales de voz. Estas mezclas son
ms gaussianas que las seales originales. El algoritmo FASTICA lo que busca es
revertir este proceso de mezclado.
Recordando la ecuacin (2.4)

u(t)= Wx(t)

Donde x(t) son las mezclas, u(t) son las estimaciones y W la matriz de pesos.
FASTICA busca que Wx (t) sea lo menos gaussiano posible cambiando los pesos W .
Al hacerlo menos gaussiano logramos encontrar los componentes independientes, lo
cuales son las estimaciones de nuestras fuentes. Para ello se utiliza una funcin que
mide la no gaussianidad. Esta funcin es llamada Negentropa y se puede considerar
como una medida de distancia entre la densidad de probabilidad de una variable
gaussiana de referencia y la densidad de la variable a comprar. La Negentropa esta
definida como[9]:

J (u) = H (ugauss ) H (u)

(2.6)

Donde H (ugauss ) es la entropa de un vector gaussiano con igual varianza que el vector

u , H ( u) es la entropa de u .y donde hemos obviado el ndice de tiempo. La


Negentropa es siempre positiva, y es cero slo cuando u tiene una distribucin
gaussiana.
En FASTICA se toma la Negentropa de u y se verifica su distancia con respecto a la
variable gaussiana. El objetivo es encontrar unos pesos que lleven al mximo de esta

16

distancia. Los pesos encontrados son los que conducen a los componentes
independientes y a nuestras estimaciones de las fuentes.
2.2.2.1 EL ALGORITMO FASTICA

El algoritmo FASTICA no estima todos los componentes a la vez si no que lo hace


secuencialmente. En la Figura 2.1 se muestra un esquema de como realiza la bsqueda
de los componentes. En este ejemplo tenemos tres mezclas. Estas mezclas sufren un
preproceso que ser explicado ms delante. Seguido las mezclas son multiplicadas por
un vector de pesos, produciendo las estimaciones u . Este vector es utilizado para buscar
el mximo de la Negentropa y generar unos nuevos pesos. Este proceso se repite hasta
encontrar los pesos ptimos.

Figura 2.1. Proceso llevado a cabo por FASTICA para la bsqueda de un componente independiente.

El vector de pesos encontrados corresponde al primer componente independiente y es el


primer mximo de la Negentropa.

Para encontrar los siguientes componentes,

utilizamos este mismo proceso pero debemos asegurarnos que no coincidamos con el
peso previamente encontrado. Para lograr esto se hace un proceso llamado
ortogonalizacin. Este proceso asegura que el siguiente vector de pesos sea ortogonal al
encontrado previamente y de esta forma diferente e independiente. De esta manera el
proceso descrito en el esquema se repite hasta encontrar todos pesos.
En la Tabla 2.1 mostramos todos los pasos utilizados por el algoritmo FASTICA para
encontrar los pesos y los componentes independientes.

17

Tabla 2.1. Pasos del algoritmo FASTICA

Centrar los datos para hacer su media cero

Crear un nuevo vector z al blanquear los datos

Iniciar bsqueda de los componentes desde p 1 hasta M , donde p es el


ndice del componente y M la cantidad de componentes
Escoger un vector aleatorio w p con norma unitaria

4
5

Iniciar un contador de iteraciones y guardar el vector de peso w p antes de la


actualizacin
Realizar la operacin de actualizacin del vector de pesos

w p E { Zg (w pT z)} E { g '(w pT z)} w p , donde g est definida en la Tabla


2.2
Normar los pesos encontrados para mantener varianza fija en la unidad

wp wp / wp
p 1

Realizar la ortogonalizacin w p w p (w pT w j )w j donde p el ndice


j =1

del vector de pesos actual y j es el ndice de los vectores de pesos


previamente encontrados.

wp wp / wp

9
10
11

Se compara el vector de pesos antes de la actualizacin con el peso actual.


Si la diferencia es mayor del valor de convergencia volver al paso 6
Buscar el siguiente componente haciendo p p + 1 y volver al paso 3

Previamente hemos dicho que hay un preprocesado que deben sufrir las mezclas. Este
preprocesado esta dividido en dos pasos: centrado y blanqueado. El centrado y el
blanqueado aseguran que se puedan encontrar los componentes utilizando la
Negentropa como medida.
El centrado consiste en extraer la media de las mezclas:

x = x E ( x)

18

Donde E(.) es la expectacin o promedio.


El blanqueado es una operacin sobre las mezclas que produce un vector con varianza
unitaria y donde sus elementos son ortogonales unos a los otros. El blanqueado se
realiza de la siguiente manera:
z = Vx

Donde

(2.7)

la

matriz

1
2

V = ED E T

est

formada

por

la

matriz

diagonal

D = diag (d1 ,..., dn ) con los eigenvalores de matriz de covarianza de las mezclas y E es
una matriz ortogonal sus los eigenvectores, respectivamente.
El nuevo vector z es una copia escalada y rotada de las mezclas, as que no hay una
alteracin sobre las fuentes que la componen.
Despus del centrado y blanqueado se inicia la bsqueda de los componentes. Se
escogen un vector de pesos de manera aleatoria y despus se normaliza. Este peso se
guarda para comparacin despus de la actualizacin. El siguiente paso es la
actualizacin de los pesos por medio de una regla basada en la Negentropa. Hyvarinen
desarrollo la siguiente regla de actualizacin de pesos [10]

w E { zg ( w T z )} E { g '( w T z )} w

(2.8)

Donde g y g estn especificadas en la Tabla 2.2 y E es la expectacin.


Este paso de actualizacin puede variar la varianza de u , por tal razn se vuelve a
normar los pesos para mantener su varianza en la unidad.
Como mencionamos antes, cuando buscamos cada componente es importante
asegurarnos que no coincidamos con alguno previamente encontrado. Para esto se
ortogonaliza con la siguiente operacin:
p 1

w p w p (w p T w j )w j

(2.9)

j =1

Donde es p el ndice del componente actual y j es el ndice de cada uno de los


componentes previamente encontrados. Se vuelve a normar y se procede a compararlo

19

con el peso guardado antes de la actualizacin. Si la diferencia entre el peso actual y el


peso antes de la actualizacin es menor que el valor de convergencia se guarda el peso
actual y se busca peso correspondiente al siguiente componente. Si la diferencia entre
el peso actual y el previo a la actualizacin es mayor al valor de convergencia se sigue
actualizando los pesos hasta que la diferencia sea menor que el valor de convergencia.
El valor de convergencia sirve para comparar el cambio entre el valor antes y despus
de la actualizacin, que en la prctica se suele escoger con valor menor a 0.0001.

Tabla 2.2. Lista de funciones para aproximar la Negentropa

g'

G1

tanh( u)

(1 tanh(u))

G2

u exp(u2 / 2)

(1 u2 ) exp(u2 / 2)

G3

u3

u2

2.2.2 INFOMAX

El algoritmo INFOMAX[11] fue desarrollado por Anthony Bell y Terrence Sejnowski


en 1995 y se basa en el principio maximizacin de la informacin de Linsker[12]. Este
principio establece criterios de optimizacin en el proceso de transmisin de
informacin entre la entrada y salida de una red neuronal. El principio establece que
entre la capa de entrada y de salida de una red neuronal debe existir una funcin, tal que
maximice la mutua informacin entre ellas y as alcanzar una transmisin ptima de la
informacin en la red neuronal. Bell y Sejnowski demostraron que en el caso de bajo
ruido la maximizacin de la mutua informacin entre las salidas y las entradas de la red,
era equivalente a la maximizacin de la entropa conjunta de salidas de esta red. Este
hecho, segn Nadal y Parga[13] implica una distribucin factorial de estas salidas. En
otras palabras, la maximizacin de la transferencia informacin entre la entrada y la
salida de una red neuronal minimiza la mutua informacin entre las salidas (cdigo
factorial). Por cdigo factorial se entiende, que la densidad de probabilidad conjunta de
las salidas es factorizable y por lo tanto estas salidas seran independientes entre s.
Recordando la seccin 2.1.2 si una distribucin conjunta de variables es factorizable en
sus densidades marginales, esto es una indicacin de independencia.
20

Bell y Sejnowski, siguiendo estos conceptos propusieron un modelo neuronal capaz de


tomar las mezclas y separarlas en sus componentes independientes. En la Figura 2.2
mostramos el modelo para tratar tres mezclas xi .

Figura 2.2. Modelo neuronal INFOMAX para tratar tres mezclas con la transformacin no lineal de cada salida

En este modelo observamos que cada salida ui es transformada en una nueva variable
yi = g (ui ) . Esta transformacin permite maximizar la entropa conjunta de todas las
salidas yi con respecto a la matriz de pesos W . La entropa conjunta de las salidas de
la red neuronal es igual a:
h( y ) = p ( y ) log p ( y )dy

(2.10)

= E[ p ( y )]
Donde el vector y = [ y1 , y2 ,... yM ]T es el vector de salidas y E[.] la expectacin.

Cuando se alcanza el mximo de la entropa conjunta se reduce la mutua informacin


entre las salidas hacindolas independientes entre ellas:

rg max h( y | W )

(2.11)

A partir de esta maximizacin, Bell y Sejnowski desarrollaron la siguiente regla de


actualizacin para la matriz de pesos W [14]:

21

W I + (u) uT W

(2.12)

Donde W es la matriz de pesos, I es una matriz identidad, u son las estimaciones y el


trmino ( ) es llamado funcin de activacin. La funcin de activacin (u) opera
sobre cada variable ui de manera independiente:

(u) = [( u1 ), ( u2 ),...( uM )]T


La funcin de activacin (u) est relacionada con la funcin de transformacin
yi = g (ui ) por medio de[15]:

(ui ) =

1 2 yi
yi u 2i
ui

(2.13)

La eleccin de yi = g (ui ) influye de manera determinante en la operacin del


algoritmo. La funcin g (ui ) es no lineal, invertible y acota en amplitud a las variables
ui . Adems de estas caractersticas, para que esta transformacin logre un ptimo
comportamiento del algoritmo, debe tener la forma de la funcin de distribucin
cumulativa de las fuentes que forman la mezcla. Al contrario que en FASTICA, en el
caso de INFOMAX es necesario, al menos intuir caractersticas estadsticas de la
fuente.
Una funcin sigmoidal, como la mostrada en la grafica a) de la Figura 2.3, cumple con
las caractersticas necesarias para realizar la transformacin. Es invertible, acota en
amplitud y es monotnica. Si esta funcin es derivada obtenemos la forma de la grafica
b) de la Figura 2.4. Esta es la forma de la densidad de distribucin de probabilidad
supergaussiana. En INFOMAX la transformacin debe tener la forma de la densidad
cumulativa de probabilidad de las fuentes (su derivada en la densidad de distribucin de
probabilidad) para que el algoritmo converja.

22

Figura 2.3. a) Funcin sigmoidal, la cual tiene forma de la funcin cumulativa de fuentes supergaussianas. b) La
derivada de la funcin sigmoidal que corresponde a la forma de la densidad de probabilidad de fuentes
supergaussianas.

En casos prcticos, normalmente inferimos de los datos la forma de distribucin de


probabilidad. Asumimos que son gaussianos, supergaussianos, subgaussianos, etc. Por
tal razn es mejor utilizar la funcin de distribucin que la forma de la funcin
cumulativa o funcin de transformacin. Una manera para relacionar la funcin de
distribucin P(u) = [ P(u1 ), P(u2 ),..., P(uM )]T y la funcin de activacin (u) es dada
por Amari y Cichocki en [16]:

( ui ) =

d log p (ui )
du

(2.14)

Donde p (ui ) es la funcin de distribucin de probabilidad para cada estimacin.


Cuando el algoritmo converge tenemos p (ui ) = p ( si ) , donde p ( si ) es la distribucin de
probabilidad de las fuentes.
Como ejemplo: Si asumimos que las fuentes son supergaussianas, (caracterstico de las
fuentes de audio) podemos tomar una funcin de densidad de probabilidad laplaciana

p(ui ) = exp( ui ) ya que se puede adaptar a las forma de distribucin supergaussiana.


Aplicando la operacin de la ecuacin (2.14) obtenemos la funcin de activacin
( ui ) = Sign(ui ) . En la grafica a) de la Figura 2.4 vemos la forma de distribucin
laplaciana y en la grafica b) la forma de su funcin de activacin.

23

Figura 2.4. a) Funcin de distribucin laplaciana. Esta distribucin puede ser asumida para seales
supergaussianas como las de audio. b) Funcin de activacin derivada de la funcin de distribucin laplaciana.
Como se puede observar en una funcin signo

En la Figura 2.5 se muestran dos ejemplos de densidades para seales de voz y msica.
Comparando la funcin laplaciana con estas densidades podemos decir que son
similares y que gracias a esto podemos utilizar la funcin de activacin en este caso
para estimar una mezcla de este tipo de fuentes. En la Tabla 2.3 [16] mostramos varias
funciones de distribucin de probabilidad

y sus funciones de activacin,

respectivamente.

Figura 2.5. Izquierda: Distribucin de una seal de voz. Derecha: Distribucin de una seal de msica.

24

Tabla 2.3. Funciones de densidad de probabilidad y sus funciones de activacion, respectivamente. El simbolo
refiera a la varianza de la seal.

Nombre

Funcin de distribucin

Funcin de

de probabilidad p (u )

activacin (u )

Laplaciana

Cauchy
Coseno
Hiperblico
Sigmoidal

u
1
exp( )
2

Sign(u )

1
1 + (u / ) 2

2u
+ u2

1
cosh(u / 2 )

tanh(u / 2 )

2
1 + exp(u / )

2 tanh(u / )

1 tanh(u / )2

Hiperblico

generalizada

exp(u / )
(1 + exp(u / )) 2

Tangente

Gaussiana

u
1
exp( 2 )
2
2

Gaussiana

se

r
1 u
exp(
)
2(1/ r )
r

r 1

Sign(u)

2.2.2.1 EL ALGORITMO INFOMAX

El algoritmo INFOMAX consta de pocos pasos. En la Tabla 2.4 se muestran estos


pasos.
El primer paso es centrar las mezclas retirndoles la media:
x = x E ( x)

Despus se escoge una matriz de pesos W de manera aleatoria. A diferencia de


FASTICA en INFOMAX se encuentran todos los pesos paralelamente.
Despus obtenemos una vector de salidas:

(2.15)

u = Wx

25

Guardamos los pesos antes de su actualizacin y utilizamos el vector de salida u para


estimar los pesos:
Wactual = Wanterior + I - ( u) uT Wanterior

(2.16)

Si el cambio entre el peso actual y el anterior es menor al valor de convergencia


detenemos el proceso y obtenemos las estimaciones por medio de la ecuacin (2.15).

Tabla 2.4. Pasos del algoritmo INFOMAX.

2.3

Centrar los datos para hacer su media cero

Escoger un vector de pesos W de manera aleatoria.

u = Wx

Wactual = Wanterior + I - (u)uT Wanterior

Si Wactual -Wanterior > valor de convergencia volver al paso 3.

ICA PARA MEZCLAS CONVOLUTIVAS

Hasta ahora hemos considerado el caso de mezclado simultneo de fuentes. En esta


seccin abordaremos el problema de mezclado convolutivo, donde a cada sensor le
llegan copias distorsionadas de las emisiones de cada fuente debida las reflexiones y
reverberaciones.
En la Figura 2.6 puede observarse un ejemplo de este problema para el caso de dos
fuentes y dos sensores. Los frentes de onda de cada emisin son modelados por rayos.
Como puede observarse, hay rayos que cubren una mayor distancia debido a que no van
directo a los sensores, sino a las paredes y de ah a estos. Obviamente, estos rayos llegan
con un atraso mayor que los rayos directos. Cada uno de estos rayos es una copia
original de la fuente, pero que llega distorsionada a los sensores debido al medio.
Este problema es mucho ms complejo que el enfrentado en el caso simultneo, ya que
adems de tratar con el mezclado directo de cada fuente, tenemos el mezclado de partes
retrasadas de cada una de estas seales.

26

2.3.1 MODELO ICA PARA MEZCLAS CONVOLUTIVAS

Para resolver el problema de mezclado convolutivo y poder realizar la separacin


utilizando el enfoque ICA, se recurre a un modelo que abarque retardos. En este caso
se pueden utilizar modelos ARMA (siglas en ingles de Autoregressive Moving Average
Model) y adaptarlos a nuestro problema. Para los casos donde tenemos una cantidad de

M fuentes ( s (t ) = [ s1 (t ),..., sM (t )]1 ) y una cantidad de N sensores que captan las


mezclas ( x (t ) = [ x1 (t ),..., xN (t )]1 ) , podemos utilizar el siguiente modelo [17],
N K 1

xi = aijk s j (t k )

(2.17)

j =1 k = 0

Donde s j son las fuentes, xi son las mezclas recibidas por los N sensores, k es el
ndice de retardo, t es el ndice de tiempo discreto, M es el nmero de fuentes. Los
aijk son los correspondientes coeficientes de mezclado que indican la contribucin de la

fuente i en un instante (t k ) a la mezcla j en el instante t .


Este modelo, llamado MA (moving average) es parte de los modelos ARMA y es
esencialmente un filtro de repuesta impulso finita o FIR (Finite Impulse Response). El
modelo ve las mezclas como una versin filtrada y retardada de las fuentes.

Figura 2.6. Dos fuentes acsticas emitiendo sonido. Se muestras las trayectorias de los frentes de onda. Los sensores
captan copias distorsionadas de las emisiones debido al medio.

27

En la prctica, estos coeficientes de mezclado pueden cambiar en el tiempo, pero por


simplicidad a menudo son considerados estacionarios. En teora, los filtros puede tener
longitud infinita, sin embargo es suficiente con asumir que K < . Este modelo puede
ser escrito en forma matricial:
K 1

x(t ) = Ak s(t k )

(2.18)

k =0

Donde Ak es una matriz M x N la cual contiene k s coeficientes. En el dominio de z ,


el modelo puede ser escrito, tambin como:
X ( z ) = A( z ) S ( z )

(2.19)

Donde A( z ) es una matriz de polinomios FIR.


Como en caso de mezclado simultneo podemos realizar la asuncin de independencia
estadstica y buscar una solucin, sin embargo ahora nos enfrentamos a la inversin de
mltiples matrices de polinomios. Una manera de resolver esto, es considerar como
sistema de inversin, un filtro FIR o IIR y adaptar sus coeficientes siguiendo una regla
de bsqueda de independencia hasta que se obtenga una versin aproximada de las
fuentes.
Con este enfoque existen dos arquitecturas utilizadas: FeedBack y FeedForward[18]. De
cada una de ellas se puede extraer una regla de adaptacin de pesos, de tal forma que se
pueden estimar las fuentes. Es importante anotar que estos pesos, son los coeficientes
de la inversin del canal de mezclado, algo que es muy til si surge la necesidad de
caracterizarlo.
En este trabajo utilizamos el algoritmo propuestos por Kari Torkkola[19] basados en la
arquitectura FeedBack e INFOMAX extendido para tratar con mezclas convolutivas.

2.3.2 ALGORITMO INFOMAX PARA MEZCLADO CONVOLUTIVO

En la Figura 2.7 mostramos un esquema del modelo representado la ecuacin (2.19),


X ( z ) = A( z ) S ( z ) para dos fuentes, despreciando el ruido en los sensores:

28

S1(z)

A11(z)

X1(z)

X2(z)

A12(z)
A21(z)

S2(z)

A22(z)

Figura 2.7. Modelo de mezclado convolutivo para las fuentes.

Tanto en este esquema como en el siguiente anlisis, todas las variables estn
transformadas al dominio de z . En este caso cada elemento de la matriz A( z ) es un
polinomio de filtros FIR y puede ser escrito como:
X 1 ( z ) = A11 ( z ) S1 ( z ) + A12 ( z ) S 2 ( z )

(2.20)

X 2 ( z ) = A21 ( z ) S1 ( z ) + A22 ( z ) S 2 ( z )

En (2.20) no conocemos Aij ( z ) ni las fuentes S j .


Torkkola[19] propuso una arquitectura Feedback y una extensin del algoritmo
INFOMAX para estimar fuentes que han sufrido un mezclado convolutivo. En la
Figura 2.8 presentamos en un esquema la arquitectura propuesta de Torkkola. Las
salidas de este sistema pueden ser expresadas como
U1 ( z ) = W11 ( z ) X 1 ( z ) + W12 ( z )U 2 ( z )

(2.21)

U 2 ( z ) = W21 ( z ) X 2 ( z ) + W22 ( z )U 2 ( z )

Donde las U i ( z ) son las estimaciones de los componentes independientes y Wij los
pesos. A estos pesos se les llama tambin: coeficientes del filtro. Cada uno de estos
coeficientes es actualizado por una regla basada en INFOMAX, como veremos ms
adelante.

29

X1(z)

W11(z)

U1(z)
W21(z)

W12(z)

X2(z)

W22(z)

U2(z)

Figura 2.8. Arquitectura FeedBack propuesta por Torkkola.

En el caso ideal, cada coeficiente debera llegar a la siguiente solucin:

W11 ( z ) = A11 ( z ) 1 , W12 ( z ) = A12 ( z ) A11 ( z ) 1

(2.22)

W22 ( z ) = A22 ( z )1 , W11 ( z ) = A21 ( z ) A22 ( z ) 1

Sin embargo, para una aplicacin en lnea esta solucin tiene un problema. Cuando la
regla busca los pesos directos W11 ,W22 , no slo se estimar A11 ( z ) 1 , A22 ( z ) 1 sino que
tambin blanquear las fuentes, algo que hace que pierdan su forma de onda original.
La estimacin de los otros coeficientes depende de estas fuentes, as que debido a esta
distorsin, stos no podrn converger a la solucin.

Para evitar este efecto, los

coeficientes W11 , W22 son forzados a ser constantes, normalmente con valor de uno. De
esta manera la ecuacin (2.21) queda de la siguiente forma:
U1 ( z ) = X 1 ( z ) + W12 ( z )U 2 ( z )

(2.23)

U 2 ( z ) = X 2 ( z ) + W22 ( z )U 2 ( z )

Donde

W11 ( z ) = 1, W12 ( z ) = A12 ( z ) A22 ( z ) 1

(2.24)

W22 ( z ) = 1, W11 ( z ) = A21 ( z ) A11 ( z )1

Con esta solucin las estimaciones a las que converge el algoritmo sern una versin
filtrada de las fuentes, como sigue:
30

A11S1 = U1

(2.25)

A22 S 2 = U 2

Para esta estructura la regla de actualizacin de pesos es la siguiente[20]:

wijk (ui (t ))u j (t k )

(2.26)

Donde i y j son los ndices de las mezclas, t es el nmero de muestra, k es el retardo y

(ui (t )) es la funcin de activacin. En este caso cada estimacin ui es igual a:

ui (t ) = xi (t ) + w jik u j (t k )

(2.27)

j =1 k =1

Donde K es la longitud del filtro.


Las ecuaciones estn en el dominio del tiempo y trabajan en lnea con los datos xi (t ) de
entrada.
Como ejemplo: si nuestra funcin de activacin proviene de la funcin sigmoidal (Tabla
2.3):

(ui (t )) = 1

2
,
1 + exp( ui )

Entonces, la regla ser:

wijk (1

2
)u j (t k )
1 + exp(ui )

(2.28)

En la Figura 2.9 mostramos en un esquema la estructura de Torkkola incluyendo la


regla de actualizacin de pesos de la ecuacin (2.28) y con los coeficientes W11 , W22
iguales a uno. Con este esquema podemos tomar las muestras de las seales de la
mezclas y procesarlas en lnea con el objetivo de estimar las fuentes independientes.

31

Figura 2.9. Este esquema muestra el algoritmo Torkkola para dos mezclas. En este esquema los filtros directos han
sido igualados a uno y se ha utilizado la funcin de activacin Sigmoidal.

2.4

RESUMEN Y CONCLUSIONES

Se ha realizado una revisin de los conceptos fundamentales en los que se basa la


tcnica de Anlisis de Componentes Independientes, tales como independencia
estadstica, entropa y mutua informacin, as como el establecimiento del principal
objetivo de este mtodo: La bsqueda de componentes independientes latentes en una
mezcla.
De este mtodo se derivan dos algoritmos: FASTICA e INFOMAX y utilizan la
negentropa y la entropa como medidas de independencia, respectivamente.
Para mezclado instantneo tanto FASTICA como INFOMAX pueden operar y separar
este tipo de mezclas, y adems INFOMAX extendido por Torkkola puede tratar con
mezclado convolutivo.
Estos algoritmos han sido utilizados en muchas aplicaciones reales en acstica. Con
respecto a FASTICA encontramos mayora de aplicaciones acsticas relacionadas al
campo de la biomedicina.

En [21, 22] es utilizado para la separacin de seales

acsticas provenientes del corazn. Aqu se logra diferenciar entre la sstole y la distole
discriminando sonidos provenientes del pulmn. En [23] se identifica el sonido del
corazn de un feto y se logra discriminar de manera automtica del ruido abdominal.
Tambin encontramos en [24] el diseo e implementacin de un estetoscopio embebido
en un DSP que puede diferenciar entre las dos fases del corazn (distole y sstole)
eliminando ruidos provenientes de otros rganos. Adems de aplicaciones biomdicas,
encontramos aplicaciones en audio [25], en el rea industrial [26] y en sistemas de
sonares [27].
32

En el caso de INFOMAX en [11, 28-32] se realizan trabajos con mezclado convolutivo


utilizando seales obtenidas de forma sinttica. En [33-35] se utilizan seales reales
utilizando una estructura del algoritmo embebida en un DSP.
Cuando se utiliza ICA para trabajar con aplicaciones reales es importante tener en
cuenta sus limitaciones. En los siguientes puntos se exponen las ms importantes:
1) Slo se permite una fuente gaussiana entre las fuentes que conforman la mezcla. Las
seales con densidades gaussianas, cuando estn decorreladas linealmente son
independientes entre s. Como ICA realiza una especie de decorrelacin no lineal,
buscando ordenes estadsticos por encima de la media y la varianza y una variable
gaussiana solo tiene estos ltimos, no puede trabajar con este tipo de variables. Para
el caso donde todas las fuentes son gaussianas se puede utilizar Anlisis de
Componentes Principales o PCA[36].
2) ICA no puede determinar las varianzas de las fuentes originales, debido a que los
coeficientes de mezclado, como las fuentes son desconocidas.
3) No es posible determinar el orden original de las fuentes.
4) En muchos casos reales el mezclado de las seales no es instantneo, sino
convolutivo. Es fundamental estudiar el ambiente en el cual se propagan las seales
de audio para determinar si se puede o no, considerar un tipo de mezclado.
Dependiendo de este anlisis se escoge el algoritmo. En el trabajo de Michael S.
Pedersen[17], se hace una extensa revisin a los algoritmos para tratar con mezclas
convolutivas.
5) El mezclado de la seales muchas veces no es estacionario. La matriz de mezcla
puede cambiar debido a que las fuentes se pueden estar moviendo, haciendo que los
coeficientes de esta matriz deban ser ajustados continuamente. Si el algoritmo es
lento convergiendo, no podr enfrentar esto, sin contar el problema aadido por los
retardos.
6) En aplicaciones reales, es difcil saber cuantas fuentes existen y por lo tanto, cuantos
sensores se deben colocar para que la matriz a estimar sea cuadrada e invertible. Los
algoritmos bsicos de FASTICA e INFOMAX, no pueden tratar este problema
directamente. Existen trabajos realizados por A. Hyvarinen[37], F. Theis[38],
Cichocki y Amari[39], Matsuda Y.[40], donde utilizan modelos generativos,
asumiendo densidades de probabilidad a priori para completar la matriz de mezcla.
A pesar de estas limitaciones ICA da respuesta a una situacin caracterstica de la
medicin de seales.

En muchos casos no conocemos si las seales que estamos


33

midiendo son las emisiones reales de las fuentes del fenmenos en el cual estamos
interesados.

En el caso de seales acsticas cuando se transmiten, pueden sufrir

interferencias con otras seales.

En este caso, lo que recibimos es una copia

distorsionada de la emisin original. ICA provee una solucin muy general a esta
situacin, pues puede estimar una copia aproximada de nuestra fuente, eliminando la
interferencia de la otra seal. Como se ha descrito en los distintos apartados del
capitulo, ICA permite estimar las fuentes ciegamente sin ninguna referencia es lo que
hace a este mtodo tan poderoso y con un gran potencial de aplicacin en sistemas de
instrumentacin que trabajan con seales acsticas.

34

3. CAPITULO. METODOLOGIA
3.1

HERRAMIETAS PARA EL ESTUDIO DE LOS ALGORITMOS.

Para estudiar, implementar y evaluar la operacin de los algoritmos se utilizaran las


siguientes herramientas:
1. Paquete FASTICA: Es un programa para Matlab basado en el algoritmo
FASTICA creado por el departamento de Informacin y Ciencias de la
computacin de la Universidad de Helsinski. Este paquete fue bajado de la pgina:
http://research.ics.tkk.fi/ica/fastica/code/dlcode.shtml.
2. Para INFOMAX se crearon dos programas en Matlab:
-Un programa para mezclas simultneas utilizando el algoritmo propuesto en la
Tabla 2.4.
-Un programa para mezclas convolutivas implementando el algoritmo propuesto
por Torkkola descrito en la seccin 2.3.2.

Para realizar el estudio utilizaremos dos tipos de mezclas: simultaneas y convolutivas.


Es necesario realizar esta divisin por las siguientes razones:
-FASTICA no tiene una extensin para enfrentar el problema de mezclado convolutivo,
por lo cual no puede ser utilizado para este tipo de mezclas.
-Los ndices de evaluacin, difieren para el caso simultneo y el convolutivo,
respectivamente.

3.2

INDICES DE EVALUACION

Para evaluar los resultados de cada algoritmo se utilizaran los siguientes ndices de
evaluacin:
1. La kurtosis. La kurtosis nos indica el grado de agudeza del pico de una distribucin
de probabilidad. Si su valor aumenta, esto es indicativo de aumento en esta agudeza.
Este valor nos sirve como indicativo del grado de gaussianidad de una seal.
Cuando el valor de la kurtosis es cero, la seal es gaussiana; si el valor es positivo,
la seal es supergassiana; y si la Kurtosis es negativa, la seal es subgaussiana. La
35

kurtosis tiene valores desde -2 hasta el infinito positivo. En Figura 3.1 podemos ver
una comparacin grafica de las funciones de distribucin de probabilidad para las
seales gaussianas, supergaussianas y subgaussianas. Las seales acsticas son
normalmente supergaussianas; las seales como el ruido uniforme, sinodales puras o
triangulares son subgaussianas.

Figura 3.1. Modelos de densidad de para densidades Supergaussianas, gaussianas y subgaussianas. La funcin
supergaussiana tiene un pico muy agudo, mientras que la subgaussiana tiende hacer ms llano. La gaussiana es un
punto medio entre estas dos.

Para las pruebas calcularemos el valor de kurtosis de las seales fuentes, las
mezclas y las estimaciones. Si el algoritmo separa bien, la kurtosis de la estimacin
debe ser igual a la kurtosis de la seal original, ya que el nico cambio realizado
por el algoritmo, ser sobre la varianza y la media. Como la kurtosis utilizada esta
normalizada, es invariable ante ente el cambio de estas caractersticas.
2. ndice de separacin (IS). Otro parmetro para evaluar el desempeo de los
algoritmos es el ndice de calidad de separacin propuesto por Amari[41]:

pij

i =1

j =1

max k pik

IP = (

p ji

j =1

i =1

max k pkj

1) + (

1)

(3.1)

Donde pij son los elementos de la matriz P = WA . W y A son las matrices de


pesos estimados y los coeficientes de mezclado, respectivamente. Este ndice es
cero cuando se logra una separacin perfecta. Cuando las fuentes son separadas, P
es la permutacin de una matriz identidad escalada. Por ejemplo:
36

1 0.5
Si tenemos la matriz de mezclado A =
y la matriz de pesos estimados
0.6 0.5
0.57 0.95
0.00 0.19
W =
entonces, la matriz de permutacin ser P =

0.06 0.06
0.02 0.00
Y el ndice de separacin (IS) es = 0.0912. Tomaremos, como valores que indique
una separacin, los que tengan un IS menor a 0.1.
Este ndice solo se puede utilizar cuando tenemos la matriz de mezclado A . En los
casos de mezclas reales no es posible utilizar, ya que esta matriz es desconocida.
3. Coeficiente de correlacin de Pearson. Utilizaremos este coeficiente para
comparar las formas de onda de las seales fuentes y las seales estimadas. Este
coeficiente varia entre -1 y -1. Cuando es 1 las formas de onda son idnticas; cuando
es cero, las formas de onda no se parecen en nada y cuando es -1, la formas de ondas
son iguales, pero invertidas. Un valor mayor de 0.85 nos indica que las seales
evaluadas son bastantes similares. Este ser el nico ndice utilizado para las
pruebas en mezclas convolutivas.

Adems de los ndices descritos, consideraremos el nmero de iteraciones utilizado por


cada uno de los algoritmos.
Un punto importante a considerar en el funcionamiento de los algoritmos es el
parmetro de convergencia, el cual detiene la operacin cuando se ha llegado a un
cambio mnimo en los pesos. En todas las pruebas utilizaremos 0.0001 como valor de
parada.

3.2

SEPARACION DE MEZCLAS SIMULTNEAS

En esta seccin realizaremos pruebas utilizando mezclas creadas de manera sinttica a


partir de fuentes acsticas.

En la Figura 3.2 mostramos ejemplos de seales que

usaremos en las pruebas, odas son seales de audio. Adems de las seales, colocamos
su distribucin y el valor de kurtosis. Las seales en las graficas a), b) corresponden a
dos sonidos de alarmas diferentes y sus distribuciones son supergausianas (kurtosis
positiva), c) es la seal de sonido del despegue de una nave espacial, es subgaussiana
con kurtosis negativa y d) es la msica de la serie de dibujos Looney Tunes, seal
supergaussianas con kurtosis positiva.
37

Figura 3.2. Seales utilizadas en las pruebas junto con sus densidades. Se muestran los valores de kurtosis de cada
seal. Las seales y las distribuciones van en el siguiente orden: a) con e), b) con f), c con g) y d) con h).

3.2 EVALUACION DEL ALGORITMO FASTICA

En esta seccin se realizaran pruebas para evaluar parmetros operativos del algoritmo
FASTICA. Los factores que se va a evaluar son la influencia del tipo de funcin de
aproximacin de Negentropa, el nmero de mezclas como entrada al algoritmo y la
influencia del ruido.

3.3.2.1 INFLUENCIA

DE

LA

FUNCION

DE

APROXIMACION

DE

LA

NEGENTROPIA

En esta prueba evaluamos el desempeo de FASTICA con respecto a la funcin


escogida para aproximar la Negentropa. Recordando la Tabla 2.2, podemos ver que
tenemos tres funciones a escoger. Para identificarlas mejor a G1 le llamaremos tanh;
a G2, gauss y a G3, kurt.

38

Tabla 3.1. Funciones para aproximar la Negentropa.

g'

tanh

log cosh u

tanh(u )

(1 tanh(u ))

gauss

exp(u 2 / 2)

u exp(u 2 / 2)

(1 u 2 ) exp(u 2 / 2)

kurt

u4

u3

u2

Para esta prueba se utilizaran dos seales de audio, en concreto las seales a) y b) dela
figura 3.2, constituidas por 50k muestras y que han sido muestreadas a 22kHz. Como
hemos mencionado antes, estas seales son supergaussianas.

Estas seales sern

mezcladas por una matriz de mezclado A para crear las mezclas. Estas mezclas son las
que utilizaremos como entrada a FASTICA.
La matriz de mezclado se crea a partir de la situacin descrita en la Figura 3.3 donde
podemos observar un esquema que describe la posicin de las fuentes y los sensores
(micrfonos). Para obtener los coeficientes de mezclado de la matriz A , consideramos
que la amplitud de cada seal generada por las fuentes disminuye inversamente
proporcional al cuadrado de la distancia. Se asume que no hay obstculos entre las
fuentes y los sensores, ni paredes cercanas. De esta forma, pueden despreciarse el
efecto de reflexiones y reverberaciones, por lo cual es posible considerar que el
mezclado es simultneo.

Figura 3.3. Esquema para dos fuentes. Todas las medidas estn en metros.

Bajo esta situacin, la matriz de mezclado A es igual a:

39

0.5
1
A2 =

0.308 0.444

Para generar las mezclas se realiza la siguiente operacin,

X = AS

(3.2)

x1
Donde X = , x1 y x2 son las seales obtenidas en los sensores (mezclas) y
x2
s
S = 1 , s1 y s2 son las fuentes de audio.
s2
Estas mezclas son presentadas a FASTICA como un slo bloque de 50k muestras por
cada seal.
En la Tabla 3.2 se presentan los resultados para cada tipo de funcin de aproximacin
de Negentropa.

Se puede observar que los valores de kurtosis de las mezclas

disminuyen con respecto a las fuentes. Los valores de kurtosis de las estimaciones son
iguales a las fuentes y el IS para cada funcin es muy similar y menor de 0.1, lo que
indica que se ha realizado la separacin. El valor IS de la funcin kurt es el mas bajo,
sin embargo es muy similar a los ofrecidos por las otras funciones. El nmero de
iteraciones utilizado para cada funcin es tambin, muy similar.

40

Tabla 3.2. Influencia de la funcin de Negentropa escogida. Cuando se indica el valor de la kurtosis, se sigue este
orden: S1, S2. Para el valor de kurtosis de las mezclas: X1 y X2. Para indicar el valor de kurtosis de las
estimaciones: estimacin 1 y estimacin 2. Se indica el valor del ndice de separacin (IS) para cada tipo de funcin
y el nmero de iteraciones utilizado.

FUNCION

Kurtosis

Kurtosis

Kurtosis

fuentes

Mezcla

Estimaciones
1.0082

tanh

3.0438

gauss

3.0448

2.323

1.0081

0.765

1.0082
3.0438
1.0082

kurt

3.0438

IS

# de
iteraciones

0.0361

10

0.0366

12

0.0346

10

En la Figura 3.4 se muestran las seales fuentes, las mezclas y las estimaciones por
FASTICA.

Podemos observar los resultados de FASTICA para cada funcin de

aproximacin. Las formas de ondas de las estimaciones son muy similares a las fuentes
originales, diferencindose en la escala. Las estimaciones son aproximadamente 60
veces menor que las fuentes originales y en el caso de la funcin kurt estn invertidas
con respecto a ellas.
En la Tabla 3.3 se muestran los valores de correlacin entra las seales fuentes y las
estimaciones, para cada tipo de funcin de Negentropa. Estos valores indica que las
formas de onda de las seales estimadas son casi idnticas a las formas de ondas de las
seales fuentes.
De todos estos resultados podemos concluir que la funcin utilizada para aproximar la
Negentropa no afecta en gran medida los resultados de FASTICA.

41

Figura 3.4. En las dos primeras filas se muestran las fuentes de audio y las respectivas mezclas. Las siguientes
graficas son las estimaciones por FASTICA. Como podemos observar el algoritmo las ha cambiado de lugar, sin
embargo son similares a las fuentes. Las estimaciones resultantes de utilizar la funcin kurt estn invertidas con
respecto a las fuentes.

Tabla 3.3.Correlacion entre las seales fuentes y las estimaciones.

Funcin

tanh

gauss

kurt

Seales a comparar

Correlacin entre cada


fuente y estimacin

S1 vs Estimacin 2

S2 vs Estimacin 1

0.9999

S1 vs Estimacin 2

S2 vs Estimacin 1

0.9999

S1 vs Estimacin 2

-1

S2 vs Estimacin 1

-0.9999

3.3.2.2 Separacin de ms de dos seales

En esta prueba analizaremos la influencia en el nmero de mezclas como entrada al


algoritmo FASTICA. Se van a utilizar dos, tres y cuatro seales. Todas son seales de
audio (seales supergaussianas) muestreadas a 22kHz y compuestas por 50k muestras.
Como funcin de Negentropa se utilizar la funcin tanh de la Tabla 3.1.
42

Para mezclar las seales, es necesario cambiar la matriz dependiendo del nmero de
seales. Esta matriz es creada de manera similar que en la Prueba #1, de esta manera
para obtener las mezclas cuando haya tres y cuatro seales fuentes utilizaremos los
esquemas mostrados en la Figura 3.5 y Figura 3.6, respectivamente.

Figura 3.5. Esquema para tres fuentes. Todas las medidas estn en metros.

Figura 3.6. Esquema para cuatro fuentes. Todas las medidas estn en metros.

La matriz A2 para dos seales es la utilizada en la primera prueba y las matrices para
tres y cuatro seales son las siguientes, respectivamente:

43

0.5
0.2
1

A3 = 0.307 0.444 0.307


0.125 0.2
0.25

0.5
0.2
0.1
1

0.41 0.694 0.41 0.184

A4 =
0.16 0.308 0.444 0.308

0.25
0.077 0.125 0.2

La matriz de mezclado A3 proviene del esquema de la Figura 3.5 y la matriz A4 del


esquema de la Figura 3.6. En la Tabla 3.4 se muestran los resultados de FASTICA,
donde se observa un aumento en el ndice de separacin con el aumento en el nmero de
seales, lo cual indica una disminucin en la calidad de la separacin. Sin embargo, los
valores de Kurtosis de las estimaciones son similares a los valores de las fuentes.
Adems de esto, el nmero de iteraciones utilizadas por FASTICA aumenta con el
aumento del nmero de seales. Esto es debido a que FASTICA estima uno a uno cada
componente.
Tabla 3.4. Influencia en el nmero de seales como entrada FASTICA. Cuando se indica el valor de la kurtosis, se
sigue este orden: S1, S2,... Para el valor de kurtosis de las mezclas: X1, X2,.. Para indicar el valor de kurtosis de las
estimaciones: estimacin 1, estimacin 2,... Se indica el valor del ndice de separacin (IS) y el nmero de
iteraciones utilizado.

Numero

Kurtosis

Kurtosis

Kurtosis

de seales

fuentes

Mezcla

Estimaciones

3.0448

2.323

1.0082

1.0081

0.765

3.0438

3.0448

2.2259

3.0448

1.0081

0.451

1.0081

0.2347

0.2232

0.2347

3.0448

2.2627

3.0449

1.0081

0.4844

0.2381

-0.1798

0.0916

1.0024

0.2347

0.1111

-0.1798

IS

# de
iteraciones

0.0361

10

0.3021

14

0.4891

23

En la Figura 3.7 se muestran las seales fuentes, las mezclas y las estimaciones de
FASTICA para cuatro seales fuentes. En la graficas de las estimaciones es posible ver
una separacin, a pesar que el IS es superior a 0.1.
44

En la Tabla 3.5 puede ser

comprobado esto. Aqu se muestran los coeficientes de correlacin entre cada una de
las estimaciones y las fuentes.

En todos los casos, los valores de correlacin se

aproximan a la unidad, indicando una forma de onda de las estimaciones muy similares
a las formas de ondas de las fuentes.
De estos resultados, podemos concluir que al aumentar la cantidad de seales como
entrada al algoritmo FASTICA, la calidad de la separacin desmejora.

Figura 3.7. a) Las cuatro seales fuentes.S1, S2 y S4 son seales supergaussianas y S3 es una seal subgaussiana. b)
Seales despus del mezclado. c) Resultados de FASTICA. Las tres primeras estimaciones estn invertidas con
respecto a las fuentes.

45

Tabla 3.5. Correlacin entre las seales fuentes y las estimaciones.

Numero de seales

Seales a comparar

Correlacin entre cada


fuente y estimacin

S1 vs Estimacin 2

S2 vs Estimacin 1

0.9999

S1 vs Estimacin 1

S2 vs Estimacin 2

S3 vs Estimacin 3

-0.999

S1 vs Estimacin 1

-1

S1 vs Estimacin 3

-0.9977

S3 vs Estimacin 4

-0.9993

S4 vs Estimacin 2

0.9969

3.3.2.3 INFLUENCIA DEL RUIDO

En esta seccin exploraremos la operacin de FASTICA cuando las mezclas estn


distorsionadas por alguna seal de ruido proveniente del entorno. En este caso
exploraremos dos tipos de ruido: Gaussiano y el uniforme. El ruido uniforme tiene una
distribucin de probabilidad subgaussiana.

Todas las seales estn muestreadas a

22kHz y compuestas de 50k muestras. Las dos seales de ruido utilizadas en esta
prueba son generadas utilizando un generador de ruido aleatorio.
Utilizaremos el esquema Figura 3.5 para colocar las seales fuentes espacialmente por
lo cual utilizamos la matriz de mezclado:

0.5
0.2
1

A3 = 0.307 0.444 0.307


0.125 0.2
0.25

La seal de ruido siempre ser S1.

Influencia del ruido gaussiano.

46

En este caso tenemos una seal de ruido gaussiano y dos seales de audio. La seal de
ruido tiene una amplitud que dobla a la amplitud de las seales de audio. En la Figura
3.8 podemos observar las seales fuentes, las mezclas y las seales de audio.

Figura 3.8. a) Fuentes: Ruido gaussiano y dos seales de audio. La seal de ruido tiene una media de cero, a
diferencias que las de audio, las cuales tienen un componente DC haciendo que su media no sea cero. b) Se muestran
las mezclas, en las cuales a penas se logra ver las seales de audio. c) Resultados de FASTICA. A pesar del ruido se
ha podido separar la mezcla en sus componentes originales, aunque con una amplitud diferente.

Se puede observar que FASTICA ha logrado separar las mezclas en sus componentes
originales con un IS menor a 0.1. Tambin se han recuperado los valores de kurtosis de
las seales de audio, no as el valor de la kurtosis de la seal gaussiana. Realmente
FASTICA no ha separado la seal gaussiana de las otras, sino que ha dejado esta seal
como un residuo de las otras seales. Como puede observarse en la Figura 3.8 la seal
gaussiana aparece como la estimacin 3, la ltima encontrada por el algoritmo. Debido
a que el generador de ruido gaussiano de Matlab no es perfecto, esta seal no es
exactamente gaussiana, por lo cual FASTICA todava, puede operar sobre ella. Si esta
seal fuera verdaderamente gaussiana, el preprocesado la hubiera descartado como
seal no gaussiana y FASTICA slo hubiera procesado las dos seales de audio. Esta
prueba se realiz varias veces para comprobar esto, y la seal de ruido gaussiano
siempre fue estimada como ltimo componente.
En la Tabla 3.7 se muestran los ndices de correlacin los cuales indican una similitud
en las formas de ondas de las fuentes y las estimaciones.

47

Tabla 3.6. ndices de evaluacin para la prueba de la influencia del ruido gaussiano. El IS indica una separacin de
las mezclas en sus componentes originales.

Seales

Kurtosis
fuente

Seales

Kurtosis
Mezcla

Seales

Kurtosis
estimaciones

S1

-0.0242

X1

0.0353

E1

1.0083

S2

3.044

X2

0.7162

E2

3.044

S3

1.008

X3

0.5097

E3

-0.0237

IS

Iteraciones

0.083

17

Tabla 3.7. Correlacin entre las fuentes y las estimaciones.

Correlacin entre cada

Seales a comparar

fuente y estimacin

S1 vs Estimacin 3

-1

S2 vs Estimacin 2

-0.9999

S3 vs Estimacin 1

Influencia del ruido uniforme.


En este caso tenemos una seal de ruido uniforme ms dos seales de audio. La seal de
ruido tiene una amplitud que dobla a la amplitud de las seales de audio.

Figura 3.9. a) Fuentes: Ruido uniforme y dos seales de audio. La seal de ruido tiene una media de cero, a
diferencias que las de audio, las cuales tienen un componente DC haciendo que su media no sea cero. b) Se muestran
las mezclas, en las cuales a penas se logra ver las seales de audio. c) Resultados de FASTICA. A pesar del ruido
se ha podido separar la mezcla en sus componentes originales, aunque con una amplitud diferente.

48

Tabla 3.8. ndices de evaluacin para la prueba de la influencia del ruido uniforme. El IS indica una separacin de
las mezclas en sus componentes originales.

Seales

Kurtosis
fuente

Seales

Kurtosis
Mezcla

Seales

Kurtosis
estimaciones

S1

-1.1953

X1

-1.0921

E1

-1.1953

S2

3.044

X2

-0.4294

E2

1.0088

S3

1.008

X3

-0.2337

E3

3.0441

IS

Iteraciones

0.0597

17

En la Figura 3.9 se muestran las seales fuentes, las mezclas y las seales de audio y en
la Tabla 3.9 los ndices de evaluacin. El IS es menor a 0.1 lo que indica una
separacin. Los valores de Kurtosis son iguales entre las estimaciones y las fuentes. En
este caso FASTICA coloca la seal de ruido uniforme en cualquier canal, a diferencia
que el ruido gaussiano. En la Figura 3.9 se muestra el resultado cuando aparece en el
primer canal, pero en otras simulaciones apareci en los otros. En la Tabla 3.9 se
muestran los valores de correlacin, que indican una forma de onda de las estimaciones
similar a la forma de onda de las fuentes.

49

Tabla 3.9. Correlacin entre las fuentes y las estimaciones.

Correlacin entre cada

Seales a comparar

fuente y estimacin

S1 vs Estimacin 1

S2 vs Estimacin 3

-0.9999

S3 vs Estimacin 2

-1

3.3 EVALUACION DEL ALGORITMO INFOMAX

En esta seccin se realizaran pruebas para evaluar la operacin del algoritmo


INFOMAX. En las pruebas observaremos la influencia de la tasa de aprendizaje, el
tipo de funcin de activacin y el nmero de mezclas como entrada al algoritmo.
Se utilizaran como matrices de mezclado las mismas utilizadas en las pruebas de
FASTICA.

3.3.3.1 INFLUENCIA DE LA TASA DE APRENDIZAJE

En esta prueba analizaremos la influencia de diferentes tasas de aprendizajes en el


funcionamiento del algoritmo INFOMAX. Todas las tasas se mantienen fijas a medida
que se realizan los clculos por el algoritmo. Se utilizan tasas desde 0.01, ya que para
valores mayores la operacin de INFOMAX se vuelve inestable.

Utilizamos dos

seales de audio supergaussianas muestreadas a 22kHz y compuestas por 50k muestras.


Como funcin de activacin se utiliza la derivada de la funcin de distribucin llamada
Tangente hiperblico de la Tabla 2.3:

(ui ) = 2 tanh(ui )
La cual asume que las distribucin de las seales fuentes a estimar son supergaussianas.
Para el mezclado se utiliza la matriz:
0.5
1
A2 =

0.308 0.444

50

En la Figura 3.10 se muestran las seales fuentes, las mezclas y los resultados para cada
tasa.

En cada resultado se puede observar una separacin de las mezclas en los

componentes originales, con diferencia en la escala. En la Tabla 3.10 se muestran los


valores de kurtosis para cada estimacin, los ndices de separacin y el nmero de
iteraciones utilizados por cada tasa.

Figura 3.10. En las dos primeras filas se muestran las fuentes de audio y las respectivas mezclas. Las siguientes
graficas son las estimaciones de INFOMAX para cada tasa de aprendizaje. En todos los caso se puede observar una
separacin de las mezclas en sus componentes originales.

A medida que se utiliza una tasa ms pequea los IS aumentan, lo que supone que
empeora la estimacin de las fuentes. Tambin, hay un aumento de la cantidad de
iteraciones para converger al disminuir la tasa de aprendizaje. Una explicacin a esto,
es que al tener una tasa ms pequea, la bsqueda de los mximos locales de la entropa
en la mezcla demora ms. La tasa es como el tamao de los pasos sobre una superficie,
si los haces ms pequeos demoras ms para llegar a un punto especfico. Esto tambin
trae consigo, que la bsqueda caiga en puntos crticos espurios haciendo que la
direccin hacia los verdaderos puntos sea ms lenta. A pesar de esto, como lo indica la
Tabla 3.11 los ndices de correlacin muestran una similitud en las formas de onda de
las estimaciones y las fuentes.

51

Tabla 3.10. ndices de evaluacin para los resultados de INFOMAX con respecto al cambio de la tasa de
aprendizaje. A medida que la tasa disminuye, los valores IS aumentan al igual que las iteraciones necesarias para
converger. Los valores de kurtosis son similares entre las estimaciones y las fuentes.

Tasa

Kurtosis

Kurtosis

Kurtosis

fuentes

Mezcla

Estimaciones
3.0449

0.01

1.0081

0.001

3.0448

2.323

1.0081

0.765

1.008
3.0449
1.0079

0.0001

3.0449

# de

IS

iteraciones

0.0059

11

0.006

39

0.0088

210

Tabla 3.11. Valores de correlacin. Todos los valores son iguales a la unidad, indicando un parecido exacto entre la
forma de onda de las fuentes y las estimaciones.

Tasa

0.01

0.001

0.0001

Seales a comparar

Correlacin entre cada


fuente y estimacin

S1 vs Estimacin 1

-1

S2 vs Estimacin 2

-1

S1 vs Estimacin 2

-1

S2 vs Estimacin 1

S1 vs Estimacin 2

-1

S2 vs Estimacin 1

52

3.3.3.2 Separacin de ms de dos seales

En esta prueba analizaremos la influencia en el nmero de mezclas como entrada al


algoritmo INFOMAX. Se van a utilizar dos, tres y cuatro seales. Todas son seales de
audio (seales supergaussianas) muestreadas a 22kHz y compuestas por 50k muestras.
Se utilizan los mismos esquemas utilizados en las pruebas de FASTICA para la
posicin de las fuentes y las mismas matrices de mezclado.

Como funcin de

activacin se utilizar -2tanh. Para mezclar las seales, es necesario cambiar la matriz
dependiendo del nmero de seales. Se utilizan las mismas matrices de mezclado de la
seccin 3.3.2.2. En la Figura 3.11 se muestran las seales fuentes, las mezclas y los
resultados para el caso de cuatro seales de audio. Se puede observar una separacin de
las mezclas en sus componentes originales a pesar que el valor de IS es mayor a 0.1. En
la Tabla 3.12 se muestran los ndices de evaluacin para todos los casos. Cuando
aumenta el nmero de seales el IS aumenta, disminuyendo la calidad de la separacin.
Es importante notar, que cuando se aumenta de tres a cuatro seales, la cantidad de
iteraciones requeridas se mantiene igual. Es prueba fue repetida en varias ocasiones
dando siempre los mismos valores.

Figura 3.11. a) Las cuatro seales fuentes. b) Seales despus del mezclado. c) Resultados de INFOMAX.

53

Tabla 3.12. Influencia en el nmero de seales como entrada a INFOMAX. Cuando se indica el valor de la kurtosis,
se sigue este orden: S1, S2, Para el valor de kurtosis de las mezclas: X1, X2,.. Para indicar el valor de kurtosis de
las estimaciones: estimacin 1, estimacin 2,... Se indica el valor del ndice de separacin (IS) y el nmero de
iteraciones utilizado.

Numero

Kurtosis

Kurtosis

Kurtosis

de seales

fuentes

Mezcla

Estimaciones

3.0448

2.323

3.0449

1.0081

0.765

1.81

3.0448

2.2259

3.0449

1.0081

0.451

1.0084

0.2361

0.2232

0.2361

3.0448

2.2114

0.2362

1.0081

0.3966

1.0086

0.2361

0.194

2.9384

2.936

0.4047

3.0449

# de

IS

iteraciones

0.0059

11

0.0664

58

0.1376

58

En la Tabla 3.13 se muestras los ndices de correlacin. Para cuatro seales los ndices
tienen una disminucin del 0.09%, valor que indica desmejoramiento en la separacin.
Tabla 3.13. ndices de correlacin para los resultados de INFOMAX. Se compara cada fuente con la estimacin
respectiva.

Numero de seales

Seales a comparar

Correlacin entre cada


fuente y estimacin

S1 vs Estimacin 1

-1

S2 vs Estimacin 2

-1

S1 vs Estimacin 1

S2 vs Estimacin 2

-1

S3 vs Estimacin 3

-0.9998

S1 vs Estimacin 4

-1

S2 vs Estimacin 2

S3 vs Estimacin 1

-0.9999

S4 vs Estimacin 3

0.9999

54

3.3.3.3 FUNCION DE ACTIVACION

Ahora analizaremos el papel de la funcin de activacin en la operacin del algoritmo


INFOMAX. Como hemos mencionado en el estado del arte, la funcin de activacin
es derivada una funcin de densidad de probabilidad. De esta manera, el algoritmo
INFOMAX slo puede operar sobre seales que tengan la misma funcin de densidad
de probabilidad. Para el caso de seales acsticas, las cuales son supergaussianas, el
algoritmo necesita una funcin de activacin con caractersticas estadsticas
supergaussiana. En la Tabla 2.3 de la seccin 2.2.2 mostramos varias funciones de
probabilidad

supergaussianas.

sus

correspondientes

funciones

de

activacin

para

seales

En esta prueba utilizaremos tres funciones de activacin y por

simplicidad las llamaremos de la siguiente manera: Sigmoidal, Tanh y Sign. La funcin


de activacin Sign proviene de la funcin de distribucin laplaciana. Todas pueden
operar con seales supergaussianas. La diferencia entre ellas las podemos observar en
la Figura 3.12.
Para la siguiente prueba vamos a utilizar tres seales de audio muestreadas a 22kHz y
constituidas por 50k muestras. Se utilizar una tasa de aprendizaje igual a 0.01 y pesos
iniciales iguales para cada funcin. Para dar una visin de la funcin de densidad de
probabilidad de las fuentes, mostramos sus distribuciones en la Figura 3.13.

Figura 3.12. Funciones de densidad de probabilidad de las cuales se derivan las funciones de activacin utilizadas
por el algoritmo INFOMAX. Podemos observar que difieren en su forma. Sign es tiene un pico mas agudo que las
dems.

55

Figura 3.13. a) Seales fuentes para la prueba. b) Densidades de probabilidad de estas fuentes. Las primeras dos
tienen picos muy agudos y la ltima tiende a ser ms plana.

En la Tabla 3.14 son mostrados los resultados de INFOMAX. En todos los casos la
kurtosis de las estimaciones es similar a la kurtosis de las fuentes. El menor valor de IS
fue para la funcin Sign, al igual que el nmero de iteraciones utilizado. Observando la
forma de la funcin de probabilidad en la Figura 3.12 para Sign, esta parece acomodarse
ms a la forma de las densidades de las fuentes originales. Sin embargo, aunque las
funciones de probabilidad para Sigmoidal y Tanh no se parezcan tanto, aun as se
obtienen una separacin, aunque con una mayor cantidad de iteraciones. En la Tabla
3.15 se muestran los valores de correlacin, los cuales indican una similitud en la forma
de onda entre las estimaciones y las fuentes.

56

Tabla 3.14. Influencia en el nmero de seales como entrada a INFOMAX. Cuando se indica el valor de la kurtosis,
se sigue este orden: S1, S2, Para el valor de kurtosis de las mezclas: X1, X2,.. Para indicar el valor de kurtosis de
las estimaciones: estimacin 1, estimacin 2,... Se indica el valor del ndice de separacin (IS) y el nmero de
iteraciones utilizado.

Kurtosis

Kurtosis

Kurtosis de

de la

de la

las

fuente

mezcla

estimaciones

Funcin

IS

Iteraciones

0.0624

59

0.05

31

0.0464

12

3.0449
Sigmoidal

1.0084
0.236

Tanh

3.0448

2.2259

3.0448

1.0081

0.451

1.0083

0.2347

0.2232

0.2358
3.0448

Sign

0.2354
1.0081

Tabla 3.15. ndices de correlacin entra las estimaciones y las fuentes.

Funcin

Sigmoidal

Tanh

Sign

Seales

Correlacin

S1 vs Estimacin 1

S2 vs Estimacin 2

-1

S3 vs Estimacin 3

-0.9999

S1 vs Estimacin 1

S2 vs Estimacin 2

-1

S3 vs Estimacin 3

-0.9999

S1 vs Estimacin 1

S2 vs Estimacin 2

-1

S3 vs Estimacin 3

57

3.3

MEZCLAS CONVOLUTIVAS

3.4.1 EVALUACION DEL ALGORITMO TORKKOLA

Se realizar una prueba utilizando el algoritmo propuesto por Torkkola para separar
mezclas convolutivas. Como se ha mencionado en la metodologa se ha realizado una
implementacin en Matlab de este algoritmo para separar dos mezclas. Se utilizan dos
seales acsticas de audio: la primera seal es la palabra Aleluya cantada por un coro,
y la segunda es la famosa frase: Goodmorning Vietnam. Estas seales estn
compuestas por 30k muestras y tiene una frecuencia de muestreo de 12kHz.
Para realizar la mezcla se utilizan los siguientes filtros, siguiendo el modelo de la
ecuacin (2.20):
X 1 ( z ) = A11 ( z ) S1 ( z ) + A12 ( z ) S 2 ( z )
X 2 ( z ) = A21 ( z ) S1 ( z ) + A22 ( z ) S 2 ( z )

Donde los valores de los coeficientes son los siguientes:


A11 ( z ) = 1 0.4 z 25 + 0.2 z 45
A12 ( z ) = 0.4 z 20 0.2 z 28 + 0.1z 36
A21 ( z ) = 0.5 z 10 0.3 z 22 + 0.1z 34
A22 ( z ) = 1 0.3 z 20 + 0.2 z 38

Estos filtros son de mnima fase, por lo cual sus inversas son estables y pueden ser
estimadas por el algoritmo Torkkola.
Recordando de la seccin 3.4.1 las respuestas ideales de los filtros son las siguientes:
W11 ( z ) = 1, W12 ( z ) = A12 ( z ) A22 ( z )1
W22 ( z ) = 1, W11 ( z ) = A21 ( z ) A11 ( z ) 1

En la Figura 3.14 mostramos esta respuesta para una longitud del filtro de 50.

58

Figura 3.14. Respuesta ideal de la estructura propuesta por Torkkola. En este caso mostramos los coeficientes para
una longitud de filtro de 50.

Las fuentes, las mezclas y las estimaciones de las fuentes son mostradas en la Figura
3.15. Como se observa, la estimacin 1 se aproxima a la fuente 1 y la estimacin 2 a la
fuente 2, respectivamente. En este caso tienen una amplitud parecida y de mismo signo.
Tambin, se puede observar una disminucin notable de la interferencia entre las
seales.

Figura 3.15. Arriba: Las fuentes originales. Centro: Las mezclas. Abajo: Seales como resultado del algoritmo
Torkkola.

En la Figura 3.16 se muestran los pesos obtenidos desde el algoritmo comparando con
la respuesta ideal, en la figura 3.14 observamos que los primeros coeficientes de mayor
magnitud se corresponde con la respuesta dada por el filtro ideal. Como se explico en la
seccin 3.4.1, el algoritmo de Torkkola solo puede estimar una versin filtrada de las
fuentes. La estimacin de las fuentes tiene la forma filtrada desde la ecuacin (2.25):
A11S1 = U1
A22 S 2 = U 2

Por esta razn, siempre vamos a obtener una versin de la fuente con sus ecos y
reverberaciones.

Para eliminar esto, se pueden utilizar otros mtodos como


59

Ecualizacin ciega (Blind ecualization). Es importante anotar, que las fuentes tienen
una cantidad de ruido, que reduce la eficacia del algoritmo. A pesar de esto, en las Tabla
3.16 y Tabla 3.17 vemos que la seal estimada esta muy correlacionada con las fuentes
originales.

Figura 3.16. Respuesta del algoritmo Torkkola, despus de realizar la simulacin. Se indican los coeficientes
que se corresponden con la respuesta ideal en la figura 3.14. Se puede observar que los primeros coeficientes
marcados tienen la mayor magnitud para cada respuesta.

En las tablas se resaltan los valores de correlacin entre seales de diferentes salidas del
algoritmo. Se observa como la correlacin tiende a disminuir al pasar el algoritmo,
claro indicativo de reduccin de redundancia entre las salidas.
Tabla 3.16. Comparacin entre las fuentes y las mezclas utilizando correlacin cruzada. Se compara cada
mezcla con cada fuente.

Tipo de comparacin

ndice de correlacin

Mezcla 1-Fuente 1

0.8010

Mezcla 2-Fuente 2

0.8551

Mezcla 1-Fuente 2

0.3545

Mezcla 2-Fuente 1

0.4309

Tabla 3.17. Comparacin entre las fuentes y las estimaciones realizadas por el algoritmo. Se compara cada
estimacin con cada fuente.

Tipo de comparacin

ndice de correlacin

Estimacin 1-Fuente 1

0.8698

Estimacin 2-Fuente 2

0.9184

Estimacin 1-Fuente 2

0.0573

Estimacin 2-Fuente 1

0.0498

60

3.4

CONCLUSIONES

En este captulo hemos realizado un estudio e implementacin de los algoritmos


FASTICA e INFOMAX para la separacin de mezclas.

Se han evaluado estos

algoritmos utilizando la Kurtosis, el ndice de separacin e ndice de correlacin.


Adems de esto se han tenido en cuenta la cantidad de iteraciones utilizadas para llegar
a un valor de convergencia. El estudio se dividi en dos partes: mezclas simultneas y
convolutivas.

Para el caso de mezclado simultneo fueron utilizados el paquete

FASTICA y una implementacin de INFOMAX realizada en Matlab.


El estudio consisti en varias pruebas que evaluaban el rendimiento de los algoritmos
bajo ciertas condiciones. Para el caso de FASTICA se estudio la influencia de los tipos
de funciones de para aproximar la Negentropa, el nmero de seales y la influencia de
dos tipos de ruido: gaussiano e uniforme.

Para INFOMAX se analiz su

comportamiento frente a diferentes tasas de aprendizajes, el nmero de seales y la


funcin de activacin.
Tanto en FASTICA como en INFOMAX disminuyen los ndices de calidad en la
separacin cuando se incrementa el nmero de seales, sin embargo FASTICA presenta
un ndice de separacin mayor en comparacin a INFOMAX.
Con respecto a la funcin de aproximacin de la Negentropa, FASTICA no present
cambios significativos en su rendimiento, al igual que al someterse a los diferentes tipos
de ruido.
Con INFOMAX se pudo comprobar la importancia del tipo de funcin de activacin en
su operacin. Esto situacin que en principio supone una desventaja, ya que solo puede
trabajar con un tipo de seales a la vez, lo hace perfecto para adaptarlo a la extraccin
de seales con cierto tipo de caractersticas. Este tipo de discriminacin no lo presenta
FASTICA.
Adems de trabajar con mezclas simultneas, se utiliz una implementacin de
INFOMAX extendido para trabajar con mezclas convolutivas: El algoritmo Torkkola.
En este caso se evalu su operacin para separar dos mezclas de audio previamente
creadas con unos conjuntos de filtros FIR. La comparacin de las seales estimadas por
el algoritmo frente a las fuentes originales dio muy buenos valores de correlacin.
Cuando se compar la respuesta ideal de los pesos frente a la respuesta estimada, se

61

pudo constatar que los coeficientes del filtro ideal aparecen con una magnitud
importante en los pesos estimados.
Con respecto a la convergencia, en el caso de FASTICA lo hace dos veces ms rpido
que INFOMAX y trabaja de forma ms general, pues puede tratar con diferentes tipos
de seales. No es necesario asumir un tipo de densidad de probabilidad, sin embargo
FASTICA no tiene una versin para trabajar con mezclas convolutivas. En el caso de
INFOMAX, es muy dependiente del tipo de fuentes que se desean estimar, pero
permite trabajar con mezclado convolutivo. Adems de esto, debido a su estructura
puede adaptarse a los cambios de varianza de manera automtica, lo que lo hace
altamente adaptativo para entornos no estacionarios.

62

4. CAPITULO.

APLICACIONES

DE

ICA

EN

ENTORNOS REALES
4.1

SEPARACION DE SEALES DE AUDIO

Las seales utilizadas en este experimento se obtuvieron de una basa de datos creada
por Te Won-Lee disponibles en la fecha de redaccin del presente documento en
siguiente direccin: http://cnl.salk.edu/~tewon/Blind/blind_audio.html. Esta base de
datos fue generada en una habitacin de dimensiones 3m x 4m, colocando dos emisores
(personas o bocinas) y dos micrfonos como se muestra en la Figura 4.1.
En este documento se describen los resultados obtenidos de las pruebas en dos registros
de seales que consisten en:
1) Una persona contando los nmeros y msica de fondo.
2) Una persona contando los nmeros en ingles y una persona contando los
numero en espaol.

Figura 4.1. Dimensiones del cuarto y distancias entre las fuentes y los micrfonos.

Las seales estn compuestas por 100k muestras con una frecuencia de muestreo de
16kHz, lo que corresponde a 6.25 segundos de grabacin. En la base de datos no se
especifica la altura del cuarto ni la posicin de cada fuente o micrfono con respecto a
las paredes. Para el experimento asumimos una altura de 3 metros. Para cubrir las
primeras reflexiones, las cuales son con el techo y el piso, decidimos utilizar una

63

longitud del filtro de 256. Con este valor podemos cubrir reflexiones hasta de 5.4
metros. La velocidad del sonido para estos clculos fue de 340 m/seg.
Para calcular los retardos en muestras utilizamos la siguiente ecuacin:

M=

d
f
v

(3.3)

En donde d es la distancia, v es la velocidad del sonido y f es la frecuencia de


muestreo.
Como datos iniciales del algoritmo utilizamos la funcin de activacin sigmoidal y una
tasa de aprendizaje de 0.01. Se utiliz 0.0001 como valor de parada.
En la Figura 4.2 se aprecian las seales grabadas y los resultados para la primera
prueba. El algoritmo necesito 43 pasadas por los datos para converger. Cuando se
escuchan las grabaciones de X1 y X2 se pueden identificar a la persona contando los
nmeros pero la msica de fondo llega a confundir esta cuenta. En las dos grabaciones
se escucha el mismo efecto. Incluso es difcil diferenciar las dos. El coeficiente de
correlacin entre las dos mezclas es de 0.828 lo que indica bastante parecido entre las
dos formas de onda. Cuando se escuchan las Estimaciones 1 y 2, es muy notable la
operacin de separacin del algoritmo. En la estimacin 1 se escucha la cuenta y de
fondo la msica con un volumen muy bajo. En la estimacin 2 se escucha la msica y
no se puede identificar la voz de la persona. El valor de correlacin entre la estimacin
1 y 2 es de 0.047, lo que indica que no hay ningn parecido en las formas de onda.

64

Figura 4.2. Arriba: Las dos grabaciones tomadas en el cuarto. No se puede identificar las seales caractersticas de
la voz. Abajo: Estimaciones realizadas por el algoritmo Torkkola. Se pueden apreciar las seales de voz (estimacin
1) y de msica (estimacin 2).

Figura 4.3. Pesos obtenidos despus de pasar las seales por el algoritmo.

En la Figura 4.3 se muestran los pesos obtenidos por el algoritmo Torkkola. Los
coeficientes con mayor amplitud son los utilizados por el filtro para eliminar la seal

65

que viene de la fuente ms alejada. Estos valores los observamos en el coeficiente 2 de


W12 y el coeficiente 3 de W21.
Los coeficientes de cada peso nos pueden dar informacin espacial entre las fuentes, los
micrfonos y las paredes. Para verificar esto realizaremos el siguiente anlisis.
Si utilizamos la ecuacin (3.3) podemos calcular los retardos en muestras desde la
fuente X1 hasta el micrfono S2. Como la distancia entre S1 a X2 es igual a 0.72m, la
velocidad del sonido 340m/seg y la frecuencia de muestreo es de 16kHz esto equivale a
33 muestras. El primer coeficiente de cada peso indica la posicin del micrfono mas
una muestra. Por lo tanto hay que restar el retardo mas una muestra que demora la seal
directa en llegar entre S1 y X1 y restarlo al retarde entre S1 y X2. Este retardo es igual
a 28+1 muestras. La diferencia entre muestras es igual 4.
Si comparamos este valor con los coeficientes obtenidos de W12 y W21 son muy
aproximados. Cada muestra es equivalente a 0.021m. El error entre el valor calculado
es de 0.042m para W12 y de 0.021m para W21. Esto puede deberse que las posiciones
de cada micrfono y fuentes no corresponden exactamente a la posicin indicada en la
Figura 4.1, sin embargo la respuesta de los pesos ofrece una buena aproximacin.
Para la segunda prueba utilizamos los mismos datos iniciales que en la primera prueba.
El algoritmo converge en 45 iteraciones. En la Figura 4.4 se muestran las grabaciones
de los micrfonos y las estimaciones. En X1 y X2 se graban dos personas contando los
nmeros simultneamente, con la diferencia que uno los cuentas en ingles y el otro en
espaol.

66

Figura 4.4. Arriba: Las dos grabaciones tomadas en el cuarto. Abajo: Estimaciones arrojadas por el algoritmo.

En las dos grabaciones se escucha claramente la interferencia que una de las voces
produce en la otra. El coeficiente de correlacin entre las formas de onda de las
grabaciones es de 0.773 lo cual indica cierto parecido entre ambas. En las graficas c y d
de la Figura 4.4 se muestran las estimaciones. En la estimacin 1 se escucha claramente
la cuenta en ingles, con muy poca interferencia de la cuenta en espaol. La misma
situacin ocurre en la estimacin 2. El coeficiente de correlacin de ambas estimaciones
es de 0.0448 lo que indica ningn parecido entre sus formas de onda.
En la Figura 4.5 se muestran los pesos obtenidos por el algoritmo. En este caso los
coeficientes de mayor valor estn en el 3 para W12 y en 5 para W21. Utilizando los
valores obtenidos en la prueba anterior podemos observar que tenemos un error para los
dos casos de 0.021m. Con estas seales obtenemos unos valores ms aproximados al
valor calculado que en la prueba anterior.
Adems de los coeficientes con mayor magnitud observamos un valor importante de
amplitud en el coeficiente 9. Adems de esto, el coeficiente tiene un valor opuestos a
los coeficientes analizados anteriormente. En distancia es equivalente a 0.2 m. Esto
valor nos permite establecer que es un rebote de la pared tras los micrfonos y que esta
a aproximadamente a 0.1m. De esta manera se llega a la conclusin que los micrfonos
estaban colocado a 0.1m de la pared, lo que concuerda con la forma de la respuesta de
cada peso, la cual parece atenuarse exponencialmente.
67

Figura 4.5. Pesos obtenidos despus de pasar las seales por el algoritmo.

4.2

SEPARACION

DE

SEALES

ULTRASONICAS

EN

UN

EXPERIMENTO DE SIMULACION ACUSTICA GENERADAS POR


DESCARGAS PARCIALES
En el grupo de investigacin de optoelectrnica y tecnologa laser (GOTL) se est
realizando un proyecto de investigacin sobre la deteccin e identificacin de descargas
parciales en los transformadores[42].
En el marco de este proyecto se ha creado un entorno que emula la cuba de un
transformador y puntos de generacin de descargas parciales. Estas descargas parciales
simuladas generan ondas acsticas ultrasnicas, que se transmiten por un medio lquido
y que son captadas por sensores piezoelctricos colocados en las paredes del tanque.
Estas seales son despus procesadas y analizadas con los objetivos deteccin y
localizacin de las descargas parciales, las cuales son un indicativo de degradacin de
los componentes y de los aislantes en el transformador.

68

4.2.1 DESCRIPCION DEL BANCO DE ENSAYOS

En la Figura 4.6 puede observarse un esquema completo del sistema de generacin y


adquisicin de seales acsticas de simulacin de descargas parciales. En experimentos
previos sobre este sistema se verific que la forma de onda de las seales adquiridas por
los sensores piezoelctricos son similares a las seales acsticas procedentes de las
descargas parciales reales[43].

Figura 4.6. Esquema de montaje para generar, adquirir y procesar seales acsticas a partir de descargas
parciales simuladas.

Los experimentos se realizaron en un tanque lleno de agua de dimensin: 70cm x 40cm


x 50cm y con paredes de Polimetilmetacrilato (PMMA), de 1.4cm de espesor. Las
fuentes acsticas s1 y s2 son dos transductores ultrasnicos idnticos (Brel & Kjar),
los cuales estn conectados a un generador de pulsos sinsoidales. Los pulsos duran dos
ciclos. Estos transductores tienen un mximo en su respuesta a 120kHz. Los sensores x1
y x2 son dos sensores piezoelctricos (Physical Acoustic Corporation, model: R15iAST) que estn conectados a un sistema multicanal de acondicionamiento y adquisicin
PXI de NATIONAL INSTRUMENTS con una frecuencia de muestreo de 10 MSps.
Estos sensores no tienen una respuesta plana, son resonantes a 150kHz. Esto los hace
muy sensibles a esta frecuencia, funcionando como filtro para las dems frecuencias. En
la Figura 4.7 se muestran las posiciones de las fuentes y los sensores en el tanque. En la
Figura 4.8 se muestran imgenes del montaje real.

69

Figura 4.7. Vista de planta del tanque. Se indican las posiciones de las fuentes y los sensores. Tanto las fuentes como
los sensores estn a una altura de 0.2 metros. Todas las medidas estn en metros.

Figura 4.8. Imgenes del montaje de experimento para obtener las seales.

4.2.2 ADQUISICION DE LAS SEALES DE REFERENCIA.

Con el objetivo de comparar resultados se obtuvieron patrones de referencia. En el


experimento se generaron descargas con frecuencias de 100kHz y 150kHz. A pesar que
los sensores son muy sensibles a 150 kHz, fue posible obtener una seal del patrn de
100khz. Para obtener patrones sin perturbaciones, se coloc cada fuente de emisin
acstica a aproximadamente dos centmetros del sensor y se procedi a captar la seal.
Esta operacin se realiza, con una fuente y un sensor activado cada vez para evitar
interferencias. El tiempo utilizado para muestrear la seal es suficientemente corto para
evitar rebotes. Los patrones adquiridos se muestran en la Figura 4.9.

70

Figura 4.9. En las graficas a y b. se muestran los patrones de 100kHz y 150kHz, respectivamente. . El patrn de
100kHz es 5.5dB menor que el patrn de 150kHz debido a la sensibilidad de los sensores a 150kHz. En las graficas c
y d se muestra los espectros para cada patrn. A pesar que se emite a 100kHz, en el patrn de 100kHz los mximos
de amplitud estn en el rango de 105 kHz a 122 kHz. En el caso del patrn de 150kHz tambin se observa amplitud
de la seal desde los 105 kHz, a pesar que solo se est emitiendo a 150 kHz. Este es causado por la respuesta de los
transductores, que son resonantes a 120kH.

4.2.3 RESULTADOS

En el experimento se utiliz el algoritmo Torkkola debido a que el experimento en el


tanque enfrenta mezclado convolutivo. Para calcular la longitud del filtro se calcul la
diferencia de fase de llegada de la onda entre la S1 y X1, la cual result en 33us.
Utilizando la ecuacin (3.3), una velocidad de 1500 m/s de la onda en el agua y una
frecuencia de muestreo de 10MHz, este valor corresponde a 325 muestras. Adems de
esta diferencia tomamos en cuenta las reflexiones provenientes del fondo y de la parte
superior del tanque.

Con estos clculos nos da un tiempo de 150us lo cual es

equivalente a 1500 muestras. Durante este tiempo es donde se dan las interferencias
mas importantes entre las seales provenientes de las fuentes acsticas, por tal razn,
utilizamos una longitud de filtro de 1500 para eliminar esta distorsin. Como funcin
de activacin utilizamos la Sigmoidal, con una tasa de aprendizaje de 0.01.

71

En la Figura 4.10 mostramos las seales captadas por los sensores y las estimaciones
realizadas por el algoritmo. La seal de la grafica a), la cual esta mas cerca de la fuente
S1 de 100kHz, contiene al inicio una frecuencia, pero que a 230us, aumenta esta
frecuencia.

Para analizar esto, se realiz una descomposicin espectral la cual se

muestra en la Figura 4.11.

En este espectro podemos observar que X1 contiene

importantes mximos alrededor de 100kHz y en 150kHZ, lo cual explica los cambios de


frecuencia en la seal. Volviendo a la figura 4.10, Si medimos que la diferencia de
tiempo entre la llegada de la seal de 100kHz y la de 150kHz es de 30us. Previamente
se haba calculado en 33us, muy cercano a este valor. En la grafica (b) se muestra la
seal captada en el sensor X2, el cual est ms cerca de la fuente de 150 kHz S2.
Observando su espectro en la Figura 4.11, el mximo de amplitud se da a 155kHz,
dejando muy por debajo amplitudes cercanas a 100kHz. Esto es debido a la respuesta
sensible de los sensores a 150kHz. A frecuencias debajo a este valor ocurre una
atenuacin (A 100kHz es de 5 dB). Sin embargo, es posible observar algn cambio
debido a la presencia de la seal de 100kHz despus de los 250us.
En la Figura 4.11 tambin comparamos a X1 y X2 con los patrones de 100kHZ y
150kHz. El espectro de la seal X1 al compararse con el patrn de 100kHz solo tienen
en comn la zona cercana a los 100kHz, pero diferencindose hacia los 150kHz, donde
el patrn de 100kHz ya no tiene energa. La seal X2 tiene un mximo de frecuencia a
aproximadamente los 150 kHz. En la zona de cercana a los 100kHz hay picos de
amplitud, pero a 5dB y 6dB menos que en la zona de 150kHz.
La diferencia entre los patrones y las mezclas se pueden verificar en los valores de
correlacin de la Tabla 4.1. En esta tabla comparamos los patrones con las mezclas. El
valor ms alto se da cuando comparamos el Patrn de 150kHz y la seal X2. El
siguiente mayor valor es entre este mismo patrn y la seal X1. De esta manera, la
seal emitida por la fuente de 100kHz, parece perder amplitud, debido a su paso por los
sensores.

72

Figura 4.10. Las graficas a y b muestran las seales captadas por los sensores X1 y X2, respectivamente. En X1 se
observa como la seal emitida por la fuente de 150kHZ interfiere en esta a aproximadamente 250us. En X2, la
interferencia de la seal de la fuente de 100kHz apenas es observable despus de los 250us. En las graficas c y d se
muestran las seales estimadas por el algoritmo Torkkola. La estimacin 1 contiene una seal de frecuencia menor
que en la estimacin 2.

En las graficas (c) y (d) de la Figura 4.10 se muestran las estimaciones realizadas por el
algoritmo Torkkola.

La estimacin 1 parece ser de una menor frecuencia que la

estimacin 2. Si observamos su espectro en la Figura 4.12, podemos observar una


disminucin de 10dB entre 100kHZ y 150kHz. Este cambio no ocurre en la estimacin
2, en la cual el, hay un mximo de amplitud a 150kHz y 14dB de diferencia con
respecto a 100kHZ. Si comparamos los espectros de los patrones y las estimaciones en
la Figura 4.12 se observa una mayor similitud entre el patrn de 100kHZ y la
estimacin 1 que con la estimacin 2. En el caso del patrn de 150 kHz, este es ms
similar a la estimacin 2, que a la estimacin 1. Volviendo a la figura 4.10, podemos
observar que la forma de onda de la estimacin 1 es ms parecida al patrn de 100kHz
que al patrn de 150kHZ. En el caso de la estimacin 2, esta es ms parecida al patrn
de 150kHz. Estas observaciones se pueden constatar en la Tabla 4.2, donde mostramos
los coeficientes de correlacin entre los patrones y las estimaciones. Estos resultados
nos llevan a concluir que el algoritmo realiza una separacin entre emisiones de las
fuentes acsticas de 100kHZ y 150kHz, a pesar que la amplitud de la seal emitida por

73

la fuente de 100kHZ hay sido atenuada por los sensores. Este conclusin es respaldada
por los coeficientes de correlacin de la en la tabla 4.3.

Figura 4.11. Espectro de los patrones y las mezclas. La Mezcla 1 contiene dos maximos a 107kHz y a 155 kHz, que
se diferencian por 2dB. En la Mezcla 2, esta diferencia es de 10dB.

El coeficiente de correlacin entre el patrn de 100kHz y la estimacin 1 es de 0.82.


Cuando comparamos este patrn con las mezclas son de 0.585 y 0.473.

Lo que

demuestra que el algoritmo va colocando la seal, comn al patrn de 100kHz en el


canal de la estimacin 1 y colocando todo lo que es comn al patrn de 150kHz en el
canal de la estimacin 2.
Tabla 4.1. Correlacin entre los patrones y las mezclas

COMPARACION

CORRELACION

Patrn 100kHz-Mezcla 1

0.585

Patrn 100kHz-Mezcla 2

0.473

Patrn 150kHz-Mezcla 1

0.747

Patrn 150kHz-Mezcla 2

0.884

74

Figura 4.12.Espectro de los patrones y las estimaciones. La estimacion 1 tiene mayor similitud con el patron de
100kHz. En el caso de la estimacion 2, mayor similitud con el patron de 150kHz.

Tabla 4.2. Correlacion entre los patrones y las estimaciones.

COMPARACION

CORRELACION

Patrn 100kHz-Estimacion 1

0.824

Patrn 100kHz- Estimacin 2

0.451

Patrn 150kHz- Estimacin 1

0.474

Patrn 150kHz- Estimacin 2

0.920

75

4.3

CONCLUSIONES

En este captulo se ha probado la implementacin del algoritmo Torkkola basado en


INFOMAX para separar mezclas provenientes de entornos reales. Se realizaron dos
pruebas: separacin de seales de audio y separacin de seales ultrasnicas
provenientes de descaras parciales simuladas.
En las pruebas de audio se ha conseguido separar dos seales de audio que tena voz y
msica. En las estimaciones se ha podido escuchar claramente la voz y la msica sin
interferencia.

En otra prueba hemos logrado separar dos voces. Adems de estos

resultados, con los pesos obtenidos se ha podido determinar la posicin de los


micrfonos y las fuentes con respecto a las paredes. Este resultado puede ser utilizado
para determinar las posiciones de las fuentes si se conocen las dimensiones del cuarto,
incluso determinar si se estn moviendo.
Las pruebas con seales ultrasnicas han dado resultado muy prometedor pues ofrecen
una solucin para la deteccin de las fuentes de emisiones de descargas parciales. En las
estimaciones se ha podido realizar separacin de mezclas provenientes de una emisin
de una descarga simulada a 100kHZ y otra a 150kHZ. Esta separacin se ha logrado con
la dificultad que presentan los sensores, los cuales eran muy sensibles a la frecuencia de
150kHZ, atenuando la seal de 100kHz. A la vista de los resultados la tcnica ICA
puede ser de aplicacin al

preprocesado de las seales captadas por los sensores

acsticos de seales de descargas parciales y se demuestra que es til para:


-

Separar las seales de diferentes fuentes de seales acsticas procedentes de


descargas parciales que se generan en intervalos de tiempo cortos con respecto a
la duracin de la seal acstica.

Reducir los efectos de ecos y reverberaciones que distorsionan la seal acstica


que llega al detector.

76

5 CAPITULO.

CONCLUSIONES

TRABAJO

FUTURO
5.1

CONCLUSIONES

En este trabajo hemos estudiando las bases tericas de Anlisis de Componentes


Independientes, su implementacin por medio de los algoritmos FASTICA e
INFOMAX, evaluacin de su operacin, tanto para mezclas simultneas como
convolutivas y su utilizacin para la separacin ciega de mezclas acsticas sintticas y
reales.
FASTICA e INFOMAX proveen una solucin rpida y eficiente para la separacin
ciega de mezclas. Con muy poco conocimiento sobre las fuentes, es posible revertir el
proceso de mezclado. Adems de la separacin en el caso de ruido gaussiano ha sido
posible extraer las fuentes exitosamente.
El algoritmo desarrollado por Torkkola basado en INFOMAX fue utilizado para la
separacin de mezclas provenientes de entornos reales. Se utiliz con seales de voz y
de msica dando excelentes resultados. Adems se obtuvo informacin espacial de las
fuentes a travs de los coeficientes de los pesos estimados.
Adems de seales de audio, el algoritmo Torkkola fue utilizado para separar mezclas
provenientes de fuentes ultrasnicas generadas por descargas parciales simuladas. Esta
aplicacin, hasta nuestro conocimiento es novedosa y dado los resultados obtenidos,
coloca a ICA como una herramienta con gran potencia para el preprocesado de seal en
deteccin y clasificacin de descargas parciales por procedimientos acsticos.

77

5.2

TRABAJO FUTURO

Este estudio nos marca dos lneas principales para

continuar en actividades de

investigacin. La primera de ellas es un estudio ms profundo de los algoritmos para


trabajar en el dominio del tiempo y de la frecuencia. La segunda actividad hace
referencia a su implementacin en entornos de instrumentacin, en los que se hace
necesario un procesamiento en lnea. Algunas de las tareas propuestas se resumen a
continuacin:
1. Estudio ms profundo de los algoritmos.
En las aplicaciones reales no se utiliz FASTICA debido a que su estructura no
esta condicionada para separar mezclas con retardos.

FASTICA ofrece

generalidad con respecto a las seales que separa y sera muy til aprovechar
esta caracterstica cuando se trabaja con mezclas convolutivas. Por esta razn,
se propone estudiar ICA en el dominio de la frecuencia o con Wavelet.
INFOMAX, a contrario que ICA no ofrece la generalidad de trabajar con
seales de cualquier distribucin pero esta caracterstica se puede convertir en
ventaja mediante la ptima seleccin de su funcin de activacin. En el caso de
las emisiones acsticas de las descargas parciales, se propone estudiar las
funciones de distribucin de probabilidad de los diferentes tipos descargas y
adaptar la funcin de activacin para que las separe. Existe un estudio en [44,
45] funcin puede adaptarse al tipo de la seal en escenarios no estacionarios
algo muy til para trabajo en lnea.
Otro punto importante a extender es la localizacin espacial de fuentes
utilizando los coeficientes de pesos obtenidos. En las pruebas con seales reales
de audio, fue posible estimar el retardo en las seales y realizar suposiciones
sobre la posicin de las fuentes con respecto a las paredes. En el caso de
descargas parciales, estos coeficientes nos pueden dar informacin sobre la
localizacin de las fuentes de descargas parciales. Si esto es combinado con una
funcin de activacin adaptativa, podramos de manera simultnea localizar e
identificar varios tipos de descarga. Por ultimo, otra mejora que se propone
investigar es en la extraccin de fuentes.

En el caso de FASTICA los

componentes se extraen secuencialmente. Hay estudios en [46] donde proveen


una estructura para la extraccin de seales con caractersticas estadsticas

78

especificas. En el caso de las descargas parciales, si conocemos bien las


caractersticas de cada tipo, podemos no solo separarlas, sino clasificarlas de
manera automtica.
2. Implementacin y procesado en lnea.
Los resultados que se han presentado en esta tesis de mster han sido obtenidos
mediante un procesamiento off-line, es decir, primero se han adquirido las
seales y luego se han procesado con los algoritmos FASTICA e INFOMAX
implementados en Matlab. En la mayora de los sistemas de instrumentacin y
en particular en los sistemas de deteccin y localizacin de descargas parciales,
es muy til poder disponer de un sistema de procesamiento en lnea, en el que se
vayan obteniendo los resultados a medida que se toman muestras de las seales.
En este sentido se propone evaluar la estructura de cada algoritmo con el
objetivo de mejorar su velocidad de convergencia. Se plantea la utilizacin de
las tarjetas de adquisicin de datos basadas en FPGA las cuales ofrecen gran
flexibilidad a la hora de combinar el poder del software y el hardware[47]. Al
integrar esta tarjeta en el sistema multicanal PXI utilizado en el experimento de
descargas parciales, podemos realizar un procesamiento en lnea.
Adems de esta posibilidad, en el Grupo de Optoelectrnica y Tecnologa Lser
de la Universidad Carlos III de Madrid se esta trabajando con sensores de fibra
ptica para la deteccin acstica. Los sensores piezoelctricos utilizados en
nuestra aplicacin para descargas parciales eran muy sensibles a una frecuencia
especfica. La fibra ptica presenta mayor ancho de banda que estos sensores,
una ventaja a la hora de capturar seales con diferentes frecuencias. Otra ventaja
de la fibra es que puede estar sumergida en el agua, evitando la distorsin que
producen la pared cuando las seales la cruzan[48].

79

REFERENCIAS
[1]
[2]

[3]
[4]

[5]

[6]
[7]
[8]
[9]
[10]

[11]
[12]
[13]
[14]
[15]
[16]

[17]
[18]
[19]
[20]
[21]

[22]

[23]

J. F. Cardoso, "Blind signal separation: statistical principles," Proceedings of the IEEE,


vol. 86, pp. 2009-2025, 1998.
J. Kociski, et al., "Evaluation of Blind Source Separation for different algorithms based
on second order statistics and different spatial configurations of directional
microphones," Applied Acoustics, vol. 73, pp. 109-116, 2012.
P. Comon, "Independent component analysis, A new concept?," Signal Processing, vol.
36, pp. 287-314, 1994.
E. Oja, "Applications of Independent Component Analysis Neural Information
Processing." vol. 3316, N. Pal, et al., Eds., ed: Springer Berlin / Heidelberg, 2004, pp.
1044-1051.
A. Hyvrinen, et al., "Overview and comparasion of basic ICA methods," in
INDEPENDENT COMPONENT ANALYSIS, I. JOHN WILEY & SONS, Ed., ed, 2001,
pp. 273-289.
A. Papoulis, Probability, Random Variables, and stochastic processes, III ed., 1991.
D. Hongtao, et al., "Comparative study of VLSI solutions to independent component
analysis," IEEE Transactions on Industrial Electronics, vol. 54, pp. 548-58, 2007.
S. M. Ross, "Distributions of sampling statistics," in Probability and statistics for
engineers and scientists, E. A. PRESS, Ed., III ed, 2004, pp. 204-210.
A. Hyvarinen, et al., "ICA by Maximization of Nongaussianity," in Independent
Component Analysis, I. JOHN WILEY & SONS, Ed., ed, 2001, pp. 165-202.
A. Hyvarinen, "A family of fixed-point algorithms for independent component analysis,"
in Acoustics, Speech, and Signal Processing, 1997. ICASSP-97., 1997 IEEE
International Conference on, 1997, pp. 3917-3920 vol.5.
A. J. Bell and T. J. Sejnowski, "An Information maximization approach to blind
separation and blind deconvolution," Neural Computation, vol. 7, pp. 1129-1159, 1995.
R. Linsker, "Local synaptic learning rules suffice to maximize mutual information in a
linear network," Neural Comput., vol. 4, pp. 691-702, 1992.
J. P. Nadal and N. Parga, "Nonlinear neurons in the low-noise limit a factorial code
maximizes information transfer," Network, vol. 5, pp. 561-581, 1994.
T. W. Lee, "Independent Component Analysis," in Independent Component Analysis,
ed, 1999, pp. 35-41.
L. Te-Won, "Independent component analysis: theory and applications [Book Review],"
Neural Networks, IEEE Transactions on, vol. 10, pp. 982-982, 1999.
A. Cichocki and S. amari, "Natural Gradient Approach to Independent Component
Analysis," in Adaptive Blind Signal and Image Processing, WILEY, Ed., ed, 2002, p.
235.
J. L. M. S. Pedersen, U. Kjems, L. C. Parra, "A survey of Convolutive Blind Source
Separation Methods," Springer Handbook on Speech Communication, pp. 1-34, 2006.
T. W. Lee, "BLIND SEPARATION OF TIME-DELAYED AND CONVOLVED
SOURCES," in INDEPENDENT COMPONENT ANALYSIS, ed, 1999, pp. 83-107.
K. Torkkola, "Blind separation of convolved sources based on information
maximization," Neural Networks for Signal Processing Vi, pp. 423-432, 1996.
S. Haykin, "Blind separation of delayed and convolved sources," in Unsupervised
adaptive filtering. vol. I, ed, 2000, pp. 333-344.
K. Usman, et al., "A study of heartbeat sound separation using independent component
analysis technique," in Enterprise Networking and Computing in Healthcare Industry,
2004. HEALTHCOM 2004. Proceedings. 6th International Workshop on, 2004, pp. 9295.
F. L. Hedayioglu, et al., "Separating sources from sequentially acquired mixtures of
heart signals," in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE
International Conference on, 2011, pp. 653-656.
A. Jimnez-Gonzlez and C. James, "Extracting sources from noisy abdominal
phonograms: a single-channel blind source separation method," Medical and Biological
Engineering and Computing, vol. 47, pp. 655-664, 2009.

80

[24]

[25]

[26]
[27]

[28]

[29]

[30]

[31]

[32]
[33]

[34]

[35]

[36]
[37]

[38]
[39]
[40]
[41]
[42]

[43]

[44]

[45]

B. Ying-Wen and Y. Cheng-Hsiang, "Design and implementation of a remote embedded


DSP stethoscope with a method for judging heart murmur," in Instrumentation and
Measurement Technology Conference, 2009. I2MTC '09. IEEE, 2009, pp. 1580-1585.
Q. Hao, et al., "Blind Separation for Cabin Acoustic Signals in Complex Environment,"
in Image and Signal Processing, 2009. CISP '09. 2nd International Congress on, 2009,
pp. 1-5.
M. Kotani and S. Ozawa, "Feature Extraction Using Independent Components of Each
Category," Neural Processing Letters, vol. 22, pp. 113-124, 2005.
N. N. de Moura, et al., "Independent Component Analysis for Optimal Passive Sonar
Signal Detection," in Intelligent Systems Design and Applications, 2007. ISDA 2007.
Seventh International Conference on, 2007, pp. 671-678.
T. W. Lee, et al., "Independent component analysis using an extended infomax
algorithm for mixed subgaussian and supergaussian sources," Neural Computation, vol.
11, pp. 417-441, 1999.
J. P. Reilly and L. C. Mendoza, "Blind signal separation for convolutive mixing
environments using spatial-temporal processing," in Acoustics, Speech, and Signal
Processing, 1999. ICASSP '99. Proceedings., 1999 IEEE International Conference on,
1999, pp. 1437-1440 vol.3.
J. Qinggui and L. Guolong, "A new algorithm of Infomax for small numbers of sound
signal separation," in Artificial Intelligence and Education (ICAIE), 2010 International
Conference on, 2010, pp. 159-162.
D. Obradovic, "Dynamic signal mixtures and blind source separation," in Acoustics,
Speech, and Signal Processing, 1999. ICASSP '99. Proceedings., 1999 IEEE
International Conference on, 1999, pp. 1441-1444 vol.3.
K. Takada, et al., "On wavelet-based convolutive blind separation of non-stationary
sound sources," in SICE 2004 Annual Conference, 2004, pp. 1362-1367 vol. 2.
F. Sattar, et al., "Blind source separation of audio signals using improved ICA method,"
in Statistical Signal Processing, 2001. Proceedings of the 11th IEEE Signal Processing
Workshop on, 2001, pp. 452-455.
F. Sattar and C. Charayaphan, "Low-cost design and implementation of an ICA-based
blind source separation algorithm," in ASIC/SOC Conference, 2002. 15th Annual IEEE
International, 2002, pp. 15-19.
C. Charoensak and F. Sattar, "A single-chip FPGA design for real-time ICA-based blind
source separation algorithm," 2005 Ieee International Symposium on Circuits and
Systems (Iscas), Vols 1-6, Conference Proceedings, pp. 5822-5825, 2005.
I. T. Jolliffe, Principal Component Analysis, 2nd ed., 2002.
M. Inki and A. Hyvarinen, "Two approaches to estimation of overcomplete independent
component bases," in Neural Networks, 2002. IJCNN '02. Proceedings of the 2002
International Joint Conference on, 2002, pp. 454-459.
F. J. Theis, "A geometric algorithm for overcomplete linear ICA," Neurocomputing, vol.
56, pp. 381-398, 2003.
L. Q. Zhang, et al., "Natural gradient algorithm for blind separation of overdetermined
mixture with additive noise," Signal Processing Letters, IEEE, vol. 6, pp. 293-295, 1999.
Y. Matsuda and K. Yamaguchi, "An Overcomplete ICA Algorithm by InfoMax and
InfoMin," Artificial Neural Networks - Icann 2008, Pt I, vol. 5163, pp. 136-144, 2008.
A. C. S. Amari, and H.H. Yang, "A New Learning Algorithm for Blind Signal Separation,"
in Proc. NIPS, pp. pp.757-763, 1995.
H. L. J. A. Garcia-Souto, C. Macia-Sanahuja et al., "Acoustic detection of partial
discharges with an optical fiber interferometric sensor," IMEKO TC 2 Symposium
on photonics in Measurements, Aug. 2008.
J. A. Garcia-Souto, et al., "All-fiber intrinsic sensor of partial discharge acoustic
emission with electronic resonance at 150 kHz," Optical Sensing and Detection, vol.
7726, 2010.
A. Cichocki, et al., "Self adaptive independent component analysis for sub-Gaussian
and super-Gaussian mixtures with unknown number of sources and additive noise,"
Proc. Symposium on Nonlinear Theory and its Applications, NOLTA-97, pp. 731-734,
1997.
Z. Liqing, et al., "Self-adaptive blind source separation based on activation functions
adaptation," Neural Networks, IEEE Transactions on, vol. 15, pp. 233-244, 2004.

81

[46]
[47]

[48]

S. amari and A. Cichocki, "Statistical signal processing approach to blind signal


extraction," in Adaptive Blind Signal and Image Processing, ed, 2002, pp. 177-228.
A. Palumbo, et al., "A novel ICA-based hardware system for reconfigurable and
portable BCI," in Medical Measurements and Applications, 2009. MeMeA 2009. IEEE
International Workshop on, 2009, pp. 95-98.
J. A. G.-S. J. E. Posada-Roman, J. Rubio-Serrano, "Intrinsic Fiber Optic Ultrasound
Sensor for Oil Immersed Detection of Partial Discharges," IEEE 2011 Sensors
Conference Proceeding, 2011.

82

Vous aimerez peut-être aussi