Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
CENTRO DE INVESTIGACIÓN CIENTÍFICA Y DE EDUCACIÓN
SUPERIOR DE ENSENADA, BAJA CALIFORNIA
MR
PROGRAMA DE POSGRADO EN CIENCIAS
EN ElECTRÓNICA Y TELECOMINUCACIONES
La función coherencia como criterio de optimización en
separación ciega de fuentes
Tesis
para cubrir parcialmente los requisitos necesarios para obtener el grado de
Doctor en Ciencias
Presenta:
Jesús Rigoberto Villavicencio Navarro
Ensenada, Baja California, México
2014
Tesis defendida por
Jesús Rigoberto Villavicencio Navarro
y aprobada por el siguiente comité
Dr. Luis Alejandro Márquez Martínez
Codirector del Comité
Dr. Joaquín Álvarez Gallegos
Codirector del Comité
Dr. Enrique Mitrani Abenchuchan
Miembro del Comité
Dr. Vitali Kober
Miembro del Comité
Dr. Julio César Rolón Garrido
Miembro del Comité
Dra. Sonia Charleston Villalobos
Miembro del Comité
Dr. Salvador Martínez Cabrera
Miembro del Comité
Dr. César Cruz HernándezCoordinador del Programa de
Posgrado en Electrónica y Telecomunicaciones
Dr. Jesús Favela VaraDirector de Estudios de Posgrado
Diciembre, 2014
iii
Resumen de la tesis que presenta Jesús Rigoberto Villavicencio Navarro como requisitoparcial para la obtención del grado de Doctor en Ciencias en Electrónica y Telecomunica-ciones.
La función coherencia como criterio de optimización en separación ciega defuentes
Resumen elaborado por:
Jesús Rigoberto Villavicencio Navarro
La habilidad para describir y analizar la información contenida en las señales resul-tantes de fenómenos físicos es una tarea que resulta retadora y atractiva para diferentesáreas de la ciencia. Uno de los enfoques, que ha sido bastante estudiado y de gran inte-rés durante las últimas décadas, es la separación ciega de fuentes (BSS, por sus siglasen inglés: Blind Source Separation), la cual pretende, mediante observaciones múltiples,describir los fenómenos físicos al analizar solamente las señales provenientes de éstos.El problema de la BSS consiste en recuperar los componentes principales o fuentes ori-ginales de señales a partir de observaciones que contienen mezclas de ellas, cuando nose tiene información sobre las fuentes ni del proceso de mezclado, usando solamenteinformación estadística. En este trabajo se presentan cuatro algoritmos que se basan enla función coherencia como función de costo para resolver el problema en varios escena-rios de la BSS: BSS de mezclas instantáneas lineales, BSS de mezclas instantáneas conruido, BSS para señales gaussianas independientes e idénticamente distribuidas y BSSde mezclas convolutivas. Se realizan comparaciones con algoritmos en el estado del artey se confirma el desempeño satisfactorio de nuestro trabajo.
Palabras Clave: Separación ciega de fuentes, función coherencia, recocido simu-lado, búsqueda en la sección dorada.
iv
Abstract of the thesis presented by Jesús Rigoberto Villavicencio Navarro as a partialrequirement to obtain the Master of Science degree in Doctor in Sciences in Electronicsand Telecommunications.
The Coherence Function as an Optimization Criteria in Blind Source Separation
Abstract by:
Jesús Rigoberto Villavicencio Navarro
The ability to describe and to analyze the information contained in signals produced byphysical phenomena is a challenging and attractive task for different areas of science andtechnology. One of the approaches that has been extensively studied, that is of great inter-est in recent decades, is the blind source separation (BSS), which aims, through multipleobservations, to describe a physical phenomena by analyzing only the signals observedfrom these phenomena. The problem of BSS consists in recovering the independent com-ponents or sources from a mixture of the signals containing them using only statisticalinformation. In this case, no information about the sources or the mixing process is uti-lized. In this work, four algorithms based on the coherence function as a cost functionare proposed to solve the problem for several BSS scenarios: BSS linear instantaneousmixtures, instant mixes with BSS noise, BSS for independent and identically distributedGaussian signals, and BSS of convolutive mixtures. Comparison against the state of theart algorithms is performed, and the satisfactory performance of our proposal is confirmed.
Keywords: Blind source separation, coherence function, simulated annealing, gol-den section search.
v
Dedicatoria
A los que amo
vi
Agradecimientos
A Dios por permitirme concluir mis estudios.
A mi esposa Cynthia Beatriz Pérez Castro por darme su apoyo durante esta etapa
de nuestras vidas. A mi madre Silvia Navarro Aguilar por contar siempre con su apoyo
incondicional. A mis hijos Paulina y Jesús Rodolfo por la felicidad que me dan. A mis
suegros Rodolfo Pérez Rodriguez y Ruth Beatriz Castro Angulo por el apoyo brindado a
mi y mi familia.
A mis directores de tesis Dr. Luis Alejandro Márquez Martínez y Dr. Joaquín Álvarez
Gallegos por compartirme su experiencia y sabiduría.
Al comité de tesis Dr. Enrique Mitrani Abenchuchan, Dr. Vitali Kober, Dr. Julio Rolón,
Dra. Sonia Charleston Villalobos, Dr. Salvador Martínez por sus comentarios y tiempo
brindado en el desarrollo de este trabajo de investigación.
A todos mis amigos y en especial a Ana Lilia Gonzalez, Raúl Rascón Carmona, José
Guadalupe Castro por brindarme un tiempo tan ameno durante mis estudios.
Al pueblo de México, por su apoyo financiero a través del CONACyT.
vii
ContenidoPágina
Resumen en español iii
Resumen en inglés iv
Dedicatoria v
Agradecimientos vi
Lista de Figuras ix
Lista de Tablas xi
1.. Introducción 11.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.. La función coherencia en separación ciega de fuentes de mezclas instan-táneas lineales 52.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1. Pre-procesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.1.1. Pre-blanqueo . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2. Factor de rotación . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2. Método Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1. La coherencia en el modelo de fuentes ciegas . . . . . . . . . . . 112.2.2. La coherencia en el sistema global . . . . . . . . . . . . . . . . . 122.2.3. Función de costo . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3.1. Superficie de optimización . . . . . . . . . . . . . . . . . . 152.2.4. Heurística de optimización . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Experimentos, resultados y discusión . . . . . . . . . . . . . . . . . . . . 182.3.1. Criterio de desempeño . . . . . . . . . . . . . . . . . . . . . . . . 182.3.2. Separación de procesos estacionarios Gaussianos coloreados . 202.3.3. Separación de señales no estacionarias . . . . . . . . . . . . . . 212.3.4. Un ejemplo real de separación de fECG . . . . . . . . . . . . . . 22
3.. La función coherencia en separación de señales gaussianas independien-tes e idénticamente distribuidas 263.1. Método Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2. Experimentos y resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.. La función coherencia en separación ciega de fuentes de mezclas instan-táneas lineales con ruido blanco 304.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.2. Suposiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.3. La MSC en el modelo de BSS con ruido blanco . . . . . . . . . . . . . . 334.4. Método Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4.1. Umbral de detección de potencia de señal y función de selecciónde ancho de banda . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4.2. Criterio de optimización . . . . . . . . . . . . . . . . . . . . . . . 36
viii
Contenido (continuación)
Página
4.5. Experimentos y resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 364.6. Discusión y trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.. La función coherencia en separación ciega de fuentes de mezclas convolu-tivas 425.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.2. Método propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2.1. Criterio de separación . . . . . . . . . . . . . . . . . . . . . . . . 465.2.1.1. Separación por ancho de banda a priori . . . . . . . . . . . 46
5.2.2. Algoritmo de separación basado en MSC . . . . . . . . . . . . . . 475.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3.1. Simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.4. Resultados y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.. Conclusiones 56
Lista de referencias 58
ix
Lista de FigurasFigura Página
1. Esquema general de la separación ciega de fuentes . . . . . . . . . . . . . 6
2. Distribución conjunta de dos componentes independientes con distribucio-nes uniforme, s1(t) y s2(t). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3. Distribución conjunta de las observaciones x1(t) y x2(t). . . . . . . . . . . . 9
4. Distribución conjunta de las mezclas pre-blanqueadas y1(t) y y2(t). . . . . . 10
5. Esquema general de la separación ciega de fuentes basado en rotaciones. 10
6. Esquema general de la separación ciega de fuentes para mezclas instan-táneas usando la coherencia como criterio de optimización. . . . . . . . . 12
7. Diagrama de bloques del sistema global de mezclas instantáneas para m = 2. 13
8. Función de costo de fuentes Gaussianas coloreadas. m = 2. . . . . . . . . 15
9. Superficie del costo J para las fuentes gaussianas coloreadas. . . . . . . . 16
10. Superficie del costo J para las fuentes Speech4.mat (ICALAB web page).m = 3. θ3 = 0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
11. a) Sonido cardiaco s1. b) Ps1s1 densidad espectral de potencia del sonidocardiaco. c) Sonido respiratorio normal s2. d) Ps2s2 densidad espectral depotencia del sonido respiratorio. . . . . . . . . . . . . . . . . . . . . . . . . 21
12. Cuatro canales del ECG materno. . . . . . . . . . . . . . . . . . . . . . . . 24
13. Fuentes estimadas con el algoritmo propuesto 2 y fECG directo tomadode la cabeza del feto (señal inferior). La señal fetal directa se muestra confines de comparación con la fECG estimada. . . . . . . . . . . . . . . . . . 25
14. La superficie J para dos fuentes gaussianas iid. Cada curva es generadaa partir del estimado de la coherencia usando un número determinado debloques promediados, nd tal como se indica en la leyenda. La razón devarianza entre ambas fuentes es 4. . . . . . . . . . . . . . . . . . . . . . . 28
15. Desempeño de separación de fuentes gaussianas iid usando la metodo-logía basada en la razón de varianza. Se muestra diferentes desempeñosutilizando distintos segmentos de promediación. Al incrementarse la razónentre las varianzas incrementa el desempeño. . . . . . . . . . . . . . . . . 29
16. a) Estimación de s1. b) Estimación de s2. c) Coherencia. La coherenciaentre las fuentes estimadas muestra una diafonía evidente. . . . . . . . . . 31
17. Comparación de rendimiento de varios algoritmos BSS obtenido de ICA-LAB toolbox. El algoritmo propuesto muestra una distribución semejante auna gaussiana, mientras que los otros algoritmos muestran una distribucióndispareja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
18. Sistema convolutivo mezclador separador. . . . . . . . . . . . . . . . . . . . 43
x
Lista de Figuras (continuación)
Figura Página
19. Sistema mezclador-separador para 2 fuentes. . . . . . . . . . . . . . . . . . 45
20. Fuentes usadas en el experimento. a) Sonido respiratorio normal. b) Den-sidad espectral de potencia del sonido respiratorio. c) Sonido cardiaco nor-mal. d) Densidad espectral de potencia del sonido cardiaco. . . . . . . . . . 49
21. Estimación de la magnitud de MSC cuadrada entre las fuentes s1(n) y s2(n). 50
22. Señales capturadas en los sensores. a) Observación en el sensor x1. b)Densidad espectral de potencia de la señal x1. c) Observación en el sensorx2. d) Densidad espectral de potencia de la señal x2. . . . . . . . . . . . . . 50
23. Coherencia entre las señales observadas, x1(n) y x2(n). . . . . . . . . . . 51
24. Filtro separador estimado B(n) para el Algoritmo MSC-Convolutivo. . . . . 51
25. Filtro mezclador-separador G(n) para el Algoritmo MSC-Convolutivo. . . . 52
26. a) Contribuciones de la fuente s1 en el vector de observación x2. b) Contri-buciones de la fuente s1 en el vector de observación x1. c) PSD de la fuentes1 en el vector de observación x2. d) PSD de la fuente s2 en el vector deobservación x1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
27. a) Contribuciones de la fuente s2 en el vector de observación x2. b) Contri-buciones de la fuente s2 en el vector de observación x1. c) PSD de la fuentes2 en el vector de observación x2. d) PSD de la fuente s2 en el vector deobservación x1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
28. Resultados del recocido simulado. . . . . . . . . . . . . . . . . . . . . . . . 53
29. Coherencia entre los componentes recuperados s(n). . . . . . . . . . . . . 54
xi
Lista de TablasTabla Página
1. Resultados del análisis Montecarlo para fuentes gaussianas coloreadas.µ y σ son la media y desviación estándar del SIR. nd es el número desegmentos o promediaciones utilizados en la estimación de la coherencia. 20
2. Resultado de la prueba Montecarlo usando dos fuentes no estacionarias.µ y σ son la media y desviación estándar SIR. . . . . . . . . . . . . . . . . 22
3. Resultados del experimento 1. . . . . . . . . . . . . . . . . . . . . . . . . . 39
4. Resultados del experimento 2. . . . . . . . . . . . . . . . . . . . . . . . . . 39
1
Capítulo 1. IntroducciónEl problema de la separación ciega de fuentes (BSS, por sus siglas en inglés: Blind
Source Separation) consiste en recuperar los componentes principales o fuentes origina-
les de señales a partir de observaciones que contienen mezclas de ellas, usando sola-
mente información estadística. Este no es un problema sencillo debido a que no se tiene
información sobre las fuentes ni del proceso de mezclado.
El problema de BSS aparece en muchos sistemas multi-sensores, que van desde
el procesamiento de señales biomédicas (James (2004); Pourazad et al. (2005); Hesse
(2008); Crespo-Garcia et al. (2008); Romo Vázquez et al. (2012)) hasta las finanzas
(Hyvärinen y Oja (2000); (Comon y Jutten, 2010)).
La gran variedad de posibles aplicaciones hacen de la BSS un problema de gran inte-
rés. Un ejemplo de ello, entre muchas otras aplicaciones, lo encontramos en la extracción
de electrocardiograma fetal, el cual se utiliza con propósitos de diagnóstico. Esta técnica
no invasiva usa electrodos que recogen el electrocardiograma materno (mECG, por sus
siglas en inglés: maternal Electrocardiogram) y en menor amplitud el electrocardiogra-
ma fetal (fECG, por sus siglas en inglés: fetal Electrocardiogram). Los electrodos pueden
capturar muchas otras señales, como los potenciales de la piel, electromiogramas, y la
interferencia de 50 Hz de la red de alimentación eléctrica, que proporcionan una señal
compleja asociada a una mezcla de muchas fuentes. Debido a ésto, puede ser difícil ob-
tener un diagnóstico confiable a partir del análisis de ésta señal compleja. A pesar de
que la teoría de conducción de volumen (volume conduction theory ) presume que todo
el cuerpo es un conductor heterogéneo, se piensa que los potenciales creados por el
corazón del feto son transmitidos a la superficie materna principalmente mediante la ruta
placenta-cordón umbilical. Debido a ésta particularidad, la grabación de la forma de onda
fECG no cambia cuando se cambia la posición de los electrodos en la superficie del ab-
domen de la madre, sólo la amplitud de la señal eléctrica puede cambiar (Vigneron et al.
(2003)). La BSS proporciona los medios para separar la señal de baja amplitud que viene
del corazón fetal de otros ruidos o señales indeseables, en una forma no invasiva y útil en
el diagnóstico temprano de cardiopatías.
En este escenario, como en muchos otros, el modelo BSS de mezclas instantáneas
2
lineales se expresa mediante la siguiente ecuación:
x(t) = As(t), t = 1, 2, ... (1)
en donde x(t) ∈ Rn es el vector que contiene los datos observados, s(t) ∈ R
m es el vector
de las fuentes desconocidas (n ≥ m), A ∈ Rn×m es una matriz desconocida de rango
pleno que modela el proceso de mezclado de las fuentes, y t es el índice del tiempo. El
problema de separación ciega de fuentes consiste en identificar la matriz A, o su pseudo-
inversa W = A+, de tal manera que se puedan estimar las señales originales, usando
solamente la información estadística contenida en las observaciones x(t). Sin embargo,
la amplitud original de las fuentes y el orden de las mismas no podrán identificarse (no se
podrá identificar a priori qué señal corresponde a qué fuente). Por lo tanto, la matriz W
tiene la forma W = DPA−1, donde P es una matriz de permutación, y D es una matriz
diagonal.
La matriz W puede estimarse, si existe, si consideramos la suposición de que las
fuentes son procesos o fenómenos físicos que producen señales estadística y mutua-
mente independientes o mutuamente descorrelacionadas. Las técnicas principales para
encontrar la matriz inversa se basan en estadísticas de alto orden (HOS, por sus si-
glas en inglés: Higher-order Statistics) o estadísticas de segundo orden (SOS, por sus
siglas en inglés: Second-order Statistics). La técnica llamada Análisis de Componen-
tes Independientes (Independent Component Analisys (ICA), por sus siglas en inglés:
Independent Component Analisys) corresponde a las metodologías que utilizan Higher-
order Statistics (HOS). Algunos ejemplos de las metodologías HOS los encontramos en
Hyvarinen (1999); Cardoso y Souloumiac (1993); Bell y Sejnowski (1995). Los métodos
de Second-order Statistics (SOS) utilizan la estructura en el tiempo, que puede caracteri-
zarse por matrices de covarianzas, lo que permite utilizar métodos basados en descom-
posición de eigenvalores para lograr la separación. Como ejemplo podemos mencionar
el algoritmo AMUSE (Tong et al. (1991)). Otras metodologías utilizan el promedio de la
eigen-estructura al realizar combinaciones lineales de varias matrices de covarianza con
retardo. Este es el caso de SOBI (Belouchrani et al. (1997)) y el SONS (Choi y Cichocki
(2000)). El problema de BSS se torna aún más difícil cuando las observaciones están con-
3
taminadas con ruido aditivo. Algunos trabajos relacionados para resolver esta cuestión
se reportan en Choi y Cichocki (2000), Cardoso y Pham (2004), Douglas et al. (1998),
Vorobyov y Cichocki (2002). Varias aplicaciones recientes de este problema, en el análi-
sis de señales biomédicas, se muestran en Hesse (2008); Romo Vázquez et al. (2012);
Crespo-Garcia et al. (2008).
En la realidad, la matriz de mezclado y las fuentes son completamente desconoci-
das. Sin embargo, si se tiene conocimiento a priori del problema sabiendo con seguridad
que las fuentes son estadísticamente independientes, se puede realizar cualquier prueba
de independencia para comprobar si los componentes estimados son realmente inde-
pendientes entre sí, ya que las metodologías pueden converger a mínimos locales, en
especial aquellas que no utilizan la operación de pre-blanqueo. De manera similar, po-
demos comprobar si las fuentes estimadas son espacio-temporal descorrelacionados o
si las fuentes son suficientemente esparcidas. Finalmente, en ocasiones tampoco es co-
nocido si las fuentes son componentes independientes, lo que nos motiva al uso de la
coherencia en el problema de BSS.
1.1. Motivación
En este trabajo utilizamos la función coherencia para comprobar que realmente los
componentes estimados están descorrelacionados en el dominio de la frecuencia, en
donde se pueden observar los anchos de banda de las fuentes estimadas que todavía
están correlacionadas.
La coherencia ha sido utilizada anteriormente en el problema de BSS de mezclas
convolutivas (Fancourt y Parra (2001)), y en el problema no-lineal de BSS (Oku y Sano
(2003)). Por un lado, en Fancourt y Parra (2001) se usó la coherencia como función de
optimización, combinada con un algoritmo tipo gradiente, para la recuperación de las
fuentes, presentando experimentos sólo para dos fuentes. Por otro lado, en Oku y Sano
(2003) se usó la coherencia solamente para compensar la distorsión en los componentes
recuperados. Sin embargo, la coherencia no ha sido utilizada en el contexto que nosotros
proponemos en este trabajo.
4
En el segundo capítulo presentamos un algoritmo para resolver el caso de BSS de
mezclas instantáneas mediante el uso de la función coherencia como criterio de optimi-
zación. Es conocido que, para fuentes gaussianas independientes e idénticamente dis-
tribuidas (Independent and identically distributed (iid), por sus siglas en inglés: Indepen-
dent and identically distributed), el problema de BSS no tiene solución (Darmois (1953),
Cardoso et al. (2002), Yeredor (2011)). Sin embargo, como segunda contribución propo-
nemos, en el tercer capítulo, un segundo algoritmo en el que maximizamos la varianza de
las observaciones para recuperar los componentes independientes gaussianos iid. En el
cuarto capítulo, presentamos un algoritmo basado en la función coherencia para resolver
el problema de BSS con ruido. En el último capítulo, presentamos unos avances del pro-
blema de BSS convolutivo. Finalmente concluimos con resultados, discusión, y conclusión
por cada capítulo.
5
Capítulo 2. La función coherencia en separación ciega
de fuentes de mezclas instantáneas lineales
En este capítulo proponemos varios algoritmos que minimizan una función de costo,
basada en la coherencia, para resolver los problemas de BSS de mezclas instantáneas,
de mezclas instantáneas gaussianas iid y de mezclas instantáneas con ruido.
2.1. Introducción
El problema de la Blind Source Separation (BSS) hace referencia al problema de la
"fiesta de cocteles". El escenario de la fiesta de cocteles consiste en una conversación
entre dos personas dentro de un cuarto, el cual cuenta con dos micrófonos, situados en
diferentes ubicaciones, que graban simultáneamente la conversación. De esta manera los
micrófonos proveen dos señales de tiempo que llamaremos x1(t) y x2(t), en la cual cada
una de estas señales capturadas es una suma ponderada de las fuentes o voces de los
locutores, s1(t) y s2(t). Este fenómeno puede expresarse mediante la siguiente ecuación
lineal:x1(t) = as1(t) + bs2(t),
x2(t) = cs1(t) + ds2(t),(2)
en donde a, b, c, y d son parámetros de atenuación de la señal que dependen de la distan-
cia que hay entre los micrófonos y los locutores. El objetivo es centrar nuestra atención en
lo que dice un locutor o bien, desde otro punto de vista, recuperar la conversación de ca-
da individuo o fuente, s1(t) y s2(t), utilizando solamente las grabaciones adquiridas, x1(t)
y x2(t). Por simplicidad de análisis en el modelo (2) omitiremos cualquier retardo u otro
factor. Este esquema se llama modelo de mezclas instantáneas y puede representarse
por la siguiente ecuación matricial:
x(t) = As(t), t = 1, 2, ..., (3)
en donde x(t) ∈ Rn es el vector que contiene los datos observados, s(t) ∈ R
m es el vector
de las fuentes desconocidas (n ≥ m), A ∈ Rn×m es una matriz desconocida de rango
pleno que modela el proceso de mezclado de las fuentes, y t es el índice del tiempo. El
6
problema de separación ciega de fuentes consiste en identificar la matriz A, o su pseudo-
inversa W = A+, de tal manera que se puedan estimar las señales originales, usando
solamente la información estadística contenida en las observaciones x(t).
En el análisis de la separación ciega de fuentes es necesario realizar algunas supo-
siciones sobre las fuentes y sobre el sistema de mezclado. Durante todo el capítulo se
utilizarán las siguientes suposiciones:
1. La matriz A es de rango pleno m.
2. Las fuentes s(t) son señales estacionarias con media cero.
3. Las fuentes s(t) son señales mutuamente descorrelacionadas.
donde s(t) = (s1(t), s2(t), ..., sm(t))T . El primer punto hace referencia a que el sistema
mezclador tiene un número m de fuentes. Por simplicidad de análisis, en nuestro trabajo
el número de sensores y de fuentes es igual, n = m. El punto dos y tres nos indican las
propiedades estadísticas de las fuentes.
Para resolver el problema de la separación ciega de fuentes es necesario estimar la
matriz pseudo-inversa W, para posteriormente calcular su inversa A. La estimación de
las fuentes se obtiene al aplicar la transformación lineal s = Wx.
WA
Desconocido
x(t)s(t) s(t)
n mm
Figura 1: Esquema general de la separación ciega de fuentes
Los componentes recuperados tendrán algunas ambigüedades, de las cuales una es-
tá asociada a la varianza o la energía de las fuentes. Es decir, no se podrá conocer el
valor real de la amplitud de la señal proveniente de las fuentes. Otra ambigüedad está
relacionada con el orden en el cual se recuperan las fuentes: no es posible conocer cuál
7
señal se recuperará en un canal. Un ejemplo claro sería que en el problema de la sepa-
ración de los dos locutores, el locutor s1 aparezca en el canal s2 y el locutor s2 aparezca
en el canal recuperado s1. Sin embargo, si es posible conocer a priori las características
de la distribución de las fuentes, entonces se puede realizar una selección posterior con
base en ello. La última ambigüedad se relaciona con el signo con el que las fuentes son
recuperadas. En este caso es posible que la señal esté invertida, en el sentido de que
sea negativa con respecto a la fuente original; es decir, s1 = −s1. De esta manera s(t)
y el estimado s(t) mantienen una relación de preservación de forma de onda (Tong et al.
(1991)), como se muestra en la siguiente ecuación:
s(t) = εΛPs(t), (4)
donde Λ es una matriz diagonal no-singular, P es una matriz de permutación y ε es una
matriz diagonal con valores ±1 a lo largo de su diagonal.
Tener este tipo de ambigüedades es aceptable, ya que ello no supone una pérdida de
información en la metodología de separación ciega de fuentes, debido a que en la mayoría
de las aplicaciones, la información de las fuentes está contenida en la forma de onda de
las señales. Aún más, es por eso que de esta manera es fácilmente permitido suponer
que las varianzas de las fuentes son unitarias ya que, en principio, no supone pérdida de
información. Sin embargo, como lo veremos más adelante, cuando no hay información
de correlación temporal o información de gaussianidad que aporte a la separación de las
metodologías, veremos que la información de la varianza proporcionada por la matriz de
mezclado puede aportar la información necesaria para recuperar las fuentes.
2.1.1. Pre-procesamiento
En BSS existen dos operaciones de pre-procesamiento que facilitan encontrar el sis-
tema inverso. Estas operaciones son el centrado y el pre-blanqueo (Cichocki y Amari
(2002)). Dado que se requieren señales con media cero, sin perder generalidad de re-
sultados, se puede remover la media de las observaciones. A esta operación se le lla-
ma comúnmente centrado y se realiza al remover la media del vector de observación,
x = E{x}, de manera que x sea una variable con media cero (p. 130).
8
2.1.1.1. Pre-blanqueo
La matriz inversa, W, podría encontrarse realizando una búsqueda exhaustiva, en la
cual se necesitan estimar m2 parámetros. Sin embargo, es posible reducir el problema
considerablemente si se aplica una transformación de pre-blanqueo a los datos obser-
vados. La operación de pre-blanqueo siempre es realizable dado que, por hipótesis, la
matriz A es de rango pleno. Entonces, siempre es posible aplicar una transformación li-
neal al vector x(t) de tal manera que el nuevo vector obtenido sea blanco desde el punto
de vista de las propiedades estadísticas del nuevo vector obtenido. Los nuevos compo-
nentes están descorrelacionados y sus varianzas son igual a la unidad. En otras palabras,
la matriz de covarianza del nuevo vector, y(t), es igual a la matriz identidad:
E{yyT} = I, (5)
Finalmente, la transformación se obtiene de la siguiente manera:
y(t) = Vx(t), (6)
donde la matriz V = D−1/2ET . E se obtiene mediante la descomposición de eigen-
vectores de la matriz de covarianza de las observaciones Cx = E{xxT}, y D = diag(d1..dm)
es una matriz diagonal formada con los eigen-valores de Cx.
Al sustituir(3) en (6) tenemos
y(t) = VAs(t). (7)
La importancia del pre-blanqueo reside en que la nueva matriz de mezclado, A = VA, es
ortogonal. Debido a que una matriz ortogonal tiene m(m−1)/2 grados de libertad, el pre-
blanqueo reduce el número de incógnitas por encontrar a m(m − 1)/2. En la Figura 2 se
muestra una distribución de dos componentes independientes con distribuciones unifor-
mes. En la Figura 3 se observa la distribución de la mezcla de las fuentes. La distribución
de los datos pre-blanqueados se muestra en la Figura 4. Se observa que la Figura 4 está
rotada con respecto a la Figura 2.
9
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8
Figura 2: Distribución conjunta de dos componentes independientes con distribuciones uniforme,s1(t) y s2(t).
-1
-0.5
0
0.5
1
-1 -0.5 0 0.5 1
Figura 3: Distribución conjunta de las observaciones x1(t) y x2(t).
2.1.2. Factor de rotación
El pre-blanqueo no es una condición suficiente para recuperar las fuentes. Aun queda
un factor de rotación ortogonal para recuperar los componentes. Finalmente, el problema
de separación ciega se reduce al problema de encontrar una matriz de rotación ortogonal
10
-1
-0.5
0
0.5
1
-1 -0.5 0 0.5 1
Figura 4: Distribución conjunta de las mezclas pre-blanqueadas y1(t) y y2(t).
R. El vector con los componentes estimados por consiguiente es
s(t) = RVAs(t), (8)
donde RV = W, y s(t) es el estimado de s(t),
s(t) = RVx(t). (9)
El esquema general de la separación ciega de fuentes basado en rotaciones se muestra
en la Figura 5.
VA R
Desconocido
Fuentes estimadosComponentes
x(t)s(t) y(t) s(t)
Matriz de blanqueo
Matriz de mez lado
Matriz de rota ión
Figura 5: Esquema general de la separación ciega de fuentes basado en rotaciones.
11
La matriz ortogonal R, o matriz de rotación, puede componerse del producto de varias
matrices Givens R(i, j, θij) ∈ Rm×m, definida para i < j,
R(i, j, θij) =
1 · · · 0 · · · 0 · · · 0...
. . ....
......
0 · · · cos · · · sen · · · 0...
.... . .
......
0 · · · −sen · · · cos · · · 0...
......
. . ....
0 · · · 0 · · · 0 · · · 1
i
j
i j
(10)
donde cos = cos(θij) y sen = sen(θij) aparecen en la intersección de las i-ésima y j-ésima
fila y columna (Anderson (2000)). Ésto representa que se ha dado una rotación de θij
radianes en el plano (i, j). Existe una rotación para cada par (i, j), bajo la consideración
de que 1 ≤ i < j ≤ m. El número de ángulos de rotación en un sistema Rm×m es
M = m(m − 1)/2. De esta manera podemos observar que los componentes estimados
son dependientes del vector de ángulos de rotación θ de la siguiente manera:
s(θ) = R(θ)Vx(t), (11)
s(θ1, θ2, ..., θM) = R1(θ1)R2(θ2)...RM(θM)Vx(t), (12)
donde θ = [θ1, θ2, ..., θM ] y R(θ) = R1(θ1)R2(θ2)...RM(θM). De esta manera se aplican
rotaciones en las diferentes direcciones (i, j) hasta que la función de costo seleccionada
haya sido minimizada.
2.2. Método Propuesto
2.2.1. La coherencia en el modelo de fuentes ciegas
El resultado encontrado en el trabajo de Carter (1972) nos indica que la coherencia
entre dos procesos que son independientes o descorrelacionados con media cero es cero.
12
Este resultado implica que podremos estimar las fuentes originales aplicando rotaciones,
R, hasta que la coherencia entre los componentes recuperados sea mínima o cero.
La coherencia está dada por
∣
∣γxy(f)∣
∣
2=
|Pxy(f)|2
Pxx(f)Pyy(f), (13)
donde x(t) y y(t) son dos series de tiempo estacionarias con espectros de potencia Pxx(f)
y Pyy(f) respectivamente, y con espectro cruzado de potencia Pxy(f). El esquema general
de la metodología propuesta se muestra en la Figura 6. En ella se ilustra el flujo de los
datos y las transformaciones pertinentes para recuperar las fuentes. También se muestra
la coherencia y las distribuciones bidimensionales para cada serie de datos en cada paso
de la estimación de los componentes independientes.
0
0.2
0.4
0.6
0.8
1
γ 2
0
0.2
0.4
0.6
0.8
1
γ 2
0
0.2
0.4
0.6
0.8
1
γ 2
0
0.2
0.4
0.6
0.8
1
γ 2
A V R
Blanqueoyx
Desconocido
MezcladoComponentes
Independientess s~
J
Rotacion
Figura 6: Esquema general de la separación ciega de fuentes para mezclas instantáneas usando lacoherencia como criterio de optimización.
2.2.2. La coherencia en el sistema global
La matriz del sistema global es la transformación que combina a los sistemas sepa-
rador y mezclador, G = WA = RVA. La matriz global será una matriz identidad con las
posibles ambigüedades de permutación, amplitud y signo. El sistema global, el cual se
representa en la Figura 7 para m = 2, puede representarse por el siguiente sistema de
13
ecuaciones:s1(t) = g11s1(t) + g12s2(t),
s2(t) = g21s1(t) + g22s2(t),(14)
La coherencia de las señales a la salida del sistema global la podemos analizar mediante
+
+
s1(n)
s2(n)
s1(n)
s2(n)
g21
g12
g11
g22
Figura 7: Diagrama de bloques del sistema global de mezclas instantáneas para m = 2.
las siguientes ecuaciones
Ps1s1(f) = |g11|2 Ps1s1(f) + |g12|
2 Ps2s2(f), (15)
Ps2s2(f) = |g21|2 Ps1s1(f) + |g22|
2 Ps2s2(f), (16)
Ps1s2(f) = g11g21Ps1s1(f) + g22g12Ps2s2(f), (17)
sustituyendo (15), (16), (17) en (13) tenemos
∣
∣γ s1s2(f)∣
∣
2=
(g11g21)2P 2
s1s1(f) + (g22g12)
2P 2s2s2
(f)
[g211Ps1s1(f) + g221Ps2s2(f)][g222Ps1s1(f) + g212Ps2s2(f)]
. (18)
Analizando la ecuación anterior podemos observar que la estimación de la coherencia
depende de la relación implícita que existe entre las fuentes originales. Debido a que por
definición G es una matriz diagonal, el numerador de la ecuación (18) es cero e implica
14
que la coherencia es cero.
2.2.3. Función de costo
La función de costo que proponemos en ésta sección es el promedio de la coheren-
cia entre todos los pares de vectores (l, k) de s, básicamente la misma propuesta por
Fancourt y Parra (2001) a excepción de unos coeficientes que agregamos para mante-
ner la función de costo acotada entre [0, 1]. Podemos definir a Γs como la matriz de la
coherencia promedio entre todos los pares de vectores de s de la siguiente manera
Γs =
1
fK
∑
∣
∣γ s1s1(f)∣
∣
2 1
fK
∑
∣
∣γ s1s2(f)∣
∣
2· · ·
1
fK
∑
∣
∣γ s1sm(f)∣
∣
2
1
fK
∑
∣
∣γ s2s1(f)∣
∣
2 1
fK
∑
∣
∣γ s2s2(f)∣
∣
2· · ·
...
......
. . ....
1
fK
∑
∣
∣γ sms1(f)∣
∣
2· · · · · ·
1
fK
∑
∣
∣γsmsm(f)∣
∣
2
, (19)
donde fk es el número de frecuencias (tamaño) de la coherencia.
De acuerdo a las propiedades de la coherencia, tenemos que∣
∣γ slsk(f)
∣
∣
2=
∣
∣γ sksl(f)
∣
∣
2
para 1 ≤ l < k ≤ m, por lo que es irrelevante volver a calcular el término en donde los
subíndices (l, k) están cambiados. Además, la coherencia de una señal consigo misma
siempre es uno,∣
∣γ slsk(f)
∣
∣
2= 1 para toda l = k, f = 1, 2, ..., fK. En este caso, ésto no
aporta información para encontrar W y por lo tanto no es necesario agregar este término
en la función de costo. De esta manera encontramos que Γs es una matriz simétrica y
además, la independencia mutua entre las fuentes implica que Γs es una matriz diagonal.
Finalmente, buscaremos minimizar los términos de la matriz triangular superior o inferior
de Γs. La función de costo queda de la siguiente manera:
J =1
M
∑
l,k
fk∑
f=0
1
fk
∣
∣γ slsk(f)
∣
∣
2, (20)
para 1 ≤ l < k ≤ m, donde fk es la longitud del espectro de potencia de los vectores de
s y M es el número de ángulos de rotación. 1/M y 1/fk se agregan a la función de costo
para normalizarla, estando así contenida entre [0, 1].
15
2.2.3.1. Superficie de optimización
La acción de pre-blanqueo nos permitirá, mediante rotaciones, buscar el mínimo en
una superficie J limitada en un espacio de π2
radianes. A continuación mostramos unos
ejemplos. Para m = 2 vemos que J forma una función con un solo mínimo (cf. Figura 8).
Para m = 3 se muestran dos ejemplos, Figuras 9 y 10, en donde el número de variables a
optimizar es 3, es decir θ = (θ1, θ2, θ3). Sin embargo, para poder visualizar hemos reducido
su dimensión al hacer θ3 = 0. De esta manera, se puede observar una superficie de
búsqueda con un mínimo. La acción de blanqueo nos permitirá realizar una búsqueda
0.43
0.44
0.45
0.46
0.47
0.48
0.49
0.5
-40 -30 -20 -10 0 10 20 30 40
J
θ
Figura 8: Función de costo de fuentes Gaussianas coloreadas. m = 2.
en la que nos encontraremos con una función de dimensión m+ 1 en el que contiene un
mínimo global.
2.2.4. Heurística de optimización
El Algoritmo 1 muestra el pseudo-código de nuestro algoritmo de separación ciega ba-
sado en la coherencia con la heurística de optimización de recocido simulado
(Kirkpatrick et al. (1983)) donde x es el vector de observación; E es la esperanza; y
16
-50 -40 -30 -20 -10 0 10 20 30 40 50-50-40-30-20-10 0 10 20 30 40 50
0.08 0.1
0.12 0.14 0.16 0.18
0.2 0.22 0.24
J
θ1
θ2
J
0.08 0.1 0.12 0.14 0.16 0.18 0.2 0.22 0.24
Figura 9: Superficie del costo J para las fuentes gaussianas coloreadas.
-50 -40 -30 -20 -10 0 10 20 30 40 50-50-40-30-20-10 0 10 20 30 40 50
0.1 0.15
0.2 0.25
0.3 0.35
0.4 0.45
0.5
J
θ1
θ2
J
0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Figura 10: Superficie del costo J para las fuentes Speech4.mat (ICALAB web page). m = 3. θ3 = 0.
es el vector preblanqueado; V es la matriz de pre-blanqueo; θ0 = (θ1, ..., θM) es una
solución inicial propuesta; MaxIter es el número máximo de iteraciones; IniTem es el
17
valor inicial de temperatura; ReannealInterval es el intervalo de recocido; TemFcn es la
función utilizada para actualizar el calendario de temperatura; fitness es la función de
costo (20); simulannealbnd es la función de recocido simulado de Matlab que evalúa la
función de costo con los parámetros pertinentes al método recocido simulado; θ∗ es la
solución óptima encontrada; J es el valor del costo; y s son los componentes indepen-
dientes recuperados. Aunque el espacio de búsqueda es de magnitud π2, hay que tomar
Algorithm 1 Algoritmo de BSS basado en la coherencia con recocido simulado
Entrada: vector de mediciones x
Salida: vector estimado s
1: x← x− x
2: y← Vx
3: θ ← θ04: mientras Iter ≤MaxIter hacer5: [θ∗, J ]← simulannealbnd(fitness,y, θ, IniTem,ReannealInterval, T emFcn)6: fin mientras7: devolver θ∗
8: s← R(θ∗)Vx
en consideración que es posible que limitar los espacios de búsqueda entre [0, π2] podría
no llevar a la solución óptima. Un ejemplo claro es el caso en que el mínimo se encuen-
tra en el ángulo − π16
. La ventaja de los métodos de optimización heurísticos, de tener la
probabilidad de salirse de mínimos locales, está en compromiso con la desventaja de su
largo tiempo de procesamiento que requiere para llegar a una solución. Es por ésto que,
para agilizar los resultados, hemos desarrollado otro algoritmo basándonos en el método
de la sección dorada (Vajda (2007)) adaptado para el caso multi-variable, el cual reduce el
tiempo de procesamiento considerablemente. Cabe notar que ésto es posible dado que el
pre-blanqueo de los datos genera una superficie con un mínimo. El pseudo-algoritmo de
esta metodología se muestra en el Algoritmo 2, donde θmin y θmax son los límites inferior
y superior del espacio de búsqueda del algoritmo; I es la matriz identidad; R es la matriz
de rotación en la dirección (i, j); Rold es la matriz de rotación actualizada; a0 y b0 son los
nuevos límites de la iteración; a1 y b1 son las nuevas secciones (nuevos ángulos); Jeval es
la función de costo que evalúa la coherencia entre los vectores i y j en los nuevos puntos
a1 o b1 con resolución espectral a. tol es la longitud de la mínima sección de búsqueda
en radianes; Ja1 y Jb1 son el costo obtenido de evaluar en los puntos (grados) a1 y b1 res-
pectivamente; ρ es el número de oro; W es el sistema inverso; y s son los componentes
18
independientes recuperados.
Algorithm 2 Algoritmo de BSS basado en la coherencia con método de sección doradamultivariableEntrada: vector de mediciones x
Salida: vector estimado s
1: x← x− E(x)2: y← Vx
3: a0 ← θmin ← −π/4; b0 ← θmax ← π/44: Rold ← R← I
5: para kk = 1 : MaxIter hacer6: para i = 1 : m− 1 hacer7: para j = i+ 1 : m− 1 hacer8: a1 ← a0 + ρ(b0 − a0)9: b1 ← a0 + (1− ρ)(b0 − a0)
10: [ya1 , Ja1 ]← Jeval(a1,y, i, j, a)11: [yb1 , Jb1]← Jeval(b1,y, i, j, a)12: θdif ← |a1 − b1|13: mientras θdif ≥ tol hacer14: Eval ← Eval + 115: si Ja1 < Jb1 entonces16: b0 ← b1; b1 ← a1; Jb1 ← Ja1
17: a1 ← a0 + ρ(b0 − a0)18: [ya1 , Ja1 ]← Jeval(a1,y, i, j, a)19: si no ⊲ Continua en la siguiente página
2.3. Experimentos, resultados y discusión
2.3.1. Criterio de desempeño
El desempeño en la separación de los componentes estimados puede medirse usando
la medida razón señal-a-interferencia (SIR, por sus siglas en inglés: Signal-to-interference
ratio) Cichocki y Amari (2002). Esta medida nos da la relación en decibelios de la razón de
la magnitud de la señal con respecto a la del ruido de los componentes recuperados. Para
realizar este cálculo se utilizan la matriz inversa estimada W y la matriz A. Se calcula la
matriz global del sistema G y se compara la cercanía con la matriz identidad I (p. 161).
Teóricamente, si la separación de los componentes es perfecta, la matriz G es siempre
una matriz identidad. Sin embargo, debido a las ambigüedades que son inherentes a la
metodología de la separación ciega de fuentes, la matriz G suele ser una matriz diagonal.
La matriz G se normaliza resolviendo las ambigüedades de escalamiento, permutación y
19
20: a0 ← a1; a1 ← b1;Ja1 ← Jb1
21: b1 ← a0 + (1− ρ)(b0 − a0)22: [yb1Jb1 ]← Jeval(b1,y, i, j, a)23: fin si24: θdif ← |a1 − b1|25: fin mientras26: si Ja1 < Jb1 entonces27: J ← Ja1 ; θ ← a1; y← ya1
28: si no29: J ← Jb1 ; θ ← b1; y← yb1
30: fin si31: R(i, i) = cos(θ)32: R(j, j) = cos(θ)33: R(i, j) = sin(θ)34: R(j, i) = −sin(θ)35: R← R×Rold
36: Rold ← R
37: R = I
38: a0 ← θmin; b0 ← θmax
39: fin para40: fin para41: fin para42: devolver W← Rold
43: s←Wx
20
signo, el cual se puede realizar sencillamente a posteriori. De esta manera, el desempeño
se obtiene mediante la siguiente ecuación:
SIRA = −20 log10 (‖gi − ui‖2) , (21)
donde gi es el i-ésimo renglón de la matriz global normalizada G, y ui es el i-ésimo ren-
glón de la matriz identidad I. En la literatura se encuentra que una separación satisfactoria
se obtiene a partir de 16dB.
2.3.2. Separación de procesos estacionarios Gaussianos colorea-
dos
Para comprobar el desempeño del algoritmo propuesto se realizó una comparación de
la metodología propuesta contra otra metodología SOS (Second Order Blind Identification
(SOBI)). El algoritmo propuesto fue programado en una rutina de Matlab e implementa-
do en el toolbox ICALAB Cichocki et al. (2007). Se realizaron experimentos para dos y
tres fuentes. Las fuentes s1, s2 y s3 se generaron al pasar ruido blanco gaussiano por
un proceso Autoregressive–moving-average (ARMA) (butterworth de cuarto orden) con
frecuencias de corte normalizadas de 0.4, 0.7 y 0.9, respectivamente. Las fuentes son
procesos mutuamente descorrelacionados.
Metodología Procesos Gaussianos coloreados- SIRdB
2-fuentes 3-fuentesnd µ σ µ σ
SOBI 48.9 3.9× 10−9 41.01 0.01MSC-BSS 8 71.91 5.53 36.13 11.78MSC-BSS 16 71.84 4.58 39.6 10.95MSC-BSS 32 71.28 3.73 39.04 10.12
Tabla 1: Resultados del análisis Montecarlo para fuentes gaussianas coloreadas. µ y σ son la mediay desviación estándar del SIR. nd es el número de segmentos o promediaciones utilizados en laestimación de la coherencia.
En la Tabla 1 se muestran los resultados para 50 simulaciones. En cada prueba se
generó la matriz A con una distribución uniforme. La matriz W fue estimada usando el
Algoritmo 1 y el desempeño de separación se obtuvo usando el índice SIR.
21
El desempeño del algoritmo propuesto es satisfactorio a pesar de que las fuentes son
no estacionarias. Sin embargo, al aumentar a tres el número de fuentes se reduce el
desempeño del algoritmo propuesto mientras que el desempeño del SOBI es mejor.
2.3.3. Separación de señales no estacionarias
En esta sección se muestra un ejemplo de mezclas de sonidos respiratorios y cardia-
cos. El propósito de esta sección es comprobar el desempeño del algoritmo cuando se
utilizan señales no estacionarias. Sin embargo, no refleja una situación de un caso real.
Las observaciones fueron tomadas de Gibbs (2000) y Lehrer (2002). Cada señal cons-
ta de 60, 000 muestras capturadas a 8000Hz. La Figura 11 muestra la serie de tiempo y
densidad espectral de las fuentes.
-0.7-0.35
0 0.35
0.7
0 1 2 3 4 5 6 7
Am
plitu
d
t
(a)
s1
0 1000 2000 3000 4000
dB/H
z
Hz
(b)
Ps1s1
-0.45-0.3
-0.15 0
0.15 0.3
0.45
0 1 2 3 4 5 6 7
Am
plitu
d
t
(c)
s2
0 1000 2000 3000 4000
dB/H
z
Hz
(d)
Ps2s2
Figura 11: a) Sonido cardiaco s1. b) Ps1s1 densidad espectral de potencia del sonido cardiaco. c)Sonido respiratorio normal s2. d) Ps2s2 densidad espectral de potencia del sonido respiratorio.
La Tabla 2 muestra el resultado para 50 experimentos. En cada experimento la matriz
A fue generada aleatoriamente con una distribución uniforme. La matriz W fue estima-
da usando el algoritmo 1 y se obtuvo el índice de desempeño SIR. El desempeño del
algoritmo propuesto es satisfactorio a pesar de que las fuentes son no estacionarias.
22
Metodología SIRdB
nd µ σSOBI 6.96954 5.1882
MSC-BSS 8 37.6332 0.013168MSC-BSS 16 38.3169 0.017407MSC-BSS 32 38.5438 0.018006
Tabla 2: Resultado de la prueba Montecarlo usando dos fuentes no estacionarias. µ y σ son la mediay desviación estándar SIR.
2.3.4. Un ejemplo real de separación de fECG
En esta sección mostramos la separación de fECG con datos reales, por medio del
algoritmo propuesto 2. Los datos se obtuvieron de la base de datos Abdominal and Direct
Fetal Electrocardiogram Database, que contiene grabaciones multicanal de electrocar-
diogramas fetales(fECG) Jezewski et al. (2012). Cada grabación se compone de cuatro
señales diferenciales adquiridas del abdomen de la madre y además cuenta con el elec-
trocardiograma fetal directo usado como referencia obtenido directamente de la cabeza
del feto.
Información adicional sobre la adquisición y pre-procesamiento de las señales
(Goldberger et al. (2000)):
Las señales fueron registradas durante el parto, entre 38 y 41 semanas de gesta-
ción.
Cuatro señales adquiridas del abdomen materno.
Electrocardiograma directo grabado simultáneamente desde la cabeza fetal.
El posicionamiento de los electrodos fue constante durante todas las grabaciones.
Los electrodos fueron de Ag-AgCl (3M Red Dot 2271).
Se utilizó material abrasivo para mejorar la conductancia cutánea (3M Red Dot ras-
tro Prep 2236).
El ancho de banda fue de 1 Hz - 150 Hz con un muestreo sincrónico de todas las
señales.
23
Se realizó un filtrado digital adicional para la eliminación de interferencias de la línea
eléctrica (50 Hz) y deriva de referencia.
Se utilizó una frecuencia de muestreo de 1 kHz.
Resolución de 16 Bits.
La Figura 12 muestra 5000 muestras de los cuatro canales. Cada sensor proporciona
una señal en la que el fECG y mECG están mezclados junto con otras señales indesea-
bles. La Figura 13 muestra la salida del algoritmo propuesto 2. El electrocardiograma fetal
directo se muestra para fines de comparación con la señal de fECG extraído. El estima-
do de la fuente 3 muestra la mECG mejorada y sin ruido. Las fuentes estimadas 1 y 2
muestran ruido de fondo o señales no deseadas. La fuente estimada 4 muestra en ma-
yor medida la fECG pero todavía mezclada con el maternal Electrocardiogram (mECG).
Debido a ésto, se realiza un post-procesamiento basado en ondeletas para acondicionar
la señal fetal Electrocardiogram (fECG) y eliminar la señal espuria mECG, tal como se
muestra en Vigneron et al. (2003). Sin embargo, la BSS representa un primer paso muy
importante en la mejora de las señales de fECG.
24
-50-25
0 25 50
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
µV
Sensor 1
-75-50-25
0 25 50
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
µV
Sensor 2
-30-15
0 15 30
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
µV
Sensor 3
-30-15
0 15 30 45
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
µV
Sensor 4
Figura 12: Cuatro canales del ECG materno.
25
-4-2 0 2 4
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
µV
Fuente estimada 1
-4-2 0 2 4
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
µV
Fuente estimada 2
-2 0 2 4 6
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
µV
Fuente estimada 3
-4-2 0 2 4 6
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
µV
Fuente estimada 4
-200-100
0 100 200
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
µV
Electrocardiograma fetal directo
Figura 13: Fuentes estimadas con el algoritmo propuesto 2 y fECG directo tomado de la cabezadel feto (señal inferior). La señal fetal directa se muestra con fines de comparación con la fECGestimada.
26
Capítulo 3. La función coherencia en separación de se-
ñales gaussianas independientes e idéntica-
mente distribuidas
En Darmois (1953) se determinó que el problema de separación de señales gaussia-
nas iid no tiene solución. En este tipo de señales no existe información de gaussianidad,
estacionalidad o correlación temporal que permita a las diferentes metodologías de HOS
o SOS recuperar los componentes. Sin embargo, el recurso de la varianza es el único
que podemos utilizar para realizar una separación.
Las señales gaussianas iid tienen la misma forma de densidad espectral de potencia,
Ps1s1(f) = Ps2s2(f). Por lo tanto, la ecuación (18) se reduce a la siguiente expresión
∣
∣γ s1s2(f)∣
∣
2=
(g11g21)2 + (g22g12)
2
[g211 + g221][g222 + g212]
. (22)
Bajo la suposición de que la varianza sea unitaria en las fuentes, la ecuación (22) no se
verá afectada por el factor de rotación que provee la matriz R, haciendo que sea imposible
recuperar los componentes independientes. En otras palabras, bajo esas condiciones la
función (22) no tiene un mínimo. Sin embargo, las varianzas de las fuentes son modi-
ficadas al pasar por el sistema de mezclado. Esta modificación en la varianza puede
agregar información que puede ser utilizada para recuperar las fuentes. De cierto modo
se puede ver que si la varianza de una de las fuentes es muy grande con respecto a la
otra, la relación señal a ruido será relativamente grande. Entonces, si la transformación
de blanqueo es evitada, es posible utilizar las razones de varianza que proporciona la
matriz de mezclado para lograr la separación, ésto se puede ver en la ecuación (22). La
información de la varianza que usamos para encontrar los componentes principales tiene
similitud con la metodología Análisis de Componentes Principales (Princpal Component
Analysis (PCA), por sus siglas en inglés: Princpal Component Analysis).
3.1. Método Propuesto
En la separación de fuentes gaussianas iid se harán las siguientes suposiciones:
27
A es de rango pleno m y es ortogonal.
s(t) son fuentes gaussianas iid.
Como se encontró en (22), para mezclas de fuentes gaussianas iid, el estimado de la
coherencia depende únicamente de la potencia de las observaciones. Por lo tanto, la
razón de varianza entre las fuentes puede usarse para encontrar una transformación
en donde la coherencia es mínima. En la Figura 14 se muestra un ejemplo para dos
fuentes gaussianas iid mezcladas ortogonalmente con una razón de varianza deσ1
σ2
=
4, y con A =
2 0
0 1
. La Figura 14 se obtiene al aplicar rotaciones R en el espacio
[−π/4, π/4]. El mínimo de la función se encuentra e cuando R = I. Hay que señalar que
la polarización en la estimación de la coherencia, que es reducido al aumentar el número
de promediaciones (Carter, 1993), no influye en la posición del mínimo de la función J.
El método se describe en el Algoritmo 3 y sólo difiere del Algoritmo 1 en que se omite la
operación de pre-blanqueo.
Algorithm 3 Algoritmo de BSS basado en la coherencia con recocido simulado parafuentes gaussianas iid
Entrada: vector de mediciones x
Salida: vector estimado s
1: x← x− x
2: θ ← θ03: mientras Iter ≤MaxIter hacer4: [θ∗, J ]← simulannealbnd(fitness,x, θ, IniTem,ReannealInterval, T emFcn)5: fin mientras6: devolver θ∗
7: s← R(θ∗)x
3.2. Experimentos y resultados
Consideramos una comparación para la extracción de fuentes gaussianas iid para
fuentes con diferentes razones de varianza. Se usaron dos procesos Gaussianos iid con
media cero para los experimentos, s1(t) y s2(t), donde Ps1s1(f) = σ21 y Ps2s2(f) = σ2
2 = 1.
σ21 fue variado para tener una razón de varianza de 1 a 16 en incrementos de 0.1. Se
realizaron 50 experimentos para cada razón de varianza.
28
Figura 14: La superficie J para dos fuentes gaussianas iid. Cada curva es generada a partir delestimado de la coherencia usando un número determinado de bloques promediados, nd tal como seindica en la leyenda. La razón de varianza entre ambas fuentes es 4.
El vector de observación fue generado mediante s = R(θ)s(t), donde R(θ) es una
matriz de rotación y θ es el ángulo de rotación, el cual ha sido generado aleatoriamente
en el intervalo [0, π/2]. El algoritmo propuesto y el algoritmo SOBI fueron usados para
estimar la matriz W a partir de las observaciones; la operación de pre-blanqueo no se
realiza en esta sección.
De la Figura 15 se observa que el desempeño de separación de la fuentes gaussia-
nas iid mejora conforme aumenta la razón entre las varianzas de las señales. Para una
relación de 2 a 1 se empieza a tener un buen desempeño de separación. Por otro lado,
se observa que el algoritmo SOBI no logra separar las fuentes gaussianas iid, aunque
sorprendentemente se observa una mejora en el desempeño de separación al aumentar
las razón entre las varianzas de las señales.
3.3. Conclusiones
En esta sección presentamos dos algoritmos basados en la función de coherencia
para resolver el problema de BSS de mezclas instantáneas lineales. En la primera me-
todología, Algoritmo 1, se busca minimizar la función de costo basado en la coherencia
29
0
20
40
60
80
100
2 4 6 8 10 12 14 16
SIR
σ2i /σ
2j
sobiMSC-BSS nd=8
MSC-BSS nd=16MSC-BSS nd=32
Figura 15: Desempeño de separación de fuentes gaussianas iid usando la metodología basada enla razón de varianza. Se muestra diferentes desempeños utilizando distintos segmentos de prome-diación. Al incrementarse la razón entre las varianzas incrementa el desempeño.
mediante un método heurístico, recocido simulado. Los resultados muestran un rendi-
miento satisfactorio en comparación con un método del estado del arte. En la segunda
metodología, Algoritmo 2, se cambia el método de optimización. Al cambiar el método de
recocido simulado por la sección dorada se disminuye considerablemente el tiempo de
procesamiento en la estimación de las fuentes originales. Finalmente presentamos expe-
rimentos con datos reales relacionados con la extracción de señales Electrocardiogram
(ECG), la cual muestra los alcances de la metodología propuesta en el acondicionamiento
de señales.
30
Capítulo 4. La función coherencia en separación ciega
de fuentes de mezclas instantáneas lineales
con ruido blanco
En este capítulo se presenta un algoritmo que nos permite resolver el problema de
BSS de mezclas instantáneas con ruido. El algoritmo propuesto se basa en la suma de la
Magnitude-squared coherence (MSC), y una regla de umbral. El MSC se calcula utilizando
el método de Welch (1967), que utiliza los promedios de las densidades espectrales de
potencia del vector de observación. Dado que el efecto de la promediación es fuerte en
ruido blanco, proponemos una regla de umbral para detectar la concentración de potencia
de las señales no estacionarias. Mediante la selección de una banda donde el Signal-to-
noise ratio (SNR) es alto, y por lo tanto el ruido pequeño, se logra estimar la matriz de
mezclado al minimizar la función de costo propuesta.
4.1. Introducción
En aplicaciones reales, debido a la naturaleza del problema de separación ciega de
fuentes, no es posible evaluar realmente el desempeño obtenido. En el caso de que las
suposiciones sobre el modelado y/o sobre las señales no sean totalmente satisfechas, la
matriz W tendrá polarización, lo cual propiciará que las señales estimadas sigan estando
correlacionadas entre ellas, teniendo como consecuencia una degradación en el desem-
peño de separación, sobre todo para los métodos diseñados a partir de la operación de
pre-blanqueo.
Algunas técnicas para determinar si el algoritmo fue capaz de recuperar los compo-
nentes independientes es verificar si los componentes estimados son mutuamente inde-
pendientes, o si las fuentes están descorrelacionadas entre ellas. Es importante señalar
que la MSC aporta esa característica visual que permite verificar si las fuentes estima-
das están descorrelacionadas temporalmente. En la Figura 16 se muestra un ejemplo
arbitrario de la separación ciega de fuentes en donde el modelo estimado presenta pola-
rización. En esta ocasión, la coherencia muestra diafonía en los componentes estimados.
En la coherencia de la Figura 16 se observan que ciertas armónicas ((0 − 500Hz)), que
31
corresponden al sonido cardiaco, están todavía correlacionadas en ambos vectores, s1 y
s2. También se observa que entre el ancho de banda (2000 − 3800Hz) hay ruido blanco
correlacionado. Esta información ofrecida por la coherencia suele representar una herra-
mienta muy útil en el problema de separación ciega de fuentes.
-0.6-0.4-0.2
0 0.2 0.4 0.6
0 1 2 3 4 5 6 7
t
(a)
Estimado de s1
-0.6-0.4-0.2
0 0.2 0.4 0.6
0 1 2 3 4 5 6 7
t
(b)
Estimado de s2
0 0.2 0.4 0.6 0.8
1
0 500 1000 1500 2000 2500 3000 3500 4000
γ 2
Hz
(c)
Coherencia
Figura 16: a) Estimación de s1. b) Estimación de s2. c) Coherencia. La coherencia entre las fuentesestimadas muestra una diafonía evidente.
32
El problema de separación ciega de fuentes se torna más difícil cuando las obser-
vaciones están contaminadas por ruido blanco adherido. Algunos trabajos relacionados
para resolver este problema se muestran en Choi y Cichocki (2000), Cardoso y Pham
(2004), Douglas et al. (1998), Vorobyov y Cichocki (2002). Varias aplicaciones recientes
de este problema, dentro del análisis de señales biomédicas, se muestran en Hesse
(2008); Romo Vázquez et al. (2012); Crespo-Garcia et al. (2008). El nuevo modelo puede
representarse mediante la siguiente expresión:
x(t) = As(t) + n(t), t = 1, 2, ..., (23)
donde x(t) ∈ Rn es el vector de observación, s(t) ∈ R
m es el vector de fuentes descono-
cidas, A ∈ Rn×m es la matriz que modela el proceso de mezclado, n(t) es ruido blanco
gaussiano y t es el índice de tiempo. En este capítulo se suponen igual número de fuentes
y sensores (n = m). El objetivo de BSS con ruido es el de encontrar una transformación
lineal W a partir de las observaciones sin la influencia del ruido adherido:
s(t) = Wx(t) = WAs(t) +Wn(t), t = 1, 2, ... (24)
donde s ∈ Rm es el estimado ruidoso de las fuentes s, y W = A−1. La matriz de sepa-
ración W estará dada por W = DPA−1, donde P es una matriz de permutación y D es
una matriz diagonal. P y D se introducen para tomar en cuenta las ambigüedades de
escalamiento, signo y permutación de BSS.
El algoritmo propuesto se basa en la MSC y una regla de umbral. La MSC se calcula
usando el método de Welch (1967), el cual promedia las densidades espectrales de po-
tencia del vector de observación. El efecto de realizar promediaciones sobre ruido blanco
es el de uniformar su densidad espectral de potencia (Power Spectral Density (PSD),
por sus siglas en inglés: Power Spectral Density), mientras que por el contrario resalta
las señales periódicas. De esta manera podemos agregar una regla para identificar la
concentración de potencia de las observaciones de las señales no estacionarias. La es-
timación de la matriz de mezclado se realiza mediante la minimización de la función de
costo propuesta mediante la selección del ancho de banda donde la SNR es alta, y por
33
consiguiente la polarización causada por el ruido es reducida.
4.2. Suposiciones
En el análisis de este capítulo consideraremos las siguientes suposiciones:
1. A es de rango pleno m.
2. s(t) se suponen mutuamente descorrelacionadas pero temporalmente correlaciona-
das.
3. n(t) es ruido aditivo con media cero e independiente de las fuentes originales.
4.3. La MSC en el modelo de BSS con ruido blanco
Para recuperar los componentes en el modelo BSS con ruido blanco tenemos que
encontrar una transformación W, la cual hará a WA una matriz diagonal, mientras que
la estimación de la MSC entre el vector de las fuentes estimadas, s, es cero. La ecua-
ción (24), la cual es la solución propuesta para el problema de BSS con ruido, puede
reescribirse de la siguiente forma:
s(t) = Wx(t) = Gs(t) +Wn(t), t = 1, 2, ..., (25)
donde G = WA es la matriz diagonal global, la cual combina al modelo mezclador y
separador. Analizando la MSC entre las fuentes estimadas (m = 2), dada por
s1(t) = g11s1(t) + g12s2(t) + w11n1(t) + w12n2(t),
s2(t) = g21s1(t) + g22s2(t) + w21n1(t) + w22n2(t),(26)
donde n1(t) y n2(t) son el ruido adherido, gij y wij son los (i, j)−ésimos elementos de G y
W, respectivamente. Por consiguiente, mediante el cálculo de Ps1s1(f), Ps2s2(f), Ps1s2(f)
y sustituyendo en la ecuación (13), y tomando en cuenta que las PSD’s del ruido blanco
34
son iguales (Pn1n1= Pn2n2
= Pnn), la MSC nos da la siguiente ecuación:
∣
∣γ s1 s2(f)
∣
∣
2=
(g11g21)2P 2
s1s1(f) + (g12g22)
2P 2
s2s2(f) + [w11w21 + w12w22]
2P 2
nn(f)
[g211Ps1s1(f) + g2
12Ps2s2(f) + [w2
11+ w2
12]Pnn(f)][g221Ps1s1(f) + g2
22Ps2s2(f) + [w2
21+ w2
22]Pnn(f)]
. (27)
La ecuación (27) implica que no se puede realizar una función de costo para recuperar las
fuentes, aun si G es diagonal, porque el estimado de la MSC no es cero. El término, en
el numerador de la ecuación, que contiene una señal proporcional a la amplitud del ruido,
no permite encontrar un mínimo en el cual G es diagonal. Por otro lado, en un escenario
donde la SNR es grande, Ps1s1(f), Ps2s2(f) >> Pnn(f), la ecuación (27) se reduce a la
MSC entre señales del modelo sin ruido
∣
∣γ s1s2(f)∣
∣
2≈
(g11g21)2P 2
s1s1(f) + (g12g22)2P 2
s2s2(f)
[g211Ps1s1(f) + g212Ps2s2(f)][g221Ps1s1(f) + g222Ps2s2(f)
, (28)
donde se puede minimizar la coherencia y recuperar las fuentes originales al hacer cero
el numerador (G es diagonal), lo cual implica encontrar W. Por el contrario, en un esce-
nario con SNR bajo, Pnn(f) >> Ps1s1(f), Ps2s2(f), la ecuación (27) nos lleva a la siguiente
aproximación∣
∣γ s1s2(f)∣
∣
2≈
[w11w21 + w12w22]2P 2
nn(f)
[w211 + w2
12]Pnn(f)[w221 + w2
22]Pnn(f)]. (29)
Esta función permanece constante y no puede minimizarse, por lo tanto W no se puede
obtener por la falta de información espectral. Considerando los escenarios posibles antes
mencionados, la idea principal del método propuesto es considerar solamente aquellas
frecuencias (f) de la MSC en donde el SNR es lo suficientemente grande como para
lograr la estimación de W. De esta manera, el estimado de la MSC está dado por la
ecuación (28), logrando la separación de las fuentes originales.
35
4.4. Método Propuesto
4.4.1. Umbral de detección de potencia de señal y función de selec-
ción de ancho de banda
El algoritmo propuesto está basado en la suma de la MSC y una función semejante
a un filtro pasabanda. La función pasabanda se obtiene en el dominio de la frecuencia
mediante una metodología de umbral propuesta que selecciona varias frecuencias, de
acuerdo en donde esté concentrada la potencia de las señales no estacionarias. El ancho
de banda de la función pasabanda se obtiene al seleccionar las frecuencias con mayor
potencia de la PSD del vector de observación, el cual es calculado mediante el método de
Welch. El ancho de banda se selecciona de acuerdo a cierto nivel de umbral (treshold),
el cual es calculado por
threshold = µPxx + 2σPxx, (30)
donde µPxx y σPxx son la media y desviación estándar de las PSDs promediadas del
vector de observación, respectivamente. El efecto de las promediaciones sobre el ruido
blanco hace que su espectro de potencia tenga una distribución uniforme, lo que implica
tener una potencia promedio constante en todas las frecuencias. Entonces, se supone
que cualquier señal que exceda ese umbral de potencia, pertenecerá a la potencia de las
señales no estacionarias. El pasabanda seleccionado tendrá una SNR grande; de esta
manera, la polarización introducida por el vector de ruido es despreciable. El Algoritmo
4 muestra los pasos básicos para obtener la función pasabanda, BW (f), la cual selec-
cionará las frecuencias con mayor potencia. Seleccionando threshold con un valor bajo,
threshold < µPxx, nos conducirá a la recuperación de una matriz de mezclado con po-
larización a causa de la influencia del ruido. El tener un umbral demasiado alto puede
omitir información útil de alguna de las fuentes originales, específicamente en situaciones
con altos niveles de ruido, lo cual conduciría a separar solamente las fuentes de potencia
mayor. El menor umbral posible es cero y solamente se aplica para el modelo de BSS sin
ruido. Empíricamente hemos encontrado, de nuestra sección de resultados, que un buen
desempeño de separación puede obtenerse con el umbral de la ecuación (30).
36
Algorithm 4 Selección de banda BW(f)
Entrada: vector de mediciones x
Salida: función BW (f)1: Calcula la PSD, Pxx(f), del vector de observación x(t) mediante el método de Welch.2: Calcula la media y la desviación estándar de Pxx(f), µPxx
y σPxxrespectivamente.
3: Calcula threshold, mediante la ecuación (30).4: para todo f hacer5: si Pxx(f) ≥ threshold entonces6: BW (f) = 17: si no8: BW (f) = 09: fin si
10: fin para11: BW (f) selecciona el ancho de banda con la mayor SNR.
4.4.2. Criterio de optimización
Como se mostró en Fancourt y Parra (2001), una función de costo para más de 2
fuentes puede obtenerse si usamos la suma de la MSC entre los m(m − 1)/2 pares de
vectores (l, k) de s, donde 1 ≤ l < k ≤ m y m es el número de fuentes. Como la MSC es
una operación simétrica∣
∣γ slsk(f)
∣
∣
2=
∣
∣γ sk sl(f)
∣
∣
2, es suficiente con calcular la MSC entre
los pares de vectores (l, k). Por otro lado, la MSC entre vectores linealmente dependientes
siempre es uno,∣
∣γ slsk(f)
∣
∣
2= 1 para toda f cuando l = k, por lo tanto, es irrelevante
incluirlo en el criterio, evitando redundancia de cálculo. La función de costo propuesta es
la siguiente:
J =∑
l,k
∑
f=0
∣
∣γ slsk(f)
∣
∣
2(BW (f)). (31)
La ecuación (31) es minimizada mediante el enfoque de optimización heurístico recocido
simulado 1. Los pasos de la metodología propuesta se muestran en el Algoritmo 5.
4.5. Experimentos y resultados
En esta sección se presenta una comparación del algoritmo propuesto con algunos
algoritmos BSS. Se presentan experimentos para dos fuentes (m = 2, l = 1 y k = 2), para
1Parámetros del toolbox de optimización de Matlab (simulannealbnd): AnnealingFcn: @annealingfast;TemperatureFcn: @temperatureboltz; AcceptanceFcn: @acceptancesa; MaxIter: m*300; InitialTemperatu-re: 0.1; ReannealInterval: 400.
37
Algorithm 5 Algoritmo nMSC-BSS
Entrada: vector de mediciones x
Salida: vector estimado s
1: Remueve la media de las observaciones.2: Normaliza el vector de observación.3: Calcula BW(f) (Algoritmo 4).4: procedimiento Recocido simulado5: mientras mientras el número máximo de iteraciones no se alcance hacer6: Genera una solución aleatoria, W (matriz normalizada), de acuerdo a un calenda-
rio de temperatura.7: Genera s, ecuación (24).8: Calcula el costo J, ecuación (31).9: La solución es aceptada o rechazada de acuerdo a un calendario de temperatura.
10: fin mientras11: fin procedimiento12: W∗ es la mejor solución encontrada.
un número relativo bajo y para uno alto de muestras, y para varios niveles de umbral. Se
utilizaron sonidos cardiacos y pulmonares como fuentes, y fueron mezcladas mediante
la matriz A; sin embargo, sus mezclas no representan el ambiente real, ya que el medio
donde se generan y mezclan estas señales en la realidad es un sistema mucho más
complejo el cual sigue siendo objeto de estudio.
La metodología propuesta nMSC-BSS se implementó en el toolbox ICALAB
Cichocki et al. (2007) y se comparó con otros métodos SOS como el SOBI
Belouchrani et al. (1997), SOBI-RO Choi y Cichocki (2000). El índice de desempeño SIR
se usó con fines de comparación. Un SIR mayor a 16dB indica que se obtuvo un buen
desempeño. La MSC se calcula mediante el método de Welch con 50 % de traslape entre
segmentos, y los segmentos son modificados por una ventana Hamming. Se realizaron
experimentos con diferentes números de segmentos nd = 8, 16, 32, para el cálculo de la
MSC. También se usó nd como número de segmentos promediados en la estimación de
Pxx(f) mediante el método de Welch. La longitud de los segmentos es p = 2α, donde
α = floor(log2(β)) y β = Length(x(t))/nd. Se agregó ruido blanco a las observaciones a
razones de 0, 10 y 20 dB. El nivel de ruido se define como
SNRi = 10 log10var(xi)
var(ni), (32)
38
donde var(xi) es la varianza de la señal sin ruido aditivo proporcionada por el i−ésimo
sensor y var(ni) es la varianza del ruido en el i−ésimo sensor, en estos experimentos
i = 1, 2. El Algoritmo 5 se implementó en el toolbox ICALAB. La media y desviación
estándar del SIR de la comparación entre las metodologías se muestran en las tablas 3
y 4. Los sonidos cardiacos se obtuvieron de Lehrer (2002). Los sonidos pulmonares se
obtuvieron de Gibbs (2000).
Experimento 1. El primer experimento consiste de fuentes con un número relativo
grande de muestras. 4.08 segundos de muestras de sonidos cardiacos y pulmonares
muestreados a una razón de 44.1KHz fueron mezclados por matrices A2×2. 50 prue-
bas se realizaron en este experimento en el cual cada matriz A2×2 se genera mediante
una función con distribución uniforme. La Tabla 3 muestra los resultados obtenidos de la
comparación. De ahí podemos observar que el método propuesto muestra los mejores
resultados a 0dB y 10dB para threshold = µPxx+2σPxx y nd = 8, mientras que, para 20dB
SNR threshold = µPxx y nd = 32 se obtuvo el mejor desempeño dado que se obtuvo el
SIR más alto. En la Figura 17 se muestran los resultados obtenidos del toolbox ICALAB
para un SNR = 0dB. Se observa que la metodología propuesta presenta una distribución
semejante a una gaussiana.
Experimento 2. El segundo experimento consiste de fuentes con un número relativa-
mente bajo de muestras. 4.08 segundos de mezclas de sonidos cardiacos y pulmonares
muestreados a una razón de 8KHz fueron mezclados por una matriz A2×2. 50 pruebas se
realizaron en este experimento en el cual cada matriz A2×2 es generada aleatoriamente
mediante una función de distribución uniforme. La Tabla 4 muestra los resultados de la
comparación. A partir de los resultados podemos ver que el método Robust Second Order
Blind Identification (SOBI-RO) es un poco mejor que el Algoritmo 5 con respecto al SIR
obtenido, sin embargo la desviación estándar del SIR de nuestro algoritmo es mejor.
Las Tablas 3 y 4 muestran los resultados de los experimentos 1 y 2, respectivamente.
En ambos casos: a) Algoritmo propuesto con umbral threshold = µPxx+2σPxx
. b) Algoritmo
propuesto con umbral threshold = µPxx. Los valores mostrados son la media y desviación
estándar (entre paréntesis) del SIR para 50 pruebas.
39
Tabla 3: Resultados del experimento 1.
Algoritmo 0dB 10dB 20dBSOBI 7.06 (4.16) 6.99(4.52) 6.82(3.48)SOBI-RO 12.98 (9.10) 26.19(11.69) 32.91(10.60)a)nMSC-BSS 8 30.81(12.64) 37.76(12.54) 43.92(9.96)nMSC-BSS 16 25.92(8.62) 33.81(10.36) 38.56(7.74)nMSC-BSS 32 27.42(10.28) 36.03(10.39) 43.67(8.40)b)nMSC-BSS 8 15.76(9.39) 27.28(11.77) 40.00(11.39)nMSC-BSS 16 21.73(10.88) 33.01(13.70) 42.28(11.69)nMSC-BSS 32 21.51(10.19) 33.92(15.13) 45.38(14.03)
Tabla 4: Resultados del experimento 2.
Algoritmo 0dB 10dB 20dBSOBI 6.1 (3.32) 6.25(3.62) 7.39 (4.50)SOBI-RO 23.89 (12.56) 36.86(9.76) 42.20(6.84)a)nMSC-BSS 8 23.04 (7.34) 31.98(10.54) 38.75(8.01)nMSC-BSS 16 23.84 (7.82) 34.27(9.62) 42.30(8.68)nMSC-BSS 32 22.95 (7.63) 31.21(6.79) 33.27(4.03)b)nMSC-BSS 8 18.46 (9.29) 29.10(9.43) 37.31(7.63)nMSC-BSS 16 18.96 (10.15) 30.78(11.02) 38.19(7.85)nMSC-BSS 32 17.47 (9.26) 26.57(8.90) 36.08(8.88)
4.6. Discusión y trabajo futuro
Es bien conocido que el método de Welch reduce la resolución en frecuencia de la
PSD de cualquier señal. Se da por entendido que cuando el número de muestras aumen-
ta también lo hace la resolución de la PSD del vector de observación, de esta manera
aumentando la información espectral que puede usarse para lograr la separación, tal
como se observa en los experimentos. De lo resultados podemos observar que, en el
Experimento 1, el método propuesto es superior comparado con otros métodos SOS. Sin
embargo, el desempeño de ambos, el propuesto y SOBI-RO, son bastante aceptables. Por
otro lado, la media del SIR de SOBI-RO es apenas mejor que el del algoritmo propuesto
a 0dB y 10dB de SNR durante el Experimento 2. Sin embargo, a un SNR más bajo, el
SOBIRO tiene una desviación estándar más grande y en sus resultados muestran un dis-
tribución dispareja. La desviación estándar en los resultados del algoritmo propuesto es
40
menor y con una distribución semejante a una gaussiana, lo que indica que la metodolo-
gía propuesta presenta un mejor intervalo de confianza. En una aplicación real significaría
tener una mejor posibilidad de obtener un buen desempeño de separación. Los SIR obte-
nidos en los experimentos con el método SOBI no son satisfactorios y por ésta razón, la
comparación de su desviación estándar con los otros métodos, no se considera válida.
4.7. Conclusiones
En este capítulo hemos propuesto un algoritmo muy simple y eficaz para el caso de
separación ciega de fuentes con ruido que se basa en la función de coherencia y una regla
de umbral. Mostramos una comparación con los algoritmos existentes y encontramos
un desempeño superior de nuestro algoritmo. También, hemos encontrado que nuestros
resultados muestran una mejor intervalo de confianza en el rendimiento de la separación.
41
0 10 20 30 40 50 600
2
4
6
8
10
12
14
16
18
20
Mean SIRs for A [dB]
Parameters of the statistics: Mean = 7.06732 12.9849 30.8137 25.9283 27.4212 [dB], Std = 4.16 9.10055 12.6403 8.62706 10.2861 [dB]
SOBISOBI-ROnMSC-BSS 8nMSC-BSS 16nMSC-BSS 32
Figura 17: Comparación de rendimiento de varios algoritmos BSS obtenido de ICALAB toolbox. El algoritmo propuesto muestra una distribuciónsemejante a una gaussiana, mientras que los otros algoritmos muestran una distribución dispareja.
42
Capítulo 5. La función coherencia en separación ciega
de fuentes de mezclas convolutivas
5.1. Introducción
El modelo de mezclas convolutivas toma en consideración que las señales, estadísti-
ca y mutuamente independientes, viajan por un medio en donde son mezcladas, filtradas
y adquieren retardo. Algunas de las aplicaciones en donde podemos encontrar este ti-
po de mezclas son los reportados en Fancourt y Parra (2001), Parra y Spence (2000),
Zheng et al. (2009) y Osterwise y Grant (2011).
El vector de las fuentes desconocidas mutua y estadísticamente independientes, y
el vector de observación, siguen siendo representados por s(n) = (s1(n), . . . , sN(n))T y
x(n) = (x1(n), . . . , xN (n))T , respectivamente. En el modelo convolutivo, a diferencia del
modelo de mezclas instantáneas lineales, la matriz de mezclado es remplazada por un
sistema lineal invariante en el tiempo (Linear Time-Invariant (LTI), por sus siglas en inglés:
Linear Time-Invariant) de múltiple entrada/múltiple salida (Multiple-input Multiple-output
(MIMO), por sus siglas en inglés: Multiple-input Multiple-output) en donde su respuesta el
impulso está definida por (A(n))n∈Z. Por lo tanto, las observaciones están determinadas
mediante el siguiente modelo convolutivo multicanal:
x(n) =∑
k∈Z
A(k)s(n− k) ∀n ∈ Z. (33)
El sistema MIMO-LTI (A(n))n∈Z, dado que sea posible, tiene su sistema inverso MIMO-
LTI comúnmente llamado separador. Encontrar el sistema separador equivale a encontrar
las fuentes originales y por consiguiente resolver el problema de BSS de mezclas con-
volutivas. Su respuesta al impulso está denotada por (B(n))n∈Z, en donde las salidas
separadas están dadas por:
s(n) =∑
k∈Z
B(k)x(n− k) ∀n ∈ Z. (34)
El sistema mezclador y separador, con respectivas respuestas al impulso (A(n))n∈Z y
43
(B(n))n∈Z, están definidas en el dominio de la transformada z de la siguiente manera:
A[z] ,∑
k∈Z
A(k)z−k y B[z] ,∑
k∈Z
B(k)z−k. (35)
La salida global del sistema combinado mezclador-separador está dada por:
s(n) =∑
k∈Z
G(k)s(n− k) ∀n ∈ Z, (36)
donde la respuesta al impulso y la transformada-z del sistema global (G(n))n∈Z están
dadas respectivamente por las ecuaciones:
G(n) =∑
k∈Z
B(n− k)A(k) y G[z] = B[z]A[z]. (37)
Mezclador Separador
A[z] B[z]s(n)x(n)s(n)
G[z] = B[z]A[z]
Figura 18: Sistema convolutivo mezclador separador.
El contexto ciego no nos permitirá diferenciar entre si el sistema mezclador-separador
obtenido es B[z]A[z] = IN , o si bien B[z]A[z] es una matriz diagonal con filtros distintos
de I sobre su diagonal. De hecho, la suposición de independencia mutua no es suficiente
para obtener una copia exacta de (s(n))n∈Z solamente por medio de las observaciones
(x(n))n∈Z. Como máximo, la independencia mutua nos permite recuperar las fuentes has-
ta las siguientes ambigüedades:
44
El orden de las fuentes.
Escalamiento.
Una ambigüedad de filtrado.
La primera y segunda ambigüedad también se encuentran en el caso de mezclas instan-
táneas. Por el contrario, la tercera ambigüedad es típica solamente del contexto convolu-
tivo. Por lo tanto, la separación es exitosa cuando se hayan recuperado las fuentes hasta
las indeterminaciones mencionadas previamente. Dicho de otra manera, la separación es
exitosa cuando el filtro global (G(n))n∈Z realiza un filtrado y escalamiento a las fuentes
seguido de una permutación,
G[z] = PΛ[z] = PDiag(λ1[z]), . . . , λN [z]). (38)
El filtro separador B[z] puede ser de respuesta infinita al impulso (Infinite Impulse
Response (IIR), por sus siglas en inglés: Infinite Impulse Response) o de respuesta fi-
nita al impulso (Finite Impulse Response (FIR), por sus siglas en inglés: Finite Impulse
Response). Los filtros IIR son más eficientes y ofrecen algunas ventajas con respecto de
los sistemas FIR. Para un sistema FIR de orden K−ésimo, la región de soporte de la
respuesta al impulso y el número de parámetros está relacionada con los K parámetros.
Para un filtro IIR, la longitud de la respuesta al impulso está desacoplada del número de
parámetros del filtro. Sin embargo en el procesamiento adaptativo de señales se prefiere
el uso de filtros FIR debido a la dificultad para asegurar la estabilidad del sistema IIR du-
rante el proceso de adaptación. Por facilidad de implementación y estabilidad usaremos
filtros FIR. Otras arquitecturas IIR que resuelven el problema de estabilidad se presentan
en Principe et al. (1993).
5.2. Método propuesto
El sistema mezclador-separador para dos fuentes puede representarse por el sistema
de la Figura 19. Este equivale al sistema total de la Figura 18, en donde se ha encontrado
el sistema inverso B[z].
45
Si obtenemos la MSC entre las salidas, s1(n) y s2(n), del sistema de la Figura 19
+
+
s1(n)
s2(n)
G11[z]
G12[z]
G22[z]
G21[z]
s1(n)
s2(n)
Figura 19: Sistema mezclador-separador para 2 fuentes.
donde∣
∣γ s1s2(f)∣
∣
2=
|Ps1s2(f)|2
Ps1s1(f)Ps2s2(f), (39)
Ps1s1 = |G11(f)|2 Ps1s1(f) + |G12(f)|
2 Ps2s2(f), (40)
Ps2s2 = |G21(f)|2 Ps1s1(f) + |G22(f)|
2 Ps2s2(f), (41)
Ps1s2 = G11(f)G∗
21(f)Ps1s1(f) +G12(f)G∗
22(f)Ps2s2(f), (42)
entonces obtenemos:
∣
∣γ s1s2(f)∣
∣
2=
|G11(f)G21(f)∗|2P 2
s1s1(f) + |G12(f)G
∗
22(f)|2P 2
s2s2(f)
[|G11(f)|2Ps1s1(f) + |G12(f)|2Ps2s2(f)][|G21(f)|2Ps1s1(f) + |G22(f)|2Ps2s2(f)]. (43)
Dado que el sistema mezclador-separador G[z] es una matriz diagonal, i.e., G12[z] =
G21[z] = 0, podemos observar que el numerador de la ecuación (43) es cero, y por tanto
la MSC es cero. El minimizar la ecuación (43) será idéntico a encontrar el filtro inverso
B[z] y, por consiguiente, a recuperar las fuentes originales. En este escenario se pueden
46
recuperar los componentes independientes hasta las ambigüedades de filtrado y escala-
miento mencionadas anteriormente. Como se observa en la ecuación (43), el factor de
escalamiento no es distinguible en la función de costo, es decir, la función de coheren-
cia no es sensible a los valores de la diagonal del filtro mezclador-separador G[z]. Por
lo tanto, los componentes recuperados serán una versión filtrada de los componentes
originales.
5.2.1. Criterio de separación
Basándonos en la ecuación (43), podemos construir una función de costo para separar
los componentes independientes de las mezclas convolutivas. El criterio es idéntico que
en el caso de mezclas instantáneas. El criterio adoptado es la suma de la MSC tal como
se realizó en Fancourt y Parra (2001),
J =1
fk
∑
i,j
fk∑
f=0
∣
∣
∣γ sisj(f)
∣
∣
∣. (44)
La MSC es una función normalizada que mide la correlación entre dos señales en el
dominio de la frecuencia. De esta manera, en el cálculo de la MSC, es irrelevante si la
energía de las señales está centrada en un ancho de banda específico, pues solo mide
la relación que tiene la energía de la señal con respecto al ruido en el mismo ancho de
banda.
Tener conocimiento a priori del ancho de banda de las señales no impide tomarse el
problema de separación como un problema BSS. Si el ancho de banda de las señales
no es conocido, éste puede calcularse mediante las observaciones realizadas. Tomando
esta consideración, hemos realizado la separación de fuentes en base a la selección por
ancho de banda.
5.2.1.1. Separación por ancho de banda a priori
En muchas de las aplicaciones es posible conocer a priori el ancho de banda de las
fuentes por separar. Es por eso que, sin dejar de ser un problema BSS, la función de costo
puede diseñarse para que considere el ancho de banda donde se encuentra la energía
47
Algorithm 6 Algoritmo MSC-Convolutivo
Entrada: vector de mediciones x
Salida: componentes estimados s
1: Remover la media de las observaciones.2: Genera una solución inicial FIR, B(k) = Diag(δ(k), . . . , δ(k)).3: Calcula los componentes estimados s(n) = B(n) ∗ x(n).4: Calcula la función de costo con selección de ancho de banda deseado J.5: procedimiento Recocido simulado6: mientras el máximo número de iteraciones no se alcanza realiza hacer7: Genera una solución (filtro inverso) de manera aleatoria B(k), siguiendo los pará-
metros del recocido simulado.8: Calcula los nuevos componentes estimados s(n) = B(n) ∗ x(n).9: Calcula la función de costo con selección de ancho de banda deseado J.
10: Compara el costo nuevo con el viejo costo de la iteración anterior.11: Acepta o rechaza la solución (filtro inverso B) de acuerdo al calendario de tempe-
ratura del recocido simulado.12: fin mientras13: fin procedimiento14: B0 es la mejor solución encontrado por el recocido simulado.
de las señales originales,
JBW =1
(fmax − fmin)
∑
i,j
fmax∑
f=fmin
∣
∣
∣γ sisj
(f)∣
∣
∣
2
. (45)
5.2.2. Algoritmo de separación basado en MSC
No se cuenta con un procedimiento práctico de preblanqueo de mezclas convolutivas
(Comon y Jutten (2010), p. 292). Sin embargo, este procedimiento no es necesario en
el uso de la MSC como función de costo. El método desarrollado para la separación de
mezclas convolutivas se muestra en el Algoritmo 6.
5.3. Experimentos
En esta sección se muestran experimentos del método propuesto para dos fuentes.
48
5.3.1. Simulación
Dos señales estadísticamente independientes s1(n) y s2(n), Figura 20, han sido mez-
cladas por el modelo convolutivo (46) generando el vector x1(n) y x2(n). El modelo con-
volutivo está dado por
xi(n) =
N∑
j=1
M−1∑
k=0
aij(k)sj(n− k), (46)
donde N es el número de fuentes y sensores, M es la longitud del filtro mezclador, y Dij
es el retardo entre la j-ésima fuente y el i-ésimo sensor. En este caso N = 2, M = 75,
D11 = 0, D12 = 34, D21 = 22, D22 = 0. a11 = δ(n), a12 =1
4δ(n − 34), a21 =
1
3δ(n − 22),
a22 =1
2δ(n). En notación de transformada z, el sistema queda de la siguiente manera:
A11[z] = 1
A12[z] = 0.25z−34
A21[z] = 0.3333z−22
A22[z] = 0.5
(47)
Las señales capturadas se muestran en la Figura 22. En la Figura 21 vemos la MSC
entre las fuentes. Su distribución es cercana a cero e indica que dichas señales están
descorrelacionadas entre sí. En la Figura 23 se muestra la MSC entre las observaciones.
Se observa que existe un alto grado de correlación entre ambas señales, tal como se
observa en ciertos anchos de banda en donde la magnitud es cercana a uno.
La metodología propuesta para encontrar el sistema inverso es de pre-alimentación
(feedfordward). Esta arquitectura es aplicada en el Algoritmo 6. En este experimento
el Algoritmo 6 se ha especificado con selección de ancho de banda a priori fBW =
[0Hz, 500Hz],
si(n) =N∑
j=1
M−1∑
k=0
Bij(k)xj(n− k). (48)
49
-0.6-0.4-0.2
0 0.2 0.4 0.6
0 1 2 3 4 5 6 7
Am
plitu
d
t
(a)
s1
-0.6-0.4-0.2
0 0.2 0.4 0.6
0 1 2 3 4 5 6 7
Am
plitu
d
t
(c)
s2
1⋅10-12 1⋅10-10 1⋅10-8 1⋅10-6 1⋅10-4
0 1000 2000 3000 4000
Mag
nitu
d
Hz
(b)
Ps1s1
1⋅10-12 1⋅10-10 1⋅10-8 1⋅10-6 1⋅10-4
0 1000 2000 3000 4000
Mag
nitu
d
Hz
(d)
Ps2s2
Figura 20: Fuentes usadas en el experimento. a) Sonido respiratorio normal. b) Densidad espectralde potencia del sonido respiratorio. c) Sonido cardiaco normal. d) Densidad espectral de potenciadel sonido cardiaco.
5.4. Resultados y discusión
Después de 10,000 iteraciones, el algoritmo MSC-deconvolutivo converge al sistema
separador B(n), el cual se muestra en la Figura 24. Al correlacionar el filtro B(n) con
el filtro A(n), tenemos el filtro mezclador-separador global G(n), el cual se muestra en
la Figura 25. Se observan los impulsos en el retardo proporcionado por el sistema. Re-
cordemos que en este experimento la función de costo optimizó en un ancho de banda
especificado y no sobre todo el ancho de banda. El ancho de banda de optimización es
fBW = [0Hz, 500Hz]. Esto se puede corroborar en la Figura 29. Aquí se muestra la MSC
entre las señales recuperadas y se observa cómo disminuye la MSC en el ancho de ban-
da fBW , aunque quedan algunos componentes frecuenciales altamente correlacionados.
Después de calcular los componentes independientes s se realiza un procedimiento
de extracción de las contribuciones de cada fuente a las señales capturadas x(n), Figuras
26 y 27. La gráfica del recocido se muestra en la Figura 28.
50
0
0.05
0.1
0.15
0.2
0.25
0.3
0 500 1000 1500 2000 2500 3000 3500 4000
|γ| 2
f [Hz]
Figura 21: Estimación de la magnitud de MSC cuadrada entre las fuentes s1(n) y s2(n).
-0.6-0.4-0.2
0 0.2 0.4 0.6
0 1 2 3 4 5 6 7
Am
plitu
d
t
(a)
x1
-0.6-0.4-0.2
0 0.2 0.4 0.6
0 1 2 3 4 5 6 7
Am
plitu
d
t
(c)
x2
1⋅10-12 1⋅10-10 1⋅10-8 1⋅10-6 1⋅10-4
0 1000 2000 3000 4000
Mag
nitu
d
Hz
(b)
Px1x1
1⋅10-12 1⋅10-10 1⋅10-8 1⋅10-6 1⋅10-4
0 1000 2000 3000 4000
Mag
nitu
d
Hz
(d)
Px2x2
Figura 22: Señales capturadas en los sensores. a) Observación en el sensor x1. b) Densidad espec-tral de potencia de la señal x1. c) Observación en el sensor x2. d) Densidad espectral de potencia dela señal x2.
51
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 500 1000 1500 2000 2500 3000 3500 4000
|γ| 2
f [Hz]
Figura 23: Coherencia entre las señales observadas, x1(n) y x2(n).
-0.4-0.2
0 0.2 0.4 0.6 0.8
1
0 10 20 30 40 50 60 70
n
(a)
B11(n)
-0.4-0.2
0 0.2 0.4 0.6 0.8
1
0 10 20 30 40 50 60 70
n
(b)
B12(n)
-0.4-0.2
0 0.2 0.4 0.6 0.8
1
0 10 20 30 40 50 60 70
n
(c)
B21(n)
-0.4-0.2
0 0.2 0.4 0.6 0.8
1
0 10 20 30 40 50 60 70
n
(d)
B22(n)
Figura 24: Filtro separador estimado B(n) para el Algoritmo MSC-Convolutivo.
El método presentado puede ser tardado porque la optimización se lleva a cabo me-
diante el recocido simulado el cual necesita un número grande de iteraciones para llegar
52
-0.4-0.2
0 0.2 0.4 0.6 0.8
1
0 10 20 30 40 50 60 70
n
(a)
G11(n)
-0.4-0.2
0 0.2 0.4 0.6 0.8
1
0 10 20 30 40 50 60 70
n
(b)
G12(n)
-0.4-0.2
0 0.2 0.4 0.6 0.8
1
0 10 20 30 40 50 60 70
n
(c)
G21(n)
-0.4-0.2
0 0.2 0.4 0.6 0.8
1
0 10 20 30 40 50 60 70
n
(d)
G22(n)
Figura 25: Filtro mezclador-separador G(n) para el Algoritmo MSC-Convolutivo.
-0.6-0.4-0.2
0 0.2 0.4 0.6
0 1 2 3 4 5 6 7
Am
plitu
d
t
(a)
s1 en x2
-0.6-0.4-0.2
0 0.2 0.4 0.6
0 1 2 3 4 5 6 7
Am
plitu
d
t
(c)
s1 en x1
1⋅10-10 1⋅10-8 1⋅10-6 1⋅10-4
0 1000 2000 3000 4000
Mag
nitu
d
Hz
(b)
Ps1s1
1⋅10-12 1⋅10-10 1⋅10-8 1⋅10-6
0 1000 2000 3000 4000
Mag
nitu
d
Hz
(d)
Ps1s1
Figura 26: a) Contribuciones de la fuente s1 en el vector de observación x2. b) Contribuciones de lafuente s1 en el vector de observación x1. c) PSD de la fuente s1 en el vector de observación x2. d)PSD de la fuente s2 en el vector de observación x1.
53
-0.6-0.4-0.2
0 0.2 0.4 0.6
0 1 2 3 4 5 6 7
Am
plitu
d
t
(a)
s2 en x2
-0.6-0.4-0.2
0 0.2 0.4 0.6
0 1 2 3 4 5 6 7
Am
plitu
d
t
(c)
s2 en x1
1⋅10-12 1⋅10-10 1⋅10-8 1⋅10-6 1⋅10-4
0 1000 2000 3000 4000
Mag
nitu
d
Hz
(b)
Ps2s2
1⋅10-12 1⋅10-10 1⋅10-8 1⋅10-6 1⋅10-4
0 1000 2000 3000 4000
Mag
nitu
d
Hz
(d)
Ps2s2
Figura 27: a) Contribuciones de la fuente s2 en el vector de observación x2. b) Contribuciones de lafuente s2 en el vector de observación x1. c) PSD de la fuente s2 en el vector de observación x2. d)PSD de la fuente s2 en el vector de observación x1.
0 50 100 150-0.5
0
0.5
1
1.5Best point
Number of variables (160)
Bes
t poi
nt
0 2000 4000 6000 80000
0.2
0.4
0.6
0.8
Iteration
Fun
ctio
n va
lue
Best Function Value: 0.0538742
0 50 100 150-0.5
0
0.5
1
1.5Current Point
Number of variables (160)
Cur
rent
poi
nt
0 2000 4000 6000 80000
0.2
0.4
0.6
0.8
Iteration
Fun
ctio
n va
lue
Current Function Value: 0.0843525
Figura 28: Resultados del recocido simulado.
54
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 500 1000 1500 2000 2500 3000 3500 4000
|γ| 2
f [Hz]
Figura 29: Coherencia entre los componentes recuperados s(n).
a un resultado satisfactorio. Además, en este problema el número de variables a optimizar
es elevado ya que se debe obtener filtros separadores de longitud M . Las variables son
Mm2. Por otro lado, al no existir el pre-blanqueo, el algoritmo puede converger a mínimos
locales, al igual que cualquier método basado en gradientes. La función de costo puede
ser la misma que la propuesta para el caso de mezclas instantáneas lineales con ruido.
Los resultados se observan en el tiempo y la frecuencia, falta por implementarlo en todo
el ancho de banda para poder calcular un SIR.
5.5. Conclusiones
En este capítulo se presentó la función coherencia como función de costo para resol-
ver el problema de mezclas convolutivas. La función de costo puede ser la misma que en
el caso de mezclas instantáneas lineales, salvo en esta ocasión se definió a priori el an-
cho de banda donde se concentraba la energía de las señales. Este enfoque representa
un primer esfuerzo al tratar de resolver el problema de mezclas convolutivas, sin em-
bargo, como trabajo futuro falta implementar el método para más de 2 fuentes, además
de encontrar un método para descorrelacionar todo el ancho de banda de las señales
55
observadas.
56
Capítulo 6. Conclusiones
En esta tesis se ha propuesto la función coherencia como criterio de optimización
para el problema de BSS. Se abordó el problema de BSS de mezclas instantáneas. Se
utilizó la suma de la MSC como función de costo y se utilizaron dos metodologías heurís-
ticas como métodos de optimización para recuperar las fuentes originales. Los resultados
experimentales muestran un desempeño satisfactorio a la par con los métodos del es-
tado del arte. Al final del capítulo mostramos un ejemplo real de la extracción de fECG
y mECG el cual muestra evidente mejora en el acondicionamiento de las señales y por
consiguiente muestra la importancia de la metodología aquí presentada.
También se desarrollo un método basado en la suma de la MSC y un algoritmo heu-
rístico para recuperar señales gaussianas iid cuando éstas se encuentran mezcladas
mediante una matriz ortogonal. Los resultados experimentales muestran la superioridad
del método propuesto frente a los del estado del arte.
Por otro lado, se trató el caso de mezclas instantáneas lineales con ruido. Se propuso
un método basado en la suma de la MSC y una función de selección de umbral como
función de costo. El algoritmo optimiza la función de costo mediante el recocido simulado
para recuperar las fuentes originales. La aplicación de la heurística recocido simulado
brinda la probabilidad de mejorar la estimación de los componentes debido a que tiene
la probabilidad de salirse de mínimos locales, lo cual no es posible con metodologías
basadas en gradientes. Los resultados experimentales muestran la superioridad de la
metodologías en una parte de los experimentos, mientras que en otras, muestran un
desempeño aproximado a las del estado del arte.
Finalmente, mostramos un primer intento por resolver el problema de BSS de mez-
clas convolutivas. Desarrollamos una función de costo basada en la suma de la MSC y
una función que selecciona una banda de interés. Esta implementación, tomando al al-
goritmo recocido simulado como método de optimización, permite encontrar una solución
aceptable tal como se muestra en la sección de experimentos. Queda por comparar su
desempeño frente a otras metodologías del estado del arte.
En general, ningún método BSS es superior en todos los aspectos, o superior en
57
todas las situaciones posibles, es por esto que sigue siendo objeto de estudio. Si bien en
la BSS de mezclas instantáneas no hay mucho por realizar, todavía quedan importantes
interrogantes dentro de otras áreas de la BSS: mezclas instantáneas lineales con ruido,
mezclas convolutivas, mezclas subdeterminadas, etc.
Por nuestro lado, se pretende mejorar los métodos que se propusieron en este trabajo
mediante las siguientes ideas. Por un lado, en la BSS de mezclas instantáneas lineales
con ruido sería interesante aplicar el preblanqueo robusto utilizado en Choi et al. (2002),
para tratar de mejorar el desempeño de nuestro algoritmo. Este preblanqueo robusto pue-
de ser especialmente útil cuando la matriz de mezclado está mal condicionada (determi-
nante de la matriz de mezclado es casi cero) ya que una matriz con estas características
en un ambiente ruidoso resulta difícil lograr una buena separación de las fuentes. Por
otro lado, se debe de expandir la BSS de mezclas convolutivas al caso de tres fuentes
o más. También, debido al tiempo de costo computacional alto, sería conveniente basar
el problema en métodos de multiresolución, lo cual trataría de resolver el problema por
bandas, lo que además evitaría el problema de permutación (Pourazad et al. (2005)).
Finalmente, el futuro de la BSS es promisorio. Con el continuo desarrollo de la BSS
en unión con los avances tecnológicos veríamos aplicaciones en la que, con analizar las
señales provenientes de nuestro cerebro, podríamos controlar todo a nuestro alrededor.
58
Lista de referenciasAnderson, E. (2000). Discontinuous plane rotations and the symmetric eigenvalue pro-
blem. Reporte técnico, LAPACK Working Note 150, University of Tennessee, CS-00-454.
Bell, A. J. y Sejnowski, T. J. (1995). Blind separation and blind deconvolution: aninformation-theoretic approach. International Conference on Acoustics, Speech, and
Signal Processing, 1995. ICASSP-95., 5: 3415–3418.
Belouchrani, A., Abed-Meraim, K., Cardoso, J.-F., y Moulines, E. (1997). A blind sourceseparation technique using second-order statistics. IEEE Transactions on Signal Pro-
cessing, 45(2): 434 –444.
Cardoso, J. y Souloumiac, A. (1993). Blind beamforming for non-gaussian signals. Radar
and Signal Processing, IEE Proceedings F , 140(6): 362 –370.
Cardoso, J.-F. y Pham, D.-T. (2004). Optimization issues in noisy gaussian ica. Indepen-
dent component analysis and blind signal separation, pp. 41-48.
Cardoso, J.-F., Snoussi, H., Delabrouille, J., y Patanchon, G. (2002). Blind separation ofnoisy Gaussian stationary sources. Application to cosmic microwave background ima-ging. ArXiv Astrophysics. Recuperado de: arXiv.org/pdf/astro-ph/0209466.pdf .
Carter, G. (1993). Coherence and time delay estimation an applied tutorial for research,
development, test, and evaluation engineers. IEEE Press. 506 pp.
Carter, G. C. (1972). Estimation of the magnitude-squared coherence function (spectrum).Reporte técnico AD0743945, NAVAL UNDERWATER SYSTEMS CENTER NEWPORTRI, New London, Conn. 107 pp.
Choi, S. y Cichocki, A. (2000). Blind separation of nonstationary sources in noisy mixtures.Electronics Letters, 36(9): 848 –849.
Choi, S., Cichocki, A., y Beloucharni, A. (2002). Second order nonstationary source se-paration. Journal of VLSI signal processing systems for signal, image and video tech-
nology , 32(1-2): 93–104.
Cichocki, A. y Amari, S.-i. (2002). Adaptive blind signal and image processing: learning
algorithms and applications, Vol. 1. John Wiley & Sons. 586 pp.
Cichocki, A., Amari, S.-i., Siwek, K., Tanaka, T., Phan, A. H., Zdunek, R., Cruces, S., Geor-giev, P., Washizawa, Y., Leonowicz, Z., et al. (2007). ICALAB Toolboxes. Recuperadode http://www.bsp.brain.riken.jp/ICALAB.
Comon, P. y Jutten, C. (2010). Handbook of Blind Source Separation: Independent Com-
ponent Analysis and Applications. Academic Press. 831 pp.
Crespo-Garcia, M., Atienza, M., y Cantero, J. L. (2008). Muscle artifact removal fromhuman sleep eeg by using independent component analysis. Annals of biomedical
engineering, 36(3): 467–475.
59
Darmois, G. (1953). Analyse générale des liaisons stochastiques: etude particuliére del’analyse factorielle linéaire. Revue de l’Institut International de Statistique / Review of
the International Statistical Institute, 21(1/2): 2–8.
Douglas, S., Cichocki, A., y Amari, S. (1998). Bias removal technique for blind sourceseparation with noisy measurements. Electronics Letters, 34(14): 1379 –1380.
Fancourt, C. L. y Parra, L. (2001). The coherence function in blind source separationof convolutive mixtures of non-stationary signals. Proceedings of the 2001 IEEE Signal
Processing Society Workshop Neural Networks for Signal Processing XI, 2001, pp. 303-
312.
Gibbs, T. (2000). Auscultation skills: breath and heart sounds. BMJ, 320(7229): 256.
Goldberger, A. L., Amaral, L. A., Glass, L., Hausdorff, J. M., Ivanov, P. C., Mark, R. G.,Mietus, J. E., Moody, G. B., Peng, C.-K., y Stanley, H. E. (2000). Physiobank, physio-toolkit, and physionet components of a new research resource for complex physiologicsignals. Circulation, 101(23): 215–220.
Hesse, C. W. (2008). Model order estimation for blind source separation of multichannelmagnetoencephalogram and electroencephalogram signals. Engineering in Medicine
and Biology Society, 2008. EMBS 2008. 30th Annual International Conference of the
IEEE, pp. 3348–3351.
Hyvarinen, A. (1999). Fast and robust fixed-point algorithms for independent componentanalysis. IEEE Transactions on Neural Networks, 10(3): 626–634.
Hyvärinen, A. y Oja, E. (2000). Independent component analysis: algorithms and applica-tions. Neural Networks, 13(4-5): 411 – 430.
James, C. (2004). Introduction and overview of the bss/ica problem - specifically whenapplied to biomedicine. IEE Seminar on Blind Source Separation in Biomedicine, p1.
Jezewski, J., Matonia, A., Kupka, T., Roj, D., y Czabanski, R. (2012). Determination offetal heart rate from abdominal signals: evaluation of beat-to-beat accuracy in relationto the direct fetal electrocardiogram. Biomedizinische Technik/Biomedical Engineering,57(5): 383–394.
Kirkpatrick, S., Gelatt, C. D., y Vecchi, M. P. (1983). Optimization by simulated annealing.Science, 220(4598): 671–680.
Lehrer, S. (2002). Understanding lung sounds. audio CD. Saunders, Philadelphia.
Oku, T. y Sano, A. (2003). Nonlinear blind source separation using coherence function.SICE 2003 Annual Conference, 3: 2550 –2560.
Osterwise, C. y Grant, S. (2011). A comparison of bss algorithms in harsh environments.2011 IEEE International Conference on Signal Processing, Communications and Com-
puting (ICSPCC), pp. 1-6.
Parra, L. y Spence, C. (2000). Convolutive blind separation of non-stationary sources.Speech and Audio Processing, IEEE Transactions on, 8(3): 320–327.
60
Pourazad, M., Moussavi, Z., Farahmand, F., y Ward, R. (2005). Heart sounds separationfrom lung sounds using independent component analysis. 27th Annual International
Conference of the IEEE-EMBS, Engineering in Medicine and Biology Society, pp. 2736
-2739.
Principe, J. C., De Vries, B., y De Oliveira, P. G. (1993). The gamma-filter-a new classof adaptive iir filters with restricted feedback. IEEE Transactions on Signal Processing,41(2): 649–656.
Romo Vázquez, R., Vélez-Pérez, H., Ranta, R., Louis Dorr, V., Maquin, D., y Maillard, L.(2012). Blind source separation, wavelet denoising and discriminant analysis for eegartefacts and noise cancelling. Biomedical Signal Processing and Control , 7(4): 389–400.
Tong, L., Liu, R.-w., Soon, V., y Huang, Y.-F. (1991). Indeterminacy and identifiability ofblind identification. IEEE Transactions on Circuits and Systems, 38(5): 499 –509.
Vajda, S. (2007). Fibonacci and Lucas numbers, and the golden section: theory and
applications. Courier Dover Publications. 192 pp.
Vigneron, V., Paraschiv-Ionescu, A., Azancot, A., Sibony, O., y Jutten, C. (2003). Fetalelectrocardiogram extraction based on non-stationary ica and wavelet denoising. Se-
venth International Symposium on Signal Processing and Its Applications, 2003. Pro-
ceedings, 2: 69–72.
Vorobyov, S. y Cichocki, A. (2002). Blind noise reduction for multisensory signals using icaand subspace filtering, with application to eeg analysis. Biological Cybernetics, 86(4):293–303.
Welch, P. (1967). The use of fast fourier transform for the estimation of power spectra: amethod based on time averaging over short, modified periodograms. IEEE Transactions
on Audio and Electroacoustics, 15(2): 70–73.
Yeredor, A. (2011). Empirical weighting for blind source separation in a multiple-snapshotsscenario. 2011 IEEE International Conference on Acoustics, Speech and Signal Pro-
cessing (ICASSP), pp. 3704 -3707 .
Zheng, Y., Reindl, K., y Kellermann, W. (2009). Bss for improved interference estimation forblind speech signal extraction with two microphones. 3rd IEEE International Workshop
on Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP), pp. 253-
256.
61
Acrónimos
ARMA Autoregressive–moving-average
BSS Blind Source Separation
ECG Electrocardiogram
fECG fetal Electrocardiogram
FIR Finite Impulse Response
HOS Higher-order Statistics
ICA Independent Component Analisys
iid Independent and identically distributed
IIR Infinite Impulse Response
LTI Linear Time-Invariant
mECG maternal Electrocardiogram
MIMO Multiple-input Multiple-output
MSC Magnitude-squared coherence
PCA Princpal Component Analysis
PSD Power Spectral Density
SNR Signal-to-noise ratio
SOBI Second Order Blind Identification
SOBI-RO Robust Second Order Blind Identification
SOS Second-order Statistics