contribuciones al análisis de componentes …personal.us.es/sergio/phd/tesis-ivan.pdf · al...

247
Universidad de Sevilla Escuela Superior de Ingenieros Departamento de Teoría de la Señal y Comunicaciones Tesis Doctoral Contribuciones al análisis de componentes independientes y a su aplicación en sistemas de comunicaciones con técnicas de acceso múltiple por división de código Autor: Iván Durán Díaz Director: Sergio A. Cruces Álvarez 2009

Upload: vodat

Post on 22-Sep-2018

219 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Universidad de SevillaEscuela Superior de Ingenieros

Departamento de Teoría de la Señal y Comunicaciones

Tesis Doctoral

Contribuciones al análisis de componentes

independientes y a su aplicación en

sistemas de comunicaciones con técnicas

de acceso múltiple por división de código

Autor: Iván Durán Díaz

Director: Sergio A. Cruces Álvarez

2009

Page 2: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 3: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Director:

Sergio A. Cruces Álvarez

Doctorando:

Iván Durán Díaz

Page 4: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 5: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

A mi padre, en el recuerdoA mi madre y mi hermano

A las titasA Delia

Page 6: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 7: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Agradecimientos

Quiero mostrar mi agradecimiento a todas las personas que han contribuido de algún mo-do a la realización de este trabajo. A mis compañeros del Departamento de Teoría de laSeñal y Comunicaciones, por sus consejos y su ayuda tanto en las tareas docentes comoen las de investigación. Muy especialmente a los profesores Carlos Crespo Cadenas y L.Javier Reina Tosina, por haberme guiado en todo lo referente a la electrónica de radiofre-cuencia y en el diseño de circuitos impresos de alta frecuencia, así como en los aspectosrelacionados con las medidas en laboratorio. Al profesor Sergio A. Cruces Álvarez leagradezco el haber dirigido esta tesis y el haberme introducido en el campo de la investi-gación. Él ha orientado el trabajo y me ha proporcionado las herramientas principales queme han permitido conseguir los objetivos que nos habíamos propuesto.

Agradezco a mi familia y a mis amigos los buenos momentos que me hacen pasar ysu ayuda en la adversidad. A mis padres, Juan y Marina, les debo casi todo cuanto soy,mi educación, mi formación académica, mi modo de pensar. Mi padre no pudo ver laculminación de mis metas más importantes, que también eran suyas. Como lo son de mimadre, que me ha dado la fuerza para seguir en los momentos más difíciles y más duros.Mis tías Angelita y Maruja destacan entre las personas más queridas y de las que más herecibido. Mi hermano, Raúl, supone para mí un ejemplo, en el plano humano y tambiénen el científico. Mis conversaciones con él siempre me enriquecen y me han servido paradefinir aspectos de este trabajo. Por último, agradezco a Delia su apoyo y los pequeñossacrificios que ha realizado para que yo haya podido materializar esta tesis. Pero, sobretodo, le agradezco su cariño y que haya decidido compartir conmigo su vida.

Page 8: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 9: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Resumen

Las técnicas de Separación Ciega de Fuentes y Extracción Ciega de Fuentes han sidoampliamente investigadas y desarrolladas en los últimos años. Dado un conjunto de se-ñales originales (fuentes) que se encuentran mezcladas en un conjunto de observacionesla separación ciega consiste en la recuperación de dichas fuentes sin disponer, a priori, deinformación acerca del proceso de mezcla o de las propias fuentes, exceptuando algunashipótesis plausibles muy poco restrictivas. La extracción ciega consiste en la recuperaciónde cualquier subconjunto de tamaño arbitrario de dichas fuentes. La técnica de Análisis deComponentes Independientes (del inglés ICA) realiza la separación o la extracción bajo lahipótesis de independencia estadística de las fuentes. Para ello es posible utilizar, bien dede forma implícita o bien de forma explícita, estadísticos de orden superior de las salidas.

Existe una gran cantidad de criterios y algoritmos que permiten resolver el problemade ICA muchos de ellos con una interpretación en el marco de la Teoría de la Información.En esta tesis doctoral proponemos nuevos criterios y algoritmos para resolver el problemade la extracción de una sola fuente. En este sentido, presentamos un soporte teórico parala extensión de los algoritmos ThinICA que maximizan combinaciones de cumulantes dediferentes órdenes para el caso de señales con valores complejos. Asimismo, realizamosuna extensión de estos algoritmos para criterios basados en la maximización de funcio-nes no lineales de la salida, mejorando la convergencia presentada por otros algoritmosbasados en este tipo de criterios. Por otro lado, también proponemos un nuevo criterio deextracción que consiste en minimizar la entropía de Rényi de orden cero de la salida, esdecir, la medida del soporte de la salida. Este criterio presenta una gran robustez frente alruido aditivo en las observaciones cuando este es acotado y de simetría circular.

Los criterios ICA pueden ser aplicados en numerosos ámbitos. En este trabajo noscentramos en la aplicación en las comunicaciones por radio, más concretamente en lossistemas de comunicaciones que utilizan la técnica de Acceso Múltiple por División deCódigo (CDMA). En este tipo de sistemas los usuarios comparten los mismos intervalostemporales y la banda de frecuencias. Cada usuario tiene una señal de código que le iden-tifica y que ensancha su espectro, siendo también utilizada en el receptor para recuperar laseñal correspondiente al usuario que se desea detectar y atenuar el ruido y la interferencia

Page 10: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

x Resumen

debida a otros usuarios.Los detectores clásicos se basan en técnicas supervisadas y son capaces de realizar la

detección incluso para canales con multitrayectos, pero experimentan dificultades cuandoexiste el asincronismo entre usuarios y cuando los usuarios interferentes llegan al receptorcon una potencia mayor que la del usuario deseado. Por otro lado, la transmisión de se-cuencias de entrenamiento implica una reducción de la eficiencia espectral. Los receptoresciegos evitan este problema, pues no precisan de estas secuencias de entrenamiento.

Tradicionalmente, los receptores ciegos realizan la detección empleando las técnicasde deconvolución o igualación ciega junto con restricciones basadas en el código del usua-rio deseado. No obstante, también es posible plantear el problema desde el punto de vistade ICA. En esta tesis hemos seguido esta línea de trabajo y hemos modelado el proble-ma de la detección ciega en un sistema con canales convolutivos como un problema deextracción ciega con mezcla instantánea de una dimensión mucho mayor. Hemos desa-rrollado, asimismo, una restricción basada en el código del usuario deseado para forzarsu extracción. La novedad de esta restricción consiste en que fuerza al sistema de ex-tracción a pertenecer al subespacio correspondiente al usuario deseado sin necesidad deproyectar los resultados en cada iteración. El método propuesto presenta una reducciónde la complejidad y mejora los resultados de los métodos basados en el criterio de filtroinverso.

Por último, el autor ha participado en el desarrollo de una plataforma de radiocomuni-caciones en la banda de 5.25 GHz definida por software en su mayor parte, por lo que esposible emplear la plataforma para probar esquemas de comunicación y algoritmos de de-tección. Los cabezales de RF han sido diseñados y construidos por el equipo investigadoren placas de circuito impreso de alta frecuencia y con componentes discretos. Empleandola plataforma, el método de detección propuesto ha sido probado en un entorno real delaboratorio con muy buenos resultados.

Page 11: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Abstract

Blind Sources Separation (BSS) and Blind Sources Extraction (BSE) are two techniquesthat have been widely studied and developed during last years, either from IndependentComponent Analysis (ICA) approach or from approaches exploiting properties other thanindependence. From a given set of signals (sources) that are mixed into another set ofobservations, BSS blindly recovers those sources, i.e., without a priori information aboutthe mixing process or about the sources, except for some low restrictive hypotheses. BSE,in contrast, consists in blindly recovering a subset of the given sources. ICA performsthe separation or the extraction assuming and exploiting the independence of the sources.This requires the explicit or implicit application of higher order statistics of the outputs.For ICA implementation, maximization of a function, called contrast, is required. Thisfunction maximizes either the independence between outputs or the non-Gaussianity ofthe outputs.

Many criteria and algorithms following different approaches can be found for BSS andBSE in the context of ICA. For instance, maximization of non-Gaussianity, maximumlikelihood method, minimization of mutual information between outputs or maximiza-tion of mutual information between inputs and outputs, all them unified by InformationTheory. In this doctoral thesis we propose novel criteria and algorithms for solving theproblem of the extraction of a single source. We present theoretical support for the exten-sion of ThinICA algorithms maximizing the combinations of different order cumulantsfor complex-valued signals. We also propose an extension (MNT) of these algorithms forthose criteria based on the maximization of non linear functions of the output. The in-corporation of the benefits of maximizing, at each iteration, a quadratic function of theextracting system, resulted in an improvement of the convergence. Moreover, we proposea novel extraction criterion for real-valued signals consisting in the maximization of thezero order Rényi’s entropy of the output, i.e., the measure of the output’s support. Thiscriterion shows a high robustness against compact and circularly symmetric noise.

ICA criteria are applied in many fields. In this work we are interested in the appli-cation of ICA to radiocommunications, especially to communications systems that useCode Division Multiple Access (CDMA). In that kind of systems, users share same band

Page 12: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

xii Abstract

of frequencies and the same time slots. So the signal that arrives at the receiver is a super-position (in time and frequency) of contributions from different users. Since the objectiveof the receiver is to extract the symbols sequence of the desired user, the system needssome prior information to achieve this aim. This information is the user’s code, also ca-lled spreading sequence. Each user transmits with a different cyclic code that multipliesits symbols. For different users, codes are quasi-orthogonal. In this way, the receiver canseparate the users’ contributions by means of the codes.

When there is multipath propagation, we have to suppress the channel effects. Super-vised algorithms use training sequences that provide the receiver with knowledge aboutthe channels. Blind detection of users can be performed to obtain the symbol sequence of adesired user without knowledge of the propagation channels. The use of blind techniquesincreases the performance of the transmission system, avoiding the overheads associa-ted with the transmission of training sequences, and providing increased robustness forchannels with severe fading.

Traditionally, blind receivers use blind deconvolution or blind equalization (the in-verse filter criterion is a well known technique), together with constraints based on thedesired user’s code to perform the blind detection. Nevertheless, in last years ICA-basedblind receivers have been proposed. In this thesis we followed this framework to developa method for the blind detection of a user in CDMA systems by modelling the communi-cation system as a linear and instantaneous mixture of independent signals (these signalsare the symbol sequences of all users). This was possible because symbol sequences wereassumed to be sequences of independent and identically distributed variables. One of thesymbol sequences could be then recovered by using any extraction algorithm designedfor communications signals. We also developed a constraint based on the desired user’scode to enforce the extraction of its symbol sequence. The innovation consisted in theimplementation of the constraint as a reduction of the observations, forcing the extractionsystem to fall into a certain subspace. Hence, unlike previous works, we did not need toproject the results at each iteration. The proposed method showed better performance thanthose based in the inverse filter criterion. In addition, the proposed extraction algorithmshad better behaviour than previous extraction algorithms for every tested situation.

Finally, the author has participated in the development of a radiocommunication plat-form in the band of 5.25 GHz, where base band was software defined. This made possiblethe use of this platform to test communication schemes and detection algorithms. RFfront-ends were designed and made by the research team in high frequency printed circuitboards and discrete components. By using the platform, the proposed detection methodwas tested in a real environment of laboratory with satisfactory results.

Page 13: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Índice general

1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1. ICA, BSS y BSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. CDMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Planteamiento y estructura del trabajo . . . . . . . . . . . . . . . . . . . 6

2. El problema de la descomposición de las observaciones en componentes indepen-dientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.1. Análisis de Componentes Independientes en mezclas instantáneas . . . . 9

2.1.1. Modelo de mezcla sobredeterminado sin ruido . . . . . . . . . . 102.1.2. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.1.3. Ambigüedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.1.4. Anulación de cumulantes cruzados . . . . . . . . . . . . . . . . . 152.1.5. PCA, decorrelación y blanqueo . . . . . . . . . . . . . . . . . . 172.1.6. Extracción Ciega de Fuentes . . . . . . . . . . . . . . . . . . . . 202.1.7. Modelo de mezcla con ruido . . . . . . . . . . . . . . . . . . . . 222.1.8. Métodos para resolver el problema de BSS . . . . . . . . . . . . 23

2.2. Criterios de separación . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.2.1. Funciones contraste . . . . . . . . . . . . . . . . . . . . . . . . . 252.2.2. Maximización de la no Gaussianidad . . . . . . . . . . . . . . . 262.2.3. Mínima información mutua (MMI) . . . . . . . . . . . . . . . . 342.2.4. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . 352.2.5. Principios INFOMAX y ENTMAX . . . . . . . . . . . . . . . . 372.2.6. Relaciones entre criterios . . . . . . . . . . . . . . . . . . . . . . 38

2.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3. Criterios y algoritmos previos . . . . . . . . . . . . . . . . . . . . . . . . . . 413.1. Algoritmos de Deconvolución Ciega . . . . . . . . . . . . . . . . . . . . 42

3.1.1. Algoritmos de tipo Bussgang . . . . . . . . . . . . . . . . . . . . 423.1.2. Minimum entropy deconvolution . . . . . . . . . . . . . . . . . . 44

Page 14: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

xiv Índice general

3.1.3. Deconvolución ciega en sistemas SIMO . . . . . . . . . . . . . . 453.1.4. Deconvolución ciega en sistemas MIMO mediante HOS . . . . . 45

3.2. Primeros algoritmos de Separación Ciega . . . . . . . . . . . . . . . . . 493.2.1. Diagonalización de matrices y tensores de cumulantes . . . . . . 493.2.2. HOS y entropía negativa . . . . . . . . . . . . . . . . . . . . . . 503.2.3. El método de máxima verosimilitud . . . . . . . . . . . . . . . . 51

3.3. Primeros algoritmos de Extracción Ciega . . . . . . . . . . . . . . . . . 523.3.1. Algoritmo de Delfosse y Loubaton . . . . . . . . . . . . . . . . . 533.3.2. Maximización de HOS normalizados mediante algoritmos de gra-

diente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.4. Los algoritmos Fast-ICA . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.4.1. Fast-ICA para fuentes reales empleando la kurtosis . . . . . . . . 573.4.2. Fast-ICA para fuentes reales empleando la entropía negativa . . . 583.4.3. Algoritmo Fast-ICA para señales complejas . . . . . . . . . . . . 60

3.5. Algoritmos basados en no linealidades en el plano complejo . . . . . . . 623.6. Maximización compleja de la no Gaussianidad (N-CMN) . . . . . . . . . 64

3.6.1. Algoritmo de gradiente G-CMN . . . . . . . . . . . . . . . . . . 653.6.2. Algoritmo cuasi-Newton N-CMN . . . . . . . . . . . . . . . . . 65

3.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67Apéndice A. Cálculo complejo . . . . . . . . . . . . . . . . . . . . . . . . . . 68

A.1 Aproximación mediante el cálculo real . . . . . . . . . . . . . . . . 69A.2 Definición generalizada de la derivada compleja . . . . . . . . . . . 70

4. Nuevos criterios y algoritmos de BSE . . . . . . . . . . . . . . . . . . . . . . 754.1. Algoritmos ThinICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.1.1. Maximización conjunta de cumulantes . . . . . . . . . . . . . . . 764.1.2. Extensión de ThinICA para aproximaciones de la entropía nega-

tiva: algoritmo MNT . . . . . . . . . . . . . . . . . . . . . . . . 794.1.3. Simulaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.2. Criterio de mínimo soporte para la extracción ciega de señales . . . . . . 844.2.1. Revisión de los resultados existentes . . . . . . . . . . . . . . . . 854.2.2. Criterios de mínima entropía y mínimo soporte . . . . . . . . . . 864.2.3. Simulaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92Apéndice A. Evaluación de cumulantes y cumulantes cruzados . . . . . . . . . 93

5. Acceso Múltiple por División de Código . . . . . . . . . . . . . . . . . . . . 975.1. Espectro ensanchado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

Page 15: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Índice general xv

5.2. Señales de código . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1005.3. Proceso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.3.1. Modelo general . . . . . . . . . . . . . . . . . . . . . . . . . . . 1045.4. Receptores clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5.4.1. Filtro adaptado al usuario deseado . . . . . . . . . . . . . . . . . 1075.4.2. Detector RAKE . . . . . . . . . . . . . . . . . . . . . . . . . . . 1095.4.3. Detector decorrelador . . . . . . . . . . . . . . . . . . . . . . . . 1125.4.4. Detector MMSE . . . . . . . . . . . . . . . . . . . . . . . . . . 1155.4.5. Canceladores de interferencia substractivos . . . . . . . . . . . . 116

5.5. Receptores ciegos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1185.5.1. Igualación ciega aplicada a CDMA . . . . . . . . . . . . . . . . 1185.5.2. Aplicaciones de ICA en CDMA . . . . . . . . . . . . . . . . . . 119

5.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

6. Aplicación de ICA a la detección ciega de usuarios en CDMA . . . . . . . . . 1236.1. Construcción de un modelo de mezcla instantánea . . . . . . . . . . . . . 124

6.1.1. Modelo MISO convolutivo localmente cicloestacionario . . . . . 1246.1.2. Modelo MIMO convolutivo localmente estacionario . . . . . . . 1266.1.3. Modelo MIMO instantáneo . . . . . . . . . . . . . . . . . . . . . 128

6.2. Extracción ciega del usuario deseado . . . . . . . . . . . . . . . . . . . . 1296.2.1. Restricción de código . . . . . . . . . . . . . . . . . . . . . . . . 1296.2.2. Estimación en la práctica . . . . . . . . . . . . . . . . . . . . . . 1326.2.3. Reducción de la dimensión del vector de observaciones . . . . . . 132

6.3. Método de detección propuesto . . . . . . . . . . . . . . . . . . . . . . . 1336.3.1. Ejecución en dos etapas . . . . . . . . . . . . . . . . . . . . . . 1336.3.2. Inicialización para el algoritmo de BSE con restricción de código 1356.3.3. Inicialización para el algoritmo de BSE sin restricción de código . 136

6.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137Apéndice A. La pseudoinversa de Moore-Penrose . . . . . . . . . . . . . . . . 138

7. Simulaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1437.1. Condiciones de los experimentos . . . . . . . . . . . . . . . . . . . . . . 1437.2. Experimento 1: QPSK, 8 chpis/símbolo, 3 usuarios, 200 símbolos . . . . 1457.3. Experimento 2: QPSK, 12 chips/símbolo, 5 usuarios, 400 símbolos . . . . 1487.4. Experimento 3: QPSK, Es/No = 20 dB, 12 chips/símbolo, 400 símbolos . 1517.5. Experimento 4: 8-PSK, 8 chips/símbolo, 3 usuarios, 400 símbolos . . . . 1537.6. Experimento 5: 8-PSK, 12 chips/símbolo, 5 usuarios, 800 símbolos . . . . 1567.7. Experimento 6: 8-PSK, Es/No = 20 dB, 12 chips/símbolo, 800 símbolos . 158

Page 16: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

xvi Índice general

7.8. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

8. Plataforma de radiocomunicaciones en la banda de 5 GHz . . . . . . . . . . . 1618.1. Descripción general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1618.2. Front-end transmisor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

8.2.1. Esquemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1648.2.2. Caracterización . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

8.3. Front-end receptor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1728.3.1. Esquemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1738.3.2. Caracterización . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

8.4. Transmisión de señales y detección de usuarios a través de la plataforma . 1768.4.1. Transmisión de un usuario . . . . . . . . . . . . . . . . . . . . . 1778.4.2. Detección de usuarios . . . . . . . . . . . . . . . . . . . . . . . 177

8.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178Apéndice A. Características de los sustratos de cobre utilizados en las PCB . . 179Apéndice B. Front-end transmisor . . . . . . . . . . . . . . . . . . . . . . . . 179Apéndice C. Front-end receptor . . . . . . . . . . . . . . . . . . . . . . . . . . 181

9. Conclusiones y líneas futuras de trabajo . . . . . . . . . . . . . . . . . . . . . 1859.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1859.2. Líneas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

Apéndice 189

A. Notación y abreviaturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191A.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191A.2. Siglas y Abreviaturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198A.3. Abreviaturas de los algoritmos . . . . . . . . . . . . . . . . . . . . . . . 200

Índice de figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

Page 17: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Capítulo 1

Introducción

Los sistemas de comunicaciones por radio han utilizado tradicionalmente técnicas su-pervisadas para obtener información acerca de los canales y eliminar sus efectos. Estastécnicas supervisadas trabajan con secuencias de entrenamiento enviadas de los transmi-sores al receptor, consumiendo, así, ancho de banda. Además, cuando los canales tienenuna variación temporal rápida la estimación de sus parámetros debe ser más frecuente, porlo que el consumo de ancho de banda puede ser considerable. Las técnicas ciegas puedensustituir a las supervisadas, evitando las secuencias de entrenamiento e incrementando,de este modo, la eficiencia espectral. Los receptores ciegos suelen utilizar los métodos deigualación ciega, que estiman las respuestas impulsivas de los canales y contrarrestan susefectos. Sin embargo, el problema de la detección ciega puede ser interpretado desde elpunto de vista del Análisis de Componentes Independientes (ICA, Independent Compo-nent Analysis), una técnica ciega que trata de descomponer un conjunto de observacionesen sus componentes lineales independientes. Un caso con características especiales loconstituyen los sistemas de comunicaciones con Acceso Múltiple por División de Código(CDMA, Code Division Multiple Access), los cuales parecen ser particularmente propi-cios para la aplicación del análisis ICA . Puesto que los sistemas de comunicaciones dealta capacidad emplean modulaciones en fase y cuadratura se hace necesario contar conalgoritmos ICA que proporcionen buenos resultados trabajando con señales de valorescomplejos. Por otro lado, las señales de comunicaciones tienen un soporte acotado, porlo que adquiere importancia el desarrollo de criterios y algoritmos que hagan uso de estapropiedad en la realización del análisis ICA.

1.1 ICA, BSS Y BSE

Supongamos que disponemos de un conjunto de observaciones resultantes de la mezclade un grupo de señales originales o fuentes. Se denomina Separación Ciega de Fuentes(BSS, Blind Sources Separation) a la obtención de forma ciega (es decir, desconociendo

Page 18: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2 1. Introducción

1s

2s

Ns

1x

2x

Mx

1y

2y

Py

Mecla Extracción

1n Mn

Fig. 1.1: Mezcla y extracción de señales. Un conjunto de N fuentes independientes son mezcladasjunto con un ruido aditivo, dando lugar a un conjunto de M observaciones (M ≥ N ). Elsistema de extracción obtiene la estimación de P de las fuentes independientes originales(P ≤ N )

el proceso de mezcla) de todas las fuentes presentes en las observaciones. Cuando sepretende obtener un subconjunto de las fuentes que han dado origen a la mezcla se hablade Extracción Ciega de Fuentes (BSE, Blind Sources Extraction). La separación se puedeconsiderar, pues, como un caso particular de la extracción en el que el número de fuentesa extraer coincide con el número total de fuentes. En la figura 1.1 se ilustra el procesodesde la mezcla hasta la estimación de las fuentes originales.

Las mezclas pueden ser lineales (las observaciones son combinaciones lineales de lasfuentes) o no lineales. Existe una gran cantidad de problemas que pueden ser modeladoscomo problemas de mezclas lineales, lo que, unido a la sencillez de la formulación, haceque este tipo de problemas sea el más estudiado1. Las mezclas también pueden dividirseen instantáneas y convolutivas. En el primer caso las observaciones en un instante da-do dependen exclusivamente de las fuentes en ese instante, mientras que en el caso demezclas convolutivas los valores de las fuentes en instantes anteriores también influyenen las observaciones. En este trabajo se utilizan algoritmos que suponen mezclas linealese instantáneas. En estos casos el sistema de mezcla queda representado por una matrizconstante en el tiempo. Aunque la aplicación fundamental estudiada en este trabajo esla detección de usuarios en sistemas de comunicaciones móviles que utilizan CDMA, yen este tipo de comunicaciones siempre existen multitrayectos que dan lugar a mezclasconvolutivas, veremos que la señal recibida puede ser modelada como una mezcla instan-tánea. Esto es posible debido a que asumimos que las fuentes son secuencias de símbolosformadas por variables aleatorias independientes e idénticamente distribuidas (i.i.d), y quelas secuencias de símbolos de usuarios distintos son independientes. Una última divisiónque se realiza es la de mezclas con ruido o sin ruido. En el caso con ruido, suele suponerse

1 Sin embargo, también es posible realizar la separación en configuraciones no lineales (véase [Taleb99,Solé02, Almeida04, Jutten04])

Page 19: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

1.1. ICA, BSS y BSE 3

que este es aditivo y Gaussiano o circular, lo que permite aplicar los algoritmos diseñadospara mezclas sin ruido a observaciones ruidosas con resultados satisfactorios.

El Análisis de Componentes Independientes es uno de los métodos utilizados pararealizar los procesos de separación o extracción ciegas. Se trata de una técnica cuyo ob-jetivo es la obtención de las componentes independientes presentes en un conjunto deobservaciones, sin contar con más información que las propias observaciones. Es decir,la separación o extracción de fuentes se basa, en el caso de ICA, en asumir la indepen-dencia de dichas fuentes. Hay que hacer notar que las fuentes Gaussianas no pueden serseparadas por medio de técnicas ICA, puesto que, para fuentes Gaussianas independenciano implica separación, ya que la mezcla de dos fuentes Gaussianas puede dar lugar a dosobservaciones independientes.

En ICA existen tres hipótesis que se asumen como única información disponible apriori sobre las fuentes y la mezcla. La primera es evidente: las fuentes han de ser estadís-ticamente independientes. La segunda hipótesis consiste en asumir que no existe más deuna fuente Gaussiana. Esta hipótesis está relacionada con la identificabilidad de la mez-cla. Es decir, con la posibilidad de estimar el sistema de mezcla. Por último, el númerode observaciones debe ser mayor que el de fuentes para poder realizar la extracción o laseparación. Esta hipótesis se relaciona con la separabilidad, es decir, con la capacidad de,una vez conocido el sistema de mezcla, separar las fuentes (o extraer un cierto númerode ellas). Sin embargo existen algoritmos que, al menos, permiten identificar la mezcla,aunque no sean capaces de realizar la separación o la extracción sin disponer de ciertainformación extra a priori.

El análisis de componentes independientes se implementa como un problema de ma-ximización de ciertas funciones, llamadas funciones contraste, para la obtención de lascuales, es usual recurrir, de forma implícita o explícita, a estadísticos de orden superior(Higher Order Statistics, HOS), puesto que los de orden dos sólo garantizan la decorre-lación de las salidas, en una técnica denominada Análisis de Componentes Principales(PCA, Principal Component Analysis). La decorrelación o blanqueo de las salidas, queno implica independencia, es sin embargo utilizada como paso previo a ICA. En el pre-sente trabajo hemos desarrollado criterios y algoritmos de ICA para BSE basados en HOS(utilizados tanto de forma explícita como implícita). Proponemos también un criterio másdirectamente relacionado con las propiedades geométricas de los conjuntos soporte de lasvariables aleatorias que conforman los procesos estocásticos que originan las fuentes yque relaciona estas propiedades con la Teoría de la Información.

Sin embargo, ICA no es la única técnica para resolver los problemas de BSS o BSE;existen métodos no basados en la independencia de las fuentes, sino en estadísticos desegundo orden. Estos métodos explotan la estructura temporal de las fuentes, su no esta-cionariedad de segundo orden o su diversidad en el dominio tiempo-frecuencia. Nosotros

Page 20: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

4 1. Introducción

nos hemos centrado en los métodos ICA debido a que la hipótesis de independencia delas fuentes es la que se adapta a los problemas que pretendemos resolver, es decir, ladetección ciega de usuarios en sistemas CDMA.

La separación y extracción ciegas de fuentes tienen numerosas aplicaciones, desde lascomunicaciones hasta la biomedicina (extracción de artefactos en medidas tales como laelectroencefalografía, la magnetoencefalografía o el electrocardiograma; la extracción delelectrocardiograma fetal; análisis de resonancias magnéticas funcionales; etc.), pasandopor la separación de señales de voz y de audio o el análisis de datos financieros.

1.2 CDMA

En los sistemas de comunicaciones móviles una cierta cantidad de usuarios tratan detransmitir y recibir señales de información de diverso tipo (voz, vídeo, datos). Si no seimponen ciertas restricciones en el acceso al sistema, a cada receptor llegará una super-posición de las contribuciones debidas a todos los usuarios que transmiten informaciónen ese momento, sin posibilidad de hacer una distinción entre ellas. Para evitar esto seestablecen mecanismos de acceso. En todos ellos cada usuario verá restringido el uso delsistema en tiempo o en ancho de banda. O, de forma alternativa, tendrá que utilizar unancho de banda mucho mayor del necesario para transmitir.

En los sistemas que utilizan acceso múltiple por división de tiempo (Time DivisionMultiple Access, TDMA) a cada usuario se le asigna un intervalo de tiempo en el quepuede transmitir, de modo que la mayor parte del tiempo el usuario tiene restringido eluso del sistema. Además, es necesaria una sincronización que permita al transmisor saberen qué instante puede realizar la transmisión (en el caso del enlace ascendente, en que eltransmisor es uno de los usuarios móviles) o al receptor saber en qué instante comienza latransmisión de datos destinada a él (en el caso del enlace descendente, en que el transmisores una estación base y el receptor uno de los usuarios).

Otros sistemas utilizan el acceso múltiple por división de frecuencia (Frequency Di-vision Multiple Access, FDMA). Con este mecanismo de acceso se asigna a cada usuariouna banda del canal de comunicaciones, de modo que cada usuario utiliza sólo una partedel ancho de banda de que se dispone para la transmisión.

Con la técnica de acceso múltiple por división de código (CDMA) todos los usuariosutilizan todo el ancho de banda del canal y transmiten y reciben en cualquier instante. Lacontrapartida es que el usuario está utilizando un ancho de banda mayor que el necesariopara transmitir. Se realiza, por lo tanto, un ensanchado del espectro de la señal a transmitirpor el usuario. El receptor realiza la correspondiente contracción del espectro para obtenerla señal de información.

El ensanchado se lleva a cabo mediante el uso de señales de código que multiplican a

Page 21: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

1.2. CDMA 5

Fig. 1.2: Rechazo al jamming. Antes de contraer el espectro de la señal, esta tiene una menordensidad espectral de potencia que el jamming. Al aplicar el filtro adaptado al código, elespectro de la señal deseada se contrae y ocupa una pequeña banda de frecuencia. Por elcontrario el jamming se ensancha y pasa a ocupar una amplia banda, disminuyendo asísu densidad espectral de potencia. Al muestrear, conservaremos exclusivamente la bandade la señal, habiendo reducido notablemente el jamming.

las señales de información de los transmisores. La señal de código es propia del usuarioy ortogonal a las del resto de usuarios. La contracción del espectro se realiza con un filtroadaptado a esta misma señal de código. Esta característica permite reducir las interferen-cias producidas por el resto de usuarios y conservar con una alta densidad de potenciasólo el espectro del usuario que se desea detectar. En efecto, al realizar el ensanchado dela señal a transmitir, disminuimos su densidad espectral de potencia, repartiéndose estapor una banda mayor de frecuencia, mientras que al contraer el espectro la potencia seconcentra en una banda menor, incrementándose así la densidad espectral de potencia dela señal. Como los códigos son ortogonales (o cuasi-ortogonales) sólo queda contraído elespectro de la señal proveniente del usuario deseado, mientras que las señales interferen-tes permanecen expandidas. Asimismo, el ruido también queda ensanchado. También esútil el ensanchado y la posterior contracción del espectro para la eliminación de las seña-les conocidas como “jamming” (señales interferentes de alta potencia y banda estrecha),como se ilustra en la figura 1.2.

Es evidente que los sistemas con CDMA implican una serie de interferencias debidasa los demás usuarios del sistema. Esta interferencia se denomina Interferencia por AccesoMúltiple (Multi-access Interference, MAI). La tarea de los detectores en el receptor es eli-minar la mayor cantidad posible de interferencia. El procedimiento simple de contraccióndel espectro que acabamos de ver es el método más sencillo. Sin embargo no es eficazcuando los canales tienen multitrayectos (es decir en casi todos los casos reales), cuandono existe una sincronización entre el transmisor y el receptor, cuando el nivel de ruido eselevado o cuando nos enfrentamos al problema de near-far, en que la señal de un usuario

Page 22: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

6 1. Introducción

interferente llega al receptor con una potencia mucho mayor que la señal que se deseadetectar.

Es deseable, pues, diseñar detectores ciegos capaces de eliminar la MAI y tambiénla Interferencia Inter-Símbolos (Inter-Symbol Interference, ISI) producida por los canalesmultitrayectos, evitando la utilización de secuencias de entrenamiento y de mecanismosde sincronización, y salvando, además, el problema de near-far. En este trabajo se ha reali-zado una investigación para la elaboración de métodos que realizan este tipo de detecciónciega, en la cual la única información a priori de que dispone el detector es la señal decódigo del usuario deseado. Tradicionalmente ha sido empleada la técnica conocida comodeconvolución o igualación ciega de canales. Sin embargo, en los últimos años diversosautores han recurrido a la BSE o a la BSS para realizar la detección ciega. Ello es debidoa que la estructura de códigos de usuario da lugar a un modelo cicloestacionario, el cualproporciona la diversidad suficiente para convertirlo en un modelo MIMO estacionariode mezcla instantánea. Esto sugiere la utilización de técnicas de análisis ICA para llevara cabo la detección ciega en este tipo de sistemas. Nosotros hemos seguido esta línea detrabajo desarrollando un método de detección ciega que emplea técnicas de BSE median-te Análisis de Componentes Independientes combinadas con ciertas restricciones basadasen el código del usuario deseado.

1.3 PLANTEAMIENTO Y ESTRUCTURA DEL TRABAJO

Este trabajo se estructura de la siguiente manera. En el capítulo 2 se realiza una presenta-ción de los métodos de BSS y BSE basados en ICA. En el capítulo 3 se lleva a cabo unarevisión de algunos de los criterios y algoritmos previamente existentes para deconvolu-ción ciega, BSS y BSE, haciendo hincapié en aquellos que posteriormente serán utilizadosen el capítulo de simulaciones para ser comparados con los algoritmos propuestos por no-sotros. En el capítulo 4 presentamos los algoritmos que proponemos para la extracciónciega de una sola fuente en mezclas lineales e instantáneas. En el capítulo 5 se realizauna introducción a la técnica de Acceso Múltiple por División de Código en los sistemasde comunicaciones móviles. En el capítulo 6 se muestra la aplicación de los algoritmosde separación ciega de fuentes en los sistemas con CDMA. En el capítulo 7 se presentanlos resultados de las simulaciones realizadas para ilustrar el comportamiento del métodode detección propuesto, comparándolo con varios algoritmos existentes. En el capítulo 8se presenta una plataforma de radiocomunicación en cuyos diseño y fabricación ha par-ticipado el autor y en la que la banda base y la modulación están definidas por software.Este tipo de plataformas son útiles para el desarrollo de sistemas de transmisión y de al-goritmos de detección que permitan en el receptor recuperar las secuencias de símbolostransmitidas. El disponer de esta plataforma nos ha permitido probar el comportamien-

Page 23: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

1.3. Planteamiento y estructura del trabajo 7

to del método de detección propuesto en un entorno real de laboratorio. Se detallan lascaracterísticas de la plataforma y las medidas realizadas empleándola, así como los resul-tados de la aplicación del método de detección ciega propuesto sobre las señales recibidasa través de ella. Por último, en el capítulo 9 se exponen las conclusiones de este trabajo.En la figura 1.3 se muestra la interconexión existente entre los capítulos de esta tesis.

Capítulo 1

Introducción

Capítulo 3

Criterios y algoritmos previos

Capítulo 4

Nuevos criterios y algoritmos de BSE

Capítulo 5

Acceso Múltiple por División de Código

Capítulo 6

Aplicación de ICA a la detección ciega de usuarios en CDMA

Capítulo 7

Simulaciones

Capítulo 8

Plataforma de radiocomunicaciones en

la banda de 5 GHz

Capítulo 9

Conclusiones y líneas futuras de trabajo

Capítulo 2

Descomposición de las observaciones en

componentesindependientes

Fig. 1.3: Interconexión entre los capítulos que conforman la tesis.

Page 24: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 25: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Capítulo 2

El problema de la descomposición de lasobservaciones en componentes

independientes

En este capítulo se presentan la definición y los conceptos básicos del Análisis de Com-ponentes Independientes (ICA), que se emplea para descomponer un conjunto de obser-vaciones en sus componentes independientes. Veremos la formulación matemática delproblema en las situaciones más comunes en que suele presentarse.

Posteriormente se muestran la relación y las diferencias entre ICA y los métodos deblanqueo o decorrelación de las observaciones, como el Análisis de Componentes Prin-cipales (PCA), utilizados como preprocesamiento o paso previo al ICA, así como loscriterios fundamentales para la obtención de las componentes independientes, como sonla no Gaussianidad de las salidas, el criterio de máxima verosimilitud, el de mínima in-formación mutua entre las salidas y el de máxima transferencia de información.

2.1 ANÁLISIS DE COMPONENTES INDEPENDIENTES EN MEZCLAS INS-TANTÁNEAS

El Análisis de Componentes Independientes (Independent Component Analysis) es unatécnica de procesamiento de señales con múltiples aplicaciones en diferentes campos. Suobjetivo es la obtención de las componentes independientes presentes en un vector deobservaciones. La técnica consiste en encontrar de forma ciega una transformación delvector que minimice la dependencia de las componentes del vector de salidas obtenido1.Cada una de las observaciones es una realización de un proceso aleatorio que podemosconsiderar formado a partir de la mezcla2 de las componentes independientes originales.

1 Véanse [Jutten91] [Comon94] [Cardoso98] [Cruces99] [Hyvärinen01] [Cichocki03] [Choi05].2 En esta tesis trabajaremos con mezclas lineales.

Page 26: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

10 2. Descomposición de las observaciones en componentes independientes

A esas señales originales estadísticamente independientes se les denomina fuentes, y elproblema de recuperar dichas fuentes mediante ICA, desconociendo tanto las propiedadesestadísticas de las fuentes como el sistema de mezcla, se denomina separación ciega deseñales o separación ciega de fuentes (BSS). A la recuperación de un subconjunto delas fuentes independientes se le llama extracción ciega de señales o extracción ciega defuentes (BSE). Estos problemas son muy difíciles de resolver para un caso general, porlo que hay que hacer aproximaciones para los diversos casos que aparecen. Así, se suelenhacer distinciones entre los tipos de mezcla que se pueden dar en los problemas de BSSy BSE, de modo que podemos trabajar con mezclas lineales o no lineales, instantáneas oconvolutivas, o mezclas con o sin ruido.

Nuestro trabajo está orientado a la aplicación de los métodos de BSS y BSE en se-ñales de comunicaciones. Como veremos más adelante, en estos casos, y aunque exis-tan multitrayectos, es posible obtener un modelo de mezclas lineales e instantáneas defuentes independientes. Es decir, un modelo en el que las observaciones en un instantedeterminado son combinaciones lineales de las fuentes en ese mismo instante, no depen-diendo, pues, de valores anteriores de las fuentes, al contrario de lo que ocurre en mezclasconvolutivas. Para conseguir esto se emplea la diversidad temporal que proporcionan losmultitrayectos junto con la asunción de que los procesos originales están formados porvariables aleatorias independientes e idénticamente distribuidas (i.i.d.).

2.1.1 Modelo de mezcla sobredeterminado sin ruido

En la figura 2.1 se representa el modelo de mezcla y separación para un sistema lineal einstantáneo sin ruido con N fuentes y M ≥ N observaciones.

… …… BA

)(1

ks

)(ksN

)(1

kx

)(kxM

)(1

ky

)(kyN

Fig. 2.1: Modelo de mezcla y separación para mezclas lineales, instantáneas y sin ruido

En este modelo un conjunto de N fuentes s1(k), s2(k), . . . , sN(k), se mezclan deforma lineal e instantánea dando lugar a las observaciones, x1(k), x2(k), . . . , xM(k),donde

xi(k) =N∑

j=1

Aijsj(k) . (2.1)

Si agrupamos las fuentes en el vector de fuentes s(k) = [s1(k), s2(k), . . . , sN(k)]T

Page 27: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.1. Análisis de Componentes Independientes en mezclas instantáneas 11

y las observaciones en el vector de observaciones x(k) = [x1(k), x2(k), . . . , xM(k)]T

obtenemos el modelo matricial de mezcla, en el cual el sistema de mezcla es una matrizconstante A de orden M ×N y de coeficientes complejos

x(k) = As(k) . (2.2)

En este modelo las salidas del sistema de separación yj(k) son combinaciones linealesde las observaciones

yj(k) =M∑i=1

B∗jixi(k) . (2.3)

Podemos definir el vector de salidas y(k) = [y1(k), y2(k), ..., yN(k)]T, de manera queel sistema de separación es otra matriz BH constante de orden N ×M

y(k) = BHx(k) = BHAs(k) . (2.4)

Denominando G (matriz global de transferencia, N ×N ) al producto BHA podemosescribir el vector de salidas como la multiplicación de la matriz global de transferenciapor el vector de fuentes

y(k) = Gs(k) . (2.5)

2.1.2 Hipótesis

Para la aplicación de los métodos de Análisis de Componentes Independientes de formaque sea posible estimar la matriz de mezcla y las fuentes se asumen tres hipótesis:

1. Las fuentes son estadísticamente independientes.

2. Identificabilidad: como máximo sólo una de las fuentes puede ser Gaussiana.

3. Separabilidad: el número de fuentes debe ser menor o igual que el de observaciones(M ≥ N ).

Estas hipótesis de partida fueron definidas por Comon ([Comon94]) y sistematizadaspor Cao y Liu ([Cao96]).

Independencia

Cada fuente si(k), con i = 1, 2, . . . , N es una realización del proceso estocástico Si(k), i =

1, 2, . . . , N . Las fuentes se suponen de media cero, mutuamente independientes y con

Page 28: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

12 2. Descomposición de las observaciones en componentes independientes

funciones de densidad de probabilidad (f.d.p.) marginales desconocidas pSi(si). La in-

dependencia se define a través de la f.d.p. conjunta. Si las variables son independientesentonces se cumple

pS(s) =N∏

i=1

pSi(si) . (2.6)

No existe pérdida de generalidad en la consideración de que las fuentes tienen mediacero, puesto que en caso de no ser así, es posible forzar la condición con el centrado delas observaciones. Si partimos de un vector de observaciones x(k) que no tiene mediacero (producido por un vector de fuentes s(k) que tampoco tiene media cero), es sencilloconseguir un vector de observaciones3 x(k) = x(k) − E[x(k)] = As(k) −AE[s(k)] =

A(s(k)−E[s(k)]) = As(k), donde x(k) y s(k) son los nuevos vectores de observacionesy fuentes con media cero.

Existen otros métodos de métodos de Separación Ciega de Fuentes que no están ba-sados en la independencia de las fuentes, sino que explotan otras características comopueden ser la estructura temporal de las fuentes, la no estacionariedad, la dispersión o ladiversidad espacio-temporal.

Identificabilidad

La identificabilidad consiste en la posibilidad de determinar la matriz de mezcla. Cuan-do sólo una de las fuentes es Gaussiana la separación de las fuentes en las salidas esequivalente a la independencia mutua de las salidas, y esto a su vez es equivalente a laindependencia dos a dos de las propias salidas [Comon94]. Por el contrario, la existenciade más de una fuente Gaussiana, sólo permite la separación de las fuentes no-Gaussianas.Por lo tanto, la identificabilidad de la mezcla viene determinada por la independencia delas fuentes y la no Gaussianidad de todas las fuentes excepto, como máximo, una.

Esta condición de no Gaussianidad fue definida en [Comon94] y [Cao96] basándoseen el Teorema de Darmois-Skitovich (cuya extensión y demostración para el caso com-plejo fue realizada en [Eriksson06]) y en un lema sencillo del álgebra de matrices.

Teorema 2.1 (de Darmois-Skitovich). Sea s(k) = [s1(k), s2(k), . . . , sN(k)]T un vectoraleatorio (N ≥ 2) de elementos complejos cuyas componentes son mutuamente indepen-dientes y sean dos salidas independientes

y1(k) = G11s1(k) + G12s2(k) + . . . + G1NsN(k)

y2(k) = G21s1(k) + G22s2(k) + . . . + G2NsN(k) . (2.7)3 Aunque en rigor debe escribirse E[X] para referirse a la esperanza de la variable aleatoria X, la mayoría

de las veces escribiremos E[x], como suele hacerse en el ámbito de ICA, empleando E[X] sólo cuandopretendamos distinguir la variable aleatoria de la muestra. Con ello pretendemos reservar las mayúsculaspara matrices y las minúsculas para vectores.

Page 29: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.1. Análisis de Componentes Independientes en mezclas instantáneas 13

Si para un índice arbitrario i se cumple G1j 6= 0 y G2j 6= 0 entonces sj(k) tiene unadistribución Gaussiana compleja.

El siguiente lema también es utilizado para obtener las condiciones de identificabili-dad de la mezcla.

Lema 2.1. Si en una matriz no singular G (N ×N ) la primera fila es ortogonal al restoentonces G1j = 0 ∀j = 2, 3, . . . , N si y sólo si Gi1 = 0 ∀i = 2, 3, . . . , N .

Empleando el teorema de Darmois-Skitovich y el lema anterior se deduce el siguientecorolario.

Corolario 2.1. Si todas las fuentes menos una son no Gaussianas entonces la indepen-dencia dos a dos de las salidas garantiza la separación.

Demostración. Supongamos que s1(k) es la fuente Gaussiana. Si las salidas son indepen-dientes dos a dos, como las fuentes son no Gaussianas excepto s1(k), en cada columna dela submatriz [Gij], i = 1, . . . , N , j = 2, . . . , N sólo hay un elemento distinto de 0. Comohay más filas que columnas tenemos al menos una fila de ceros. Podemos colocar una deesas filas en la primera posición (lo único que cambiará será la posición de las salidas).Aplicando el lema veremos que la primera columna tiene todos sus elementos (exceptoel primero) nulos. Sin embargo, si hubiese más de una fila de ceros en la submatriz an-tes definida, debido a la columna de ceros existente que acabamos de comprobar habráuna fila de ceros en la matriz G. Esto entra en contradicción con el hecho de que G esortogonal. Luego en la submatriz definida hay exactamente una fila de ceros, por lo quelos elementos no nulos están cada uno en una fila. Al aplicar el lema vemos que en cadafila y en cada columna de G hay exactamente un elemento no nulo. Reordenando las filas(las salidas) y recordando que G es ortogonal tenemos que G = I. Es decir, se producela separación.

Por lo tanto, una forma de diseñar algoritmos de separación mediante ICA es forzarla independencia estadística dos a dos de las salidas, lo cual supone una condición másdébil que la independencia mutua.

Hay que notar que la separación se produce por la independencia de las salidas, nopor su decorrelación (la cual sólo nos asegura la ortogonalidad de G), como veremos másadelante.

El siguiente corolario muestra lo que sucede cuando más de una fuente es Gaussiana.

Corolario 2.2. En presencia de más de una fuente Gaussiana la propiedad de indepen-dencia dos a dos de las salidas sólo garantiza la separación de las fuentes no Gaussianas.

Page 30: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

14 2. Descomposición de las observaciones en componentes independientes

Supongamos que tenemos L fuentes Gaussianas. El corolario nos muestra que si lasfuentes y las salidas tienen varianza unidad, podemos permutar G de manera que se des-componga como G = diagI,Q, donde I es la matriz identidad (N − L)× (N − L) yQ es una matriz unitaria L× L, es decir, QHQ = I.

Separabilidad

La separabilidad es un concepto que indica la posibilidad de recuperar las fuentes una vezidentificada la mezcla. denotaremos la pseudoinversa de Moore-Penrose [Golub96] de lamatriz de mezcla como A+. Definiendo la matriz diagonal D = diag(δ1, δ2, . . . , δN) yla matriz de permutación P, si M ≥ N entonces el producto A+A es la identidad IN ,por lo que existe una matriz de separación B = A+DP que proporciona las fuentesindependientes en las salidas, existiendo así la condición de separabilidad.

Existen sin embargo algoritmos que permiten identificar la matriz de mezcla cuandoel número de observaciones es inferior al de fuentes (M < N ), aunque, en estos casos noexiste una matriz de separación, puesto que el producto A+A no es la identidad, sino elproyector ortogonal en el subespacio expandido por las columnas de AH [Golub96]. Enestas situaciones, para estimar algunas de las fuentes se necesita disponer de cierto cono-cimiento a priori acerca de las mismas, como, por ejemplo, la dispersión de las señalesque se desea identificar [Choi05].

2.1.3 Ambigüedades

Existen dos ambigüedades o indeterminaciones que no se pueden resolver cuando se pre-tende separar las fuentes a partir de las observaciones de forma ciega. La primera estárelacionada con el escalado de las fuentes; no podemos determinar la energía de estas.Es evidente que el vector de observaciones x definido en (2.2) permanece inalterado siescalamos las fuentes s y las columnas de la matriz A, de modo que las fuentes siguensiendo independientes

x =(AD−1

)Ds . (2.8)

La otra ambigüedad consiste en la ordenación de las fuentes. Igual que ocurre con elescalado, también podemos reordenar las columnas de A y los elementos de s mantenien-do la independencia de las fuentes

x =(AP−1

)Ps . (2.9)

Por lo tanto, la matriz global que permite la separación de las fuentes en las salidas(G∗) no es única. Obviamente, para recuperar las fuentes en el mismo orden en que seagrupan en el vector de fuentes y con su misma varianza es necesario que G∗ = I. Sin

Page 31: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.1. Análisis de Componentes Independientes en mezclas instantáneas 15

embargo, acabamos de ver que la independencia de las fuentes no se ve alterada porescalados o reordenaciones del vector s, por lo que cualquier matriz de la forma G∗ =

DP, siendo D = diag(δ1, δ2, . . . , δN) proporciona una solución y = DPs válida alproblema de separación ciega de fuentes independientes. Por lo tanto, para poder obteneruna matriz global de separación igual a la identidad (G = I) haría falta informaciónadicional.

2.1.4 Anulación de cumulantes cruzados

Hemos visto que para garantizar la separación de fuentes independientes no Gaussianasbasta con imponer la independencia dos a dos de las salidas. Si consideramos una va-riable aleatoria bidimensional Y = [Yi, Yj]

T, la independencia de las dos variables Yi eYj es equivalente a la factorización de la f.d.p. de Y como producto de las densidadesmarginales

pY(y) = pYi(yi)pYj

(yj) . (2.10)

Sin embargo este no es un criterio práctico, debido a la dificultad de estimar las f.d.p.de las salidas. Por ello es necesario recurrir al uso de las funciones características y losestadísticos.

La primera función característica de una variable aleatoria se obtiene a partir de latransformada de Fourier de su f.d.p. [meter referencia [Papoulis91]:

αY(ω) , E[ejωTy

]=

∫ ∞

−∞pY(y)ejωTydy . (2.11)

La segunda función característica es el logaritmo neperiano de la primera funcióncaracterística:

ϕY(ω) , log(αY(ω)) . (2.12)

Es fácil comprobar que la independencia de las variables Yi e Yj es equivalente a laposibilidad de descomponer la primera función característica de Y en el producto de lasprimeras funciones características de las dos variables marginales. Es decir,

αY(ω) = αYi(ωi)αYj

(ωj) . (2.13)

Esto a su vez es equivalente a la posibilidad de descomponer la segunda función ca-racterística de Y como suma de las segundas funciones características de las dos variablesmarginales,

ϕY(ω) = ϕYi(ωi) + ϕYj

(ωj). (2.14)

Page 32: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

16 2. Descomposición de las observaciones en componentes independientes

Relacionados con la segunda función característica están unos estadísticos denomi-nados cumulantes cruzados, que son de gran interés para el Análisis de ComponentesIndependientes, puesto que permiten verificar la independencia dos a dos de las salidas yson relativamente sencillos de calcular, al estar relacionados con los momentos cruzados.

Si expandimos en serie de Taylor la ecuación (2.14) vemos que los términos cruzadosωα

i ωβj que aparecen a la izquierda de la igualdad se deben anular, ya que no aparecen

en el término de la derecha. Los coeficientes de estos términos son proporcionales a loscumulantes cruzados. Se define el cumulante cruzado de orden α + β de las variables Yi

e Yj como

Cα,βYi,Yj

, (−j)α+β ∂α+βϕY(ωi, ωj)

∂ωαi ∂ωβ

j

∣∣∣∣∣ωi=ωj=0

. (2.15)

Por lo tanto,

Yi, Yj indeps. ⇐⇒ Cα,βYi,Yj

= 0 ∀α 6= β α, β ∈ N+ . (2.16)

Si para una variable multidimensional Y = [Y1, . . . , YN ]T definimos la matriz decumulantes cruzados de orden α + β como

Cα,βY,Y =

[Cα,β

Yi,Yj

]i,j

(2.17)

tenemos que

Yi, Yj indeps. 2 a 2 ⇐⇒ Cα,βY,Y diagonal ∀ α, β ∈ N+ . (2.18)

Luego en un proceso de Análisis de Componentes Independientes la independenciados a dos de las salidas queda garantizada por la diagonalización de las matrices de cu-mulantes cruzados de todos los órdenes posibles del vector de salidas. Sin embargo, enel caso de mezclas lineales un conjunto limitado de cumulantes proporciona un númerosuficiente de ecuaciones para resolver el problema. [Cruces99] [Mansour95].

Del mismo modo, el cumulante de orden r de la variable Yi se define como

CrYi

, (−j)r ∂rϕY(ωi)

∂ωri

∣∣∣∣ωi=0

. (2.19)

Los cumulantes tienen dos propiedades útiles para el Análisis de Componentes Inde-pendientes, que los diferencian de los momentos [Nikias93].

1. El cumulante de la suma de dos variables aleatorias es la suma de los cumulantesde dichas variables.

2. Para cualquier variable Gaussiana los cumulantes de orden tres y superiores sonnulos.

Page 33: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.1. Análisis de Componentes Independientes en mezclas instantáneas 17

La segunda propiedad nos permite comprobar de nuevo que en el caso de las variablesGaussianas la independencia no garantiza la separación. Siempre que en las salidas apa-rezcan las fuentes Gaussianas combinadas de tal manera que sus correlaciones cruzadassean nulas se garantiza la independencia (puesto que las señales Gaussianas tienen loscumulantes de orden mayor que 2 nulos), y sin embargo las fuentes Gaussianas aparecencombinadas en las salidas. Es decir, existe independencia de las salidas sin que existaseparación de las fuentes Gaussianas.

Otra forma de comprobar esto se basa en las propias funciones de densidad de proba-bilidad [Hyvärinen01]. En efecto, la f.d.p. conjunta de dos variables Gaussianas indepen-dientes no se ve alterada siempre que la matriz de mezcla sea ortogonal, de modo que lamezcla da lugar a dos nuevas variables Gaussianas independientes.

2.1.5 PCA, decorrelación y blanqueo

Ya hemos comentado que para mezclas lineales basta un conjunto limitado de cumulantes(los cumulantes de cuarto orden son los comúnmente usados) para proporcionar el númerosuficiente de ecuaciones que garanticen la independencia de las salidas.

Sin embargo, no son suficientes los cumulantes cruzados de orden 2. Como es sabido,la decorrelación de dos variables no garantiza su independencia, aunque lo recíproco sí escierto. Decimos que dos variables Yi, Yj son incorreladas cuando su covarianza es nula. Enel caso de ICA, puesto que forzamos que las variables tengan media cero, la decorrelaciónde dos variables supone que E[YiY

∗j ] = 0. Llamamos blanco a un vector Y de variables

incorreladas y de varianza unidad. Es decir, cuando cumple

C1,1Y,Y = E[yyH] = IN . (2.20)

Existen diversos procedimientos para blanquear un vector de variables aleatorias.Desde el punto de vista de las matrices de cumulantes es sencillo ver que el blanqueode las salidas no es suficiente para garantizar la independencia, puesto que la ecuación(2.20) solamente proporciona N(N − 1)/2 ecuaciones para cancelar los elementos cru-zados, mientras que la matriz de separación consta de NM elementos que han de serdeterminados. Por lo tanto son necesarios cumulantes cruzados de orden mayor que 2(estadísticos de orden superior, HOS). En [Cardoso99] encontramos una introducción alICA desde el punto de vista de los HOS como medida de la independencia.

No obstante, la decorrelación de las salidas se utiliza para simplificar el problema. Mu-chos algoritmos realizan, como paso previo a la separación, el preblanqueo (pre-whiteningo sphering) de las observaciones. Esto hace que la matriz de separación sea unitaria, hechoaprovechado posteriormente por estos algoritmos.

El preblanqueo se puede realizar mediante una transformación lineal de la siguientemanera. Sea x el vector de las observaciones. Suponiendo que las fuentes (y, por lo tanto,

Page 34: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

18 2. Descomposición de las observaciones en componentes independientes

las observaciones) tienen media cero, la matriz de correlaciones vendrá dada por Rx ,C1,1

X,X = E[xxH] = AAH. Esta matriz se puede descomponer como Rx = QLΛ2QHL ,

donde QL es la matriz de autovectores de Rx y Λ2 = diag(λ21, λ

22, . . . , λ

2N , 0, . . . , 0)

la matriz de dimensión M × M de autovalores4 de Rx, que resulta ser Λ2 = ΛΛT, elproducto de la matriz de valores singulares de la matriz de mezcla A, Λ, por su traspuesta.La matriz Λ es una matriz diagonal de valores reales, pero no cuadrada, y su dimensiónes M × N . Si llamamos Λ = diag(λ1, λ2, . . . , λN) a la matriz diagonal cuadrada quecontiene los N valores singulares no nulos5 de A y QL = [qL1| . . . |qLN

] a la submatrizde QL correspondiente, la matriz de preblanqueo se define como

W = Λ−1QHL N ×M , (2.21)

y tiene la propiedad de que WAAHWH = IN , lo cual es inmediato comprobar sustitu-yendo AAH y W por su descomposición en función de QL y Λ2. Veamos,

AAH =[QL 0M,M−N

] [Λ2 0N,M−N

0M−N,N 0M−N,M−N

][QH

L

0M−N,M

]=

= QLΛ2QH

L . (2.22)

Puesto que QHLQL = IN , resulta

WAAHWH = Λ−1QHLQLΛ

2QHLQLΛ

−1 = IN . (2.23)

El vector de observaciones preblanqueadas resulta de multiplicar el vector de observacio-nes por la matriz de preblanqueo W

z(k) = Wx(k) , (2.24)

y su autocorrelación es la matriz identidad Rz , C1,1Z,Z = E[zzH] = WAAHWH = IN .

Podemos ver que cuando se tienen más observaciones que fuentes (M > N ) la aplicaciónde esta matriz de preblanqueo al vector de observaciones supone una reducción de ladimensión de los datos, puesto que la dimensión de z(k) es N .

4 Por tratarse de una matriz Hermítica sus valores singulares coinciden con sus autovalores, lo que haceposible la descomposición de AAH tanto mediante descomposición en valores singulares (SVD, SingularValue Decomposition) como mediante la descomposición en autovalores y autovectores, proporcionandoambas resultados iguales salvo por una constante compleja de módulo unidad que multiplica a los autovec-tores. En general, la factorización de una matriz no Hermítica o no cuadrada necesita de otra matriz unitariade entrada, por lo que se utiliza la SVD.

5 Puesto que estamos considerando que las fuentes son independientes, asumimos que la matriz de mez-cla es de rango completo por columnas. En el capítulo 6 veremos un caso en que no es así, con lo cual elnúmero de autovalores no nulos será inferior a N .

Page 35: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.1. Análisis de Componentes Independientes en mezclas instantáneas 19

Definimos así una nueva matriz de separación, U, que se aplica al vector de observa-ciones preblanqueadas, de modo que el vector de salidas es

y(k) = UHz(k) . (2.25)

Por lo tanto , la matriz B del modelo de separación (2.4) vendrá dada por B = WHU. Esfácil comprobar que, en la solución, la matriz U∗ que produce la separación de las fuenteses unitaria, dado que las salidas, en ese caso, serán incorreladas (C1,1

Y,Y = IN ), puesto queserán independientes

IN = C1,1Y,Y = UH

∗C1,1Z,ZU∗ = UH

∗ IU∗ = UH∗U∗ . (2.26)

Por lo tanto la búsqueda de la matriz de separación unitaria U∗ se restringe al espaciode matrices unitarias, con lo que podemos establecer como restricción a los criterios deseparación

UHU = IN . (2.27)

El modelo de observaciones se puede reescribir entonces como

z(k) = Vs(k) = WAs(k) , (2.28)

donde se ha definido V = WA como la nueva matriz de mezcla unitaria. En la ecuación(2.23) ya hemos comprobado esta propiedad de V. Además, como WA es una matrizcuadrada, se cumple I = VVH = VHV. Por lo tanto, una posible solución al problema deBSS utilizando el preblanqueo de las observaciones es la propia matriz de mezcla unitaria(U∗ = V). Debido a las incertidumbres inherentes a ICA la matriz de separación unitariageneral que es solución del problema de BSS viene determinada por U∗ = VDP, dondeD es una matriz diagonal cuyos coeficientes tienen módulo unidad y P es una matriz depermutación.

El procedimiento de preblanqueo que acabamos de ver es conocido como PCA (Prin-cipal Components Analysis, Análisis de componentes principales) [Bell00]. Este procedi-miento busca la ortogonalización de las observaciones (su decorrelación), lo cual, comohemos visto, no garantiza la independencia ni, por lo tanto, la separación de las fuentesen esas observaciones preblanqueadas (sin embargo, muchas veces el proceso de preblan-queo ya permite vislumbrar la forma de algunas de las fuentes). Un uso frecuente delPCA es la reducción de la dimensión del vector de las observaciones. Ya hemos vistoque esto es necesario cuando tenemos una mezcla con más observaciones que fuentes.Sin embargo, puede ser deseable en ciertos casos reducir aún más el número de obser-vaciones para conservar solamente las componentes más importantes (las componentesprincipales). En general, la reducción se consigue tomando W = Λ−1

n QHLn

, donde se de-finen Λn = diag(λ1, λ2, . . . , λn) y QLn = [qL1|qL2| . . . |qLn ] con n ≤ N . Para conservarlas componentes principales los autovalores se escogen en orden decreciente de su valorabsoluto.

Page 36: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

20 2. Descomposición de las observaciones en componentes independientes

2.1.6 Extracción Ciega de Fuentes

Hemos visto hasta ahora el problema de separación ciega de fuentes (BSS). Sin embargo,hay casos en que sólo se desea obtener un subconjunto de las fuentes independientesoriginales. En estos casos se hace innecesaria la aplicación de todo el proceso de BSS,siendo mucho más práctico y rápido el denominado como Extracción Ciega de Señales oExtracción Ciega de Fuentes (BSE), [Amari00] [Hyvärinen01] [Cichocki03] [Leong08].Esto sucede, por ejemplo, en aplicaciones biomédicas, con gran número de fuentes y deobservaciones, o en señales de comunicaciones, donde, al menos en el enlace descendente,el receptor sólo está interesado en la recuperación de la señal de información destinadaa él. El caso extremo es aquel en el que sólo interesa extraer una fuente. En ese caso lasalida no es un vector, sino un escalar, de la forma

y(k) = uHz(k) = bHx(k) , (2.29)

siendo u el vector de extracción (b para el caso sin preblanqueo). En la solución, el vectoru debe coincidir con una de las columnas de la matriz de mezcla unitaria V.

A veces es conveniente, para extraer un determinado subconjunto de las fuentes, reali-zar extracciones parciales de subconjuntos menores y combinar estas extracciones con unmétodo denominado deflación. La deflación se utiliza para eliminar de las observacioneslas componentes asociadas a las fuentes ya extraídas (las salidas resultantes de la BSE).Este método fue propuesto por primera vez en [Delfosse95] y desarrollado también en[Thawonmas98] entre otros.

El método de la deflación consiste en proyectar las salidas (las fuentes extraídas) sobrelas observaciones, de manera que se obtienen las componentes de las salidas en cadauna de las observaciones. Tras esto se procede a la eliminación de dichas componentes.Supongamos que, mediante un algoritmo de extracción obtenemos como vector de salidasyE(k) = BH

Ex(k), donde BE es la matriz de extracción de dimensión E × N , siendo E

el número de fuentes extraídas. El vector yE(k) tendrá, por lo tanto, dimensión E × 1.La proyección de estas salidas en el vector de observaciones está determinada por lapseudoinversa de BE

xE(k) = B+EyE(k) . (2.30)

De este modo la deflación consiste en eliminar del vector de datos dicha proyección

xE(k) = x(k)− xE(k) = x(k)−B+EBEx(k) = (IN −B+

EBE)x(k) , (2.31)

siendo xE(k) el nuevo vector de observaciones para el siguiente paso de BSE, en el queya no estarán presentes las fuentes extraídas.

Otra forma de realizar la deflación se basa el vector de extracción en cada iteracióndel algoritmo [Hyvärinen99b]. Supongamos que estamos empleando el preblanqueo de

Page 37: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.1. Análisis de Componentes Independientes en mezclas instantáneas 21

las observaciones. Una vez que han sido estimadas una a una las primeras p fuentes selanza el algoritmo para obtener la salida yp+1(k) = uH

p+1z(k). En la solución, las salidasdeben ser incorreladas. De manera equivalente

uH1...

uHp

up+1 =

0...0

. (2.32)

Para evitar que el algoritmo converja a la extracción de una fuente ya estimada, seimpone la decorrelación de la salida y

(l)p+1(k) en la iteración l-ésima del algoritmo con las

salidas anteriores y1(k), . . . , yp(k).Si denotamos por u

(l)p+1 al p + 1-ésimo vector de extracción en la iteración l-ésima,

la decorrelación de la salida con las fuentes ya estimadas implica eliminar de u(l)p+1 sus

proyecciones en los anteriores u1, . . . , up. Es decir,

u(l)p+1 ←− u

(l)p+1 −

p∑i=1

uiuHi u

(l)p+1 . (2.33)

Posteriormente hay que normalizar u(l)p+1 dividiendo por su norma.

Sin embargo, este tipo de ortogonalización no es simétrica, en el sentido de que unosvectores se ven favorecidos [Karhunen97]. Una alternativa en el caso de la extracciónunidimensional, consiste en hacer una extracción paralela de todas las componentes quese pretenden extraer, ortogonalizando los vectores de extracción en cada paso de formasimétrica. Es decir, si pretendemos extraer en total q fuentes, se lanzan simultáneamenteq algoritmos de extracción unidimensionales. En cada paso de los algoritmos hay queortogonalizar la matriz Uq = [u1, . . . , uq]

Uq ←− Uq

(UqU

Hq

)−1/2. (2.34)

El cálculo de(UqU

Hq

)−1/2 se puede realizar mediante la descomposición en autova-lores o de forma iterativa [Hyvärinen99b].

En un principio los algoritmos propuestos para la extracción ciega de señales teníanla limitación de poder extraer las fuentes sólo de una en una, con lo que había que haceruna deflación por cada fuente extraída.Posteriormente fueron presentados algoritmos quecombinaban BSE y deflación, extrayendo en cada paso un cierto número (mayor o igualque 1) de fuentes (el primer trabajo donde se propuso un método así fue [Cruces01]).

En los sistemas de comunicaciones que utilizan CDMA los códigos de los usuariospermiten identificarlos, y pueden ser utilizados para forzar a los algoritmos de extraccióna recuperar las señales de determinados usuarios de interés mediante la imposición deciertas restricciones basadas en dichos códigos [Tugnait01].

Page 38: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

22 2. Descomposición de las observaciones en componentes independientes

2.1.7 Modelo de mezcla con ruido

En medidas reales siempre existe algún tipo de ruido. Es por lo tanto interesante definirun modelo en el que este ruido sea tenido en cuenta. Consideraremos, por lo tanto, lapresencia de un ruido aditivo en las observaciones independiente de las fuentes. En lafigura 2.2 se muestra el modelo para este caso.

Fig. 2.2: Modelo de mezcla y separación para mezclas lineales, instantáneas y con presencia deruido aditivo en las observaciones

Cada observación tiene, además de la componente de señal, una componente de ruidoaditivo

xi(k) =N∑

j=1

Aijsj(k) + ni(k) . (2.35)

Definiendo el vector de ruido n(k) = (n1(k), n2(k), ..., nM(k)]T podemos escribir elvector de observaciones como

x(k) = As(k) + n(k) . (2.36)

Es posible considerar, por lo tanto, que existen M nuevas fuentes, que son las fuentesde ruido. Podríamos así formar un vector de fuentes ampliado

sn(k) = [s(k)T|n(k)T]T (2.37)

de dimensión (N + M)× 1, y una matriz de mezclas ampliada

An = [A|IM ] (2.38)

de dimensión M × (N + M), donde IM es la matriz identidad M ×M . De esta manerael vector de observaciones se puede expresar como el producto de la matriz ampliada demezclas por el vector de fuentes ampliado

x(k) = Ansn(k) . (2.39)

Esto significa que tenemos más fuentes que observaciones, por lo que habrá que añadirinformación para poder recuperar las fuentes.

Las aproximaciones que se llevan a cabo para tratar el caso con ruido consisten enconsiderar el ruido Gaussiano e independiente de las fuentes y emplear estadísticos de

Page 39: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.1. Análisis de Componentes Independientes en mezclas instantáneas 23

orden superior [Cadzow96] [Comon96b]. Esto se debe a que muchos estadísticos de ordensuperior son asintóticamente invariantes frente a la adición de ruido Gaussiano, debidoa que esos estadísticos son nulos para señales Gaussianas. Por ello muchos algoritmospensados para el caso sin ruido son válidos para llevar a cabo la separación incluso enpresencia de ruido Gaussiano.

Es también habitual suponer que las componentes del ruido son incorreladas entre sí,de modo que el ruido en las observaciones puede ser modelado como ruido en las fuentes[Hyvärinen01]. En efecto, definiendo nA(k)

def= A+n(k), el vector de observaciones se

puede expresar como

x(k) = As(k) + An(k) = A (s(k) + nA(k)) = Asn,A(k) , (2.40)

donde se ha definido sn,A(k)def= s(k) + nA(k). Es decir, es posible obtener un modelo

de mezcla equivalente al modelo sin ruido en el que las fuentes, sn,A(k), siguen siendomarginalmente independientes sobre cierto estadístico. La diferencia estriba en que lasfuentes independientes que se obtendrán a partir del método de ICA no serán las origina-les, sino que tendrán un ruido aditivo.

2.1.8 Métodos para resolver el problema de BSS

El método de Análisis de Componentes Independientes no es el único válido para re-solver el problema de la Separación Ciega de Fuentes. Existen otros métodos que no sebasan en la independencia de las fuentes. Los criterios y algoritmos existentes pueden seragrupados en cuatro métodos fundamentales [Choi05]:

1. Criterios que explotan la independencia de las señales. Es el enfoque más habitual,y ha dado lugar a multitud de algoritmos de ICA. Como hemos visto, este métodono permite más de una fuente Gaussiana.

2. Cuando las fuentes tienen una cierta estructura temporal, su correlación tempo-ral no decae (no es un impulso), por lo que se pueden utilizar condiciones me-nos restrictivas que la independencia estadística, de modo que los estadísticos desegundo-orden (SOS) son a menudo suficientes para estimar la matriz y las fuen-tes. Ejemplos de esta manera de abordar el problema son los algoritmos AMUSE[Tong91b], SOBI [Belouchrani97] o SEONS [Choi02b]. Otros ejemplos los encon-tramos en [Molgedey94, Tome00, Ziehe00, Barros01, Liu06]. Lógicamente estosmétodos no permiten la separación de fuentes que tengan espectros de potencia conla misma forma ni de fuentes i.i.d. (independientes e idénticamente distribuidas; esdecir, procesos formados por variables aleatorias independientes e idénticamentedistribuidas).

Page 40: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

24 2. Descomposición de las observaciones en componentes independientes

3. Hay criterios que explotan la no estacionariedad de segundo orden de las fuentes,utilizando para ello los estadísticos de segundo orden (SOS). La no estacionariedadde segundo orden consiste en que las varianzas de las fuentes varían en el tiempo.Es decir, las fuentes consideradas en este grupo de criterios no son procesos esta-cionarios en sentido amplio. La no estacionariedad fue utilizada por primera vezen [Matsuoka95], donde se muestra que existe una gran cantidad de señales quepueden ser separadas mediante la decorrelación. Al contrario que otros métodos,los que se basan en explotar la no estacionariedad de las fuentes pueden separarseñales Gaussianas coloreadas (de espectro no blanco) con idéntico espectro de po-tencia. Como contrapartida no pueden separar fuentes con propiedades idénticasde no estacionariedad. Ejemplos de trabajos en separación de fuentes no estaciona-rias son [Choi02b, Choi02a, Jafari06]. Los métodos que explotan tanto la estructuratemporal (principalmente correlaciones de segundo-orden) y/o la no estacionarie-dad de las fuentes nos sitúan en un escenario mucho más simple que el de ICA,puesto que en ambos casos se emplean estadísticos de segundo orden (SOS) frentea los de orden superior (HOS), necesarios en los métodos de ICA.

4. Por último, existen métodos que explotan la diversidad en el dominio tiempo-frecuencia de las señales fuente (su espectrograma). Analizando la distribucióntiempo-frecuencia de las observaciones, estos métodos estiman las componentes,que suelen interpretarse como señales localizadas, estructuradas y dispersas en eldominio tiempo-frecuencia. Uno de los primeros trabajos que utilizaron este enfo-que lo encontramos en [Belouchrani98]. Estas técnicas permiten, asimismo, sepa-rar señales Gaussianas con idéntico espectro de potencia, pero con diferentes ca-racterísticas en el dominio tiempo-frecuencia. Trabajar en dicho dominio posibilitatambién el complementar estos métodos con las técnicas de enmascaramiento (mas-king), utilizadas como postprocesamiento para mejorar la calidad de la separación[Aoki01, Kolossa04].

2.2 CRITERIOS DE SEPARACIÓN

Como acabamos de ver existen diversos enfoques para resolver el problema de la sepa-ración ciega de fuentes. Puesto que estamos interesados en señales de comunicaciones(que son procesos i.i.d.) nos centraremos en aquellos métodos que buscan maximizar laindependencia de las salidas. Se han desarrollado numerosos criterios para conseguir estaindependencia, que conduce a la separación de las fuentes en las salidas. Todos ellos estánrelacionados entres sí. Veremos también que verificar la validez de los criterios consisteen comprobar que las funciones que maximizan esos criterios son funciones contraste

Page 41: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.2. Criterios de separación 25

[Comon94] [Moreau96].

2.2.1 Funciones contraste

Una función contraste permite establecer la independencia de un conjunto de variablesaleatorias agrupadas en un vector, de modo que dichas variables son independientes cuan-do la función alcanza el máximo.

Sea la variable aleatoria multidimensional Y. Una función contraste6 es una corres-pondencia ψ que asocia un número real ψ(Y) a esta variable aleatoria y que cumple lassiguientes condiciones [Comon94]:

1. ψ(Y) es invariante a escalados invertibles.∀D matriz diagonal regular

ψ(DY) = ψ(Y) . (2.41)

2. ψ(Y) sólo depende de la f.d.p. de Y y es simétrica respecto de sus componentesYi. Es decir, es invariante a permutaciones de las componentes de Y.∀ P matriz de permutación

ψ(PY) = ψ(Y) . (2.42)

3. ψ(Y) sólo alcanza su máximo cuando las componentes de Y son independientes.∀ S variable aleatoria de componentes independientes y ∀G regular

ψ(S) ≥ ψ(Y) donde Y = GS . (2.43)

Como vimos en los corolarios al Teorema de Darmois-Skitovich (y suponiendo quesólo existe una fuente Gaussiana) la independencia de las salidas suponía la separación delas fuentes. Además no influye el escalado de las mismas o su permutación. Por lo tanto,cuando pueda encontrarse una función contraste, resolver el problema de BSS significabuscar el máximo global de dicha función contraste. La mayoría de las funciones con-traste basadas en cumulantes utilizan la hipótesis de preblanqueo de las observaciones ydecorrelación de las salidas, lo cual conduce a una matriz de separación, UH, unitaria.

En [Moreau99] se propuso una generalización de la definición de funciones contraste,de modo que las condiciones en esta nueva definición son:

6 Empleamos la mayúscula en esta sección para hacer hincapié en que estamos tratando una variablealeatoria y no una muestra o sucesión de muestras, aunque más adelante emplearemos también la notaciónψ(y) para recalcar que se trata del vector de salidas, y ψ(U) o ψ(B) para recalcar que las salidas dependende la matriz de separación

Page 42: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

26 2. Descomposición de las observaciones en componentes independientes

1. ψ(Y) es invariante a escalados invertibles.∀D matriz diagonal regular

ψ(DY) = ψ(Y) . (2.44)

2. ψ(Y) sólo alcanza su máximo cuando las componentes de Y son independientes.∀ S variable aleatoria de componentes independientes y ∀G regular

ψ(S) ≥ ψ(Y) donde Y = GS . (2.45)

La igualdad se produce cuando G = DP, siendo D cualquier matriz diagonalregular y P cualquier matriz de permutación.

Esta generalización da lugar a contrastes no simétricos. La maximización del contrastese convierte, pues, en una condición suficiente, pero no necesaria. Hay que resaltar que loscontrastes definidos del modo clásico son contrastes también según esta nueva definición,pero no al revés.

En las secciones siguientes veremos distintas maneras de medir la independencia delas salidas, lo que da lugar a diversas funciones contrastes.

2.2.2 Maximización de la no Gaussianidad

Hemos visto que para poder realizar el análisis de componentes independientes es nece-sario que las fuentes (excepto, como máximo, una) sean no Gaussianas. La independenciade las salidas está muy relacionada, pues, con su no Gaussianidad. Por lo tanto, es lógicoque uno de los métodos de búsqueda de la independencia de las salidas sea la maximiza-ción de la no Gaussianidad.

Es sobradamente conocido de la teoría de la probabilidad el Teorema Central del Lí-mite [Papoulis91], que muestra que la combinación de un número suficiente de variablesaleatorias independientes tiende hacia una distribución Gaussiana. O, dicho de otro modo,la Gaussianidad de la combinación es mayor que la de las variables independientes quela forman [Hyvärinen01]. Si en una determinada salida se encuentran combinadas dos omás fuentes su f.d.p. será más Gaussiana que en el caso de que sólo una de las fuentesse encuentre presente en dicha salida. Vemos así que la independencia de las variables desalida está relacionada con su no Gaussianidad.

Se hace, por lo tanto, necesario medir la no Gaussianidad. Dos medidas básicas dela no Gaussianidad son la kurtosis (cumulante de cuarto orden) de las salidas y, alter-nativamente, la entropía negativa. Estos métodos están muy relacionados con la técnicadenominada búsqueda de la proyección.

Page 43: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.2. Criterios de separación 27

Kurtosis

La kurtosis de una variable aleatoria es su cumulante de cuarto orden. Para variablescomplejas de media cero suele definirse como7

k4(Yi) , cum(Y ∗i , Y ∗

i , Yi, Yi) , C2,2Yi,Y ∗i

=

= E[|Yi|4]− 2(E[|Yi|2])2 − E[Y 2i ]E[(Y ∗

i )2] , (2.46)

aunque existen 16 formas de definirla, dependiendo de qué variables se tomen como con-jugadas y cuáles sin conjugar [Nikias93].

Las variables Gaussianas tienen una kurtosis nula. Se denominan super-Gaussianas oleptocúrticas aquellas variables con kurtosis positiva, mientras que las de kurtosis negati-vas se denominan sub-Gaussianas o platicúrticas. Son extremadamente raros los casos devariables no Gaussianas cuya kurtosis sea nula. Es por esto que se utiliza el valor absolutoo el cuadrado de la kurtosis como medida de la no Gaussianidad. El empleo de la kurto-sis se justifica por razones de simplicidad. En efecto, la kurtosis cumple la propiedad delinealidad; para dos variables independientes Si y Sj se cumple

1. k4(Si + Sj) = k4(Si) + k4(Sj) ;

2. k4(αSi) = α4k4(Si) .

Por otra parte, el cálculo es bastante sencillo, puesto que, para variables de varianza uni-dad, tanto en el caso real como en el complejo, implica, la mayor parte de las veces,calcular solamente el momento de cuarto orden. Así, para una variable real de media ceroy varianza unidad, su kurtosis resulta ser

k4(Yi) = E[Y 4i ]− 3 , (2.47)

mientras que para una variable compleja de media cero y varianza unidad y con simetríacircular su kurtosis es

k4(Yi) = E[|Yi|4]− 2 . (2.48)

La simetría circular de una variable compleja consiste en que la media de su cuadradoes nula (E[Y 2

i ] = 0). Es decir, tiene partes real e imaginaria incorreladas, de media ceroy varianza 1/2. Esto sucede, por ejemplo, en señales de comunicaciones como QAM oM-PSK.

En [Delfosse95, Hyvärinen97, Malouche98] ya se utilizaban las funciones

ψ(Y) =N∑

i=1

|k4(Yi)| (2.49)

7 Más adelante utilizaremos, de forma equivalente, la notación k4(yi) o cum(y∗i , y∗i , yi, yi)

Page 44: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

28 2. Descomposición de las observaciones en componentes independientes

y

ψ(Y) =N∑

i=1

(k4(Yi))2 (2.50)

como funciones contraste. En general es fácil demostrar [Comon94] que la maximizaciónde la suma de los cuadrados de los cumulantes de orden r de las salidas de un sistema deseparación ciega es una función contraste si imponemos el preblanqueo de las observa-ciones y la decorrelación de las salidas. Es decir, que la función

ψ(Y) =N∑

i=1

(CrYi

)2 sujeto a UHU = I , (2.51)

es una función contraste si no existe más de 1 elemento diagonal nulo en el tensor cumu-lante de orden r de las fuentes S.

Por comodidad consideremos las fuentes escaladas de manera que

C1,1S,S = I . (2.52)

En ese caso, y realizando un preblanqueo de las observaciones, tanto la matriz de mez-clas V = WA como la matriz global G serán ortogonales. G cumplirá así la siguientepropiedad

N∑j=1

|Gij|2 =N∑

i=1

|Gij|2 = 1 . (2.53)

Veamos entonces que la función ψ(Y) (donde Y = GS) es una función contraste:

1. Si G = D diagonal, como G es ortogonal G = I, por lo que no existe escalado yse cumple que ψ(GS) = ψ(S) cuando G es diagonal.

2. Los cumulantes no varían al variar la ordenación de sus argumentos, por lo queψ(PS) = ψ(S), donde P es una matriz de permutación.

3. Debido a la independencia de las fuentes y a las propiedades de los cumulantes

ψ(GS) =N∑

i=1

(N∑

j=1

(Gij)rCr

Sj

)2

≤N∑

j=1

(CrSj

)2

(N∑

i=1

|Gij|r)2

(2.54)

Para r > 2N∑

i=1

|Gij|r ≤N∑

i=1

|Gij|2 . (2.55)

Page 45: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.2. Criterios de separación 29

Luego

ψ(GS) ≤N∑

j=1

(CrSj

)2

(N∑

i=1

|Gij|r)2

≤N∑

j=1

(CrSj

)2 = ψ(S) (2.56)

En cada paso, el signo ≤ es = sólo cuando G es una matriz de permutación o bienla identidad. Es decir, en la separación. Por lo tanto, ψ(Y) es una función contraste.

Una demostración similar [Moreau96] puede realizarse para probar que la función

ψ(Y) =N∑

i=1

|CrYi| sujeto a UHU = I , (2.57)

es una función contraste. Esta función, en el caso de que las fuentes sean de potenciaunidad y kurtosis negativas, se convierte en

ψ(Y) = −N∑

i=1

E[Y 4i ] sujeto a UHU = I , C4

Yi< 0 ∀ i . (2.58)

El empleo de la kurtosis como medida de la no Gaussianidad tiene un inconveniente:la estimación de la kurtosis a partir de un conjunto de muestras es muy sensible a losoutliers. Esto es debido a que si una muestra tiene un valor muy por encima del rango delas restantes (en valor absoluto) la estimación de la kurtosis vendrá muy determinada poresa muestra, y será de un valor muy elevado. Por lo tanto se trata de una medida pocorobusta, aunque sencilla desde el punto de vista computacional.

Entropía negativa

Debido a los problemas, arriba mencionados, que presenta el empleo de la kurtosis comofunción contraste, en muchas ocasiones es utilizada otra medida de la no Gaussianidad:la entropía negativa (negentropy). Esta tiene propiedades opuestas a las de la kurtosis, esdecir, se trata de una medida robusta frente a los outliers pero pero es compleja desde elpunto de vista computacional.

La entropía negativa está basada en la entropía diferencial. Para una variable aleatoriamultidimensional X se define la entropía diferencial como

h(X) = −E[log(pX(X))] = −∫

XpX(x) log(pX(x))dx , (2.59)

donde pX(x) es la f.d.p. de X. La entropía diferencial es una medida de cuán aleato-ria es la variable, es decir, de cuán impredecible es. Un resultado fundamental de laTeoría de la Información es que una variable Gaussiana tiene una entropía diferencialmáxima de entre todas las variables aleatorias posibles con igual matriz de covarianza[Neeser93, Papoulis91], lo que convierte a la entropía en una medida de no Gaussianidad.

Page 46: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

30 2. Descomposición de las observaciones en componentes independientes

Sin embargo, con el objetivo de obtener una medida que sea positiva y que se anule paralas variables Gaussianas, se define la entropía negativa a partir de la entropía diferencialcomo

J(X) = h(XGauss)− h(X), (2.60)

siendo XGauss una variable aleatoria multidimensional Gaussiana con la misma matriz decovarianzas que X.

La entropía negativa puede ser interpretada como una cuasi-distancia entre la f.d.p.(función de densidad de probabilidad) de la variable X y la f.d.p. de la Gaussiana mediantela divergencia de Kullback-Leibler (K-L). Se define la divergencia K-L entre una f.d.p.fY(y) y otra gY(y) como

DfY(y)‖gY(y) ,∫ ∞

−∞fY(y) log

(fY(y)

gY(y)

)dy . (2.61)

Esta función posee algunas propiedades de una métrica y permite así comparar funcionesde densidad de probabilidad. Es una función cuasi-distancia entre 2 f.d.p. Es no negativay se anula cuando f ≡ g [Cover91]. La divergencia K-L es invariante frente a escalados,permutaciones o transformaciones lineales monótonas aplicadas de forma pareja en susargumentos.

Es fácil comprobar que la entropía negativa coincide con la divergencia K-L entre laf.d.p. de la variable X, pX(x) y la f.d.p. de la variable multidimensional Gaussiana demedia nula y con la misma matriz de covarianzas, pXGauss

(x),

J(X) = DpX‖pXGauss, (2.62)

lo que implica que la entropía negativa es una medida explícita de la no Gaussianidad deuna variable [Comon94].

La entropía negativa tiene la propiedad de ser invariante frente a transformacioneslineales e invertibles, en particular, al escalado [Comon94, Hyvärinen01]. Es decir, paracualquier matriz M invertible se tiene

J(MX) = J(X) . (2.63)

La entropía negativa de la salida como medida de la no Gaussianidad ha sido frecuen-temente utilizada en criterios de BSE, que persiguen la maximización de dicha medida.Puesto que la variable Gaussiana debe tener la misma varianza que la salida, se suele fijarla varianza de la salida a la unidad. De modo que el criterio consiste en

max J(Y ) = h(YGauss)− h(Y ) = h(YGauss) + E [log (pY (y))] s.t. E[|y|2] = 1 .

(2.64)

Page 47: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.2. Criterios de separación 31

Como se ha señalado, el problema que tiene el uso de la entropía negativa es la di-ficultad computacional, puesto que requiere estimar la f.d.p. de la variable aleatoria. Poreso se utilizan diversas aproximaciones. La aproximación clásica para variables reales seobtiene utilizando la kurtosis [Jones87] [Comon94]

J(Y ) ≈ 1

12E[Y 3]2 +

1

48(k4(Y ))2 . (2.65)

Sin embargo, esta aproximación, que facilita el cálculo, adolece del mismo problema queya hemos comentado en el caso de la kurtosis; al emplear este cumulante resulta ser unestimador poco robusto.

Otras aproximaciones evitan el uso explícito de la kurtosis y de otros estadísticos dealto orden, utilizando, en cambio, funciones no lineales que generan de forma implícitatales estadísticos. Para el caso real el desarrollo de este tipo de aproximaciones fue reali-zado en [Hyvärinen98]. En particular se suele utilizar [Hyvärinen99b] la aproximación

J(Y ) ≈ α (E[F (Y )]− E[F (YGauss)])2 , (2.66)

donde α es una constante positiva, F una función no cuadrática y YGauss una variablealeatoria Gaussiana de igual varianza que Y y media cero. Se suele fijar la varianza de lasalida a la unidad, de modo que el contraste es

max ψ(Y ) = (E[F (Y )]− E[F (YGauss)])2 s.t. E

[|Y |2] = 1 . (2.67)

Este contraste equivale a la búsqueda de los extremos de E[F (Y )] − E[F (YGauss)].Puesto que E[F (YGauss)] es una constante, ello equivale a buscar los extremos de la fun-ción

E[F (Y )] s.t. E[|Y |2] = 1 . (2.68)

En [Hyvärinen99b] se demostró que una elección óptima (desde el punto de vista dela varianza asintótica del estimador) de la no linealidad F (Y ) es

Fo(y) = − log(pSj

(y))

, (2.69)

donde pSj(y) es la f.d.p. de una de las fuentes. Por lo tanto, en la elección de la no lineali-

dad es importante tener en cuenta el tipo de fuente que se desea extraer. Para ilustrar esteaspecto, Hyvärinen considera la familia de distribuciones exponenciales

pα(y) = k1e−k2|y|α , (2.70)

donde α > 0. En ese caso, y eliminando las constantes, que no afectan a la maximización,Fo(y) = |y|α. Por lo tanto, para distribuciones super-Gaussianas (0 < α < 2), se debeelegir una no linealidad que crezca con el argumento de forma más lenta que una función

Page 48: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

32 2. Descomposición de las observaciones en componentes independientes

cuadrática. Lo contrario se puede decir para la extracción de fuentes sub-Gaussianas.Otra propiedad deseable para la no linealidad es que sea una función acotada, puesto quemejora la robustez de la estimación frente a outliers [Hyvärinen99b].

Las extensiones de estas aproximaciones para el caso complejo se basan en los resulta-dos para el caso real. Bingham y Hyvärinen proponían en [Bingham00] una no linealidadpara la estimación de una fuente compleja con simetría circular. Es decir, una fuente sj

para la que se cumple E[s2

j

]= 0. El criterio presentado por estos autores consistía en la

búsqueda de los extremos de la siguiente función:

E[G(|Y |2)] = E[G(∣∣uHz

∣∣2)] , (2.71)

donde G(y) es una función par infinitamente derivable.Sin embargo, se pueden definir no linealidades que permitan la extracción de fuentes

tanto circulares como no circulares, como se ha mostrado en [Novey08], donde Noveyy Adalı proponen una nueva extensión de la entropía negativa para la estimación de unafuente compleja, tenga o no simetría. Para ello proponen como criterio de extracción labúsqueda de los extremos de funciones del tipo

E[|G(Y )|2] = E[∣∣G(uHz)

∣∣2] , (2.72)

siendo G(y) una función no lineal que proporciona una f.d.p. estimada asimétrica

pSj(y) = e−|G(y)|2 . (2.73)

Estos autores, junto a otros (ver [Adalı08]) plantean el problema para el caso complejode la siguiente manera. La entropía diferencial de la salida es aproximada utilizando laf.d.p. de la fuente a estimar, de modo que la entropía negativa se estima como

J(Y ) ≈ h(YGauss) + E[log

(pSj

(Y ))]

. (2.74)

Por lo tanto el criterio equivale a la maximización de E[log

(pSj

(Y ))]

, sujeto a larestricción E [|Y |2] = 1. Mediante una no linealidad se aproxima la f.d.p. tal como seexpresa en (2.73), lo que conduce a la minimización de (2.72). Ahora bien, como enla práctica no se puede asegurar que la aproximación de la f.d.p. sea suficientementebuena, la solución puede estar tanto en los mínimos como en los máximos, dependiendo,básicamente, de la kurtosis de la fuente a estimar (que puede ser sub-Gaussiana o super-Gaussiana).

Una interesante generalización de la entropía negativa para señales reales fue pre-sentada por Lee en [Lee07] basándose en una divergencia denominada la density powerdivergence, que se define como

Dα(g ‖ f) =

∫ (f 1+α(ξ)− (1 + α)g(ξ)fα(ξ)

α+

g1+α(ξ)

α

)dξ (2.75)

Page 49: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.2. Criterios de separación 33

para dos funciones de densidad de probabilidad f y g, siendo α ≥ 0. Esta divergencia esno negativa y se anula cuando f ≡ g.

La entropía negativa generalizada propuesta quedaba definida por

Jα(X) = Dα(pX ‖ pXGauss) , (2.76)

donde XGauss es una variable aleatoria multidimensional Gaussiana de media cero y conla misma matriz de covarianzas que X.

Sus propiedades más importantes son:

1. Para α = 0 coincide con la entropía negativa.

2. Es no negativa y se anula para pX ≡ pXGauss. Por lo tanto es una medida de la no

Gaussianidad.

3. No es invariante frente a cualquier transformación lineal invertible, pero sí lo esfrente a cualquier transformación lineal ortogonal.

Existen otras aproximaciones que utilizan funciones no lineales tanto para el criteriode maximización de la no Gaussianidad como para los criterios de mínima informaciónmutua y de máxima verosimilitud, criterios que describiremos en las secciones 2.2.3 y2.2.4. También veremos la relación entre estos criterios y la no Gaussianidad.

Búsqueda de la proyección

La realización de ICA que estamos describiendo en toda esta sección está muy rela-cionada con una técnica estadística denominada Búsqueda de la Proyección o Projec-tion Pursuit. Esta consiste en proyectar datos multidimensionales en subespacios de di-mensión inferior manteniendo las características más interesantes de dichos datos (véase[Huber85] y [Jones87]). El nombre de la técnica y su primera realización práctica apareceen [Friedman74]. Estas características más interesantes vienen dadas en última instanciapor las distribuciones de las componentes que subyacen en los datos. Puesto que la distri-bución menos interesante es la Gaussiana, la técnica de Búsqueda de la Proyección es unabúsqueda de las direcciones del espacio que contienen las distribuciones menos Gaussia-nas, con lo que su objetivo es el mismo que el de las técnicas ICA basadas en la búsquedade la no Gaussianidad de las salidas.

La técnica de Búsqueda de la Proyección no presupone ningún modelo de mezcla delque provengan los datos. Si el modelo ICA se cumple para los datos, la Búsqueda de laProyección proporcionará como resultado las fuentes independientes separadas; si no secumple, simplemente se tratará de las direcciones menos Gaussianas.

Page 50: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

34 2. Descomposición de las observaciones en componentes independientes

2.2.3 Mínima información mutua (MMI)

En la sección anterior hemos visto cómo la medida de la no Gaussianidad sirve comomedida de la independencia de las salidas. En esta sección veremos otra medida de laindependencia, que se denomina Información Mutua (MI). La ventaja de esta medidaconsiste en que no presupone ningún tipo de modelo en los datos. La información mutuaes una medida general de la dependencia de varias variables aleatorias y se denota porI(Y1; . . . ; YN). Fue utilizada por primera vez en el contexto de ICA en [Comon94] yse define como la divergencia de Kullback-Leibler (K-L) entre la f.d.p. conjunta y elproducto de las f.d.p. marginales

I(Y1; . . . ; YN) = DpY||∏N

i=1 pYi. (2.77)

Recordemos que la independencia de variables se define como el hecho de que elproducto de sus f.d.p. marginales sea igual a la f.d.p. conjunta. Por las propiedades de ladivergencia K-L, la información mutua es invariante frente a escalados y permutaciones delas variables. Además es no negativa y se anula si y sólo si las variables son independientes[Cover91], por lo que resulta ser una medida de cuán dependientes son las variables.

Por lo tanto, el opuesto de la información mutua es una función contraste cuya maxi-mización conduce a un conjunto de salidas lo más independientes posible

ψ(Y) = −I(Y1; . . . ; YN) . (2.78)

La alternativa evidente es minimizar la propia información mutua.La información mutua está muy relacionada con la entropía negativa [Comon94]. Es

inmediato ver que

I(Y1; . . . ; YN) =N∑

i=1

h(Yi)− h(Y) . (2.79)

Para transformaciones lineales del tipo y = BHx se puede demostrar que

h(Y) = h(X) + log∣∣det(BH)

∣∣ , (2.80)

por lo que

I(Y1; . . . ; YN) =N∑

i=1

h(Yi)− h(X)− log∣∣det(BH)

∣∣ . (2.81)

Si imponemos la restricción E[YYH] = IN entonces debe cumplirse la relaciónBHE[XXH]B = IN . Es decir,

1 = det(IN) = det(BH)det(E[XXH])det(B) , (2.82)

Page 51: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.2. Criterios de separación 35

con lo que det(BH) debe ser constante para un X dado. Puesto que, bajo la restricciónE[YYH] = IN , la entropía diferencial coincide con el opuesto de la suma de las entropíasnegativas de las salidas más una constante

I(Y1; . . . ; YN) =N∑

i=1

h(Yi)− cte1 = cte−N∑

i=1

J(Yi) , (2.83)

es equivalente minimizar la información mutua de las salidas y maximizar la suma de lasentropías negativas de las salidas. Vemos así, pues, que la suma de las entropías negativasde las salidas puede ser utilizada como función contraste para la separación de todas lasfuentes a la vez (BSS).

2.2.4 Máxima verosimilitud

El método de máxima verosimilitud (maximum likelihood, ML) es un método muy cono-cido en estadística que se emplea para estimar un conjunto de parámetros de la f.d.p. deuna variable aleatoria, que, en general, es multidimensional. Si se dispone de un conjuntode T observaciones independientes, X = x1, . . . ,xT se establece un modelo para laf.d.p. de las observaciones, pX ,ξ(X ), que depende de un conjunto de parámetros ξ. Elmétodo consiste en encontrar el conjunto de parámetros ξ que con mayor probabilidadha dado lugar a las observaciones. Es decir, encontrar el ξ que maximice la probabilidadpX (X |ξ). Así, se define la función de verosimilitud como [Kay93]

L(ξ|X ) = pX (X |ξ) . (2.84)

Por lo tanto, el método de estimación ML consiste en la maximización de la funciónL(ξ|X ) con respecto a ξ. El problema puede resolverse con el mismo resultado apli-cando el logaritmo a esta función, de manera que se obtiene la función de verosimilitudlogarítmica normalizada

l(ξ|X ) =1

Tlog [pX (X |ξ)] , (2.85)

donde T es una constante arbitraria. Es evidente que la maximización de ambas funcionesconduce al mismo resultado, puesto que el logaritmo es una función estrictamente monó-tona creciente, con lo cual el máximo de ambas funciones se produce para el mismo valorde sus argumentos.

Es sencillo construir la función de verosimilitud para el modelo ICA. La aplicacióndel método ML en ICA apareció por primera vez en [Gaeta90b]. En ausencia de ruido, lasobservaciones siguen el modelo x = (BH

∗ )−1s, donde BH∗ = A−1. Por lo tanto, podemos

plantear el problema de ICA como un problema de ML en el que los parámetros a estimarlos coeficientes de la matriz de separación B y cuyo óptimo es la matriz BH

∗ .

Page 52: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

36 2. Descomposición de las observaciones en componentes independientes

Considerando el conjunto de T observaciones independientes, X = x1, . . . ,xT, laprobabilidad conjunta de tales observaciones será el producto de la probabilidad de cadauna de ellas

pX (X |B∗) =T∏

t=1

pXt(xt|B∗) . (2.86)

Debido al modelo que sigue cada una de las observaciones tenemos que pXt(xt|B∗) =

pX(x|B∗) = pS(BH∗ xt)|det(B∗)|. Sustituyendo la f.d.p. de las fuentes, pS(s), por su esti-

mación, pS(s), tenemos la probabilidad conjunta estimada de las observaciones

pX (X |B∗) =T∏

t=1

(pS(BH

∗ x)|det(B∗)|)

. (2.87)

Puesto que la matriz B∗ es desconocida, definimos el parámetro B y construimos la fun-ción de verosimilitud como

L(B|X ) = pX (X |B) =T∏

t=1

(pS(BHx)|det(B)|) =

=T∏

t=1

(pS(y)|det(B)|) , (2.88)

donde la última igualdad se obtiene del hecho de que las salidas se relacionan con lasobservaciones como y = BHx. Así pues, la función de verosimilitud logarítmica norma-lizada para el modelo ICA viene dada por

l(B|X ) =1

Tlog

(T∏

t=1

(pS(y)| det(BH)|)

)

=1

T

T∑t=1

log pS(y) + log | det(BH)| . (2.89)

Puesto que el primero de los dos sumandos es la media muestral del término contenido enel sumatorio, y que esa media converge en probabilidad a su esperanza estadística (Leyde los grandes números) tenemos que [Cardoso99]

l(B|X ) = E [log(pS(y))] + log | det(BH)| . (2.90)

Por otro lado, podemos escribir

pS(y) =pS(y)

pY(y)pY(y) , (2.91)

y, debido a la independencia de las fuentes,

pS(y) =N∏

i=1

pSi(yi) . (2.92)

Page 53: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.2. Criterios de separación 37

De este modo, teniendo en cuenta la relación (2.80) tenemos que

l(B|X ) = −E

[(log

pY(y)∏Ni=1 pSi

(yi)

)]+ E [log(pY(y))] =

= −DpY||∏N

i=1 pSi

− h(X) , (2.93)

siendo h(X) es la entropía diferencial de las observaciones.Como h(X) es constante para cualquier B, la maximización de l(B|X ) coincide con

la minimización de la divergencia K-L entre la f.d.p. conjunta de las salidas y la f.d.p.conjunta estimada de las fuentes. Si el modelo es correcto entonces pS = pS con lo quela maximización de la función de verosimilitud logarítmica coincide localmente con laminimización de la información mutua [Cruces99].

La condición para que el estimador ML sea localmente consistente es que, asumien-do el blanqueo de las salidas las f.d.p. estimadas de las fuentes cumplan [Hyvärinen01,Cardoso99, Amari97b]

E

[sigi(si)− ∂gi(si)

∂si

]> 0 (2.94)

∀ i, donde se define

gi(si) =

∂pSi(si)

∂sipSi

(si). (2.95)

2.2.5 Principios INFOMAX y ENTMAX

El del análisis de componentes independientes se puede enfocar desde el punto de vistade la Teoría de la Información, disciplina que estudia los fenómenos relacionados con lacomunicación.

Bell y Sejnowski estudiaron en [Bell95] la aplicación del principio INFOMAX (ma-ximización de la transferencia de información entre entradas y salidas, [Linsker88]) a laseparación ciega de fuentes y en 1996 presentaron el principio ENTMAX como aplica-ción del principio INFOMAX a la BSS. Hemos visto que el criterio de separación MMIbuscaba minimizar la información mutua de las salidas, para hacerlas independientes. Elcriterio INFOMAX utiliza la función información mutua en otro sentido. Busca la maxi-mización de la información mutua de las entradas y las salidas. Es decir, la maximizaciónde I(Y;X).

Definiendo la entropía relativa condicional como

h(Y|X) = −E[log

(pY|X(x,y)

)]

= −∫

X

YpX,Y(x,y) log

(pY|X(x,y)

)dydx (2.96)

Page 54: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

38 2. Descomposición de las observaciones en componentes independientes

se puede comprobar queI(Y;X) = h(Y)− h(Y|X) . (2.97)

Como ya hemos comentado la entropía es una medida de la incertidumbre o informa-ción asociada a una variable aleatoria (continua en el caso de la entropía diferencial). Laentropía relativa condicional puede entonces considerarse como la cantidad de informa-ción de las salidas que no procede de las entradas. Por lo tanto, la información mutua delas salidas y las entradas (la transferencia de información de las entradas a las salidas) esla diferencia entre la cantidad total de información asociada a las salidas y la cantidad deesta información que no procede de las entradas.

Cuando la relación entradas-salidas es determinista e invertible (como es la matriz B

de separación en nuestro caso) h(Y|X) es constante e independiente de B,

∂I(Y,X)

∂B=

∂h(Y)

∂B. (2.98)

Es decir, en BSS el principio ENTMAX (maximización de la entropía de las salidas oME) es equivalente al principio INFOMAX.

Sin embargo no es posible la maximización directa de h(Y), puesto que esta funcióndiverge a infinito proporcionalmente con log(det(B)). De modo que se realiza una trans-formación T = q(Y), donde q(Y) = [q1(Y1), . . . , qN(YN)], siendo q(Yi) = PSi

(Yi) unafunción acotada superior e inferiormente. Cuando las salidas coinciden con las fuentesZ es una variable uniforme definida en [0, 1]N . Es fácil ver que h(T) es el opuesto dela divergencia K-L entre la f.d.p. de T y la f.d.p. de la variable aleatoria multidimensio-nal uniforme, U , cuyas componentes se distribuyen en el intervalo [0, 1]. Por lo tanto, lafunción

ψ(Y) = −DpT||pU (2.99)

es una función contraste. Como la divergencia de K-L es invariante frente a transforma-ciones invertibles del espacio muestral, se tiene que la función contraste asociada a loscriterios ENTMAX e INFOMAX es

ψ(Y) = −DpT||pU = −Dpq−1(T)||pq−1(U)= −DpY||

∏Ni=1 p

q−1i

(Ui). (2.100)

2.2.6 Relaciones entre criterios

Los criterios ML y ME (INFOMAX) están muy relacionados entre sí [Cardoso97, Bell00].Veremos que cuando la f.d.p. de las fuentes es conocida son exactamente el mismo crite-rio.

En efecto, supongamos que la f.d.p. de las fuentes es conocida pS =∏N

i=1 pSi. En ese

caso q−1i (Ui) = Si, de modo que

ψME(Y) = −DpY||∏N

i=1 pSi. (2.101)

Page 55: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

2.3. Conclusiones 39

De igual modo, y recordando que la entropía de las entradas es constante con respectoa la matriz de separación elegida, el contraste 2.93 en este caso coincide con

ψML(Y) = −DpY||∏N

i=1 pSi(2.102)

Es decir, en BSS, donde h(X) es constante para B, los criterios de máxima verosimi-litud y máxima entropía coinciden.

El criterio MMI es ligeramente distinto

ψMMI(Y) = −DpY||∏N

i=1 pYi. (2.103)

Sin embargo, localmente coinciden los tres.Ya hemos visto la relación existente entre la entropía negativa y la información mutua

de las salidas. También hemos visto la relación entre la información mutua y la función deverosimilitud logarítmica. Existe también una relación entre la búsqueda de la no Gaussia-nidad mediante la maximización de aproximaciones no lineales de la entropía negativa yel criterio ML [Hyvärinen99b, Novey08]. En efecto, si se utilizan no linealidades óptimas,de la forma Foj(y) = −log

(pSj

(y))

, y se realiza un preblanqueo de las observaciones, lafunción de verosimilitud logarítmica (2.90) y la entropía negativa (2.74) coinciden salvouna constante.

2.3 CONCLUSIONES

En este capítulo ha sido presentado el método de ICA para la resolución de los problemasde separación y la extracción ciegas para mezclas lineales e instantáneas. Este tipo deproblemas pueden ser resueltos de diferentes maneras, en función de las propiedades quese suponen a las fuentes: si las fuentes son consideradas independientes estamos ante unproblema de ICA y, en ausencia de otras propiedades, es necesario el empleo de HOS;en cambio, si se explotan otras propiedades de las fuentes, como su estructura temporal,su no estacionariedad de segundo orden o su diversidad en el dominio tiempo-frecuencia,pueden ser empleados estadísticos de segundo orden para la separación o la extracción.

Hemos visto que en los problemas de separación y extracción existen dos incertidum-bres o ambigüedades: el escalado y la permutación de las fuentes. En el problema deBSE la segunda ambigüedad conduce a no poder determinar a priori qué fuentes serán lasextraídas, a menos que se disponga de información extra que permita imponer restriccio-nes a los algoritmos. Asimismo, hemos descrito las hipótesis necesarias para resolver unproblema de ICA: independencia de las fuentes, no Gaussianidad de las mismas (lo cualdetermina la identificabilidad de la mezcla) y un número mayor o igual de observacionesque de fuentes (lo que determina la separabilidad de las fuentes). Hemos comprobado que,

Page 56: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

40 2. Descomposición de las observaciones en componentes independientes

en estas condiciones, y bajo la hipótesis de no Gaussianidad de las fuentes, la indepen-dencia dos a dos de las salidas es suficiente para garantizar la separación. Esta condiciónde independencia puede ser verificada mediante la diagonalización de las matrices de cu-mulantes cruzados de orden superior de las salidas. Un problema relacionado con ICA esPCA, que permite blanquear las salidas, lo cual puede ser utilizado como paso previo aICA, de forma que, tanto la matriz de mezcla como la de separación, sean ortogonales.

Existen diversos criterios que permiten realizar el análisis ICA, todos ellos muy rela-cionados entre sí. La maximización de la no Gaussianidad de las salidas conduce a la in-dependencia de estas. La kurtosis y, en general, cualquier cumulante de alto orden puedenser utilizados para comprobar la no Gaussianidad. De forma alternativa, la maximizaciónde la entropía negativa puede emplearse con el mismo objetivo, empleándose para su esti-mación los propios cumulantes de alto orden o cualquier función no lineal de las salidas.Criterios basados en la teoría de la Información y relacionados con la minimización dela entropía son el de mínima información mutua de las salidas, máxima verosimilitud ymáxima transferencia de información o máxima entropía.

Page 57: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Capítulo 3

Criterios y algoritmos previos

En este capítulo se realiza una revisión de algunos de los más relevantes criterios y algo-ritmos de deconvolución ciega y de ICA existentes con anterioridad, haciendo hincapiéen aquellos que serán utilizados en el capítulo de simulaciones para su comparación conlos algoritmos propuestos. Estos son el criterio de filtro inverso para deconvolución ciegaen sistemas MIMO (multiple input multiple output, múltiples entradas y múltiples sali-das) mediante maximización de la kurtosis normalizada de la salida ([Tugnait97]) y losalgoritmos de extracción FastICA (desarrollado en [Hyvärinen97] y [Hyvärinen99b] paraseñales de valores reales en [Bingham00] para señales complejas) y N-CMN propues-to en [Novey08], métodos, todos ellos, cuya eficacia y robustez han sido sobradamentecontrastadas en los últimos años.

En primer lugar presentaremos los algoritmos más destacados de deconvolución cie-ga, técnica que permite la recuperación de señales que han sido filtradas sin conocimientoprevio ni de la señal ni de los filtros (canales, en términos de comunicaciones). Los prime-ros algoritmos de deconvolución ciega fueron de tipo Bussgang, y empleaban variacionesdel algoritmo LMS (least-mean square). No obstante, en sistemas MIMO han probado sermuy eficaces los algoritmos basados en HOS, que fueron sistematizados en [Cadzow96].Veremos algunos criterios que consisten en la maximización de cumulantes de alto ordeny que guardan una estrecha relación con los métodos de BSE, haciendo especial énfasisen los que utilizan la kurtosis.

Seguidamente resumiremos algunos de los algoritmos iniciales más extendidos deICA, tanto para BSS como para BSE, destacando de nuevo aquellos cuyos contrastes utili-zan HOS. Describiremos a continuación los algoritmos FastICA, inicialmente propuestospara la maximización del módulo de la kurtosis en señales reales y posteriormente exten-dido para maximización de aproximaciones de la entropía negativa basadas en funcionesno lineales de la salida, tanto para señales reales como para complejas. Resumiremosalgunas de las características de los criterios basados en este tipo de aproximaciones ydescribiremos el algoritmo N-CMN, que se incluye entre ellos.

Page 58: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

42 3. Criterios y algoritmos previos

3.1 ALGORITMOS DE DECONVOLUCIÓN CIEGA

El problema de la deconvolución ciega o igualación ciega consiste en la recuperación deuna secuencia desconocida de variables aleatorias que actúan como señal de entrada deun sistema cuya respuesta impulsiva se desconoce también, partiendo exclusivamente dela salida observada de dicho sistema [Chi06]. De manera equivalente se puede plantearel problema de la identificación ciega del sistema como la estimación de la respuestaimpulsiva del sistema (o la correspondiente función de transferencia) o de la del sistemainverso.

La deconvolución ciega se lleva a cabo mediante la optimización del filtro inverso,también llamado igualador, cuya entrada es la secuencia observada y cuya salida es laestimación de la secuencia original desconocida. En comunicaciones suele hablarse deigualación de canal para hacer referencia a la deconvolución ciega , ya que la respuestadel canal es contrarrestada por el filtro igualador, pudiendo ser recuperada de esta formala secuencia original de símbolos.

Los estadísticos de segundo orden permiten estimar la magnitud de la respuesta enfrecuencia del sistema, pero al ser invariantes frente a la fase, no son válidos para laigualación de sistemas de fase no mínima. La estimación adicional de la fase necesita deluso de estadísticos de orden superior [Benveniste80], que sí contienen información acercade dicha fase.

Hay diversas técnicas para llevar a cabo la igualación, cada una de las cuales explotaalgún tipo de información, entre las que destacan las que utilizan:

el conocimiento de su f.d.p. (función de densidad de probabilidad) o de ciertaspropiedades de la misma;

alguna propiedad de la señal original, tal como el hecho de que la constelacióntenga módulo constante, etc.;

la no Gaussianidad de la señal original y la información presente en sus estadísticosde orden superior.

3.1.1 Algoritmos de tipo Bussgang

Los primeros algoritmos de deconvolución ciega SISO (Single Input Single Output, en-trada única y salida única) fueron algoritmos de tipo Bussgang [Koivunen04]. Dichosmétodos resuelven el problema de la igualación ciega de canales SISO mediante algorit-mos adaptativos de gradiente que optimizan criterios diferentes del MSE (error cuadráticomedio, utilizado en algoritmos con secuencias de entrenamiento), y que convergen a la es-timación de la respuesta del canal bajo ciertas hipótesis acerca de la f.d.p. de las variables

Page 59: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.1. Algoritmos de Deconvolución Ciega 43

que forman la secuencia original de entrada. En los algoritmos de tipo Bussgang se con-sidera la utilización de un filtro aplicable a los datos de entrada para obtener la salida dela forma

y(k) =L∑

l=−L

b∗l (k)x(k − l) = bH(k)x(k) , (3.1)

donde b(k) = [b−L(k), . . . , bL(k)]T es el vector con los coeficientes del filtro y el vectorde observaciones que contiene los datos de entrada para la muestra k-ésima de la salidaviene determinado por x(k) = [x(k + L), . . . , x(k − L)]. Estos algoritmos parten de laasunción de que la señal original que se pretende recuperar es un proceso de tipo Buss-gang, es decir, que cumple

E [s(k)s(k − ko)] = E [s(k)f (s(k − ko))] , (3.2)

donde f (s(k)) es una función no lineal. Por lo tanto, la salida del igualador, y(k), deberácumplir también con dicha propiedad. Para converger en esa dirección se utiliza el algo-ritmo adaptativo LMS (least-mean square). Recordemos que el algoritmo LMS actualizael filtro de la forma

b(k + 1) = b(k) + µx(k)e∗(k) (3.3)

siendo e(k) = d(k) − y(y) la función de error, en la que d(k) es la salida deseada. Losalgoritmos de tipo Bussgang sustituyen esta función de error por

e(k) = f (y(k))− y(k) . (3.4)

Algunos ejemplos de este tipo de métodos fueron los propuestos en [Sato75], [Godard80],[Benveniste80] y [Treichler83].

Algoritmo de Sato

El algoritmo de Sato [Sato75] emplea el siguiente criterio

min JS (y(k)) = E[|γ1 sgn (y(k))− y(k)|2] (3.5)

donde

γ1 =E

[|s(k)|2]

E [|s(k)|] . (3.6)

Esto implica que no linealidad utilizada en la función de error es

f (y(k)) = γ1 sgn (y(k)) . (3.7)

El algoritmo resultante es útil para recuperar señales PAM, pero que falla cuando se utilizaen la recuperación de señales moduladas en cuadratura.

Page 60: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

44 3. Criterios y algoritmos previos

Algoritmo CMA

Un algoritmo ampliamente utilizado es el CMA (Constant Modulus Algorithm, algoritmode módulo constante), propuesto en [Treichler83] y [Treichler85]. Está diseñado pararecuperar señales con constelaciones de módulo constante (tales como las M-PSK o laGMSK), y utiliza el siguiente criterio:

min JT (y(k)) = E[(|y(k)|2 − γ2

)2]

, (3.8)

donde

γ2 =E

[|s(k)|4]

E[|s(k)|2] , (3.9)

lo que conlleva una no linealidad de la forma

f (y(k)) =(γ2 − |y(k)|2) y(k) + y(k) . (3.10)

Algoritmos de Godard

Previamente a los trabajos de Treichler et ál., se presentó en [Godard80] una familia dealgoritmos que empleaban criterios del tipo

JG (y(k)) = E[(|y(k)|p − γp)

2]

, (3.11)

estando definida γp como

γp =E

[|s(k)|2p]

E [|s(k)|p] . (3.12)

La no linealidad que utiliza en el algoritmo adaptativo de gradiente es, pues,

f (y(k)) = (γp − |y(k)|p) |y(k)|p−2 y(k) + y(k) . (3.13)

Es evidente que el algoritmo de Sato y el CMA son casos particulares del algoritmo deGodard en los que p = 1 y p = 2, respectivamente.

3.1.2 Minimum entropy deconvolution

Ya hemos visto en el capítulo 2 la relación existente entre los cumulantes de alto orden yla no Gaussianidad; en particular vimos que un valor alto de la kurtosis implica una fuer-te no Gaussianidad. Asimismo se ha mostrado la relación entre la kurtosis y la entropíanegativa, otra de las medidas de no Gaussianidad. Los primeros algoritmos de deconvo-lución ciega en sistemas SISO (Single Input Single Output, entrada única y salida única)mediante HOS estaban basados en una técnica conocida como MED (Minimum EntropyDeconvolution).

Page 61: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.1. Algoritmos de Deconvolución Ciega 45

Los algoritmos basados en MED perseguían la minimización de la entropía de la salida(en el sentido de disminuir el desorden en los datos) para recuperar señales no Gaussianasa partir de las observaciones, y fueron propuestos en en el ámbito de las medidas sísmicas.Estos primeros métodos fueron presentados en [Wiggins78], [Godfrey78] y [Donoho81],y utilizaban los estadísticos de alto orden para realizar la estimación de la entropía. Setrataba de algoritmos que trabajaban con señales reales, siendo presentada en [Ulrych82]una extensión de los mismos al caso complejo. Años más tarde, en [Shalvi90] se propusoun conjunto de criterios que guardan estrecha relación con la MED, puesto que mediantela maximización de cumulantes de orden superior se busca maximizar la no Gaussianidadde la salida (y por lo tanto, minimizar su entropía) para recuperar una señal original decomunicaciones. En dicho trabajo los criterios se desarrollaron ya para el caso complejoy se estableció una relación entre estas técnicas basadas en cumulantes y los algoritmosde [Godard80] y [Treichler83].

3.1.3 Deconvolución ciega en sistemas SIMO

En [Tong91a] y [Tong94] los autores demostraron que es posible la identificación y laigualación ciegas en sistemas SIMO (Single Input Multiple Output, entrada única y salidamúltiple) LTI utilizando exclusivamente estadísticos de segundo orden (SOS). La condi-ción para conseguirlo es que los canales no deben tener ceros comunes. El resultado, sinembargo, no es aplicable en sistemas MIMO (Multiple Inputs Multiple Outputs, múlti-ples entradas y múltiples salidas), por lo que en estos es necesario emplear estadísticosde orden superior (HOS), a menos que las señales originales tengan espectros de poten-cia diferentes y no blancos, en cuyo caso sí son posibles la identificación y la igualaciónciegas [Hua00].

3.1.4 Deconvolución ciega en sistemas MIMO mediante HOS

Para el caso MIMO fueron propuestos criterios de deconvolución ciega basados en HOSen [Yellin94], [Inouye95], [Comon96b] y [Tugnait97]. En este último trabajo fue pre-sentada una extensión de los criterios propuestos en [Shalvi90] al caso MIMO. Tambiénpuede considerarse dicha contribución como una extensión de ICA al caso convolutivo.Consideremos un sistema MIMO convolutivo en el cual cada una de las Nx observacionesviene dada por la superposición de las contribuciones de Ns señales de comunicacionescada una de las cuales atraviesa un canal convolutivo

xi(k) =Ns∑j=1

∞∑

l=−∞aij(l)sj(k − l) + ni(k) , (3.14)

Page 62: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

46 3. Criterios y algoritmos previos

donde xi(k) es la observación i-ésima, sj(k) es la señal original j-ésima, aij(l) es larespuesta impulsiva del canal existente entre la fuente j-ésima y la observación i-ésima,y ni(k) es el ruido aditivo que aparece en la observación i-ésima.

Se asume que las señales originales son de media zero, temporalmente independientese idénticamente distribuidas (i.i.d.) y espacialmente independientes. Asimismo se asumeque los cumulantes de cuarto orden de estas señales son no nulos.

Para obtener una de las señales originales es necesario utilizar un vector filtro iguala-dor (filtro inverso), [b1(l), . . . , bNx(l)]

T, de modo que la salida de este filtro (despreciandoel ruido) es

y(k) =Nx∑i=1

∞∑

l=−∞b∗i (l)xi(k − l) =

Ns∑j=1

∞∑

l=−∞gj(l)sj(k − l) , (3.15)

donde [g1(l), . . . , gNx(l)]T es el vector filtro que representa la respuesta impulsiva del

multicanal combinada con el igualador, cuyos elementos se definen como

gj(l) =Nx∑i=1

∞∑m=−∞

b∗i (m)aij(l −m) . (3.16)

Ambigüedades

Del mismo modo que en ICA, en decoconvolución ciega MIMO existen ciertas ambigüe-dades en la estimación de las señales originales que no pueden resolverse sin disponerde cierta información extra. Así, en ausencia de ruido, la salida cuando los algoritmosconverjan tendrá la forma

y(k) = αsj0(k − ko) , (3.17)

donde j0 es un número natural entre 1 y Ns, α es una constante compleja, y ko un númeronatural. Es decir, la salida será una de las señales originales escalada y retrasada. Por lotanto, las tres indeterminaciones existentes son

1. Señal estimada. A menos que se utilicen restricciones adicionales, no es posibledecidir cuál será la señal estimada.

2. Escalado. No es posible (sin información previa adicional) determinar el escaladode la fuente recuperada.

3. Retraso. La fuente recuperada se obtiene con un cierto retraso que no es posibledeterminar sin información adicional.

Page 63: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.1. Algoritmos de Deconvolución Ciega 47

Condiciones para la existencia de la solución

En [Tugnait97] fueron determinadas las condiciones para la existencia de una solucióncomo la que acabamos de ver en (3.17), tanto para canales IIR (de respuesta impulsivainfinita) como para canales FIR (de respuesta impulsiva finita). En el caso de canales IIR,es suficiente el cumplimiento de dos condiciones:

1. El número de salidas del sistema MIMO que constituye el canal debe ser mayoro igual que el número de señales originales que actúan como entradas de dichosistema. Es decir, Nx ≥ Ns.

2. El rango de la matrizA(z) debe ser Ns en el círculo unidad, dondeA(z) es la matrizcuyos elementos son Aij(z), definidos como la transformada Z de las respuestasimpulsivas de los canales

Aij(z) =∞∑

l=−∞aij(l)z

−l . (3.18)

En el caso de canales FIR es posible obtener igualadores de longitud finita L. Unacondición necesaria y suficiente para ello es que el rango de A(z) sea Ns para cualquierz (incluyendo ∞) excepto z = 0.

Criterio basado en la kurtosis

Tugnait propuso en [Tugnait97] una extensión a sistemas MIMO del criterio propuestopor Shalvi y Weinstein (y anteriormente por Wiggins, Godfrey y Donoho, entre otros)para sistemas SISO. La función objetivo es esencialmente la misma, la kurtosis de lasalida. La diferencia está en que Shalvi y Weinstein restringen la varianza de la salida yTugnait normaliza la kurtosis. El criterio propuesto por este último es, pues,

max J2,2(y) =|cum4(y)||cum2(y)|2 , (3.19)

donde se definen los cumulantes de orden 2 y 4 de la salida como

cum2(y)def= cum(y∗, y) cum4(y)

def= cum(y∗, y∗, y, y) . (3.20)

En [Tugnait97] se emplea un algoritmo de gradiente para la maximización de la fun-ción (3.19) con respecto al vector

b = [b1(0), b2(0), . . . , bNx(0), . . . , b1(L− 1), b2(L− 1), . . . , bNx(L− 1)]T . (3.21)

Page 64: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

48 3. Criterios y algoritmos previos

En cada paso el algoritmo realiza la siguiente actualización:

b(n) = b(n−1) + ρ∇b(n−1)J2,2

(b(n−1)

)

b(n) ← b(n)

‖b(n)‖2

, (3.22)

donde los superíndices (n) indican la iteración correspondiente, y el gradiente de la fun-ción a maximizar con respecto al filtro inverso se calcula como

∇b(n−1)J2,2

(b(n−1)

)= 4 sgn

(cum4

(y(n−1)

))(

cxy(n−1)(4)

(cum2 (y(n−1)))2−

−cxy(n−1)(2)cum4

(y(n−1)

)

(cum2 (y(n−1)))3

), (3.23)

estando definido el vector de observaciones como x = [x1(k), . . . , xNx(k), . . . , x1(k −L + 1), . . . , xNx(k − L + 1)] y los cumulantes cruzados de orden 2 y 4, cxy(n−1)(2) ycxy(n−1)(4), como

cxy(n−1)(2)def= cum(x, y∗) cxy(n−1)(4)

def= cum(x, y, y∗, y∗) . (3.24)

El segundo paso de la iteración (la normalización del vector de coeficientes del filtro)se realiza para fijar el escalado de la salida.

Similares resultados se obtienen para señales reales y el cumulante de orden 3 norma-lizado de las salidas.

Generalización para cualquier HOS

Estos criterios, basados en los cumulantes de orden 3 y 4, fueron generalizados por Chiy Chen (entre otros autores) para cualquier cumulante de orden superior. Definiendo elcumulante de la salida de orden p + q como

Cp,qy , cum

(y(k), . . . , y(k)︸ ︷︷ ︸

p

, y(k)∗, . . . , y(k)∗︸ ︷︷ ︸q

), (3.25)

Chi y Chen demostraron en [Chi01a] que la maximización de la función

Jp,q(y) =

∣∣Cp,qy )

∣∣|cum2(y)| p+q

2

(3.26)

conduce a la obtención, en la salida, de una de las señales originales. Es decir la salidatiene la forma de la ecuación (3.17).

Page 65: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.2. Primeros algoritmos de Separación Ciega 49

Para llevar a cabo dicha maximización es posible utilizar un algoritmo de gradientesimilar a (3.22), donde ∇b(n−1)J2,2

(b(n−1)

)se sustituye por

∇b(n−1)Jp,q

(b(n−1)

)=

Jp,q(y(n−1))

2

(pcxy(n−1)(p, q)

Cp,q

y(n−1)

+ qcxy(n−1)(q, p)

Cq,p

y(n−1)

−(p + q)cxy(n−1)(2)

cum2 (y(k)(n−1))

), (3.27)

estando definido el cumulante cruzado de orden p + q entre la salida y las observaciones,cxy(n−1)(p, q), como

cxy(n−1)(p, q) = cum(

x(k), y(k)(n−1), . . . , y(k)(n−1)

︸ ︷︷ ︸p

, y(k)(n−1)∗, . . . , y(k)(n−1)∗︸ ︷︷ ︸

q

)

(3.28)Es inmediato comprobar que el criterio 3.19 propuesto por Tugnait en [Tugnait97] es

un caso particular de 3.26 en el que p = q = 2.Este tipo de criterios ha sido empleado con éxito (ver, p. ej., [Tugnait01], [Chi01a]) en

la detección de un usuario en un sistema de comunicaciones con CDMA con restriccionespara obtener la secuencia de símbolos del usuario deseado basadas en el código de dichousuario.

3.2 PRIMEROS ALGORITMOS DE SEPARACIÓN CIEGA

Los primeros trabajos de separación ciega aparecieron en [Jutten88] y [Jutten91]. Estosautores asumían una matriz de mezcla de la forma A = (C∗ + I), siendo la matriz C∗una matriz cuya diagonal tiene todos los elementos nulos. Esto implica que la matriz deseparación óptima es B∗ = (C∗ + I)−1. Inspirándose en las redes neuronales proponíanun algoritmo que optimiza una matriz de separación B = (C + I)−1 con los elementosde la diagonal de C nulos, y que persigue la cancelación de las correlaciones cruzadas nolineales, de modo que los elementos de la matriz C se actualizan de la siguiente manera:

∆Cij ∝ g1(yi)g2(yj), for i 6= j (3.29)

siendo g1(u) y g2(u) dos funciones impares no lineales, lo cual garantiza que la separaciónse un punto estacionario del algoritmo si las fuentes tienen densidades de probabilidadsimétricas.

3.2.1 Diagonalización de matrices y tensores de cumulantes

Trabajos iniciales de BSS son también los de Cardoso, Comon, y Lacoume y Ruiz. Car-doso proponía en [Cardoso89] una solución al problema basada en la diagonalización de

Page 66: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

50 3. Criterios y algoritmos previos

una matriz de cumulantes. El cálculo de los autovectores de

E[zzHzzH

]=

∑j=1

N(E

[|sj|4]+ N − 1

)viv

Hj (3.30)

proporciona la matriz de mezcla ortogonal V = [v1, . . . ,vN ]. Este algoritmo es conocidocomo FOBI (Fourth-Order Blind Identification). La limitación que presenta este algorit-mo consiste en que necesita que los autovalores de (3.30) sean todos diferentes. Es decir,que las kurtosis de las fuentes sean todas diferentes. Comon proponía en [Comon89] otroalgoritmo basado en cumulantes de cuarto orden para el caso real, y que utiliza rotacionesde Givens [Golub96] para hallar la matriz de mezcla ortogonal, extendido por Desodt yThomson en [Desodt90] al caso complejo. También se basan en la utilización de los cu-mulantes los criterios que presentaron Lacoume y Ruiz en [Ruiz89][Lacoume92], dondese persigue la anulación de los cumulantes cruzados de segundo y cuarto orden.

Generalización: tensores y auto-matrices

Cardoso, Souloumiac y Comon emplearon también una generalización de la descompo-sición en autovalores para resolver el problema de BSS mediante la aplicación de es-ta descomposición al tensor de cumulantes de cuarto orden [Cardoso90] [Cardoso91][Cardoso93] [Comon96a], continuada por De Lathauwer et al. [Lathauwer94]. El ten-sor de cumulantes de orden cuatro puede ser definido como un operador sobre una matrizM del siguiente modo

Tz(M)ij =∑

k,l

cum(zi, z∗j , zk, z

∗l )Mkl = VΛMVH, (3.31)

con ΛM = diag(k4 (s1)v1Mv1

H, . . . , k4 (sN)vNMvNH). Existen entonces N2 matri-

ces Mr, llamadas auto-matrices tales que

Tz(Mr) = λrMr , T r(MrMs

H)

= δ(r, s) ∀ 1 ≤ r, s ≤ N . (3.32)

La diagonalización conjunta de las N matrices λrMr más significativas conduce a laobtención de una estima de la matriz de mezcla ortogonal V. Para realizar esto, Cardosoy Souloumiac desarrollaron el algoritmo JADE (Joint Approximate Diagonalisation ofEigen-matrices) en [Cardoso93].

3.2.2 HOS y entropía negativa

En [Comon91] fueron presentados criterios generales basados en cumulantes de alto or-den, un trabajo que fue ampliado en [Comon94]. En concreto, Comon demostró que lamaximización de la suma cuadrática de los cumulantes de orden r de las salidas (2.51) es

Page 67: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.2. Primeros algoritmos de Separación Ciega 51

una función contraste, tal como se ha visto en el capítulo 2. Asimismo, demostró que lainformación mutua de las salidas y la suma de las entropías negativas de estas son tambiénfunciones contrastes, como también hemos visto ya en el mismo capítulo, desarrollandoaproximaciones para ambas que empleaban los cumulantes de orden tres y cuatro basa-das en la expansión de Edgeworth [Kendall77] de una f.d.p. También fueron propuestosalgoritmos que empleaban cumulantes de alto orden en [Mansour95] y [Moreau96].

3.2.3 El método de máxima verosimilitud

Para el caso real, la función objetivo puede expresarse desde el punto de vista de la Teoríade la Información como la divergencia de Kullback-Leibler entre la f.d.p. conjunta de lassalidas y una f.d.p. de referencia para la cual los elementos yj del vector de salidas y sonindependientes, y que trata de aproximarse a la f.d.p. de las fuentes

JTI = E[ρ(y)] = log

(pY(y)

q(y)

)= DpY‖q , (3.33)

donde

q(y) =N∏

j=1

qj(yj) (3.34)

es la f.d.p. conjunta de referencia mencionada. Como vimos en el capítulo 2, la elecciónde q(y) determina que el criterio utilizado sea ML (véase, p. ej., [Gaeta90a], [Pham92],[Pham96]), MMI ([Comon94]), Infomax ([Bell95]) o PCA no lineal [Karhunen97].

Infomax

Bell y Sejnowski presentaron en [Bell95] un algoritmo para el caso real basado en elprincipio de máxima entropía o Infomax (ver sección 2.2.5). Este principio consiste en lamaximización de la entropía conjunta de las salidas h(y), lo cual, tras una transformaciónt = q(y), es equivalente a la maximización de

JB(t) = −DpT‖pU , (3.35)

siendo U una variable multidimensional uniforme con valores en el intervalo [0, 1]N .Bell y Sejnowski emplearon un algoritmo de gradiente que introduce la siguiente ac-

tualización

∆B =(BT

)−1+

∂∑

j log∂g(yj)

∂yj

∂B, (3.36)

donde ∆B = B(i) −B(i−1) es la diferencia entre la matriz de separación en una iteracióny en la anterior, y g(yj) es una función no lineal. Cuando la función no lineal g(yj) estanh(yj) el algoritmo resulta

∆B =(BT

)−1 − 2 tanh(Bx)xT . (3.37)

Page 68: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

52 3. Criterios y algoritmos previos

Esta función es útil para la separación de fuentes super-Gaussianas. En [Lee98] se encuen-tra una extensión para separar mezclas de fuentes sub-Gaussianas y super-Gaussianas. Elalgoritmo se simplifica si se utiliza el gradiente natural. En ese caso resulta ser

∆B =(I− 2 tanh(Bx)xT

)B . (3.38)

Este algoritmo tiene una convergencia más rápida que el original sin necesidad de emplearpreblanqueo de las observaciones [Hyvärinen99a]. La relación entre los métodos Infomaxy ML fue probada en [Cardoso97], [Obradovic98] y [Pearlmutter97].

Gradiente natural

Amari et ál. prousieron en [Amari96] [Amari97a] la utilización del gradiente natural (lla-mado también gradiente relativo), en lugar del gradiente, para la optimización de la fun-ción (3.33). Para la función ρ(y), el gradiente natural se define como

∇Bρ(y) =∂ρ(y)

∂BBTB , (3.39)

y muestra ser la dirección de máximo ascenso cuando B pertenece a un espacio de Rie-mann. Utilizando, pues, el gradiente natural, Amari et ál. dedujeron el siguiente algoritmo

∆B ∝ (I− f(y)yT

)B , (3.40)

donde los elementos de f(y) son

fi(yi) =∂qi(yi)/∂yi

qi(yi). (3.41)

El gradiente natural permitió, además, justificar algoritmos previos que habían sidopropuestos por Cichocki et al. ([Cichocki94] y [Cichocki96]) y Cardoso y Laheld (algo-ritmo EASI, Equivariant Adaptive Separation via Independence, [Cardoso96]) de formaindependiente para la cancelación de correlaciones cruzadas no lineales y que mejora-ban el algoritmo de Jutten y Hérault, reduciendo el coste computacional y mejorando laestabilidad.

3.3 PRIMEROS ALGORITMOS DE EXTRACCIÓN CIEGA

En la extracción ciega de fuentes (BSE) se persigue la extracción de un subconjunto de lasfuentes que forman la mezcla, y, en el caso más extremo, de una sola de dichas fuentes.La deflación (ver capítulo 2) puede ser utilizada conjuntamente con la BSE para resolverel problema de BSS.

Page 69: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.3. Primeros algoritmos de Extracción Ciega 53

3.3.1 Algoritmo de Delfosse y Loubaton

La primera aproximación al problema de Separación Ciega de Fuentes (BSS) medianteBSE y deflación la llevaron a cabo Delfosse y Loubaton en [Delfosse95]. Allí se demues-tra que, para señales reales, en las condiciones del modelo ICA de mezcla instantánea conobservaciones preblanqueadas, definido por la ecuación (2.28), los máximos locales de lafunción

JD(u) =(cum(y, y, y, y))2

4s.t. uTu = 1 (3.42)

corresponden con las columnas de la matriz de mezcla unitaria V, siendo1 y = uTz(k).Es decir, en los máximos locales se extraen las fuentes originales. El mismo contraste fueutilizado también en [Girolami97].

Este contraste está muy relacionado con los trabajos previos en BSS (por ejemplo, loscontrastes propuestos por Comon en [Comon94]) así como con los resultados obtenidosen deconvolución ciega en sistemas MIMO. La función objetivo propuesta en [Tugnait97]es igual (para números complejos) salvo por el hecho de que la normalización de la salidaes implícita en el contraste (3.42), mientras que en [Tugnait97] el cumulante de cuartoorden es normalizado en el propio contraste ya que allí se trabaja sin preblanqueo y sinla restricción bHb = 1. Excepto por el preblanqueo el contraste definido por Delfossey Loubaton y la propia definición del problema de BSE en mezclas instantáneas puedenverse como un caso particular de la función objetivo propuesta en [Tugnait97] y del pro-blema de deconvolución ciega en sistemas MIMO cuando los filtros de mezcla (y, porlo tanto, el de deconvolución) no tienen memoria y se trabaja con números reales. Estarelación entre la extracción ciega de una fuente y la deconvolución ciega ya fue señaladapor [Inouye97] y [Shynk96].

Para la recuperación de todas las fuentes Delfosse y Loubaton propusieron un esque-ma de deflación jerárquico basado en la parametrización del vector de extracción, u, enfunción de un conjunto de ángulos, θ = [θ1, . . . , θN−1]

T, relacionados con la descompo-sición en rotaciones de Givens [Golub96] de una matriz ortogonal U(θ) =

[U(θ),u(θ)

]

en un producto de N − 1 matrices Uk(θk) definidas como

Uk(θk)T =

Ik−1

cos(θk) − sin(θk)

IN−1−k

sin(θk) cos(θk)

. (3.43)

Una vez obtenida la primera fuente, sj0 en la salida y1 = u1(θ)Tz de la primera ex-

1 Recordemos que z(k) es el vector de observaciones preblanqueadas.

Page 70: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

54 3. Criterios y algoritmos previos

tracción, la deflación y la obtención de las nuevas observaciones se llevan a cabo medianteel producto z2 = U1(θ)Tz. En efecto, puesto que U1(θ) y u1(θ) son ortogonales, en z2

no se encuentra presente la fuente sj0 extraída en la primera salida. De manera sucesivase extraen todas las fuentes una a una.

Para la extracción de cada fuente se utiliza un algoritmo de gradiente adaptativo quemaximiza el contraste (3.42). La n + 1-ésima iteración para el vector de parámetros, θ es

θn+1 = θn + µ[∇θJD

]θ=θn

, (3.44)

donde[∇θJD

]θ=θn

es la estimación adaptativa de∇θJD en la iteración n-ésima. Es fácil

comprobar que el algoritmo se puede escribir como

θn+1 = θn + µc4R(n)y(n)3Γ(θn)U1(θn)Tz(n) , (3.45)

siendo Γ(θn) una matriz diagonal y c4R(n) la estimación adaptativa de cum(y, y, y, y)/4

para señales reales. Es decir,

c4R(n + 1) = c4R(n) + µc

(y(n)4 − 3

4− c4R(n)

). (3.46)

3.3.2 Maximización de HOS normalizados mediante algoritmos de gra-diente

En [Cichocki97] fue propuesto un contraste para extracción de señales reales, similar alpropuesto por Delfosse y Loubaton, que también utiliza como paso previo el preblanqueode las observaciones. El método que se proponía buscaba la maximización del valor ab-soluto de la kurtosis normalizada bajo la restricción de norma unidad para el vector deextracción. Es decir, la maximización de

JCh(u) =1

4

|cum(y, y, y, y)|(E [y2])2 (3.47)

sujeto a la restricción uTu = 1.Para lograr dicha maximización se empleaba un algoritmo adaptativo de gradiente

que realiza estimaciones on-line de los estadísticos empleados. Este método, al igual queel no requiere un conocimiento del número de fuentes, sólo necesita asumir la hipótesisde que el número de sensores es mayor que el de fuentes. Para la recuperación de todaslas fuentes utiliza un método de deflación similar al presentado en la sección 2.1.6, perode forma adaptativa, de manera que, si yk = uk

Tz es la fuente obtenida en la k-ésimaejecución del algoritmo a partir de zk, el nuevo vector de observaciones para la siguiente

Page 71: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.3. Primeros algoritmos de Extracción Ciega 55

extracción será zk+1 = zk − ukyk, siendo uk el vector que minimiza 12E[‖zk+1‖2]. Esta

minimización se realiza también mediante un algoritmo adaptativo de gradiente.Frente al algoritmo de Delfosse y Loubaton, el propuesto en [Cichocki97] tiene la

ventaja de extraer las fuentes en orden decreciente de su kurtosis normalizada, por lo quees sencillo conocer cuándo se debe detener el proceso de extracción: en el momento enque aparezca una fuente prácticamente Gaussiana (con kurtosis normalizada próxima alcero).

Es evidente que para la obtención de fuentes de kurtosis positiva (o negativa) el con-traste (3.47) puede simplificarse a

Js(u) =1

cum(y, y, y, y)

(E [y2])2 (3.48)

donde β = 1 para la extracción de fuentes de kurtosis positivas y β = −1 para la extrac-ción de fuentes de kurtosis negativas.

Teniendo en cuenta la restricción ‖u‖ = 1 y el preblanqueo de las observaciones (locual conduce a E[|y|2]=1), el contraste (3.48) puede ser reemplazado (ver, p. ej., [Kung98]y [Douglas98]) por

JK(y) =1

E[|y|4]

‖u‖4 . (3.49)

Generalización de orden superior a cuatro para señales reales

En [Thawonmas98] se presentó un algoritmo de BSE para señales reales en el que tam-bién se combina extracción con deflación para obtener la separación de todas las fuentes.Este método no requería el preblanqueo de las observaciones, ya que utiliza un criterionormalizado, por lo que trabaja con el vector de datos x definido en (2.2). Thawonmas etál. demostraron que cada uno de los máximos locales de la función

JT (b) = β1

p

cum( p︷ ︸︸ ︷y, y, . . . , y

)

(E [y2])p2

(3.50)

se corresponde con una de las fuentes, con β = 1 si se pretende extraer una fuente dekurtosis positiva y β = −1 si se pretende extraer una fuente de kurtosis negativa. Se tratade una generalización del contraste propuesto en [Cichocki97]. La minimización de (3.50)se lleva a cabo mediante un algoritmo adaptativo de gradiente. Asimismo se proponía elmismo método de deflación que en [Cichocki97].

El criterio propuesto por Thawonmas et al. es equivalente (salvo por constantes deescalado) al propuesto para deconvolución ciega en [Chi01a], (3.26), particularizado paranúmeros reales y mezclas instantáneas. Los contrastes para separación ciega propuestos

Page 72: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

56 3. Criterios y algoritmos previos

en [Moreau96], [Comon96b], [Inouye97] son también similares al propuesto para extrac-ción en [Thawonmas98]. Del mismo modo el criterio propuesto para deconvolución ciegaen [Shalvi90] es muy similar al propuesto en [Cichocki97] para BSE. De nuevo observa-mos, pues, la conexión existente entre la deconvolución ciega y la BSE.

Generalización para el caso complejo

Es posible definir un contraste general basado en HOS utilizando la kurtosis generalizada[Cichocki03]. La extracción de una de las fuentes en la salida se consigue mediante lamaximización de la función

Jp,q(y) =1

p

∣∣∣∣∣∣E [|y|p](

E[|y|p/q

])q − Cp,q

∣∣∣∣∣∣, (3.51)

donde Cp,q es una constante tal que la función Jp,q(y) sea nula cuando la salida y tengauna distribución Gaussiana. Este contraste se puede reducir para fuentes sub-Gaussianas,dando lugar a las funciones objetivo propuestas en los algoritmos de Sato (p = 1 y q =

1/2) y de Godard (q = 1/2) para deconvolución ciega.Otra familia de criterios generales que emplean HOS de orden arbitrario fue propues-

ta en [Malouche98] para extracción de señales complejas con kurtosis negativas. Estafamilia de criterios empleaban una función polinómica par del módulo de la salida y eraoptimizada mediante un algoritmo adaptativo de gradiente para el caso en que la funciónpolinómica utiliza el momento de cuarto orden. El criterio consiste en la minimización de

JM(u) = E [F (y)] , (3.52)

donde

F (y) = |y|2p

(|y|2p − p + q

)+ K (3.53)

siendo σ 6= 0, p y q enteros positivos tales que pq ≥ 1 y K = σ2 para el caso en que seutiliza el momento de orden 4 (p = q = 1).

3.4 LOS ALGORITMOS FAST-ICA

Uno de los algoritmos más conocidos y utilizados para BSE (o para BSS de forma iterativamediante deflación) es el Fast-ICA de Hyvärinen y Oja. En principio el algoritmo fue pro-puesto para señales reales utilizando la kurtosis de la salida. Este algoritmo realizaba unaiteración de punto fijo muy simple para localizar los extremos de la kurtosis. Posterior-mente Hyvärinen y Oja generalizaron el contraste empleando para ello una aproximaciónde la entropía negativa. La extensión para números complejos la realizaron Bingham yHyvärinen.

Page 73: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.4. Los algoritmos Fast-ICA 57

3.4.1 Fast-ICA para fuentes reales empleando la kurtosis

El primer algoritmo Fast-ICA fue propuesto en [Hyvärinen97] para fuentes reales. Nece-sita el preblanqueo de las observaciones. Es decir, la salida es y = uTz. Inicialmente elcriterio de extracción consiste en la maximización (o minimización) de

cum(y, y, y, y) = E[y4

]− 3(E

[y2

])2= E

[(uTz

)4]− 3 ‖u‖2 (3.54)

sujeto a la restricción ‖u‖ = 1. Sin embargo, para incorporar la restricción a la funciónobjetivo (o de coste) y convertirla en una función sin restricción, Hyvärinen y Oja propo-nen el siguiente contraste, que introduce un término de penalización para tener en cuentala restricción

JHk(u) = E

[(uTz

)4]− 3 ‖u‖4 + F

(‖u‖2) , (3.55)

donde F(‖u‖2) es el término de penalización.

Si definimos f(r) = dF (r)/dr, el gradiente de la función contraste (3.55) resulta ser

∇uJHk= E [z(k)y(k)]3 − 3 ‖u‖2 u + f(‖u‖2)u . (3.56)

En los algoritmos de gradiente la actualización del vector de extracción a través delas iteraciones se realiza de la forma u(i) = u(i−1) + µ∇uJHk

. Este tipo de algoritmostiene una convergencia lenta y muy dependiente de la elección del paso de adaptación,µk. Una mala elección puede hacer incluso que, en la práctica, el algoritmo no converja.Para evitar estos problemas Hyvärinen y Oja propusieron un algoritmo de punto fijo ensustitución del algoritmo adaptativo de gradiente.

Los puntos críticos del gradiente (3.56) vienen determinados por

∇uJHk= E

[zy3

]− 3 ‖u‖2 u + f(‖u‖2)u = 0 , (3.57)

lo cual equivale au = α

(E

[zy3

]− 3 ‖u‖2 u)

, (3.58)

donde α es un escalar. Por lo tanto, es posible actualizar el vector de extracción medianteun algoritmo de punto fijo. Podemos, además, eliminar este factor de escala desconocidosi en cada iteración el vector de extracción es normalizado, de modo que la iteración delalgoritmo de punto fijo se reduce a se reduce a

u(i) = E

[z

(u(i−1)Tz

)3]− 3u(i−1)

u(i) ← u(i)

‖u(i)‖ . (3.59)

Page 74: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

58 3. Criterios y algoritmos previos

Este algoritmo tenía dos ventajas sobre los algoritmos de gradiente: su convergenciaes cúbica y no existe ningún paso de adaptación del que dependa la convergencia.

Para la extracción de todas las fuentes se proponía el método de deflación que ya seha descrito en la sección 2.1.6.

Variante

En [Cichocki03] se puede encontrar una deducción del algoritmo de punto fijo para lakurtosis generalizada. En el caso p = 4, q = 2, Cp,q = 3 (kurtosis propiamente dicha paravariables reales) la iteración correspondiente es

u(i) =

E

[z

(u(i−1)Tz

)3]

E

[(u(i−1)Tz

)4] − u(i−1)

u(i) ← u(i)

‖u(i)‖ , (3.60)

resultando un algoritmo más robusto frente a outliers que el FastICA original.

3.4.2 Fast-ICA para fuentes reales empleando la entropía negativa

Hyvärinen propuso en [Hyvärinen99b] una generalización del algoritmo Fast-ICA (aun-que para el caso real) en la que se utiliza como contraste una aproximación de la entropíanegativa más robusta que las aproximaciones clásicas basadas en expansiones polinómi-cas que utilizan HOS. También necesita el preblanqueo de las observaciones. El contrastees de la forma

max JHG(u) =

(E[G(y)]− E[G(ν)]

)2

s. t. ‖u‖ = 1 , (3.61)

donde ν es una variable Gaussiana de media cero y varianza unidad y G es una función nocuadrática que deberá ser elegida. Según se pretenda extraer señales de kurtosis positivao negativa el criterio se puede definir de manera equivalente como la búsqueda de losextremos de la función

E[G(y)] s. t. ‖u‖ = 1 . (3.62)

De acuerdo con las condiciones de Kuhn-Tucker dicha búsqueda es equivalente aresolver la siguiente ecuación

f(u) = E[zg(uTz)

]− βu = 0 , (3.63)

definiendo g(y)def= dG(y)/dy y β = E

[uT∗ zg

(uT∗ z

)], donde u∗ es el valor óptimo de u.

Page 75: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.4. Los algoritmos Fast-ICA 59

Para resolver esta ecuación Hyvärinen empleó el método de Newton. Por lo tantoel algoritmo Fast-ICA generalizado, más que un método de punto fijo, es un métodode Newton, aunque se mantuvo el nombre (Fast Fixed-Point Algorithms) de la primeraversión descrita en la sección anterior. Para llevar a cabo la optimización mediante elmétodo de Newton es necesario estimar la matriz jacobiana de f(u), Jf (u)

Jf (u) = E[zzTg′(uTz)

]− βI ≈≈ E

[zzT

]E

[g′(uTz)

]− βI =

=(E

[g′

(uTz

)]− β)I , (3.64)

donde g′(y) = dg(y)/dy y la aproximación se realiza separando las esperanzas.Si definimos el vector de extracción en la iteración (i−1)-ésima como u(i−1), la itera-

ción i-ésima del método se construye estimando J(i−1)f (u) =

[Jf (u

(i−1))]β=β(i−1) , donde

β(i−1) se define a partir de β sustituyendo u∗ por u(i−1). De modo que la actualización delvector de extracción se realiza de la siguiente manera

u(i) = u(i−1) −E

[zg(u(i−1)Tz)

]− β(i−1)u(i−1)

E[g′(u(i−1)Tz)

]− β(i−1)

u(i) ← u(i)

‖u(i)‖ . (3.65)

Este algoritmo admite una simplificación; basta con multiplicar ambos términos dela primera expresión por β(i−1) − E

[g′(u(i−1)Tz)

]y recordar que cualquier escalar que

multiplique a u(i) será absorbido por la normalización del segundo paso. Por lo tanto laiteración i-ésima del algoritmo resulta ser

u(i) = E[zg(u(i−1)Tz)

]− E

[g′(u(i−1)Tz)

]u(i−1)

u(i) ← u(i)

‖u(i)‖ . (3.66)

En [Hyvärinen99b] se demuestra que, bajo el modelo ICA con preblanqueo de obser-vaciones de la ecuación (2.28), el algoritmo (3.66) converge a un máximo de la funciónJHG

(u). La convergencia es generalmente local, aunque para el caso concreto en queG(y) = y4 demuestra ser global. Es fácil comprobar que, en ese caso, este algoritmocoincide con el Fast-ICA original descrito en la sección anterior. También se demuestraque esta convergencia es cuadrática en general, y cúbica si las fuentes son simétricas.Existe también una versión del algoritmo Fast-ICA que evita el preblanqueo de las obser-vaciones.

Por otra parte, sigue siendo válida la utilización de los métodos de deflación para se-parar todas las fuentes. De hecho ([Hyvärinen99b] [Hyvärinen00]) existe una conexión

Page 76: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

60 3. Criterios y algoritmos previos

entre los métodos Fast-ICA con deflación simétrica de las fuentes extraídas (decorrelaciónsimétrica de los vectores de extracción) y los algoritmos de gradiente para máxima vero-similitud o los algoritmos del tipo infomax ([Pham92][Bell95] [Amari96] [Cardoso96][Cichocki96]).

Asimismo, en [Hyvärinen99b] se proporcionan unos criterios para la elección de lafunción G(y), además de varios ejemplos. Las características que debe cumplir G(y) son:la consistencia del vector de extracción como estimador en los máximos de JHG

, u∗; laminimización de la varianza asintótica de u∗;y la robustez frente a outliers.

Estabilización del algoritmo Fast-ICA

En [Hyvärinen99b] se propone también una mejora del algoritmo Fast-ICA (3.66) con-ducente a su estabilización. La convergencia del método de Newton puede fallar si lainicialización está muy lejos de la solución. Para asegurar la convergencia es posible in-troducir un tamaño de paso, de forma que la actualización de u(i) pasa a ser

u(i) = u(i−1) − µE

[zg(u(i−1)Tz)

]− β(i−1)u(i−1)

E[g′(u(i−1)Tz)

]− β(i−1)

u(i) ← u(i)

‖u(i)‖ . (3.67)

un tamaño de paso menor que 1 (como, por ejemplo, 0.1 o 0.01) asegura la conver-gencia con mayor probabilidad, aunque de una forma más lenta. Este algoritmo puedeconsiderarse un híbrido entre el método de Newton (µ = 1) y los métodos de gradiente(µ muy pequeño).

3.4.3 Algoritmo Fast-ICA para señales complejas

La extensión de los algoritmos Fast-ICA para señales complejas la realizaron Binghamy Hyvärinen en [Bingham00]. El algoritmo que obtienen parte del preblanqueo de lasobservaciones. Se trata de un método que no utiliza la información de fase de la salida,tan sólo utiliza el módulo, por lo que necesita que las fuentes sean circulares, de mediacero y estrictamente complejas. Es decir, no es válido para fuentes reales puras y, además,cada fuente sj debe cumplir E[s2

j ] = 0. O, de forma equivalente (y teniendo en cuenta laindependencia de las fuentes), la pseudocovarianza del vector de fuentes debe ser nula

E[ssT] = 0 , (3.68)

lo que conduce a las condiciones E[zzT] = 0 E[y2] = 0.

Page 77: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.4. Los algoritmos Fast-ICA 61

A pesar de esta limitación, se trata de un algoritmo útil para señales de comunicacio-nes, puesto que muchos esquemas de modulación digital en fase y cuadratura cumplencon este requisito (por ejemplo, las modulaciones M-PSK para M > 2, las QAM, etc.).

El criterio propuesto por Bingham y Hyvärinen consiste en la búsqueda de los extre-mos de la función

JBH(u) = E[G

(∣∣uHz∣∣2

)]s. t. E

[∣∣uHz∣∣2

]= 1 , (3.69)

donde G : R+ ∪ 0 → R es una función par continuamente diferenciable. En el casoparticular en que G(r) = r2, y teniendo en cuenta las dos restricciones E[y2] = 0 yE

[|y|2] = 1, la función (3.69) se convierte en una medida de la kurtosis de la salida(excepto una constante). Los autores demuestran que los extremos de la función (3.69)contiene los vectores de extracción que proporcionan las fuentes.

Asimismo, los autores proporcionan algunos ejemplos para la función G(r):

G1(r) =√

a1 + r g1(r) =1

2√

a1 + r(3.70)

G2(r) = log (a2 + r) g2(r) =1

a2 + r(3.71)

G3(r) =1

2r2 g3(r) = r . (3.72)

En general son más robustas frente a outliers aquellas funciones que crecen más len-tamente con r.

El algoritmo de optimización se deduce de forma similar al caso real. De acuerdocon las condiciones de Kuhn-Tucker, la búsqueda de los extremos de la función (3.69)equivale a resolver la siguiente ecuación

∇<=E[G

(|y|2)]− β∇<=E[|y|2] = 0 , (3.73)

donde β ∈ R y el operador pseudo-gradiente∇<= se define como (ver apéndice A de estecapítulo)

∇<=def=

∂∂u1R

∂∂u1I...

∂∂uNR

∂∂uNI

, (3.74)

definiendo uiRdef= <(ui), uiI

def= =(ui). También definimos u<=

def= [u1R, u1I , . . . , uNR,

. . . , uNI ]T.

Page 78: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

62 3. Criterios y algoritmos previos

Como en el caso real, para la resolución de la ecuación (3.73) se recurre al método deNewton. Para ello es necesario estimar la matriz Jacobiana del término de la izquierda endicha ecuación. Para el primer sumando f1 = ∇<=E

[G

(|y|2)] resulta ser

Jf1(u<=) = 2E[H|uHz|2(u<=)g(

∣∣uHz∣∣2)+

+2(∇<=

(∣∣uHz∣∣2

))(∇<=

(∣∣uHz∣∣2

))T

g′(|uHz|2)

]≈

≈ 2E[g

(|uHz|2) + |uHz|2g′ (|uHz|2)] I , (3.75)

donde Hf (u) denota la matriz Hessiana de una función real f(u) y la aproximación se hallevado a cabo separando las esperanzas y haciendo uso de la condición E[zzT] = 0.

Para el segundo sumando f2 = β∇<=E[|y|2] la matriz Jacobiana es

Jf2(u) = 2βI ,

con lo cual se deduce la iteración i-ésima del método de Newton

u(i) = u(i−1) −E

[z

(u(i−1)Hz

)∗g

(|uHz|2)]− β(i−1)u(i−1)

E [g (|uHz|2) + |uHz|2g′ (|uHz|2)]− β(i−1)

u(i) ← u(i)

‖u(i)‖ . (3.76)

Como en el caso real, es posible simplificar este algoritmo multiplicando ambos tér-minos de la primera ecuación por β(i−1) − E

[g

(|uHz|2) + |uHz|2g′ (|uHz|2)], de modoque la iteración i-ésima del algoritmo Fast-ICA para señales complejas es

u(i) = E[z

(u(i−1)Hz

)∗g

(|uHz|2)]− E

[g

(|uHz|2) + |uHz|2g′ (|uHz|2)]u(i−1)

u(i) ← u(i)

‖u(i)‖ . (3.77)

De nuevo el método admite la deflación para extraer todas las fuentes.

3.5 ALGORITMOS BASADOS EN NO LINEALIDADES EN EL PLANO COM-PLEJO

En el dominio complejo se han desarrollado diversos algoritmos de BSE y BSS, como elFastICA que acabamos de describir. En el caso de contrastes basados en cumulantes2 el

2 Véase p. ej., [Desodt90] [Cardoso93] [Comon94] [Moreau99] [Li04b] [Eriksson05] [Douglas07].

Page 79: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.5. Algoritmos basados en no linealidades en el plano complejo 63

paso del dominio real al complejo es directo. Sin embargo, cuando se utilizan funcionesno lineales que aproximan la p.d.f. de la variable de salida, como ocurre en los algoritmosML, Infomax o de maximización de la entropía negativa (o de la no Gaussianidad), apare-ce una dificultad en el caso complejo [Adalı08], puesto que, según el teorema de Liouville[Remmert91], una función de variable compleja no puede ser analítica y acotada al mismotiempo, a menos que se trate de una constante (este teorema fue extendido por el teoremade Picard, aún más restrictivo, que establece que una función analítica de variable com-pleja en cuya imagen falte más de un punto sólo puede ser una constante [Ahlfors79]). Espor eso que la elección de la función no lineal establece una clara división en este tipo dealgoritmos: los que utilizan funciones analíticas y los que no.

Por un lado hay criterios que fuerzan que la función sea acotada (con lo cual dejade ser analítica) para conseguir la estabilidad de los algoritmos, como en [Smaragdis98][Sawada02].En este tipo de aproximaciones la función no lineal se descompone en dosfunciones reales de variable real acotadas, una para la parte real de la variable (la salida)y otra para la parte imaginaria (o bien, una para el módulo y otra para la fase). Es decir,en estos casos la no linealidad es de la forma

F (y) = FR(yR) + jFI(yI) , (3.78)

siendo y = yR + jyI . Existen otros criterios ([Malouche98] [Bingham00] [Anemüller03][Fiori03]) que emplean solamente la información contenida en el módulo, obviando lafase, F (y) = FM(|y|). Un inconveniente que presentan todos estos criterios que no em-plean funciones analíticas consiste en que limitan el tipo de fuentes que pueden extraer,puesto que todos establecen algún tipo de restricción, como la circularidad de las fuentes(p. ej., [Bingham00] [Anemüller03]) o la necesidad de que las partes real e imaginaria delas fuentes sean incorreladas (p. ej., [Smaragdis98] [Bingham00]).

Frente a estos algoritmos Adalı et ál. han propuesto diversos criterios que sí empleanfunciones no lineales analíticas, como en [Calhoun02], [Adalı04], [Novey08]. Las fun-ciones analíticas presentan una mejor convergencia, debido a que el gradiente siempreapunta a la dirección de máximo cambio (mientras que no siempre ocurre así con lospseudo-gradientes utilizados en las funciones no analíticas). Por otro lado la complejidadcomputacional es menor y consiguen aproximar un mayor número de distribuciones. En[Calhoun02] se desarrolló el criterio Infomax para señales complejas utilizando una fun-ción no lineal analítica compleja, tanh(y), en lugar de la función descompuesta en dosfunciones reales que se utilizaba en [Smaragdis98], mejorando su comportamiento. En[Adalı04] fue propuesto un criterio de separación para el caso complejo utilizando diver-sas no linealidades complejas analíticas, partiendo del propuesto en [Cichocki96] para elcaso real. Basándose en el buen resultado que ofrecían los algoritmos de [Calhoun02] y

Page 80: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

64 3. Criterios y algoritmos previos

[Adalı04], en [Novey08] fueron propuestos un criterio de maximización de la entropíanegativa y su correspondiente algoritmo para BSE. Dicho algoritmo ha sido utilizado enel capítulo de simulaciones para la detección de usuarios en sistemas con CDMA. En lasección 3.6 se detallan el criterio y el algoritmo.

3.6 MÉTODO CUASI-NEWTON PARA MAXIMIZACIÓN COMPLEJA DE LANO GAUSSIANIDAD (N-CMN)

Novey y Adalı han propuesto recientemente un criterio para la BSE de señales complejasbasado en la maximización compleja de la no Gaussianidad de la salida (CMN, Com-plex Maximization of Non-Gaussianity) [Novey08]. Este criterio utiliza una no linealidadanalítica, con las consiguientes ventajas. Asimismo proponen dos algoritmos para llevar acabo esta maximización: uno de gradiente y otro cuasi-Newton que explota las matrices decovarianza y pseudocovarianza de las observaciones, proporcionando buenos resultadostanto para fuentes circulares como para no circulares. Este método utiliza el preblanqueode las observaciones.

El criterio consiste en la maximización de una aproximación de la entropía negativa(2.66) en la que la f.d.p. de la salida se aproxima por una función no lineal G(y) : C→ Canalítica

pY (y) = e−|G(Y )|2 , (3.79)

de modo que este criterio puede reducirse a la búsqueda de los extremos de la función

JNA(y) = E[|G(y)|2] = E[∣∣G(uHx)

∣∣2] . (3.80)

El motivo por el cual estos autores proponían esta función en lugar de la utilizada en elalgoritmo Fast-ICA para el caso complejo es doble: por un lado tiene las ventajas que yase han expuesto para las funciones analíticas; por otra parte utiliza la información de fase,además de la de módulo, lo que permite generar una amplia clase de funciones asimétricasque no se pueden generar con la no linealidad (3.69) propuesta para Fast-ICA. Esta es unacaracterística que le permite extraer fuentes sin simetría circular. En efecto, puesto quela no linealidad trata de aproximar la f.d.p. de la fuente a extraer mediante la relación(2.73), y teniendo en cuenta que las variables no circulares tienen f.d.p. asimétricas, sonnecesarias no linealidades asimétricas para generar tales f.d.p.

En el desarrollo de los dos algoritmos, estos autores optan por utilizar el cálculo deWirtinger3, en lugar de utilizar los métodos clásicos que utilizan pseudo-gradientes, comoen [Bingham00, Cardoso06, Eriksson06]. Al ser funciones reales de variable compleja, lasfunciones de coste para el caso complejo son siempre no analíticas en el plano complejo.

3 Véase [Brandwood83] [vdB94] [Haykin02] [Hjørungnes07a] [Hjørungnes07b].

Page 81: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.6. Maximización compleja de la no Gaussianidad (N-CMN) 65

La aproximación más común consistía en realizar una transformación CN → R2N , talcomo se ha definido para el pseudo-gradiente en (3.74). De este modo el desarrollo de losalgoritmos puede realizarse utilizando el cálculo real. Sin embargo, esto puede conducir acierta redundancia en las representaciones e implica el uso de matrices con estructuras porbloques. Generalmente es necesario recurrir a aproximaciones que simplifican e cálculo.En el cálculo de Wirtinger, en cambio, se realiza una transformación diferente, C→ R×R, de modo que una función F : C → C puede escribirse como F (y) = f(<(y),=(y)).Considerando las variables y e y∗ como independientes, se definen las derivadas parciales

∂F

∂y=

1

2

(∂f

∂<(y)− j

∂f

∂=(y)

)∂F

∂y∗=

1

2

(∂f

∂<(y)+ j

∂f

∂=(y)

), (3.81)

tal y como se detalla en el apéndice A de este capítulo.Este tipo de derivada admite las reglas del cálculo, como la de la cadena, la del pro-

ducto o del cociente.

3.6.1 Algoritmo de gradiente G-CMN

El algoritmo de gradiente para la búsqueda de los extremos de (3.80) es el siguiente

u(i) = u(i−1) + µν∂JNA

∂u∗

∣∣∣∣y(i−1)

u(i) ← u(i)

‖u(i)‖ , (3.82)

donde µ es el tamaño de paso, ν = −1, 1 un parámetro que determina si se maximizao se minimiza la función JNA y la derivada parcial se calcula como

∂JNA

∂u∗= E [zG(y)∗g(y)] , (3.83)

siendo g = ∂G/∂y.

3.6.2 Algoritmo cuasi-Newton N-CMN

El algoritmo de gradiente tiene la ventaja de hacer posible una fácil implementación adap-tativa. Sin embargo, depende demasiado del paso de adaptación y de la correcta elecciónde ν en función del tipo de fuente que se desee extraer. Por ello Novey y Adalı handesarrollado también un algoritmo basado en el método de Newton que elimina tales de-pendencias. Incorporando la restricción uHu = 1 a la función a maximizar o minimizarse tiene que la función Lagrangiana cuyos extremos se deben encontrar es

Page 82: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

66 3. Criterios y algoritmos previos

F (u, λ) = JNA(u) + λ(uHu− 1

). (3.84)

El algoritmo de Newton para el caso complejo que optimiza esta función consiste enla siguiente iteración

HF

(u∗,uT

) ∣∣∣u(i−1)

∆u + HF

(u∗,uH

) ∣∣∣u(i−1)

∆u∗ = − ∂F

∂u∗

∣∣∣u(i−1)

, (3.85)

donde

∆u = u(i) − u(i−1)

∆u∗ = u(i)∗ − u(i−1)∗ , (3.86)

y las matrices Hessianas complejas de F , HF

(u∗,uT

)y HF

(u∗,uH

)quedan definidas

por

HF (u∗,uT)def=

∂2F

∂u∗∂uT=

∂2JNA

∂u∗∂uT+ λI = E

[zzHg(y)g(y)∗

]+ λI

HF (u∗,uH)def=

∂2F

∂u∗∂uH=

∂2JNA

∂u∗∂uH= E

[zzTG(y)∗g′(y)

], (3.87)

siendo g′(y) = ∂g/∂y. La expresión del gradiente de la Lagrangiana es

∂F

∂u∗=

∂JNA

∂u∗+ λu , (3.88)

donde el gradiente de la función JNA viene dado por la expresión (3.83). Esto nos pro-porciona una actualización del vector de extracción de la forma

(E

[zzHg(y(i−1))g(y(i−1))∗

]+ λI

)u(i) + E

[zzTG(y)∗g′(y)

]u(i)∗ =

= −E[zG(y(i−1))∗g(y(i−1))

]+

+ E[zzHg(y(i−1))g(y(i−1))∗

]u(i−1)+

+ E[zzTG(y)∗g′(y)

]u(i−1)∗ .

(3.89)

Novey y Adalı muestran que, cuando nos acercamos al punto de convergencia,

E[zzTG(y)∗g′(y)

]u(i)∗ → u(i) (3.90)

Utilizando, además, las aproximaciones

E[zzHg(y(i−1))g(y(i−1))∗

] ≈ E[zzH

]E

[g(y(i−1))g(y(i−1))∗

](3.91)

E[zzTG(y(i−1))∗g′(y(i−1))

] ≈ E[zzT

]E

[G(y(i−1))∗g′(y(i−1))

], (3.92)

Page 83: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

3.7. Conclusiones 67

y, teniendo en cuanta que E[zzH

]= I, la iteración del algoritmo cuasi-Newton resulta

u(i) = −E[zG(y(i−1))∗g(y(i−1))

]+ E

[g(y(i−1))g(y(i−1))∗

]u(i−1) +

+E[zzT

]E [G(y)∗g′(y)]u(i−1)∗

u(i) ← u(i)

‖u(i)‖ . (3.93)

Estos autores prueban que existen tres tipos de funciones para los cuales el algoritmoes estacionario en la solución óptima: G(y) = ym para m > 0; aquellas que satisfa-cen G(y) = g′(y); aquellas para las cuales E [<(G)=(g′)] = E [<(g′)=(G)]. Asimismo,muestran que las funciones G(y) = y1.25 y G(y) = cosh(y), proporcionan buenos resul-tados para la extracción de fuentes QPSK.

3.7 CONCLUSIONES

En este capítulo hemos revisado algunos de los algoritmos más relevantes de deconvolu-ción o igualación ciega y de ICA, tanto para separación como para extracción, centrandonuestro interés en aquellos que serán empleados en el capítulo de simulaciones para ladetección ciega de usuarios en sistemas CDMA.

Los primeros algoritmos de igualación ciega eran métodos Bussgang, en los cuales seempleaban variantes del algoritmo LMS en las que la señales de error era sustituida poruna función de la salida. Destacan entre ellos el algoritmo de Sato para señales binariasy el CMA propuesto de forma independiente por Godard y Treichler et ál. para señalesmoduladas en cuadratura.

Casi de forma simultánea aparecieron algoritmos de deconvolución ciega basados enla minimización de la entropía para la recuperación de señales reales en el ámbito de lasmediciones sísmicas. En esa línea, Wiggins, Godfrey y Donoho sugirieron distintos crite-rios basados en la Teoría de la Información para lograr la deconvolución. Estos trabajosfueron extendidos por Shalvi y Weinstein al caso complejo SISO , y por Yellin, Inouye,Comon, Tugnait y Chi, entre otros, al caso MIMO.

De forma paralela fueron desarrollándose los primeros algoritmos de ICA para laBSS. El primer algoritmo fue propuesto por Jutten y Hérault y perseguía la cancelaciónde correlaciones cruzadas no lineales de las salidas. Desde el punto de vista de ML fue-ron propuestos algoritmos por diversos autores como Gaeta o Pham, mientras que Belly Sejnowski propusieron una aproximación desde el punto de vista de la maximizaciónde la transferencia de información en una red neuronal (Infomax). Algoritmos similaresal de Jutten y Hérault que mejoraban su comportamiento fueron propuestos por Cardoso

Page 84: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

68 3. Criterios y algoritmos previos

y Laheld (EASI) y por Cichocki et ál. Todos estos algoritmos fueron justificados y ge-neralizados por Amari et ál. proponiendo un contraste general basado en la divergenciade Kullback-Leibler entre la f.d.p. conjunta de las salidas y la f.d.p. conjunta de un con-junto de variables independientes, mostrando que en la elección de esta última f.d.p. estála diferencia entre los distintos criterios. Para la maximización del criterio Amari et ál.propusieron la utilización del gradiente natural (también llamado por Cardoso y Laheldgradiente relativo), que muestra ser la dirección de máximo ascenso en la función con-traste cuando la matriz de separación pertenece a un espacio dotado de una estructura deRiemann.

Por otra parte se desarrollaron algoritmos ICA basados en la maximización de HOS.Cardoso, Comon, y Lacoume y Ruiz propusieron contrastes basados en la kurtosis de lassalidas. Comon demostró que una suma de cuadrática de cumulantes de un cierto ordende las salidas es una función contraste. Este tipo de aproximaciones tiene la ventaja deevitar f.d.p. de referencia o no linealidades que deben ser ajustada para casos particulares,constituyendo una manera más general de resolver el problema de BSS mediante ICA.Numerosos autores han empleado los cumulantes de alto orden para desarrollar algorit-mos ICA.

También para BSE fue demostrado en diversos trabajos (por Delfosse y Loubaton,Cichocki et ál., Thawonmas et ál., etc.) que el módulo del cumulante de un cierto ordende la salida (o su cuadrado) es un contraste. Los métodos propuestos eran, generalmente,algoritmos de gradiente. Estos métodos suelen ser lentos y dependientes de la eleccióndel tamaño de paso. Para evitar este tipo de algoritmo Hyvärinen y Oja propusieron unalgoritmo de punto fijo que aceleraba la convergencia; el FastICA. Este algoritmo fueposteriormente extendido para la maximización de aproximaciones de la entropía negativa(por el propio Hyvärinen) y también para el caso complejo (por Bingham y Hyvärinen).

La maximización de aproximaciones de la entropía negativa mediante funciones nolineales surgió como alternativa a la utilización de cumulantes, con el objetivo de emplearcriterios menos sensibles a los outliers. Diversos trabajos se realizaron en ese sentido (co-mo los de Smaragdis, Malouche y Macchi, Sawada et ál., Anemüller et ál., Fiori o lospropios Bingham y Hyvärinen) presentando todos ellos el inconveniente de utilizar nolinealidades no analíticas, lo cual hace que e vean obligados a imponer restricciones adi-cionales. Por ello varios autores (Calhoun, Adalı y Novey, entre otros) han propuesto enlos últimos años criterios que utilizan funciones no lineales analíticas. Novey y Adalı hanpropuesto recientemente un criterio y un algoritmo cuasi-Newton (N-CMN) que presentabuenos resultados generales tanto para señales circulares como para las no circulares y,particularmente, con una cierta elección de la no linealidad, para señales de comunicacio-nes.

Page 85: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice 69

APÉNDICE A. CÁLCULO COMPLEJO

Una función F : C → C, dependiente de la variable u ∈ C, se dice que es diferenciableen un punto uo del conjunto abierto U ⊂ C si existe el límite ([Remmert91])

lımu→uo

F (u)− F (uo)

u− uo

. (3.94)

Una condición necesaria, aunque no suficiente, para la diferenciabilidad de una fun-ción en un punto son las ecuaciones de Cauchy-Riemann; si la función F (u) es diferen-ciable en uo entonces se cumple

∂<(F (u))

∂<(u)

∣∣∣∣∣uo

=∂=(F (u))

∂=(u)

∣∣∣∣∣uo

∂=(F (u))

∂<(u)

∣∣∣∣∣uo

= −∂<(F (u))

∂=(u)

∣∣∣∣∣uo

. (3.95)

En el plano complejo una función holomorfa en el conjunto U (diferenciable en cada unode sus puntos, lo cual implica que es infinitamente diferenciable en U) es una funciónanalítica (igual a su serie de Taylor). Además, toda función analítica es diferenciable, conlo cual es holomorfa. Es decir, las definiciones “función holomorfa” y “función analítica”son equivalentes en el caso complejo [Flanigan83].

Las condiciones de diferenciabilidad son bastante estrictas. Por ejemplo, la funciónf(u) = u∗ no es diferenciable, es decir, no es analítica. En general, cualquier funciónde u que dependa de u∗ es no analítica. Para evitar este obstáculo, que impide realizarel análisis de las funciones contraste para la deducción de los algoritmos, existen dosdefiniciones alternativas.

A.1 Aproximación mediante el cálculo real

La primera aproximación consiste en realizar una transformación C → R2 mediante lacual se hace corresponder u con el vector u<= = [<(u),=(u)]T. Esto implica que po-demos escribir F (u) = f(u<=) De este modo es posible definir una pseudo-derivada deF (u) como un gradiente utilizando el cálculo real

−→dF

du= ∇u<=f =

[∂f

∂<(u)∂f

∂=(u)

]. (3.96)

Pseudo-gradiente

Asimismo, para una función escalar compleja de variable compleja, F : CN → C, de-pendiente de la variable u = [u1, . . . uN ]T, se realiza la transformación CN → R2N

Page 86: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

70 3. Criterios y algoritmos previos

que hace corresponder u con u<= = [<(u1),=(u1), . . . ,<(uN),=(uN)]T, de manera queF (u) = f(u<=) y se puede definir el pseudo-gradiente como

∇<=F =

∂f∂<(u1)

∂f∂=(u1)

...∂f

∂<(uN )∂f

∂=(uN )

. (3.97)

Matriz pseudo-Jacobiana

De igual modo, para una función vectorial compleja, F : CN → CN , dependiente de lavariable u anteriormente definida, es posible definir una matriz pseudo-Jacobiana utili-zando el cálculo real,

JF(u) =

∂f1

∂<(u1)∂f1

∂=(u1). . . ∂f1

∂<(uN )∂f1

∂=(uN )...

... . . . ......

∂fN

∂<(u1)∂fN

∂=(u1). . . ∂fN

∂<(uN )∂fN

∂=(uN )

, (3.98)

donde F(u) = f(u<=) y f = [f1, . . . , fN ]T.

Inconvenientes

Esta aproximación tiene el inconveniente de conducir a expresiones redundantes, matricesestructuradas por bloque y la necesidad de de recurrir a simplificaciones que facilitan loscálculos.

A.2 Definición generalizada de la derivada compleja

Se puede realizar una definición alternativa mediante la transformación C → R × R quehace corresponder u con el par (<(u),=(u)), de manera que la función F : C → Cpuede expresarse como F (u) = f(<(u),=(u)). Por otro lado, es posible también hacerla transformación C → C× C que hace corresponder u con el par (u, u∗)., de modo queF (u) = g(u, u∗). En esas condiciones se puede demostrar que ([Brandwood83])

∂g

∂u=

1

2

(∂f

∂<(u)− j

∂f

∂=(u)

)∂g

∂u∗=

1

2

(∂f

∂<(u)+ j

∂f

∂=(u)

), (3.99)

donde j =√

1. Una propiedad que se deriva inmediatamente de estas expresiones es que(

∂g∗

∂u

)∗=

∂g

∂u∗. (3.100)

Page 87: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice 71

Nótese que estos resultados ya contienen las condiciones de Cauchy-Riemann. Másconcretamente, las condiciones de Cauchy-Riemann son equivalentes a ∂g/∂u∗ = 0. Enefecto, si se cumplen las condiciones de Cauchy-Riemann, entonces, puesto que F = f ,se cumple

∂<(f)

∂<(u)=

∂=(f)

∂=(u)

∂<(f)

∂=(u)= −∂<(f)

∂=(u), (3.101)

lo cual implica que ∂g/∂u∗ = 0. De igual modo, si ∂g/∂u∗ = 0 entonces se cumplenlas condiciones de Cauchy-Riemann. Luego si F (u) es una función analítica, g(u, u∗) nodepende de u∗, es decir, ∂g/∂u∗ = 0.

Regla de la cadena

Sea una función h (g(u, u∗)) : C × C → C. La derivada parcial de h con respecto a u

viene dada por la expresión ([Hjørungnes07a], [Remmert91])

∂h

∂u=

∂h

∂g

∂g

∂u+

∂h

∂g∗∂g∗

∂u=

=∂h

∂g

∂g

∂u+

(∂h∗

∂g

)∗∂g∗

∂u. (3.102)

Gradiente complejo generalizado

Sea una función g(u,u∗) : CN ×CN → C. Sea la función f(<u,=(u)) : RN ×RN → Ctal que g(u,u∗) = f(<(u),=(u)). El gradiente complejo generalizado de g se definecomo

∇u g = 2∂g

∂u∗=

(∂f

∂<(u)+ j

∂f

∂=(u)

), (3.103)

donde ∂g/∂u∗ = [∂g/∂u∗1, . . . , ∂g/∂u∗N ]T. De forma análoga es posible definir ∇u∗ g =

2 ∂g/∂u = 2 [∂g/∂u1, . . . , ∂g/∂uN ]T. Esta es la definición que utilizan algunos autores(véase, p. ej., [Haykin02], [Widrow75]). Otros autores emplean la definición ∇u g = ∂g

∂u∗

(p. ej., [Brandwood83], [vdB94], [Hjørungnes07a]).

Sea una función h (g(u,u∗)) : CN × CN → C. Según la regla de la cadena, elgradiente complejo de h viene dado por

∇u h =∂h

∂g∇u g +

∂h

∂g∗∇u g∗ =

=∂h

∂g∇u g +

(∂h∗

∂g

)∗∇u g∗ . (3.104)

Page 88: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

72 3. Criterios y algoritmos previos

Puntos críticos

Otra propiedad importante consiste en que, para una función F (u) = g(u, u∗) ∈ R, lospuntos críticos de dicha función vienen dados por aquellos puntos que cumplen ∂g/∂u =

0 o, de forma equivalente, ∂g/∂u∗ = 0. Del mismo modo, para una función F (u) =

g(u,u∗) ∈ R los puntos críticos vienen dados por aquellos puntos en los que ∇u g = 0 o,de forma equivalente, ∇u∗ g = 0 [Brandwood83]. Esto nos proporciona una herramientapara optimizar criterios de ICA.

Matrices Jacobianas complejas generalizadas

Sea una función g(u,u∗) : CN × CN → CN . Si g = [g1, . . . , gN ]TEs posible definir dosmatrices jacobianas complejas generalizadas ([Hjørungnes07a]):

Jg

(uT

) def=

∂g

∂uT=

∂g1

∂uT

...∂gN

∂uT

(3.105)

Jg

(uH

) def=

∂g

∂uH=

∂g1

∂uH

...∂gN

∂uH

. (3.106)

Matrices Hessianas complejas generalizadas

Sea una función g(u,u∗) : CN × CN → C. A partir de las definiciones para el gradientey para la matriz Jacobiana, se pueden definir cuatro matrices Hessianas diferentes para lafunción g [vdB94] [Hjørungnes07b]:

Hg

(u ,uT

)=

∂2g

∂u∂uT

Hg

(u ,uH

)=

∂2g

∂u∂uH

Hg

(u∗,uT

)=

∂2g

∂u∗∂uT

Hg

(u∗,uH

)=

∂2g

∂u∗∂uH. (3.107)

Método de Newton

Sea una función g(u,u∗) : C×C→ R. En ese caso es fácil comprobar que Hg

(u,uT

)=

Hg

(u∗,uH

)∗, que Hg

(u,uH

)= Hg

(u∗,uT

)∗ y que ∂g/∂u = (∂g/∂u∗)∗. El métodode Newton para encontrar los puntos críticos de la función g viene dado por la ecuación

Page 89: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice 73

matricial ([Li08])

Hg

(u∗,uT

)Hg

(u∗,uH

)

Hg

(u∗,uH

)∗Hg

(u∗,uT

)∗

u=u(i−1)

∆u

∆u∗

=

− ∂g

∂u∗

−(

∂g

∂u∗

)∗

u=u(i−1)

. (3.108)

Observando esta ecuación matricial podemos ver que las dos ecuaciones que la formanson idénticas. Es decir, el método de Newton viene dado por

Hg

(u∗,uT

) ∣∣∣u=u(i−1)

∆u + Hg

(u∗,uH

) ∣∣∣u=u(i−1)

∆u∗ − ∂g

∂u∗

∣∣∣∣u=u(i−1)

(3.109)

o, de forma equivalente,(Hg

(u∗,uT

)−Hg

(u∗,uH

) (Hg

(u∗,uT

)∗ )−1

Hg

(u∗,uH

)∗)

u=u(i−1)

∆u =

= − ∂g

∂u∗

∣∣∣∣u=u(i−1)

+

(Hg

(u∗,uH

) (Hg

(u∗,uT

)∗ )−1)

u=u(i−1)

(∂g

∂u∗

)∗ ∣∣∣∣u=u(i−1)

.(3.110)

Page 90: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 91: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Capítulo 4

Nuevos criterios y algoritmos de BSE

En este capítulo presentaremos los nuevos algoritmos que hemos propuesto para BSE. Porun lado proponemos un método general de maximización de funciones objetivo basadoen la optimización secuencial de distintos candidatos o posibles vectores de extracción.Este algoritmo fue inicialmente propuesto para la maximización de combinaciones decumulantes de alto orden (ThinICA) en [Cruces03] [Cruces04b] y modificado para el casocomplejo en [Durán03a] y [Durán07]. Presentamos ahora también una extensión (MNT)para la aplicación de este tipo de algoritmos a la maximización de la no Gaussianidadde la salida mediante aproximaciones de la entropía negativa que emplean funciones nolineales de la salida.

Por otra parte proponemos un nuevo criterio de BSE basado en propiedades geométri-cas. En esencia consiste en utilizar el soporte de la salida del sistema de extracción comofunción contraste para conseguir una de las fuentes independientes que se hallan presen-tes en las observaciones. Utilizando resultados de la Teoría de la Información mostramosque la entropía de Rényi de orden 0 de la salida (es decir, el logaritmo de la medida deLebesgue de su soporte) es un contraste para la extracción ciega de fuentes. De maneraalternativa, mostramos que la medida del recubrimiento convexo del soporte de la salidatambién es un contraste, con la ventaja de ser más fácilmente optimizable y de proporcio-nar un contraste más regular.

4.1 ALGORITMOS THINICA

En el contexto de ICA han sido propuestos en los últimos años diversos criterios de opti-mización conjunta basada en cumulantes alto orden. La importancia de combinar la infor-mación proporcionada por varios estadísticos de alto orden, como un medio de mejorarlos resultados del ICA ha sido puesta de relieve en [Moreau01, Comon04] entre otros. Enesta línea de trabajo proponemos un algoritmo capaz de optimizar una función contrasteempleando varios cumulantes de alto orden de la salida.

Page 92: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

76 4. Nuevos criterios y algoritmos de BSE

Recordemos que, tras el preblanqueo de las observaciones, la extracción de una delas fuentes presentes en la mezcla se realiza mediante la multiplicación del vector deobservaciones preblanqueadas, z por un vector de extracción unitario, u, de forma que lasalida resultante es y(k) = uHz(k).

Los algoritmos ThinICA persiguen la maximización de una función contraste de unamanera iterativa, en el sentido de que esta función se hace depender de la salida en unaiteración y en la anterior. De este modo, la dependencia del contraste con el vector de ex-tracción en cada iteración resulta ser cuadrática, lo cual disminuye la complejidad compu-tacional.

4.1.1 Maximización conjunta de cumulantes

El objetivo del algoritmo ThinICA es estimar una fuente independiente por medio de lamaximización de una suma cuadrática de cumulantes de la salida con órdenes r ∈ Ω ydefiniendo q = maxr ∈ Ω. La función contraste que corresponde con este objetivoviene dada por

ψΩ(y) =∑r∈Ω

αr |cumr (y(k))|2 subject to ‖u‖2 = 1. (4.1)

donde αr son coeficientes positivos. Para la aplicación de este tipo de algoritmos en ladetección de usuarios en sistemas CDMA utilizaremos Ω = 4, 6. Esto viene motivadoporque el cumulante de segundo orden ya es utilizado en el paso previo del preblanqueo yen la restricción ‖u‖2 = 1; los cumulantes de orden superior a 6 no pueden ser estimadoscon una gran precisión cuando se utilizan conjuntos reducidos de datos; y, por último, loscumulantes de orden impar son nulos para distribuciones simétricas como suelen ser lasseñales de comunicaciones digitales más habituales (p.ej., todas las M-PSK).

El problema que plantea este tipo de contraste consiste en la dificultad de la opti-mización de (4.1), que es altamente no lineal con respecto a u. Lo que proponemos esevitar esta dificultad a través de un contraste similar pero cuya dependencia con respectoa los posibles vectores de extracción es cuadrática, y, por lo tanto, mucho más fácil deoptimizar mediante métodos algebraicos.

Consideremos un conjunto de q posibles vectores de extracción u[1], . . . ,u[q], cadauno de ellos de norma 2 unidad. El correspondiente conjunto de salidas se denota pory = y[1](k), . . . , y[q](k). Definimos entonces la función multivariada

ψΩ(y) =∑r∈Ω

αr

(qr)

σ∈Γqr

∣∣cum((y[σ1](k))∗, · · · , (y[σr/2](k))∗,

y[σr/2+1], · · · , y[σr](k))∣∣2 (4.2)

donde αr > 0 y Γqr es el conjunto de todas las posibles combinaciones (σ1, · · · , σr) de los

elementos de 1, . . . , q tomados de r en r.

Page 93: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

4.1. Algoritmos ThinICA 77

Teorema 4.1. La función ψΩ(y), que es invariante con respecto a la permutación de susargumentos, alcanza su máximo en la extracción de una de las fuentes. En este extremotodas las salidas coinciden con una de las fuentes salvo por una constante compleja1,y[1](k)ejθ1 = · · · = y[q](k)ejθq = sj0(k).

Un esbozo de la demostración de este teorema fue presentado en [Cruces04b]. Sepuede encontrar asimismo una interpretación de este teorema en términos de una aproxi-mación de bajo rango (low-rank approximation) de un conjunto de tensores de cumulantesen [Lathauwer95].

La propiedad de invariancia de ψΩ(y) con respecto a permutaciones de sus argumentosnos permite describir la dependencia de la función con respecto a u[m] en la siguienteexpresión

φΩ(u[m]) =∑r∈Ω

αr

(qr)

ρ∈Γq−1r−1

∣∣cum((y[m](k))∗, (y[ρ1](k))∗, . . .

. . . , (y[ρr/2−1](k))∗, y[ρr/2], · · · , y[ρr−1](k))∣∣2 (4.3)

donde Γq−1r−1 es el conjunto de todas las posibles combinaciones (ρ1, · · · , ρr−1) de los

elementos de 1, . . . , m− 1,m + 1, . . . , q tomados de r − 1 en r − 1.Observemos que ahora la dependencia de la función contraste con respecto a cada uno

de los posibles vectores de extracción es cuadrática. Por lo tanto, ψΩ(y) puede ser maxi-mizada de forma cíclica con respecto a cada uno de los elementos u[m], m = 1, . . . , q,mientras los demás quedan fijos. En ese caso, en la iteración i-ésima se optimiza u[m] conm = (i mod q) + 1. Esto garantiza un ascenso monótono a través de las iteraciones, y,puesto que la función está acotada superiormente por su valor en la extracción de uno delos usuarios, el ascenso monótono garantiza también la convergencia a un máximo local,excepto por una posible (aunque extremadamente improbable) convergencia a un puntode silla. En cualquier caso, en comunicaciones, los cumulantes de las señales transmitidasson conocidos de antemano, de modo que es posible evaluar a priori el valor del máxi-mo global de la función contraste con el objetivo de comprobar, posteriormente, que laconvergencia se ha producido para una solución válida.

A pesar de que la aproximación anterior funciona bien, la velocidad de convergen-cia del algoritmo puede ser acelerada si, tras cada iteración, se proyecta cada uno delos candidatos en el subespacio simétrico que contiene la solución. Es decir, si forza-mos y[1](k) = · · · = y[q](k). Esta proyección sigue garantizando el ascenso monó-tono cuando la función contraste ψΩ(y) es una función convexa en el dominio convexo

1 Obsérvese que los factores de escala de las salidas con respecto a las fuentes tienen módulo unidad.Esto se debe a que hemos considerado que las fuentes tienen varianza unidad, lo cual puede hacerse sinpérdida de generalidad, puesto que los correspondientes escalados pueden ser absorbidos por la matriz demezcla.

Page 94: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

78 4. Nuevos criterios y algoritmos de BSE

1. Preblanqueo

z(k) = Wx(k)

1. Inicialización

u(0) = u0

y(0)(k) = uH0 z(k)

3. Iteración i-ésima

u(0) = u(i−1)

FOR l = 1 : L

d(l−1)y (r) =

(c

(i−1)zy (r)

)H

u(l−1)

u(l) =

∑r∈Ω

rqαrc

(i−1)zy (r)d

(l−1)y (r)∥∥∥∑

r∈Ωrqαrc

(i−1)zy (r)d

(l−1)y (r)

∥∥∥2

END

u(i) = u(L)

y(i)(k) =(u(i)

)Hz(k)

4. Convergencia

Si converge: FINSi no converge:

i ← i + 1

PASO 3

Tab. 4.1: Algoritmo ThinICA de maximización conjunta de cumulantes de alto orden para BSE.

S = u : ‖u‖2 ≤ 1, [Kofidis02]. Una ventaja adicional de esta proyección es que mejorala precisión en la estimación de los estadísticos involucrados, ya que, para constelacionescomo la QPSK, la simetría de los argumentos de los cumulantes generalmente reduce lavarianza de sus estimas.

Tras esta proyección ya no es necesario mantener la notación para todos los candida-tos a ser el sistema de extracción, puesto que serán todos iguales, por lo que sólo debe-mos distinguir entre el valor del posible vector de extracción que estamos optimizandoen la i-ésima iteración, u(i), y su valor en la iteración previa, u(i−1). Podemos observarentonces que la maximización cíclica de la función contraste con respecto a u[m] conm = (i mod q) + 1, es ahora equivalente a la maximización secuencial a través de las

Page 95: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

4.1. Algoritmos ThinICA 79

iteraciones, con respecto al vector de extracción u(i), de la función

φΩ(u(i)) =∑r∈Ω

r

qαr

∣∣cum((y(i)(k))∗, (y(i−1)(k))∗, . . .

. . . , (y(i−1)(k))∗, y(i−1), · · · , y(i−1)(k))∣∣2

= (u(i))HM(i−1)u(i) (4.4)

lo cual resulta de la simplificación de la ecuación (4.3). Obsérvese que M(i−1) es unamatriz que no depende de u(i) y que viene dada por

M(i−1) =∑r∈Ω

r

qαrc

(i−1)zy (r)

(c(i−1)zy (r)

)H, (4.5)

donde c(i−1)zy (r) está definido como

c(i−1)zy (r) = cum

(z(k), y(i−1)(k), · · · , y(i−1)(k),

(y(i−1)(k)

)∗, · · · ,

(y(i−1)(k)

)∗ ). (4.6)

En cada iteración, la maximización de φΩ(u(i)) se consigue buscando el autovector aso-ciado al autovalor dominante de la matriz M(i−1). Esto puede hacerse utilizando, porejemplo, el método de la potencia. Si consideramos L iteraciones de dicho método (en lapráctica L = 1 o 2 es suficiente), podemos obtener el algoritmo que se detalla en la tabla4.1.

4.1.2 Extensión de ThinICA para aproximaciones de la entropía negativa:algoritmo MNT

Los algoritmos ThinICA pueden ser extendidos para emplearlos en la maximización deaproximaciones de la entropía negativa en el plano complejo. Siguiendo el desarrollo delos algoritmos ThinICA para la maximización de combinaciones de cumulantes de altoorden hemos obtenido una generalización de este tipo de algoritmos para la maximizaciónde cualquier criterio de ICA que se utilice para la extracción ciega de una fuente.

Recordemos que, realizando un preblanqueo de las observaciones, los criterios basa-dos en aproximaciones de la entropía negativa consisten en la maximización de funcionesde la forma

JNeg(y) = hG − E[|G(y)|2] , (4.7)

sujeto a la restricción uHu = 1, donde hG es la entropía de una variable Gaussiana devarianza unidad, y G(y) es la no linealidad elegida para aproximar la f.d.p. de la fuentedeseada. Hemos utilizado aquí el tipo de no linealidades propuesto en [Novey08], ya queson más generales que aquellos que utilizan sólo la información de módulo de las fuentes

Page 96: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

80 4. Nuevos criterios y algoritmos de BSE

1. Preblanqueo

z(k) = Wx(k)

1. Inicialización

u(0) = u0

y(0)(k) = uH0 z(k)

3. Iteración i-ésima

u(i) =u(i−1)hG − E

[z

∣∣F (y(i−1)

)∣∣2 (y(i−1)

)∗]∥∥∥u(i−1)hG − E

[z |F (y(i−1))|2 (y(i−1))

∗]∥∥∥

y(i)(k) =(u(i)

)Hz(k)

4. Convergencia

Si converge: FINSi no converge:

i ← i + 1

PASO 3

Tab. 4.2: Algoritmo MNT para maximización de la no Gaussianidad mediante aproximaciones dela entropía negativa que utilizan funciones no lineales de la salida.

y, al ser analíticas, los algoritmo basados en ellas presentan un mejor convergencia, per-mitiendo, asimismo, aproximar un mayor número de fuentes, incluyendo aquellas que nopresentan simetría circular.

Si definimos la función F (y) = |y|2G(y), y, teniendo en cuenta que E[|y|2] = 1,podemos escribir (4.7) como

JNeg(y) =∣∣E [yy∗] hG − E

[y |F (y)|2 y∗

]∣∣ . (4.8)

Al igual que en la maximización de cumulantes, podemos considerar un conjunto decandidatos u[1], . . . ,u[q] para el vector de extracción. De forma análoga al caso de lamaximización de cumulantes, es posible entonces considerar la maximización secuencialde

JNeg(u(i)) =

∣∣∣E[y(i)

(y(i−1)

)∗]hG − E

[y(i)

∣∣F (y(i−1)

)∣∣2 (y(i−1)

)∗]∣∣∣ (4.9)

con respecto a u(i) para la extracción ciega de una fuente. Hemos tomado el móduloporque, en general, la expresión que está dentro es compleja. La salida está relacionadacon u(i) según la relación y(i)(k) = (u(i))H z(k). Sustituyendo esta expresión en (4.9)

Page 97: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

4.1. Algoritmos ThinICA 81

tenemos que la extracción de una fuente se consigue mediante la maximización de

JNeg(u(i)) =

∣∣∣(u(i)

)Hu(i−1)hG −

(u(i)

)HE

[z

∣∣F (y(i−1)

)∣∣2 (y(i−1)

)∗]∣∣∣=

∣∣∣(u(i)

)H(u(i−1)hG − E

[z

∣∣F (y(i−1)

)∣∣2 (y(i−1)

)∗])∣∣∣ , (4.10)

con respecto a u(i) sujeto a∥∥u(i)

∥∥2= 1. Según la desigualdad de Cauchy-Schwarz, el

vector que minimiza (4.10) es

u(i) =u(i−1)hG − E

[z

∣∣F (y(i−1)

)∣∣2 (y(i−1)

)∗]∥∥∥u(i−1)hG − E

[z |F (y(i−1))|2 (y(i−1))

∗]∥∥∥

. (4.11)

Por lo tanto, podemos llevar a cabo un algoritmo de maximización de la no Gaussianidadmediante iteraciones de tipo ThinICA (MNT) que, en cada iteración, asigna al vector deextracción el valor dado por (4.11), tal como se refleja en la tabla 4.2.

Obsérvese que si en (4.10) hubiésemos tomado módulo al cuadrado tendríamos unaexpresión análoga a (4.4) en la que la matriz M(i−1) por tendría un único autovalor nonulo igual al vector dado por (4.11).

4.1.3 Simulaciones

Con el objetivo de ilustrar el comportamiento de los algoritmos ThinICA, tanto para ma-ximización de combinaciones de cumulantes como para maximización de aproximacionesde la entropía negativa, hemos realizado una serie de simulaciones preliminares2. En ellashemos realizado mezclas de ocho fuentes presentes en doce observaciones. Las fuentesutilizadas han sido QPSK en unos casos y 8-PSK en otros. Sobre las observaciones hemosaplicado diversos algoritmos para la extracción ciega de fuentes, comparando así los re-sultados obtenidos para los algoritmos propuestos y para los algoritmos de BSE de señalescomplejas FastICA ([Bingham00]) y N-CMN ([Novey08]). Para el algoritmo ThiICA demaximización de combinaciones de cumulantes se han elegido los cumulantes de orden 4

y 6 con igual peso. Para el algoritmo ThinICA de maximización de una aproximación dela entropía negativa se ha empleado la no linealidad y1.25. Para el algoritmo FastICA se haempleado la no linealidad log(0.1 + |y|2), mientras que para el N-CMN se ha empleadoy1.25.

Como medida de la calidad de la extracción se ha utilizado el índice cuadrático deAmari [Amari96, Novey08] para extracción, normalizado para tomar valores entre 0 y 1

IA =1

N − 1

(N∑

j=1

|gj|2max

|g1|2 , . . . , |gN |2 − 1

), (4.12)

2 Independientemente de las que se presentarán en el capítulo 7. Allí se ilustra el comportamiento de losalgoritmos para la detección ciega de usuarios en CDMA, mientras que aquí evaluamos tan sólo la partecorrespondiente a ICA

Page 98: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

82 4. Nuevos criterios y algoritmos de BSE

donde gj son los elementos del vector global g definido como gH = uHWA. Para te-ner valores medios de esta medida se han realizado en cada caso 100 simulaciones deMontecarlo.

200 300 400 500 600 700 800−35

−30

−25

−20

Número de muestras

I A (

dB)

Fuentes QPSK

ThinICA C4, C

6

MNT y1.25

N−CMNFastICA

Fig. 4.1: Índice de calidad de Amari para la extracción frente a la longitud de los datos para fuentesQPSK. La SNR se mantiene fija a 20 dB.

10 20 30 40−55

−50

−45

−40

−35

−30

−25

−20

−15

SNR (dB)

I A (

dB)

Fuentes QPSK

ThinICA C4, C

6

MNT y1.25

N−CMNFastICA

Fig. 4.2: Índice de calidad de Amari para la extracción frente a la SNR. La longitud de las señaleses de 200 muestras.

En las figuras 4.1 y 4.2 se muestran los resultados para señales de tipo QPSK. En lafigura 4.1 se representa el índice de Amari frente la longitud de las señales, siendo la SNRde 20 dB. Comprobamos que, con pocas muestras, el FastICA pierde calidad con respectoa los otros tres algoritmos. En la figura 4.2 se representa la variación del índice de calidad

Page 99: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

4.1. Algoritmos ThinICA 83

con el ruido, manteniendo una longitud de las señales de 200 muestras. Como se puedever, para señales QPSK y pocas muestras los algoritmos propuestos presentan un mejorcomportamiento que se acentúa a medida que aumenta la SNR, especialmente por encimade 20 dB.

200 300 400 500 600 700 800−35

−30

−25

−20

Número de muestras

I A (

dB)

Fuentes 8−PSK

ThinICA C4, C

6

MNT y1.25

N−CMNFastICA

Fig. 4.3: Índice de calidad de Amari para la extracción frente a la longitud de los datos para fuentes8-PSK. La SNR se mantiene fija a 20 dB.

10 20 30 40−55

−50

−45

−40

−35

−30

−25

−20

−15

SNR (dB)

I A (

dB)

Fuentes 8−PSK

ThinICA C4, C

6

MNT y1.25

N−CMNFastICA

Fig. 4.4: Índice de calidad de Amari para la extracción frente a la SNR para fuentes 8-PSK. Lalongitud de las señales es de 200 muestras.

Las figuras 4.3 y 4.4 muestran los resultados para simulaciones similares a las ante-riores realizadas con fuentes de tipo 8-PSK. En la figura 4.3 se representa el índice decalidad frente a la longitud de las señales para una SNR de 20 dB. De nuevo los algorit-mos ThinICA tanto para maximización conjunta de cumulantes como para maximización

Page 100: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

84 4. Nuevos criterios y algoritmos de BSE

de funciones no lineales presenta mejores resultados que el FastICA y el N-CMN paraconjuntos reducidos de datos, mostrando todos los algoritmos un comportamiento simi-lar para longitudes de datos más elevadas. En la figura 4.4 se representa la variación delíndice de calidad con el ruido, para una longitud de datos de 200 muestras. Como en elresto de simulaciones, los algoritmos ThinICA son, claramente, los que presentan un me-jor comportamiento, acentuándose las diferencias con respecto a los otros dos algoritmosa medida que aumenta la SNR.

Por lo tanto, hemos desarrollado un algoritmo general (ThinICA) para la extracciónciega de fuentes cuyo comportamiento supera el de dos algoritmos destacados como FastI-CA y N-CMN para señales que son de nuestro interés, es decir, señales de comunicacionesy para conjuntos reducidos de datos. Las ventajas de los algoritmos ThinICA consisten enque garantizan una mejor convergencia y que simplifican los cálculos con respecto a otrosalgoritmos, al realizarse una maximización de una función que tiene una dependenciacuadrática con el argumento.

4.2 CRITERIO DE MÍNIMO SOPORTE PARA LA EXTRACCIÓN CIEGA DESEÑALES

El estudio de los métodos de Extracción Ciega de Señales (BSE) nos ha llevado al desa-rrollo de un nuevo criterio de BSE basado en el soporte de las variables que componen losprocesos aleatorios. El objetivo es resolver el problema de la BSE de un subconjunto deseñales independientes “de interés” a partir de una mezcla lineal e instantánea. El nuevocriterio persigue la extracción de las fuentes cuya densidad tiene un soporte mínimo.

Si extendemos la definición de las entropías de Rényi incluyendo el caso de ordencero, este criterio puede considerarse como parte de un principio más general de minimi-zación de entropía.

Como es sabido, las entropías de Rényi proporcionan funciones contraste para la ex-tracción de fuentes independientes e idénticamente distribuidas bajo una restricción denorma infinita aplicada a la matriz global. El método propuesto proporciona cotas in-feriores más ajustadas para la entropía de orden cero de Rényi, y, contrariamente a losresultados existentes, permite la extracción incluso cuando las fuentes no son idéntica-mente distribuidas. Otra característica interesante es que es robusto frente a la presenciade ciertos tipos de ruido aditivo y outliers en las observaciones.

Generalmente los criterios para resolver los problemas de ICA son expresados mate-máticamente como una optimización de funciones contraste con determinadas propieda-des específicas. Varios matemáticos y geofísicos propusieron este tipo de criterios pararesolver el problema de la deconvolución ciega [Godfrey78], [Donoho81]. Desde sus orí-genes el campo del ICA ha enfatizado la importancia de los contrastes basados en la

Page 101: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

4.2. Criterio de mínimo soporte para la extracción ciega de señales 85

teoría de la información como criterios dirigidos a resolver el problema de la BSE (ver[Comon94], [Principe00], [Blanco03], [Cruces04a] y sus referencias). Asimismo, nume-rosos trabajos explotan alguna propiedad geométrica de las fuentes en el diseño de lasfunciones contraste, como es el caso de [Talwar96], [vdV96], [Gamboa97], [Puntonet98],[Pham00], [Vrins05].

Presentamos aquí un nuevo criterio ICA para la extracción basado en la minimiza-ción de la medida del conjunto soporte (o de su recubrimiento convexo) de la función dedensidad de probabilidad de la salida. Estos resultados están publicados en [Cruces04c].

Consideremos el modelo de mezcla lineal e instantánea con un número de observa-ciones igual al de fuentes, N . El vector que representa el proceso aleatorio de las deobservaciones X(k) = [X1(k), · · · , XN(k)]T obedece a la ecuación

X(k) = AS(k), (4.13)

donde S(k) = [S1(k), · · · , SN(k)]T es el vector que representa al proceso aleatorio de lasN componentes independientes, y A = [a1, . . . , aN ] ∈ RN×N es la matriz de mezclas.

Con el objetivo de extraer una fuente no-Gaussiana a partir de la mezcla, se realizael producto interno de las observaciones por el vector de extracción b, para obtener elproceso aleatorio de salida o fuente estimada

Y = bTX = gTS , (4.14)

donde gT = bTA denota el vector global del proceso desde las fuentes hasta la salida.

4.2.1 Revisión de los resultados existentes

A finales de los años 70 varios matemáticos mejoraron la desigualdad de convolución deYoung con constantes ajustadas. De estos trabajos resultaron las siguientes desigualdadesajustadas [Gardner02].

Teorema 4.2 (Desigualdad ajustada de Young). Supongamos que 0 < p, q, r satisfacen1r

= 1p+ 1

q− 1, y sean f ∈ Lp(R) y g ∈ Lq(R) dos funciones no-negativas pertenecientes

a los espacios de Lebesgue para las normas p y q respectivamente. Entonces

Desigualdad de Young Desigualdad de Young inversa

‖f ∗ g‖r ≤ C1/2‖f‖p‖g‖q ‖f ∗ g‖r ≥ C1/2‖f‖p‖g‖q

para p, q, r ≥ 1, para 0 < p, q, r ≤ 1.

(4.15)

donde C = CpCq/Cr, Cα = |α|1/α

|α′|1/α′ , para 1/α + 1/α′ = 1 y f ∗ g denota la convoluciónde las funciones f y g.

Page 102: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

86 4. Nuevos criterios y algoritmos de BSE

Denotemos la función de densidad de probabilidad de la salida Y como pY (y). Unade las posibles generalizaciones de la entropía de Shannon viene dada por las entropíasde Rényi de orden r [Cover91]

hr(Y ) =1

1− rlog

[∫pr

Y (y)dy]

for r ∈ (0, 1) ∪ (1,∞). (4.16)

Se pueden extender las entropías de Rényi considerando los dos casos límite

hr(Y ) =

log(µy : pY (y) > 0) para r = 0,

− ∫pY (y) log pY (y)dy para r = 1,

(4.17)

donde µ· denota la medida de Lebesgue del conjunto soporte de la función de densidadde probabilidad [Rudin87].

Para ciertos órdenes las entropías de Rényi pueden evitar las dificultades que surgenen la estimación de la entropía de Shannon. La entropía cuadrática de Rényi (r = 2)es uno de estos casos, puesto que puede ser fácilmente optimizada cuando se combinacon estimadores de la función de densidad de probabilidad basados en funciones kernel[Principe00]. Dos trabajos recientes [Bercher02, Erdogmus02] proponen la minimizaciónde la entropía cuadrática de Rényi para resolver el problema de la deconvolución ciega.De manera independiente llegan a la misma desigualdad para la extracción de fuentesi.i.d., que puede resumirse en el siguiente lema.

Lema 4.1 (Cota inferior existente). Sean S1, . . . , SN N fuentes independientes y no-Gaussianas, distribuidas idénticamente a S. Entonces la entropía de orden r de Rényide cualquier combinación lineal (Y = gTS) de ellas está acotada inferiormente por

hr(Y ) ≥ hr(‖g‖∞S). (4.18)

La igualdad ocurre si y sólo si gj = ‖g‖∞δij, para j = 1, . . . , N , y para cualquieri ∈ [1, N ] dado (donde δ denota la delta de Kronecker).

En [Erdogmus02] se utilizan la definición de la entropía de Rényi y la desigualdadde Jensen para demostrar este lema, mientras que en [Bercher02], la demostración desus autores está basada en la desigualdad ajustada de Young para la siguiente elecciónespecífica de los parámetros: q = 1 y r = p. Nosotros centramos nuestra atención enaquellos casos de la desigualdad de Young para los cuales r, p y q coinciden. Es decir,cuando r = p = q = 1 y también (tomando límites) cuando r = p = q = 0.

4.2.2 Criterios de mínima entropía y mínimo soporte

Para dos variables independientes A y B, la super-aditividad de la función

Page 103: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

4.2. Criterio de mínimo soporte para la extracción ciega de señales 87

e(1+r)hr(A+B) ≥ e(1+r)hr(A) + e(1+r)hr(B), r = 0, 1. (4.19)

resulta de la desigualdad ajustada de Young [Cover91]. Para r = 1, esta ecuación es ladesigualdad de potencia de entropía. Excluyendo el caso trivial sin mezcla, la igualdad escierta si y sólo si A y B son variables aleatorias Gaussianas.

Para r = 0, la función e(1+r)hr(A) coincide con la medida del conjunto soporte de lafunción de densidad de probabilidad de A. En este último caso, la ecuación (4.19) es ladesigualdad de Brunn-Minkowski. Puesto que esta ecuación sólo es significativa cuandolos conjuntos soportes de las densidades de A y B tienen una medida finita de Lebesgue,en adelante, cuando nos refiramos a la entropía de orden cero implícitamente estaremosasumiendo que las densidades de las fuentes tienen un soporte medible y no nulo. Bajoestas condiciones, la igualdad en (4.19) sólo se obtiene cuando los conjuntos soporte de lasdensidades pA(a) y pB(b) son convexos y homotéticos, es decir, iguales salvo traslacionesy dilataciones [Schneider93].

El siguiente teorema se utiliza para acotar inferiormente las entropías de la salida (deórdenes 0 y 1) en términos de las entropías respectivas de las fuentes.

Teorema 4.3. Sea Y = gTS. Entonces para r = 0, 1, ∀ m ∈ N+, k = (1 + r)m, unacota inferior de la entropía de orden r de la salida viene dada por

hr(Y ) ≥N∑

j=1

∣∣∣∣gj

‖g‖k

∣∣∣∣k

hr(‖g‖kSj) (4.20)

Demostración. La prueba de este teorema está basada en la siguiente cadena de desigual-dades

hr(Y )(a)

≥ 1

(1 + r)mlog

(N∑

j=1

|gj|1+re(1+r)hr(Sj)

)m

,

r ∈ 0, 1, m ∈ N+. (4.21)(b)

≥ 1

klog

N∑j=1

|gj|kekhr(Sj), k = (1 + r)m. (4.22)

(c)

≥N∑

j=1

∣∣∣∣gj

‖g‖k

∣∣∣∣k

hr(‖g‖kSj) (4.23)

La desigualdad (a) resulta de la super-aditividad de la función e(1+r)hr(Y ) para los órdenesconsiderados, como se muestra en la ecuación (4.19). Entre (4.21) y (4.22) existe igualdad

Page 104: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

88 4. Nuevos criterios y algoritmos de BSE

para m = 1 y desigualdad estricta para m > 1. Cuanto mayor es m más holgada es ladesigualdad. Por último la desigualdad (c) resulta de la concavidad estricta del logaritmo.

Denotaremos por g(j)∗ a cualquier solución del vector g = ATb que extraiga la j-

ésima fuente. Es decir, que para cualquier j ∈ [1, N ] cumpla

g(j)∗ = [0, . . . , 0, aT

j b︸︷︷︸j-ésimaposición

, 0, . . . , 0]T . (4.24)

donde |aTj b| = ‖g(j)

∗ ‖k 6= 0 para cualquier norma k.La minimización de la parte derecha de (4.20) con respecto a los índices de las fuentes

conduce a los dos siguientes corolarios.

Corolario 4.1 (Mínima entropía). Sea Ω1 el conjunto de índices de las fuentes con unaentropía de Shannon mínima

Ω1 = j : j = arg mıni=1,...,N

h1(Si).

Para m ∈ N+ y k = 2m, se hace cierta la siguiente desigualdad

h1(Y ) ≥ h1(‖g‖kSj) j ∈ Ω1, (4.25)

y el valor mínimo de h1(Y ) sólo se alcanza en la extracción de una de las fuentes conmínima entropía. Es decir, para g = g

(j)∗ , ∀j ∈ Ω1.

Corolario 4.2 (Mínimo soporte). Sea Ω0 el conjunto de índices de las fuentes cuyas den-sidades tienen conjunto soporte con una medida mínima

Ω0 = j : j = arg mıni=1,...,N

h0(Si).

Para k ∈ N+, se hace cierta la siguiente desigualdad

h0(Y ) ≥ h0(‖g‖kSj) j ∈ Ω0, (4.26)

donde la cota inferior más ajustada se obtiene para k = 1, y la más holgada para k = ∞.Para k > 1 el mínimo de h0(Y ) sólo se alcanza en la extracción de una de las fuentescon mínimo soporte. Es decir, para g = g

(j)∗ , ∀j ∈ Ω0.

La cota más ajustada para el corolario 4.1 se obtiene para la norma cuadrática, queconduce al conocido criterio de mínima entropía [Donoho81, Cruces04a] bajo la restric-ción de norma cuadrática unidad en g. Otras normas proporcionan cotas más relajadas,

Page 105: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

4.2. Criterio de mínimo soporte para la extracción ciega de señales 89

−1 0 1

0

0.5

1

1.5

2

2.5

ANGLE

h 0(Y)

h0(Y)

k=1Solution

−1 0 1

0

0.5

1

1.5

2

2.5

ANGLE

h 0(Y)

h0(Y)

k=2Solution

−1 0 1

0

0.5

1

1.5

2

2.5

ANGLE

h 0(Y)

h0(Y)

k=3Solution

−1 0 1

0

0.5

1

1.5

2

2.5

ANGLEh 0(Y

)

h0(Y)

k=infSolution

Fig. 4.5: Entropía de Rényi de orden cero (línea continua) y cota inferior (línea de puntos) bajodiferentes restricciones de igualdad de norma k. La matriz de mezcla es A = [2, 1;−2, 1]y, en las figuras, el eje de abscisas representa el ángulo atan

(b2b1

)del vector bT = [b1, b2].

pero algunas de ellas son más fáciles de imponer cuando existe un ruido aditivo Gaussianoen la mezcla.

En el corolario 4.2, la cota más ajustada se obtiene para la norma 1. A pesar de quepara la norma 1, la igualdad en (4.26) se puede dar para soluciones que no conllevan laextracción, esto sólo puede suceder si todas las contribuciones no nulas (gjSj 6= 0) de lasalida Y tienen soporte convexo y un valor común de h0(gjSj).

A partir de los corolarios es evidente que los criterios para extracción ciega de señalesse obtienen minimizando hr(Y ) (r = 0, 1), bajo la restricción de igualdad de norma k

‖g‖k = 1. La figura 4.5 ilustra esta situación para k ∈ 1, 2, 3,∞ y con fuentes dediferentes soportes. Aunque este método parece funcionar, es difícil de llevar a cabo,porque en la práctica no conocemos el vector g. Otra alternativa consiste en forzar lassiguientes restricciones de desigualdad de noma k

‖g‖k ≥ 1, con ‖g‖k = 1 para g = g(j)∗ ∀j ∈ Ωr. (4.27)

estas restricciones son más útiles para la implementación práctica, puesto que puedenser impuestas normalizando el cumulante de orden k de la salida, como ilustran la figura4.6 y el siguiente lema.

Lema 4.2 (Normalización). Definamos la posición (o el escalado) de cada fuente demodo que el módulo del cumulante de orden k ( k ∈ N+) esté acotado superiormente por

Page 106: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

90 4. Nuevos criterios y algoritmos de BSE

−1 0 14

5

6

7

8

9

10

ANGLE

h 0(Y)

h0(Y)

k=1Solution

−1 0 11

1.5

2

2.5

ANGLE

h 0(Y)

h0(Y)

k=2Solution

−1 0 12

2.5

3

3.5

4

4.5

5

ANGLE

h 0(Y)

h0(Y)

k=3Solution

−1 0 1

1

1.5

2

2.5

3

ANGLEh 0(Y

)

h0(Y)

k=4Solution

Fig. 4.6: Entropía de Rényi de orden cero de la salida y cota inferior bajo la normalización descritaen el lema 4.2. Las observaciones fueron formadas a partir de una mezcla de dos fuentesmediante la matriz A = [2, 1;−2, 1]. A partir de las figuras se puede observar que elmínimo de la entropía de orden cero de Rényi (es decir, el mínimo soporte de la salida),coincide con la extracción de una de las fuentes.

1, e igual a 1 para las fuentes que pertenecen al conjunto Ωr

|cumk(Sj)| ≤ 1,∀j = 1, . . . , N ; con igualdad si j ∈ Ωr. (4.28)

Entonces, la normalización del módulo del cumulante de orden k de la salida (|cumk(Y )|= 1) fuerza de modo automático las restricciones de la ecuación (4.27).

Para el criterio de mínimo soporte se puede obtener una normalización implícita de‖g‖1 simplemente imponiendo la restricción de que el vector de extracción b tenga normacuadrática 1. El Teorema 4.4 enuncia este resultado.

Teorema 4.4 (Normalización implícita). Bajo la restricción ‖b‖2 = 1, la entropía deorden cero de la variable aleatoria de salida Y = bTX está acotada inferiormente por

h0(Y ) ≥ mınj

h0(‖g(j)∗ ‖1Sj) s.t. ‖b‖2 = 1, (4.29)

donde g(j)∗ está definida en (4.24). El mínimo sólo se alcanza en las soluciones que impli-

can la extracción g = g(j)∗ y cuyos índices pertenecen al conjunto

Ω′ = j : j = arg mıni=1,...,N.

h0(g∗iSi). (4.30)

Page 107: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

4.2. Criterio de mínimo soporte para la extracción ciega de señales 91

El siguiente lema presenta una extensión de este resultado basado en el recubrimientoconvexo. Recordemos que el recubrimiento convexo de un conjunto de puntos denota elmenor conjunto convexo que contiene a dicho conjunto de puntos [Preparata85].

Lema 4.3. El Corolario 4.2 y el Teorema 4.4 siguen siendo válidos cuando la entropíade Rényi de orden cero (el logaritmo de la medida del conjunto soporte) es reemplazadopor el logaritmo de la medida del recubrimiento convexo del conjunto soporte.

h0(Y ) = log µ(y : pY (y) > 0) 99K log µ(convy : pY (y) > 0) . (4.31)

Demostración. La demostración es sencilla, porque ambas cantidades coinciden bajo lahipótesis de que las fuentes tienen un soporte compacto y convexo, por lo que el Corolario4.2 y el Teorema 4.4 son también aplicables a ellas.

Vrins et ál. demostraron que no existen mínimos locales que no sean solución al pro-blema de la extracción cuando se utiliza el recubrimiento convexo del soporte [Vrins05].La principal ventaja de utilizar el recubrimiento convexo es que la función contraste sehace más regular y fácil de optimizar. En ausencia de ruido el recubrimiento convexo dela observación es un politopo convexo cuyos límites son coincidentes con las columnasdel sistema de mezcla.

La presencia de ruido aditivo puede destruir la conexión entre las columnas del siste-ma de mezcla y los límites, pero las direcciones originales de los límites son preservadascuando el ruido tiene una función de densidad de probabilidad de soporte compacto y uncomportamiento isótropo en todas las direcciones. Es decir, cuando la f.d.p. es invariantefrente a rotaciones alrededor de su media. Este tipo de ruido se encuentra habitualmenteen los problemas prácticos, por lo que la inmunidad a dicho ruido es una característicainteresante de la función contraste propuesta. Es más, se puede obtener una robustez adi-cional frente a outliers definiendo ciertos umbrales de contigüidad mínima, o densidadmínima, para la inclusión de un punto de la observación dentro del conjunto soporte.

4.2.3 Simulaciones

En esta sección mostramos los resultados de dos simulaciones diferentes realizadas parala verificación del comportamiento teórico del nuevo criterio de extracción. La primerade ellas ilustra acerca del potencial del criterio de mínimo soporte para la extracciónde fuentes en presencia de ruido. La segunda muestra una implementación práctica delalgoritmo de extracción para mezclas de más de dos fuentes.

En la primera simulación mezclamos 500 muestras de una señal binaria y una unifor-me a través de una matriz de mezcla aleatoria. Las observaciones X = AS + N fueronobtenidas en presencia de un fuerte ruido aditivo acotado N, y cuya densidad conjunta era

Page 108: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

92 4. Nuevos criterios y algoritmos de BSE

−5 0 5

−5

0

5

X1(t)

X2(t

)

−5 0 5

−5

0

5

Y1(t)

Y2(t

)

−5 0 5

−5

0

5

Y1(t)

Y2(t

)

−5 0 5

−5

0

5

YS1

(t)

YS

2(t)

Fig. 4.7: Extracción de una fuente binaria y uniforme en presencia de ruido isótropo y acotado.La primera y segunda figuras muestran, respectivamente, el diagrama de puntos de lasobservaciones y de la señales recuperadas. La tercera figura muestra como el ruido incre-menta, en todas las direcciones por igual, el soporte de las observaciones. En la cuartafigura, que presenta el diagrama de puntos de las componentes de señal a la salida, pode-mos observar que la proyección de mínimo soporte conduce a la extracción de la fuentebinaria.

isótropa en todas las direcciones. La relación señal a ruido (SNR) en las observacionesera de 0 dB. Elegimos el vector b para el cual el recubrimiento convexo del soporte de lasalida Y = bTX era mínimo. El mínimo condujo a la extracción de la fuente binaria conun vector de mezcla global de

g = [1.00, 0.03]T .

Los resultados de esta simulación se muestran en la figura 4.7.En la segunda simulación consideramos sólo 150 muestras de diez señales binarias y

las mezclamos en presencia de ruido aditivo blanco y Gaussiano con una SNR máxima de10 dB. El problema fue resuelto de manera iterativa. Utilizando una secuencia cíclica derotaciones planares ortogonales de Jacobi de las observaciones minimizamos el soportedel recubrimiento convexo de la salida. Tras 60 iteraciones el algoritmo convergió a unvector global de mezcla de

g = [0.08, 0.04, −0.01, −0.04, 0.03, 0.02, 0.01, −0.99, 0.10, 0.07]T,

y una de las señales binarias fue extraída. El índice de Amari correspondiente resulta serde −25.3 dB.

4.3 CONCLUSIONES

Hemos propuesto nuevos criterios y algoritmos de BSE. Los algoritmos ThinICA paraoptimización conjunta de cumulantes de alto orden y para maximización de aproximacio-nes de la entropía negativa basan su buen comportamiento en un método de descenso queasegura una mejor convergencia simplificando asimismo los cálculos, puesto que, en cada

Page 109: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

4.3. Conclusiones 93

iteración, la función a maximizar tiene una dependencia cuadrática con respecto al vectorde extracción. Estos algoritmos fueron inicialmente propuestos para la maximización decombinaciones de cumulantes de alto orden (en la práctica se utilizan los cumulantes deorden 4 y 6). Los algoritmos ThinICA se basan en considerar distintos posibles vectoresde extracción y utilizar como función contraste una combinación de cumulantes cruzadosde todas las posibles salidas, de modo que la maximización se puede realizar de formacíclica con respecto a cada uno de los posibles vectores de extracción, lo cual proporcionauna dependencia cuadrática con respecto a cada uno de ellos.

Utilizando el procedimiento seguido por los algoritmos ThinICA, hemos propuesto unnuevo método para la maximización secuencial de criterios basados en aproximacionesde la entropía negativa mediante el uso de funciones no lineales. Este tipo de criterios yahabían sido propuestos por otros autores (p. ej., en [Bingham00] y [Novey08]), pero em-pleando algoritmos de gradiente (lo cual hace que la convergencia sea lenta y dependientedel tamaño de paso) o cuasi-Newton (que no garantizan la convergencia) Por otro ladolos algoritmos cuasi-Newton empleaban varias aproximaciones para la maximización delos criterios, lo cual puede llevar a un punto de convergencia algo distante del óptimo.El nuevo método propuesto presenta una convergencia mejor y al mismo nivel que losalgoritmos ThinICA inicialmente propuestos, con lo que hemos conseguido un métodode optimización, el ThinICA, aplicable tanto a criterios basados en cumulantes como aaquellos basados en no linealidades para maximización de la no Gaussianidad.

Hemos presentado, asimismo, un nuevo criterio para la extracción ciega de señalescuyas densidades tienen soporte compacto. El nuevo criterio, con raíces en la teoría de lainformación y la geometría, consiste en la extracción de la fuente que minimiza la medidadel soporte de la densidad de la salida (o de su recubrimiento convexo). Empleando lapropiedad de super-aditividad de funciones exponenciales de la entropía de Rényi paralas extensiones de orden 0 (logaritmo de la medida del soporte) y 1 (entropía de Shan-non), demostramos que, forzando que el vector de extracción tenga norma-2 unitaria, laminimización de la medida del recubrimiento convexo del soporte de la salida conduce ala extracción de la fuente de mínimo soporte. El criterio ha mostrado ser robusto frente ala existencia de fuertes niveles de ruido aditivo isótropo y compacto en las observaciones,una novedosa e interesante característica. Recientemente este trabajo ha sido extendido ygeneralizado en [Cruces07], donde se presenta un algoritmo de separación y extracciónciega de fuentes complejas acotadas (Bounded Component Analysis, BCA). En el capítulode simulaciones emplearemos dicho algoritmo de BCA para la detección de usuarios ensistemas CDMA.

Page 110: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

94 4. Nuevos criterios y algoritmos de BSE

APÉNDICE A. EVALUACIÓN DE CUMULANTES Y CUMULANTES CRUZA-DOS

En este apéndice mostramos cómo evaluar los cumulantes de la salida en un problema deBSE, lo cual es necesario para la implementación del algoritmo ThinICA para maximiza-ción conjunta de cumulantes. Una forma sencilla es escribir los cumulantes en términosde los momentos de la salida, empleando para ello la siguiente expresión (see [Nikias93])

cum(y1, y2, . . . , yn) =∑

(p1,...,pm)

(−1)m−1(m− 1)! · E[∏i∈p1

yi]E[∏i∈p2

yi] . . .

. . . E[∏i∈pm

yi] , (4.32)

donde la suma se extiende a todas las posibles particiones (p1, . . . , pm), m = 1, · · · , n,del conjunto de números naturales incluidos en (1, . . . , n).

Este cálculo tiene una complejidad pequeña para órdenes bajos, pero la complejidadse incrementa rápidamente a medida que aumenta el orden. En el caso de los algoritmosde deconvolución ciega e ICA muchas de las particiones desaparecen (ya que se trabajacon señales de media cero) o dan lugar al mismo conjunto, debido a la simetría en losargumentos de lo cumulantes. Esto hace que el cálculo se simplifique considerablemente.A continuación mostramos los cumulantes de la salida de orden r para r ∈ 2, 4, 6, enfunción de los momentos

cum2(y)def= cum(y∗, y) = E[|y|2] (4.33)

cum4(y)def= cum(y∗, y∗, y, y) = E[|y|4]− 2(E[|y|2])2 −

−E[y2]E[(y∗)2] (4.34)

cum6(y)def= cum(y∗, y∗, y∗, y, y, y) = E[|y|6]− 9E[|y|4]E[|y|2] +

+12(E[|y|2])3 − 3E[y3y∗]E[(y∗)2]− 3E[y(y∗)3]E[y2]−−9E[y2y∗]E[y(y∗)2] + 18E[y2]E[(y∗)2]E[|y|2] . (4.35)

Un caso especial se produce cuando se trabaja con señales de simetría circular. Estees el caso de ciertas señales de comunicaciones, como las constelaciones M-PSK. En esecaso E[y2] = 0, por lo que varios de los términos desaparecen y el cálculo se simplifica,resultando las siguientes expresiones

cum2(y) = E[|y|2] (4.36)

cum4(y) = E[|y|4]− 2(E[|y|2])2 (4.37)

cum6(y) = E[|y|6]− 9E[|y|4]E[|y|2] + 12(E[|y|2])3 , (4.38)

cuyos gradientes complejos

∇b cumr(y) = r czy(r) , (4.39)

Page 111: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice 95

son proporcionales a los siguientes vectores de cumulantes cruzados

czy(2)def= cum(z, y∗) = E[zy∗]

czy(4)def= cum(z, y, y∗, y∗) = E[zy∗|y|2]− 2E[zy∗]E[|y|2]

czy(6)def= cum(z, y, y, y∗, y∗, y∗) = E[zy∗|y|4]− 6E[zy∗|y|2]E[|y|2]−

−3E[zy∗]E[|y|4] + 12E[zy∗](E[|y|2])2 . (4.40)

Page 112: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 113: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Capítulo 5

Acceso Múltiple por División de Código

En este capítulo se describe la técnica CDMA de espectro ensanchado para la gestión delacceso múltiple en sistemas de comunicaciones inalámbricas. Detallaremos el modelo deseñal transmitida y recibida y los detectores clásicos más conocidos. Asimismo hacemosuna breve presentación de los detectores ciegos, entre los cuales se encuentran los queemplean la deconvolución ciega o el análisis de componentes independientes.

5.1 ESPECTRO ENSANCHADO

El Acceso Múltiple por División de Código (Code Division Multiple Access, CDMA) esuna técnica cada vez más utilizada en los sistemas de comunicaciones por radio, com-plementando o sustituyendo a otras técnicas de acceso múltiple como la División de Fre-cuencia (Frequency Division Multiple Access, FDMA) o la División de Tiempo (TimeDivision Multiple Access, TDMA) [Verdú98, Madhow98, Sari00]. La técnica de accesoCDMA tiene la principal ventaja de que todos los usuarios pueden realizar transmisionesen cualquier instante y en la misma banda de frecuencias. Estas mismas característicashacen que en los sistemas que emplean CDMA exista una interferencia entre los distintosusuarios debido a la propia estructura de los mismos. Por lo tanto, uno de los aspectosmás interesantes de dichos sistemas es la supresión de interferencias, tanto entre símbo-los (interferencia inter-símbolos o Inter-Symbol Interference, ISI) como entre usuarios(interferencia por multi-acceso o Multi-Access Interference, MAI).

En el enlace ascendente aparecen otros dos efectos que dificultan la detección delusuario deseado: el asincronismo entre los distintos usuarios y el problema de near-far(o cerca-lejos). El asincronismo consiste en que los usuarios comienzan a transmitir eninstantes de tiempo diferentes. El problema de near-far aparece cuando la contribución deun usuario interferente llega al receptor con una potencia mucho mayor que la del usuariodeseado. Esto puede deberse tanto a la potencia con que transmite cada usuario como alhecho de que los canales en el enlace ascendente son distintos. El problema de near-far

Page 114: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

98 5. Acceso Múltiple por División de Código

Fig. 5.1: Mientras en TDMA y en FDMA existen intervalos de tiempo y bandas de frecuencia(respectivamente) no utilizados por el usuario, en CDMA este utiliza toda la banda delcanal y todo el tiempo para la transmisión.

suele ser a menudo una limitación para los métodos de detección que se utilizan en elreceptor. Estos dos problemas ocurren solamente en el enlace ascendente, puesto que, enel descendente, las contribuciones de todos los usuarios son transmitidas por la estaciónbase de forma síncrona y con la misma potencia, y atraviesan el mismo canal hasta llegaral receptor [Schniter98].

La técnica CDMA se incluye en las técnicas de Espectro Ensanchado (Spread Spec-trum, SS) [Moshavi96, Verdú98, Prasad98, Honig00]. En los sistemas que utilizan téc-nicas de SS la señal transmitida ocupa un ancho de banda mayor que el necesario paratransmitir. En CDMA, por ejemplo, se utiliza un código propio de cada usuario para en-sanchar el espectro de la señal transmitida por dicho usuario, siendo utilizado ese mismocódigo para volver a comprimir el espectro de la señal en el receptor. Los objetivos alutilizar técnicas de espectro ensanchado son diversos: el acceso múltiple, la seguridad, larobustez frente a condiciones adversas (como el desvanecimiento selectivo en frecuencia),etc.

Las técnicas de acceso TDMA y FDMA también pueden englobarse en las de espec-tro ensanchado, puesto que cada usuario está ocupando un ancho de banda mayor delnecesario para transmitir. Por ejemplo, en el caso de la técnica TDMA hay instantes detiempo en que el usuario no transmite, desperdiciando así tiempo que podría utilizar parala transmisión. En FDMA hay frecuencias que el usuario no utiliza, siendo así el canalmás ancho de lo necesario para transmitir. En ambos casos el tiempo y la banda que elusuario no utiliza son, obviamente, utilizados por los demás usuarios. En la figura 5.1 semuestra la diferencia entre las técnicas TDMA, FDMA y CDMA.

La idea principal de la técnica de acceso múltiple CDMA es asignar a cada usuarioun pulso, una forma de onda que lo identifica y que es ortogonal a los pulsos del resto deusuarios. Para enviar la información se multiplica dicha forma de onda por cada uno de

Page 115: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.1. Espectro ensanchado 99

0

bT

dt0

1)(tb

)(tc )(tc)(tn

)(ˆ tx )(~ tx

bT

Fig. 5.2: Esquema de la transmisión de la información de un usuario en un sistema que utilizaCDMA.

NTc

t

t

tTb

)(tb

)(tc

)(ˆ tx

Fig. 5.3: Señales de información, de código y transmitida para un usuario de un sistema con CD-MA.

los símbolos a transmitir. Un receptor con un filtro adaptado al pulso del usuario deseadotrata de eliminar las contribuciones del resto de usuarios explotando la ortogonalidadde las formas de onda. Con vistas a aprovechar mejor el ancho de banda del canal y aencontrar suficientes formas de onda ortogonales, los pulsos están formados a su vez porsecuencias de otros pulsos, denominados chips [Verdú98, Madhow98]. Estos pulsos semultiplican por 1 o−1 para formar la forma de onda que caracteriza a cada usuario. A lassecuencias de coeficientes, exclusivas de cada usuario, se les denomina códigos (tambiénsecuencias de ensanchado o secuencias de chips), de ahí el nombre de esta técnica deacceso.

En la figura 5.2 se muestra el esquema de una modulación binaria que utiliza CDMAcuando el canal es ideal. La señal que lleva la información, b(t), y que consiste en pulsosrectangulares multiplicados por 1 o −1 es multiplicada por la forma de onda que lleva elcódigo del usuario, c(t), consistente en un tren de pulsos que se repite cada período debit (en un sistema general, cada período de símbolo), dando lugar a la señal transmitida,

Page 116: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

100 5. Acceso Múltiple por División de Código

x(t). Esta señal recibirá interferencias y ruidos aditivos que podemos englobar en n(t),de modo que al receptor llega la señal recibida x(t). En el receptor se vuelve a multiplicardicha señal recibida por la forma de onda del código del usuario y se integra, de modoque es posible pasar al decisor la señal obtenida tras muestrearla al período de bit. En lafigura 5.3 se observa cómo la señal de información está formada por pulsos cuya duraciónes Tb segundos (período de bit), mientras que la forma de onda del código está formadapor pulsos de duración Tc = Tb/Nc y se repite cada período de bit. Se denomina gananciadel procesamiento (processing gain) al número Nc de chips por símbolo (por bit, en estecaso).

Mientras la señal de información tiene un ancho de banda del orden de Bb ≈ 1/Tb laseñal transmitida tiene un ancho del orden de Bs ≈ 1/Tc, Nc veces mayor. De ahí quese denominen estas técnicas de espectro ensanchado. El filtro adaptado al usuario en elreceptor permite contraer el espectro de la componente debida al usuario, concentrandoasí su potencia en una banda, mientras que mantiene ensanchadas (con baja densidadespectral de potencia) el resto de componentes (interferencias y ruidos), de modo que sehace posible una correcta detección.

5.2 SEÑALES DE CÓDIGO

Las señales de código son generadas a partir de secuencias discretas que modulan pulsos(por simplificar los supondremos rectangulares, aunque pueden tener cualquier otra for-ma), de modo que la señal de ensanchado de un usuario es un tren de pulsos, cada uno delos cuales de duración Tc.

En la figura 5.4 vemos un ejemplo en el que la secuencia generadora de la señal decódigo, c(k), tiene 7 muestras, que se repiten periódicamente. Cada una de esas muestrasmultiplica al pulso de duración Tc, dando lugar, así, a la señal de código c(t).

El objetivo es que las señales de código sean ortogonales unas a otras. De ese mo-do el filtro adaptado a una de ellas eliminará de la señal recibida las componentes quecontengan señales de código distintas a la del usuario que se desea detectar. Puesto quelos canales en la realidad no son ideales también se desea que los desplazamientos de lasdistintas señales código sigan siendo lo más ortogonales posible unos a otros, y que losdesplazamientos de una señal de código sean ortogonales a ella misma. Esto se consigueutilizando determinadas secuencias de código, como secuencias pseudoaleatorias o comolos códigos de Gold o de Kasami (los códigos de Walsh presentan peores propiedades encuanto a correlación) [Verdú98]. Este tipo de secuencias poseen una autocorrelación conun único pico centrado en cero y con valores cercanos a cero para el resto de desplaza-mientos, como vemos en el ejemplo mostrado en la figura 5.5. Por otro lado la correlacióncruzada de cualesquiera dos secuencias de este tipo es prácticamente nula para cualquier

Page 117: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.3. Proceso discreto 101

NTc

t

1, 1, 1,1,1, 1,1k

c

-1 -1 -1

1 1 1 1

)(tc

Fig. 5.4: Generación de la señal de código a partir de la secuencia generadora. La secuencia serepite periódicamente.

−1000 −500 0 500 1000

0

0.5

1

−1000 −500 0 500 1000

0

0.5

1

Fig. 5.5: Autocorrelación (gráfica superior) de una secuencia pseudoaleatoria de 2000 muestras ycorrelación cruzada de dos secuencias pseudoaleatorias también de 2000 muestras.

desplazamiento (incluyendo el desplazamiento cero). Estas características se cumplen conmayor aproximación cuanto mayor sea la longitud de las secuencias (cuanto mayor sea laganancia del procesamiento).

En general la periodicidad de la señal de código puede ser mayor que la duración deun símbolo. A este tipo de señales de código se les denomina “de código largo” (long-code). Sin embargo en los nuevos sistemas de comunicaciones de alta capacidad se tiendea utilizar señales de “código corto” (short-code, con un período igual al de símbolo), yaque, de esta manera, la interferencia por multiacceso (MAI) conserva sus propiedadesestadísticas de un símbolo a otro, lo que permite al receptor conocer su estructura deforma adaptativa [Madhow98, Tugnait01, Ristaniemi02].

5.3 PROCESO DISCRETO

Veremos ahora el modelo del sistema discreto incluyendo el filtro adaptado del receptor.Supongamos que las señales de información y de código de la figura 5.3 corresponden

Page 118: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

102 5. Acceso Múltiple por División de Código

al usuario 1. Consideraremos que Tc = 1 y que el tiempo comienza en t = −7 y deno-minaremos bj(n) al bit del usuario j que se envía en el intervalo nTb ≤ t < (n + 1)Tb.Por lo tanto tenemos representados los bits correspondientes a los instantes −1, 0 y 1 delusuario 1, es decir, b1(−1) = 1, b1(0) = −1 y b1(1) = 1. Podemos agrupar los elementosde un período de la secuencia generadora de la señal de código del usuario 1 en el vectorc1 = [−1,−1, 1, 1, 1,−1, 1]T.

Supondremos en primer lugar que el receptor está sincronizado con el usuario 1. Porotro lado, consideraremos que el receptor posee un filtro adaptado al pulso del chip ymuestrea a la tasa de chip, de modo que obtiene un vector de muestras x(k) correspon-dientes a los chips recibidos. Utilizando esos chips se llevará a cabo la decisión de qué bitha sido enviado. Por simplicidad supongamos que la amplitud de las señales es 1.

Si no existe otro usuario interferente, el vector de muestras recibidas para el intervalo0 ≤ t < Tb será x(0) = b1(0)c1. Un receptor que simplemente correle x(0) con el códigoc1, puede decidir si el bit es 0 o 1 en función del signo de x(0)Hc1 = 7 b1(0).

Consideremos ahora la existencia de un segundo usuario interferente, cuyo código esc2 = [1,−1, 1,−1,−1,−1, 1]T. Supondremos que este segundo usuario tiene un desfasede 2 chips con respecto al primero, tal como se muestra en la figura 5.6. Denominamosb2(n) al bit del usuario 2 que se envía en el intervalo nTb + 2Tc ≤ t < (n + 1)T + 2Tc.

La contribución sobre x(0) de la señal enviada por el segundo usuario al receptorserá b2(−1)v−1,2 + b2(0)v0,2, donde se definen v−1,2

def= [−1, 1, 0, 0, 0, 0, 0] y v0,2

def=

[0, 0, 1,−1, 1,−1,−1].Para cualquier vector x = [x1, x2, . . . , xL]T definimos el operador de desplazamiento

acíclico hacia la derecha T como T x = [0, x1, . . . , xL−1]T y el operador de desplaza-

miento acíclico hacia la izquierda T como T x = [x2, . . . , xL, 0]T [Madhow98]. Por lotanto v−1,2 = T 5c2 y v0,2 = T 2c2.

Así pues, el vector recibido será

x(0) = b1(0)c1 + b2(−1)v−1,2 + b2(0)v0,2 + n(0) (5.1)

siendo n(k) la contribución del ruido. Análogamente, para cualquier k se tiene que

x(k) = b1(k)c1 + b2(k − 1)v−1,2 + b2(n)v0,2 + n(k) . (5.2)

El vector c1 es el vector deseado y está modulado por el bit deseado b1(k). Los vecto-res v−1,2 y v0,2 son vectores interferentes modulados por bits interferentes.

Un receptor lineal generará un estadístico de decisión a partir del vector recibido,x(k), y de un vector v, que será necesario elegir. Dicho estadístico será de la formavHx(k). A partir de este estadístico se tomará la decisión. Por ejemplo, sign(vHx(k)).En el caso que nos ocupa tenemos

vHx(k) = b1(k)vHc1 + b2(k − 1)vHv−1,2 + b2(k)vHv0,2 + vHn(k) . (5.3)

Page 119: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.3. Proceso discreto 103

NTc

t

t

tTb

NTc

t

t

tTb

)(1

tb

)(1

tc

)(ˆ1

tx

)(2

tc

)(ˆ2

tx

)(2

tb

Fig. 5.6: Señales de información, de código y transmitida de los usuarios 1 y 2.

El objetivo del receptor será anular en lo posible los términos debidos a las interfe-rencias y el ruido. Es decir, conservar sólo el primer término de la derecha en la ecua-ción (5.3). Por ello es útil definir la relación señal a ruido más interferencia (signal-to-(noise+)interference ratio, SIR). Es la relación entre la potencia de la componente deseñal deseada y la potencia del resto de las componentes. En el ejemplo que estamossiguiendo, y para cualquier k, la SIR será

SIR =

∣∣vHc1

∣∣2

|vHv−1,2|2 + |vHv0,2|2 + vHΣnv(5.4)

siendo Σn la matriz de covarianza del ruido.

Page 120: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

104 5. Acceso Múltiple por División de Código

El receptor deberá maximizar la SIR en función de v. Puesto que la SIR no varía conen el tiempo, un receptor puede averiguar su estructura de forma adaptativa. Así, mien-tras la señal continua en el tiempo recibida es cicloestacionaria porque sus estadísticos nocambian con desplazamientos de Tb segundos, la secuencia de vectores x(k) es estacio-naria, porque sus estadísticos no cambian en el tiempo.

Hasta ahora hemos supuesto que el receptor conoce en qué chip comienza cada perío-do de símbolo del usuario deseado. Sin embargo, si queremos obtener un receptor que notenga que sincronizarse con el usuario deseado deberemos suponer que el receptor des-conoce en qué chip comienza el símbolo. Para ello debemos considerar un intervalo deobservación mayor. En nuestro ejemplo consideraremos el intervalo [nTb − 2, nTb + 12].En ese caso se puede comprobar que

x(k) =1∑

i=−1

b1(i + k)vi,1 +1∑

i=−1

b2(i + k)vi,2 + n(k) (5.5)

siendo b1(k)v0,1 el término correspondiente al bit deseado y el resto de términos los co-rrespondientes al ruido y las interferencias.

Por último, el receptor puede no estar sincronizado tampoco en chips con el usuariodeseado. Es decir, si no existe ningún tipo de sincronismo, el receptor no conoce en quéinstante comienza el chip. Se puede comprobar que si el retraso del bit deseado desdeel límite izquierdo del intervalo de observación es (k + δ)Tc el vector deseado tendrá laforma [Madhow98]

v0,1 = (1− δ)T kc1 + δT k+1c1 . (5.6)

5.3.1 Modelo general

En la figura 5.7 se muestra un modelo general para el usuario j-ésimo de un sistemaCDMA de secuencia directa (DS-CDMA, direct-sequence CDMA). En este modelo setrabaja con el equivalente en paso de baja. Tanto los símbolos como los chips de la se-cuencia generadora del código pueden ser complejos. La secuencia de chips transmitidospor el usuario j-ésimo es

xj(m) =∞∑

l=−∞bj(l)cj(m− lNc) . (5.7)

Una vez pasada esta secuencia por el pulso de chip la señal transmitida es

xj(t) =∞∑

l=−∞xj(l)φ(t− lTc)

=∞∑

l=−∞bj(l)cj(t− lNcTc) (5.8)

Page 121: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.3. Proceso discreto 105

Pulso

de chip

Canal

multitrayecto

Filtro

adaptado al

chip

( )j

n t

)(kb j

)(kc j

)(ˆ kx j)(ˆ tx j )(

~ tx j )(~ kx j

Fig. 5.7: Modelo general de transmisión de símbolos por un usuario en un sistema DS-CDMA.

siendo φ(t) el pulso de chip. Este pulso debe ser un pulso de Nyquist a la tasa Tc. En lapráctica es habitual utilizar el pulso raíz de coseno alzado.

Si denominamos aj(t) a la respuesta impulsiva del canal del usuario j-ésimo, la con-tribución de este en el receptor será

xj(t) =∞∑

l=−∞φ(t− lTc) ∗ aj(t)

∞∑m=−∞

bj(m)cj(l −mNc) + nj(t)

=∞∑

l=−∞bj(l)cj(t− lNcTc) ∗ aj(t) + nj(t) . (5.9)

La señal total recibida será la superposición de las contribuciones debidas a todos losusuarios y el ruido total

x(t) =Nu∑j=1

xj(t) + n(t) . (5.10)

Muestreando a la tasa de chips y agrupando las muestras en el vector x(k) podemosescribir este como una suma de vectores de señal modulados por los símbolos enviados.Así tenemos que

x(k) = bd[k]vd +L∑

i=1

bi[k]vi + nk , (5.11)

donde x(k) es el vector utilizado para decidir acerca del símbolo enviado en el intervalon-ésimo, bd[n] denota el símbolo que se desea detectar en dicho intervalo, mientras quebi[n], i = 1, . . . , L, son todos los símbolos interferentes en ese intervalo, tanto del pro-pio usuario como del resto. Asimismo, vd es el vector de señal deseado para ese intervaloy vi, i = 1, . . . , L, son los vectores de señal interferentes. Asumimos que las secuenciasde símbolos son incorreladas. Se puede comprobar entonces [Madhow98] que el vectorde señal tiene la forma

vd =∑

m = m0m0+Mv−1ωmT mc1 (5.12)

siendo m0Tc el retraso de la señal que modula el símbolo deseado con respecto al límiteizquierdo del intervalo de observación. Mv y los coeficientes ωm dependen del canal y dela forma del pulso de chip.

Page 122: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

106 5. Acceso Múltiple por División de Código

5.4 RECEPTORES CLÁSICOS

Los detectores clásicos pueden ser clasificados en dos tipos principales en función dela consideración que hacen de la MAI: los detectores convencionales y los multiusuario(MUD, multiuser detectors) [Moshavi96, Verdú98, Proakis01, Madhow98, Tugnait01].En los convencionales (como el filtro adaptado o el detector RAKE) se realiza la detec-ción de un usuario considerando a los usuarios interferentes como parte del ruido. En ladetección multiusuario la estructura de la MAI es explotada, formando parte del modelode señal, lo que permite a los receptores suprimirla de manera más efectiva. Es posiblerealizar una detección multiusuario óptima, pero tiene un alto coste computacional y esnecesario conocer un cierto número de parámetros del sistema [Verdú98]. Es por eso quese han desarrollado a lo largo de estos años diversos detectores multiusuario subóptimos,como el detector MMSE [Verdú98, Ristaniemi02].

Veremos ahora algunos de los receptores clásicos en los sistemas que utilizan CDMA.En primer lugar veremos el filtro adaptado al usuario deseado. Posteriormente el detectorRAKE, el decorrelador y, por último, el detector MMSE.

Consideraremos un sistema de código corto (la señal de código dura exactamente 1símbolo). La secuencia generadora del código del usuario j-ésimo puede ser agrupada enel vector

cj = [cj(Nc − 1) · · · cj(0)]T . (5.13)

Si la secuencia de símbolos de dicho usuario es bj(k) la señal discreta transmitidapor el usuario viene dada por (5.7). La respuesta impulsiva del canal para el usuario j-ésimo muestreada a la tasa de 1/Tc es denotada por aj(m). Esta respuesta incluye elasincronismo en el filtro adaptado al pulso de chip en el receptor, pero no el retardo detransmisión del usuario [Madhow98]. El retraso de transmisión (mod Nc) del usuarioj-ésimo es dj , (0 ≤ dj ≤ Nc − 1).

Agrupando la secuencia de ensanchado y la respuesta del canal en el canal efectivopara el usuario j-ésimo,

hj(m)def=

Nc−1∑

l=0

cj(l)aj(m− l) , (5.14)

tenemos que la secuencia discreta recibida como contribución del usuario j-ésimo es

xj(m) =∞∑

l=−∞bj(l)hj(m− dj − lNc). (5.15)

La señal discreta total recibida será, por lo tanto,

x(m) =Nu∑j=1

∞∑

l=−∞bj(l)hj(m− dj − lNc) + n(m). (5.16)

Page 123: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.4. Receptores clásicos 107

Integrador

Ts

Nc

nc j0

Sumador

(a)

(b)

tc j0

Fig. 5.8: Detector basado en un filtro adaptado a la secuencia de ensanchado del usuario deseado,en tiempo continuo (a) y en tiempo discreto (b).

Para trabajar con las muestras en el receptor agrupamos estas en el vector x(k), defi-nido, en general, como

x(k)def=

x(kNc + Nc − 1)...

x(kNc)

. (5.17)

Definiendo análogamente hj(l)def= [hj(lNc − dj + Nc − 1) · · · hj(lNc − dj)]

T y n(k)def=

[n(kNc + Nc − 1) · · · n(kNc)]T tenemos que

x(k) =Nu∑j=1

Lj∑

l=0

hj(l)bj(k − l) + n(k) . (5.18)

5.4.1 Filtro adaptado al usuario deseado

El receptor basado en un filtro adaptado al usuario deseado sigue el esquema mostrado enla figura 5.8. En tiempo discreto este esquema es equivalente a la multiplicación de x(k)

por el vector que contiene la secuencia generadora del código de dicho usuario. La salidapara el receptor del usuario j0-ésimo es, pues,

yj0(k) =1

Nc

cHj0x(k) . (5.19)

Este receptor simple no tiene en cuenta el asincronismo ni la respuesta impulsiva delcanal. En caso de tener un canal ideal y de existir una sincronización entre el transmisory el receptor tendríamos que dj = 0 y hj(n) = aj(0)cj(n), de modo que hj(0) = aj(0)cj

Page 124: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

108 5. Acceso Múltiple por División de Código

y hj(l) = 0 ∀ l 6= 0. En ese caso

x(k) =Nu∑j=1

aj(0)cjbj(k) + n(k) . (5.20)

Por lo tanto, la salida resulta ser

yj0(k) =Nu∑j=1

ρj0,j aj(0)bj(k) + nj0(k) (5.21)

donde nj0(k) = cHj0n(k) es la correlación entre el vector de códigos del usuario deseado

y el vector de ruido en la muestra k-ésima y ρj0,j = cHj0cj/Nc es la correlación entre

los códigos de los usuarios j0-ésimo y j-ésimo, de modo que ρj0,j0 = 1. Si utilizamossecuencias pseudoaleatorias, puesto que las correlaciones no serán completamente nulas(serán menores cuanto mayor sea la ganancia del procesamiento), incluso en este casoideal el detector no es capaz de eliminar completamente la interferencia por multiacceso(MAI).

Si el canal del usuario deseado tiene un retardo, de manera que su respuesta impulsivacumple aj0(lj0) 6= 0 y aj0(l) = 0 para cualquier l 6= lj0 , basta con conocer el retraso paradesplazar la señal recibida, construyendo así el vector xdj0

+lj0(k) = [x(kNc + dj0 + lj0 +

Nc−1) · · · x(kNc +dj0 + lj0)]T. Asumiendo el asincronismo entre usuarios, los retrasos

dj pueden ser diferentes para usuarios diferentes. Entonces se tiene que

xdj0+lj0

(k) =Nu∑j=1

cj,dj0+lj0

aj(lj)bj(k−kj)+ cj,dj0+lj0

aj(lj)bj(k−kj−1) + ndj0+lj0

(k) ,

(5.22)donde kj0 = 0, cj0,dj0

+lj0= cj0 , cj0,dj0

+lj0= 0 y, para el resto de usuarios, se definen los

vectores cj,dj0+lj0

y cj,dj0+lj0

como

cj,dj0+lj0

def=

cj(mj − 1)...

cj(0)

0...0

= T Nc−mjcj cj,dj0+lj0

def=

0...0

cj(Nc − 1)...

cj(mj)

= T mjcj , (5.23)

donde, para cada usuario, mj viene determinado por el retardo relativo entre dicho usuarioy el deseado.

En esas condiciones, se puede expresar de forma similar a (5.21) la salida del detector

Page 125: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.4. Receptores clásicos 109

al aplicar el filtro adaptado

yj0(k) =1

Nc

cHj0xdj0

+lj0(k) =

=Nu∑j=1

ρ(dj0

+lj0)

j0,j aj(lj)bj(k − kj) + ρ(dj0

+lj0 )

j0,j aj(lj)bj(k − kj − 1) + n(dj0

+lj0 )

j0(k) ,

(5.24)

siendo

n(dj0

+lj0 )

j0(k) = cH

j0ndj0

+lj0(k)

ρ(dj0

+lj0 )

j0,j = cHj0cj,dj0

+lj0/Nc

ρ(dj0

+lj0 )

j0,j = cHj0cj,dj0

+lj0/Nc . (5.25)

Es evidente que ρ(dj0

+lj0)

j0,j0= 1 y ρ

(dj0+lj0 )

j0,j0= 0. Asumiendo, además, que ρ

(dj0+lj0)

j0,j ¿ 1

y ρ(dj0

+lj0)

j0,j ¿ 1 para j 6= j0, la salida se corresponde con la secuencia de símbolos delusuario j0 multiplicada por una constante compleja más el ruido (que se ve atenuado,debido al filtro adaptado) y la interferencia debida al resto de usuarios. Esta interferenciase ve también muy atenuada debido al pequeño valor que toman ρ

(dj0+lj0 )

j0,j y ρ(dj0

+lj0 )

j0,j ,pero no se anula. Esto implica que si un usuario distinto del deseado trasmite con unapotencia mucho más elevada que la de este, o bien sucede que su correspondiente canalatenúa su señal mucho menos que el del usuario deseado, entonces la contribución delusuario interferente puede ser importante y elevar la tasa de error de símbolo del detector.Es decir, este tipo de detector es muy sensible al problema de near-far.

Detectar el retardo del canal es sencillo. Es suficiente para ello pasar la señal recibidapor el filtro c∗j0(−m)/Nc, de forma que, asumiendo que las secuencias de ensanchado delos usuarios son temporalmente cuasi-incorreladas, es decir,

Nc−1∑

l=0

1

Nc

c∗j(l)cj(l −m) ≈ 0 ∀m 6= 0 , (5.26)

la salida de dicho filtro sólo tomará valores elevados del módulo cuando el filtro estáalineado con la contribución del usuario deseado. En la figura 5.9 se muestra un ejemplopara el caso Nc = 500.

Por último, es posible eliminar el desfase que introduce aj0(lj0) en la constelaciónrecibida mediante el uso de codificación diferencial o símbolos pilotos.

5.4.2 Detector RAKE

El receptor RAKE [Turin84] [Lehnert87] [Grob90] [Cheun97] [Rappaport01] se ha utili-zado tradicionalmente para obtener la secuencia de símbolos del usuario deseado cuando

Page 126: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

110 5. Acceso Múltiple por División de Código

500 1000 1500 2000 25000

0.5

1

Fig. 5.9: Salida del filtro c∗j0(−n)/Nc para Nc = 500 y 1 retardo. Cada 500 chips el filtro quedaalineado a la contribución del usuario deseado, de manera que es posible conocer elretardo que introduce el canal correspondiente a dicho usuario.

existe un canal multitrayecto. Se trata también de un receptor convencional, que consideraal resto de usuarios como parte del ruido. Al igual que el detector basado en filtro adapta-do, hace la suposición de que los códigos de los diferentes usuarios son cuasi-ortogonales.Además necesita asumir que las secuencias de códigos son también temporalmente cuasi-incorreladas. El receptor RAKE aprovecha que la señal llega por varios caminos paraemplear un filtro adaptado para cada uno de esos caminos (en realidad de los más sig-nificativos). Posteriormente las salidas son combinadas linealmente de manera que, si lacontribución de la señal que llega por un camino es débil, se ve compensada por las con-tribuciones más fuertes.

Supongamos que cada usuario tiene un canal con un número significativo de retardosQj . Podemos construir el vector xp(k) = [x(kNc + p + Nc − 1) · · · x(kNc + p)]T, demodo que

xp(k) =Nu∑j=1

Qj∑q=1

c(p)j,q aj(lj,q)bj

(k − k

(p)j,q

)+ c

(p)j,q aj(lj,q)bj

(k − k

(p)j,q − 1

)+ np(k) .

(5.27)

Es posible conocer los Qj0 retardos más significativos del canal correspondiente alusuario deseado por el procedimiento que hemos visto en el apartado anterior. En la figura5.10 se muestra la salida del filtro c∗j0(−n) tras pasar por él la señal recibida para unejemplo en el que el canal tiene cuatro retardos y Nc = 500. En esta salida se aprecianclaramente los cuatro retardos del canal.

En la figura 5.11 se muestra el diagrama del receptor RAKE. En cada rama la señalde entrada se adelanta para alinearse a uno de los retardos del canal. Para la rama r-ésimael vector de señal multiplicado por cH

j0es xp(k), con p = dj0 + lj0,r. Es evidente que

c(p)j0,r = cj0 c

(p)j0,r = 0 k

(p)j0,r = 0 para p = dj0 + lj0,r . (5.28)

Page 127: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.4. Receptores clásicos 111

0 100 200 300 400 5000

0.2

0.4

0.6

0.8

Fig. 5.10: Salida del filtro c∗j0(−n)/Nc para Nc = 500 y 4 retardos. El receptor puede conocer asílos retardos que introduce el canal correspondiente al usuario deseado.

1,0jl

z

2,0jl

z

0,0 jQjlz

correcciónde fase

correcciónde fase

Filtroadaptado

Filtroadaptado

Filtroadaptado

correcciónde fase

Fig. 5.11: Detector RAKE. Cada una de las ramas se adapta a uno de los retrasos más significativosdel canal.

Page 128: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

112 5. Acceso Múltiple por División de Código

La salida del filtro adaptado de la rama r-ésima será, por lo tanto,

yj0,r(k) =Nu∑j=1

Qj∑q=1

ρ(q,dj0

+lj0,r)

j0,j aj(lj,q)bj

(k − k

(dj0+lj0,r)

j,q

)+

+ ρ(q,dj0

+lj0,r)

j0,j aj(lj,q)bj

(k − k

(dj0+lj0,r)

j,q − 1)

+ n(p)j0

(k) , (5.29)

donde

n(p)j0

(k) = cHj0np(k)

ρ(q,dj0

+lj0,r)

j0,j = cHj0c

(dj0+lj0,r)

j0,q

ρ(q,dj0

+lj0,r)

j0,j = cHj0c

(dj0+lj0,r)

j0,q . (5.30)

Es inmediato comprobar que ρ(r,dj0

+lj0,r)

j0,j0= 1 y ρ

(r,dj0+lj0,r)

j0,j0= 0. Por otro lado, debido a

las hipótesis, ρ(r,dj0

+lj0,r)

j0,j ¿ 1 y ρ(r,dj0

+lj0,r)

j0,j ¿ 1 para j 6= j0. Por lo tanto, la salida delfiltro adaptado de la rama r-ésima se corresponde con la secuencia de símbolos del usuariodeseado multiplicada por el coeficiente r-ésimo del canal de dicho usuario, aj0(lj0,r), másel ruido aditivo, atenuado debido a no estar correlado con la secuencia de ensanchado, másla interferencia debida al resto de usuarios y de retardos del propio canal, muy débiles,siempre que no estemos en una situación de near-far.

Como en el caso del filtro adaptado simple, es posible eliminar la rotación introducidapor el coeficiente aj0(lj0,r∗) correspondiente al multitrayecto dominante mediante sím-bolos piloto. El resto de coeficientes (los correspondientes a las restantes ramas) puedenser fácilmente eliminados multiplicando la contribución de cada rama por la media delcociente entre la rama dominante y la rama en cuestión. Por último el receptor RAKEsuma las salidas de las diferentes ramas dando mayor peso a aquellas que tienen mayoramplitud, puesto que ello indica una mayor predominancia de la contribución del usuariodeseado en dichas ramas.

5.4.3 Detector decorrelador

El receptor basado en el filtro adaptado y el receptor RAKE asumen que las correlacionesentre las secuencias de código de los diferentes usuarios son tan pequeñas que, prácti-camente, anulan las contribuciones de los restantes usuarios. Como hemos comentado,esto hace que este tipo de receptores sean muy sensibles al problema de near-far. Unamayor robustez frente a este problema se consigue mediante los detectores multiusuario[Zvonar96] [Torlak97] [Verdú98]. En ellos se hace uso de la estructura de códigos de to-dos los usuarios, de manera que se estima la interferencia por multiacceso (MAI) y setrata de eliminar.

Page 129: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.4. Receptores clásicos 113

( )kx

1c

uNc

)(1,1

ky

)(,1

ky L

)(1,

kyuN

)(,

ky LNu

1zR

)(11,11

ksla

)(1,11

ksla L

)(1,

kslauuu NNN

)(,

kslauuu NLNN

Fig. 5.12: Detector decorrelador. Después del banco de correladores, se elimina de la secuenciade símbolos de cada usuario la contribución de los restantes (MAI) y la contribucióndebida a los demás retrasos introducidos por el propio canal del usuario (ISI).

En la figura 5.12 se muestra un esquema del detector decorrelador [Schneider79][Lupas89] [Lupas90], un detector multiusuario en el que se utiliza un banco de filtrosadaptados (correladores) para cada usuario (al modo que hemos visto en el detectorRAKE), cuya salida, en forma vectorial se puede expresar de la forma

y(z) = R(z)Ds(z) + n(z) , (5.31)

donde y(z) es la transformada Z del vector de las salidas de los bancos de correladoresy(k), que viene dado por

y(k) =

y1,1(k)...

y1,L(k)...

yNu,1(k)...

yNu,L(k)

, (5.32)

siendo yj,r(k) la salida del correlador con retraso r para el usuario j (se ha supuesto unnúmero igual de retrasos, L, para todos los usuarios); s(z) es la transformada Z del vector

Page 130: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

114 5. Acceso Múltiple por División de Código

de secuencias de símbolos extendido, s(k),

s(k) =

b1(k)...

b1(k)...

bNu(k)...

bNu(k)

L

L

, (5.33)

D es una matriz diagonal, formada por los coeficientes de los canales de los distintosusuarios, en la que el elemento que ocupa la posición (j − 1)Nu + 1 + r es aj(lj,r); yR(z) es la matriz de correlaciones de las secuencias de ensanchado de los usuarios conlos correspondientes desfases,

R(z) =

R1,1(z) . . . R1,Nu(z)... . . . ...

RNu,1(z) . . . RNu,Nu(z)

, (5.34)

donde

Ri,j(z) =

(r(di+li,1)i,j (z)

)T

+(r(di+li,1)i,j (z)

)T

z−1

...(r(di+li,L)i,j (z)

)T

+(r(di+li,L)i,j (z)

)T

z−1

(5.35)

siendo ρ(q,di+li,r)i,j z−k

(di+li,r)

j,q el elemento q-ésimo de(r(di+li,r)i,j (z)

)T

y ρ(q,di+li,r)i,j z−k

(di+li,r)

j,q

el elemento q-ésimo de(r(di+li,r)i,j (z)

)T

. Por último, n(z) es el vector de ruido resultanteen el dominio Z.

Si asumimos que 0 ≤ dj < Nc y 0 ≤ lj0,q ≤ Nc para j = 1, . . . , Nu y para q =

1, . . . , L, entonces

k(di+li,r)i,r = 0

k(di+li,r)j,q =

0 0 ≤ di + li,r < Nc

1 Nc ≤ di + li,r < 2Nc

∀ i, j ∈ 1, . . . , Nu∀ r, q ∈ 1, . . . , L (5.36)

y, por lo tanto,R(z) = R(0) + R(1)z−1 + R(2)z−2 . (5.37)

Page 131: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.4. Receptores clásicos 115

Es evidente que, si hacemos pasar el vector de salidas de los bancos de correladorespor el filtro R(z)−1 (segunda etapa tras los bancos de correladores) las secuencias de sím-bolos de los usuarios quedan separadas en el vector Ds(k). Esto elimina por completola contribución de los restantes usuarios (la MAI) y la contribución de versiones retrasa-das del símbolo debida a los multitrayectos (la ISI). Sin embargo, este receptor es muysensible al ruido, debido a que no tiene en cuenta su contribución.

De nuevo, como en el caso del detector RAKE para un único usuario, es sencilloeliminar la rotación que introducen los coeficientes de los canales en las constelacionesmediante símbolos piloto.

5.4.4 Detector MMSE

El detector MMSE (Minimum Mean-Square Error) [Xie90] [Honig95] [Tsatsanis96] estambién un detector multiusuario, y se basa en la minimización del error cuadrático medioentre la salida y el símbolo que se desea detectar. Se puede considerar una solución decompromiso, que trata de eliminar tanto la MAI y la ISI como el ruido. Al igual que eldetector decorrelador, utiliza como primer paso el banco de correladores. A continuacióntrata de encontrar el vector mj que minimiza, para cada usuario,

E[∣∣bj(z)−mT

j (z) y(z)∣∣2

], (5.38)

donde y(z) es la transformada Z de la salida del banco de correladores, tal como se hadefinido en (5.31).

Agrupando las ecuaciones, el problema consiste en encontrar la matriz M(z), cuyasfilas son mT

j (z), que minimiza

E[‖s(z)−M(z) y(z)‖2] , (5.39)

donde s(z)def= [b1(z), . . . , bNu(z)]T. En el caso sencillo en que los canales tienen un único

retraso (es decir, L = 1), M(z) es una matriz cuadrada Nu ×Nu, al igual que R(z) y D.En ese caso se puede comprobar [Verdú98] que el mínimo se alcanza para

M(z) = D−1(R(z) + σ2

(DDH

)−1)−1

(5.40)

siendo σ2 la varianza del ruido. Puesto que D es una matriz diagonal el término D−1

puede ser eliminado de la matriz M(z), de modo que el detector MMSE utiliza la matrizM(z) de la forma

M(z) =(R(z) + σ2

(DDH

)−1)−1

(5.41)

tal como se observa en la figura 5.13. La solución es más compleja en el caso de existirmás de un multitrayecto en los canales, puesto que en ese caso la matriz M(z) no es

Page 132: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

116 5. Acceso Múltiple por División de Código

… …

( )kx

1c

2c

uNc

11

H2DDR z

ky1,1

ky1,2

kyuN 1,

kb1ˆ

kb2

ˆ

kbuN

ˆ

Fig. 5.13: Esquema del detector MMSE.

cuadrada, sino de orden Nu × NuL. En cualquier caso , siempre es posible elegir sólo elretardo dominante para cada usuario, con lo que la solución que acabamos de ver seríaigualmente válida.

Se puede observar que el detector MMSE tiene la misma estructura que el detectordecorrelador, cambiando, únicamente, la matriz-filtro que se emplea a la salida de losbancos de correladores. La diferencia consiste en el término adicional σ2

(DDH

)−1que

se añade para tener en cuenta la contribución del ruido, y minimizar, así, el error entre laestimación y el símbolo enviado.

El inconveniente que presenta el detector MMSE es la necesidad de conocer previa-mente los coeficientes de los canales y la varianza del ruido. Asimismo, el cómputo de lamatriz-filtro que sigue a los bancos de correladores supone una dificultad añadida, tantoen este detector como en el decorrelador.

5.4.5 Canceladores de interferencia substractivos

Otro tipo de receptores clásicos son los llamados substractive interference cancellationdetectors [DH95] [Moshavi96] [Verdú98]. Se basan en estimar la MAI producida porcada usuario para extraerla de la señal recibida y mejorar así la detección de los restantes.El funcionamiento de estos detectores es similar al de los igualadores realimentados pordecisión, en los que las decisiones de los símbolos detectados previamente se utilizan pararealimentar el igualador y cancelar la ISI. Entre este tipo de detectores se encuentran elde cancelación sucesiva de interferencia (SIC, successive interference cancellation), el decancelación paralela de interferencia (PIC, parallel interference cancellation) o el de ceroforzado realimentado por decisión (ZF-DF, zero-forcing decision-feedback).

Page 133: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.4. Receptores clásicos 117

Successive Interference Cancellation

Los detectores de tipo SIC [Viterbi90] [Kohno90] [Holtzman94] constan de varias etapas,en cada una de las cuales se estima la contribución del usuario cuya señal es más fuertemediante un filtro adaptado y un decisor, y se elimina su contribución a la MAI de laseñal recibida, generando así una nueva señal recibida modificada en la que no se encuen-tra presente el usuario más fuerte de la anterior etapa. De forma sucesiva se extraen lassecuencias de símbolos de todos los usuarios.

Para reconstruir la contribución a la MAI del usuario detectado en cada etapa es ne-cesario conocer los canales; retardos y amplitudes complejas. Esto implica mecanismos,supervisados o ciegos, para adquirir esta información. Por otro lado, el comportamientodel receptor está muy condicionado por una correcta decisión del símbolo del usuario quese extrae en cada etapa, de manera que un error en el símbolo conduce a un aumento cuá-druple de la interferencia de este símbolo en los demás [Moshavi96]. Por último, hay queresaltar que cada etapa introduce un retraso de un bit, con lo que es necesario llegar a uncompromiso entre el número de usuarios a detectar y el retraso máximo admisible.

Parallel Interference Cancellation

En un detector de tipo PIC [Varanasi90] [Kohno90] se estima y extrae toda la MAI co-rrespondiente a cada usuario de una vez. La estimación inicial de los símbolos de cadausuario se realiza mediante filtros adaptados, de modo que es posible (conociendo loscanales) reconstruir la contribución de cada usuario. Posteriormente, para cada usuario,se resta a la señal recibida original la contribución de los restantes usuarios. Es decir,para cada usuario, se elimina de la señal recibida la MAI estimada para dicho usuario.Por último, con un banco de filtros adaptados y un decisor para cada usuario se estimanlos símbolos recibidos. Existen, no obstante, numerosas variantes del detector tipo PIC[Varanasi91] [Giallorenzi93] [Divsalar94]. Este tipo de detectores evitan los retrasos queintroducen los de tipo SIC, pero tienen una mayor complejidad computacional.

Zero-Forcing Decision-Feedback

El detector ZF-DF [DH93][Jung95] [Klein96] básicamente consiste en una etapa de deco-rrelación seguida por una etapa SIC, de modo que mejora el comportamiento del detectorSIC, por lo que también se denomina a este detector decorrelador DF. En la etapa dedecorrelación los datos recibidos son multiplicados por la inversa de la matriz que se ob-tiene al aplicar una factorización de Cholesky [Golub96] a la matriz de correlaciones,R(z), con la dificultad que ello entraña. Otra dificultad que implica este tipo de detectorconsiste en la necesidad de conocer de antemano los canales (dificultad compartida con

Page 134: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

118 5. Acceso Múltiple por División de Código

los demás detectores de cancelación substractiva de interferencia). Cuando la estima delos canales es más exacta que la que produce el detector decorrelador, el detector ZF-DFmejora el comportamiento del decorrelador, mientras que es al revés si la estima de loscanales no mejora el resultado proporcionado por el decorrelador [Moshavi96].

5.5 RECEPTORES CIEGOS

Los receptores clásicos están limitados para eliminar la ISI y la MAI. Las principales limi-taciones vienen determinadas por el problema de near-far, el asincronismo entre usuariosy la necesidad de conocer los canales (amplitudes complejas y retrasos). El problema denear-far afecta de una forma u otra a todos los receptores clásicos, puesto que, inclu-so aquellos que utilizan la decorrelación, de forma directa o indirecta (como es el casodel MMSE), necesitan previamente conocer los retrasos del canal del usuario deseado,estima que puede verse afectada por las contribuciones de usuarios más fuertes. En situa-ciones prácticas y con un cierto nivel de ruido, pues, el funcionamiento de los detectoresclásicos se deteriora notablemente si no se tiene un buen conocimiento de los canales[Gesbert99, Ristaniemi02]. Una igualación de los canales permite eliminar la ISI, facili-tando así la eliminación de la MAI. Esta igualación puede realizarse mediante técnicassupervisadas, que incluyen secuencias de entrenamiento que proporcionan al receptor elconocimiento necesario acerca de los canales, lo que le permite implementar los filtrosigualadores que que eliminan los efectos de los canales.

La utilización de secuencias de entrenamiento tiene, sin embargo, el inconvenientede ocupar ancho de banda con señales que no son de información, reduciendo así la efi-ciencia espectral. La detección ciega de usuarios [Paulraj97] supone una alternativa alas técnicas supervisadas en la que no se dispone de conocimiento previo acerca del ca-nal ni se utilizan secuencias de entrenamiento, liberando así ancho de banda [Bensley96][Torlak97] [Tsatsanis98]. La detección ciega proporciona asimismo mayor robustez frentea los desvanecimientos selectivos inducidos por el multitrayecto [Tugnait01, Gesbert98,Gesbert99, Madhow98]. Los métodos ciegos de detección pueden utilizar como únicainformación a priori los códigos de ensanchado de los usuarios deseados (resultando des-conocidos los códigos del resto de usuarios) o bien los códigos de todos los usuarios.

5.5.1 Igualación ciega aplicada a CDMA

Tradicionalmente, pues, el problema ha sido enfocado desde el punto de vista de ladeconvolución o igualación ciega, existiendo múltiples criterios ciegos para la estima-ción de las secuencias de símbolos de usuarios específicos. Diversos autores explotanel subespacio de señal definido por la estructura de códigos de los usuarios deseados

Page 135: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.5. Receptores ciegos 119

habiéndose propuesto en ese sentido algoritmos para la estimación ciega de los cana-les [Torlak97] [Wang98] [Song99], algoritmos que utilizan el criterio MMSE [Wang98,Gesbert99] o los basados en el filtro inverso [Tugnait01] [Chi01a]. Otras aproximacionesutilizan diferentes criterios de igualación ciega, como el algoritmo de módulo constante(CMA) [Schniter98]. Algunos autores consideran también la existencia de múltiples an-tenas [Gesbert99, Castaing04, Tugnait04, Sirbu03, Mudulodu04] con el fin de mejorar elrendimiento de los algoritmos explotando la diversidad espacial añadida en el modelo deseñal resultante.

En el contexto de la igualación ciega aplicada a CDMA ha recibido una gran aten-ción el criterio de filtro inverso (IFC). En las aproximaciones basadas en IFC el siste-ma CDMA es interpretado como un sistema lineal MIMO y se aplica un filtro inver-so o igualador para realizar la igualación ciega del canal basándose en diversos crite-rios. El IFC ha sido utilizado tanto empleando estadísticos de segundo orden ([Honig95][Tsatsanis97] [Tsatsanis98]) como estadísticos de orden superior ([Tugnait01] [Chi01a][Chi02] [Li04a]), debido a su capacidad para suprimir tanto la MAI como ISI en sistemasCDMA. De especial interés es para nosotros el IFC debido a la conexión existente entre laigualación ciega multicanal y el análisis de componentes independientes. Basándonos enesta conexión hemos enfocado el problema de la detección de usuarios en CDMA desdeel punto de vista del ICA, utilizando una restricción de subespacio basada en el códigodel usuario deseado relacionada con las que se emplean en el contexto del IFC.

5.5.2 Aplicaciones de ICA en CDMA

En los últimos años, diversos autores han concebido el problema de la detección ciegaen sistemas con CDMA como un problema de ICA [Ristaniemi02] [Waheed05] [Raju06][Huovinen06] [Peng06]. El empleo de ICA está justificado por la no Gaussianidad de lasseñales en los sistemas de comunicaciones digitales (constelaciones de símbolos), la inde-pendencia de las señales correspondientes a los distintos usuarios y la independencia entremuestras (a la tasa de bit) para una misma secuencia de bits. Basándose en ICA Ristaniemiy Joutsensalo propusieron en [Ristaniemi02] un algoritmo de detección ciega para el en-lace descendente, asumiendo, por lo tanto, el sincronismo entre usuarios y la ausencia delproblema de near-far (es decir, igual potencia para todas las contribuciones en el recep-tor). El algoritmo propuesto por Ristaniemi y Joutsensalo parte de la solución del detectorRAKE o del MMSE para inicializar el algoritmo FastICA [Hyvärinen99b][Bingham00].En [Waheed05] fueron propuestos, para la detección en el enlace descendente, dos algorit-mos con la estructura del receptor RAKE y del receptor sencillo basado en filtro adaptado,respectivamente, en los cuales se añadía una matriz que multiplica a la estructura tradi-cional y cuyos elementos eran estimados empleando criterios ICA. También en [Raju06]

Page 136: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

120 5. Acceso Múltiple por División de Código

se utiliza ICA en el enlace descendente. En [Huovinen06] y en [Peng06] se utiliza ICApara el enlace ascendente. En [Huovinen06] se utiliza el algoritmo FastICA para separarde forma simultánea todos los usuarios, utilizando posteriormente una métrica basada enla correlación con las secuencias de código para identificar a cada usuario. Peng et al.utilizan el algoritmo FKMA (Fast Kurtosis Maximization Algorithm) propuesto por Chiy Chen en [Chi01b].

5.6 CONCLUSIONES

Hemos presentado la técnica de Acceso Múltiple por División de Código (CDMA), quese incluye dentro de las técnicas de espectro ensanchado. Las ventajas de este tipo detécnicas son variadas: reducción de ruido y señales interferentes, mejorando así la calidadde la señal recibida y la seguridad; facilitar el acceso múltiple; incrementar la robustezfrente a desvanecimientos selectivos, etc. En los sistemas con CDMA cada usuario tieneasignado una señal de código que lo identifica y que está generada por una secuencia decoeficientes (o chips).

Hemos descrito el modelo general discreto en el que la señal recibida puede escribir-se como la superposición de las contribuciones de los distintos usuarios más una señalde ruido aditivo. El filtro adaptado al usuario deseado es un receptor simple que filtra laseñal discreta con el código de este usuario y muestrea posteriormente la señal a la tasade símbolos. Hemos proporcionado una expresión general para la salida de este receptorteniendo en cuenta el asincronismo entre los usuarios y un canal con un único retardo.En la práctica, los códigos no son incorrelados ni temporal ni espacialmente por lo queproblemas como el near-far, canales con multitrayectos y un considerable nivel de ruidodeterioran gravemente el funcionamiento de este receptor. Una alternativa para mejorarla relación señal a ruido más interferencia es el receptor RAKE. Este supone un bancode filtros adaptados al código del usuario deseado, cada uno de los cuales selecciona unretraso del canal de dicho usuario. Esto le permite hacer uso de la diversidad que propor-cionan los multitrayectos, dando más peso a las ramas con mayor amplitud. A pesar detodo, este receptor sigue siendo sensible a los problemas anteriormente citados. El detec-tor decorrelador y el detector MMSE son detectores multiusuario, que emplean un bancode correladores para cada usuario. De este modo pueden conocer la estructura de la inter-ferencia inter-símbolos y de la interferencia por multiacceso. Mientras que el decorreladortrata de eliminar por completo estas interferencias, obviando el ruido, el detector MMSEtoma en consideración el ruido, buscando una salida que minimice su error con respecto alsímbolo a detectar. Por último, en los canceladores de interferencia substractivos el recep-tor trata de reconstruir la interferencia producida por cada usuario para después extraerlade la señal recibida, mejorando la detección de los restantes usuarios, al modo en que los

Page 137: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

5.6. Conclusiones 121

igualadores realimentados por decisión eliminan la ISI.El funcionamiento de los receptores clásicos está muy condicionado por la correlación

de los códigos y por las amplitudes de los canales. Por otro lado, necesitan secuencias deentrenamiento para estimar las respuestas impulsivas de los canales, lo cual disminuye laeficiencia espectral puesto que es necesario emplear parte del ancho de banda en señalesque no son de información. Una alternativa a este tipo de receptores son los receptoresciegos, que liberan ancho de banda y proporcionan una mayor robustez frente a desva-necimientos selectivos por multitrayecto. En ellos la estructura de la ISI y de la MAI esobtenida por el receptor de forma ciega. Tradicionalmente la detección ciega se ha imple-mentado como una igualación ciega de canales restringida por los códigos de los usuariosa detectar. Un enfoque novedoso consiste en emplear las técnicas ICA en la detecciónciega de usuarios en sistemas con CDMA.

Page 138: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 139: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Capítulo 6

Aplicación de ICA a la detección ciega deusuarios en CDMA

En este capítulo presentamos un método para la detección ciega de usuarios en sistemasCDMA asíncronos con canales con multitrayectos, basado en las técnicas de BSE. Recor-demos que en los sistemas que utilizan CDMA los usuarios comparten la misma bandade frecuencias y los mismos intervalos de tiempo. La señal que llega al receptor es, puesuna superposición (en tiempo y en frecuencia) de las contribuciones de los distintos usua-rios. Si consideramos que los canales son multitrayecto, de tipo FIR, el modelo inicialde observaciones con el que debemos trabajar es el de mezclas lineales y convolutivas.Partiendo de resultados de la aplicación de la igualación ciega de canal en los sistemasCDMA, (como en [Gesbert99] [Tugnait01] o [Chi02]), hemos enfocado el problema des-de el punto de vista del análisis de componentes independientes, que, como ya hemosvisto, está muy relacionado con la deconvolución ciega. Veremos que, gracias a la pro-piedad de cicloestacionariedad de los procesos que constituyen las contribuciones de losusuarios, el problema puede ser planteado según el modelo de observaciones empleadoen ICA para una mezcla de fuentes lineal e instantánea.

Una vez obtenido este modelo cualquier método que permita la extracción de fuentessub-Gaussianas podrá ser utilizado para detectar un usuario. Para que este usuario seael deseado es necesario utilizar la información adicional que está contenida en el códi-go cíclico de usuario o secuencia de ensanchado. Mientras otros autores utilizan comorestricción una proyección del resultado en el subespacio correspondiente al código delusuario deseado que ha de aplicarse tras cada iteración, nosotros hemos simplificado elmétodo mediante una transformación lineal del vector de observaciones que conduce auna reducción de la dimensión de los datos y a un nuevo vector de extracción no sujeto arestricciones.

Asimismo, la utilización de criterios más eficaces que la kurtosis normalizada em-pleada por otros autores en igualación ciega (ver [Tugnait01]) nos permiten mejorar no-

Page 140: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

124 6. Aplicación de ICA a la detección ciega de usuarios en CDMA

tablemente sus resultados. Nuestro trabajo, cuyos distintos resultados se han publicadoen [Durán07], [Durán04], [Durán03a] y [Durán03b], muestra cómo la optimización con-junta de cumulantes de alto orden (cuarto y sexto en la práctica) o la minimización delsoporte conducen a una considerable mejora tanto en el MSE como en la probabilidad deerror de la señal detectada, mejora que se incrementa significativamente para valores altosde la relación señal a ruido. Por otro lado, el preblanqueo también introduce una mejoradel comportamiento de los algoritmos, debido a un mejor condicionamiento de los datos.Sin embargo, los resultados numéricos no serán presentados en este capítulo, sino en elcapítulo 7 de simulaciones.

6.1 CONSTRUCCIÓN DE UN MODELO DE MEZCLA INSTANTÁNEA

Como hemos comentado, el detector ciego basado en las técnicas ICA que proponemosconsiste en un algoritmo de BSE para mezclas instantáneas modificado por una restricciónde código. La primera tarea es, pues, convertir el modelo de mezcla convolutiva que cons-tituye la señal recibida en un modelo de mezcla instantánea. Es decir, en un modelo quesiga la expresión (2.36), x(k) = As(k) + n(k). Esta conversión podemos llevarla a cabode un modo similar a los que se han venido empleando en trabajos de diversos autores(véase [Madhow98, Wang98, Gesbert99, Honig00, Leus00, Tugnait01, Chi02, Peng06]).El método consiste en reordenar los datos observados en el modelo MISO convolutivopara, gracias a la diversidad temporal, construir un modelo MIMO instantáneo.

6.1.1 Modelo MISO convolutivo localmente cicloestacionario

Recordemos el modelo MISO de señal empleado en el capítulo 5. Consideramos un sis-tema con Nu usuarios y una ganancia de procesamiento de Nc chips por símbolo. Lasecuencia de chips del usuario j-ésimo viene dada por el vector de código

cj = [cj(Nc − 1) · · · cj(0)]T . (6.1)

Puesto que la secuencia de ensanchado tiene una duración exacta de un símbolo estamostrabajando con un sistema DS-CDMA de código corto, más utilizado en sistemas de altacapacidad que los de código largo.

En la figura 6.1 se muestra el proceso en tiempo discreto de transmisión de la señalpor parte de cada usuario y la superposición en el receptor de las contribuciones de todoslos usuarios para conformar la señal total recibida. La secuencia de símbolos transmiti-da por el usuario j-ésimo será denotada por bj(k). Los símbolos de cada secuencia seconsiderarán complejos (la modulación puede tener componente en cuadratura), de mediacero, independientes entre sí e idénticamente distribuidos (i.i.d.). Asimismo, las secuen-

Page 141: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

6.1. Construcción de un modelo de mezcla instantánea 125

1c

MUX

CANAL

ma1

uNc

MUX

CANAL

mauN

… ……

kb1

kbuN

)0()(1

ckb

)( 1)(1 c

Nckb

mx1

ˆ

)0()( ckbuN

)( 1)(cN

Nckbu

mxuNˆ

mx1

~

mxuN

~

mx~

mn

Fig. 6.1: Transmisión de las secuencias de símbolos y superposición de las contribuciones en elreceptor. Cada usuario construye su señal transmitida multiplicando cada símbolo poruna secuencia de ensanchado que se transmite cíclicamente. La señal transmitida porcada usuario atraviesa un canal multitrayecto hasta llegar al receptor. En el receptor laseñal recibida es la superposición de las contribuciones de todos los usuarios.

cias de símbolos correspondientes a usuarios diferentes son también independientes. Esdecir, bj1(k) y bj2(k) son independientes para j1 6= j2.

Para construir la señal transmitida por el usuario j-ésimo, la secuencia de chips dedicho usuario es enviada cíclicamente multiplicada por un símbolo en cada período, deforma que la señal discreta transmitida es

xj(m) =∞∑

l=−∞bj(l)cj(m− lNc), j = 1, 2, . . . , Nu . (6.2)

Denotaremos la respuesta al impulso del canal para el usuario j-ésimo, muestreadaal intervalo de chip (Tc), por aj(m). En el caso del enlace ascendente, a cada usuario lecorresponde un canal lineal y dispersivo diferente a los del resto de usuarios. Es decir,aj1(m) y aj2(m) son diferentes si j1 y j2 son diferentes. En el enlace descendente, sinembargo, coinciden, puesto que todas las señales son enviadas desde la estación base.Esta respuesta discreta al impulso incluye los efectos del filtrado adaptado a chip en elreceptor (ver [Madhow98]), pero no el retraso de transmisión (mod Nc) correspondienteal usuario j-ésimo, dj , que no sobrepasa la longitud de símbolo 0 ≤ dj ≤ Nc−1. No existepérdida de generalidad al hacer esta suposición, ya que, si no se cumple, el efecto es que lasecuencia de símbolos del usuario j-ésimo queda retrasada un símbolo, lo cual no modificael modelo de señal. Estamos asumiendo, por lo tanto, el asincronismo entre usuarios.La señal transmitida por el usuario j-ésimo atraviesa el canal correspondiente a dichousuario, de manera que la contribución del usuario j-ésimo en el receptor, muestreada

Page 142: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

126 6. Aplicación de ICA a la detección ciega de usuarios en CDMA

con una frecuencia de muestreo 1/Tc correspondiente al período de chip, es

xj(m) =∞∑

l=−∞aj(l)xj(m− dj − l) . (6.3)

Podemos agrupar los efectos de la secuencia de chips y del canal, obteniendo así la res-puesta impulsiva del canal efectivo,

hj(m) =Nc−1∑

l=0

cj(l)aj(m− l) , (6.4)

de manera que es posible expresar la contribución del usuario j-ésimo en el receptoren función de la secuencia de símbolos transmitida por este usuario y de la respuestaimpulsiva del canal efectivo correspondiente

xj(m) =∞∑

l=−∞bj(l)hj(m− dj − lNc) . (6.5)

En presencia de ruido aditivo Gaussiano y blanco, n(m), la señal total recibida,

x(m) =Nu∑j=1

xj(m) + n(m) , (6.6)

es la superposición de las contribuciones de los Nu usuarios más el ruido aditivo.En las siguientes secciones mostramos cómo agrupar las muestras de la señal recibida

con el objetivo de construir un modelo de observaciones que siga la forma del modeloICA, x(k) = As(k) + n(k). En la figura 6.2 se representa un esquema de la agrupaciónque vamos a realizar.

6.1.2 Modelo MIMO convolutivo localmente estacionario

El modelo MISO convolutivo de la ecuación (6.6) es un proceso localmente cicloestacio-nario. Agrupando Nc muestras consecutivas de x(m) en el vector x(k) construimos unmodelo MIMO convolutivo localmente estacionario

x(k) =

x(kNc + Nc − 1)...

x(kNc)

. (6.7)

Definiendo de forma similar hj(l) = [hj(lNc − dj + Nc − 1) · · · hj(lNc − dj)]T y

n(k) = [n(kNc + Nc − 1) · · · n(kNc)]T, el modelo MIMO convolutivo resultante es

estacionario y viene dado por

x(k) =Nu∑j=1

Lj∑

l=0

hj(l)bj(k − l) + n(k) . (6.8)

Page 143: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

6.1. Construcción de un modelo de mezcla instantánea 127

1cNz

1z

1eLz

1z

…1eL

z

1eLz

……

1z

1z

kx

~

kx

cN

cN

cN

mx

MISO

convolutivo

(cicloestacionario)

MIMO

convolutivo

(estacionario)

MIMO

instantáneo

Fig. 6.2: Las muestras recibidas son agrupadas de Nc en Nc en un vector x(k) que sigue un mo-delo de sistema MIMO convolutivo. Para construir un modelo MIMO instantáneo con unnúmero de observaciones mayor o igual que el de fuentes agrupamos en el vector x(k)varias versiones retrasadas del vector x(k).

Para expresar x(k) en función de las fuentes definimos el vector

s(k)def=

b1(k)...

bNu(k)

(6.9)

y la matrizH(l)

def= [h1(l), . . . ,hNu(l)] (6.10)

de dimensión Nc × Nu. Asumiendo que los retrasos introducidos por los canales mul-titrayecto tienen una duración máxima de un símbolo, es decir, aj(l) 6= 0 sólo para0 ≤ l ≤ Nc, y recordando que 0 ≤ dj < Nc tenemos que hj(l) 6= 0 sólo para 0 ≤ l ≤ 2.Es decir, Lj = 2 para j = 1, . . . , Nu. En esas condiciones podemos expresar el vector de

Page 144: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

128 6. Aplicación de ICA a la detección ciega de usuarios en CDMA

muestras recibidas según un modelo MIMO de mezcla convolutiva en el que H(l) es elmulticanal y s(k) el vector de fuentes

x(k) = [H(0)H(1)H(2)]

s(k)

s(k − 1)

s(k − 2)

. (6.11)

6.1.3 Modelo MIMO instantáneo

Por último, el modelo MIMO convolutivo localmente estacionario de (6.11) se puedetransformar en un modelo MIMO instantáneo con un número de observaciones mayor oigual que el de fuentes. Para ello, basta con introducir un conjunto de retrasos, definiendoasí el vector de observaciones para el modelo de BSE con mezcla instantánea

x(k)def=

x(k)...

x(k − Le + 1)

. (6.12)

Podemos definir análogamente el vector de ruido n(k). Si definimos el vector de fuentescomo

s(k)def=

s(k)...

s(k − Le − 1)

, (6.13)

y la matriz de mezcla como

Adef=

H(0) H(1) H(2) 0 0 · · · 0

0 H(0) H(1) H(2) 0 · · · 0... . . . ...0 · · · H(0) H(1) H(2)

, (6.14)

el vector de observaciones x(k) cumple con el modelo de mezcla lineal e instantánea,x(k) = As(k) + n(k), donde A es una matriz constante.

Podemos observar que el vector de fuentes está formado por versiones retrasadas delas secuencias de símbolos de todos los usuarios. Puesto que estas secuencias son i.i.d. eindependientes entre sí, podemos afirmar que el vector de fuentes s(k) está formado porseñales independientes. Denotando los elementos de s(k) como s(k) =

[s1(k), s2(k), . . . ,

sNu(Le+2)(k)]T observamos que la fuente sj+Nud(k) es la secuencia de símbolos del usua-

rio j-ésimo con un retraso d, bj(k − d), siendo 0 ≤ d ≤ Le + 1.El vector de observaciones, x(k), es de dimensión NcLe × 1, la matriz de mezcla

instantánea, A, es de dimensión NcLe × Nu(Le + 2), y el vector de fuentes, s, es de

Page 145: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

6.2. Extracción ciega del usuario deseado 129

dimensión Nu(Le + 2) × 1. Siguiendo la notación para BSE que hemos utilizado hastaahora, M = NcLe es el número de observaciones y N = Nu(Le+2) el número de fuentesindependientes. El mínimo número de retrasos que debemos introducir en el modelo (Le)es aquel que nos permite obtener, al menos, tantas observaciones como fuentes. Es decir,Le debe satisfacer1.

Le ≥ 2Nu

Nc −Nu

. (6.15)

6.2 EXTRACCIÓN CIEGA DEL USUARIO DESEADO

Una vez transformado el modelo de mezcla en un sistema MIMO lineal e instantáneo laaplicación al vector de observaciones de cualquier algoritmo de BSE que trabaje con seña-les sub-Gaussianas proporcionará en la salida una estimación de la secuencia de símbolosde uno de los usuarios con un determinado retraso (es decir, una de las fuentes indepen-dientes). Sin embargo, en general, esto no asegura que la secuencia estimada correspondaa la del usuario deseado. Para forzar esto es necesario utilizar cierta información a priori,que proporciona el código de ensanchado correspondiente a dicho usuario. Esta informa-ción se incorpora al algoritmo de BSE en forma de una restricción adicional.

En aproximaciones anteriores en el ámbito de la deconvolución ciega, como, por ejem-plo, en [Gesbert99] y [Tugnait01], otros autores han propuesto restricciones implementa-das como una proyección en cada iteración de la salida de los algoritmos en el subespaciocorrespondiente al código del usuario deseado. El inconveniente de realizar estas proyec-ciones es la excesiva carga computacional que ello introduce. Nosotros proponemos unaproyección inicial del vector de observaciones en el subespacio del usuario deseado queno ha de repetirse en cada iteración. Por otra parte esta proyección inicial reduce la dimen-sión de las observaciones, lo cual aumenta la velocidad de ejecución de los algoritmos.

6.2.1 Restricción de código

Supongamos que pretendemos obtener la secuencia de símbolos del usuario j0 con unretraso de d símbolos. El vector de extracción de orden NcLe×1 que debemos aplicar paraello es denotado por b∗. En ausencia de ruido, el vector de extracción que proporciona lasecuencia de símbolos deseada obedece a la siguiente expresión

b∗HA = αeT

pdef= α

[0 0 · · · 1 · · · 0 0

]

↑j0+Nud

, (6.16)

1 En realidad el número de fuetes puede ser menor que Nu(Le + 2), puesto que hj(l) puede ser 0Nc×1

para uno (pero sólo uno) de los tres valores posibles de l, 0, 1, 2, con lo cual pueden existir hasta Nu

columnas de A con todos sus elementos nulos

Page 146: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

130 6. Aplicación de ICA a la detección ciega de usuarios en CDMA

donde ep se define como el vector de norma unidad cuyo único elemento no nulo seencuentra en la posición p = j0 + Nud, y α es una constante compleja.

Puesto que la matriz A tiene un número mayor de filas que de columnas, la ecuaciónvectorial (6.16) es un sistema de ecuaciones indeterminado. La solución general es, porlo tanto, una solución particular más la solución general al sistema de ecuaciones homo-géneo correspondiente (bH

∗A = 0), es decir

bH∗ = αeT

p A+

︸ ︷︷ ︸soluciónparticular

+ βH(IM −AA+

)︸ ︷︷ ︸

soluciónhomogénea

, (6.17)

donde β es un vector de dimensión M × 1 cuyos elementos pueden tomar cualquier valory A+ denota la pseudoinversa de Moore-Penrose de A [Golub96]. En esta solución hemostenido en cuenta que el vector αeT

p pertenece, por definición, al subespacio generado porlas columnas de AH (ver apéndice A de este capítulo). Realizando una descomposiciónen valores singulares de la matriz A tenemos

A = QLΛQHR , (6.18)

donde QL es de dimensión M × P (siendo P ≤ N ) tal que QHLQL = IP , Λ una matriz

diagonal de dimensión P × P y QR es de dimensión N × P tal que QHRQR = IP . En ese

caso podemos escribir la solución en función de QL y su complemento ortogonal QL⊥,de dimensión M × (M − P ), los cuales cumplen

QHLQL⊥ = 0P×(M−P ) QH

L⊥QL = 0(M−P )×P (6.19)

La solución viene dada, pues, por la expresión

bH∗ = αeT

p QRΛ−1QHL + βHQL⊥QH

L⊥ =

= γHQHL + γH

⊥QHL⊥ , (6.20)

donde γH = αeTp QRΛ−1 y γH

⊥ = βQL⊥ son los vectores cuyos elementos correspondena las coordenadas del vector de extracción óptimo en el subespacio expandido por lascolumnas de A y en su complemento ortogonal, respectivamente. Las columnas de QL yQL⊥ son bases ortonormales de estos subespacios.

El objetivo es ahora forzar que la solución al problema de BSE coincida con la solu-ción particular, es decir, que pertenezca al subespacio expandido por las columnas de lamatriz A. Para ello tomamos β = 0M×1. Por lo tanto, la solución elegida es

bH∗ = αeT

p A+ = αeTp AH

(AAH

)+, (6.21)

donde la segunda igualdad viene dada por la relación A+ = AH(AAH

)+ (ver apéndiceA de este capítulo).

Page 147: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

6.2. Extracción ciega del usuario deseado 131

Para expresar este vector de extracción óptimo en función del código del usuariodeseado y del canal correspondiente a dicho usuario definimos la matriz Toeplitz de códi-go del usuario j0 de dimensión, (d + 1)Nc × 2Nc

C(d)j0

def=

0 0 · · · 0...

... . . . ...cj0(Nc − 1) 0 · · · 0

cj0(Nc − 2) cj0(Nc − 1) · · · 0...

... . . . ...cj0(0) cj0(1) · · · 0

0 cj0(0) · · · 0...

... . . . ...0 0 · · · cj0(Nc − 1)...

... . . . ...0 0 · · · cj0(0)

(6.22)

y similar a las utilizadas en [Gesbert99], [Honig00] y [Tugnait01]. Asimismo definimosel vector de amplitudes del canal correspondiente al usuario j0 como

aj0def= [aj0(2Nc − 1− dj0), · · · , aj0(−dj0 + 1), aj0(−dj0)]

T . (6.23)

Lema 6.1. El vector de extracción que permite obtener la secuencia de códigos del usua-rio j0 puede ser estimado mediante la expresión

bH∗ = αaH

j0C(d)H

j0

(AAH

)+, (6.24)

donde

C(d)j0

=

[C

(d)j0

0Nc(Le−d−1)×2Nc

](6.25)

es una matriz de dimensión NcLe × 2Nc.

Demostración. Del modelo podemos observar que

αeTp AH = α

[hH

j0(d) . . .hH

j0(0) 0 . . . 0

]. (6.26)

Definiendo h(d)j

def=

[hH

j (d) . . .hHj (1)hH

j (0)]H , y recordando que aj(l) es 0 para l > Nc y

para l < 0, y 0 ≤ dj < Nc, tenemos que

h(d)j = C

(d)j aj , (6.27)

Utilizando (6.21), (6.26) y (6.27) podemos escribir la expresión (6.24).

Page 148: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

132 6. Aplicación de ICA a la detección ciega de usuarios en CDMA

6.2.2 Estimación en la práctica

La matriz AAH puede ser estimada a partir de las observaciones, puesto que

Rx = E[x(k)x(k)H

]= AAH + σ2IM , (6.28)

donde σ2 = E [ni(k)n∗i (k)] es la varianza del ruido. Puesto que AAH = QLΛ2QH

L , lamatriz de autocorrelación de las observaciones viene dada por

Rx = QL

(Λ2 + σ2IM

)QH

L . (6.29)

Por lo tanto, podemos estimar σ2 como los menores autovalores de la matriz de autoco-rrelación de las observaciones.

6.2.3 Reducción de la dimensión del vector de observaciones

Sustituyendo (6.28) en (6.24), la salida que nos proporciona la secuencia de símbolosdeseada (la del usuario j0) es

yj0(k) = bH∗ x(k) = αaH

j0C(d)H

j0

(Rx − σ2IM

)+x(k) . (6.30)

Definiendo

xo(k)def= C(d)H

j0

(Rx − σ2IM

)+x(k) bo∗

def= α∗aj0 (6.31)

podemos escribir la ecuación (6.30) como

yj0(k) = bHo∗xo(k) , (6.32)

es decir, la solución a un problema de BSE en el que el vector de observaciones es xo(k)

y el vector de extracción es bo (siendo bo∗ el óptimo de bo). Nótese que el único elementodesconocido es el vector de extracción óptimo, que coincide con el vector correspondienteal canal del usuario deseado. Con la transformación realizada hemos trasladado la restric-ción del vector de extracción al vector de observaciones, con lo que el nuevo modeloobedece a un problema común de BSE sin restricciones adicionales

y(k) = bHo xo(k) . (6.33)

Puede observarse que el nuevo vector de observaciones xo(k), de dimensión 2Nc × 1

tiene una dimensión más reducida que el inicial2 x(k) debido a que hemos reducido lasobservaciones al subespacio correspondiente al usuario deseado.

2 Cuya dimensión es NcLe × 1

Page 149: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

6.3. Método de detección propuesto 133

Podemos interpretar el resultado anterior en términos del vector de extracción, b,aplicable a los datos originales, x(k). La expresión (6.33) para la salida puede escribirsecomo

y(k) = bHo C(d)H

j0

(Rx − σ2IM

)+x(k) = bHx(k) , (6.34)

de manera que b puede expresarse en función de bo como3

b =(Rx − σ2IM

)+ C(d)j0

bo . (6.35)

Es decir, el vector de extracción b está restringido al subespacio expandido por las co-lumnas de (Rx − σ2IM)

+ C(d)j0

, siendo bo el vector cuyos elementos son los coeficientesde síntesis de b en el conjunto generador (frame) del subespacio que forman las columnasde (Rx − σ2IM)

+ C(d)j0

.

6.3 MÉTODO DE DETECCIÓN PROPUESTO

Empleando los resultados obtenidos en la sección previa proponemos un método de de-tección ciega de usuarios en sistemas DS-CDMA cuyo eje central es la aplicación de unalgoritmo de BSE a las observaciones con dimensión reducida por restricción, xo(k). Laventaja de este método sobre otros propuestos anteriormente consiste en que no es nece-sario realizar una proyección del vector de extracción en cada iteración. En el método queproponemos la restricción se realiza mediante una transformación lineal de las observa-ciones, de modo que, una vez hecho esto, no es necesario proyectar los resultados en cadaiteración, con el consiguiente ahorro en coste computacional.

6.3.1 Ejecución en dos etapas

La solución al problema de BSE puede ser estimada, bien a partir de xo(k) o bien a partirdel vector de observaciones reducidas y preblanqueadas, zo(k) = Woxo(k), estiman-do previamente la matriz de preblanqueo para las observaciones reducidas Wo. En esteúltimo caso podemos aplicar un vector de extracción unitario de forma que la salida esy(k) = uH

o zo(k). Cualquier algoritmo de BSE que tenga un buen comportamiento paraseñales sub-Gaussianas podrá ser utilizado para optimizar el vector de extracción unitarioy obtener la secuencia de símbolos deseada. Sin embargo, el algoritmo se realiza en dosetapas: una que incluye la restricción de la forma que acabamos de ver y otra posterior, deajuste fino, en la que se aplica el algoritmo de BSE a las observaciones sin reducción dedimensión partiendo del vector de extracción resultante de la primera etapa. En la figura6.3 se muestra gráficamente el método propuesto.

3 Para ello basta tener en cuenta que(Rx − σ2IM

)H =(Rx − σ2IM

)y que (·)+H = (·)H+

Page 150: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

134 6. Aplicación de ICA a la detección ciega de usuarios en CDMA

IR

x

2H)(

0

d

j

)(kx )(kox

ICA-1

ICA-2 )(ky

*ˆ ou

H)(

0o

d

jWW

)0(u

ecLN

ecLN

ecLN

cN2

cN2

Fig. 6.3: Método propuesto para la detección ciega de usuarios en sistemas con DS-CDMA. Elmétodo se desarrolla en dos etapas. En la primera es aplicado un algoritmo de BSE basadoen ICA a un vector de observaciones con dimensión reducida debido a la restricciónimpuesta para forzar la extracción del usuario deseado. En la segunda etapa, de ajustefino, se aplica el algoritmo de BSE al vector de observaciones original. En esta etapa seutiliza el resultado de la primera para inicializar el vector de extracción.

Primera etapa: BSE con restricción de código

En la primera etapa se realiza una ejecución del algoritmo de BSE trabajando con losdatos restringidos según el código del usuario deseado, de modo que, las observacionesvienen dadas por xo(k). La inicialización de esta etapa se detallará en la sección 6.3.2. Siel algoritmo incluye, como paso previo, el preblanqueo de las observaciones, calculamosla matriz de preblanqueo Wo que proporciona el vector de observaciones preblanqueadas

zo = Woxo(k) . (6.36)

En la iteración i-ésima posterior a la inicialización la salida de esta etapa vendrá dada porla expresión

y(i)o (k) =

(u(i)

o

)Hzo(k) =

(b(i)

o

)Hxo(k) , (6.37)

donde el vector de extracción b(i)o = WH

o u(i)o aplicable a las observaciones sin preblan-

quear viene determinado por el vector de extracción unitario u(i)o que cumple u

(i)Ho u

(i)o = 1

y que se aplica a las observaciones preblanqueadas. Cuando el algoritmo converge obte-nemos la salida de esta etapa como

yo(k) = uHo∗zo(k) = bH

o∗xo(k) , (6.38)

siendo bo∗ y uo∗ las estimaciones del vector de extracción óptimo y del vector de extrac-ción unitario óptimo (respectivamente) para esta etapa.

Page 151: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

6.3. Método de detección propuesto 135

Segunda etapa: BSE sin restricción de código

A partir del resultado de la primera etapa se realiza la inicialización de la segunda comose mostrará en la sección 6.3.3. Procedemos en esta etapa a aplicar el algoritmo de BSE alos datos originales y preblanqueados, x(k). Para algoritmos que incluyen el preblanqueo,denotamos, como siempre, el vector de observaciones preblanqueadas por z(k) y el vectorde extracción unitario para la iteración i-ésima posterior a la inicialización por u(i), demodo que el vector de extracción se puede escribir como b(i) = WHu(i).

En la tabla 6.1 se resume el algoritmo que proponemos para la detección de usuariosen sistemas DS-CDMA asíncronos con canales con multitrayectos.

1. Inicialización 1a etapa

b(0) → b(0)o =

((Rx − σ2IM)

+ C(d)j0

)+

b(0)

u(0)o =

(WH

o

)+b

(0)o∥∥∥(WH

o )+ b(0)o

∥∥∥2. 1a etapa de BSE con dimensión reducida

y(i)(k) =(u

(i)o

)Hzo(k)

solución: uo∗

3. Inicialización 2a etapa

b(0) = (Rx − σ2IM)+ C(d)

j0WH

o uo∗

u(0) = WC(d)j0

WHo uo∗

4. 2a etapa de BSE con datos originales

y(i)(k) =(u(i)

)Hz(k)

solución: u∗

Tab. 6.1: Algoritmo propuesto para la detección ciega de usuarios en sistemas con DS-CDMAasíncronos y con multitrayectos

6.3.2 Inicialización para el algoritmo de BSE con restricción de código

En deconvolución ciega aplicada a la detección en DS-CDMA una buena inicializacióndel filtro inverso se puede obtener (ver [Tugnait01]) partiendo de los Le filtros posiblescuyos únicos elementos no nulos (e iguales a 1) son los correspondientes a un determinadoretraso. Empleando este mismo método de inicialización tomamos Le posibles vectoresde inicialización, b(q) = [bq,1, . . . , bq,NcLe ]

T, con q = 1, . . . , Le, tales que bq,j = 1 para

Page 152: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

136 6. Aplicación de ICA a la detección ciega de usuarios en CDMA

Nc(q−1)+1 ≤ j ≤ Ncq y bq,j = 0 en otro caso. Si llamamos Ψ(b) a la función contrastecorrespondiente al criterio de BSE empleado, el vector de inicialización elegido es aquelque proporciona una salida que maximiza dicha función contraste

b(0) = arg maxb(q)

Ψ(b(q)

). (6.39)

Para obtener el correspondiente vector de extracción inicial en el subespacio reducidoal usuario deseado, b

(0)o , debemos tener en cuenta la relación existente entre el vector

de extracción para los datos originales y el correspondiente para el subespacio reducido,b = (Rx − σ2IM)

+ C(d)j0

bo, lo que nos proporciona la inicialización

b(0)o =

((Rx − σ2IM

)+ C(d)j0

)+

b(0) . (6.40)

Si tenemos en cuenta (6.36), el vector de extracción inicial (6.40) proporcionaría unasalida de la forma

y(0)o (k) = b(0)H

o W+o zo(k) . (6.41)

La inicialización elegida no garantiza una salida de varianza unidad, algo necesario enalgoritmos que utilizan el preblanqueo de las observaciones y la restricción de norma-2unidad para el vector de extracción. Para conseguir esto debemos dividir

(WH

o

)+b

(0)o por

su módulo, de forma que

y(0)o (k) =

b(0)Ho W+

o∥∥∥(WHo )+ b

(0)o

∥∥∥zo(k) , (6.42)

con lo que el vector de extracción unitario elegido para los algoritmos que utilizan elpreblanqueo de las observaciones es

u(0)o =

(WH

o

)+b

(0)o∥∥∥(WH

o )+ b(0)o

∥∥∥. (6.43)

6.3.3 Inicialización para el algoritmo de BSE sin restricción de código

En la segunda etapa partimos del resultado obtenido en la primera, es decir, el vector deextracción unitario uo∗ que se aplica a los datos con dimensión reducida y preblanqueados.Teniendo en cuenta (6.31), (6.36) y (6.38) la salida de la primera etapa se puede escribircomo

yo(k) = bHo∗xo(k) = bH

o∗C(d)Hj0

(Rx − σ2IM

)+

︸ ︷︷ ︸hermítico del

vector de extracción

x(k) . (6.44)

Page 153: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

6.4. Conclusiones 137

Por lo tanto, para algoritmos que no utilizan el preblanqueo de las observaciones, podemosutilizar como vector de extracción inicial para la segunda etapa el definido como

b(0) def=

(Rx − σ2IM

)+ C(d)j0

bo∗ . (6.45)

Por otro lado la expresión (6.44) puede escribirse también como

yo(k) = uHo∗Woxo(k) = uH

o∗WoC(d)Hj0

(Rx − σ2IM

)+x(k) . (6.46)

Sustituyendo A = W+WA (ver apéndice A de este capítulo), tenemos que

yo(k) = uHo∗WoC(d)H

j0

(Rx − σ2IM

)+W+

︸ ︷︷ ︸hermítico del

vector de extracción unitario

z(k) . (6.47)

Puesto que E[|yo|2] = 1 es evidente que (WH)+ (Rx − σ2IM)+ C(d)

j0WH

o uo∗ es el vectorde extracción unitario que proporciona la salida de la primera etapa al aplicarlo a losdatos originales preblanqueados, z(k). Teniendo en cuenta que (WH)+ (Rx − σ2IM)

+=

W (ver apéndice A de este capítulo), para algoritmos que utilizan el preblanqueo de lasobservaciones definimos el vector de extracción unitario inicial para la segunda etapacomo

u(0) def= WC(d)

j0WH

o uo∗ . (6.48)

6.4 CONCLUSIONES

Hemos presentado un método, basado en el análisis de componentes independientes, parala detección ciega de usuarios en sistemas de comunicaciones que utilizan DS-CDMA, elcual sólo precisa del conocimiento, a priori, de la secuencia de ensanchado del usuario.Empleando técnicas conocidas para agrupar las muestras de la señal que llega al receptorhemos convertido el modelo inicial MISO convolutivo cicloestacionario en un modeloMIMO instantáneo, de modo que el sistema construido tiene la forma del modelo ICAde mezcla instantánea de las fuentes. De este modo cualquier algoritmo de BSE capaz deextraer señales del tipo de las utilizadas en comunicaciones puede ser utilizado para la ex-tracción de la secuencia de símbolos de un usuario. Sin embargo, debido a la incertidum-bre propia de ICA, es necesario utilizar el código del usuario deseado como informaciónadicional para forzar la extracción de la secuencia de símbolos de dicho usuario y no deotro. Mientras otros autores logran esto mediante una proyección del vector de extracciónen cada iteración, nosotros lo conseguimos mediante una transformación lineal del vec-tor de observaciones, de manera que reducimos su dimensión y forzamos con ello que elvector de extracción aplicable a los datos originales se encuentre en el subespacio gene-rado por el código del usuario deseado. De este modo, podemos aplicar el algoritmos de

Page 154: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

138 6. Aplicación de ICA a la detección ciega de usuarios en CDMA

BSE al vector de observaciones reducido sin imponer ninguna restricción al nuevo vectorde extracción. Es decir, trasladamos la restricción del vector de extracción al vector deobservaciones.

Llevamos a cabo la detección ciega en dos etapas. En la primera aplicamos el algo-ritmo de BSE al vector de observaciones con dimensión reducida, mientras que, en lasegunda, liberamos la restricción debido a que la precisión de esta se ve afectada por elruido y la pequeña longitud de los datos. Esta segunda etapa actúa como un ajuste fino delos resultados de la primera.

En el próximo capítulo presentaremos un conjunto de simulaciones para ilustrar elcomportamiento de este método de detección empleando como algoritmos de extracciónel ThinICA, el BCA, el FastICA y el N-CMN. Asimismo, se comparará también con elalgoritmo propuesto por Tugnait y Li en [Tugnait01].

APÉNDICE A. LA PSEUDOINVERSA DE MOORE-PENROSE

Para cualquier matriz M de dimensión M × N se define la pseudoinversa de Moore-Penrose, y se denota por M+ como la matriz que cumple con las cuatro siguientes condi-ciones [Golub96]:

(C1) MM+M = M

(C2) M+MM+ = M+

(C3) (MM+)H

= MM+

(C4) (M+M)H

= M+M.

La pseudoinversa siempre existe y es única. Debido a esta unicidad, cuando M es cuadra-da y regular, M+ = M−1.

Casos particulares

Presentamos a continuación algunos casos particulares de matrices cuyas pseudoinversaspueden ser obtenidas de forma inmediata:

a) Si M = 0M×N entonces M+ = 0N×M

b) Si M es una matriz diagonal de dimensión M×N , su pseudoinversa viene dada porla matriz diagonal de dimensión N ×Mcuyos elementos diagonales vienen dadospor los inversos de los elementos correspondientes de M cuando estos son no nulos,y por 0 cuando dichos elementos correspondientes se anulan.

Page 155: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice 139

c) Si M es de rango completo por columnas, entonces M+ =(MHM

)−1MH

d) Si M es de rango completo por filas, entonces M+ = MH(MMH

)−1.

Estas relaciones son fácilmente verificables comprobando que la matriz M+ cumple lascuatro condiciones de la definición de pseudoinversa. Para el caso (c) hay que tener encuenta que MHM es una matriz cuadrada regular. Asimismo, para el caso (d) hay quetener en cuenta que MMH es una matriz cuadrada regular.

Cálculo mediante la SVD

La pseudoinversa puede obtenerse a partir de la descomposición en valores singulares dela matriz M. La SVD viene dada por la expresión M = QLΛQH

R, donde QL y QR son dosmatrices unitarias de dimensión M×M y N×N respectivamente, mientras que Λ es unamatriz diagonal de orden M ×N cuya diagonal contiene elemento reales no negativos. SiΛ tiene K ≤ mınM, N elementos no nulos en la diagonal, podemos escribirla como

Λ =

[Λ 0K×(N−K)

0(M−K)×K 0(M−K)×(N−K)

], (6.49)

donde Λ es una matriz diagonal de elementos reales positivos y de dimensión K ×K. Enese caso

M =[QL QL⊥

] [Λ 0K×(N−K)

0(M−K)×K 0(M−K)×(N−K)

][QH

R

QHR⊥

]=

= QLΛQHR , (6.50)

donde QL y QR son matrices de dimensión M × K y N × K (respectivamente) quecumplen QH

LQL = IK×M y QHRQR = IK×N , mientras que QL⊥, de dimensión M ×

(M −K), y QR⊥, de dimensión N × (N −K) son los complementos ortogonales de QL

y QR respectivamente, y sus columnas son también ortogonales y de norma unidad.Es inmediato comprobar que la pseudoinversa de M viene dada por

M+ = QRΛ−1QHL =

= QRΛ+QHL . (6.51)

Propiedades de la pseudoinversa

La pseudoinversa de Moore-Penrose tiene, entre otras, las siguientes propiedades:

(P1) (M+)+

= M

(P2) (M+)H

=(MH

)+

Page 156: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

140 6. Aplicación de ICA a la detección ciega de usuarios en CDMA

(P3) Si M es de rango completo por columnas, entonces M+M = IN

(P4) Si M es de rango completo por filas, entonces MM+ = IM

(P5) El producto MM+ es el proyector ortogonal en el subespacio generado por lascolumnas de M. Además, la matriz (IM −MM+) es el proyector ortogonal en elsubespacio nulo de MH

(P6) El producto M+M es el proyector ortogonal en el subespacio generado por lascolumnas de MH. Además, la matriz (IM −M+M) es el proyector ortogonal en elsubespacio nulo de M

(P7) La pseudoinversa de M puede obtenerse a partir de la pseudoinversa de MHM

como M+ =(MHM

)+MH

(P8) La pseudoinversa de M puede obtenerse también a partir de la pseudoinversa deMMH como M+ = MH

(MMH

)+.

Demostración de las propiedades

D1-4 Demostración de las propiedades (P1) a (P4). La propiedad (P1) es fácilmentecomprobable verificando que se cumplen las cuatro condiciones de la definición. Lapropiedad (P2) también es fácil de demostrar sustituyendo M por la factorizaciónque surge de su SVD. Para demostrar las propiedades (P3) y (P4) basta sustituirM+ por las expresiones que se han visto en los casos particulares (c) y (d).

D5 Para demostrar la propiedad (P5) sustituimos M y MM+ por las factorizacionescorrespondientes a sus SVD; M = QLΛQH

R y MM+ = QLQHL . Si un vector u

pertenece al subespacio generado por las columnas de M (es decir, u = Mv) en-tonces MM+u = u. Si, por contra, el vector u pertenece al complemento ortogonaldel subespacio generado por las columnas de M (que coincide con el subespaciogenerado por QL⊥), entonces MM+u = 0M×1. Por otro lado IM − MM+ =

QL⊥QL⊥H. Si el vector u pertenece al subespacio generado por las columnas deMH, entonces

(IM −MM+

)u = 0M .

D6 La propiedad (P6) se comprueba de forma análoga a (P5).

D7 Para demostrar la propiedad (P7) basta recordar que existe(MHM

)+ y que

M(MHM

)+MHM = M . (6.52)

Esta relación se demuestra teniendo en cuenta que, si AHAB = AHAC entoncesAB = AC). Es sencillo comprobar que

(MHM

)+MH cumple las cuatro condi-

ciones para ser la pseudoinversa de M.

Page 157: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice 141

D8 La propiedad (P8) se demuestra de forma análoga a (P7).

Solución general a un sistema de ecuaciones indeterminado especial

Supongamos un sistema de ecuaciones indeterminado dado por la expresión

AHb = e , (6.53)

donde A es una matriz de dimensión M ×N (siendo M > N ) con K valores singularesno nulos, b es un vector de dimensión M × 1 y e es un vector de dimensión N × 1

que pertenece al subespacio generado por las columnas de AH. Al tratarse de un sistemaindeterminado, la solución general viene dada por una solución particular más la solucióngeneral al sistema homogéneo (AHb = 0N×1). Una posible solución particular vienedada por

bp =(AH

)+e , (6.54)

lo cual es sencillo comprobar sin más que sustituir bp en el lado izquierdo de la expresión(6.53), de modo que el lado izquierdo resulta ser la proyección del vector e en el subes-pacio generado por las columnas de AH. Puesto que e pertenece a dicho subespacio, ellado izquierdo y el derecho de (6.53) resultan ser iguales. La solución general al sistemahomogéneo viene dada por

bh = (IM −AA+)β =(IM − (

AH)+

AH)

β , (6.55)

donde β es cualquier vector de dimensión M × 1. Para ver que es solución basta consustituir bh en la expresión AHb y comprobar que el resultado es 0N×1 utilizando lacondición (C1) de definición de la pseudoinversa. Para ver que es solución general essuficiente tener en cuenta que β puede ser cualquier vector de CM , por lo que bh escualquier vector del subespacio nulo de AH, que es de dimensión (M − K) × 1, porlo que bh tiene (M − K) grados de libertad, que son los máximos correspondientes alsistema definido por (6.53).

Relaciones entre la matriz de preblanqueo y los datos

Justificamos a continuación dos expresiones utilizadas en el capítulo que implican a lamatriz de preblanqueo.

Si la matriz A es de dimensión M×N y su rango es K ≤ N , entonces, mediante SVD,se puede escribir A = QLΛQH

R, estando QL (de dimensión M ×K), QR (de dimensiónN ×K) y Λ (de dimensión K ×K) definidas como en (6.50). Entonces, la matriz AAH

puede escribirse como AAH = QLΛ2QH

L . Luego la matriz de preblanqueo se definecomo W = Λ−1QH

L . Por lo tanto, sin más que sustituir W y AAH por sus expresionesen función de QL, QR y Λ, es inmediato comprobar las siguientes identidades:

Page 158: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

142 6. Aplicación de ICA a la detección ciega de usuarios en CDMA

(I1) A = W+WA.

(I2) WHW =(AAH

)+.

La identidad (I1) puede ser utilizada para obtener el vector de extracción unitario u quemultiplica al vector de observaciones preblanqueado a partir del vector de extracción b

observaciones original. En efecto, si la salida de un sistema de extracción es y(k) =

bHx(k) = bHAs(k), sustituyendo A según la expresión de la identidad (I2) tenemos quey(k) = bHW+WAs(k) = bHW+z(k), con lo cual el vector u puede obtenerse comou =

(WH

)+b.

Por otra parte, la identidad (I2) se puede emplear para deducir el siguiente lema.

Lema 6.2. La siguiente igualdad es cierta

W =(WH

)+ (Rx − σ2IM

)+. (6.56)

Demostración. Puesto que WH es de rango completo por columnas, se cumple

(WH

)+WH = IK , (6.57)

con lo cualW =

(WH

)+ (AAH

)+. (6.58)

Sustituyendo AAH por Rx − σ2IM obtenemos la expresión (6.56).

Page 159: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Capítulo 7

Simulaciones

En este capítulo presentamos un conjunto de simulaciones en ordenador realizadas conla finalidad de ilustrar el comportamiento del método propuesto para la detección ciegade usuarios en sistemas de comunicaciones con DS-CDMA. El método propuesto seráimplementado utilizando diversos algoritmos de BSE (entre ellos los propuestos por no-sotros) y comparado con un método ya existente que emplea el criterio de filtro inverso yla proyección de los resultados en cada iteración.

7.1 CONDICIONES DE LOS EXPERIMENTOS

En la figura 7.1 se muestra el proceso de construcción de la señal recibida y la obtenciónde la salida del sistema de detección ciega. Se han construido secuencias de símbolosbj(k) de varianza unidad para varios usuarios, a cada uno de los cuales se le ha hechocorresponder un código o secuencia de chips cj(k). Una vez construida para cada usuariola secuencia de chips a transmitir xj(k), esta ha sido convolucionada con el filtro aj(n)

correspondiente al canal discreto existente entre el transmisor y el receptor. La suma totalde las contribuciones xj(k) de todos los usuarios y del ruido es la secuencia de datos deentrada para los algoritmos de detección ciega. La salida de estos algoritmos y(k) es laestimación de la secuencia de símbolos del usuario deseado, en nuestro caso el usuario1. Puesto que los algoritmos introducen un factor de escala complejo, es necesario rotary escalar el módulo de la salida para poder compararla con la secuencia de símbolosoriginal.

Se han utilizado dos medidas de la calidad de los resultados: por una parte el errorcuadrático medio (Mean-Square Error, MSE) entre la secuencia de símbolos transmitidapor el usuario deseado y la constelación obtenida; la otra medida de calidad ha sido laprobabilidad de error en la detección de símbolo (Ps). Ambas medidas han sido utilizadastradicionalmente [Tsatsanis97, Gesbert99, Tugnait01], la primera por reflejar el gradode similitud entre ambas secuencias de símbolos (transmitida y recibida) y la segunda

Page 160: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

144 7. Simulaciones

1c

CANAL

ma1

uNc

CANAL

mauN

… ……

kb1

kbuN

)0()(1

ckb

)( 1)(1 c

Nckb

mx1

ˆ

)0()( ckbuN

)( 1)(cN

Nckbu

mxuN

ˆ

mx1

~

mxuN

~

mx~

DET

ky

M

U

X

M

U

X

mn

cN

1c

Fig. 7.1: Construcción de la señal recibida y obtención de la salida mediante el sistema de detec-ción ciega. Deseamos obtener la secuencia de símbolos del usuario número 1, por lo queel sistema de detección necesita conocer la secuencia de ensanchado de dicho usuario.

porque permite conocer el nivel de funcionamiento del sistema detector. Hay que resaltarque no existe una relación directa entre el MSE y la Ps, puesto que el MSE es una media,mientras que la Ps puede verse muy afectada por valores puntuales del error cuadráticoentre la secuencia transmitida y la recibida.

Para realizar estas medidas se ha recurrido a los promedios de 100 simulaciones deMonte Carlo. En cada simulación se genera un número determinado de símbolos, códigosde usuario, canales y ruido pseudoaleatorios y diferentes del resto de simulaciones. Elnúmero de símbolos y el tipo de constelación varía de unos experimentos a otros, así cómoel número de chips que forman los códigos. Sin embargo, en todos los experimentos se hanutilizado secuencias de chips binarias y aleatorias con valores en el conjunto −1, +1.Del mismo modo, en todos los experimentos se han utilizado canales de 4 retrasos (4multitrayectos) con amplitudes mutuamente independientes, y cuyas f.d.p. son complejasGaussianas con media cero y varianza unidad. Los retrasos de cada canal también sonmutuamente independientes, así como los retrasos relativos de los distintos usuarios dj .El ruido aditivo es complejo Gaussiano de media cero.

Como resultado de cada experimento realizado se representan gráficamente las dosmedidas de calidad (MSE y Ps) frente al cociente energía de símbolo (Es) del usuariodeseado (en todos los casos el usuario número 1) entre densidad espectral de potencia deruido (No), es decir

Es/No =

E

[∥∥∥∑L1

l=0 h1(l)b1(k − l)∥∥∥

2]

E[|n(k)|2] . (7.1)

Page 161: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

7.2. Experimento 1: QPSK, 8 chpis/símbolo, 3 usuarios, 200 símbolos 145

Se han realizado experimentos tanto para una constelación QPSK como para una cons-telación 8-PSK. En uno y otro caso se han probado las dos situaciones típicas de interfe-rencia: situación normal (todos los transmisores llegan al receptor con la misma potencia)y situación near-far (aquella en que el usuario deseado llega al receptor con una potencia10 dB menor que el resto). Se han utilizado distintos valores de ganancia de procesamien-to1 (Nc) y de número de usuarios (Nu). Asimismo, el número de símbolos con los quetrabajan los algoritmos varía en cada experimento, lográndose buenos resultados inclusopara 200 símbolos.

El método de detección propuesto ha sido implementado utilizando varios algoritmosde BSE tal como se ha mostrado en el capítulo 6. El algoritmo propuesto ThinICA hasido empleado utilizando los cumulantes de orden cuarto y sexto con un peso idéntico. Esdecir, Ω = 4, 6 y α4 = α6 = 0.5. Asimismo se ha probado también el algoritmo BCA(Bounded Component Analysis)2. Estos algoritmos han sido comparados con otros dosalgoritmos de BSE conocidos: el N-CMN propuesto en [Novey08] y el FastICA para elcaso complejo, propuesto en [Bingham00]. Para el algoritmo FastICA hemos empleado lafunción ln

(ε + |y|2) como no linealidad, siendo el parámetro ε = 0.1 . Para el algoritmo

N-CMN se han probado las no linealidades y1.25 y cosh (y). También se ha comparadoel método propuesto con el presentado en [Tugnait01], que emplea un criterio de filtroinverso (IFC) y una proyección de los resultados en el subespacio generado por el códigodel usuario deseado en cada iteración.

7.2 EXPERIMENTO 1: QPSK, 8 CHPIS/SÍMBOLO, 3 USUARIOS, 200 SÍM-BOLOS

Se ha realizado un primer experimento en el que la longitud de los códigos es Nc =

8 chips, y el número de usuarios, Nu = 3. Se pretende comparar los algoritmos parauna longitud de código y un número de usuarios fijos, variando la relación Es/No, demodo que se ilustre la evolución del funcionamiento de los algoritmos con el ruido. Laconstelación es una QPSK, con símbolos equiprobables generados de forma aleatoria. Elnúmero de símbolos transmitidos es de 200, con lo que los algoritmos están trabajandocon muy pocas muestras. Se han probado dos casos: situación normal y near-far.

Se ha utilizado una configuración en los algoritmos de manera que el número de retra-sos que se introducen para explotar la diversidad temporal, Le, es 3, mientras que el valordel retraso d que se introduce para buscar la solución es de 2 símbolos.

En la figura 7.2 se muestra la evolución del MSE con la relación Es/No para la situa-ción normal en el experimento 1.

1 longitud de los códigos de usuario2 Este algoritmo es una evolución del algoritmo que se presenta en la sección 4.2

Page 162: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

146 7. Simulaciones

0 10 20 30−35

−30

−25

−20

−15

−10

−5

0

Es/N

o (dB)

MS

E (

dB)

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.2: Experimento 1. MSE de la secuencia de símbolos obtenida frente a la relación Es/No

para una constelación QPSK, 3 usuarios, todos con la misma potencia, 8 chips/símbolo,200 símbolos, Le = 3, d = 2.

0 5 10 15 20 2510

−4

10−3

10−2

10−1

100

Es/N

o (dB)

Pro

babi

lidad

de

erro

r de

sím

bolo

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.3: Experimento 1. Probabilidad de error de símbolo en la secuencia obtenida frente aEs/No para una constelación QPSK, 3 usuarios, todos con la misma potencia, 8chips/símbolo, 200 símbolos, Le = 3, d = 2.

Page 163: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

7.2. Experimento 1: QPSK, 8 chpis/símbolo, 3 usuarios, 200 símbolos 147

0 10 20 30−35

−30

−25

−20

−15

−10

−5

0

Es/N

o (dB)

MS

E (

dB)

Situación near−far

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.4: Experimento 1. MSE de la secuencia de símbolos obtenida frente a la relación Es/No

para una constelación QPSK, 3 usuarios, el usuario deseado 10 dB de potencia pordebajo del resto, 8 chips/símbolo, 200 símbolos, Le = 3, d = 2.

0 5 10 15 20 2510

−4

10−3

10−2

10−1

100

Es/N

o (dB)

Pro

babi

lidad

de

erro

r de

sím

bolo

Situación near−far

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.5: Experimento 1. Probabilidad de error de símbolo en la secuencia obtenida frente aEs/No para una constelación QPSK, 3 usuarios, el usuario deseado 10 dB de potenciapor debajo del resto, 8 chips/símbolo, 200 símbolos, Le = 3, d = 2.

Page 164: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

148 7. Simulaciones

Puede observarse, para la configuración elegida en este experimento, una clara dife-rencia entre dos grupos: por un lado el formado por los algoritmos N-CMN con G(y) =

cosh (y), FastICA y el basado en el criterio de filtro inverso (IFC); por otro lado elThinICA propuesto, el BCA y N-CMN con G(y) = y1.25. Mientras el primer grupo pre-senta una saturación en la mejora del MSE a medida que aumenta la relación Es/No,dejando de haber entre ambos una relación lineal a partir de 15 dB, el segundo grupopresenta un comportamiento en el que dicha relación es prácticamente lineal entre 0 y 30dB de Es/No, obteniéndose los mejores resultados para el algoritmo propuesto y para elBCA. Este último sufre, sin embargo, un ligero empeoramiento cuando el ruido se elevay deteriora la señal (Es/No por debajo de 10 dB). Es de destacar que, para el grupo dealgoritmos que siguen un comportamiento lineal para la relación entre MSE y Es/No,los valores de ambos coinciden, con lo que se elimina, prácticamente en su totalidad, lainterferencia de otros usuarios, así como la ISI.

En la figura 7.3 se muestra la evolución de la probabilidad de error de símbolo, Ps,con la relación Es/No en situación normal en el experimento 1. Se observa como el mejorcomportamiento corresponde, también en el caso de la probabilidad de error de símboloa los algoritmos ThinICA, BCA y N-CMN con G(y) = y1.25. No obstante, el algoritmoFastICA presenta una curva de Ps que se asemeja más a la del grupo mencionado que ala de los algoritmos IFC y N-CMN con G(y) = cosh (y), lo cual ejemplifica el hecho deque no exista una relación directa entre el MSE y la Ps.

En las figuras 7.4 y 7.5 se muestran los resultados para la situación de near-far. En lacurva de MSE se observa un comportamiento similar al presentado en la situación normalpara todos los algoritmos, aunque con un ligero empeoramiento en el caso de los algorit-mos FastICA e IFC. Sin embargo, hay mayores diferencias en la curva de probabilidad deerror de símbolo con respecto a la situación normal.

Mientras el algoritmo ThinICA, el BCA y el N-CMN con G(y) = y1.25 ven inalteradasu curva de probabilidad de error de símbolo, los restantes algoritmos empeoran dichacurva con respecto a la situación normal.

El algoritmo ThinICA, junto al BCA y al N-CMN con G(y) = y1.25, presentan, pues,un mejor comportamiento general y una mayor robustez frente al problema de near-farpara una constelación QPSK con 3 usuarios, 8 chips/símbolo y una longitud de los datosde 200 símbolos.

7.3 EXPERIMENTO 2: QPSK, 12 CHIPS/SÍMBOLO, 5 USUARIOS, 400 SÍM-BOLOS

Este segundo experimento es similar al primero, pero con distintos valores de longitudde código y de número de usuarios. Se han utilizado Nc = 12 chips/símbolo, y Nu = 5

Page 165: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

7.3. Experimento 2: QPSK, 12 chips/símbolo, 5 usuarios, 400 símbolos 149

0 10 20 30−35

−30

−25

−20

−15

−10

−5

0

Es/N

o (dB)

MS

E (

dB)

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.6: Experimento 2. MSE de la secuencia de símbolos obtenida frente a la relaciónEs/No para una constelación QPSK, 5 usuarios, todos con la misma potencia, 12chips/símbolo, 400 símbolos, Le = 5, d = 3.

0 5 10 15 20 2510

−4

10−3

10−2

10−1

100

Es/N

o (dB)

Pro

babi

lidad

de

erro

r de

sím

bolo

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.7: Experimento 2. Probabilidad de error de símbolo en la secuencia obtenida frente aEs/No para una constelación QPSK, 5 usuarios, todos con la misma potencia, 12chips/símbolo, 400 símbolos, Le = 5, d = 3.

Page 166: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

150 7. Simulaciones

usuarios. La constelación es de nuevo QPSK y se han probado las dos situaciones, normaly near-far.

Tanto para este experimento como para el resto, se han empleado unos valores Le = 5

y d = 3. El número de fuentes3 virtuales en el modelo ICA instantáneo pasa, pues, de15 en el primer experimento a 35 en este segundo. Para obtener resultados similares a losobtenidos en el experimento 1 es necesario elevar la longitud de los datos utilizados porlos algoritmos, de manera que el número de símbolos trasmitidos es ahora de 400.

En las figuras 7.6 y 7.7 se muestran los resultados para la situación normal. Se repi-ten los resultados del primer experimento tanto para las curvas de MSE como para lasprobabilidad de error de símbolo, advirtiéndose, no obstante, para el algoritmo IFC undeterioro mayor de la probabilidad de error a partir de Es/No ≤ 15 dB con respecto alprimer experimento.

0 10 20 30−35

−30

−25

−20

−15

−10

−5

0

Es/N

o (dB)

MS

E (

dB)

Situación near−far

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.8: Experimento 2. MSE de la secuencia de símbolos obtenida frente a la relación Es/No

para una constelación QPSK, 5 usuarios, el usuario deseado 10 dB de potencia pordebajo del resto, 12 chips/símbolo, 400 símbolos, Le = 5, d = 3.

Los resultados para situación de near-far se muestran en las figuras 7.8 y 7.9. Denuevo se observa una robustez ligeramente mayor frente al problema de near-far para elalgoritmo ThinICA, para el BCA y para el IFC, que mantienen en situación de near-farel buen comportamiento mostrado en situación normal. Como en el primer experimento,este grupo de algoritmos conserva una relación prácticamente lineal entre el MSE y la

3 El número de fuentes virtuales viene dado por Nu (Le + 2)

Page 167: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

7.4. Experimento 3: QPSK, Es/No = 20 dB, 12 chips/símbolo, 400 símbolos 151

relación Es/No, así como probabilidades de error de símbolo más bajas.

0 5 10 15 20 2510

−4

10−3

10−2

10−1

100

Es/N

o (dB)

Pro

babi

lidad

de

erro

r de

sím

bolo

Situación near−far

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.9: Experimento 2. Probabilidad de error de símbolo en la secuencia obtenida frente aEs/No para una constelación QPSK, 5 usuarios, el usuario deseado 10 dB de potenciapor debajo del resto, 12 chips/símbolo, 400 símbolos, Le = 5, d = 3.

7.4 EXPERIMENTO 3: QPSK, Es/No = 20 dB, 12 CHIPS/SÍMBOLO, 400 SÍM-BOLOS

En este experimento hemos mantenido fijo el nivel de ruido, con una relación Es/No = 20

dB, y la longitud de los códigos, Nc = 12 chips/símbolo, siendo variable el número deusuarios, de manera que podamos determinar el número máximo de usuarios que admiteel sistema sin degradar su comportamiento para un Nc dado. El número de símbolostransmitidos es de 400. Se ha estudiado la situación normal en que todos los usuariostransmiten con la misma potencia.

En las figuras 7.10 y 7.11 se muestran los resultados. Los grupos de algoritmos, encuanto a comportamiento, se mantienen para las curvas de MSE frente al número deusuarios. Se aprecia, sin embargo, que el algoritmo BCA empeora su comportamientode manera más acusada que el algoritmo ThinICA y que el N-CMN con G(y) = y1.25 amedida que el número de usuarios aumenta a partir de 9. En el lado contrario, el algoritmoFastICA presenta una curva con pendientes menos pronunciadas, mejorando su MSE, conrespecto al de BCA, a partir de 9 usuarios activos, pero manteniendo peores niveles deMSE para un número menor de usuarios.

Page 168: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

152 7. Simulaciones

2 4 6 8 10−24

−22

−20

−18

−16

−14

−12

−10

Nu

MS

E (

dB)

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.10: Experimento 3. MSE de la secuencia de símbolos obtenida frente al número de usuariosactivos (todos con la misma potencia) para una constelación QPSK con Es/No = 20dB, 12 chips/símbolo, 400 símbolos, Le = 5, d = 3.

2 4 6 8 1010

−4

10−3

10−2

10−1

100

Nu

Pro

babi

lidad

de

erro

r de

sím

bolo

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.11: Experimento 3. Probabilidad de error de símbolo de la secuencia de símbolos obtenidafrente al número de usuarios activos (todos con la misma potencia) para una constela-ción QPSK con Es/No = 20 dB, 12 chips/símbolo, 400 símbolos, Le = 5, d = 3.

Page 169: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

7.5. Experimento 4: 8-PSK, 8 chips/símbolo, 3 usuarios, 400 símbolos 153

Todos los algoritmos presentan bajas probabilidades de error para un número de usua-rios menor que 9, excepto el IFC, cuya probabilidad de error de símbolo no decae de ma-nera sustancial hasta que el número de usuarios activos baja a 5. El algoritmo ThinICA,el N-CMN con G(y) = y1.25 y el FastICA ofrecen muy baja probabilidad de error desímbolo incluso para 9 usuarios.

El algoritmo ThinICA, el BCA y el N-CMN con G(y) = y1.25 parecen ser las mejoresopciones para una relación Es/No = 20 dB y un número de usuarios variable. El algorit-mo FastICA, que presenta una probabilidad de error muy baja con 100 simulaciones deMonte Carlo, no se presenta como una buena alternativa, puesto que mantiene un MSErelativamente alto en comparación con los tres anteriores a medida que baja el número deusuarios. Es de esperar, pues, que en el transcurso de una transmisión se produzcan máserrores de símbolo con su utilización.

7.5 EXPERIMENTO 4: 8-PSK, 8 CHIPS/SÍMBOLO, 3 USUARIOS, 400 SÍM-BOLOS

Hemos realizado un experimento con una constelación 8-PSK, Nc = 8 chips/símbolo yNu = 3 usuarios, siendo variable el nivel de ruido. Es decir, un experimento similar alexperimento 1, salvo por la constelación de símbolos. Puesto que doblamos el número desímbolos de la constelación debemos utilizar una longitud de datos mayor para obtenerresultados similares. El número de símbolos transmitidos es, pues, 400. Realizamos lassimulaciones para las situaciones normal y de near-far.

En las figuras 7.12 y 7.13 se muestran los resultados para la situación normal. Paraeste experimento el algoritmo N-CMN con G(y) = cosh (y) sufre una severa degradaciónde la curva de MSE, que ya no baja de −10 db, incluso para Es/No = 30 dB. El resto dealgoritmos tiene un comportamiento similar al de los demás experimentos. Los algoritmosN-CMN con G(y) = cosh (y) e IFC presentan una probabilidad de error de símbolo quelos hacen inviables para su utilización como detectores, puesto que no consiguen bajaresta medida de 0.1 y 0.002, respectivamente, aunque aumentemos la relación Es/No a 30

dB. Como era de esperar, la probabilidad de error de todos los algoritmos se ve aumentadacon respecto al experimento 1 (análogo al 4 pero con una QPSK) para una misma Es/No.

Las figuras 7.14 y 7.15 muestran los resultados para la situación de near-far. De nue-vo es el algoritmo IFC el que muestra una mayor sensibilidad al problema de near-far,fundamentalmente para la curva de probabilidad de error de símbolo.

El algoritmo ThinICA, el BCA y el N-CMN con G(y) = y1.25 ofrecen buenos re-sultados para este experimento, tanto en situación normal como en situación de near-far,manteniendo una curva de MSE lineal con respecto a Es/No (y prácticamente idéntico aEs/No) y probabilidades de error de símbolo muy bajas para relaciones Es/No > 15 dB.

Page 170: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

154 7. Simulaciones

0 10 20 30−35

−30

−25

−20

−15

−10

−5

0

Es/N

o (dB)

MS

E (

dB)

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.12: Experimento 4. MSE de la secuencia de símbolos obtenida frente a la relaciónEs/No para una constelación 8-PSK, 3 usuarios, todos con la misma potencia, 8chips/símbolo, 400 símbolos, Le = 5, d = 3.

0 10 20 3010

−4

10−3

10−2

10−1

100

Es/N

o (dB)

Pro

babi

lidad

de

erro

r de

sím

bolo

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.13: Experimento 4. Probabilidad de error de símbolo en la secuencia obtenida frente aEs/No para una constelación 8-PSK, 3 usuarios, todos con la misma potencia, 8chips/símbolo, 400 símbolos, Le = 5, d = 3.

Page 171: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

7.5. Experimento 4: 8-PSK, 8 chips/símbolo, 3 usuarios, 400 símbolos 155

0 10 20 30−35

−30

−25

−20

−15

−10

−5

0

Es/N

o (dB)

MS

E (

dB)

Situación near−far

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.14: Experimento 4. MSE de la secuencia de símbolos obtenida frente a la relación Es/No

para una constelación 8-PSK, 3 usuarios, el usuario deseado 10 dB de potencia pordebajo del resto, 8 chips/símbolo, 400 símbolos, Le = 5, d = 3.

0 10 20 3010

−4

10−3

10−2

10−1

100

Es/N

o (dB)

Pro

babi

lidad

de

erro

r de

sím

bolo

Situación near−far

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.15: Experimento 4. Probabilidad de error de símbolo en la secuencia obtenida frente aEs/No para una constelación 8-PSK, 3 usuarios, el usuario deseado 10 dB de potenciapor debajo del resto, 8 chips/símbolo, 400 símbolos, Le = 5, d = 3.

Page 172: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

156 7. Simulaciones

7.6 EXPERIMENTO 5: 8-PSK, 12 CHIPS/SÍMBOLO, 5 USUARIOS, 800 SÍM-BOLOS

En el quinto experimento utilizamos una constelación 8-PSK, con Nc = 12 chips/símboloy Nu = 5 usuarios. De nuevo el aumento del número de fuentes virtuales en el modeloICA instantáneo nos obliga a aumentar la longitud de los datos, de modo que el númerode símbolos transmitidos es en esta ocasión 800.

En las figuras 7.16 y 7.17 se muestran los resultados para la situación normal, enla que las contribuciones de todos los usuarios llegan al receptor con el mismo nivelde potencia, mientras que en las figuras 7.18 y 7.19 se presentan los resultados para lasituación de near-far, en que el usuario deseado llega al receptor con un nivel de potencia10 dB inferior al nivel del resto.

0 10 20 30−35

−30

−25

−20

−15

−10

−5

0

Es/N

o (dB)

MS

E (

dB)

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.16: Experimento 5. MSE de la secuencia de símbolos obtenida frente a la relaciónEs/No para una constelación 8-PSK, 5 usuarios, todos con la misma potencia, 12chips/símbolo, 800 símbolos, Le = 5, d = 3.

Los resultados son muy similares a los obtenidos en el experimento 4. De nuevo losmejores resultados se producen para el algoritmo ThinICA, el BCA y el N-CMN conG(y) = y1.25, tanto en situación normal como de near-far, presentando una gran ro-bustez frente a este problema. Luego para 5 usuarios y una longitud de código de 12

chips/símbolo, el método de detección propuesto (empleando diversos algoritmos) pre-senta un comportamiento similar para constelaciones QPSK y 8-PSK, si bien hay querecordar que para 8-PSK necesitamos emplear una longitud de datos mayor.

Page 173: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

7.6. Experimento 5: 8-PSK, 12 chips/símbolo, 5 usuarios, 800 símbolos 157

0 10 20 3010

−4

10−3

10−2

10−1

100

Es/N

o (dB)

Pro

babi

lidad

de

erro

r de

sím

bolo

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.17: Experimento 5. Probabilidad de error de símbolo en la secuencia obtenida frente aEs/No para una constelación 8-PSK, 5 usuarios, todos con la misma potencia, 12chips/símbolo, 800 símbolos, Le = 5, d = 3.

0 10 20 30−35

−30

−25

−20

−15

−10

−5

0

Es/N

o (dB)

MS

E (

dB)

Situación near−far

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.18: Experimento 5. MSE de la secuencia de símbolos obtenida frente a la relación Es/No

para una constelación 8-PSK, 5 usuarios, el usuario deseado 10 dB de potencia pordebajo del resto, 12 chips/símbolo, 800 símbolos, Le = 5, d = 3.

Page 174: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

158 7. Simulaciones

0 10 20 3010

−4

10−3

10−2

10−1

100

Es/N

o (dB)

Pro

babi

lidad

de

erro

r de

sím

bolo

Situación near−far

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.19: Experimento 5. Probabilidad de error de símbolo en la secuencia obtenida frente aEs/No para una constelación 8-PSK, 5 usuarios, el usuario deseado 10 dB de potenciapor debajo del resto, 12 chips/símbolo, 800 símbolos, Le = 5, d = 3.

7.7 EXPERIMENTO 6: 8-PSK, Es/No = 20 dB, 12 CHIPS/SÍMBOLO, 800SÍMBOLOS

Por último hemos realizado un experimento análogo al 3, pero con la constelación 8-PSK.Es decir, permanece constante la relación Es/No = 20 dB, siendo variable el número deusuarios presentes, Nu, los cuales llegan al receptor con igual potencia. Se ha utilizadouna longitud de secuencia de ensanchado Nc = 12 chips/símbolo, y una longitud de datosde 800 símbolos.

Las figuras 7.20 y 7.21 presentan los resultados obtenidos. En este experimento losalgoritmos ThinICA y N-CMN con G(y) = y1.25 presentan los mejores resultados, mien-tras el BCA ofrece unos resultados ligeramente inferiores. El algoritmo FastICA no ofrecebuenos resultados en cuanto a probabilidad de error de símbolo, mientras que el compor-tamiento de los algoritmos N-CMN con G(y) = cosh (y) e IFC no permite su utilizacióncomo detectores para constelaciones 8-PSK y número variable de usuarios, puesto queproporcionan muy malos resultados, tanto en MSE como en probabilidad de error de sím-bolo.

Page 175: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

7.7. Experimento 6: 8-PSK, Es/No = 20 dB, 12 chips/símbolo, 800 símbolos 159

2 4 6 8 10−24

−22

−20

−18

−16

−14

−12

−10

Nu

MS

E (

dB)

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.20: Experimento 6. MSE de la secuencia de símbolos obtenida frente al número de usuariosactivos (todos con la misma potencia) para una constelación 8-PSK con Es/No = 20dB, 12 chips/símbolo, 800 símbolos, Le = 5, d = 3.

2 4 6 8 1010

−4

10−3

10−2

10−1

100

Nu

Pro

babi

lidad

de

erro

r de

sím

bolo

Situación normal

ThinICA

N−CMN y1.25

N−CMN cosh(y)FastICABCAfiltro inverso

Fig. 7.21: Experimento 6. Probabilidad de error de símbolo de la secuencia de símbolos obtenidafrente al número de usuarios activos (todos con la misma potencia) para una constela-ción 8-PSK con Es/No = 20 dB, 12 chips/símbolo, 800 símbolos, Le = 5, d = 3.

Page 176: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

160 7. Simulaciones

7.8 CONCLUSIONES

En este capítulo hemos presentado un conjunto de simulaciones que permiten ilustrarel comportamiento del método de detección propuesto en varias situaciones. Han sidogeneradas de forma sintética secuencias de símbolos para diversos usuarios y sus corres-pondientes secuencias de ensanchado. Las señales transmitidas han sido convolucionadascon las respuestas impulsivas de canales con cuatro multitrayectos también generadosde forma sintética y aleatoria. Las contribuciones de todos los usuarios han sido su-perpuestas en el receptor junto con un ruido aditivo Gaussiano y blanco. El método dedetección propuesto ha sido implementado empleando los algoritmos de extracción Thi-nICA, BCA, N-CMN (tanto con la función no lineal G(y) = y1.25 como con la funciónG(y) = cosh (y)) y FastICA con la no linealidad G(|y|2) = log(0.1 + |y|2). Asimismo,el método ha sido comparado con el propuesto en [Tugnait01] basado en el criterio defiltro inverso (IFC), que mostraba superar a los métodos clásicos de detección de usuariosen DS-CDMA. Es de resaltar la pequeña longitud de los datos (en el caso más extremo,200 símbolos), del orden de las longitudes empleadas en algunos métodos de detecciónque utilizan ICA (p. ej., [Ristaniemi02] y [Raju06]) y otros basados en el criterio de filtroinverso (p. ej., [Tugnait01] y [Chi02]) y mucho menor que algunos de los detectores ba-sados en ICA que han aparecido en los últimos años (p. ej., [Waheed05], [Huovinen06] o[Peng06]).

El algoritmo ThinICA, el BCA y el N-CMN con G(y) = y1.25 presentan los mejoresresultados. Son algoritmos muy robustos frente al problema de near-far y proporcionancurvas de MSE que siguen una relación muy lineal con el cociente Es/No, al que prác-ticamente se iguala. Del mismo modo presentan una probabilidad de error de símboloque decrece muy rápidamente con la relación Es/No, obteniéndose probabilidades deerror muy bajas para valores de Es/No mayores que 10 dB, en el caso de la constelaciónQPSK, y que 15 dB para una constelación 8-PSK. De igual modo estos algoritmos per-miten un mayor número de usuarios activos para una relación Es/No fija, presentando,para una ganancia de procesamiento Nc = 12 chips/símbolo, probabilidades de error muybajas para un número de usuarios inferior a 10 en el caso de la QPSK e inferior a 8 enel caso de la 8-PSK. Los algoritmos de N-CMN con G(y) = cosh (y) e IFC ofrecen ma-los resultados en muchos de los experimentos, lo que desaconseja su uso general comodetectores para las longitudes de datos elegidas. El algoritmo FastICA con la no lineali-dad G(|y|2) = log(0.1 + |y|2) presenta unos resultados intermedios, a veces próximos alprimer grupo y a veces más próximos al segundo, aunque, en todo caso, parece ser robus-to frente al problema de near-far. En resumen, hemos verificado mediante simulacionesel buen comportamiento del método de detección propuesto basado en ICA, si bien losresultados varían en función del algoritmo de BSE empleado.

Page 177: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Capítulo 8

Plataforma de radiocomunicaciones en labanda de 5 GHz

Junto con el desarrollo de técnicas ciegas de procesamiento de las señales en banda base,el autor ha participado en el desarrollo de una plataforma de radiocomunicaciones en labanda de 5 GHz. En este capítulo describimos la plataforma, así como los elementos quela integran, y probaremos (si bien de forma limitada) el método de detección ciega deusuarios en DS-CDMA propuesto en el capítulo 6.

8.1 DESCRIPCIÓN GENERAL

La plataforma desarrollada vía software la generación de la señal en banda base y el es-quema de modulación (aunque el proceso de modulación, propiamente dicho, se realizamediante un generador de onda arbitraria), así como el procesamiento de la señal recibidaen banda base, pero no la demodulación. No es, por lo tanto, aún una plataforma vía soft-ware o plataforma radio definida por software. Las señales en banda base son generadasmediante un pc, el cual está conectado a un generador de forma de onda arbitraria, dandolugar a la señal modulada en frecuencia intermedia. Del mismo modo, la señal analógicarecibida en banda base es convertida a digital y capturada por el pc, de modo que esa señalrecibida en banda base puede ser procesada en el propio pc empleando software matemá-tico. Esto permite probar en un entorno de laboratorio y con un sistema de transmisión realpor radio las técnicas de procesamiento de las señales recibidas en banda base, propor-cionando una gran flexibilidad y simplicidad en la investigación y el desarrollo de nuevossistemas de comunicaciones por radio. En la figura 8.1 se muestra un esquema general dela plataforma. La señal de IF que llega al cabezal de RF transmisor es generada medianteun generador de onda arbitraria (SMIQ02B, de Rohde&Schwarz) que recibe a su vez laseñal en banda base procedente del pc. Para la generación de la señal en banda base enel pc se ha utilizado el entorno matemático MatLab. El paso de la señal en banda base

Page 178: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

162 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

desde el pc al generador de onda arbitraria (que modula con dicha señal una portadora enFI) se realiza con las aplicaciones IQWIZARD y WinIQSIM. Una vez recuperada por elreceptor la IF, esta es entregada al analizador de espectro ESA E4407B, de Agilent, quedispone de la opción de demodulación. El proceso de demodular la IF y obtener la señalen banda base es realizado, pues, por el analizador de espectro, que entrega de nuevo alpc la señal obtenida.

front-end transmisor

front-end receptor

140.000000MHz

Arbitrary

Modulation

SMIQ02B

ESA E4407B

IF

RF

IF

Banda base

Banda base

140.000000MHz

SMR20 LO

Fig. 8.1: Esquema general de la plataforma software radio.

La comunicación por radio dentro de la plataforma se lleva a cabo mediante la eleva-ción de la frecuencia intermedia a radiofrecuencia. Puesto que se pretende la utilizaciónde la plataforma para la investigación de nuevos sistemas de radiocomunicaciones de altacapacidad la radiofrecuencia elegida es de 5.25 GHz, alta frecuencia que permitirá cum-plir con las exigencias de ancho de banda de estos futuros sistemas. Nos referiremos alconjunto de los front-ends o cabezales de RF que realizan esta conversión en frecuencia,transmiten la señal por radio, la reciben y la vuelven a convertir en frecuencia intermediacomo etapa de RF de la plataforma. Esta etapa consta del cabezal transmisor y el cabe-zal receptor. El transmisor consta de una etapa de conversión de la frecuencia intermediaen radiofrecuencia, de modo que la antena es alimentada por la salida de esta etapa deconversión de frecuencia. El cabezal de RF receptor se compone a su vez de la antenareceptora seguida de una etapa de conversión de la radiofrecuencia en frecuencia inter-media. Ambos cabezales utilizan una señal de oscilador local (LO) proporcionada por elgenerador SMR20 de Rohde&Schwarz, que, a su vez, está controlado por el pc. La figura8.2 muestra imágenes de la plataforma en funcionamiento.

La etapa de RF de la plataforma ha sido ampliamente caracterizada. En las siguientessecciones se detallan los elementos que la componen. Tanto en el transmisor como en

Page 179: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

8.2. Front-end transmisor 163

(a) Vista aérea de la plataforma. (b) Detalle del receptor.

Fig. 8.2: Fotografías de la plataforma que muestran la colocación de las antenas tipo parche deforma opuesta (a) y detalles del front-end receptor y las conexiones a los equipos (b).

el receptor se ha utilizado una frecuencia intermedia (IF) de 140 MHz, mientras que laradiofrecuencia (RF) es de 5.25 GHz y la frecuencia del oscilador local (LO) de 5.11

GHz. La anchura de banda en IF es en ambos casos de 30 MHz.

Los circuitos del transmisor y el receptor se han realizado utilizando componentescomerciales discretos montados sobre placas de circuito impreso (PCB), realizadas ensustratos de cobre cuyas características que se detallan en el apéndice A de este capítulo.Las PCB han sido diseñadas con el uso del software apropiado (CircuitCam, Orcad) yrealizadas mediante fresado utilizando la máquina Protomat C20 de LPKF.

8.2 FRONT-END TRANSMISOR

Las principales características del cabezal RF de transmisión se detallan en la tabla 8.1.El front-end transmisor trabaja a una frecuencia intermedia de 140 MHz. Esta elecciónse hizo pensando en la utilización de tarjetas de adquisición convertidoras de analógico adigital insertadas en el pc, de modo que, en un futuro, estas tarjetas, junto con el softwaredesarrollado en MatLab, sustituirán en la demodulación al analizador de espectro utilizadoactualmente. Como veremos el principal inconveniente que presenta la elección de la IFes que la frecuencia de LO y la RF son demasiado cercanas, por lo que el filtro de RF noelimina de forma suficiente la componente de LO, que es radiada junto con la RF. Esteproblema será solventado (en una próxima versión de la plataforma) con una nueva etapade conversión de frecuencia, tanto en transmisión como en recepción. La antena utilizadaes de tipo parche, con una ganancia de 2 dBi. En la figura 8.3 se muestra una imagen delcabezal de RF transmisor.

Page 180: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

164 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

Característica ValorFrecuencia intermedia 140 MHzFrecuencia de oscilador local 5.11 GHzRadiofrecuencia 5.25 GHzAncho de banda 30 MHzMáxima potencia de salida

+9 dBm(entregada a la antena)

Antena tipo parcheGanancia de antena 2 dBi

Tab. 8.1: Principales características del cabezal de RF de transmisión

Fig. 8.3: Imagen de la placa correspondiente al front-end transmisor

8.2.1 Esquemático

En la figura 8.4 se muestra el esquemático correspondiente al circuito del front-end deltransmisor. El filtro de IF centrado a 140 MHz elimina toda componente de señal o ruidosituada fuera de la banda de señal definida, para, posteriormente, elevar la potencia dela señal de IF en 30 dB mediante el amplificador MAR-8, de Minicircuits. La mezcla deesta señal con el oscilador local para generar la señal de RF es efectuada por el mezcladorMCA1-60, también de Minicircuits. Este dispositivo necesita una entrada de osciladorlocal con una potencia de +7 dBm. Antes de amplificar la señal de RF mediante dosamplificadores MNA-7 de Minicircuits, esta es filtrada para eliminar, en la medida de loposible, las frecuencias espurias. La salida de los amplificadores de RF ataca directamentea la antena de tipo parche. En el apéndice B de este capítulo se describen las características

Page 181: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

8.2. Front-end transmisor 165

más relevantes de los componentes del front-end transmisor.

Fig. 8.4: Esquemático del transmisor. Tras su filtrado y amplificación, la señal de frecuencia IFes mezclada con la de LO y convertida a RF. La señal de RF, a su vez, es filtrada yamplificada antes de alimentar a la antena.

En esta figura se han representado los valores máximos de potencia en los distintospuntos del circuito, considerando como valor máximo de potencia en la salida de la líneade RF aquel en el que alguno de los dispositivos está en zona de saturación, entendido ellímite de esta como el punto de compresión de 1 dB. Se puede comprobar que, para elvalor máximo, el segundo amplificador de RF está prácticamente en el límite entre la zonalineal y la de saturación (su punto de compresión de 1 dB es +15 dBm), mientras que el

Page 182: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

166 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

primero y el amplificador de IF están trabajando en zona lineal. Por lo tanto es el últimoamplificador de RF el dispositivo que limita la potencia de RF a la salida del transmisor.El filtro de frecuencia intermedia presenta unas pérdidas elevadas (unos 12 dB). Al estarsituado antes que el amplificador de IF, este trabaja en una zona bastante alejada del puntode compresión de 1 dB (+12 dBm).

8.2.2 Caracterización

Se ha llevado a cabo una caracterización del front-end transmisor, cuyos resultados pre-sentamos a continuación. Las medidas realizadas han estado encaminadas a determinarlos siguientes aspectos: curva de potencia de salida frente a potencia de entrada y puntode saturación; curva de ganancia frente a potencia de entrada; respuesta en frecuencia delfiltro de RF; y respuesta en frecuencia del filtro de IF. Además, mostraremos en un anchode 26.5 MHz el espectro de la salida de RF para un tono de IF de 140 MHz, así como elespectro de la salida para una IF modulada por una señal WCDMA.

Configuración

La configuración utilizada para la realización de las medidas se muestra en la figura 8.5.Las conexiones entre el circuito transmisor y los equipos se realizaron con cables conconectores SMA. Para la generación de la frecuencia de LO se utilizó el generador SMR20de Rohde&Schwarz. Para la generación de la frecuencia intermedia se utilizó el generadorSMIQ02B emitiendo un solo tono en su salida, es decir sin realizar modulación alguna.Por último, para la recepción de la RF transmitida por el front-end se utilizó el analizadorde espectro ESA E4407B. En el apéndice B de este capítulo se detallan las condicionesde alimentación y pérdidas en los cables en que se llevó a cabo la caracterización.

front-end

transmisor

140.000000MHz

Arbitrary

Modulation

SMIQ02B

ESA E4407B

IF

RF

medidas

Banda base

140.000000MHz

SMR20LO

Fig. 8.5: Configuración para la caracterización del front-end transmisor.

Page 183: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

8.2. Front-end transmisor 167

Potencia de salida y ganancia

La primera medida de caracterización realizada al front-end transmisor consistió en ladeterminación de las curvas de potencia de salida de RF y ganancia potencia de salidade RF con respecto a potencia de entrada de IF. Ambas magnitudes se han representadofrente a la potencia de entrada de IF. El método empleado para determinar la curvas depotencia y ganancia frente a potencia de entrada de IF fue la realización de un barridoen potencia de IF entre −60.5 dBm y −10.5 dBm para un único tono de 140 MHz. Losvalores fijos de frecuencia y potencia utilizados para los tonos de IF (su frecuencia se fijaal centro de la banda) y LO (permanecen fijos sus valores de frecuencia y potencia) sedetallan en la tabla 8.2.

Parámetro ValorPotencia LO +7 dBmFrecuencia LO 5.11 GHzFrecuencia IF 140 MHz

Tab. 8.2: Valores de potencia y frecuencia de los tonos utilizados en la determinación de las curvasde potencia de salida y ganancia frente a la potencia de entrada

−70 −60 −50 −40 −30 −20 −10−25

−20

−15

−10

−5

0

5

10

1515

Pin

(dBm)

Po

ut (

dB

m)

Potencia de salida frente a potencia de entrada (Transmisor)

Fig. 8.6: Potencia de salida de RF frente a potencia de entrada de IF para el front-end transmisor.En línea roja de puntos se representa la relación estimada en zona lineal para ambasmagnitudes.

En la figura 8.6 se muestra la curva de de potencia de salida de RF frente a la potenciade entrada de IF. A partir de la curva podemos considerar que el punto de compresión de1 dB se sitúa entorno a −24 dBm de potencia de entrada de IF, que corresponden a +12

Page 184: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

168 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

dBm de potencia de salida de RF. Este resultado es similar, aunque unos 3 dB inferior,a lo esperado en el comportamiento teórico del circuito (que debería proporcionar +15

dBm de salida en el punto de compresión de 1 dB).En la figura 8.7 se muestra la curva de la ganancia a la salida de RF del circuito

front-end de transmisión frente a la potencia de entrada de IF. Vemos que, en zona lineal,el cabezal de RF transmisor presenta una ganancia de potencia de la salida de RF conrespecto a la entrada de IF de unos 35 dB, un valor aproximadamente 2 dB inferior alresultado teórico obtenido a partir de los valores nominales de pérdidas y ganancias delos distintos componentes que forman el cabezal.

−70 −60 −50 −40 −30 −20 −1020

22

24

26

28

30

32

34

36

38

Pin

(dBm)

G (

dB

)

Ganancia frente a potencia de entrada (Transmisor)

Fig. 8.7: Ganancia frente a potencia de entrada de IF para el transmisor.

Respuesta en frecuencia del filtro de RF

Para determinar la característica en frecuencia del filtro de RF se realizó un barrido dela frecuencia de LO entre 4.61 GHz y 5.61 GHz. Manteniendo constante la frecuenciaintermedia a 140 MHz, la medida supone un barrido en RF desde 4.75 GHz hasta 5.75

GHz.

Parámetro ValorPotencia LO +7 dBmPotencia generador IF −30 dBmFrecuencia IF 140 MHz

Tab. 8.3: Valores de potencia y frecuencia de los tonos utilizados en la estimación de la respuestaen frecuencia del filtro de RF

Page 185: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

8.2. Front-end transmisor 169

En la tabla 8.3 se muestran los valores constantes fijados para la realización de lamedida. La respuesta en frecuencia estimada para el filtro de RF se muestra en la figura8.8, en la cual se representa la potencia de salida en RF frente a la frecuencia RF.

4600 4800 5000 5200 5400 5600 5800−25

−20

−15

−10

−5

0

5

10

frecuencia (MHz)

Po

ut (

dB

m)

Respuesta medida del filtro de RF

Fig. 8.8: Respuesta en frecuencia del filtro de RF para el transmisor. Se representa la potencia deRF a la salida del front-end transmisor frente a la frecuencia correspondiente de RF.

Respuesta en frecuencia del filtro IF

Con el fin de estimar la respuesta en frecuencia del filtro de IF se realizó un barrido dela IF sin modular, es decir, la IF consistió, de nuevo, en un único tono, pero esta vez defrecuencia variable, entre 90 MHZ y 190 MHz. Esto se corresponde con una variaciónde la frecuencia de RF entre 5.2 GHz y 5.3 GHz, intervalo que se encuentra dentro de labanda de paso del filtro de RF. Los valores fijos se muestran en la tabla 8.4 . La respuestaen frecuencia estimada para el filtro de IF se muestra en la figura 8.9, donde se representala potencia de salida en RF frente a la frecuencia de IF, una curva que se ajusta conbastante fidelidad a la proporcionada por la hoja de datos del fabricante. Se fijaron lossiguientes valores:

Parámetro ValorPotencia LO +7 dBmFrecuencia LO 5.11 GHzPotencia IF −30 dBm

Tab. 8.4: Valores de potencia y frecuencia de los tonos utilizados en la estimación de la respuestaen frecuencia del filtro de IF

Page 186: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

170 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

90 100 110 120 130 140 150 160 170 180 190−60

−50

−40

−30

−20

−10

0

10

frecuencia (MHz)

Po

ut (

dB

m)

Respuesta medida del filtro de IF

Fig. 8.9: Respuesta en frecuencia del filtro de IF para el transmisor.

Espectro de la salida desde 9 KHz hasta 26.5 GHz

Se capturó una visualización del espectro de la señal de salida RF para una entrada de IFde un solo tono de 140 MHz en un rango de frecuencias desde 9 KHz hasta 26.5 GHz. Latraza capturada se muestra en la figura 8.10. Como puede observarse, la salida de RF no

0 5 10 15 20 25−50

−40

−30

−20

−10

0

10

frecuencia (GHz)

Po

ut (

dB

m)

Full SPAN

Fig. 8.10: Espectro de la señal de salida para un tono de IF de 140 MHz.

es suficientemente limpia, en el sentido de que la componente de LO presente en la salidaes importante. Esto se debe a la elección de la IF (que hace que la RF y la frecuencia deLO estén demasiado cercanas) y a la característica del filtro de RF. Una versión mejoradade la plataforma deberá incluir una segunda conversión en frecuencia antes de generar

Page 187: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

8.2. Front-end transmisor 171

la señal de RF con el fin de eliminar este inconveniente. En la tabla 8.5 se muestran losvalores de frecuencia y potencia fijados para realizar la captura.

Parámetro ValorPotencia LO +7 dBmFrecuencia LO 5.11 GHzPotencia IF −30 dBmFrecuencia IF 140 MHz

Tab. 8.5: Valores de potencia y frecuencia de los tonos utilizados en la captura del espectro deseñal desde 9 KHz a 26.5 GHz.

Espectro de salida para IF modulada con WCDMA

Por último se realizaron cuatro capturas del espectro de la señal transmitida para unaIF con modulación WCDMA Standard (QPSK, 3.84 Msymb/sec), comprobando como,al elevar la potencia de entrada de IF, el espectro de salida sufre un recrecimiento delos lóbulos laterales, siendo mayor cuanto más nos adentramos en zona no lineal. Lascapturas realizadas se muestran en la figura 8.11. El ancho de banda capturado fue de 20

MHz entorno a la frecuencia central de RF (5.25 GHz).

130 132 134 136 138 140 142 144 146 148 150−80

−70

−60

−50

−40

−30

−20

−10

0

10

Frecuencia (MHz)

Po

t E

SA

(d

Bm

)

Espectros

−34.2 dBm−29.2 dBm−24.2 dBm−19.2 dBm

Fig. 8.11: Espectro de la señal de salida del transmisor para una modulación WCMDA standardcon distintos valores de potencia de IF. A medida que disminuye la potencia de salidael recrecimiento de los lóbulos laterales es menor. Para una potencia de −34.2 dB nosencontramos en zona de trabajo lineal.

En la tabla 8.6 se indican los valores fijados para la realización de este experimento.

Page 188: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

172 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

Parámetro ValorPotencia LO +7 dBmFrecuencia LO 5.11 GHzModulación IF WCDMA standardFrecuencia central IF 140 MHz

Tab. 8.6: Valores de potencia y frecuencia de los tonos utilizados en la captura del espectro desalida de RF de la señal modulada según la modulación WCDMA standard.

8.3 FRONT-END RECEPTOR

El front-end receptor utiliza también una frecuencia intermedia de 140 MHz que entregacomo salida al demodulador. Utiliza, como el transmisor, una antena de tipo parche conuna ganancia de 2 dB. Las principales características de este cabezal se detallan en la tabla8.7, mientras que en la figura 8.12 se muestra una imagen del front-end receptor.

Característica ValorFrecuencia intermedia 140 MHzFrecuencia LO 5.11 GHzRadiofrecuencia 5.25 GHzAncho de banda 30 MHz

Tab. 8.7: Características principales del front-end receptor.

Fig. 8.12: Imagen de la placa correspondiente al front-end receptor

Page 189: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

8.3. Front-end receptor 173

8.3.1 Esquemático

En la figura 8.13 se muestra el esquemático correspondiente al circuito del front-end delreceptor. En esta figura se han representado los valores máximos de potencia en los dis-tintos puntos del circuito, teniendo en cuenta que consideramos como valor máximo ad-misible a la salida aquél que permite que ningún componente del cabezal supere el puntode compresión de 1 dB. En el apéndice C de este capítulo se detallan los componentes delfront-end receptor así como sus características principales.

Fig. 8.13: Esquemático del receptor. La señal de RF recibida de la antena es filtrada y amplificadaantes de ser convertida a IF mediante la mezcla con la señal de LO. Posteriormente, laseñal de IF es, a su vez, filtrada y amplificada antes de ser entregada al demodulador.

Se puede comprobar que, para el valor máximo, el segundo amplificador de IF estáprácticamente en el límite entre la zona lineal y la de saturación (su punto de compresiónde 1 dB es +12.5 dBm), mientras que el primero y el amplificador de RF están trabajandoen zona lineal. Por lo tanto es el último amplificador de IF el dispositivo que limita lapotencia de IF a la salida del receptor. Esto limita también la potencia de RF a la entrada.

Page 190: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

174 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

8.3.2 Caracterización

Del mismo modo que para el transmisor, se ha realizado una caracterización del cabezal deRF receptor. Esta caracterización ha consistido en la obtención de las curvas de potenciade salida y ganancia (con respecto a la entrada de RF) de IF frente a potencia de entradaRF, y en la obtención del espectro a la salida de IF del receptor para distintos niveles deentrada de RF cuando se transmite una señal con modulación WCDMA standard.

Configuración

En la figura 8.14 se muestra la configuración utilizada para la realización de las medidasde caracterización del cabezal de RF receptor. Al no disponer de más de un generadorde alta frecuencia, utilizamos el front-end transmisor para generar la señal de entrada deRF para el front-end receptor. De este modo, los cabezales comparten la misma señalde oscilador local, generada por el SMR20, mientras que la señal de IF que sirve comoentrada al front-end transmisor es generada por el SMIQ02B.

En el apéndice C de este capítulo detallan las condiciones de alimentación para elfront-end receptor utilizadas en la configuración1. Las pérdidas en los cables son las mis-mas que en la caracterización del transmisor, puesto que la RF y la IF son iguales paraambos. Es decir, las pérdidas de los cables de la entrada RF son 3 dB, mientras que las delos cables de la salida de IF son de 0.5 dB.

front-end transmisor

front-end receptor

140.000000MHz

Arbitrary

Modulation

SMIQ02B

ESA E4407B

IF

RF

IF

medidas

Banda base

140.000000MHz

SMR20 LO

Fig. 8.14: Configuración para la caracterización del front-end receptor.

1 Para el front-end transmisor se utilizó la misma alimentación que en la caracterización del propio front-end transmisor

Page 191: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

8.3. Front-end receptor 175

Potencia de salida y ganancia

Se realizó una estimación de las curvas de potencia de salida de IF y ganancia de salida deIF frente a la potencia de entrada de RF. Para la estimación de estas curvas se realizó unbarrido de potencia de IF del transmisor. Esta IF consistió en un único tono de 140 MHz.Se utilizó una potencia de LO de +7 dBm para una frecuencia de LO de 5.11 GHz. En lasFigs. 8.15 y 8.16 se muestran las curvas de potencia de salida y ganancia respectivamente.

−55 −50 −45 −40 −35 −30 −25 −20 −15 −10−25

−20

−15

−10

−5

0

5

10

15

Pin

(dBm)

Po

ut (

dB

m)

Potencia de salida frente a potencia de entrada (Receptor)

Fig. 8.15: Potencia de salida de IF frente a potencia de entrada de RF para el receptor.

−55 −50 −45 −40 −35 −30 −25 −20 −15 −1024

25

26

27

28

29

30

31

32

33

Pin

(dBm)

G (

dB

)

Ganancia frente a potencia de entrada (Receptor)

Fig. 8.16: Ganancia frente a potencia de entrada de RF para el receptor.

A partir de las gráficas podemos considerar que el punto de compresión de 1 dB sesitúa entorno a +7 dBm de potencia de salida de IF.

Page 192: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

176 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

Espectro de salida para IF modulada con WCDMA

Se realizaron tres capturas del espectro de la señal transmitida para una IF moduladacon una WCDMA Standard (QPSK, 3.84 Msymb/sec) en una zona próxima al puntode compresión de 1 dB para visualizar el recrecimiento de los lóbulos laterales. Dichascapturas, para distintas potencias de entrada del transmisor en IF, se muestran en la figura8.17. Se capturó un ancho de banda de 20 MHz entorno a la frecuencia central de RF(5.25 GHz).

130 132 134 136 138 140 142 144 146 148 150−70

−60

−50

−40

−30

−20

−10

0

frecuencia (MHz)

Po

t E

SA

(d

Bm

)

Espectros

−27.5 dBm−23.5 dBm−20.5 dBm

Fig. 8.17: Espectro de la señal de salida del receptor para una modulación de IF WCDMA stan-dard.

En la tabla 8.8 se muestran los valores fijados para realizar la medida.

Característica ValorPotencia LO +7 dBmFrecuencia LO 5.11 GHzModulación IF WCDMA standardFrecuencia intermedia 140 MHz

Tab. 8.8: Valores utilizados para la captura del espectro recibido a la salida de IF del receptor parauna señal modulada según la modulación WCDMA standard.

8.4 TRANSMISIÓN DE SEÑALES Y DETECCIÓN DE USUARIOS A TRA-VÉS DE LA PLATAFORMA

En esta sección mostraremos algunos ejemplos en los que se transmiten secuencias desímbolos transmitidas y demoduladas a través de la plataforma. Se han llevado a cabo

Page 193: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

8.4. Transmisión de señales y detección de usuarios a través de la plataforma 177

dos tipos de experimento. Uno en el que una secuencia de símbolos generada en el pc estransmitida a través de la plataforma y recuperada de nuevo por el pc, y otro tipo de expe-rimento en el que las secuencias de símbolos de dos usuarios en un sistema DS-CDMAson transmitidas y superpuestas en el receptor para, posteriormente en el pc, recuperarla secuencia de uno de los usuarios (el deseado) mediante el método de detección ciegapropuesto en el capítulo 6.

8.4.1 Transmisión de un usuario

En el primer experimento se transmitió una secuencia de símbolos con una modulaciónestándar WCDMA. Se transmitieron 200 símbolos con 4 chips/símbolo a una tasa de 3.84

Mchips/s. Como pulso de chip se se utilizó en el transmisor y en el receptor el filtro raízde coseno alzado con un factor de rolloff de 0.22, estando las antenas separadas 0.5 m dedistancia. En la figura 8.18 se muestra la señal recibida por el pc (su representación enparte real e imaginaria) y la constelación recuperada una vez muestreada la señal recibidasegún el período de chip.

Fig. 8.18: Señal recibida con una separación de antenas 50 cm. Los puntos rojos muestran la cons-telación recibida una vez muestreada la señal.

8.4.2 Detección de usuarios

En el segundo experimento fueron transmitidas dos secuencias de símbolos, correspon-dientes a dos usuarios en un sistema DS-CDMA, con diferente nivel de potencia y en unentorno ruidoso. Con el método propuesto en el capítulo 6 fue estimada la secuencia desímbolos del usuario más débil. Esto nos ha permitido probar las técnicas de detecciónde usuarios en este tipo de sistemas trabajando, en un entorno real, tanto con interferen-cias entre símbolos del propio usuario a detectar como con interferencias debidas a otrousuario del sistema de comunicaciones.

Page 194: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

178 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

Sin embargo, debido a las limitaciones en el número de transmisores (disponemos deuno solo por el momento) el sistema de acceso DS-CDMA es sólo parcialmente real yparcialmente simulado. Tuvimos que transmitir la secuencia de símbolos de un usuarioy superponer la señal recibida con la señal a transmitir por un usuario interferente pa-ra, posteriormente, volver a transmitir la señal resultante. Finalmente, la señal recibidaresultante fue muestreada a la tasa de chip y se utilizó como entrada para el método dedetección ciega de usuarios para recuperar la secuencia de símbolos del usuario deseado.E número de símbolos utilizado fue de 200, con 4 chips/símbolo y 3.84 Mchip/s. La MAIfue fijada a 5 dB, es decir, la potencia del usuario interferente era 5 dB superior a la delusuario deseado. La separación entre antenas se fijó en 1 m. Por último, la relación Es/No

fue estimada en 8.2 dB. En la figura 8.19 mostramos los resultados del experimento.

−0.05 0 0.05

−0.05

0

0.05

(a) Señal recibida.

−1 −0.5 0 0.5 1

−1

−0.5

0

0.5

1

(b) Usuario detectado.

Fig. 8.19: Señal recibida (a) en el experimento con medidas reales y señal resultante tras la aplica-ción del método propuesto para la detección ciega de usuarios (b). Para la señal recibidase representan la señal continua, en azul, y los puntos de muestreo en rojo. La relaciónEsNo recibida fue estimada en 8.2 dB.

8.5 CONCLUSIONES

Hemos desarrollado una plataforma de radiocomunicaciones que, si bien aún no puedeser considerada estrictamente como una plataforma software radio, sí permite una granflexibilidad a la hora de definir mediante software las señales en banda base, e inclusolas componentes de fase y cuadratura para realizar una modulación digital arbitraria, demodo que, desde el punto de vista del transmisor, está definida por software hasta la etapade IF. Sin embargo, es cierto que el demodulador del receptor está implementado con

Page 195: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice 179

un analizador de espectro comercial, de modo que, aunque controlable mediante pc, lademodulación no está definida por software. En un futuro, el analizador de espectro serásustituido por tarjetas de adquisición insertadas en el pc, de manera que la plataformapueda considerarse definida por software. En cualquier caso, mediante un pc podemosdefinir y controlar la señal de transmisión y podemos controlar la recepción, lo cual nospermite evaluar las técnicas de trasmisión y detección de señales digitales en un entornoreal.

En particular hemos probado tanto la transmisión y detección de secuencias de sím-bolos sin usuarios interferentes como la detección bajo la existencia de un usuario interfe-rente. En este último caso, y debido a la limitación de disponer tan sólo de un transmisor,el sistema de acceso múltiple recreado es parcialmente real, puesto que, aunque la dobletransmisión permite tener un canal diferente para cada usuario, no existe el asincronismoentre los usuarios. En estas condiciones, e incluso en situación de near-far y un nivel deruido considerable, el método de detección propuesto en el capítulo 6 consigue estimar lasecuencia de símbolos del usuario deseado (el más débil).

APÉNDICE A. CARACTERÍSTICAS DE LOS SUSTRATOS DE COBRE UTILI-ZADOS EN LAS PCB

En la tabla 8.9 se detallan las características del sustrato de cobre empleado en las PCBde los cabezales de RF transmisor y receptor.

Característica ValorConstante dieléctrica 2.17

tan(δ) 0.0008 @ 10 GHzMetalizado doble caraEspesor del cobre 17.5 µmEspesor dieléctrico 0.508 mm

Tab. 8.9: Características de los sustratos de cobre utilizados para realizar las PCB.

APÉNDICE B. FRONT-END TRANSMISOR

Componentes del front-end transmisor

En la tabla 8.10 se relacionan los componentes del front-end transmisor, detallando elfabricante así como una breve descripción de los mismos.

Page 196: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

180 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

Componente Descripción FabricanteSAW Filtro BP 140 MHz SAWTEKMAR-8 Amplificador MINICIRCUITSMCA1-60 Mezclador MINICIRCUITSGIGAFIL Filtro BP 5.25 GHz MURATAMNA-7 Amplificador MINICIRCUITSL1, L4 47 nH MEGGITT SIGMAL2, L3 68 nH MEGGITT SIGMAC1, C3 10 nF PHYCOMPC2, C10, C12, C14 1 µF PHYCOMPC4-C9, C11, C13 1000 pF PHYCOMPR1, R2 390 Ohm PHILIPSR3, R5 33 Ohm PHILIPSR4, R6 150 Ohm PHILIPS

Tab. 8.10: Componentes del transmisor.

En la tabla 8.11 se describen las características más importantes de los componentesdel front-end transmisor.

SAW: Filtro BP de SAWTEK, 854927Frecuencia central 140 MHzAncho de banda 1 dB 32 MHzAncho de banda 3 dB 33.5 MHzPérdidas de inserción 12 dB

MAR-8SM: Amplificador, MinicircuitsRango de frecuencias DC-1000 MHzGanancia a 140 MHz 30 dBPunto de compresión de 1 dB (salida) 12.5 dBmAlimentación 7.8 V

MCA1-60: Mezclador, MinicircuitsRango de frecuencias para LO 1600-6000 MHzRango de frecuencias para IF DC-2000 MHzPérdidas de conversión 9 dBAislamiento LO-RF 23 dB (@ 5 GHz)Aislamiento LO-IF 18 dB (@ 5 GHz)Potencia de entrada LO +7 dBm

GIGAFIL 5.25 GHz.: Filtro BP, Murata, DFCB25G25s

Page 197: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice 181

Frecuencia central 5.25 GHzAncho de banda 200 MHzPérdidas de inserción 1.5 dB

MNA-7: Amplificador, Mnicircuits, Serie MNARango de frecuencias 1.5 - 5.9 GHzGanancia a 5.25 GHz 15 dBPunto de compresión de 1 dB (salida) +15 dBmAlimentación 5 V

Tab. 8.11: Características más relevantes de los componentes del front-end transmisor.

Caracterización del front-end transmisor: alimentación y pérdidas de loscables

A continuación detallamos en la tabla 8.12 las condiciones de alimentación y pérdidas enlos cables para la caracterización del front-end transmisor.

AlimentaciónFuente de alimentación 15 VEntrada DC MAR-8 7.9 VEntrada DC MNA-7 4.2 VConsumo total 110 mA

Pérdidas en los cablesRF (5.25 GHz) 3 dBIF (140 MHz) 0.5 dB

Tab. 8.12: Condiciones de alimentación y pérdidas en los cables en que se realizó la caracteriza-ción del front-end transmisor.

APÉNDICE C. FRONT-END RECEPTOR

Componentes del front-end receptor

En la tabla 8.13 se relacionan los componentes del front-end receptor, describiéndosebrevemente los mismos y detallando los fabricantes.

En la tabla 8.14 se describen las características más importantes de los componentesdel front-end receptor en cuanto a anchos de banda, puntos de intercepto o ganancias.

Page 198: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

182 8. Plataforma de radiocomunicaciones en la banda de 5 GHz

Componente Descripción FabricanteSAW Filtro BP 140 MHz SAWTEKMAR-8 Amplificador MINICIRCUITSMCA1-60 Mezclador MINICIRCUITSGIGAFIL Filtro BP 5.25 GHz MURATAVAM-77 Amplificador MINICIRCUITSL1, L4 47 nH MEGGITT SIGMAL2, L3 68 nH MEGGITT SIGMAC1-C3 10 nF PHYCOMPC4-C6, C8 1 µF PHYCOMPC7, C9-C11 1000 pF PHYCOMPR1-R4 390 Ohm PHILIPSR5 680 Ohm PHILIPSR6 2K2 Ohm PHILIPS

Tab. 8.13: Componentes del receptor.

SAW: Filtro BP de SAWTEK, 854927Frecuencia central 140 MHzAncho de banda 1 dB 32 MHzAncho de banda 3 dB 33.5 MHzPérdidas de inserción 12 dB

MAR-8SM: Amplificador, MinicircuitsRango de frecuencias DC-1000 MHzGanancia a 140 MHz 30 dBPunto de compresión de 1 dB (salida) 12.5 dBmAlimentación 7.8 V

MCA1-60: Mezclador, MinicircuitsRango de frecuencias para LO 1600-6000 MHzRango de frecuencias para IF DC-2000 MHzPérdidas de conversión 9 dBAislamiento LO-RF 23 dB (@ 5 GHz)Aislamiento LO-IF 18 dB (@ 5 GHz)Potencia de entrada LO +7 dBm

GIGAFIL 5.25 GHz.: Filtro BP, Murata, DFCB25G25sFrecuencia central 5.25 GHzAncho de banda 200 MHz

Page 199: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice 183

Pérdidas de inserción 1.5 dBVAM-77: Amplificador, Mnicircuits

Rango de frecuencias DC - 6 GHzGanancia a 5.25 GHz 10 dBPunto de compresión de 1 dB (salida) +4 dBmAlimentación 3.3 V

Tab. 8.14: Características más relevantes de los componentes del front-end receptor.

Caracterización del front-end receptor: alimentación

A continuación detallamos en la tabla 8.15 las condiciones de alimentación para la carac-terización del front-end receptor.

AlimentaciónFuente de alimentación 15 VEntrada DC MAR-8 7.8 VEntrada DC VAM-77 3.5 VConsumo total 90 mA

Tab. 8.15: Condiciones de alimentación y pérdidas en los cables en que se realizó la caracteriza-ción del front-end receptor.

Page 200: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 201: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Capítulo 9

Conclusiones y líneas futuras de trabajo

En este capítulo se presentan las conclusiones que se derivan del trabajo de investigaciónrealizado, así como las líneas de investigación futuras que proponemos.

9.1 CONCLUSIONES

Hemos estudiado los problemas de Separación y Extracción ciega de fuentes mediante elAnálisis de Componentes Independientes en mezclas lineales e instantáneas, así como suaplicación a la detección ciega de usuarios en sistemas de comunicaciones por radio conAcceso Múltiple por División de Código. La aplicación de técnicas ciegas en la detecciónen sistemas de comunicaciones supone una opción atractiva, pues evita la disminución dela eficiencia espectral propia de las técnicas supervisadas. Se ha podido comprobar que elAnálisis de Componentes Independientes es una alternativa útil y eficaz a las técnicas deigualación ciega en la detección de usuarios en sistemas CDMA, incluso en condicionesadversas, tales como: la presencia de ruido aditivo, el asincronismo entre usuarios, canalescon multitrayectos y potencias de señal diferentes para usuarios diferentes.

Por su robustez, uno de los enfoques más exitosos dentro del Análisis de ComponentesIndependientes es la optimización conjunta de estadísticos de orden superior. Hemos se-guido esta línea y probado que la optimización conjunta de cumulantes de distinto orden1

proporciona una mejora considerable en el comportamiento de los algoritmos de extrac-ción ciega con respecto a los que emplean únicamente la kurtosis de la salida. Hemosproporcionado, además, un soporte teórico para la extensión de los algoritmos ThinICAal caso de señales con valores complejos [Durán03a].

La maximización de la no Gaussianidad mediante aproximaciones de la entropía dela salida empleando no linealidades es otro de los métodos más populares en el ámbitodel Análisis de Componentes Independientes. Hemos propuesto un nuevo algoritmo de

1 Por consideraciones prácticas relacionadas con la precisión de la estima hemos utilizado los cumulantesde orden dos, cuatro y seis.

Page 202: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

186 9. Conclusiones y líneas futuras de trabajo

extracción ciega (MNT) que combina las ventajas de las funciones objetivo basadas enno linealidades (como la robustez frente a outliers) y las ventajas de convergencia delos algoritmos ThinICA, realizando en cada iteración la maximización de una funcióncuadrática del vector de extracción. Este nuevo algoritmo presenta resultados similares alalgoritmo ThinICA para señales de comunicaciones.

Se ha comprobado cómo la minimización de la entropía de la salida está muy relacio-nada con los métodos de máxima verosimilitud y mínima información mutua a través de laTeoría de la Información. En este sentido, hemos propuesto utilizar las entropías de Rényide orden cero como criterio de extracción. Empleando la propiedad de super-aditividadde funciones exponenciales de la entropía de Rényi de orden 0 y 1 hemos demostradoque, forzando un vector de extracción de norma-2 unitaria, la minimización de la medidadel recubrimiento convexo del soporte de la salida conduce a la extracción de la fuentede mínimo soporte [Cruces04c]. Hemos propuesto, así, un nuevo criterio de ExtracciónCiega de Fuentes para señales de valores reales, el cual ha mostrado ser robusto frente ala existencia de fuertes niveles de ruido aditivo isótropo y acotado en las observaciones,una novedosa e interesante característica.

Como alternativa a los detectores ciegos basados en el criterio de filtro inverso hemosaplicado estas técnicas ICA a la detección ciega de usuarios en sistemas de comunicacio-nes CDMA asíncronos, con canales multitrayecto, y posibilidad de near-far [Durán07].Aunque el modelo de señal recibida es cicloestacionario con un patrón de mezcla MISO,la hipótesis de independencia entre los símbolos y la existencia de los códigos de usuarionos han permitido convertir el modelo MISO cicloestacionario original para el sistema decomunicación, en un modelo MIMO instantáneo, lo que permite la aplicación del Aná-lisis de Componentes Independientes. Para la recuperación de la secuencia de símbolosdel usuario deseado es necesario aplicar alguna restricción basada en el código de di-cho usuario. Otros métodos existentes logran esto mediante una proyección del vectorde extracción en cada iteración. Por el contrario, nosotros lo hemos logrado reduciendola dimensión del vector de observaciones y trasladando así la restricción del vector deextracción a los datos, lo cual comporta un notable ahorro computacional. A través desimulaciones se ha comprobado que el método propuesto presenta un mejor comporta-miento en error cuadrático medio y en probabilidad de error de símbolo que algoritmosconsolidados, como los basados en el criterio de filtro inverso [Tugnait01] para deconvo-lución ciega o los algoritmos FastICA [Bingham00] y N-CMN [Novey08] en el caso delanálisis ICA.

Por último, con la finalidad de validar los resultados en un entorno real de laboratoriohemos participado en el desarrollo de una plataforma de radiocomunicación en la bandade 5 GHz, en la que está definido por software todo lo relativo a banda base (tanto entransmisión como en recepción) y al esquema de modulación, y controlada por software

Page 203: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

9.2. Líneas futuras 187

la generación de la frecuencia intermedia y la recuperación de la banda base. Empleandoesta plataforma hemos probado en un entorno real de laboratorio el método de detecciónpropuesto, aplicándolo con éxito a los datos recibidos al realizar una transmisión de dosusuarios.

9.2 LÍNEAS FUTURAS

El algoritmo de mínimo soporte para señales reales reclama una extensión obvia: su desa-rrollo para señales de valores complejos. Aunque ya se han dado pasos en ese sentido,dicha extensión requiere una demostración de la no existencia de mínimos locales que nosean solución al problema.

Un problema aún abierto al que se enfrenta el Análisis de Componentes Independien-tes y, en general la Separación y la Extracción Ciega de Fuentes, es la estimación delnúmero de fuentes presentes en la mezcla y la reducción de la dimensión de las observa-ciones. Tradicionalmente el problema es resuelto mediante el Análisis de ComponentesPrincipales, pero este método suele fallar cuando se trabaja con un gran número de sen-sores, comparable a la longitud de los datos [Ulfarsson08].

El creciente interés por las comunicaciones inalámbricas con tecnologías de transmi-sión y recepción con múltiples antenas (MIMO) sugiere la necesidad de desarrollar técni-cas ciegas específicas para la recepción de las señales en este tipo de sistemas. Es decir,técnicas que combinen la información estructural de los sistemas MIMO y la informaciónestadística de las señales de información.

Una extensión interesante de los métodos propuestos consiste en desarrollar estos pa-ra la recuperación simultánea de varias señales. Así, la formulación teórica del criterio ydel algoritmo ThinICA propuesta para extracción de una fuente compleja puede hacersetambién para la extracción simultánea de más de una fuente. Por otro lado, sería deseabletambién desarrollar el algoritmo MNT para la extracción simultánea de varias fuentes. Unaspecto interesante y delicado de este algoritmo es la no linealidad elegida. Sería deseablela realización de un estudio de posibles alternativas a la función que hemos utilizado eneste trabajo, teniendo en cuenta el tipo de señales que se pretende recuperar y su compor-tamiento para el tipo de algoritmo que estamos empleando. Del mismo modo, el algoritmode detección ciega de usuarios en sistemas CDMA que hemos propuesto recupera la se-cuencia de símbolos de un único usuario. Es evidente que la detección de varios usuariospuede hacerse ejecutando el método tantas veces como usuarios deseemos detectar, uti-lizando cada vez un código de usuario diferente. Sin embargo, una alternativa puede serdesarrollar una restricción mediante la cual puedan ser detectados varios usuarios de ma-nera simultánea. La restricción debería implementarse de forma que las columnas de lamatriz de extracción pertenecieran al subespacio definido por las columnas de una matriz

Page 204: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

188 9. Conclusiones y líneas futuras de trabajo

de restricción. Otra opción es combinar el método propuesto con las técnicas de cancela-ción substractiva de interferencias. Esto permitiría la utilización de una información de laque dispone la estación base, como son los códigos de todos los usuarios.

En cuanto a la plataforma software radio varias mejoras pueden realizarse. Por un ladoes deseable que la plataforma pase a estar completamente definida por software (salvo loscabezales de RF). Para ello, una buena solución sería la utilización de tarjetas de transmi-sión y adquisición insertadas en el pc que permitan realizar los procesos de modulacióny demodulación completamente vía software. Asimismo, esto debe permitir una captu-ra mayor de datos, eliminando la restricción impuesta actualmente por el analizador deespectro.

Por otro lado, es deseable un incremento del aislamiento de la señal de RF con respectoal oscilador local, ya que actualmente una gran cantidad de la señal de LO se introduceen la de RF. Una posible solución consiste en realizar una segunda etapa de conversiónen los cabezales de RF, lo cual incrementará la distancia entre la frecuencia de RF y la deLO.

Page 205: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice

Page 206: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 207: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Apéndice A

Notación y abreviaturas

A.1 NOTACIÓN

Símbolo Descripción∗ Convolución

(·)∗ Complejo conjugado del argumento(·)T Matriz traspuesta de la matriz argumento(·)H Matriz traspuesta Hermítica (compleja conjugada y traspuesta) de

la matriz argumento(·)+ Pseudoinversa de Moore-Penrose de la matriz argumento[(·)ij] Matriz cuyas filas están numeradas por el índice i y cuyas colum-

nas están numeradas por el índice j

∇B, ∇U Gradiente con respecto a la matriz de separación∇b, ∇u Gradiente con respecto al vector de extracción∇<= Pseudogradiente complejo∇B Gradiente natural con respecto a la matriz de separación

0M,N , 0M×N Matriz nula de dimensión M ×N

A Matriz de mezclaAij Elemento de la fila i-ésima y la columna j-ésima de la matriz de

mezclaAij(z) Respuesta en frecuencia del canal entre la fuente j-ésima y la ob-

servación i-ésima en un sistema MIMOaij(l) Respuesta impulsiva del canal entre la fuente j-ésima y la obser-

vación i-ésima en un sistema MIMOaj Columna j-ésima de la matriz de mezclaaj Vector de canal del usuario j-ésimo

aj(m) Respuesta impulsiva del canal discreto correspondiente al usuarioj-ésimo

Page 208: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

192 A. Notación y abreviaturas

Símbolo Descripciónaj(t) Respuesta impulsiva del canal continuo correspondiente al usua-

rio j-ésimoAn Matriz de mezcla ampliada por el ruido

αY(ω) Primera función característica del vector de salidasαYj

(ωj) Primera función característica de la salida j-ésimab Vector de extracción de una fuente; filtro de igualación

b(t) Señal de información e tiempo continuob(0) Vector inicial de extracciónb∗ Solución para el vector de extracción de una fuentebo Vector de extracción con dimensión reducidab

(0)o Vector inicial de extracción para observaciones reducidas

bo∗ Solución para el vector de extracción de la primera etapa del al-goritmo de detección

B Matriz de separaciónBE Matriz de extracción de E fuentesBij Elemento de la fila i-ésima y la columna j-ésima de la matriz de

separaciónbj(k) Secuencia de símbolos del usuario j-ésimoC

(d)j0

Matriz de códigos del usuario j0-ésimoC(d)

j0Matriz de códigos ampliada del usuario j0-ésimo

CrYi

Cumulante de orden r de Yi

Cα,βYi,Yj

Cumulante cruzado de orden α + β de las salidas i-ésima y j-ésima

c(t) Forma de onda con el código del usuariocj Vector de códigos del usuario j-ésimo

cj(m) Secuencia de chips del usuario j-ésimoCα,β

Y,Y Matriz de cumulantes cruzados de orden α + β

cxy(r) Cumulante cruzado de orden r entre la salida y las observacionescxy(p, q) Cumulante cruzado de orden p + q entre la salida y las observa-

cionesczy(r) Cumulante cruzado de orden r entre la salida y las observaciones

preblanqueadasczy(p, q) Cumulante cruzado de orden p + q entre la salida y las observa-

ciones preblanqueadas

ρ(q,dj0

+lj0,r)

j0,j Vector de código del usuario j-ésimo desplazado hacia arriba

c(dj0

+lj0,r)

j0,q Vector de código del usuario j-ésimo desplazado hacia abajo

Page 209: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

A.1. Notación 193

Símbolo Descripcióncum(·) Cumulante de los argumentoscumr(·) Cumulante de orden r del argumento

D Matriz diagonal arbitraria regularDα(fY‖gY) Density power divergence entre dos f.d.p. fY y gY

DfY‖gY Divergencia de Kullback-Leibler entre dos f.d.p. fY y gY

d Retraso con que se recupera la secuencia de símbolos deseadadiag(·) Matriz diagonal cuyos elementos diagonales aparecen en el argu-

mentodj Retraso de transmisión del usuario j-ésimo

e(n) Función de error en el algoritmo LMSep Vector unitario con un único elemento nulo (en la posición p)

e(n) Función de error corregida en los algoritmos BussgangE[X], E[x] Esperanza de X

Es Energía de símbolo del usuario deseadoF (Y ), F (y) Función no lineal para aproximación de la entropía negativaφΩ(u[m]) Función contraste para maximización cíclica mediante ThinICAφΩ(u(i)) Función contraste para maximización secuencial mediante Thin-

ICAϕY(ω) Segunda función característica del vector de salidasϕYj

(ωj) Segunda función característica de la salida j-ésimag Vector global de extraccióngj Elemento j-ésimo del vector global de extraccióng

(j)∗ Vector global de extracción que extrae la j-ésima fuente

g(y) Derivada de G(y)

g′(y) Derivada de g(y)

G(Y ), G(y) Función no lineal para aproximación de la entropía negativaG Matriz global de transferenciaG∗ Matriz global de transferencia que produce la separaciónGij Elemento de la fila i-ésima y la columna j-ésima de la matriz

global de transferenciaH(l) Matriz de canales efectivos de todos los usuarios

HF (·, ·) Matriz Hessiana de la función F

h(Y), h(y) Entropía diferencial de Y

h(·|·) Entropía diferencial condicional de dos variableshj(l) Vector de canal efectivo del usuario j-ésimoh

(d)j Vector de canal efectivo ampliado del usuario j-ésimo

Page 210: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

194 A. Notación y abreviaturas

Símbolo Descripciónhj(m) Respuesta impulsiva del canal efectivo del usuario j-ésimohr(Y ) Entropía de Renyi de orden r de Y

I(·) Función de información mutuaI Matriz identidadIN Matriz identidad de dimensión N ×N

IA Índice cuadrático de AmariJ(Y), J(y) Entropía negativa de Y

J($)(y), J($)(y) Criterio para el algoritmo ($)JNeg(u

(i)) Criterio para maximización secuencial de aproximaciones de laentropía negativa

Jf (u) Matriz Jacobiana de la función f(u)

k4(·) Kurtosisl(·|·) Función de verosimilitud logarítmica normalizadaL(·|·) Función de verosimilitudLe Número de retrasos introducidos para construir el modelo instan-

táneo CDMALj Longitud del canal vector efectivo del usuario j-ésimo

Lr(R) Espacio de Lebesgue para la norma r

λi Valor singular i-ésimo de A

Λ Matriz diagonal de valores singulares no nulos de A

Λn Matriz diagonal de los n mayores valores singulares de A

Λ Matriz diagonal de valores singulares completa de A

Λ2 Matriz diagonal de autovalores de Rx completaM Número de observaciones

M(z) Matriz filtro en el detector MMSEN Número de fuentesNc Longitud de la secuencia de chips (ganancia de procesamiento)No Densidad espectral de potencia de ruidoNu Número de usuarios

n(m) Secuencia de ruido aditivo a la entrada del receptorn(t) Ruido aditivo a la entrada del receptor en tiempo continuon(k) Vector de ruidonA(k) Proyección del ruido en las fuentesni(k) Componente de ruido en la observación i-ésima

n(p)j0

(k) Correlación entre el vector de códigos del usuario j0-ésimo y elvector de ruido

Page 211: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

A.1. Notación 195

Símbolo Descripciónn(k) Vector de ruido en el modelo convolutivo para CDMAP Matriz de permutaciónPs Probabilidad de error de símbolo

pS(s) f.d.p. conjunta del vector de fuentespSj

(sj) f.d.p. de la fuente j-ésimapS(s) f.d.p. conjunta estimada del vector de fuentes

pSj(sj) f.d.p. estimada de la fuente j-ésima

pY(y) f.d.p. conjunta del vector de salidaspY|X(x,y) f.d.p. de Y condicionada por X

pYj(yj) f.d.p. de la salida j-ésima

pY (y) f.d.p. estimada de la salidaqY(y) f.d.p. de referencia para las salidasQL Matriz unitaria de salida en la SVD de A correspondiente a valo-

res singulares no nulosQL⊥ Complemento ortogonal de QL

QLn Matriz unitaria de salida en la SVD de A correspondiente a los n

mayores valores singulares de A

QL Matriz unitaria de salida completa en la SVD de A

QR Matriz unitaria de entrada completa en la SVD de A

QR Matriz unitaria de entrada en la SVD de A correspondiente a va-lores singulares no nulos

Rx Matriz de autocorrelación del vector de observacionesRz Matriz de autocorrelación del vector de observaciones preblan-

queadoR(z) Matriz total de correlaciones de las secuencias de ensanchado

Ri,j(z) Matriz de correlaciones de las secuencias de ensanchado para losusuarios i-ésimo y j-ésimo

ρ(q,dj0

+lj0,r)

j0,j Correlación entre el código del usuario j0 y el vector c(dj0

+lj0,r)

j0,q

ρ(q,dj0

+lj0,r)

j0,j Correlación entre el código del usuario j0 y el vector c(dj0

+lj0,r)

j0,q

s, s(k) Vector de fuentes de media ceroS,S(k) Proceso aleatorio generador del vector de fuentess(k) Vector de observaciones con media distinta de ceros(k) Vector de secuencias de símbolos extendidos(z) Transformada Z de s(k)

sj(k) Muestra k-ésima de la fuente j-ésimaSj(k) Proceso aleatorio generador de la fuente sj(k)

Page 212: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

196 A. Notación y abreviaturas

Símbolo Descripciónsn(k) Vector de fuentes ampliado por el ruido

sn,A(k) Vector de fuentes con ruido aditivos(k) Vector de fuentes del modelo convolutivo para CDMAσ2 Varianza del ruido

ψ(·) Función contrasteψΩ(y) Función contraste para maximización cíclica mediante el algorit-

mo ThinICATb Período de símboloTc Intervalo de chipT Desplazamiento acíclico hacia la derechaT Desplazamiento acíclico hacia la izquierdau Vector de extracción unitario de una fuenteu∗ Solución para el vector de extracción unitario de una fuenteuj Vector unitario de extracción para la salida j-ésima; columna j-

ésima de la matriz unitaria de separaciónu(0) Vector inicial de extracción unitariouo Vector de extracción unitario para observaciones de dimensión

reducidauo∗ Solución para el vector de extracción unitario de la primera etapa

del algoritmo de detecciónu

(0)o Vector inicial de extracción unitario para observaciones reducidas

u[q] Candidato q-ésimo para el vector de extracciónU Matriz unitaria de separaciónU∗ Solución para la matriz unitaria de separaciónUq Matriz unitaria de extracción de q fuentesU Variable aleatoria multidimensional uniforme en [0, 1]N

V Matriz unitaria de mezclaW Matriz de preblanqueoWo Matriz de preblanqueo para observaciones de dimensión reducida

x,x(k) Vector de observaciones de media ceroX, X(k) Proceso asociado al vector de observacionesxE(k) Proyección de E salidas en las observacionesxE(k) Vector de observaciones con E fuentes eliminadas por deflaciónxo(k) Vector de observaciones con dimensión reducidax(k) Vector de observaciones con media distinta de ceroxi(k) Muestra k-ésima de la observación i-ésima

Page 213: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

A.1. Notación 197

Símbolo Descripciónx(k) Vector de observaciones del modelo convolutivo para CDMAx(m) Señal discreta observada en el receptorx(t) Señal continua observada en el receptor

xj(m) Contribución (en tiempo discreto) del usuario j-ésimo en el re-ceptor

xj(t) Contribución (en tiempo continuo) del usuario j-ésimo en el re-ceptor

x(t) Señal transmitida en tiempo continuoxj(m) Señal discreta transmitida por el usuario j-ésimoy(k) Salida del sistema de extracción de una sola fuentey Conjunto de posibles salidas

y(k) Vector de salidas del banco de correladoresy(z) Transformada Z de y(k)

y[q](k) Salida correspondiente al vector de extracción u[q]

y,y(k) Vector de salidas de media ceroY, Y(k) Proceso asociado al vector de salidasyE(k) Vector de salidas para la extracción de E fuentesYGauss Variable aleatoria Gaussianayj(k) Muestra k-ésima de la salida j-ésimayj,r(k) Salida del correlador con retraso r para el usuario j

z(k) Vector de observaciones preblanqueadozo(k) Vector de observaciones de dimensión reducida preblanqueado

Tab. A.1: Notación

Page 214: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

198 A. Notación y abreviaturas

A.2 SIGLAS Y ABREVIATURAS

Acrónimo DescripciónBSE Extracción ciega de fuentesBSS Separación ciega de fuentes

CDMA Acceso múltiple por división de códigoDS-CDMA CDMA de secuencia directaENTMAX Maximización de la entropía

FDMA Acceso múltiple por división de frecuenciaf.d.p. Función de densidad de probabilidadFIR Respuesta impulsiva finita

GMSK Modulación por desplazamiento mínimo GaussianaHOS Estadísticos de orden superiorICA Análisis de componentes independientesi.i.d Independientes e idénticamente distribuidasIIR Respuesta impulsiva infinita

INFOMAX Maximización de la transferencia de la informaciónISI Interferencia inter-símboloK-L (Divergencia de) Kullback-LeiblerLMS Least-mean squareLTI Lineal e invariante en el tiempoMAI Interferencia por multiaccesoME Maximización de la entropía

MED Deconvolución por minimización de entropíaMI Información mutua

MIMO Múltiples entradas y múltiples salidasMISO Múltiples entradas y salida únicaML Máxima verosimilitud

MMI Mínima información mutuaMMSE Mínimo error cuadrático medioM-PSK Modulación por desplazamiento de fase M-aria

MSE Error cuadrático medioMUD detector multiusuarioPAM Modulación por amplitud d pulsosPCA Análisis de componentes principalesPIC Cancelación paralela de interferencia

QAM Modulación de amplitud en cuadratura

Page 215: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

A.2. Siglas y Abreviaturas 199

Acrónimo DescripciónQPSK PSK cuaternaria

SIC Cancelación sucesiva de interferenciaSIMO Entrada única y salida múltipleSIR Relación señal a ruido más interferencia

SISO Entrada única y salida únicaSNR Relación señal a ruidoSOS Estadísticos de segundo ordenSS Espectro ensanchado

SVD Descomposición en valores singularesTDMA Acceso múltiple por división de tiempoZF-DF Detector de cero forzado realimentado por decisión

Tab. A.2: Siglas

Page 216: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

200 A. Notación y abreviaturas

A.3 ABREVIATURAS DE LOS ALGORITMOS

Abreviatura AlgoritmoAMUSE Algoritmo para extracción múltiple de señales desconocidas

BCA Análisis de componentes acotadasCMA Algoritmo de módulo constanteEASI Separación adaptativa equivariante por medio de la independencia

FastICA Algoritmo rápido de punto fijo para ICAFKMA Algoritmo rápido de maximización de kurtosisFOBI Identificación ciega de cuarto ordenIFC Criterio de filtro inverso

JADE Diagonalización conjunta aproximada de auto-matricesG-CMN Maximización compleja de la no Gaussianidad mediante un mé-

todo de gradienteMNT Maximización de la no Gaussianidad mediante iteraciones de tipo

ThinICAN-CMN Maximización compleja de la no Gaussianidad mediante un mé-

todo cuasi-NewtonSEONS Separación de fuentes no estacionarias mediante SOSSOBI Identificación ciega de segundo orden

ThinICA Algoritmo fino de ICA

Tab. A.3: Abreviaturas de los algoritmos

Page 217: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Índice de figuras

1.1. Mezcla y extracción de señales. Un conjunto de N fuentes independientesson mezcladas junto con un ruido aditivo, dando lugar a un conjunto de M

observaciones (M ≥ N ). El sistema de extracción obtiene la estimaciónde P de las fuentes independientes originales (P ≤ N ) . . . . . . . . . . 2

1.2. Rechazo al jamming. Antes de contraer el espectro de la señal, esta tie-ne una menor densidad espectral de potencia que el jamming. Al aplicarel filtro adaptado al código, el espectro de la señal deseada se contrae yocupa una pequeña banda de frecuencia. Por el contrario el jamming seensancha y pasa a ocupar una amplia banda, disminuyendo así su densi-dad espectral de potencia. Al muestrear, conservaremos exclusivamentela banda de la señal, habiendo reducido notablemente el jamming. . . . . 5

1.3. Interconexión entre los capítulos que conforman la tesis. . . . . . . . . . 7

2.1. Modelo de mezcla y separación para mezclas lineales, instantáneas y sinruido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2. Modelo de mezcla y separación para mezclas lineales, instantáneas y conpresencia de ruido aditivo en las observaciones . . . . . . . . . . . . . . 22

4.1. Índice de calidad de Amari para la extracción frente a la longitud de losdatos para fuentes QPSK. La SNR se mantiene fija a 20 dB. . . . . . . . . 82

4.2. Índice de calidad de Amari para la extracción frente a la SNR. La longitudde las señales es de 200 muestras. . . . . . . . . . . . . . . . . . . . . . 82

4.3. Índice de calidad de Amari para la extracción frente a la longitud de losdatos para fuentes 8-PSK. La SNR se mantiene fija a 20 dB. . . . . . . . 83

4.4. Índice de calidad de Amari para la extracción frente a la SNR para fuentes8-PSK. La longitud de las señales es de 200 muestras. . . . . . . . . . . . 83

Page 218: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

202 Índice de figuras

4.5. Entropía de Rényi de orden cero (línea continua) y cota inferior (línea depuntos) bajo diferentes restricciones de igualdad de norma k. La matriz demezcla es A = [2, 1;−2, 1] y, en las figuras, el eje de abscisas representael ángulo atan

(b2b1

)del vector bT = [b1, b2]. . . . . . . . . . . . . . . . 89

4.6. Entropía de Rényi de orden cero de la salida y cota inferior bajo la nor-malización descrita en el lema 4.2. Las observaciones fueron formadas apartir de una mezcla de dos fuentes mediante la matriz A = [2, 1;−2, 1].A partir de las figuras se puede observar que el mínimo de la entropía deorden cero de Rényi (es decir, el mínimo soporte de la salida), coincidecon la extracción de una de las fuentes. . . . . . . . . . . . . . . . . . . . 90

4.7. Extracción de una fuente binaria y uniforme en presencia de ruido isótro-po y acotado. La primera y segunda figuras muestran, respectivamente, eldiagrama de puntos de las observaciones y de la señales recuperadas. Latercera figura muestra como el ruido incrementa, en todas las direccionespor igual, el soporte de las observaciones. En la cuarta figura, que presen-ta el diagrama de puntos de las componentes de señal a la salida, podemosobservar que la proyección de mínimo soporte conduce a la extracción dela fuente binaria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.1. Mientras en TDMA y en FDMA existen intervalos de tiempo y bandas defrecuencia (respectivamente) no utilizados por el usuario, en CDMA esteutiliza toda la banda del canal y todo el tiempo para la transmisión. . . . . 98

5.2. Esquema de la transmisión de la información de un usuario en un sistemaque utiliza CDMA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.3. Señales de información, de código y transmitida para un usuario de unsistema con CDMA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.4. Generación de la señal de código a partir de la secuencia generadora. Lasecuencia se repite periódicamente. . . . . . . . . . . . . . . . . . . . . . 101

5.5. Autocorrelación (gráfica superior) de una secuencia pseudoaleatoria de2000 muestras y correlación cruzada de dos secuencias pseudoaleatoriastambién de 2000 muestras. . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.6. Señales de información, de código y transmitida de los usuarios 1 y 2. . . 103

5.7. Modelo general de transmisión de símbolos por un usuario en un sistemaDS-CDMA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.8. Detector basado en un filtro adaptado a la secuencia de ensanchado delusuario deseado, en tiempo continuo (a) y en tiempo discreto (b). . . . . . 107

Page 219: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Índice de figuras 203

5.9. Salida del filtro c∗j0(−n)/Nc para Nc = 500 y 1 retardo. Cada 500 chipsel filtro queda alineado a la contribución del usuario deseado, de maneraque es posible conocer el retardo que introduce el canal correspondientea dicho usuario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.10. Salida del filtro c∗j0(−n)/Nc para Nc = 500 y 4 retardos. El receptorpuede conocer así los retardos que introduce el canal correspondiente alusuario deseado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.11. Detector RAKE. Cada una de las ramas se adapta a uno de los retrasosmás significativos del canal. . . . . . . . . . . . . . . . . . . . . . . . . 111

5.12. Detector decorrelador. Después del banco de correladores, se elimina dela secuencia de símbolos de cada usuario la contribución de los restantes(MAI) y la contribución debida a los demás retrasos introducidos por elpropio canal del usuario (ISI). . . . . . . . . . . . . . . . . . . . . . . . 113

5.13. Esquema del detector MMSE. . . . . . . . . . . . . . . . . . . . . . . . 116

6.1. Transmisión de las secuencias de símbolos y superposición de las contri-buciones en el receptor. Cada usuario construye su señal transmitida mul-tiplicando cada símbolo por una secuencia de ensanchado que se transmi-te cíclicamente. La señal transmitida por cada usuario atraviesa un canalmultitrayecto hasta llegar al receptor. En el receptor la señal recibida es lasuperposición de las contribuciones de todos los usuarios. . . . . . . . . . 125

6.2. Las muestras recibidas son agrupadas de Nc en Nc en un vector x(k) quesigue un modelo de sistema MIMO convolutivo. Para construir un modeloMIMO instantáneo con un número de observaciones mayor o igual queel de fuentes agrupamos en el vector x(k) varias versiones retrasadas delvector x(k). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

6.3. Método propuesto para la detección ciega de usuarios en sistemas conDS-CDMA. El método se desarrolla en dos etapas. En la primera es apli-cado un algoritmo de BSE basado en ICA a un vector de observacionescon dimensión reducida debido a la restricción impuesta para forzar la ex-tracción del usuario deseado. En la segunda etapa, de ajuste fino, se aplicael algoritmo de BSE al vector de observaciones original. En esta etapa seutiliza el resultado de la primera para inicializar el vector de extracción. . 134

7.1. Construcción de la señal recibida y obtención de la salida mediante elsistema de detección ciega. Deseamos obtener la secuencia de símbolosdel usuario número 1, por lo que el sistema de detección necesita conocerla secuencia de ensanchado de dicho usuario. . . . . . . . . . . . . . . . 144

Page 220: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

204 Índice de figuras

7.2. Experimento 1. MSE de la secuencia de símbolos obtenida frente a larelación Es/No para una constelación QPSK, 3 usuarios, todos con lamisma potencia, 8 chips/símbolo, 200 símbolos, Le = 3, d = 2. . . . . . 146

7.3. Experimento 1. Probabilidad de error de símbolo en la secuencia obteni-da frente a Es/No para una constelación QPSK, 3 usuarios, todos con lamisma potencia, 8 chips/símbolo, 200 símbolos, Le = 3, d = 2. . . . . . 146

7.4. Experimento 1. MSE de la secuencia de símbolos obtenida frente a la re-lación Es/No para una constelación QPSK, 3 usuarios, el usuario desea-do 10 dB de potencia por debajo del resto, 8 chips/símbolo, 200 símbo-los, Le = 3, d = 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

7.5. Experimento 1. Probabilidad de error de símbolo en la secuencia obte-nida frente a Es/No para una constelación QPSK, 3 usuarios, el usuariodeseado 10 dB de potencia por debajo del resto, 8 chips/símbolo, 200

símbolos, Le = 3, d = 2. . . . . . . . . . . . . . . . . . . . . . . . . . . 147

7.6. Experimento 2. MSE de la secuencia de símbolos obtenida frente a larelación Es/No para una constelación QPSK, 5 usuarios, todos con lamisma potencia, 12 chips/símbolo, 400 símbolos, Le = 5, d = 3. . . . . 149

7.7. Experimento 2. Probabilidad de error de símbolo en la secuencia obteni-da frente a Es/No para una constelación QPSK, 5 usuarios, todos con lamisma potencia, 12 chips/símbolo, 400 símbolos, Le = 5, d = 3. . . . . 149

7.8. Experimento 2. MSE de la secuencia de símbolos obtenida frente a la re-lación Es/No para una constelación QPSK, 5 usuarios, el usuario desea-do 10 dB de potencia por debajo del resto, 12 chips/símbolo, 400 sím-bolos, Le = 5, d = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

7.9. Experimento 2. Probabilidad de error de símbolo en la secuencia obte-nida frente a Es/No para una constelación QPSK, 5 usuarios, el usuariodeseado 10 dB de potencia por debajo del resto, 12 chips/símbolo, 400

símbolos, Le = 5, d = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . 151

7.10. Experimento 3. MSE de la secuencia de símbolos obtenida frente al nú-mero de usuarios activos (todos con la misma potencia) para una cons-telación QPSK con Es/No = 20 dB, 12 chips/símbolo, 400 símbolos,Le = 5, d = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

7.11. Experimento 3. Probabilidad de error de símbolo de la secuencia de sím-bolos obtenida frente al número de usuarios activos (todos con la mis-ma potencia) para una constelación QPSK con Es/No = 20 dB, 12

chips/símbolo, 400 símbolos, Le = 5, d = 3. . . . . . . . . . . . . . . . . 152

Page 221: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Índice de figuras 205

7.12. Experimento 4. MSE de la secuencia de símbolos obtenida frente a larelación Es/No para una constelación 8-PSK, 3 usuarios, todos con lamisma potencia, 8 chips/símbolo, 400 símbolos, Le = 5, d = 3. . . . . . 154

7.13. Experimento 4. Probabilidad de error de símbolo en la secuencia obteni-da frente a Es/No para una constelación 8-PSK, 3 usuarios, todos con lamisma potencia, 8 chips/símbolo, 400 símbolos, Le = 5, d = 3. . . . . . 154

7.14. Experimento 4. MSE de la secuencia de símbolos obtenida frente a la re-lación Es/No para una constelación 8-PSK, 3 usuarios, el usuario desea-do 10 dB de potencia por debajo del resto, 8 chips/símbolo, 400 símbo-los, Le = 5, d = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

7.15. Experimento 4. Probabilidad de error de símbolo en la secuencia obte-nida frente a Es/No para una constelación 8-PSK, 3 usuarios, el usuariodeseado 10 dB de potencia por debajo del resto, 8 chips/símbolo, 400

símbolos, Le = 5, d = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . 155

7.16. Experimento 5. MSE de la secuencia de símbolos obtenida frente a larelación Es/No para una constelación 8-PSK, 5 usuarios, todos con lamisma potencia, 12 chips/símbolo, 800 símbolos, Le = 5, d = 3. . . . . 156

7.17. Experimento 5. Probabilidad de error de símbolo en la secuencia obteni-da frente a Es/No para una constelación 8-PSK, 5 usuarios, todos con lamisma potencia, 12 chips/símbolo, 800 símbolos, Le = 5, d = 3. . . . . 157

7.18. Experimento 5. MSE de la secuencia de símbolos obtenida frente a la re-lación Es/No para una constelación 8-PSK, 5 usuarios, el usuario desea-do 10 dB de potencia por debajo del resto, 12 chips/símbolo, 800 sím-bolos, Le = 5, d = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

7.19. Experimento 5. Probabilidad de error de símbolo en la secuencia obte-nida frente a Es/No para una constelación 8-PSK, 5 usuarios, el usuariodeseado 10 dB de potencia por debajo del resto, 12 chips/símbolo, 800

símbolos, Le = 5, d = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . 158

7.20. Experimento 6. MSE de la secuencia de símbolos obtenida frente al nú-mero de usuarios activos (todos con la misma potencia) para una cons-telación 8-PSK con Es/No = 20 dB, 12 chips/símbolo, 800 símbolos,Le = 5, d = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

7.21. Experimento 6. Probabilidad de error de símbolo de la secuencia de sím-bolos obtenida frente al número de usuarios activos (todos con la mis-ma potencia) para una constelación 8-PSK con Es/No = 20 dB, 12

chips/símbolo, 800 símbolos, Le = 5, d = 3. . . . . . . . . . . . . . . . . 159

8.1. Esquema general de la plataforma software radio. . . . . . . . . . . . . . 162

Page 222: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

206 Índice de figuras

8.2. Fotografías de la plataforma que muestran la colocación de las antenastipo parche de forma opuesta (a) y detalles del front-end receptor y lasconexiones a los equipos (b). . . . . . . . . . . . . . . . . . . . . . . . . 163

8.3. Imagen de la placa correspondiente al front-end transmisor . . . . . . . . 164

8.4. Esquemático del transmisor. Tras su filtrado y amplificación, la señal defrecuencia IF es mezclada con la de LO y convertida a RF. La señal deRF, a su vez, es filtrada y amplificada antes de alimentar a la antena. . . . 165

8.5. Configuración para la caracterización del front-end transmisor. . . . . . . 166

8.6. Potencia de salida de RF frente a potencia de entrada de IF para el front-end transmisor. En línea roja de puntos se representa la relación estimadaen zona lineal para ambas magnitudes. . . . . . . . . . . . . . . . . . . . 167

8.7. Ganancia frente a potencia de entrada de IF para el transmisor. . . . . . . 168

8.8. Respuesta en frecuencia del filtro de RF para el transmisor. Se representala potencia de RF a la salida del front-end transmisor frente a la frecuenciacorrespondiente de RF. . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

8.9. Respuesta en frecuencia del filtro de IF para el transmisor. . . . . . . . . 170

8.10. Espectro de la señal de salida para un tono de IF de 140 MHz. . . . . . . 170

8.11. Espectro de la señal de salida del transmisor para una modulación WCM-DA standard con distintos valores de potencia de IF. A medida que dis-minuye la potencia de salida el recrecimiento de los lóbulos laterales esmenor. Para una potencia de −34.2 dB nos encontramos en zona de tra-bajo lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

8.12. Imagen de la placa correspondiente al front-end receptor . . . . . . . . . 172

8.13. Esquemático del receptor. La señal de RF recibida de la antena es filtraday amplificada antes de ser convertida a IF mediante la mezcla con la señalde LO. Posteriormente, la señal de IF es, a su vez, filtrada y amplificadaantes de ser entregada al demodulador. . . . . . . . . . . . . . . . . . . . 173

8.14. Configuración para la caracterización del front-end receptor. . . . . . . . 174

8.15. Potencia de salida de IF frente a potencia de entrada de RF para el receptor.175

8.16. Ganancia frente a potencia de entrada de RF para el receptor. . . . . . . . 175

8.17. Espectro de la señal de salida del receptor para una modulación de IFWCDMA standard. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

8.18. Señal recibida con una separación de antenas 50 cm. Los puntos rojosmuestran la constelación recibida una vez muestreada la señal. . . . . . . 177

Page 223: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Índice de figuras 207

8.19. Señal recibida (a) en el experimento con medidas reales y señal resultantetras la aplicación del método propuesto para la detección ciega de usuarios(b). Para la señal recibida se representan la señal continua, en azul, y lospuntos de muestreo en rojo. La relación EsNo recibida fue estimada en8.2 dB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

Page 224: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme
Page 225: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Índice de tablas

4.1. Algoritmo ThinICA de maximización conjunta de cumulantes de alto or-den para BSE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.2. Algoritmo MNT para maximización de la no Gaussianidad mediante apro-ximaciones de la entropía negativa que utilizan funciones no lineales dela salida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.1. Algoritmo propuesto para la detección ciega de usuarios en sistemas conDS-CDMA asíncronos y con multitrayectos . . . . . . . . . . . . . . . . 135

8.1. Principales características del cabezal de RF de transmisión . . . . . . . . 164

8.2. Valores de potencia y frecuencia de los tonos utilizados en la determina-ción de las curvas de potencia de salida y ganancia frente a la potencia deentrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

8.3. Valores de potencia y frecuencia de los tonos utilizados en la estimaciónde la respuesta en frecuencia del filtro de RF . . . . . . . . . . . . . . . . 168

8.4. Valores de potencia y frecuencia de los tonos utilizados en la estimaciónde la respuesta en frecuencia del filtro de IF . . . . . . . . . . . . . . . . 169

8.5. Valores de potencia y frecuencia de los tonos utilizados en la captura delespectro de señal desde 9 KHz a 26.5 GHz. . . . . . . . . . . . . . . . . 171

8.6. Valores de potencia y frecuencia de los tonos utilizados en la captura delespectro de salida de RF de la señal modulada según la modulación WCD-MA standard. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

8.7. Características principales del front-end receptor. . . . . . . . . . . . . . 172

8.8. Valores utilizados para la captura del espectro recibido a la salida de IF delreceptor para una señal modulada según la modulación WCDMA standard. 176

8.9. Características de los sustratos de cobre utilizados para realizar las PCB. . 179

8.10. Componentes del transmisor. . . . . . . . . . . . . . . . . . . . . . . . . 180

8.11. Características más relevantes de los componentes del front-end transmisor.181

Page 226: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

210 Índice de tablas

8.12. Condiciones de alimentación y pérdidas en los cables en que se realizó lacaracterización del front-end transmisor. . . . . . . . . . . . . . . . . . . 181

8.13. Componentes del receptor. . . . . . . . . . . . . . . . . . . . . . . . . . 1828.14. Características más relevantes de los componentes del front-end receptor. 1838.15. Condiciones de alimentación y pérdidas en los cables en que se realizó la

caracterización del front-end receptor. . . . . . . . . . . . . . . . . . . . 183

A.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197A.2. Siglas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199A.3. Abreviaturas de los algoritmos . . . . . . . . . . . . . . . . . . . . . . . 200

Page 227: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias

[Adalı04] T. Adalı, T. Kim, V. Calhoun. Independent component analysis by com-plex nonlinearities. Acoustics, Speech, and Signal Processing, 2004.Proceedings. (ICASSP ’04). IEEE International Conference on, vol. 5,págs. V–525–8 vol.5, May 2004.

[Adalı08] T. Adalı, H. Li, M. Novey, J.-F. Cardoso. Complex ICA using nonlinearfunctions. Signal Processing, IEEE Transactions on, vol. 56, núm. 9,págs. 4536–4544, Sept. 2008.

[Ahlfors79] L. Ahlfors. Complex Analysis. McGraw-Hill, New York, 1979.

[Almeida04] L. B. Almeida. Linear and nonlinear ICA based on mutual information-the MISEP method. Signal Processing, vol. 84, núm. 2, págs. 231 –245, 2004. Special Section on Independent Component Analysis andBeyond.

[Amari96] S. Amari, A. Cichocki, H. Yang. A new learning algorithm for blindsignal separation, págs 752–763. Boston, MA: MIT Press, 1996.

[Amari97a] S. Amari, J. F. Cardoso. Blind source separation- semiparametric statis-tical approach. IEEE Transactions on Signal Processing, vol. 45, núm.11, págs. 2692–2697, 1997.

[Amari97b] S. Amari, T.-P. Chen, A. Cichocki. Stability analysis of learning algo-rithms for blind source separation. Neural Networks, vol. 10, núm. 8,págs. 1345–1351, 1997.

[Amari00] S. Amari, A. Cichocki, H. Yang. Blind Signal Separation and Extrac-tion, volumen I, págs 63–138. S. Haykin Editor, Willey & Sons, 2000.

[Anemüller03] J. Anemüller, T. J. Sejnowski, S. Makeig. Complex independent com-ponent analysis of frequency-domain electroencephalographic data.

Page 228: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

212 Referencias

Neural Networks, vol. 16, núm. 9, págs. 1311 – 1323, 2003. Neuro-informatics.

[Aoki01] M. Aoki, M. Okamoto, S. Aoki, H. Matsui, T. Sakurai, Y. Kaneda.Sound source segregation based on estimating incident angle of eachfrequency component of input signals acquired by multiple micropho-nes. Acoustical Science and Technology, vol. 22, núm. 2, págs. 149–157, 2001.

[Barros01] A. K. Barros, A. Cichocki. Extraction of specific signals with tempo-ral structure. Neural Computation, vol. 13, núm. 9, págs. 1995–2003,2001.

[Bell95] A. Bell, T. Sejnowski. An information maximisation approach to blindseparation and blind deconvolution. Neural Computation, vol. 7, págs.1129–1159, 1995.

[Bell00] A. Bell. Information Theory, Independent-Component Analysis andapplications, volumen I, págs 237–264. S. Haykin Editor, Willey &Sons, 2000.

[Belouchrani97] A. Belouchrani, K. Abel-Meraim, J.-F. Cardoso, E. Moulines. A blindsource separation technique using second-order statistics. IEEE Tran-sactions on Signal Processing, vol. 45, núm. 2, págs. 434–444, Feb1997.

[Belouchrani98] A. Belouchrani, M. G. Amin. Blind source separation based on time-frequency signal representations. IEEE TRANSACTIONS ON SIGNALPROCESSING, vol. 46, núm. 11, págs. 2888–2897, November 1998.

[Bensley96] S. Bensley, B. Aazhang. Subspace-based channel estimation for co-de division multiple access communication systems. Communications,IEEE Transactions on, vol. 44, núm. 8, págs. 1009–1020, Aug 1996.

[Benveniste80] A. Benveniste, M. Goursat, G. Ruget. Robust identification of a non-minimum phase system: Blind adjustment of a linear equalizer in datacommunications. Automatic Control, IEEE Transactions on, vol. 25,núm. 3, págs. 385–399, Jun 1980.

[Bercher02] J.-F. Bercher, C. Vignat. A Rényi entropy convolution inequality withapplication. in Proc. of EUSIPCO, Toulouse, France, 2002.

Page 229: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias 213

[Bingham00] E. Bingham, A. Hyvärinen. A fast fixed-point algorithm for inde-pendent component analysis of complex valued signals. InternationalJournal of Neural Systems, vol. 10, págs. 1–8, 2000.

[Blanco03] Y. Blanco, S. Zazo. New Gaussianity measures based on order sta-tistics: application to ICA. Neurocomputing, vol. 51, págs. 303–320,2003.

[Brandwood83] D. Brandwood. A complex gradient operator and its application inadaptive array theory. Communications, Radar and Signal Processing,IEE Proceedings F, vol. 130, núm. 1, págs. 11–16, February 1983.

[Cadzow96] J. A. Cadzow. Blind deconvolution via cumulant extrema. IEEE SignalProcessing Magazine, vol. 13, núm. 3, págs. 24–42, May 1996.

[Calhoun02] V. Calhoun, T. Adalı. Complex infomax: convergence and approxi-mation of infomax with complex nonlinearities. Neural Networks forSignal Processing, 2002. Proceedings of the 2002 12th IEEE Workshopon, vol. , págs. 307–316, 2002.

[Cao96] X.-R. Cao, R. wen Liu. General approach to blind source separation.IEEE Transactions on Signal Processing, vol. 44, núm. 3, págs. 562–571, Marzo 1996.

[Cardoso89] J.-F. Cardoso. Source separation using higher order moments. ICASSP,volumen 4, págs 2109–2112, 1989.

[Cardoso90] J.-F. Cardoso, P. Comon. Tensor based independent component analy-sis. European Signal Processing Conference, EUSIPCO, pág 673U676,1990.

[Cardoso91] J.-F. Cardoso. Super-symmetric decomposition of the fourth-order cu-mulant tensor. blind identification of more sources than sensors. In-ternational Conference on Acoustics, Speech, and Signal Processing,1991. ICASSP-91, volumen 5, págs 3109–3112, Apr 1991.

[Cardoso93] J.-F. Cardoso, A. Souloumiac. Blind beamforming for non Gaussiansignals. IEE Proceedings-F, vol. 140, núm. 6, págs. 362–370, dec 1993.

[Cardoso96] J. Cardoso, B. Laheld. Equivariant adaptive source separation. IEEETransactions on Signal Processing, vol. 44, núm. 12, págs. 3017–3030,dec 1996.

Page 230: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

214 Referencias

[Cardoso97] J. Cardoso. Infomax and maximum likelihood for blind separation.IEEE Signal Processing Letters, vol. 4, núm. 4, , April 1997.

[Cardoso98] J. F. Cardoso. Blind signal separation: Statistical principles. Procee-dings of the IEEE, vol. 86, núm. 10, págs. 2009–2025, 1998.

[Cardoso99] J.-F. Cardoso. High-order contrasts for independent component analy-sis. Neural Computation, vol. 11, núm. 1, págs. 157–192, Jan 1999.

[Cardoso06] J.-F. Cardoso, T. Adali. The maximum likelihood approach to complexICA. Acoustics, Speech and Signal Processing, 2006. ICASSP 2006Proceedings. 2006 IEEE International Conference on, vol. 5, págs. V–V, May 2006.

[Castaing04] J. Castaing, L. D. Lathauwer. An algebraic technique for the blind se-paration of DS-CDMA signals. Proc. of the 12th European Signal Pro-cessing Conference (EUSIPCO 2004), págs 377–380, Vienna, Austria,September 2004.

[Cheun97] K. Cheun. Performance of direct-sequence spread-spectrum RAKEreceivers with random spreading sequences. Communications, IEEETransactions on, vol. 45, núm. 9, págs. 1130–1143, Sep 1997.

[Chi01a] C.-Y. Chi, C.-H. Chen. Cumulant-based inverse filter criteria for MI-MO blind deconvolution: Properties, algorithms, and application toDS/CDMA system in multipath. IEEE Transactions on Signal Pro-cessing, vol. 49, núm. 7, págs. 1282–1299, June 2001.

[Chi01b] C.-Y. Chi, C.-Y. Chen. Blind beamforming and maximum ratio combi-ning by kurtosis maximization for source separation in multipath. Wire-less Communications, 2001. (SPAWC ’01). 2001 IEEE Third Workshopon Signal Processing Advances in, págs 243–246, 2001.

[Chi02] C.-Y. Chi, C.-H. Chen, C.-Y. Chen. Blind MAI and ISI suppressionfor DS/CDMA systems using HOS-based inverse filter criteria. IEEETransactions on Signal Processing, vol. 50, núm. 6, págs. 1368–1381,June 2002.

[Chi06] C.-Y. Chi, C.-C. Feng, C.-H. Chen, C.-Y. Chen. Blind Equalizationand System Identification: Batch Processing Algorithms, Performan-ce and Applications (Advanced Textbooks in Control & Signal Proces-sing). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.

Page 231: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias 215

[Choi02a] S. Choi, A. Cichocki, S. Amari. Equivariant nonstationary source sepa-ration. Neural Networks, vol. 15, núm. 1, págs. 1–154, January 2002.

[Choi02b] S. Choi, A. Cichocki, A. Belouchrani. Second order nonstationary sour-ce separation. Journal of VLSI Signal Processing, vol. 32, núm. 1-2,págs. 93–104, August 2002.

[Choi05] S. Choi, A. Cichocki, H.-M. Park, S.-Y. Lee. Blind source separationand independent component analysis: A review. Neural InformationProcessing - Letters and Reviews, vol. Vol.6, núm. No.1, págs. 1–57,January 2005.

[Cichocki94] A. Cichocki, R. Unbehauen, E. Rummert. Robust learning algorithmfor blind separation of signals. Electronics Letters, vol. 30, núm. 17,págs. 1386–1387, August 1994.

[Cichocki96] A. Cichocki, R. Unbehauen. Robust neural networks with on-line lear-ning for blind identification and blind separation of sources. IEEETransactions on Circuits and Systems-I, vol. 43, núm. 11, págs. 894–906, 1996.

[Cichocki97] A. Cichocki, R. Thawonmas, S. Amari. Sequential blind signal extrac-tion in order specified by stochastic properties. Electronics Letters, vol.33, núm. 1, págs. 64–65, 1997.

[Cichocki03] A. Cichocki, S. Amari. Adaptive blind signal and image processing.John Wiley & Sons, New York, 2003.

[Comon89] P. Comon. Separation of stochastic processes. IEEE Workshop onHigher-Order Spectral Analysis, págs 174–179, Vail, Jun 1989.

[Comon91] P. Comon. Independent component analysis. Internat. Signal Proces-sing Workshop on High-Order Statistics, págs 111–120, Chamrousse,France, July 1991.

[Comon94] P. Comon. Independent component analysis, a new concept? SignalProcessing, vol. 3, núm. 36, págs. 287–314, 1994.

[Comon96a] P. Comon, B. Mourrain. Decomposition of quantics in sums of powersof linear forms. Signal Processing, vol. 53, núm. 2-3, págs. 93 – 107,1996. Higher Order Statistics.

Page 232: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

216 Referencias

[Comon96b] P. Comon. Contrasts for multichannel blind deconvolution. IEEE Sig-nal Processing Letters, vol. 3, núm. 7, págs. 209–211, 1996.

[Comon04] P. Comon. Contrasts, independent component analysis, and blind de-convolution. International Journal of Adaptive Control and Signal Pro-cessing, , núm. 18, págs. 225–243, April 2004.

[Cover91] T. M. Cover, J. A. Thomas. Elements of Information Theory. Wileyseries in telecommunications, John Wiley, 1991.

[Cruces99] S. Cruces. Una visión unificada de los algoritmos de Separación Ciegade Fuentes. Tesis Doctoral, Universidad de Vigo, 1999.

[Cruces01] S. Cruces, A. Cichocki, S. i. Amari. Criteria for the simultaneous blindextraction of arbitrary groups of sources. Proceedings of the third In-ternational Workshop on ICA and BSS, ICA’ 2001, págs 740–745, SanDiego, California, Dic. 2001.

[Cruces03] S. Cruces, A. Cichocki. Blind source extraction with joint approximatediagonalization: Thin algorithms for ICA. Proceedings of the 4rd In-ternational Conference on Independent Component Analysis and BlindSignal Separation (ICA’2003), volumen 2, págs 463–468, Nara, Japan,Abril 2003.

[Cruces04a] S. Cruces, A. Cichocki, S. i. Amari. From blind signal extraction toblind instantaneous signal separation: criteria, algorithms and stability.IEEE Transactions on Neural Networks, vol. 15, núm. 4, págs. 859–873, July 2004.

[Cruces04b] S. Cruces, A. Cichocki, L. D. Lathauwer. Thin QR and SVD facto-rizations for simultaneous blind signal extraction. proc. of the Euro-pean Signal Processing Conference (EUSIPCO), págs 217–220, Vien-na, Austria, 2004.

[Cruces04c] S. Cruces, I. Durán. The minimum support criterion for blind signal ex-traction: a limiting case of the strengthened Young’s inequality. Lectu-re Notes in Computer Science, vol. 3195/2004, págs. 57–64, September2004.

[Cruces07] S. Cruces, A. Sarmiento, I. Durán. The complex version of the mi-nimum support criterion. Lecture Notes in Computer Science, vol.4666/2007, págs. 17–24, September 2007.

Page 233: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias 217

[Delfosse95] N. Delfosse, P. Loubaton. Adaptive blind separation of independentsources: A deflation approach. Signal Processing, vol. 45, págs. 59–83, 1995.

[Desodt90] G. Desodt, D. Muller. Complex independent component analysis ap-plied to the separation of radar signals. M. Torres, Lagunas, editores,Proc. EUSIPCO Conf., Barcelona, volumen II, págs 665–668, Amster-dam, 1990. Elsevier.

[DH93] A. Duel-Hallen. Decorrelating decision-feedback multiuser detectorfor synchronous code-division multiple-access channel. Communica-tions, IEEE Transactions on, vol. 41, núm. 2, págs. 285–290, Feb 1993.

[DH95] A. Duel-Hallen, J. Holtzman, Z. Zvonar. Multiuser detection for CD-MA systems. Personal Communications, IEEE, vol. 2, núm. 2, págs.46–58, Apr 1995.

[Divsalar94] D. Divsalar, M. Simon. Improved CDMA performance using parallelinterference cancellation. págs 911–917 vol.3, Oct 1994.

[Donoho81] D. Donoho. On Minimun Entropy Deconvolution, en Applied TimeSeries Analysis II. D. F. Findley Editor, Academic Press, New York,1981.

[Douglas98] S. Douglas, S.-Y. Kung. Kuicnet algorithms for blind deconvolution.Neural Networks for Signal Processing VIII, 1998. Proceedings of the1998 IEEE Signal Processing Society Workshop, vol. , págs. 3–12,Aug-2 Sep 1998.

[Douglas07] S. C. Douglas. Fixed-point algorithms for the blind separation of arbi-trary complex-valued non-gaussian signal mixtures. EURASIP J. Appl.Signal Process., vol. 2007, núm. 1, págs. 1–15, 2007.

[Durán03a] I. Durán, S. Cruces. An application of ICA to blind DS-CDMA detec-tion: A joint optimization criterion. Lecture Notes in Computer Science,vol. 2687, págs. 305–312, June 2003.

[Durán03b] I. Durán, S. Cruces. Un criterio de optimización conjunta para la de-tección ciega de usuarios en DS-CDMA. Actas del XVIII SimposiumNacional de la Unión Científica Internacional de Radio (URSI 2003).Simposium Nacional de la Unión Científica Internacional de Radio.,págs 100–106, A Coruña, Spain, Sep 2003. URSI 2003.

Page 234: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

218 Referencias

[Durán04] I. Durán, S. Cruces, C. Crespo, J. Reina. An application of independentcomponent analysis to DS-CDMA. Proceedings of the World Automa-tion Congress (WAC), Sevilla, Spain, Jun 2004. WAC 2004.

[Durán07] I. Durán, S. A. Cruces-Alvarez. A joint optimization criterion for blindDS-CDMA detection. EURASIP Journal on Advances in Signal Pro-cessing, vol. 2007, págs. 1–11, 2007.

[Erdogmus02] D. Erdogmus, J. C. Principe, L. Vielva. Blind deconvolution with mi-nimum renyi’s entropy. in Proc. of EUSIPCO, volumen 2, págs 71–74,Toulouse, France, 2002.

[Eriksson05] J. Eriksson, A. Seppola, V. Koivunen. Complex ICA for circular andnon-circular sources. Proc. Eur. Signal Processing Conf. (EUSIPCO),Antalya, Turkey, 2005.

[Eriksson06] J. Eriksson, V. Koivunen. Complex random vectors and ICA models:identifiability, uniqueness, and separability. Information Theory, IEEETransactions on, vol. 52, núm. 3, págs. 1017–1029, March 2006.

[Fiori03] S. Fiori. Extended hebbian learning for blind separation of complex-valued sources. Circuits and Systems II: Analog and Digital SignalProcessing, IEEE Transactions on, vol. 50, núm. 4, págs. 195–202, Apr2003.

[Flanigan83] F. J. Flanigan. Complex Variables: Harmonic and Analytic Functions.Dover Publications, February 1983.

[Friedman74] J. H. Friedman, J. W. Tukey. A projection pursuit algorithm for explo-ratory data analysis. IEEE Transactions on Computers, vol. c-23, núm.9, págs. 881–890, September 1974.

[Gaeta90a] M. Gaeta, J.-L. Lacoume. Source separation without prior knowledge:the maximum likelihood solution. European Signal Processing Confe-rence, EUSIPCO, 1990.

[Gaeta90b] M. Gaeta, J. Lacoume. Source separation without a priori knowledge:The maximum likelihood solution. in Torres, Masgrau and Lagunaseditors, Proc. EUSIPCO Conf., Barcelona, Elsevier, Amsterdam, , págs.621–624, 1990.

Page 235: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias 219

[Gamboa97] F. Gamboa, E. Gassiat. Source separation when the input sources arediscrete or have constant modulus. IEEE Transactions on Signal Pro-cessing, vol. 45, núm. 12, págs. 3062–3072, dec 1997.

[Gardner02] R. J. Gardner. The brunn-minkowski inequality. Bulletin of the Ameri-can Mathematical Society, vol. 39(3), págs. 355–405, 2002.

[Gesbert98] D. Gesbert, J. Sorelius, A. Paulraj. Blind multiuser MMSE detectionof CDMA signals. Proc. of ICASSP, 1998.

[Gesbert99] D. Gesbert, J. Sorelius, P. Stoica, A. Paulraj. Blind multiuser MMSEdetector for CDMA signals in ISI channels. IEEE CommunicationsLetters, vol. 3, núm. 8, págs. 233–235, August 1999.

[Giallorenzi93] T. Giallorenzi, S. Wilson. Decision feedback multiuser receivers forasynchronous CDMA systems. págs 1677–1682 vol.3, Nov-2 Dec1993.

[Girolami97] M. Girolami, C. Fyfe. Extraction of independent signal sources usinga deflationary exploratory projection pursuit network with lateral inhi-bition. Vision, Image and Signal Processing, IEE Proceedings -, vol.144, núm. 5, págs. 299–306, Oct 1997.

[Godard80] D. Godard. Self-recovering equalization and carrier tracking in two-dimensional data communication systems. Communications, IEEETransactions on, vol. 28, núm. 11, págs. 1867–1875, Nov 1980.

[Godfrey78] B. Godfrey. An information theory approach to deconvolution. Stan-ford exploration project, , núm. 15, págs. 157–182, 1978.

[Golub96] G. Golub, C. Van-Loan. Matrix Computations. Johns Hopkins, thirdedición, 1996.

[Grob90] U. Grob, A. Welti, E. Zollinger, R. Kung, H. Kaufmann. Microcellu-lar direct-sequence spread-spectrum radio system using N-path RAKEreceiver. Selected Areas in Communications, IEEE Journal on, vol. 8,núm. 5, págs. 772–780, Jun 1990.

[Haykin02] S. Haykin. Adaptive Filter Theory. Prentice Hall, 4th edición, 2002.

[Hjørungnes07a] A. Hjørungnes, D. Gesbert. Complex-valued matrix differentiation:Techniques and key results. Signal Processing, IEEE Transactions on,vol. 55, núm. 6, págs. 2740–2746, June 2007.

Page 236: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

220 Referencias

[Hjørungnes07b] A. Hjørungnes, D. Gesbert. Hessians of scalar functions of complex-valued matrices: A systematic computational approach. Signal Proces-sing and Its Applications, 2007. ISSPA 2007. 9th International Sympo-sium on, vol. , págs. 1–4, Feb. 2007.

[Holtzman94] J. Holtzman. DS/CDMA successive interference cancellation. SpreadSpectrum Techniques and Applications, 1994. IEEE ISSSTA ’94., IEEEThird International Symposium on, volumen 1, págs 69–78, Jul 1994.

[Honig95] M. Honig, U. Madhow, S. Verdu. Blind adaptive multiuser detection.Information Theory, IEEE Transactions on, vol. 41, núm. 4, págs. 944–960, Jul 1995.

[Honig00] M. Honig, M. Tsatsanis. Adaptive techniques for multiuser CDMAreceivers. IEEE Signal Processing Magazine, vol. 17, núm. 3, págs.49–61, May 2000.

[Hua00] Y. Hua, J. Tugnait. Blind identifiability of fir-mimo systems with co-lored input using second order statistics. Signal Processing Letters,IEEE, vol. 7, núm. 12, págs. 348–350, Dec 2000.

[Huber85] P. J. Huber. Projection pursuit. The Annals of Statistics, vol. 13, núm.2, págs. 435–475, 1985.

[Huovinen06] T. Huovinen, T. Ristaniemi. Independent component analysis usingsuccessive interference cancellation for oversaturated data. EuropeanTransactions on Telecommunications, vol. 17, núm. 5, págs. 577–589,2006.

[Hyvärinen97] A. Hyvärinen, E. Oja. A fast fixed-point algorithm for independentcomponent analysis. Neural Computation, vol. 9, págs. 1483–1492,1997.

[Hyvärinen98] A. Hyvärinen. New approximations of differential entropy for indepen-dent component analysis and projection pursuit. Advances in NeuralInformation Processing Systems, vol. 10, págs. 273–279, 1998.

[Hyvärinen99a] A. Hyvärinen. Survey on independent component analysis. NeuralComputing Surveys, vol. 2, págs. 94U128, 1999.

[Hyvärinen99b] A. Hyvärinen. Fast and robust fixed-point algorithms for indepen-dent component analysis. IEEE TRANSACTIONS ON NEURAL NET-WORKS, vol. 10, núm. 3, págs. 626–634, May 1999.

Page 237: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias 221

[Hyvärinen00] A. Hyvärinen, E. Oja. Independent component analysis: Algorithmsand applications. Neural Networks, vol. 13, núm. 4-5, págs. 411–430,2000.

[Hyvärinen01] A. Hyvärinen, J. Karhunen, E. Oja. Independent Component Analysis.Wiley & Sons, Inc., May 2001.

[Inouye95] Y. Inouye, T. Habe. Blind equalization of multichannel linear timeUin-variant systems. The Institute of Electronics Information and Commu-nication Engineers, vol. 24, págs. 9–16, 1995.

[Inouye97] Y. Inouye. Blind deconvolution of multichannel linear time-invariantsystems of non-minimum phase Statistical Methods in Control and Sig-nal Processing. Marcel Dekker, Inc., New York, NY, USA, 1997.

[Jafari06] M. Jafari, W. Wang, J. Chambers, T. Hoya, A. Cichocki. Sequentialblind source separation based exclusively on second-order statistics de-veloped for a class of periodic signals. Signal Processing, IEEE Tran-sactions on, vol. 54, núm. 3, págs. 1028–1040, March 2006.

[Jones87] M. C. Jones, R. Sibson. What is projection pursuit? Journal of theRoyal Statistical Society. Series A (General), vol. 150, núm. 1, págs.1–37, 1987.

[Jung95] P. Jung, J. Blanz. Joint detection with coherent receiver antenna di-versity in cdma mobile radio systems. Vehicular Technology, IEEETransactions on, vol. 44, núm. 1, págs. 76–88, Feb 1995.

[Jutten88] C. Jutten, J. Hérault. Independent component analysis versus principalcomponent analysis. European Signal Processing Conference, EUSIP-CO88, Grenoble, France, September 1988.

[Jutten91] C. Jutten, J. Hérault. Blind separation of sources, part i: An adaptivealgorithm based on neuromimetic architecture. Signal Processing, vol.24, págs. 1–10, 1991.

[Jutten04] C. Jutten, J. Karhunen. Advances in blind source separation (BSS) andindependent component analysis (ica) for nonlinear mixtures. Int. J.Neural Syst., vol. 14, núm. 5, págs. 267–292, 2004.

[Karhunen97] J. Karhunen, E. Oja, L. Wang, R. Vigario, J. Koutsensalo. A class ofneural networks for independent component analysis. IEEE Transac-tions on Neural Networks, vol. 8, núm. 3, págs. 486–503, Mayo 97.

Page 238: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

222 Referencias

[Kay93] S. M. Kay. Fundamentals of Statistical Signal Processing: EstimationTheory. Prentice Hall, 1993.

[Kendall77] M. Kendall, A. Stuart. The Advanced Theory of Statistics, volumen 1.New York, 1977.

[Klein96] A. Klein, G. Kaleh, P. Baier. Zero forcing and minimum mean-square-error equalization for multiuser detection in code-division multiple-access channels. Vehicular Technology, IEEE Transactions on, vol. 45,núm. 2, págs. 276–287, May 1996.

[Kofidis02] E. Kofidis, P. A. Regalia. On the best rank-1 approximation of higher-order supersymmetric tensors. Siam J. Matrix Anal. Appl., vol. 23,núm. 3, págs. 863–884, 2002.

[Kohno90] R. Kohno, H. Imai, M. Hatori, S. Pasupathy. Combinations of an adap-tive array antenna and a canceller of interference for direct-sequencespread-spectrum multiple-access system. Selected Areas in Communi-cations, IEEE Journal on, vol. 8, núm. 4, págs. 675–682, May 1990.

[Koivunen04] V. Koivunen, M. Enescu, M. Sirbu. Blind and Semiblind Channel Es-timation en Nonlinear signal and image processing: Theory, Methods,and Applications. CRC Press, Boca Raton, FL, 2004.

[Kolossa04] D. Kolossa, R. Orglmeister. Nonlinear postprocessing for blind speechseparation. Lecture Notes in Computer Science, vol. 3195, págs. 832–839, September 2004.

[Kung98] S. Kung, C. Mejuto. Extraction of independent components from hy-brid mixture: Kuicnet learning algorithm and applications. Acoustics,Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE In-ternational Conference on, vol. 2, págs. 1209–1212 vol.2, May 1998.

[Lacoume92] J. Lacoume, P. Ruiz. Separation of independent sources from correlatedinputs. IEEE Transactions on Signal Processing, vol. 40, núm. 12,págs. 3074–3078, Dic. 1992.

[Lathauwer94] L. D. Lathauwer, B. De-Moor, J. Vandewalle. Blind source separationby higher-order singular value decomposition. E. A. for Signal Pro-cessing, editor, Signal Processing VII: Theories and Applications, págs175–178, 1994.

Page 239: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias 223

[Lathauwer95] L. D. Lathauwer, P. Comon, B. De-Moor, J. Vandewalle. Higher-orderpower method - application in independent component analysis. Inter-national Symposium on Nonlinear Theory and Applications, NOLTA,Dic. 1995.

[Lee98] T.-W. Lee, M. Girolami, T. J. Sejnowski. Independent componentanalysis using an extended infomax algorithm for mixed sub-gaussianand super-gaussian sources. Neural Computation, vol. 11, págs. pages609–633, 1998.

[Lee07] J. Lee, T. Kim, S.-Y. Lee. Generalized negentropy for statistical depen-dence. Proceedings of the 2007 International Conference on Informa-tion Acquisition, Jeju City, Korea, July 2007.

[Lehnert87] J. Lehnert, M. Pursley. Multipath diversity reception of spread-spectrum multiple-access communications. Communications, IEEETransactions on, vol. 35, núm. 11, págs. 1189–1198, Nov 1987.

[Leong08] W. Y. Leong, W. Liu, D. P. Mandic. Blind source extraction: Standardapproaches and extensions to noisy and post-nonlinear mixing. Neuro-comput., vol. 71, núm. 10-12, págs. 2344–2355, 2008.

[Leus00] G. Leus, M. Moonen. MUI-free receiver for a synchronous DS-CDMAsystem based on blockspreading in the presence of frequency-selectivefading. IEEE Transactions on Signal Processing, vol. 48, núm. 11,págs. 3175–3188, November 2000.

[Li04a] T. Li, J. Tugnait. Super-exponential methods for blind detection ofasynchronous CDMA signals over multipath channels. IEEE Transac-tions on Wireless Communications, vol. 3, núm. 5, págs. 1379–1385,September 2004.

[Li04b] Y. Li, J. Wang, A. Cichocki. Blind source extraction from convolutivemixtures in ill-conditioned multi-input multi-output channels. Circuitsand Systems I: Regular Papers, IEEE Transactions on, vol. 51, núm. 9,págs. 1814–1822, Sept. 2004.

[Li08] H. Li, T. Adalı. Complex-valued adaptive signal processing using non-linear functions. EURASIP Journal on Advances in Signal Processing,vol. 2008, págs. 1–9, 2008.

Page 240: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

224 Referencias

[Linsker88] R. Linsker. Self-organization in a perceptual network. Computer, vol.21, págs. 105–107, 1988.

[Liu06] W. Liu, D. Mandic, A. Cichocki. Blind second-order source extrac-tion of instantaneous noisy mixtures. Circuits and Systems II: ExpressBriefs, IEEE Transactions on, vol. 53, núm. 9, págs. 931–935, Sept.2006.

[Lupas89] R. Lupas, S. Verdu. Linear multiuser detectors for synchronous code-division multiple-access channels. Information Theory, IEEE Transac-tions on, vol. 35, núm. 1, págs. 123–136, Jan 1989.

[Lupas90] R. Lupas, S. Verdu. Near-far resistance of multiuser detectors in asyn-chronous channels. Communications, IEEE Transactions on, vol. 38,núm. 4, págs. 496–508, Apr 1990.

[Madhow98] U. Madhow. Blind adaptive interference suppression for Direct-Sequence CDMA. Proceedings of the IEEE, vol. 86, núm. 10, págs.2049–2069, Oct. 1998.

[Malouche98] Z. Malouche, O. Macchi. Adaptive unsupervised extraction of onecomponent of a linear mixture with a single neuron. IEEE TRAN-SACTIONS ON NEURAL NETWORKS, vol. 9, núm. 1, págs. 123–138,January 1998.

[Mansour95] A. Mansour, C. Jutten. Fourth order criteria for blind sources separa-tion. IEEE Transactions on Signal Processing, vol. 8, págs. 2022–2025,Ago. 1995.

[Matsuoka95] K. Matsuoka, M. Ohya, M. Kawamoto. A neural net for blind separa-tion of nonstationary signals. Neural Networks, vol. 8, núm. 3, págs.411–419, 1995.

[Molgedey94] L. Molgedey, H. Schuster. Separation of a mixture of independent sig-nals using time delayed correlations. Physical Review Letters, vol. 72,núm. 23, págs. 3634–3637, June 1994.

[Moreau96] E. Moreau, O. Macchi. High-order contrasts for self-adaptive sourceseparation criteria for complex source separation. International Journalof Adaptive Control and Signal Proc., vol. 10, págs. 19–46, 1996.

Page 241: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias 225

[Moreau99] E. Moreau, N. Thirion-Moreau. Nonsymmetrical contrasts for sourcesseparation. IEEE Transactions On Signal Processing, vol. 47, núm. 8,págs. 2241–2252, August 1999.

[Moreau01] E. Moreau. A generalization of joint-diagonalization criteria for sourceseparation. IEEE Transactions on Signal Processing, vol. 49, núm. 3,págs. 530–541, March 2001.

[Moshavi96] S. Moshavi. Multi-user detection for DS-CDMA communications.IEEE Communications Magazine, vol. 34, núm. 10, págs. 124–136, Oct1996.

[Mudulodu04] S. Mudulodu, G. Leus, A. Paulraj. An interference-suppressing RAKEreceiver for the CDMA downlink. IEEE Signal Processing Letters, vol.11, núm. 5, págs. 521– 524, May 2004.

[Neeser93] F. Neeser, J. Massey. Proper complex random processes with appli-cations to information theory. Information Theory, IEEE Transactionson, vol. 39, núm. 4, págs. 1293–1302, Jul 1993.

[Nikias93] C. L. Nikias, A. P. Petropulu. Higher-Order Spectra Analysis: A Non-Linear Signal Processing Framework. Prentice Hall, 1993.

[Novey08] M. Novey, T. Adalı. Complex ICA by negentropy maximization. IEEETransactions On Neural Networks, vol. 19, núm. 4, págs. 596–609,April 2008.

[Obradovic98] D. Obradovic, G. Deco. Information maximization and independentcomponent analysis: Is there a difference? Neural Computation, vol.10, núm. 8, págs. 2085–2101, 1998.

[Papoulis91] A. Papoulis, S. U. Pillai. Probability Random variables and StochasticProcesses. McGraw-Hill, 3rd edición, 1991.

[Paulraj97] A. Paulraj, C. Papadias. Space-time processing for wireless commu-nications. Signal Processing Magazine, IEEE, vol. 14, núm. 6, págs.49–83, Nov 1997.

[Pearlmutter97] B. A. Pearlmutter, L. C. Parra. Maximum likelihood blind source sepa-ration: A context-sensitive generalization of ICA. Advances in NeuralInformation Processing Systems 9, págs 613–619. MIT Press, 1997.

Page 242: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

226 Referencias

[Peng06] C.-H. Peng, C.-Y. Chi, C.-W. Chang. Blind multiuser detection bykurtosis maximization for asynchronous multirate DS/CDMA systems.EURASIP Journal on Applied Signal Processing, vol. 2006, págs. 1–17,2006.

[Pham92] D. T. Pham, P. Garat, C. Jutten. Separation of a mixture of independentsources through a maximum likelihood approach. Signal ProcessingVI: Theories and Applications, págs 771–774, 1992.

[Pham96] D. T. Pham. Blind separation of instantaneous mixture of sources viaan independent component analysis. Signal Processing, IEEE Transac-tions on, vol. 44, núm. 11, págs. 2768–2779, Nov 1996.

[Pham00] D.-T. Pham. Blind separation of instantaneous mixture of sources basedon order statistics. Signal Processing, IEEE Transactions on, vol. 48,núm. 2, págs. 363–375, Feb 2000.

[Prasad98] R. Prasad, T. Ojanperä. An overview of CDMA evolution toward Wi-deband CDMA. IEEE Communications Surveys, vol. 1, núm. 1, págs.2–29, Fourth Quarter 1998.

[Preparata85] F. P. Preparata, M. I. Shamos. Computational Geometry: An Introduc-tion. Springer-Verlag, New York, 1985.

[Principe00] J. Principe, D. Xu, J. Fisher. Information Theoretic Learning. in “Un-supervised Adaptive Filtering” Volume I, Simon Haykin Editor, Wiley,2000.

[Proakis01] J. Proakis. Digital Communications. McGrawHill, Inc, 4a edición,2001.

[Puntonet98] C. G. Puntonet, A. Prieto. Neural net approach for blind separation ofsources based on geometric properties. Neurocomputing, vol. 18, núm.1-3, págs. 141–164, 1998.

[Raju06] K. Raju, T. Ristaniemi, J. Karhunen, E. Oja. Jammer suppression inDS-CDMA arrays using independent component analysis. WirelessCommunications, IEEE Transactions on, vol. 5, núm. 1, págs. 77–82,Jan. 2006.

[Rappaport01] T. Rappaport. Wireless Communications: Principles and Practice (2ndEdition). Prentice Hall PTR, December 2001.

Page 243: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias 227

[Remmert91] R. Remmert. Theory of Complex Functions. Springer-Verlag, NewYork, 1991.

[Ristaniemi02] T. Ristaniemi, J. Joutensalo. Advanced ICA-based receivers for blockfading DS-CDMA channels. Signal Processing, , núm. 82, págs. 417–431, 2002.

[Rudin87] W. Rudin. Real and complex analysis. McGraw-Hill International Ed.,New York, 1987.

[Ruiz89] P. Ruiz, J. Lacoume. Extraction of independent sources from correlatedinputs a solution based on cumulants. IEEE Workshop on Higher-OrderSpectral Analysis, págs 146–151, Vail, Jun 1989.

[Sari00] H. Sari, F. Vanhaverbeke, M. Moeneclaey. Extending the capacity ofmultiple access channels. IEEE Communications Magazine, vol. 38,núm. 1, págs. 74–82, Jan 2000.

[Sato75] Y. Sato. A method of self-recovering equalization for multilevelamplitude-modulation systems. Communications, IEEE Transactionson, vol. 23, núm. 6, págs. 679–682, Jun 1975.

[Sawada02] H. Sawada, R. Mukai, S. Araki, S. Makino. Polar coordinate based non-linear function for frequency-domain blind source separation. Acous-tics, Speech, and Signal Processing, 2002. Proceedings. (ICASSP ’02).IEEE International Conference on, vol. 1, págs. I–1001–I–1004 vol.1,2002.

[Schneider79] K. Schneider. Optimum detection of code division multiplexed signals.Aerospace and Electronic Systems, IEEE Transactions on, vol. AES-15, núm. 1, págs. 181–185, Jan. 1979.

[Schneider93] R. Schneider. Convex Bodies: The Brunn-Minkowski Theory. Cam-bridge University Press, Cambridge, England, 1993.

[Schniter98] P. Schniter, C. R. Johnson. Minimum-Entropy blind acquisition/equali-zation for uplink DS-CDMA. Allerton Conf. on Communication, Con-trol, and Computing (Monticello, IL), 1998.

[Shalvi90] O. Shalvi, E. Weinstein. New criteria for blind deconvolution of non-minimun phase systems (channels). IEEE Transactions on InformationTheory, vol. 36, núm. 2, págs. 312–321, 1990.

Page 244: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

228 Referencias

[Shynk96] J. Shynk, R. Gooch. The constant modulus array for cochannel signalcopy and direction finding. Signal Processing, IEEE Transactions on,vol. 44, núm. 3, págs. 652–660, Mar 1996.

[Sirbu03] M. Sirbu, V. Koivunen. Multichannel estimation and equalization al-gorithm for asynchronous uplink DS/CDMA. Wireless Personal Com-munications, vol. 26, págs. 33–52, August 2003.

[Smaragdis98] P. Smaragdis. Blind separation of convolved mixtures in the frequencydomain. Neurocomputing, vol. 22, núm. 1-3, págs. 21 – 34, 1998.

[Solé02] J. Solé, C. Jutten, A. Taleb. Parametric approach to blind deconvolutionof nonlinear channels. Neurocomputing, vol. 48, núm. 1-4, págs. 339–355, 2002.

[Song99] Y. Song, S. Roy. Subspace blind detection of asynchronous CDMAsignals in multipath channels. Signal Processing Advances in Wire-less Communications, 1999. SPAWC ’99. 1999 2nd IEEE Workshop on,págs 21–24, 1999.

[Taleb99] A. Taleb, C. Jutten. Source separation in post-nonlinear mixtures. Sig-nal Processing, IEEE Transactions on, vol. 47, núm. 10, págs. 2807–2820, Oct 1999.

[Talwar96] S. Talwar, M. Viberg, A. Paulraj. Blind separation of synchronous co-channel digital signals using an antenna array. I. Algorithms. SignalProcessing, IEEE Transactions on, vol. 44, núm. 5, págs. 1184–1197,May 1996.

[Thawonmas98] R. Thawonmas, A. Cichocki, S. i. Amari. A cascade neural networkfor blind signal extraction without spurious equilibria. IEICE Trans.Fundamentals, vol. E81-A, núm. 9, págs. 1833–1846, 1998.

[Tome00] A. Tome. Blind source separation using a matrix pencil. Neural Net-works, 2000. IJCNN 2000, Proceedings of the IEEE-INNS-ENNS In-ternational Joint Conference on, volumen 3, Como, Italy, Jul 2000.

[Tong91a] L. Tong, G. Xu, T. Kailath. A new approach to blind identification andequalization of multipath channels. Conference Record of the Twenty-Fifth Asilomar Conference on Signals, Systems and Computers, volu-men 2, págs 856–860, Pacific Grove, California, Nov 1991.

Page 245: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias 229

[Tong91b] L. Tong, R.-W. Liu, V.-C. Soon, Y.-F. Huang. Indeterminacy and iden-tifiability of blind identification. IEEE Trans. on Circuits and Systems,vol. 38, núm. 5, págs. 499–509, Mayo 1991.

[Tong94] L. Tong, G. Xu, T. Kailath. Blind identification and equalization ba-sed on second-order statistics: a time domain approach. InformationTheory, IEEE Transactions on, vol. 40, núm. 2, págs. 340–349, Mar1994.

[Torlak97] M. Torlak, G. Xu. Blind multiuser channel estimation in asynchronousCDMA systems. Signal Processing, IEEE Transactions on, vol. 45,núm. 1, págs. 137–147, Jan 1997.

[Treichler83] J. Treichler, B. Agee. A new approach to multipath correction of cons-tant modulus signals. Acoustics, Speech and Signal Processing, IEEETransactions on, vol. 31, núm. 2, págs. 459–472, Apr 1983.

[Treichler85] J. Treichler, M. Larimore. New processing techniques based on theconstant modulus adaptive algorithm. Acoustics, Speech and SignalProcessing, IEEE Transactions on, vol. 33, núm. 2, págs. 420–431, Apr1985.

[Tsatsanis96] M. Tsatsanis, G. Giannakis. Optimal decorrelating receivers for DS-CDMA systems: a signal processing framework. Signal Processing,IEEE Transactions on, vol. 44, núm. 12, págs. 3044–3055, Dec 1996.

[Tsatsanis97] M. K. Tsatsanis. Inverse filtering criteria for CDMA systems. IEEETrans. Signal Processing, vol. 45, págs. 102U112, January 1997.

[Tsatsanis98] M. Tsatsanis, Z. Xu. Performance analysis of minimum variance CD-MA receivers. Signal Processing, IEEE Transactions on, vol. 46, núm.11, págs. 3014–3022, Nov 1998.

[Tugnait97] J. K. Tugnait. Identification and deconvolution of multichannel linearnon-gaussian processes using higher order statistics and inverse filtercriteria. IEEE Transactions on Signal Processing, vol. 45, núm. 3, págs.658–672, 1997.

[Tugnait01] J. K. Tugnait, T. Li. Blind detection of asynchronous CDMA signals inmultipath channels using code-constrained inverse filter criterion. IEEETransactions on Signal Processing, vol. 49, núm. 7, págs. 1300–1309,Jul. 2001.

Page 246: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

230 Referencias

[Tugnait04] J. Tugnait, J. Ma. Blind multiuser receiver for space-time coded CDMAsignals in frequency-selective channels. IEEE Transactions on WirelessCommunications, vol. 3, núm. 5, págs. 1770–1780, September 2004.

[Turin84] G. Turin. The effects of multipath and fading on the performance ofdirect-sequence CDMA systems. Vehicular Technology, IEEE Tran-sactions on, vol. 33, núm. 3, págs. 213–219, Aug 1984.

[Ulfarsson08] M. Ulfarsson, V. Solo. Dimension estimation in noisy pca with sureand random matrix theory. Signal Processing, IEEE Transactions on,vol. 56, núm. 12, págs. 5804–5816, Dec. 2008.

[Ulrych82] T. J. Ulrych, C. Walker. Analytic minimum entropy deconvolution.Geophysics, vol. 47, núm. 9, págs. 1295–1302, 1982.

[Varanasi90] M. Varanasi, B. Aazhang. Multistage detection in asynchronous code-division multiple-access communications. Communications, IEEETransactions on, vol. 38, núm. 4, págs. 509–519, Apr 1990.

[Varanasi91] M. Varanasi, B. Aazhang. Near-optimum detection in synchronouscode-division multiple-access systems. Communications, IEEE Tran-sactions on, vol. 39, núm. 5, págs. 725–736, May 1991.

[vdB94] A. van den Bos. Complex gradient and hessian. Vision, Image andSignal Processing, IEE Proceedings -, vol. 141, núm. 6, págs. 380–383,Dec 1994.

[vdV96] A.-J. van der Veen, A. Paulraj. An analytical constant modulus algo-rithm. Signal Processing, IEEE Transactions on, vol. 44, núm. 5, págs.1136–1155, May 1996.

[Verdú98] S. Verdú. Multiuser Detection. Cambridge University Press, New York,NY, USA, 1st edición, 1998.

[Viterbi90] A. Viterbi. Very low rate convolution codes for maximum theoreti-cal performance of spread-spectrum multiple-access channels. Selec-ted Areas in Communications, IEEE Journal on, vol. 8, núm. 4, págs.641–649, May 1990.

[Vrins05] F. Vrins, C. Jutten, M. Verleysen. SWM: a class of convex contrastsfor source separation. Proceedings of IEEE International Conferenceon Acoustics Speech and Signal Processing (ICASSP), volumen 5, págsv161–v164, Philadelphia, USA, March 2005.

Page 247: Contribuciones al análisis de componentes …personal.us.es/sergio/PhD/tesis-ivan.pdf · Al profesor Sergio A. Cruces Álvarez le agradezco el haber dirigido esta tesis y el haberme

Referencias 231

[Waheed05] K. Waheed, F. Salem. Blind information-theoretic multiuser detectionalgorithms for DS-CDMA and WCDMA downlink systems. NeuralNetworks, IEEE Transactions on, vol. 16, núm. 4, págs. 937–948, July2005.

[Wang98] X. Wang, H. Poor. Blind equalization and multiuser detection in dis-persive CDMA channels. IEEE Transactions on Communications, vol.46, núm. 1, págs. 91–103, Jan 1998.

[Widrow75] B. Widrow, J. McCool, M. Ball. The complex lms algorithm. Procee-dings of the IEEE, vol. 63, núm. 4, págs. 719–720, April 1975.

[Wiggins78] R. Wiggins. Minimum entropy deconvolution. Geoexploration, vol.16, págs. 21–35, 1978.

[Xie90] Z. Xie, R. Short, C. Rushforth. A family of suboptimum detectors forcoherent multiuser communications. Selected Areas in Communica-tions, IEEE Journal on, vol. 8, núm. 4, págs. 683–690, May 1990.

[Yellin94] D. Yellin, E. Weinstein. Criteria for multichannel signal separation.Signal Processing, IEEE Transactions on, vol. 42, núm. 8, págs. 2158–2168, Aug 1994.

[Ziehe00] A. Ziehe, K.-R. Müller, G. Nolte, B.-M. Mackert, G. Curio. Artifactreduction in magnetoneurography based on time-delayed second-ordercorrelations. IEEE Transactions On Biomedical Engineering, vol. 47,núm. 1, págs. 75–87, January 2000.

[Zvonar96] Z. Zvonar, D. Brady. Linear multipath-decorrelating receivers forCDMA frequency-selective fading channels. Communications, IEEETransactions on, vol. 44, núm. 6, págs. 650–653, Jun 1996.