técnicas estadísticas multivariantes: ordenación

Técnicas estadísticas multivariantes: ordenación

2

X y

A1 Xa1 Ya1

A2 Xa2 Ya2

A3 Xa3 Ya3

A1A3

A2

EjemploSupongamos 3 muestras (A1, A2, A3) con 2 spp. (x, y) y quiero visualizar las relaciones de similitud entre las 3 muestras

Espacio bidimensionalY

X

3

X y Z

A1 Xa1 Ya1 Za1

A2 Xa2 Ya2 Za2

A3 Xa3 Ya3 Za3

A1A3

A2

Supongamos 3 muestras (A1, A2, A3) con 3 spp. (x, y, z)

Si > 3 especies (variables) – se complica¡; hay alguna forma de reducir la “dimensionalidad” a algo palpable (2-3 dimensiones), pero relevante e interpretable?

Espacio tridimensional

Y

X

Z

4

P.e. quiero conocer cómo una comunidad de 40 spp. responden a un impacto; podría hacer 40 tests…pero, con propósito de “condensar” información, preciso de técnicas que cuantifiquen la respuesta “global” (“a nivel de comunidad”, que incorpore los 2 atributos de la biodiversidad: composición y abundancia de las especies)

Técnicas multivariantes

Visualizar tendencias y patrones “globales”

Testar hipótesis en el contexto multivariante: “a nivel de comunidad”

5

¿Qué son técnicas estadísticas multivariantes?

Herramientas que nos permiten el estudio de cómo múltiples variables dependientes u objetos (como p.e. conjuntos de especies = comunidades) responden a múltiples variables independientes y/o tratamientos procurando reducir la dimensionalidad de los datos a aquellas dimensiones (“gradientes ambientales”) relevantes

6

A B réplica sp 1 sp 2 sp 3 sp 4 sp 5 sp n

A1 B1 1 … … … … … …

A1 B1 2 … … … … … …

A1 B2 1 … … … … … …

A1 B2 2 … … … … … … A1 B3 1 … … … … … …

A1 B3 1 … … … … … …

A2 B1 1 … … … … … …

A2 B1 2 … … … … … …

A2 B2 1 … … … … … …

A2 B2 2 … … … … … …

A2 B3 1 … … … … … …

A2 B3 2 … … … … … …

Matriz de variables dependientes

Técnicas multivariantes: se basan en matrices

Técnicas multivariantes: filosofía general

muestras

espe

cies

matriz triangular de similitudes

aaa

bb

b

cc

c

ordenación

7

Ordenación multivariante Ordenación multivariante son formas de explorar/visualizar las relaciones de similitud entre muestras/tratamientos/factores

8

Ordenación

Conjunto de técnicas exploratorias, visualización de patrones – no permiten contraste hipotético

Objetivo ordenaciónObjetivo ordenación: buscar gradientes (ejes o componentes) que explican la mayor variabilidad en la matriz de datos: reducir la dimensionalidad a 2-3 ejes que nos explican la mayor parte de la variabilidad en las muestras/especies

9

P.e. Matriz abundancia, biomasa, % cobertura, un perfil de ácidos grasos

““Distancia ecológicaDistancia ecológica” ” entre cada par de muestras: algoritmo que cuantifique la magnitud de las diferencias

Medidas de disimilitud: el comienzo de todo

Matriz triangular de distancias/similitudes/disimilitudes

10

Existen muchos tipo de “distancias” y/o “índices de disimilitud”; depende de tipo de datos y objetivo (consultar literatura);

Clarke et al., 2006, On resemblance measures for ecological studies, including taxonomic dissimilarities and a zero-adjusted Bray-Curtis coefficient for denuded assemblages." J Exp Mar Biol Ecol 330: 55-80

Dista. euclidiana; Dij = (yik – yjk)2 (no tiene límite superior¡)

Idea: Si 2 muestras son iguales su similitud es del 100% = disimilitud máxima, distancia ecológica = mínima

Medidas de disimilitud

muestras

espe

cies

1 2 3 1 2 3

123

11

Disimilitud de Bray-Curtis

“Ratio” con límite superior: 0 < d < 1; podemos interpretarlo como “porcentaje de diferencias”, en un contexto ecológico

Refleja tanto cambios en abundancias relativas como en composición, en un contexto ecológico

¿Es la mejor? No, todo depende de nuestros datos y lo que queremos enfatizar: diferencias en composición (e.g. presencia/ausencia) o abundancia. Recomiendo “jugar” con los datos siempre que usemos una lógica basada en criterios de juego establecidos en la literatura

12

Datos brutos(matriz original)

Trasformación

Matriz de distancias/disimilitudes

Objetivo: controlar el “peso” de las variables/spp.

Pero antes…trasformación trasformación de los datos brutos

13

Ejemplo de trasformación

(X + 1)

(X + 1)

Datos brutos

Forma de controlar especies muy abundantes que pueden “distorsionar” patrones

Ejemplo

14

Estandarización

Cuando las variables tienen distintas unidades¡ no mezclo peras con limones¡

La más típica: divido cada valor(Xij) entre el total o máximo de cada variable (Xj)…aunque hay gente que “estandariza” siguiendo otros criterios

Cualquier software permite multitud de estandarizaciones y/o trasformaciones previas en análisis de datos (lo vemos en las prácticas)

15

TrasformadosMatriz datos brutos

Matriz de disimilitudes

Resumiendo: previo a ordenación/clasificación

Estandarizados

PCA (Análisis de Componentes Principales)

16

17

X Y Z

A1 Xa1 Ya1 Za1

A2 Xa2 Ya2 Za2

A3 Xa3 Ya3 Za3

A4 Xa4 Ya4 Za4 A1

A3A2

Volvamos a lo que vimos antes:

Si p > 3 variables – se complica el tema; hay alguna forma de reducir la “dimensionalidad” de los datos (esa nube de datos en el espacio p-dimensional) a algo palpable (2-3 dimensiones), pero q sea relevante e interpretable?

4 objetos (muestras) con 3 variables

A4

A1 AiA2 A4 A3

GRADIENTE LATENTE

A3

A4A2

A1

Reducción de la dimensionalidad (común Reducción de la dimensionalidad (común a todas las técnicas de ordenación)a todas las técnicas de ordenación)

Es decir:

Reducción de dimensionalidad = Busco eje relevante explicando la variabilidad de los datos

PC1 es como un laser que pasa por el centro de una nube de globos (objetos); ese PC1 corre a lo largo del eje que explica la mayor variabilidad de los datos

20

PCA: ¿cómo actúa?

PCA (1eo) busca y (2do) rota los ejes en ese espacio “n-dimensional” a posiciones tal que el primer eje (PC 1) sea la que explique (acumule) más variabilidad, el PC 2 el siguiente que explica más variabilidad y así sucesivamente hasta el último eje (PC p); pero ejes están no correlacionados

PCA usa distancias euclidianas calculadas de las “p” variables como medida de similitud entre los “n” objetos

PCA deriva la mejor representación k dimensional (k<p) de las distancias euclidianas entre objetos. Por sencillez, k =2 ó 3 ejes

21

PCA, es decir: PC1 es pues la dirección de máxima varianza en ese espacio p-dimensional; PC2 es la dirección de la siguiente mayor varianza, siendo su correlación de 0 con PC1, y así sucesivamente…

-6

-4

-2

0

2

4

6

-8 -6 -4 -2 0 2 4 6 8 10 12

PC 1

PC

2

Cada eje explica cierta cantidad de la varianza (variabilidad) total): lo importante es que esos ejes se corresponden generalmente con gradientes ambientales¡…pero no sabemos cuál: es una técnica de análisis indirecto de gradiente = debemos usar nuestra intuición/conocimiento para explicar los patrones

22

PCA: ventajas e inconvenientes

0

10

20

30

40

50

60

70

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Simulated Environmetal Gradient (R)

Ab

un

dan

ce

Pros: útil para visualizar/reducir variables que tienen relaciones lineales con los ejes

Contras: no sirve como método de ordenación, en especial si tenemos muchas especies, q generalmente muestran respuestas tipo gaussiana (no lineales) a gradientes ambientales (q son generalmente esos ejes PC1 y PC 2)

23

PCA: inconveniente “efecto herradura”

“Efecto herradura” en el espacio bidimensional: no se observa el gradiente correctamente; las que deberían aparecer más separadas a lo largo del gradiente aparecen cerca.

Si nos puede servir cuando las variables muestran relaciones lineales con PC1 y PC2 Pregunto: ¿Qué casos?

24

nm-MDS (non metric-multidimensional scaling)

MDS a secas…

(ii) nm-MDS (non metric-multidimensional scaling)

nm-MDS usa el rango en las similitudes entre objetos (p.e. muestras) para ordenarlas en el espacio de ordenación

Muestra Muestra % simil. rango

A1 A2 99% 1

A1 A3 96% 2

A2 A3 95% 3

A1 está más cerca de A2 q A3, a continuación A1 y A3 y así sucesivamente

25

nm-MDS intenta colocar las muestras en un espacio bi- o tri-dimensional manteniendo ese orden de rangos:

A1 A2

A3

26

En este ejemplo…

A1 está más cerca de A2 q A3

Seguidamente, compara las distancias en el espacio 2-3 dimensional con el orden de rangos en la matriz de disimilitudes y vuelve a ordenar = proceso iterativo¡

27

Consecuentemente, el nm-MDS no puede representar todas las relaciones de disimilitud de forma precisa en el espacio de ordenación: cometemos un error¡

Distancias en el nm-MDS

Dis

imili

tude

s en

la m

atriz

. ... .

...

. .

...

... .

.

.

.

Stress = forma de evaluar la “calidad” del nm-MDS

Como criterio general:

0.0: perfecto; 0.1: bastante decente; 0.2: ok; 0.3 : chungo de interpretar

28Diseño experimental y análisis estadístico: su aplicación en biología marina

29

nm-MDS: ventajas e inconvenientes

Pros: no se ve afectado por respuestas no lineales de las especies¡ Resuelvo el problema que vimos con PCA. Puedo trabajar con cualquier medida de disimilitud (que elijo según las peculiaridades de los datos). Esto hace que sea la técnica predilecta en ecología, donde los datos generalmente se “comportan mal” (respuestas no lineales, muchos 0s, etc.). Es una técnica, consecuentemente, muy robusta (p.e. no le afecta “outliers”= valores atípicos)

Contras: si el “stress” es alto puedo hacer una interpretación dudosa / errónea de los verdaderos patrones. Trabajo con rangos y no con disimilitudes absolutas, eso impide que pueda saber el % de variabilidad explicado por cada eje

Diseño experimental y análisis estadístico: su aplicación en biología marina30

¿Existe alguna técnica que no se vea muy afectada por respuestas no lineales de las especies (puedo trabajar con cualquier medida de disimilitud en función de las peculiaridades de los datos), pero que no trabaje con rangos sino con verdaderas disimilitudes (que preserve disimilitudes entre muestras/tratamientos, etc.?

Pregunta del millón


PCO (Principal coordinates analysis)


(iii) PCO (Principal coordinates analysis)Denominado “MDS métrico” (usa verdaderas disimilitudes, no rangos); puedo saber el % de variación explicada por cada eje (componente). Al igual que el PCA, el 1er eje (componente o PCO 1) explica la mayor variabilidad, el segundo (PCO 2), la segunda mayor cantidad de variabilidad y así sucesivamente.

Al igual que nm-MDS, la relación entre las variables y los ejes NO es lineal

Ejes PCO

% V

aria

bilid

ad

tota

l acu

mul

ada


PCO vs. nm-MDS: ¿qué diferencias específicas hay?

En la práctica los resultados del PCO son siempre parecidos al nm-MDS, si los datos no se comportan “extremadamente mal”. La ventaja del PCO es que los ejes tienen significado y explican una cierta cantidad de la variabilidad total

PCO mantiene las disimilitudes mientras que el nm-MDS preserva el orden de rangos de las disimilitudes; eso hace que no sea tan robusto a datos “que se comportan mal”


PCO: ejemplo


Pros: trabajo con verdaderas disimilitudes (no con rangos como nm-MDS), puedo saber el % de variabilidad explicado por casa eje. Puedo seleccionar cualquier medida de disimilitud, según el tipo de datos

PCO: ventajas e inconvenientes

Contras: Si los datos se “portan muy mal” (muchos 0s, “outliers”; es decir, lo que ocurre en ciertas ocasiones), es sensible: no es tan robusto como su “primo hermano” el nm-MDS


PCA/nm-MDS/PCO son técnicas de visualización de patrones: no permite contraste de hipótesis

Necesidad de un test para contrastar las diferencias entre grupos que acompañe a una técnica de visualización de patrones

Cuidadín, cuidadín

técnicas estadísticas multivariantes: ordenación

Documents