técnicas estadísticas multivariantes: ordenación
DESCRIPTION
Técnicas estadísticas multivariantes: ordenación. Ejemplo Supongamos 3 muestras (A1, A2, A3) con 2 spp. (x, y) y quiero visualizar las relaciones de similitud entre las 3 muestras. Y. Espacio bidimensional. A3. A1. A2. X. Supongamos 3 muestras (A1, A2, A3) con 3 spp. (x, y, z). Z. - PowerPoint PPT PresentationTRANSCRIPT
Técnicas estadísticas multivariantes: ordenación
2
X y
A1 Xa1 Ya1
A2 Xa2 Ya2
A3 Xa3 Ya3
A1A3
A2
EjemploSupongamos 3 muestras (A1, A2, A3) con 2 spp. (x, y) y quiero visualizar las relaciones de similitud entre las 3 muestras
Espacio bidimensionalY
X
3
X y Z
A1 Xa1 Ya1 Za1
A2 Xa2 Ya2 Za2
A3 Xa3 Ya3 Za3
A1A3
A2
Supongamos 3 muestras (A1, A2, A3) con 3 spp. (x, y, z)
Si > 3 especies (variables) – se complica¡; hay alguna forma de reducir la “dimensionalidad” a algo palpable (2-3 dimensiones), pero relevante e interpretable?
Espacio tridimensional
Y
X
Z
4
P.e. quiero conocer cómo una comunidad de 40 spp. responden a un impacto; podría hacer 40 tests…pero, con propósito de “condensar” información, preciso de técnicas que cuantifiquen la respuesta “global” (“a nivel de comunidad”, que incorpore los 2 atributos de la biodiversidad: composición y abundancia de las especies)
Técnicas multivariantes
Visualizar tendencias y patrones “globales”
Testar hipótesis en el contexto multivariante: “a nivel de comunidad”
5
¿Qué son técnicas estadísticas multivariantes?
Herramientas que nos permiten el estudio de cómo múltiples variables dependientes u objetos (como p.e. conjuntos de especies = comunidades) responden a múltiples variables independientes y/o tratamientos procurando reducir la dimensionalidad de los datos a aquellas dimensiones (“gradientes ambientales”) relevantes
6
A B réplica sp 1 sp 2 sp 3 sp 4 sp 5 sp n
A1 B1 1 … … … … … …
A1 B1 2 … … … … … …
A1 B2 1 … … … … … …
A1 B2 2 … … … … … … A1 B3 1 … … … … … …
A1 B3 1 … … … … … …
A2 B1 1 … … … … … …
A2 B1 2 … … … … … …
A2 B2 1 … … … … … …
A2 B2 2 … … … … … …
A2 B3 1 … … … … … …
A2 B3 2 … … … … … …
Matriz de variables dependientes
Técnicas multivariantes: se basan en matrices
Técnicas multivariantes: filosofía general
muestras
espe
cies
matriz triangular de similitudes
aaa
bb
b
cc
c
ordenación
7
Ordenación multivariante Ordenación multivariante son formas de explorar/visualizar las relaciones de similitud entre muestras/tratamientos/factores
8
Ordenación
Conjunto de técnicas exploratorias, visualización de patrones – no permiten contraste hipotético
Objetivo ordenaciónObjetivo ordenación: buscar gradientes (ejes o componentes) que explican la mayor variabilidad en la matriz de datos: reducir la dimensionalidad a 2-3 ejes que nos explican la mayor parte de la variabilidad en las muestras/especies
9
P.e. Matriz abundancia, biomasa, % cobertura, un perfil de ácidos grasos
““Distancia ecológicaDistancia ecológica” ” entre cada par de muestras: algoritmo que cuantifique la magnitud de las diferencias
Medidas de disimilitud: el comienzo de todo
Matriz triangular de distancias/similitudes/disimilitudes
10
Existen muchos tipo de “distancias” y/o “índices de disimilitud”; depende de tipo de datos y objetivo (consultar literatura);
Clarke et al., 2006, On resemblance measures for ecological studies, including taxonomic dissimilarities and a zero-adjusted Bray-Curtis coefficient for denuded assemblages." J Exp Mar Biol Ecol 330: 55-80
Dista. euclidiana; Dij = (yik – yjk)2 (no tiene límite superior¡)
Idea: Si 2 muestras son iguales su similitud es del 100% = disimilitud máxima, distancia ecológica = mínima
Medidas de disimilitud
muestras
espe
cies
1 2 3 1 2 3
123
11
Disimilitud de Bray-Curtis
“Ratio” con límite superior: 0 < d < 1; podemos interpretarlo como “porcentaje de diferencias”, en un contexto ecológico
Refleja tanto cambios en abundancias relativas como en composición, en un contexto ecológico
¿Es la mejor? No, todo depende de nuestros datos y lo que queremos enfatizar: diferencias en composición (e.g. presencia/ausencia) o abundancia. Recomiendo “jugar” con los datos siempre que usemos una lógica basada en criterios de juego establecidos en la literatura
12
Datos brutos(matriz original)
Trasformación
Matriz de distancias/disimilitudes
Objetivo: controlar el “peso” de las variables/spp.
Pero antes…trasformación trasformación de los datos brutos
13
Ejemplo de trasformación
(X + 1)
(X + 1)
Datos brutos
Forma de controlar especies muy abundantes que pueden “distorsionar” patrones
Ejemplo
14
Estandarización
Cuando las variables tienen distintas unidades¡ no mezclo peras con limones¡
La más típica: divido cada valor(Xij) entre el total o máximo de cada variable (Xj)…aunque hay gente que “estandariza” siguiendo otros criterios
Cualquier software permite multitud de estandarizaciones y/o trasformaciones previas en análisis de datos (lo vemos en las prácticas)
15
TrasformadosMatriz datos brutos
Matriz de disimilitudes
Resumiendo: previo a ordenación/clasificación
Estandarizados
PCA (Análisis de Componentes Principales)
16
17
X Y Z
A1 Xa1 Ya1 Za1
A2 Xa2 Ya2 Za2
A3 Xa3 Ya3 Za3
A4 Xa4 Ya4 Za4 A1
A3A2
Volvamos a lo que vimos antes:
Si p > 3 variables – se complica el tema; hay alguna forma de reducir la “dimensionalidad” de los datos (esa nube de datos en el espacio p-dimensional) a algo palpable (2-3 dimensiones), pero q sea relevante e interpretable?
4 objetos (muestras) con 3 variables
A4
A1 AiA2 A4 A3
GRADIENTE LATENTE
A3
A4A2
A1
Reducción de la dimensionalidad (común Reducción de la dimensionalidad (común a todas las técnicas de ordenación)a todas las técnicas de ordenación)
Es decir:
Reducción de dimensionalidad = Busco eje relevante explicando la variabilidad de los datos
PC1 es como un laser que pasa por el centro de una nube de globos (objetos); ese PC1 corre a lo largo del eje que explica la mayor variabilidad de los datos
20
PCA: ¿cómo actúa?
PCA (1eo) busca y (2do) rota los ejes en ese espacio “n-dimensional” a posiciones tal que el primer eje (PC 1) sea la que explique (acumule) más variabilidad, el PC 2 el siguiente que explica más variabilidad y así sucesivamente hasta el último eje (PC p); pero ejes están no correlacionados
PCA usa distancias euclidianas calculadas de las “p” variables como medida de similitud entre los “n” objetos
PCA deriva la mejor representación k dimensional (k<p) de las distancias euclidianas entre objetos. Por sencillez, k =2 ó 3 ejes
21
PCA, es decir: PC1 es pues la dirección de máxima varianza en ese espacio p-dimensional; PC2 es la dirección de la siguiente mayor varianza, siendo su correlación de 0 con PC1, y así sucesivamente…
-6
-4
-2
0
2
4
6
-8 -6 -4 -2 0 2 4 6 8 10 12
PC 1
PC
2
Cada eje explica cierta cantidad de la varianza (variabilidad) total): lo importante es que esos ejes se corresponden generalmente con gradientes ambientales¡…pero no sabemos cuál: es una técnica de análisis indirecto de gradiente = debemos usar nuestra intuición/conocimiento para explicar los patrones
22
PCA: ventajas e inconvenientes
0
10
20
30
40
50
60
70
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Simulated Environmetal Gradient (R)
Ab
un
dan
ce
Pros: útil para visualizar/reducir variables que tienen relaciones lineales con los ejes
Contras: no sirve como método de ordenación, en especial si tenemos muchas especies, q generalmente muestran respuestas tipo gaussiana (no lineales) a gradientes ambientales (q son generalmente esos ejes PC1 y PC 2)
23
PCA: inconveniente “efecto herradura”
“Efecto herradura” en el espacio bidimensional: no se observa el gradiente correctamente; las que deberían aparecer más separadas a lo largo del gradiente aparecen cerca.
Si nos puede servir cuando las variables muestran relaciones lineales con PC1 y PC2 Pregunto: ¿Qué casos?
24
nm-MDS (non metric-multidimensional scaling)
MDS a secas…
(ii) nm-MDS (non metric-multidimensional scaling)
nm-MDS usa el rango en las similitudes entre objetos (p.e. muestras) para ordenarlas en el espacio de ordenación
Muestra Muestra % simil. rango
A1 A2 99% 1
A1 A3 96% 2
A2 A3 95% 3
A1 está más cerca de A2 q A3, a continuación A1 y A3 y así sucesivamente
25
nm-MDS intenta colocar las muestras en un espacio bi- o tri-dimensional manteniendo ese orden de rangos:
A1 A2
A3
26
En este ejemplo…
A1 está más cerca de A2 q A3
Seguidamente, compara las distancias en el espacio 2-3 dimensional con el orden de rangos en la matriz de disimilitudes y vuelve a ordenar = proceso iterativo¡
27
Consecuentemente, el nm-MDS no puede representar todas las relaciones de disimilitud de forma precisa en el espacio de ordenación: cometemos un error¡
Distancias en el nm-MDS
Dis
imili
tude
s en
la m
atriz
. ... .
...
. .
...
... .
.
.
.
Stress = forma de evaluar la “calidad” del nm-MDS
Como criterio general:
0.0: perfecto; 0.1: bastante decente; 0.2: ok; 0.3 : chungo de interpretar
28Diseño experimental y análisis estadístico: su aplicación en biología marina
29
nm-MDS: ventajas e inconvenientes
Pros: no se ve afectado por respuestas no lineales de las especies¡ Resuelvo el problema que vimos con PCA. Puedo trabajar con cualquier medida de disimilitud (que elijo según las peculiaridades de los datos). Esto hace que sea la técnica predilecta en ecología, donde los datos generalmente se “comportan mal” (respuestas no lineales, muchos 0s, etc.). Es una técnica, consecuentemente, muy robusta (p.e. no le afecta “outliers”= valores atípicos)
Contras: si el “stress” es alto puedo hacer una interpretación dudosa / errónea de los verdaderos patrones. Trabajo con rangos y no con disimilitudes absolutas, eso impide que pueda saber el % de variabilidad explicado por cada eje
Diseño experimental y análisis estadístico: su aplicación en biología marina30
¿Existe alguna técnica que no se vea muy afectada por respuestas no lineales de las especies (puedo trabajar con cualquier medida de disimilitud en función de las peculiaridades de los datos), pero que no trabaje con rangos sino con verdaderas disimilitudes (que preserve disimilitudes entre muestras/tratamientos, etc.?
Pregunta del millón
Diseño experimental y análisis estadístico: su aplicación en biología marina31
PCO (Principal coordinates analysis)
Diseño experimental y análisis estadístico: su aplicación en biología marina32
(iii) PCO (Principal coordinates analysis)Denominado “MDS métrico” (usa verdaderas disimilitudes, no rangos); puedo saber el % de variación explicada por cada eje (componente). Al igual que el PCA, el 1er eje (componente o PCO 1) explica la mayor variabilidad, el segundo (PCO 2), la segunda mayor cantidad de variabilidad y así sucesivamente.
Al igual que nm-MDS, la relación entre las variables y los ejes NO es lineal
Ejes PCO
% V
aria
bilid
ad
tota
l acu
mul
ada
33Diseño experimental y análisis estadístico: su aplicación en biología marina
PCO vs. nm-MDS: ¿qué diferencias específicas hay?
En la práctica los resultados del PCO son siempre parecidos al nm-MDS, si los datos no se comportan “extremadamente mal”. La ventaja del PCO es que los ejes tienen significado y explican una cierta cantidad de la variabilidad total
PCO mantiene las disimilitudes mientras que el nm-MDS preserva el orden de rangos de las disimilitudes; eso hace que no sea tan robusto a datos “que se comportan mal”
34Diseño experimental y análisis estadístico: su aplicación en biología marina
PCO: ejemplo
Diseño experimental y análisis estadístico: su aplicación en biología marina35
Pros: trabajo con verdaderas disimilitudes (no con rangos como nm-MDS), puedo saber el % de variabilidad explicado por casa eje. Puedo seleccionar cualquier medida de disimilitud, según el tipo de datos
PCO: ventajas e inconvenientes
Contras: Si los datos se “portan muy mal” (muchos 0s, “outliers”; es decir, lo que ocurre en ciertas ocasiones), es sensible: no es tan robusto como su “primo hermano” el nm-MDS
Diseño experimental y análisis estadístico: su aplicación en biología marina36
PCA/nm-MDS/PCO son técnicas de visualización de patrones: no permite contraste de hipótesis
Necesidad de un test para contrastar las diferencias entre grupos que acompañe a una técnica de visualización de patrones
Cuidadín, cuidadín