analisis estadístico de datos...
TRANSCRIPT
Analisis Estadístico de Datos Climáticos
Estadística Univariada Distribuciones empíricas y análisis exploratorio de datos
Robustez y Resistencia Medidas numéricas de localizacion, dispersión y simetría Técnicas gráficas: boxplots, histogramas, distribución de
frecuencia acumulada Transformaciones
Finalidad: aprender algo sobre la naturaleza de los datos.
Transformaciones
A veces es útil transformar matemáticamente el conjunto inicial de datos puede revelar características escondidas de los datos. ayuda a hacer que los datos cumplan con ciertas hipótesis
sobre la naturaleza de los datos. Por ej. que tengan distribución guassiana.
ayuda la comparación entre diferentes variables .
Anomalías ¿Cómo se definen usualmente las anomalías en
estudios del clima?
Las anomalías se definen con respecto al ciclo anual.
Por ejemplo, para datos medios mensuales, el ciclo annual se define como el promedio de todos los eneros, febreros, etc, del período del registro.
Código de Matlab
% Cargar los datos
pre=nv_varget('precl19492006.nc','rain')*0.1; %lluvias en mm/dia
lon=nc_varget('precl19492006.nc','longitude');
lat=nc_varget('precl19492006.nc','latitude');
size(pre) Matriz de 696x72x144 – tiempo x latitud x longitud
size(lon) – Vector (matriz) 144 x 1
size(lat) – Vector (matriz) 72 x 1
% Crear Climatología y Anomalías
[clim,anom]=climatology(pre(1:120,:,:),lon,lat,0);
% Plotear
subplot(3,2,1:4) %crea 3 x 2 cuadros donde plotear y usa los 4 primeros
plot(linspace(1949,1958,120),pre(1:120,23,122),'linewidth',2)
hold %la siguiente línea dibuja encima de lo que ya está
plot(linspace(1949,1958,120),clim(1:120,23,122),'r','linewidth',2)
grid %pone grilla
title('Precipitacion en (56W,34S) PRECL periodo (19491958)')
legend('Precip','Climatol') %leyenda
subplot(3,2,5:6)
plot(linspace(1949,1958,120),anom(:,23,122),'linewidth',2)
grid
axis tight %arregla ejes
legend('Anom')
Anomalías estandarizadas
Las anomalías estandarizadas z se calculan restando la media y dividiendo por la desviación estandard.
Como las anomalías tienen ya media nula, basta con dividir por la desviación estandard.
z=anom(:,23,122)/std(anom(:,23,122)); %Define zplot(linspace(1949,1958,120),anom(1:120,23,122),'linewidth',2)holdplot(linspace(1949,1958,120),z,'g','linewidth',2)grid
Notar que:
Las anomalias estandarizadas no tienen unidades Todas las variables estandarizadas tienen media nula
y desviación estandard = 1.
Esto permite comparar diferentes variables mas facilmente.
Comparemos desviacion estandard de las lluvias en 56W,34S de acuerdo al mes
pp=anom(1:120,23,122);
%STD para c/mesfor j=1:12pps(j)=std(pp(j:12:end));end
bar(pps)
La desviación estandarden enero es 3 veces mayorque en diciembre.
O sea que una anomalia de1 mm/día en diciembre esmucho más inusual queen enero.
subplot(2,2,1)plot((1949:1958),pp(1:12:end),'r','linewidth',2)holdplot((1949:1958),pp(12:12:end),'linewidth',2)title('Anomalias')
subplot(2,2,2)plot((1949:1958),pp(1:12:end)/std(pp(1:12:end)),'r','linewidth',2)endplot((1949:1958),pp(12:12:end)/std(pp(12:12:end)),'linewidth',2)title('Anomalias estandarizadas')
Técnicas para datos apareados
Datos apareados: conjunto de datos con dos valores para el mismo tiempo.
Scatterplots
Coeficiente de correlación de Pearson
Coeficiente de correlación de Spearman (rango)
Scatterplots
Gráfico donde la variable y se plotea en funcion de la variable x.
(x,y) son datos para c/tiempo. Permite a simple vista “tener idea” de la relacion
entre datos apareados
Relación entre Anomalias de Precip y Temp en (56W,34S) durante mayo (1949-1958)
temp=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','temp');X=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','X');Y=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','Y');
[clim,anom]=climatology(temp(1:120,:,:),X,Y,0);tt=anom(:,23,122);scatter(tt(5:12:end),pp(5:12:end),30,'filled'); grid
De acuerdo a este gráficotiende a llover mas cuanto mas cálido estáel mes.
El cálculo de la correlaciónpermite asignar un valora esta relación.
Coef. de correlación de Pearson
Cociente entre la covarianza entre dos variables y el producto de sus desviaciones estandard.
Si las desviaciones estandards se meten dentro de la sumatoria la correlación también se puede escribir como
o sea, el promedio del producto de las anomalías estandarizadas.
Propiedades Cumple
especifica la proporción de la variabilidad de una de las dos variables que está descrita linealmente por la otra.
No es ni robusta (sólo caracteriza relaciones lineales) ni resistente (muy sensible a outliers).
−1r xy1
rxy ²
Poca resistencia a outliers
Correlación con punto rojo
r=0.34
Correlacion sin dato rojo
r=0.61
%Correlación
corr(tt(5:12:end),pp(5:12:end),'type','Pearson')
Precip=f(Temp) (56W,34S)
Coef. de correlación de Spearman
Alternativa robusta y resistente Consiste en aplicar la misma fórmula que el coef. de
Pearson pero a los rangos de los datos. Como se usan rangos, los valores son siempre enteros del 1 a n
(número de datos) y
(promedio de 1...n) = (n+1)/2
(varianza de 1...n) = n(n21)/[12(n1)]
Entonces
Di=rango x i−rango y i
Ejemplo 1
r_Pearson=0.877
Rango xi Rango yi Di
1 1 02 2 03 3 04 4 0
5 5 06 6 07 7 08 8 0
9 9.5 -0.510 9.5 0.5
r_rank=1- 6*0.5/(10*99)=0.997
Así como r_Pearson captura la relación lineal, r_rank captura una relación monotónica
Ejemplo 2
r_Pearson=0.61
Rango(xi) Rango(yi) Di
1 8 -7 2 4 -2 3 9 -6 4 2 2
5 5 0 6 6 0
7 3 4 8 1 7 9 7 2 10 10 0
r_rank=1 - 6(49+4+36+4+16+49+4)/(10*99)=0.018
En lengua Matlab: corr(x,y,'type','Spearman')
Autocorrelacion Es la correlación de una variable con sus propios valores
pasados y futuros.
Si se tiene una serie temporal Xi, i=1...n, la autocorrelación
con lag=1 se hace
X1 X
2 X
3 X
4... X
n2 X
n1 X
n
X1 X
2 X
3 X
4... X
n2 X
n1 X
n
Y se calcula
Para un lag k cualquiera se tiene
Notar que: a medida que k aumenta los segmentos de serie
comparados son cada vez mas chicos. en general se calcula las autocorrelaciones para k<n/3.
Función de autocorrelación
Es el conjunto de autocorrelaciones calculadas para diferentes lags.
La función de autocorrelación siempre comienza con r0=1 pues
es la correlación de una serie consigo misma.
● Típicamente, la función decrese a medida que k aumenta. Esta disminución es muchas veces exponencial y se define un tiempo de persistencia como el lag para el cual r
k=e1.
días
Persistencia de temperatura media en invierno de 1975en Las Brujas
temp=nc_varget('TempMedia_LasBrujas_INIA_1Jan1975-31Dec1995.cdf','tempavg');[rr,lag]=xcov(temp(6*30+1:7*31),temp(6*30+1:7*31),'coeff');[rr2,lag2]=xcov(temp(7*30+1:8*31),temp(7*30+1:8*31),'coeff');plot(lag,rr); hold; plot(lag,rr,'*');plot(lag2,rr2,'r'); plot(lag2,rr2,'r*'); axis([0 12 -0.5 1])
En Julio la escala de persistencia de temperatura fue bastante mayor queen agosto, peroes siempre del órdende días.
Julio fue mas “predecible”.
¿Por que una escala de 4-5 días? Por el pasaje de frentes y masas de aire.
Autocorrelación TSM lengua fria del Pacífico
La persistencia de las anomalías de temperatura de superficie de mar es del órden de 3 meses dependiendo de la región. Eso permite pronosticar el estado del océano con cierta antelación.
6 meses!
TSM globales últimos 3 meses
Predicción de TSM:- dinamica/estadísticamente enlos trópicos- persistencia en los extratrópicos