características estadísticas de series hidrológicas

36
Ing. Mg.Sc. Ricardo Apaclla Nalvarte 1 Clase 1: CARACTERISTICAS ESTADISTICAS DE LAS SERIES DE TIEMPO HIDROLOGICAS IA-5025 METODOS DE ANALISIS EN HIDROLOGIA

Upload: jean-gutierrez

Post on 16-Sep-2015

40 views

Category:

Documents


2 download

DESCRIPTION

Descripción de las características en series de datos hidrológicos de una cuenca para un posterior análisis en software.

TRANSCRIPT

Participacin de Comunidades Campesinas y Gobiernos Locales en la gestin del recurso hdrico de la Cuenca del ro Chira en Piura, Per.

Ing. Mg.Sc. Ricardo Apaclla Nalvarte1Clase 1:CARACTERISTICAS ESTADISTICAS DE LAS SERIES DE TIEMPO HIDROLOGICAS

IA-5025 METODOS DE ANALISIS EN HIDROLOGIA

1Una de las preguntas ms importantes que se hace mientras se analizan cualquier serie de tiempo, es describir y resumir los datos de las series de tiempo en formas, que expliquen fcilmente sus caractersticas importantes.

Si se desea conocer la concentracin esperada de cloruro en la lluvia de una determinada ubicacin o la variabilidad espacial de la tasa de infiltracin, o la avenida esperada para un perodo de retorno de 100 aos, se requiere comprender un sumario estadstico de los datos de las series hidrolgicas.2Las caractersticas estadsticas que a menudo se describen, incluyen:

Medidas de tendencia centralMedidas de dispersin o variabilidadUna medida de la simetra de la distribucin de los datos.Posiblemente, estimados de extremos tales como pequeos o grandes percentiles

3Medida clsica: Media aritmticaSe calcula sumando todos los datos xi, y dividiendo la suma entre el tamao de la muestra (n).Medidas de ubicacinDe las seis medidas de localizacin (media, mediana, moda, media geomtrica, media armnica, media ajustada), la media y la mediana son dos de las ms comnmente utilizadas.4Para datos agrupados, la ecuacin anterior se modifica para mostrar la media total que depende de la media de cada grupo, ponderado por el nmero de observaciones ni en cada grupo.La influencia de cualquier valor sobre la mediao5La influencia de cada observacin sobre la media es la distancia entre la observacin y la media excluyendo esa observacin.Por lo tanto, todas las observaciones no tienen la misma influencia sobre la media Una observacin extrema o atpica, alto o bajo, cualquiera de los dos, tendr una mayor influencia sobre la media que una observacin tpica, uno ms cercano a su media.La influencia de un valor extremo o atpico puede entenderse como que la media acta como un punto de balance de todos los valores de la muestra cuando cada punto es arreglado sobre una lnea numrica.6

La media acta como un punto de balance de la serie de datos de tiempo.Si un dato cerca de la localizacin central es removido, habra solo la necesidad de un pequeo ajustes sobre el punto para mantener el balance.Por el contrario, si un valor atpico que est muy lejos de la localizacin central se remueve, el punto de balance cambiara considerablemente.

La media se mueve a la izquierda despus de remover el valor atpico.7Esta sensibilidad a la magnitud del nmero pequeo de valores define porque la media no es una medida robusta (o resistente) de localizacinNo es resistente a cambios ante la presencia o cambios en la magnitud, de pequeos valores atpicos.8Mediana (medida robusta)

La mediana es el valor medio de una serie de datos cuando los datos son ordenados en orden de su magnitud. Es el percentil 50 (P50) de los datos.Para una serie de datos con un nmero impar de observaciones, la mediana es el valor central que tiene un nmero igual de observaciones por debajo y por encima del valor de la media.Para una serie de datos con un nmero par de observaciones, la mediana es el valor promedio de los dos valores centrales.9Para calcular la mediana, primero se ordenan las observaciones en orden ascendente de menor a mayor valor y luego se utilizan las siguientes ecuaciones.Para nmero imparPara nmero parAl contrario de la media, la mediana es altamente resistente y suavemente afectado por la magnitud de un solo valor, siendo determinado nicamente por el orden relativo de la observacin.La mediana es siempre preferida sobre la media en el caso de un resumen estadstico robusto ya que no es fuertemente influenciado por un valor extremo bajo o alto10Medidas adicionales de localizacin

Adicionalmente a las medidas de localizacin tradicionales y robustas, se usan tambin la moda, media geomtrica, media armnica y media recortada, pero menos frecuente.La Moda es definida como la observacin ms frecuente en la serie de datos.Aunque es fcil de obtener, es una mediada pobre de localizacin para datos continuos puesto que su valor depende a menudo de una agrupacin arbitraria de los datos.11Media geomtrica (GM)Es a menudo utilizado para calcular un resumen estadstico para datos positivamente sesgados.Para una serie de datos sesgados positivamente, la GM es usualmente bastante cercano a la mediana en la serie.De hecho la GM es un estimado imparcial de la mediana cuando los logaritmos del conjunto de datos son simtricos. Esto por que los logaritmos de la media y de la mediana son iguales.12Media ArmnicaEn matemticas, la media armnica (llamada tambin media subcontraria) es uno de los muchos tipos de promedio.Tpicamente, es apropiado para situaciones donde se desea el promedio de las tasas.La media armnica (HM) de nmeros reales positivos de una serie de tiempo x1, x2,, xn>0, se define como:13La media armnica est relacionada a la media aritmtica y a la media geomtrica. Para un conjunto de datos todos positivos que contienen al menos un par de valores no iguales, la media armnica es siempre el menor de las tres medias, mientras que la media aritmtica es siempre el mayor de los tres, la media geomtrica esta siempre en el medio.14La varianza muestral (s2) y la desviacin estndar muestral (s) para una serie de tiempo x1, x2, , xn, se calculan de acuerdo a:Medidas de DispersinMedidas ClsicasLa varianza muestral y la desviacin estndar muestral son medidas clsicas de dispersin. Similar a la media, las medidas clsicas de dispersin estn fuertemente influenciadas por valores atpicos.15Conforme el valor del rango, desviacin estndar y coeficiente de variacin se incrementan, la variabilidad de la poblacin se incrementa.Medidas RobustasMedidas robustas de dispersin acerca de la media incluyen al rango, rango intercuartil, coeficiente de variacin y desviacin absoluta de la mediana.El Rango Intercuartil (IQR)Es la medida resistente de la dispersin ms comnmente utilizada, que mide el rango central del 50% de los datos en la serie de tiempo y no es influenciada por el 25% de los datos en cualquiera de las dos colas.16El percentil 75 (superior), percentil 50(mediana), y percentil 25(inferior) dividen la serie de tiempo en cuatro percentiles del mismo tamao.El IQR se calcula restando el valor del percentil 25 del valor del percentil 75El percentil 75 es un valor que no es excedido en no ms del 75% de los datos y es excedido por no mas del 25% de los datos de la serie de tiempo.El percentil 25es un valor que excede en no mas del 25% de los datos y es excedido por no ms del 75% de los datos de la serie de tiempo.17Consideremos una serie de tiempo arreglados en orden cronolgico de magnitudes de los datos: xi, i=1 a n. El percentil P se calcula usando la siguiente frmula.Donde n es el tamao de la muestra y j es la fraccin de los datos menor o igual al valor del percentil (para los percentiles 25, 50 y 75, j=0.25, 0.50 y 0.75 respectivamente.RangoSe calcula tomando la diferencia entre el mayor y el menor valor de la serie de tiempo. Como depende solo de dos observaciones, es una medida de dispersin dbil y pobre.18Coeficiente de variacin CV.El coeficiente de variacin da una medida normalizada de la medida de la dispersin acerca de la media.Variables hidrolgicas con valores grandes de CV son ms variables que aquellos con valores pequeos de CV.19Desviacin absoluta de la mediana MADUn estimador robusto de la dispersin que es ms resistente a valores atpicos, que la desviacin estndar, es la desviacin absoluta de la mediana.Se calcula primero creando una nueva diferencia de serie de tiempodentre cada valor y la mediana.Donde P50 es la mediana de los valores originales.Luego se calcula MAD como la mediana de las diferencias absolutas20Medidas de SesgoLas series de tiempo hidrolgicas son usualmente sesgadas, lo que significa que los datos de la serie no son simtricos alrededor de la media o mediana, con valores extremos que se extienden fuera en una direccin.La probabilidad de la funcin de densidad para una distribucin log normal, se muestra en la figura siguiente donde se observa el sesgo en los datos. Cuando los valores extremos se extienden hacia la derecha, la distribucin se dice que es sesgada hacia la derecha o positivamente sesgada. Por el contrario si los valores extremos se extienden hacia la izquierda, se dice que la serie de datos es sesgada hacia la izquierda o negativamente sesgada.21

En hidrologa, todos los tipos de series de tiempo, a menudo tuenen sesgo positivo (lluvia, escorrenta, niveles de agua subterrnea, etc).22Por lo tanto, propiedades estadsticas incluyendo solo la media y la desviacin estndar o varianza, no son suficientes para estudios relacionados a la ingeniera y gestin de los recursos hdricos.Esto se debe al hecho de que la media y la desviacin estndar por si solos no pueden describir las propiedades de la mayora de los datos muy bien cuando los datos son sesgados.23Medida Robusta del Sesgo (qs)Una medida robusta del sesgo es el coeficiente de sesgo cuartil. Que es definido como la diferencia en distancias del cuartil superior e inferior respecto a la mediana, dividido por el IQR 24Medida de Agudez o chaturaKurtosis es una medida de la agudez o chatura de los datos de la distribucin de series relacionados a la distribucin normal.Esto es, datos con alta kurtosis tienden a tener distintos picos cerca de la media, mas bien declinar rpidamente y tener colas pesadas.La kurtosis para una distribucin normal estndar es 3, y algunos autores dan las siguiente definicin de kurtosis, que es referido como exceso de kurtosis.25Una distribucin alta de kurtosis tiene un pico ms ntido y largo, colas ms gruesas, mientras que distribucin baja de kurtosis, tiene un pico ms redondeado y corto, con colas delgadas.Distribuciones con cero exceso de kurtosis son llamados mesokurticos, distribucciones con un positivo exceso de kurtosis son llamados leptokurticos.En trminos de forma, una distribucin leptokurtica tiene un pico ms agudo alrededor de la media y colas ms gruesas26En trminos de forma, una distribucin platokurtica tiene un bajo y ms amplio pico alrededor de la media y colas delgadas.Distribuciones con negativo exceso de kurtosis son llamados platokurticos27Muchos enfoques tericos y prcticos han sido propuestos rn la literatura para identificar y calificar objetivos y para considerar criterios/objetivos mltiples en la planificacin y gestin de los recursos hdricos.En estadstica hay varios mtodos para resumir los datos de series de tiempo, resultantes de observaciones de campo como anlisis de simulacin. La media aritmtica pesada, y la media geomtrica son dos mtodos comunes de resumir mltiples datos de series de tiempo.Mdidas estadsticas para evaluar la perfomance del sistema.28Las grficas de mltiples series son normalmente difciles de comparar.Otra aproximacin para resumir y comparar valores de series de tiempo hidrolgicas, es la varianza.Ej. Consideremos una serie de lluvia anual:200, 675, 475, 175, 780, 890, 945, 875, 400 y 300mm de lluvia en 10 aos.Media=571.5 mmVarianza= 88322.5 mm2La grfica de los datos de lluvia se muestran en la figura siguiente:29La media y varianza para la serie de tiempo se muestran en la figura siguiente.La media y varianza son los mismos para su imagen que se muestra en la figura siguiente:

30Consideremos estas dos series de tiempo, cada una con la misma media y varianza.Asumamos que cualquier valor igual o menor a la lnea punteada (justo arriba de 300 mm) es considerado insatisfactorio.As el valor de lluvia se conoce como umbral, dividiendo la lluvia de la serie de tiempo entre valores satisfactorios e insatisfactorios, 31La serie original de tiempo permanece en una condicin insatisfactoria para un corto tiempo que, la serie de tiempo del espejo. Sin embargo su grado mximo de falla ocurre en la serie del espejo.Estas caractersticas de las series Fiabilidad, Resistencia y Vulnerabilidad32Asumiendo valores satisfactorios en la serie hidrolgica de tiempo xn que contiene n valores que son iguales o mayores que un valor umbral xT, la fiabilidad del sistema puede ser expresado como:FiabilidadLa fiabilidad de un sistema es definido como el nmero de datos en un estado satisfactorio dividido por el nmero total en la serie de tiempo.33

La fiabilidad de la serie de tiempo original es de 0.7, que sugiere que hubieron 3 fallas de 10. Igualmente la serie de la imagen tambin tiene una fiabilidad de 0.7.34ResistenciaLa resistencia de un sistema es definido como la probabilidad que si un sistema est en un estado insatisfactorio, el siguiente estado puede ser satisfactorio.En otras palabras es la probabilidad de tener un valor insatisfactorio en un perodo de tiempo t-1, dado un valor satisfactorio en cualquier perodo de tiempo t.Para la serie original de tiempo, la resistencia es de 2/2=1, mientras que en la serie imagen es de 1/3=0.33, ambas para un umbral de 300 mm.35VulnerabilidadEs una medida del grado de diferencia entre el valor umbral y los valores insatisfactorios.Asumiendo un valor esperado de la medida de la vulnerabilidad, la vulnerabilidad puede ser expresada como.La vulnerabilidad esperada de la serie original es de [(300-200)+(300-175)]=125Para la serie imagen es de [(300-248)+(300-193)+(300-263)]/3=65.3336