aca226 – climatologia ii, depto ciências atmosféricas, iag/usp prof. humberto rocha análise...

Post on 17-Apr-2015

105 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USPProf. Humberto Rocha

Análise Estatística Multivariada•Técnica das Componentes Principais (CP)(ou Funções Ortogonais Empíricas)

Motivação

variáveis hidroclimatológicas do sistema climático : grande quantidademuitas vezes correlacionadas entre si

uma tecnica estatistica que, sem perder as informação relevantes, viabiliza:

•Interpretação do sistema de variáveis como um todo, seus padrões dominantes de variabilidade

•Reduzir a interpretação a um número de variáveis menor, ou seja:

• prover variaveis não correlacionadas entre si (limitação da técnica de regressão)• diminuir a redundância de informação

Climatologia II - ACA226 (Iag/USP)

Se i = j então tem-se a variância:

Climatologia II - ACA226 (Iag/USP)

Revisão

A função covariância de duas variáveis aleatórias xi e xj, como séries temporais no tempo k=1,n

Revisão 2. A matriz de covariância Σ

Representação matricial de todas as combinações possíveis de covariâncias no vetor X de séries temporais de v.a. X = (x1,x2,...xp), no tempo k=1,n

é a matriz quadrática (p x p) definida como

Como s12 = s21, por ex, a matriz é simétrica

Climatologia II - ACA226 (Iag/USP)

Revisão 3. Matriz de Correlação

Outra matriz importante nos cálculo das CP é a matriz de correlação.O coeficiente de correlação entre duas variáveis Xi e Xj é definido como

2 2

cov( , )

var( ) var( )i j

i ji j

x xsijrij

x xs s

Se i = j, então2

2 21i

ii

i i

sr

s s

A matriz de correlação é

r11 = r22 = ... rpp = 1 define a diagonal da matriz

Climatologia II - ACA226 (Iag/USP)

rij

Revisão 4. Variáveis Independentes

O coeficiente de correlação linear é

Assim

Se xi e xj são variáveis independentes (não relacionadas) então cov(xi,xy) = 0

Contudo, o oposto nem sempre é verdadeiro.

Climatologia II - ACA226 (Iag/USP)

Se Xi e Xj não tem relação (ou proporção) linear entre si, β = 0

Revisão 5. Problema de autovetores e Autovalores

a) Seja um vetor (de 2 dimensões por exemplo ) X = (x1,x2)

Uma transformação linear em X, obtida por uma matriz A (conhecida)

que obtem o vetor Y, Y= A X (1)

e seja equivalente a um vetor paralelo a X (ou seja, multiplicado por uma constante λ, desconhecida)

Y= λ X (2)

tem como solução possíveis os valores de λ, chamados autovalores,

e de X como o autovetor associado (calculado) a λ,

onde A é chamada de matriz de transformação.

Climatologia II - ACA226 (Iag/USP)

Determinação dos autovalores e autovetoresDe (1) e (2) A X = λ X ↔ (A – λ I) X = 0 (3)

Definindo-se a matriz A e a matriz identidade I, temos

11 21 1

12 22 2

1 0, ,

0 1

a a xA X I

a a x

Então em (3)

a11x1 + a12x2 – λx1 = 0 (a11 - λ) x1 + a12x2 = 0

a21x1 + a22x2 – λx2 = 0 a21x1 + (a22 - λ)x2 = 0↔

A solução do sistema tem solução para λ ≠ 0 que exige det (A – λ I) = 0, ou seja

e que é chamada de equação característica da matriz A ,com soluções (chamadas características) que são os autovalores λ1 e λ2.

Climatologia II - ACA226 (Iag/USP)

Em (3), para cada λi obtem-se um autovetor associado Xi, ou seja,(no exemplo i=1,2) formam-se os pares (λ1, X1) e (λ2,X2), com as seguintes propriedades:

os autovetores Xi são lineares independentes, portanto formam uma base vetorial,

são ortogonais entre si;

nenhum Xk pode ser expresso em função de outro Xj;

cov(Xk,Xj)k≠j = 0

Revisão 6. Variância de um Sistema Def: a Variância total do Sistema (V) de Y = f(x1,x2) dependente das v.a. x1 e x2 na relação

linear y = (a1x1 + a2x2) é definida como

V = Var(y) = Var(a1x1+a2x2) = a12Var(x1) + a2

2Var(x2)+2a1a2cov(x1,x2)

Climatologia II - ACA226 (Iag/USP)

1

2( ) '( ), onde ,

p

a

aVar y a a a

a

= matriz de covariância de Xa’ = matriz transposta de a

Demonstração:

11 12 1 1

21 22 2 2

1 2

...

...'( ) 1 2

...

p

p

p p pp p

s s s a

s s s aa a a a ap

s s s a

1 11 2 12 1

1 21 2 22 2

1 1 2 2

( .. )

( .. )'( ) 1 2

( .. )

p p

p p

p p p pp

a s a s a s

a s a s a sa a a a ap

a s a s a s

Ou na forma genérica (i=1, ..,p)

mostra-se que

Climatologia II - ACA226 (Iag/USP)

Na diagonal principal vem

Nas diagonais em geral

1 2 12 1 2 1 2

1

( )

2 2 cov( , )

2 cov( , )p

i j i ji

i p

a a s a a x x

a a x x

Portanto cqd

2

1 1

'( ) var( ) 2 cov( , )

'( ) ( )

p p

i i j i ji i

a a a xi a a x x

a a Var y

Climatologia II - ACA226 (Iag/USP)

Na 1ª diagonal por ex

Componentes principais : definição e determinaçãoSeja o sistema (V) de Y = f(X1,X2,..,Xp ) de p variáveis independentes, com n eventos cada (no tempo por ex), as CP serão determinadas com o fim de reter o máximo de informação das variáveis (X1,..,Xp) transformando-as em outras p variáveis Y1, Y2,...Yp, onde se:(a) garanta a sua ortogonalidade de Yi (i=1,p) ;(b) retenha somente k variáveis mais importantes (k<p), Y1,...,Yk ; (c) Possa interpretar a importância de cada Xi (i=1,p) nas CP.

As CP são definidas como o conjunto de vetores Y = (Y1,Y2,...,Yp ) , formado por p combinações lineares de X tal que

pi

i

i

i

l

l

l

l

...

3

2

1

ppppppp

pp

pp

XlXlXlXlY

XlXlXlXlY

XlXlXlXlY

...´

...

...´

...´

2211

222211222

122111111

ilcom o vetor

Climatologia II - ACA226 (Iag/USP)

Cálculo das Componentes principais

Objetivo: maximizar Var(Yi) onde

e que Var(Y1) > Var(Y2) > ... > Var(Yp)

Para a 1ª CP Var(Y1) = l1’(Σ l1) onde Σ = matriz covariancia de X l1’ = (l11,l21,...,lp1) , transposto de l1

maximizar (var(Y1)) = max(l1’(Σ l1))

condição de contorno: l1’ l1=1

seja então Q1 = l1’ (Σ l1) e introduzimos um multiplicador lagrangiano λ1

Q1 = l1’(Σ l1) + λ1 - λ1l1’l1 ↔ Q1 = l1’(Σ l1) + λ1(1 - l1’l1)

max(Q1) leva a 1

1 1 1 1 11

0 0 ( )Q

l l I ll

Eq. Característica da matriz com p-pares solução (λ1, l1), mas para obter

uma solução única de l1 vem:1 1 1 1 1 1

1 1 1 1 1 1

0

multiplicando por ' ' '

l l l l

l l l l l

p

i ji

p

i i YYYVarYVar11

),cov(2)()(

0

Vetores unitários garantem maximização não ocorra simplesmente por multiplicação de uma constante

11 .1)( YVar 11 )( YVar

das p soluções possíveis, toma-se o maior λ1 e o l1 associado

Climatologia II - ACA226 (Iag/USP)

Climatologia II - ACA226 (Iag/USP)

a) Procedimento de cálculo : dada matriz de covariância Σ de X = (X1, .., Xp) calculam-se os p pares (autovalor, autovetor) = (λ1, l1) ,..., (λp, lp)

Identifica-se a 1ª CP no maior λ1, e assim sucessivamente a 2ª CP até k-esima CP tal que (λ1 > λ2 > ... > λp )

b) Construção de cada CP (chamada também de factor) é

ppppppp

pp

pp

XlXlXlXlY

XlXlXlXlY

XlXlXlXlY

...´

...

...´

...´

2211

222211222

122111111

O coeficiente lk1 é o “peso” (chamado de loading) da variável Xk na 1ª CP relativamente aos demais; pode ser positivo ou negativo (proporção direta ou indireta)

infere-se a importância de cada Xk (serve como critério para selecionar variáveis em um modelo de regressão linear múltipla, por ex.)

Propriedades

(1) Com a matriz de covariância , a equação característica | Σ - λ I|=0define-se a matriz dos coeficientes das componentes principais U e a matriz L

U’ Σ U = L , onde

As colunas de U , (u1, u2,...un) são os auto-vetores da matriz ΣOs elementos da diagonal de L , (λ 1, λ 2...λ n) são os autovalores da matriz Σ

A variância total do sistema é dada por

e a variância explicada pela i-ésima CP é

Portanto escolhe-se somente as k primeiras CPs (Y1,Y2,...,Yk), (k>p)que respondam pela maior parte da variância total, para fins de interpretação.

pppp

p

p

lll

lll

lll

U

...

......................

...

...

21

22212

12111

p

L

...00

......................

0...0

0...0

2

1

pii

pii LtraçoYVar

,1,1

)()(

%100.

,1 pi

i

i

Climatologia II - ACA226 (Iag/USP)

Exemplo 1 : duas séries temporais

Temperatura média diária em 2 estações próximas, T1 e T2, durante 15 dias

Dia T 1 T 2

1 10 10.7

2 10.4 9.8

3 9.7 10

4 9.7 10.1

5 11.7 11.5

6 11.0 10.8

7 8.7 8.8

8 9.5 9.3

9 10.1 9.4

10 9.6 9.6

11 10.5 10.4

12 9.2 9.0

13 11.3 11.6

14 10.1 9.8

15 8.5 9.2

Climatologia II - ACA226 (Iag/USP)

Matriz de covariância

determinando a equação característica

Climatologia II - ACA226 (Iag/USP)

Com soluções λ1 = 1.44 e λ2 = .086

053.112.073.068.0

68.079,0 2

IS

Climatologia II - ACA226 (Iag/USP)

auto-vetores li obtidos pela solução da equação 0 IS

0

0

44.173.068.0

68.044.179,0

12

1111 l

llIS Para λ1 = 1.44

Para λ2 = .086 analogamente

69.0

72.01l

72.0

69.02l

variância do sistema = soma dos auto-valores = 1.44 + .09 = 1.53

variância explicada pela 1ª CP = 1.44/1.53 = 0.94 (ou ~94%) variância explicada pela 2ª CP = 0.09 /1.53 = 0.06 ( ou ~6,0%)

72.069.0

69.072.0Usautovetoredosmatriz

Interpretação geométrica das CPs : rotação de eixosno sistema de coordenadas centrado na média =(10,10) definem-se eixos de variação:

Na 1ª CP l11=0.72 = cosseno do ângulo abscissa c/1º eixo (linha azul sólida), cos(43,65o)=0.72;

Na 2ª CP l21=-0.69 = cosseno do ângulo abscissa c/2º eixo (linha verde), cos(90o+46,35o)=-0.69é Ortogonal ao 1º eixo

regressão linear de T2 =f (T1) indicada linha preta

Climatologia II - ACA226 (Iag/USP)

Var

iave

l T2

Variavel T1

46,35o

Eixo u = direção principal de variação entre X1 e X2

Eixo v = 2a direção principal

assim as direções u e v são chamadas de Componentes Principais.

1o autovetor2o autovetor

Exemplo 2: com 3 variáveis

Exemplo 3 - Aplicação em campos espaciais

Variáveis: série histórica de precipitação (acumulado em pentadas) 1979 a 2010 (=2336 pêntadas) Fonte: GPCP (Adler et al., 2003)

Disposição: grade regular na America do Sul (60S a10N ; 90W a 30W ) com 24 pontos em x, 28 pontos em y, 2336 pontos em t

Cada ponto é uma variável (no total p=24x28 = 672 variáveis), e cada um é uma série temporal com n=2336 eventos, ou seja,

Climatologia II - ACA226 (Iag/USP)

1º CP 18.6% da variância explicada 2º CP 7.8% da variância explicada

3º CP 4.36% da variância explicada4º CP 3.92% da variância explicada

Climatologia II - ACA226 (Iag/USP)

Coeficiente temporal do 1º CP Coeficiente temporal do 2º CP

Coeficiente temporal do 3º CP Coeficiente temporal do 4º CP

Reconstrução temporal das CPs

Climatologia II - ACA226 (Iag/USP)

Reconstrução da Série =CP x coeficiente temporal

Dados originais de Precipitação pentadal

evento 25-maio-1984evento 25-maio-1984

Climatologia II - ACA226 (Iag/USP)

top related