topicos de¶ algebra linear¶ -...

TOPICOS DE ALGEBRA LINEAR

Paulo Lopes dos Santos

Departamento de Engenharia Electrotecnica e ComputadoresFaculdade de Engenharia da Universidade do Porto

Rua Dr Roberto Frias, s/n4200-464 Porto, PortugalEmail: [email protected]

Setembro 2007

Topicos de Algebra Linear 1

Conteudo

1 Vectores Linearmente Independentes 2

2 Subespacos e Bases 4

3 Subespacos Associados a Matrizes e Decomposicao QR 6

4 Decomposicao em Valores Singulares 11

5 Norma Quadratica de Matrizes 16

6 Aproximacao de uma Matriz por Outra de Caracterıstica Inferior 22

7 Projeccoes Ortogonais de Subespacos 25

8 Projeccoes Oblıquas de Subespacos 32

9 Projeccoes nos Subespacos gerados pelas linhas duma matriz 33

10 Produto de Kronecker e Vectorizacao de Matrizes 34

11 Norma de Frobenius 39


1 Vectores Linearmente Independentes

Sejam v1, v2, . . . , vn vectores em IRn. Diz-se que estes vectores sao linearmente independentes

se, para um conjunto de escalares αi ∈ IR, i = 1, . . . , nn∑

i=1

αivi = 0n ⇒ α1 = α2 = · · · = αn = 0,

em que 0n e o vector de IRn com todas as entradas nulas. Se v1 =

[v11

v12

]∈ IR2 e v2 =

[v21

v22

]∈ IR2, entao, qualquer ponto z =

[z1

z2

], pertencente ao subespaco S ⊆ IR2 gerado

por v1 e v2, pode ser expresso atraves da combinacao linear

α1v1 + α2v2 = z ⇔[

v11

v12

]α1 +

[v21

v22

]α2 =

[z1

z2

]⇔

[v11 v21

v12 v22

] [α1

α2

]=

[z1

z2

].

Se a matriz V =

[v11 v21

v12 v22

]for nao singular e se z = 02, entao

[α1

α2

]=

[v11 v21

v12 v22

]−1 [z1

z2

]=

[00

]

e, consequentemente, so para α1 = α2 = 0 e que v1 e v2 se anulam. Concluımos, assim,

que v1 e v2 sao independentes se e so se (sse) V for uma matriz nao singular, ou seja, sse

det V 6= 0. Como

det V = v11v22 − v21v12

entao

det V = 0 ⇔ v11v22 − v21v12 = 0 ⇔ v21

v11

=v22

v12

= k ⇒{

v21 = kv11

v22 = kv12⇔ v2 = kv1

significando isto que v1 e v2 sao independentes sse nao forem colineares.

v1

v2

u1

u2

Figura 1: v1 e v2 sao linearmente independentes e u1 e u2 sao linearmente dependentes

Em IR2 o maximo que conseguimos e um conjunto de dois vectores linearmente inde-

pendentes. Qualquer conjunto com mais de dois vectores nao e de vectores linearmente

independentes.


Exemplo 1 :

Seja {v1, v2, v3} um conjunto de vectores nao nulos em IR2. Acabamos de ver que se os vec-

tores v1 =

[v11

v12

]e v2 =

[v21

v22

]forem linearmente independentes entao det

{[v11 v21

v12 v22

]}6=

0 Nestas condicoes,

[α1

α2

]=

[v11 v21

v12 v22

]−1 [v31

v32

]6= 02

e a solucao da equacao

α1v1 + α2v2 = v3 ⇔[

v11 v21

v12 v22

] [α1

α2

]=

[v31

v32

]

e, consequentemente,

α1v1 + α2v2 − v3 = 02

significando isto que {v1, v2, v3} nunca pode ser um conjunto de vectores independentes.

x1

x2

α2v2

α1v1 v3

v1

v2

v31v11v21 α2v21

v12

v22

v32

α2v22

α1v11

α1v12

Figura 2: v1,v2 e v3 sao vectores no mesmo plano e, por isso, sao linearmente dependentes

Pode-se provar de forma identica que, no espaco IRn nunca se conseguem mais do que n

vectores linearmente independentes.


2 Subespacos e Bases

Seja S um subconjunto do espaco vectorial E, isto e, S ⊆ E. Se, para quaisquer elementos v1

e v2 pertencentes a S e quaisquer escalares α1 e α2 a combinacao linear α1v1 +α2v2 pertencer

a S, entao S e um subespaco de E. Deste modo, todas as combinacoes lineares dos vectores

{v1, v2, . . . , vm} com vi ∈ IRn formam um subespaco de IRn. Esse subespaco e designado

como

S = span {v1, v2, . . . , vm} =

{x : x =

m∑i=1

αivi,∀αi∈IR

}.

Dizemos, entao, que qualquer conjunto de vectores {v1, v2, . . . , vm} gera um subespaco.

Exemplo 2 :

Todas as combinacoes lineares do vector v1 sao vectores colineares com v1. Isto significa

que o subespaco gerado pelo vector v1 (span {v1}) e a recta que o contem.

x2

x1

span{v1}

v1

Figura 3: O subespaco gerado por v1 e a recta span{v1}

Exemplo 3 :

O subespaco definido pelo conjunto de vectores {v1, v2} e o plano que contem v1 e v2

(span{v1, v2}) se estes vectores forem linearmente independentes. Se forem dependentes e a

recta que os contem.

A dimensao dum subespaco e o numero de vectores linearmente independentes que sao

necessarios para o gerar. Assim, qualquer recta que passe pela origem e um subespaco de


��

��

x1

x2

x3

span{v1 , v2}

v2

v1

Figura 4: O subespaco gerado por v1 e v2 e o plano span{v1, v2}

dimensao um, pois, pode ser gerada por um unico vector. Qualquer plano que contenha

a origem e um subespaco de dimensao dois (pode ser gerado por dois vectores linearmente

independentes).

Seja S um subespaco de IRn com dimensao p. Qualquer conjunto de vectores indepen-

dentes {v1, v2, . . . , vp} pertencentes a S e uma base de S. Deste modo, qualquer elemento

x ∈ S pode ser representado pela combinacao linear

x = β1v1 + β2v2 + · · ·+ βpvp

em que β1, β2, . . . , βp sao as componentes (coordenadas) de x relativamente a base {v1, v2, . . . , vp}.Notemos que qualquer subespaco S tem um numero infinito de bases. No entanto, o numero

de elementos de cada base e sempre igual a dimensao de S.

Sejam x, y ∈ IRn. Se xT y = yT x = 0 dizemos que x e y sao ortogonais o que representamos

por x⊥y. Se yT x = 0 para todo x ∈ S ⊂ IRn, entao y e ortogonal a S o que designamos por


y⊥S. O conjunto de todos os vectores perpendiculares a S e o complemento ortogonal de S

e e representado por S⊥. Formalmente, podemos definir S⊥ por

S⊥ ={y ∈ IRn : yT x = 0, ∀x ∈ S

}.

Pode-se provar que S⊥ e um subespaco de IRn mesmo que S o nao seja.

Sejam S e V subespacos de IRn. A soma de S e V, designada por S ∨V, e o subespaco

gerado por todos os elementos de S e V. A sua definicao formal e

S ∨V = {x + y : x ∈ S ∧ y ∈ V} .

E importante assinalar que este subespaco nao e a uniao de S e V (S∪V nao e um subespaco).

Se S∩V = {0}, designamos S∨V por soma directa. Se, para quaisquer vectores x ∈ S,

y ∈ V, yT x = 0, dizemos que S e ortogonal a V o que representamos por S⊥V. Neste caso,

S ∨V e a soma ortogonal directa e e representada por S⊕V.

Para qualquer subespaco S ∈ IRn existe uma unica decomposicao IRn = S ⊕ S⊥. Isto

significa que para todo z ∈ IRn existe uma unica decomposicao z = x + y em que x ∈ S e

y ∈ S⊥.

3 Subespacos Associados a Matrizes e Decomposicao

QR

Dado um conjunto de vectores em IRn como e que podemos verificar se sao linearmente

independentes? A forma mais simples e formar uma matriz cujas colunas (ou linhas) sao as

coordenadas desses vectores e calcular a sua caracterıstica (recordemos que a caracterıstica

duma matriz e o seu numero de linhas ou colunas linearmente independentes).

Exemplo 4 :

Sejam v1 =

12345

e v2 =

3691215

dois vectores em IR5. Se formarmos a matriz

M =[

v1 v2

]=

1 32 63 94 125 15


podemos ver que car(M) = 1 e concluir que v1 e v2 sao linearmente dependentes (e facil ver

que v2 = 3v1 e que, consequentemente, estes dois vectores sao colineares).

Como car(MT ) = car(M) chegarıamos ao mesmo resultado atraves do calculo da carac-

terıstica de

MT =

[vT

1

vT2

]=

[1 2 3 4 53 6 9 12 15

].

Uma forma interessante de vermos uma matriz A ∈ IRn×m, e encarar as suas colunas (ou as

suas linhas) como um conjunto de vectores que geram um subespaco em IRn (ou IRm no caso

das linhas). Deste modo, podemos associar a A dois subespacos:

• 1 - Subespaco gerado pelas suas colunas (column-space) que designaremos por im(A) (im-

agem de A);

• 2 - Subespaco gerado pelas suas linhas (row-space) que designaremos por im(AT ) (imagem

de AT );

Consideremos agora um vector x ∈ IRm. Se multiplicarmos A por x vamos obter um vector

em IRn, isto e,

v = Ax ∈ IRn

Podemos, entao, afirmar que a matriz A define uma transformacao do espaco IRm para IRn

(IRm → IRn). Sendo

A =[

a1 a2 · · · am

]

em que ai ∈ IRn, i = 1, . . . , m e

x =

x1

x2...

xm

entao

v = Ax =[

a1 a2 · · · am

]

x1

x2...

xm

= a1x1 + a2x2 + · · ·+ amxm,


ou seja, v = Ax e uma combinacao linear das colunas de A, cujos coeficientes sao os elementos

x1, x2, . . . , xm de x. Deste modo, v pertence sempre ao subespaco gerado pelas colunas de A,

isto e, im(A). Se as colunas de A forem linearmente independentes, entao constituem uma

base para im(A). Nestas condicoes, diz-se que A e uma matriz de caracterıstica completa

(car(A) = m = numero de colunas). Identicamente, AT define uma transformacao IRn →IRm, sendo a imagem dessa transformacao (im(AT )) o subespaco gerado pelas linhas de A.

Se as linhas de A constituırem uma base de im(AT ), entao AT e, consequentemente A, sao

matrizes de caracterıstica completa. Assim, A ∈ IRn×m e uma matriz de caracterıstica

completa se e so se

car(A) = n ou car(A) = m ⇔ car(A) = min(n,m)

Notemos que, sendo v = Ax uma combinacao linear das colunas de A, podemos exprimir

v atraves duma outra combinacao linear de outro conjunto de vectores que gere a imagem

de A. Isto significa que podemos escrever

v = Ax = Ax

em que im(A) = im(A) e x sao os coeficientes da referida combinacao linear das colunas

de A. Aqui a unica restricao e car(A) = car(A) e, consequentemente, o numero de colunas

de A, igual ao numero de linhas de x, nao tem que ser igual ao numero de colunas de A.

Frequentemente procuramos que as colunas de A sejam uma base que, termos numericos,

seja o mais robusta possıvel. A robustez maxima e alcancada quando as colunas de A

constituem uma base ortonormal, isto e, quando sao um conjunto de vectores com modulo

unitario e perpendiculares entre si. Matrizes cujas colunas formam uma base ortonormal sao

chamadas matrizes ortonormais e sao frequentemente designadas pela letra Q. Notemos

que se Q ∈ IRn×m for uma matriz ortonormal entao

QT Q = Im

Se Q for uma matriz quadrada (m = n) entao

QT Q = Im = In ⇔ Q−1 = QT .

E esta propriedade que faz com que estas matrizes sejam numericamente muito robustas e

que frequentemente se procure representar im(A) atraves destas matrizes. Uma das formas


mais utilizadas na algebra linear para atingir este objectivo e a decomposicao QR, onde uma

matriz A ∈ IRn×m com n ≥ m e car(A) = r, e decomposta no produto de matrizes

A = Q

[R 0r×(m−r)

0(n−r)×r 0(n−r)×(m−r)

]= QRR

em que Q =[

QR QR

] ∈ IRn×n com QR ∈ IRn×r e QR ∈ IRn×(n−r). Q e uma matriz

ortonormal (QT Q = In) e, consequentemente, QR e QR tambem o sao (QTRQR = Ir e

QTRQR = In−r), sendo im(QR) o complemento ortogonal de im(QR) o que representamos por

QR = Q⊥R. R ∈ IRr×r e uma matriz triangular superior.

Exemplo 5 : Transformacao QR na resolucao do sistema de equacoes Ax = y

Consideremos o sistema de equacoes

Ax = y

em que A ∈ IRn×n, x, y ∈ IRn e car(A) = n. Fazendo uma decomposicao QR teremos

QRx = y ⇔ Rx = QT y

ficando este sistema de equacoes reduzido a

r11 r12 · · · r1n

0 r22 · · · r2n...

.... . .

...0 0 · · · rnn

x1

x2...

xn

=

y1

y2...yn

em que

y =

y1

y2...yn

= QT y.

Como R e uma matriz triangular superior, as solucoes xn, xn−1, . . . , x1 podem ser calculadas

recursivamente por substituicao a retaguarda (back substitution), comecando por xn = yn

rnn.

Com este processo, substituımos a inversao de A pela transposicao de Q e pela inversao da

matriz triangular superior R, que sao operacoes numericamente mais robustas.

Exemplo 6 : Resolucao do problema de mınimos quadrados

O problema de mınimos quadrados consiste no calculo de vector θ ∈ IRm que minimiza

‖Y −Xθ‖2 = (Y −Xθ)T (Y −Xθ)


com Y ∈ IRn, X ∈ IRn×m, n ≥ m e car(X) = m. Efectuando a seguinte decomposicao QR

de X

X = Q

R−−−−0(n−m)×m

Q ∈ IRn×n, R ∈ IRm×m

e, uma vez que Q e uma matriz ortonormal quadrada e que consequentemente QQT = In,

teremos

‖Y −Xθ‖2 = (Y −Xθ)T (Y −Xθ) = (Y −Xθ)T QQT (Y −Xθ) =[QT (Y −Xθ)

]T [QT (Y −Xθ)

]=

∥∥QT Y −QT Xθ)∥∥

2=∥∥∥∥

[Y1

Y2

]−QT Q

[R

0(n−m)×m

]θ

∥∥∥∥2

=

∥∥∥∥[

Y1

Y2

]−

[R

0(n−m)×m

]θ

∥∥∥∥2

=

∥∥∥∥[

Y1 −RθY2

]∥∥∥∥2

=[

(Y1 −Rθ)T Y2T

] [Y1 −Rθ

Y2

]=

= (Y1 −Rθ)T (Y1 −Rθ) + Y2TY2 =

∥∥Y1 −Rθ∥∥

2+

∥∥Y2

∥∥2

em que[

Y1

Y2

]= QT Y, Y1 ∈ IRm, Y2 ∈ IRn−m.

A solucao do problema de mınimos quadrados sera, entao, a solucao do sistema de equacoes

Rθ = Y1

identico ao do exemplo anterior. Como, para θ = θ, Y1−Rθ = 0m, entao min ‖Y −Xθ‖2 =

‖Y2‖2.

Existem varias formas de obter uma decomposicao QR sendo, talvez, as transformacoes de

Householder e a ortogonalizacao de Gram-Schimdt, os metodos mais utilizados.

Alem de im(A), tambem se define o subespaco Nucleo de A (kernel ou null space em

ingles) designado por ker(A) e que e definido por

ker(A) = {x : Ax = 0n} ,

ou seja, o subespaco de IRm que e transformado na origem (de IRn) pela matriz A ∈ IRn×m.

Como este subespaco e formado por todos os vectores perpendiculares as linhas de A, pode-

mos afirmar que ker(A)⊥im(AT ), sendo, por isso, ker(A)∩ im(AT ) = 0m×m. Por outro lado,


como a dimensao do nucleo duma matriz e igual ao seu numero de colunas (m) menos a sua

caracterıstica, entao, dim [ker(A)] + dim[im(AT )

]= m e, consequentemente,

ker(A)⊕ im(AT ) = Rm ⇒ ker(A) = im(AT )⊥.

Identicamente, o nucleo de AT , designado por ker(AT ), e o complemento ortogonal de im(A).

4 Decomposicao em Valores Singulares

Na decomposicao QR e explicitada uma base ortonormal para a imagem duma matriz A.

Nesta seccao iremos ver a decomposicao em valores singulares onde, alem duma base ortonor-

mal para este subespaco, tambem sao explicitadas bases ortonormais para a imagem de AT

e para os nucleos de A e AT . Antes de introduzirmos esta decomposicao vamos recordar a

diagonalizacao de matrizes simetricas.

Lema 1

Se B ∈ IRn×n for uma matriz simetrica, isto e, se BT = B, entao pode ser decomposta na

forma

B = UBΛBUTB

em que

ΛB =

λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λn

(1)

UBUTB = UT

BUB = In (2)

ou seja, ΛB e uma matriz diagonal e UB uma matriz ortonormal.

Demonstracao:

Como B e simetrica os seus valores proprios sao reais e e diagonalizavel. Para simplificar,

vamos admitir todos os valores proprios de B sao distintos. Nestas condicoes podemos

escrever

B = TΛBT−1


em que ΛB esta definida em (1) e T e uma matriz cujas colunas sao os vectores proprios de

B. Definindo

UB =T

det(T )⇔ U−1

B = det(T )T−1

podemos escrever

B = TΛBT−1 = UBΛBU−1B . (3)

Como B = BT podemos concluir que

B = UBΛBU−1B = U−T

B ΛBUTB ⇒ U−1

B = UTB ⇔ UBUT

B = UTBUB = In.

Se B tiver valores proprios repetidos as suas multiplicidades algebrica e geometrica sao iguais,

continuando a expressao(3) a ser valida para estes casos.

2

Estamos agora em condicoes de apresentar a decomposicao em valores singulares.

Teorema 1 : Decomposicao em valores singulares (svd)

Se A ∈ IRn×m tiver caracterıstica r ≤ min(n,m) entao existem duas matrizes ortonormais

U ∈ IRn×n e V ∈ IRm×m tal que

A = U

[S+ 0r×(m−r)

0(n−r)×r 0(n−r)×(m−r)

]V T (4)

S+ =

σ1 0 · · · 00 σ2 · · · 0...

.... . .

...0 0 · · · σr

∈ IRr×r (5)

com σ1 ≥ σ2 ≥ · · · ≥ σr > 0.

Demonstracao:

Como a matriz AT A ∈ Rm×m e simetrica e, pelo menos, semidefinida positiva, pode ser

decomposta na forma

AT A = V ΛAV T

ΛA =

λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λm

λi ≥ 0, i = 1, . . . , m.

V V T = V T V = Im


Sendo car(A) = r ≤ m, podemos definir λ1 ≥ λ2 ≥ · · · > λr > 0, λr+1 = λr+2 = · · · = λm =

0 e σi =√

λi, i = 1, . . . , m. As colunas de V sao vectores proprios de AT A, isto e,

V =[

v1 v2 · · · vm

]

AT Avi = λivi = σ2i vi, i = 1, . . . , m.

Se Vr ∈ IRm×r for a matriz cujas colunas sao os vectores proprios associados aos valores

proprios nao nulos e Vr ∈ IRm×(m−r) a matriz com as restantes colunas de V , ou seja,

Vr =[

v1 v2 · · · vr

](6)

Vr =[

vr+1 vr+2 · · · vm

], (7)

entao

AT AVr = AT A[

v1 v2 · · · vr

]=

[AT Av1 AT Av2 · · · AT Avr

](8)

=[

σ21v1 σ2

2v2 · · · σ2rvr

]=

σ21 0 · · · 00 σ2

2 · · · 0...

.... . .

...0 0 · · · σ2

m

[v1 v2 · · · vr

]= S2

+Vr

AT AVr = AT A[

vr+1 vr+2 · · · vm

]=

[AT Avr+1 AT Avr+2 · · · AT Avm

]=

=[

0m 0m · · · 0m

]= 0m×(m−r) (9)

onde S+ e a matriz definida em (5). Seja

Ur = AVrS−1+ ∈ IRn×r. (10)

Pre-multiplicando Ur pelo seu transposto

UTr Ur = (AVrS

−1+ )T (AVrS

−1+ ) = (S−1

+ V Tr AT )(AVrS

−1+ )

= S−1+ V T

r (AT AVr)S−1+ = S−1

+ V Tr (VrS

2+)S−1

+

= S−1+ (V T

r Vr)(S2+S−1

+ ) = S−1+ S+ = Ir

verificamos que Ur e uma matriz ortonormal cujas colunas geram um subespaco de dimensao

r em IRn. Se Ur for uma matriz ortonormal cuja imagem e o complemento ortogonal da

imagem de Ur (Ur = U⊥r ), entao

0(n−r)×r = UTr Ur = UT

r AVrS−1+ ⇒ UT

r A = 0(n−r)×m,


isto e, a imagem de Ur tambem e o complemento ortogonal de A, o que nos permite concluir

que im(Ur) = im(A) e que, consequentemente, as colunas de Ur sao uma base ortonormal de

im(A). Definindo

U =[

Ur | Ur

](11)

podemos calcular

UT AV =

[UT

r

UTr

]A

[Vr | Vr

]=

[UT

r AUT

r A

] [Vr | Vr

]=

[UT

r AVr UTr AVr

UTr AVr UT

r AVr

].(12)

Como UTr Ur = Ir, entao, substituindo, nesta equacao, Ur pelo seu valor definido em (10),

teremos

UTr AVrS

−1+ = Ir ⇒ UT

r AVr = S+.

Por outro lado, fazendo a mesma substituicao no bloco (1, 2) da ultima matriz na expressao

(12), podemos escrever

UTr AVr = (AVrS

−1+ )T AVr = S−1

+ V Tr (AT AVr) = 0(n−r)×(m−r)

pois, de (9), AT AVr = 0m×(m−r). Finalmente, como as colunas de Ur geram o complemento

ortogonal do subespaco gerado pelas colunas de A,

UTr AVr = 0(n−r)×r

UTr AVr = 0(n−r)×(m−r).

Deste modo,

UT AV =

[S+ 0r×(m−r)

0(n−r)×r) 0(n−r)×(m−r)

].

Como UUT = In e V V T = Im, pre-multiplicando e pos-multiplicando UT AV por U e V T ,

respectivamente, obtemos

U(UT AV )V T = U

[S+ 0r×(m−r)

0(n−r)×r) 0(n−r)×(m−r)

]V T = (UUT )A(V V T ) = A

ficando assim concluıda a demonstracao.

2

Normalmente define-se

S =

[S+ 0r×(m−r)

0(n−r)×r 0(n−r)×(m−r)

]∈ IRn×m


e exprime-se a decomposicao em valores singulares na forma

A = USV T .

Se n > m, ou seja, se A tiver mais colunas do que linhas, entao

S =

σ1 0 · · · 00 σ2 · · · 0...

.... . .

...0 0 · · · σm

0 0 · · · 0...

......

...0 0 · · · 0

e se n < m,

S =

σ1 0 · · · 0 0 · · · 00 σ2 · · · 0 0 · · · 0...

.... . .

......

......

0 0 · · · σn 0 · · · 0

Os elementos da diagonal principal de S estao ordenados por ordem decrescente, isto e,

σ1 ≥ σ2 ≥ · · · ≥ σp, com p = min(n,m), e sao designados por valores singulares de A. Na

demonstracao da decomposicao em valores singulares vimos que estes sao as raızes quadradas

positivas de valores proprios de AT A. E facil demonstrar que os valores singulares sao as

raızes quadradas positivas dos valores proprios de AT A quando n ≥ m e dos valores

proprios de AAT quando n ≤ m. S+, definida em (5), e a matriz dos valores singulares

nao nulos. Como car(S) = car(S+), entao car(A) = car(S+), ou seja, a caracterıstica duma

matriz e igual ao numero de valores singulares nao nulos pois, U e V sao matrizes nao

singulares1. Vimos, tambem, que V e uma matriz (ortonormal) cujas colunas sao os vectores

proprios de AT A. pode-se provar, identicamente, que U e uma matriz cujas colunas sao

os vectores proprios de AAT . As colunas de U e V tambem sao designadas por vectores

singulares de A. As de U , sao os vectores singulares a esquerda e as de V , os vectores

singulares a direita.

Utilizando as decomposicoes de V e U definidas em (6)-(7) e (11), respectivamente,

podemos rescrever a decomposicao em valores singulares na forma

A =[

Ur | Ur

] [S+ 0r×(m−r)

0(n−r)×r 0(n−r)×(m−r)

] [V T

r

V Tr

]=

[UrS+ | 0n×(m−r)

] [V T

r

V Tr

]=

= UrS+V Tr .

1Recordemos que matrizes nao singulares sao matrizes de caracterıstica completa e que se G for umamatriz de caracterıstica completa entao a caracterıstica de F = GH e igual a caracterıstica de H.


Chegamos assim a forma reduzida da decomposicao em valores singulares.

• Se, na transformacao IRm → IRn z = Ax, definirmos x = S+V Tr x, teremos z = Ax = Urx.

Com car(A) = car(Ur), A e Ur tem a mesma imagem e , consequentemente, as colunas

de Ur sao uma base ortonormal do subespaco gerado pelas colunas de A (im(A)). Como

AT = VrS+UTr , concluımos, identicamente, que im(Vr) = im(AT ) e que as colunas de Vr

sao uma base ortnormal para o subespaco gerado pelas linhas de A.

• Dado que as colunas de Vr sao perpendiculares as de Vr,

AVr = UrS+V Tr Vr = 0n×(m−r),

o que nos permite afirmar que as colunas de Vr pertencem ao nucleo de A (ker(A)). Como

car(Vr)=car (ker(A)) = m − r, entao im(Vr) = ker(A), sendo as colunas de Vr uma base

ortonormal do nucleo de A. Analogamente, as colunas de Ur sao uma base ortonormal do

nucleo de AT .

Resumindo,

im(Ur) = im(A)

im(Vr) = im(AT )

im(Vr) = ker(A)

im(Ur) = ker(AT ).

5 Norma Quadratica de Matrizes

Os vectores dum espaco IRn sao habitualmente definidos pela combinacao linear dos vectores

ei =

00...010...0

∈ IRn

igesima linhai = 1, . . . , n,


que formam a base canonica de IRn. Seja U =[

u1 u2 · · · un

] ∈ IRn uma matriz

ortonormal. Como

In =[

e1 e2 · · · en

]= UT U = UT

[u1 u2 · · · un

]=

[UT u1 UT u2 · · · UT un

]

podemos concluir que

UT ui = ei.

Isto significa que a transformacao UT x roda os eixos da base ortonormal {u1, . . . , un} para

os eixos da base canonica {e1, . . . , en}. Por outras palavras, a transformacao UT x e uma

rotacao que alinha os eixos u1, . . . , un com e1, . . . , en. Assim, chamaremos alinhador a

matriz UT .

Exemplo 7 : Alinhador no espaco IR2

Se

U =[

u1 u2

]

for uma matriz ortogonal em IR2 entao

UT u1 =

[uT

1

uT2

]u1 =

[uT

1 u1

uT2 u1

]=

[10

]= e1

UT u2 =

[uT

1

uT2

]u2 =

[uT

1 u2

uT1 u2

]=

[01

]= e2

pois, sendo U uma matriz ortonormal, as suas colunas u1 e u2 tem modulo unitario e sao

mutuamente ortogonais. Podemos, entao, concluir, que esta transformacao roda todos os

vectores de um angulo θ (angulo que u1 faz com e1 (ver figura 5). Seja agora

x = α1u1 + α2u2

O vector z = UT x sera

z = UT (α1u1 + α2u2) = α1UT u1 + α2U

T u2 = α1e1 + α2e2 =

[α1

α2

]

ou seja, z e um vector cujas coordenadas sao as de x no referencial definido pelos vectores

u1 e u2 (ver figura 5). Verificamos, assim, que os eixos de u1 e u2 foram alinhados pelos de

e1 e e2 e que, consequentemente, UT e o alinhador do referencial constituıdo pelos vectores

u1 e u2.


x

UT x

u1u2

α1u1

α2u2

1

1

−1

φ

−1

θ

−1

−1

α2e2

α1e1

1φ

1

e1 = UT u1

e2 = UT u2

UT

Figura 5: UT e o alinhador de {u1, u2} no espaco IR2

Como

U =[

u1 u2 · · · un

]= UIn = U

[e1 e2 · · · en

],

entao

Uei = ui, i = 1, . . . , n.

Vemos, deste modo, que a transformacao y = Ux roda os eixos da base canonica {e1, . . . , en}para os da base ortonormal {u1, . . . , un}. Como os eixos da base canonica sao pendurados

nos da base ortonormal, chamaremos cabide a U .

Exemplo 8 : Cabide no espaco IR2

Dado que a matriz U , definida no exemplo anterior, e ortonormal, U−1 = UT . Consequente-

mente z = UT x e x = Uz sao transformacoes inversas. Se a transformacao definida por UT

roda as colunas u1 e u2 de U para e1 e e2, respectivamente, entao a que e definida por U

roda e1 e e2 para u1 e u2. O vector

z =

[α1

α2

]

e transformado no vector

x = Uz =[

u1 u2

] [α1

α2

]= α1u1 + α2u2.

Podemos, entao, afirmar que as coordenadas α1 e α2 de z foram penduradas em u1 e u2 pelo

cabide U .


z

Uz

−1

−1

α2e2

α1e1

1e1

φ

e2

1

U

α1u1

α2u2

1

1

−1

φ

−1

θ

u1 = Ue1

u2 = Ue2

Figura 6: U e o cabide em {u1, u2} no espaco IR2

Seja D ∈ IRn×n uma matriz diagonal, isto e,

D =

d1 0 · · · 00 d2 · · · 0...

.... . .

...0 0 · · · dn

.

Se multiplicarmos D, a direita, pelo vector

x =

α1

α2...

αn

obtemos

xd =

d1α1

d2α2...

dnαn

onde as coordenadas nos eixos de e1, e2, . . . , en estao multiplicadas pelos elementos d1, d2, . . . , dn,

respectivamente, de D. podemos afirmar, entao, que as coordenadas de x foram deformadas

pelos elementos de D e designaremos D por deformador .

Exemplo 9 : Deformador no espaco IR2

Seja

D =

[1 00 0, 5

]


uma matriz diagonal em IR2×2 e C2(1) = {x : ‖x‖2 = 1}, isto e, a circunferencia de raio

unitario. A transformacao z = Dx transforma esta circunferencia numa elipse E2(1, 0.5)

com semi-eixos de comprimento 1 e 0, 5. Vemos, assim, que a circunferencia C2 foi defor-

mada pelo deformador D.

D

1

e1

e2

−0, 5

0, 5

−1

−1

−1 1

C2(1)e2

1

e1

Figura 7: D e um deformador no espaco IR2

Como, atraves da decomposicao em valores singulares, podemos decompor uma matriz

na forma

A = UrS+V Tr

onde Ur e Vr sao matrizes ortonormais e S+ e uma matriz diagonal, podemos ver a trans-

formacao

z = Ax = UrS+V Tr x

como a sequencia das seguintes operacoes:

• Alinhamento dos eixos de v1, v2, . . . , vr com os eixos de e1, e2, . . . , er da base canonica

efectuado pelo alinhador V Tr

• Deformacao da novas coordenadas de x pelo deformador S+.

• Suspensao das novas coordenadas deformadas de x no cabide Ur.

Por outras palavras, os eixos v1, v2, . . . , vr sao deformados de σ1, σ2, . . . , σr e rodados para

u1, u2, . . . , ur.


Exemplo 10 : Transformacao de uma elipse de IR2 para IR2 por uma matriz

A matriz

A =

[1, 44 0, 920, 08 1, 44

]

com a seguinte decomposicao em valores singulares

A =

[0, 8 −0, 60, 6 0, 8

] [2 00 1

] [0, 6 0, 8−0, 8 0, 6

]

transforma a elipse com os eixos alinhados com

v1 =

[0.6−0.8

]e v2 =

[0.80.6

]

de comprimentos 4 e 2, respectivamente, numa outra elipse com os eixos alinhados com

u1 =

[0.80.6

]e u2 =

[ −0.60.8

]

e comprimentos 8 e 2.

Exemplo 11 : Transformacao da hiperesfera de raio unitario

A hiperesfera de ordem m de raio unitario e transformada pela matriz A ∈ IRn×m com

decomposicao em valores singulares

A =[

u1 u2 · · · ur

]

σ1 0 · · · 00 σ2 · · · 0...

.... . .

...0 0 · · · σr

vT1

vT2...

vTr

numa elipsoide de ordem r, com semi-eixos de comprimentos σ1, σ2, . . . , σr alinhados com os

vectores u1, u2, . . . , ur.

A norma quadratica duma matriz A ∈ IRn×m e designada por ‖A‖2 e definida por

‖A‖2 = sup‖x‖2=1

‖Ax‖2

isto e, e o modulo do maior vector z = Ax quando x tem modulo unitario. Como a hiperesfera

de ordem m de raio unitario e transformada por A numa elipsoide com semi-eixos de compri-

mentos iguais aos seus valores singulares, entao o maior vector z = Ax desta transformacao

tem o modulo igual ao do maior valor singular de A e, consequentemente,

‖A‖2 = σ1


A

1

1

1

σ3u3 σ1u1

σ2u2

Figura 8: Transformacao da esfera unitaria numa elipsoide em IR3 por uma matrizA ∈ IR3×3 com vectores singulares a esquerda u1, u2 e u3 e valores singulares σ1, σ2 e σ3.

Exemplo 12 : Norma quadratica duma matriz 2 por 2

Como a matriz

A =

[1, 44 0, 920, 08 1, 44

]

com a seguinte decomposicao em valores singulares

A =

[0, 8 −0, 60, 6 0, 8

] [2 00 1

] [0, 6 0, 8−0, 8 0, 6

]

transforma a circunferencia unitaria numa elipse com semi-eixos de comprimentos 2 e 1,

entao

‖A‖2 = 2 = maior valor singular de A

6 Aproximacao de uma Matriz por Outra de Carac-

terıstica Inferior

Seja A uma matriz com caracterıstica r pertencente a IRn×m em que n > m. A sua decom-

posicao em valores singulares

A = USV T


A

1

1

−1

−1 2 = ‖A‖2

σ1u1 = 2u1σ2u2 = u2

Figura 9: A norma da matriz A e o comprimento do maior semi-eixo da elipse em que etransformada a circunferencia de raio unitario

permite-nos chegar a decomposicao diatica, dada por

A =m∑

i=1

σiuivTi

Para x = αjvj, um vector na direccao de vj, teremos

Ax =m∑

i=1

σiuivTi x =

m∑i=1

σiαjuivTi vj = σjαjujv

Tj vj = σjαjuj

pois vj tem modulo unitario e e perpendicular a vi para i 6= j. Esta expressao evidencia

o facto mencionado na seccao anterior, de que os pontos no eixo de vj sao reescalados

(deformados) de um factor σj e rodados para o eixo de uj.

Consideremos, agora, um vector x com componentes em todos os eixos vi, i = 1, . . . , m,

ou seja,

x = α1v1 + α2v2 + · · ·+ αrvr + αr+1vr+1 + · · ·+ αmvm.

Se car(A) = r e r < m, entao σr+1 = σr+2 = · · · = σm = 0, significando isto que as

componentes αr+1vr+1, αr+2vr+2, . . . , αmvm estao no nucleo de A sendo, por isso, eliminadas

na transformacao Ax. Teremos, assim,

Ax = σ1α1u1 + σ2α2u2 + · · ·+ σrαrur.


Se os valores singulares σk+1, . . . , σr forem muito pequenos, podemos fazer

Ax ≈ α1σ1u1 + σ2α2u2 + · · ·+ σkαkuk = Akx,

em que

Ak =[

u1 u2 · · · uk

]

σ1 0 · · · 00 σ2 · · · 0...

.... . .

...0 0 · · · σk

vT1

vT2...

vTk

.

O erro desta aproximacao e

Ax− Akx = (A− Ak) x = σk+1αk+1uk+1 + σk+2αk+1uk+2 + · · ·+ αrσrur,

sendo

‖Ax− Akx‖2 =√

σ2k+1α

2k+1 + σ2

k+2α2k+2 + · · ·+ σ2

rα2r

pois uk+1, uk+2, . . . , ur sao vectores de norma unitaria mutuamente ortogonais. Como

(Ax− Akx)T Akx = (σk+1αk+1uk+1 + · · ·+ αrσrur)T (σ1α1u1 + · · ·+ αkσkuk) =

= σk+1αk+1uTk+1 (σ1α1u1 + · · ·+ αkσkuk) + · · ·+

+σrαruTr (σ1α1u1 + · · ·+ αkσkuk) =

= σk+1αk+1σ1α1uTk+1u1 + · · ·+ σk+1αk+1σkαku

Tk+1uk + · · ·+

+σrαrσ1α1uTr u1 + · · ·+ σrαrσkαku

Tr uk = 0,

Ax − Akx e Akx sao ortogonais. Isto significa que Akx e a projeccao ortogonal de Ax

no subespaco gerado por u1, u2, . . . , uk, sendo, por isso, a sua melhor aproximacao neste

subespaco e , consequentemente, im(Ak) e a melhor aproximacao de dimensao k do subespaco

im(A).

Se z ∈ IRn for decomposto na forma

z = β1u1 + β2u2 + · · ·+ βnun,

podemos concluir , de forma semelhante, que ATk z e a melhor aproximacao de AT z no sube-

spaco gerado por v1, v2, . . . vk sendo im(ATk ) a melhor aproximacao de dimensao k de im(AT )

Como im(Ak) e im(ATk ) sao as melhores aproximacoes de im(A) e im(AT ), respectiva-

mente, podemos afirmar que Ak e a melhor aproximacao com caracterıstica k de A.


7 Projeccoes Ortogonais de Subespacos

Sejam x e y dois vectores em IRn. A projeccao ortogonal de y em x, que designaremos por

y\x e um vector na direccao de x com modulo ‖y‖2 cos φ em que φ e o angulo entre y e x.

Sendo o produto interno entre x e y dado por

−1

φ

y

x

y\x

y − y\x

ex

1

1

−1

Figura 10: Projeccao ortogonal de y em x.

xT y = ‖x‖2‖y‖2 cos φ, (13)

podemos exprimir y\x na forma

y\x = exxT y

‖x‖2

em que ex e um vector unitario na direccao de x, ou seja,

ex =x

‖x‖2

.

Substituindo ex pelo seu valor em (13), teremos

y\x = xxT y

‖x‖22

= x‖x‖−22 xT y.

Como

‖x‖22 = xT x

podemos, finalmente, escrever,

y\x = x(xT x

)−1xT y.


Como y − y\x e perpendicular a x, entao y\x e a melhor aproximacao na direccao de x.

Notemos, ainda, que a projeccao y\x e uma combinacao linear de x, isto e,

y\x = xθ

em que

θ =(xT x

)−1xT y.

Vemos, assim, que θ e o estimador de mınimos quadrados

θ = min ‖y − xθ‖2.θ

Se x for um vector na direccao de um dos vectores da base canonica, isto e, se x =

Kxei, Kx ∈ IR, entao

y\x = (Kxei)[(Kxei)

T (Kxei)]−1

(Kxei)T y = Kxei

(K2

xeTi ei

)−1Kxe

Ti y =

= Kx(Kx)−2Kxei

(eT

i ei

)−1eT

i y = eieTi y =

=i

0 0 · · · 0 · · · 0...

......

......

...0 0 · · · 1 · · · 0...

......

......

...0 0 · · · 0 · · · 0

i

y1...yi...

yn

=

0...yi...0

= yiei

Como esta expressao e independente de Kx a projeccao y\x, depende unicamente da direccao

de x, ou seja, y\z = y\x para qualquer z na direccao de x. Vemos, deste modo, que projectar

y em x e o mesmo que projectar y no subespaco gerado por x.

Vamos agora ver o que acontece quando x e um vector com direccao arbitraria. Come-

cemos por definir uma base ortonormal {u1, . . . , un} em que x = Kxu1. A seguir podemos

efectuar as seguintes operacoes

• Alinhar u1 com e1.

• Projectar y em e1 no novo referencial.

• Pendurar e1 em u1.


1

−1

−1

1

e1

y1

y2

y

Kxe1 y1e1

Figura 11: Projeccao ortogonal de y no eixo de e1.

x

e1

y

u2 u1

e2

x

e1

y

u2 u1

e2y\x

UT y

Uu1

UT u2

UT y\UT x

UT x

Figura 12: Projeccao ortogonal de y em x: 1 - O plano e rodado para alinhar o eixo de xcom o de e1. 2 - y rodado e projectado no eixo de e1. 3 - O plano e rodado para a posicaoinicial.

Estas operacoes traduzem-se na seguinte expressao

y\x = Py

em que

P =[

u1 u2 · · · un

]

1 0 · · · 00 0 · · · 0...

......

...0 0 · · · 0

uT1

uT2...

uTn

= u1u

T1 (14)

Pode-se provar que P = x(xT x)−1xT . Como (14) e a decomposicao em valores singulares de

P , concluımos que esta matriz tem caracterıstica 1. Notemos que P e uma matriz simetrica

(P T = P ) e idempotente (P 2 = P ).


Suponhamos, agora, que pretendemos projectar y no plano gerado pelo par de vectores

linearmente independentes x1 e x2. Seja {u1, u2} uma base ortonormal desse plano incluıda

na base ortonormal {u1, u2, . . . , un}. Uma vez mais, a projeccao pode ser feita atraves das

seguintes operacoes:

• Alinhar u1 e u2 com e1 e e2, respectivamente.

• Projectar y no novo referencial no plano gerado e1 e e2.

• Pendurar e1 e e2 em u1 e u2, respectivamente.

tal como anteriormente, estas projeccoes traduzem-se na expressao

y\X = Py

em que

P =[

u1 u2 u3 · · · un

]

1 0 0 · · · 00 1 0 · · · 00 0 0 · · · 0...

......

......

0 0 0 · · · 0

uT1

uT2

uT3...

uTn

= u1uT1 + u2u

T2 (15)

e X =[

x1 x2

]. Pode-se provar que

P = X(XT X)−1XT

sendo (15) a decomposicao em valores singulares de P .

Podemos alargar este conceito de projeccao de um vector num plano, ao da projeccao

dum subespaco noutro subespaco. Neste contexto, a projeccao da imagem de Y na imagem

de X em que

Y =[

y1 · · · y`

] ∈ IRn×`, n > `

X =[

x1 · · · xm

] ∈ IRn×m, n > m

e a imagem da matriz

Y \X = PY (16)

em que

P =[

Ur Ur

] [Ir 0r×(m−r)

0(n−r)×r 0(n−r)×(m−r)

] [UT

r

UTr

]= UrU

Tr (17)


Se as colunas x1, . . . , xm de X forem linearmente independentes, entao r = m e

P = X(XT X)−1XT

pois XT X e uma matriz nao singular. Nestas condicoes, a projeccao de Y em X e a com-

binacao linear das colunas de X

Y \X = Xθ,

em que θ tem uma so solucao, dada por

θ =(XT X

)−1XT Y, (18)

que podemos reconhecer como sendo o estimador de mınimos quadrados

θ = min ‖Y −Xθ‖2.θ

(19)

A projeccao Y \X existe sempre mesmo quando as colunas de X nao sao linearmente

independentes. No entanto, (19) deixa de ter uma unica solucao pois XT X e singular.

Como obter uma solucao θ nestas condicoes? Se

X = UrS+V Tr (20)

for a forma reduzida da decomposicao em valores singulares de X, e se em (18) substituirmos(XT X

)−1XT por

X† = VrS−1+ UT

r , (21)

obtemos a estimador

θ = X†Y (22)

que adiante provaremos ser o menor estimador de mınimos quadrados de θ. Pode-se provar

que X† e a unica matriz que obedece as seguintes condicoes (condicoes de Moore-Penrose):

1. XX†X = X

2. X†XX† = X†

3.(XX†)T

= X†X


4.(X†X

)T= XX†

X† e designada como o inverso generalizado ou pseudo-inverso de X. Se car(X) =

m, entao X† = (XT X)−1XT e X†X = Im. Se car(X) = n, entao teremos X† = XT (XXT )−1

e XX† = In.

Vamos agora provar que θ definido em (22) e o menor estimador de mınimos quadrados.

Lema 2 Se X ∈ IRn×m onde n > m for uma matriz com caracterıstica r < m e y ∈ IRn

com n > `, entao

θ(Ψ) = X†y +(Im −X†X

)Ψ, ∀Ψ ∈ IRm

e a solucao geral do problema de mınimos quadrados

min ‖y −Xθ‖2.θ ∈ IRm×` (23)

e

θ = θ(0m×`) = X†y

e a unica solucao de norma mınima, isto e, e a unica solucao tal que

‖θ‖2 ≤∥∥θ(Ψ)

∥∥2, ∀Ψ ∈ IRm.

Demonstracao:

Todas solucoes de (23) devem ser coeficientes de todas as combinacoes lineares de X que

geram y\X , isto e, o conjunto Θ ={θ : Xθ = y\X

}. Utilizando a forma reduzida da decom-

posicao em valores singulares de X em (20) e as definicoes de P e de X† em (17) e (21),

respectivamente,

Xθ = XX†y = (UrS+V Tr )(VrS

−1+ UT

r )y = UrS+(V Tr Vr)S

−1+ UT

r y =

= Ur(S+S−1+ )UT

r y = UrUTr y = Py = y\X .

Vemos, deste modo, que θ = X†y ∈ Θ sendo, por isso, uma solucao de (23). As outras

solucoes sao do tipo θ + Υ tal que X(θ + Υ

)= y\X . Como Xθ = y\X , entao XΥ =

0n×`. Isto significa que Υ pode ser qualquer vector no nucleo de X, ker(X). Υ pode entao

ser gerado atraves da projeccao ortogonal de um vector qualquer Ψ ∈ IRm em ker(X).

Vimos, anteriormente, que ker(X) e o complemento ortogonal de im(XT ) em que im(XT ) e


o subespaco gerado pelas linhas de X. Se Vr for uma base ortonormal de im(XT ), entao, de

(16) e de (17), a projeccao de Ψ em im(XT ) e dada por

Ψ\XT = VrVTr Ψ,

sendo

Υ = Ψ\(XT )⊥ = Ψ−Ψ\XT

a projeccao ortogonal de Ψ em (XT )⊥. Se Vr for a base calculada na decomposicao em

valores singulares de X, entao podemos gerar Υ atraves de

Υ = Ψ−Ψ\XT = Ψ− VrVTr Ψ =

(Im − VrV

Tr

)Ψ =

(Im −X†X

)Ψ, ∀Ψ ∈ IRm.

pois,

X†X = VrS−1+ UT

r UrS+V Tr = VrV

Tr .

A solucao geral de (23) sera

θ(Ψ) = θ +(Im −X†X

)Ψ, ∀Ψ ∈ IRm

em que Ψ e qualquer matriz de IRm.

Como

θ = X†︸︷︷︸VrS−1

+ UTr

y = Vr S−1+ UT

r y︸︷︷︸y

= Vry ∈ im(XT )

e

Υ =(Im −X†X

)Ψ ∈ ker(X),

entao θ e Υ sao perpendiculares pois ker(X) e o complemento ortogonal de im(XT ). Teremos,

assim,

∥∥θ(Ψ)∥∥2

2= ‖θ‖2

2 + ‖Υ‖22 = ‖θ‖2

2 +∥∥(Im −X†X)Ψ

∥∥2

2

e, finalmente,

‖θ‖2 =∥∥X†y

∥∥2≤ ∥∥θ(Ψ)

∥∥2

onde so se verifica igualdade para Ψ = 0m, ficando assim concluıda a demonstracao.

2


O estimador de mınimos quadrados de norma mınima pode ser expresso atraves de

θ = X†Y = VrS−1+ UrY =

r∑i=1

uTi viY

σi

Esta expressao mostra que, se o menor valor singular σr for muito menor que os outros,

pequenas perturbacoes na matriz que provoquem pequenas alteracoes em ur ou vr causam,

seguramente, perturbacoes muito significativas em θ. Se, no entanto, os valores singulares

nao forem muito diferentes uns dos outros, as perturbacoes nos diferentes vectores singulares

tendem-se a compensar umas as outras, nao fazendo variar significativamente θ. Vemos,

assim, que a sensibilidade de θ depende, fundamentalmente, da diferenca entre os valores

singulares de X. O numero de condicao de X definido por

κ(X) = ‖X‖2‖X†‖2 =σ1

σr

e utilizado como medida de sensibilidade de θ. Por definicao e superior ou igual a 1. Se

for muito grande, entao X e uma matriz mal condicionada. Se se mantiver pequeno X e

bem condicionada. Uma matriz ortonormal tem numero de condicao igual a 1 e, por isso, e

perfeitamente condicionada.

8 Projeccoes Oblıquas de Subespacos

Seja y ∈ IRn dado por

y = a1x1 + a2x2

onde a1 e a2 ∈ IR, x1 e x2 ∈ IRn. A projeccao oblıqua de y em x1 segundo x2, designada por

y\x2x1

, e a1x1. Se y nao estiver no plano gerado por x1 e x2, a projeccao oblıqua de y em x1

segundo x2 e a projeccao oblıqua de y\[x1 x2

] em x1 segundo x2. Como

y\[x1 x2

] = x1θ1 + x2θ2

onde[

θ1

θ2

]=

[x1 x2

]†y


y\x1x2

= a2x1

y

x2

x1y\x2

x1= a1x1

Figura 13: y\x2x1

e a projeccao oblıqua de y em x1 segundo a direccao de x2. y\x1x2

e a projeccaooblıqua de y em x2 segundo a direccao de x1.

entao

y\x2x1

= x1θ1.

Dum modo geral, dizemos que a projeccao de Y ∈ IRn×` em X1 ∈ IRn×m1 segundo X2 ∈IRn×m2 com n > ` e n > m1 + m2 e

Y \X2X1

= X1θ1

onde[

θ1

θ2

]=

[X1 X2

]†Y.

9 Projeccoes nos Subespacos gerados pelas linhas duma

matriz

Quando o numero de colunas duma matriz e superior ao das linhas (m > n) as projeccoes sao

no subespaco gerado pelas linhas. Como, transpondo uma matriz, trocamos as linhas pelas

colunas, tudo o que se disse sobre projeccoes nos subespacos gerados pelas colunas continua

valido desde que todas as matrizes sejam transpostas. Se, no fim de todas as projeccoes,

voltarmos a transpor as matrizes, obtemos

Y/X =(Y T\XT

)T= Y X†X = θX = Y VrV

Tr

em que θ e o estimador de mınimos quadrados de menor norma dado por

θ = Y X†.

Se car(X) = n, entao X† = XT (XXT )−1 e

Y/X = Y XT (XXT )−1X


A projeccao oblıqua de Y em X1 segundo X2 e definida como

Y/X2X1

=(Y T\XT

2

XT1

)T

= θ1X1

onde

[θ2 θ2

]= Y

[X1

X2

]†

10 Produto de Kronecker e Vectorizacao de Matrizes

Em controlo, especialmente nas areas de estimacao e reducao de ordem do modelo, e frequente

ter que se resolver equacoes de Lyapunov. Estas, sao equacoes matriciais, do tipo

ΠA1 + A2Π + A3ΠA4 + Q = 0n×n. (24)

Embora sejam lineares na incognita Π ∈ IRn×n, nao podem ser resolvidas de uma forma

directa porque, nuns termos a incognita aparece multiplicada a direita , noutros e multi-

plicada a esquerda, podendo ainda ser multiplicada simultaneamente a direita e a esquerda

noutros termos. Estas equacoes podem ser resolvidas de forma iterativa. No entanto, o

facto de serem lineares na incognita Π, indicia que existem metodos nao iterativos para a

sua resolucao. Nesta seccao iremos constatar que isso e verdade. Para esse efeito, iremos

transformar a equacao matricial num sistema de n2 equacoes lineares a n2 incognitas que

pode ser resolvido por qualquer algoritmo de resolucao de sistemas de equacoes lineares.

Esta transformacao ira utilizar o produto de Kronecker e, por isso, antes de a estudarmos

iremos ver em que e que consiste e quais sao as suas propriedades.

O produto de Kronecker e uma forma ordenada e compacta de exprimir uma matriz

(ou vector) cujos elementos sao os produtos de todos os elementos de outras duas matrizes

(ou vectores). Trata-se dum operacao bilinear muito utilizada nos modelos de sistemas nao

lineares. Dadas as matrizes A ∈ IRn×m e B ∈ IR`×p, o produto de Kronecker entre A e B,

designado por A⊗B, tem a seguinte definicao

A⊗B =

a11B a12B · · · a1mBa21B a22B · · · a2mB

......

......

an1B an2B · · · anmB

∈ IRn`×mp,

e goza das seguinte propriedades:


Propriedade 1 - Associativa

(A⊗B)⊗ C = A⊗ (B ⊗ C)

Propriedade 2 - Distributiva

(A + B)⊗ (C + D) = A⊗ C + A⊗D + B ⊗ C + B ⊗D

Propriedade 3 - Transposicao

(A⊗B)T = AT ⊗BT

Propriedade 4 - Produto misturado

(A⊗B)(C ⊗D) = AC ⊗BD

Propriedade 5 - Matriz inversa

(A×B)−1 = (A−1 ⊗B−1) ∀A ∈ IRn×n, B ∈ IRm×m

Propriedade 6 - Valores e vectores proprios{

AvA = λAvA

BvB = λBvB⇒ (A⊗B)(vA ⊗ vB) = λAλB(vA ⊗ vB), ∀A ∈ IRn×n, B ∈ IRm×m,

isto e, se λA for um valor proprio de A ∈ IRn×n associado ao vector proprio vA ∈ IRn e se

λB for um valor proprio de B ∈ IRm×m associado ao vector proprio vB ∈ IRm, entao λAλB

e um valor proprio de A⊗B ∈ IRnm×nm associado ao vector proprio vA ⊗ vB ∈ IRnm.

Propriedade 7 A⊗B ∈ IRnm×nm e uma matriz definida positiva se A ∈ IRn×n e B ∈ IRm×m

forem matrizes simetricas, e ambas definidas positivas ou definidas negativas.

Iremos, em seguida, demonstrar a propriedade 4 (produto misturado) deixando a demon-

stracao das outras como exercıcio para o leitor.

Demonstracao da Propriedade 4:

A matriz A⊗B, com A ∈ IRn×m e B ∈ IR`×p pode ser expressa na forma

A⊗B =

a11B a12B · · · a1mB...

......

...ai1B ai2B · · · aimB

......

......

an1B an2B · · · anmB

=

AIB(1, :)...

AIB(i, :)...

AIB(n, :)


em que

AIB(i, :) =[

ai1B ai2B · · · aimB] ∈ IR`×mp

representa o bloco constituıdo pelas linhas (i− 1)` + 1 a i` de A⊗B. Por outro lado C ⊗D

com C ∈ IRm×q e D ∈ IRp×r pode ser expressa na forma

C ⊗D =

c11D · · · c1jD · · · c1qDc21D · · · c2jD · · · c2qD

......

......

...cm1D · · · cmjD · · · cmqD

=

[CJD(:, 1) · · · CJD(:, j) · · · CJD(:, q)

].

Nesta matriz, o bloco

CJD(:, j) =

c1jDc2jD

...cmjD

∈ IRmp

representa o bloco constituıdo pelas colunas (j− 1)r +1 a jr de C⊗D. O bloco constituıdo

pelas linhas (i−1)`+1 a i` e as colunas (j−1)r+1 a jr de (A⊗B)(C⊗D) que designaremos

por AIBCJD(i, j), sera o produto dos blocos AIB(i, :) e CJD(:, j) que acabamos de definir,

ou seja

AIBCJD(i, j) = AIB(i, :)CJD(:, j) =m∑

k=1

aikBckjD =

[m∑

k=1

aikckj

]BD.

Como∑m

k=1 aikckj e o elemento da linha i e coluna j de CA, entao AIBCJD(i, j) tambem

vai ser o bloco constituıdo pelas linhas (i − 1)` + 1 a i` e as colunas (j − 1)r + 1 a jr de

AC ⊗BD que designaremos por AICJBD(i, j). Como, qualquer que sejam i e j,

AIBCJD(i, j) = AICJBD(i, j)

entao (A⊗B)(C ⊗D) = AC ⊗BD, ficando assim demonstrada a propriedade.

2

A operacao vectorizacao consiste em transformar uma matriz num vector, empilhando as

suas colunas umas em cima das outras. Assim, dada a matriz

A =[

a1 a2 · · · ai · · · am

], ai ∈ IRn, i = 1, . . . , m,


a sua vectorizacao, designada por vec(A) e o vector

vec(A) =

a1

a2...ai...

am

∈ IRnm.

Iremos, agora, enunciar uma propriedade que e fundamental para a determinacao duma

solucao nao iterativa de equacoes de Lyapunov identicas a (24).

Propriedade 8

vec(ABC) = (CT ⊗ A)vec(B), ∀A ∈ IRn×m, B ∈ IRm×`, C ∈ IR`×p

Demonstracao:

Sejam

A =

aT1

aT2...

aTn

, B =

[b1 b2 · · · b`

], C =

c11 c12 · · · c1p

c21 c22 · · · c2p...

......

...c`1 c`2 · · · c`p

com ai ∈ IRm, i = 1, . . . , n e bi ∈ IRm, i = 1, . . . , `. O produto destas tres matrizes e

ABC =

aT1

aT2...

aTn

[b1 b2 · · · b`

]

c11 c12 · · · c1j · · · c1p

c21 c22 · · · c2j · · · c2p...

......

......

...c`1 c`2 · · · c`j · · · c`p

=

=

aT1 b1 aT

1 b2 · · · a1b`

aT2 b1 aT

2 b2 · · · a`...

......

...aT

nb1 aTnb2 · · · anb`

c11 c12 · · · c1j · · · c1p

c21 c22 · · · c2j · · · c2p...

......

......

...c`1 c`2 · · · c`j · · · c`p

=

=

∑ì=1 aT

1 bici1

∑ì=1 aT

1 bici2 · · · ∑ì=1 aT

1 bicij · · · ∑ì=1 aT

1 bicip∑ì=1 aT

2 bici1

∑ì=1 aT

2 bici2 · · · ∑ì=1 aT

2 bicij · · · ∑ì=1 aT

2 bicip...

......

......

...∑ì=1 aT

nbici1

∑ì=1 aT

nbici2 · · · ∑ì=1 aT

nbicij · · · ∑ì=1 aT

nbicip

.


Vemos, daqui, que a coluna j de ABC que designaremos por ABC(:, j) e

ABC(:, j) =

∑`i=1 aT

1 bicij∑`i=1 aT

2 bicij...∑`

i=1 aTnbicij

=

c1jaT1 c2ja

T1 · · · c`ja

T1

c1jaT2 c2ja

T2 · · · c`ja

T2

......

......

c1jaTn c2ja

Tn · · · c`ja

Tn

b1

b2...b`

=

=

[c1j c2j · · · c`j

]⊗

aT1

aT2...

aTn

vec(B) = (cT

j ⊗ A)vec(B)

em que

cj =

c1j

c2j...

c`j

∈ IR`

e a coluna j de C. Teremos entao

vec(ABC) =

ABC(:, 1)ABC(:, 2)

...ABC(:, j)

...ABC(:, p)

=

(cT1 ⊗ A)vec(B)

(cT2 ⊗ A)vec(B)

...(cT

j ⊗ A)vec(B)...

(cTp ⊗ A)vec(B)

=

=

cT1 ⊗ A

cT2 ⊗ A

...cTj ⊗ A

...cTp ⊗ A

vec(B) =

cT1

cT2...

cTj

...cTp

⊗ A

vec(B) = (CT ⊗ A)vec(B).

2

Consideremos agora a equacao (24). Podemos rescrever esta equacao na forma

InΠA1 + A2ΠIn + A3ΠA4 + Q = 0n×n.

Como vec(A + B) = vec(A) + vec(B), entao

vec (InΠA1 + A2ΠIn + A3ΠA4 + Q) =

= vec(InΠA1) + vec(A2ΠIn) + vec(A2ΠA4) + vec(Q) = vec(0n×n) = 0n2 .


Utilizando a propriedade 8, teremos

vec(InΠA1) = (AT1 ⊗ In)vec(Π)

vec(A2ΠIn) = (In ⊗ A2)vec(Π)

vec(A3ΠA4) = (AT4 ⊗ A3)vec(Π)

e, consequentemente,

(AT1 ⊗ In)vec(Π) + (In ⊗ A2)vec(Π) + (AT

4 ⊗ A3)vec(Π) + vec(Q) = 0n2 ⇔⇔ (

AT1 ⊗ In + In ⊗ A2 + AT

4 ⊗ A3

)vec(Π) = −vec(Q)

Se AT1 ⊗ In + In ⊗A2 + AT

4 ⊗A3 for uma matriz nao singular a solucao e unica e e dada por

vec(P ) = − (AT

1 ⊗ In + In ⊗ A2 + AT4 ⊗ A3

)−1vec(Q).

11 Norma de Frobenius

A norma de Frobenius duma matriz A ∈ IRn×m, tambem conhecida como norma de Hilbert-

Schmidt, e definida de seguinte forma

‖A‖F = ‖vec(A)‖2 =

√√√√m∑

j=1

n∑i=1

a2ij.

Esta definicao mostra que a norma de Frobenius e muito semelhante a Euclidiana pois resulta

num produto interno definido no espaco das matrizes atraves de

< A,B >= vec(A)T vec(B).

Veremos, em seguida, como e que podemos calcular a norma de Frobenius atraves dos valores

singulares.

Lema 3 Se σ1, σ2, . . . , σp forem os valores singulares da matriz A ∈ IRn×m com p =

min(n,m), entao

‖A‖F =

√√√√p∑

i=1

σ2i =

√traco(AT A) (25)


Demonstracao: Vimos, anteriormente, que A pode ser decomposto na forma

A = UpSpVTp

em que Up ∈ IRn×p e V ∈ IRm×p sao matrizes ortonormais e Sp e uma matriz diagonal cujos

elementos da diagonal principal sao os valores singulares de A, Se σ1, σ2, . . . , σp. Utilizando

a propriedade 8 para vectorizar A teremos

vec(A) = (Vp ⊗ Up)vec(Sp). (26)

Podemos agora calcular a norma de Frobenius de A atraves de

‖A‖2F = ‖vec(A)‖2

2 = [(Vp ⊗ Up)vec(Sp)]T [(Vp ⊗ Up)vec(Sp)] =

= vec(Sp)T (Vp ⊗ Up)

T (Vp ⊗ Up)vec(Sp)

Utilizando as propriedades 3 e 4 do produto de Kronecker e recordando que Up e Vp sao

matrizes ortonormais,

(Vp ⊗ Up)T (Vp ⊗ Up) = (V T

p ⊗ UTp )(Vp ⊗ Up) = (V T

p Vp)⊗ (UTp Up) = Ip ⊗ Ip = Ip2 ,

sendo, por isso,

‖A‖2F = vec(Sp)

T (Vp ⊗ Up)T (Vp ⊗ Up)vec(Sp) = vec(Sp)

T vec(Sp) =

p∑i=1

σ2i ,

pois, sendo Sp uma matriz diagonal cujos elementos da diagonal principal sao os valores singu-

lares de A, os unicos elementos nao nulos de vec(Sp) sao estes valores singulares. Recorrendo,

de novo, a decomposicao (26)

traco(AT A) = traco(VpSpUTp UpSpV

Tp ) = traco(VpS

2pV

Tp )

pois Up e uma matriz ortonormal. Como a operacao traco e comutativa desde que as di-

mensoes das matrizes sejam compatıveis, entao

traco(AT A) = traco(VpS2pV

Tp ) = traco(V T

p VpS2p) =

p∑i=1

σ2i

pois Vp e ortonormal e S2p e uma matriz diagonal cujos elementos da diagonal principal sao

os quadrados dos valores singulares de A.

2

topicos de¶ algebra linear¶ -...

Documents