topicos de¶ algebra linear¶ -...
TRANSCRIPT
TOPICOS DE ALGEBRA LINEAR
Paulo Lopes dos Santos
Departamento de Engenharia Electrotecnica e ComputadoresFaculdade de Engenharia da Universidade do Porto
Rua Dr Roberto Frias, s/n4200-464 Porto, PortugalEmail: [email protected]
Setembro 2007
Topicos de Algebra Linear 1
Conteudo
1 Vectores Linearmente Independentes 2
2 Subespacos e Bases 4
3 Subespacos Associados a Matrizes e Decomposicao QR 6
4 Decomposicao em Valores Singulares 11
5 Norma Quadratica de Matrizes 16
6 Aproximacao de uma Matriz por Outra de Caracterıstica Inferior 22
7 Projeccoes Ortogonais de Subespacos 25
8 Projeccoes Oblıquas de Subespacos 32
9 Projeccoes nos Subespacos gerados pelas linhas duma matriz 33
10 Produto de Kronecker e Vectorizacao de Matrizes 34
11 Norma de Frobenius 39
Topicos de Algebra Linear 2
1 Vectores Linearmente Independentes
Sejam v1, v2, . . . , vn vectores em IRn. Diz-se que estes vectores sao linearmente independentes
se, para um conjunto de escalares αi ∈ IR, i = 1, . . . , nn∑
i=1
αivi = 0n ⇒ α1 = α2 = · · · = αn = 0,
em que 0n e o vector de IRn com todas as entradas nulas. Se v1 =
[v11
v12
]∈ IR2 e v2 =
[v21
v22
]∈ IR2, entao, qualquer ponto z =
[z1
z2
], pertencente ao subespaco S ⊆ IR2 gerado
por v1 e v2, pode ser expresso atraves da combinacao linear
α1v1 + α2v2 = z ⇔[
v11
v12
]α1 +
[v21
v22
]α2 =
[z1
z2
]⇔
[v11 v21
v12 v22
] [α1
α2
]=
[z1
z2
].
Se a matriz V =
[v11 v21
v12 v22
]for nao singular e se z = 02, entao
[α1
α2
]=
[v11 v21
v12 v22
]−1 [z1
z2
]=
[00
]
e, consequentemente, so para α1 = α2 = 0 e que v1 e v2 se anulam. Concluımos, assim,
que v1 e v2 sao independentes se e so se (sse) V for uma matriz nao singular, ou seja, sse
det V 6= 0. Como
det V = v11v22 − v21v12
entao
det V = 0 ⇔ v11v22 − v21v12 = 0 ⇔ v21
v11
=v22
v12
= k ⇒{
v21 = kv11
v22 = kv12⇔ v2 = kv1
significando isto que v1 e v2 sao independentes sse nao forem colineares.
v1
v2
u1
u2
Figura 1: v1 e v2 sao linearmente independentes e u1 e u2 sao linearmente dependentes
Em IR2 o maximo que conseguimos e um conjunto de dois vectores linearmente inde-
pendentes. Qualquer conjunto com mais de dois vectores nao e de vectores linearmente
independentes.
Topicos de Algebra Linear 3
Exemplo 1 :
Seja {v1, v2, v3} um conjunto de vectores nao nulos em IR2. Acabamos de ver que se os vec-
tores v1 =
[v11
v12
]e v2 =
[v21
v22
]forem linearmente independentes entao det
{[v11 v21
v12 v22
]}6=
0 Nestas condicoes,
[α1
α2
]=
[v11 v21
v12 v22
]−1 [v31
v32
]6= 02
e a solucao da equacao
α1v1 + α2v2 = v3 ⇔[
v11 v21
v12 v22
] [α1
α2
]=
[v31
v32
]
e, consequentemente,
α1v1 + α2v2 − v3 = 02
significando isto que {v1, v2, v3} nunca pode ser um conjunto de vectores independentes.
x1
x2
α2v2
α1v1 v3
v1
v2
v31v11v21 α2v21
v12
v22
v32
α2v22
α1v11
α1v12
Figura 2: v1,v2 e v3 sao vectores no mesmo plano e, por isso, sao linearmente dependentes
Pode-se provar de forma identica que, no espaco IRn nunca se conseguem mais do que n
vectores linearmente independentes.
Topicos de Algebra Linear 4
2 Subespacos e Bases
Seja S um subconjunto do espaco vectorial E, isto e, S ⊆ E. Se, para quaisquer elementos v1
e v2 pertencentes a S e quaisquer escalares α1 e α2 a combinacao linear α1v1 +α2v2 pertencer
a S, entao S e um subespaco de E. Deste modo, todas as combinacoes lineares dos vectores
{v1, v2, . . . , vm} com vi ∈ IRn formam um subespaco de IRn. Esse subespaco e designado
como
S = span {v1, v2, . . . , vm} =
{x : x =
m∑i=1
αivi,∀αi∈IR
}.
Dizemos, entao, que qualquer conjunto de vectores {v1, v2, . . . , vm} gera um subespaco.
Exemplo 2 :
Todas as combinacoes lineares do vector v1 sao vectores colineares com v1. Isto significa
que o subespaco gerado pelo vector v1 (span {v1}) e a recta que o contem.
x2
x1
span{v1}
v1
Figura 3: O subespaco gerado por v1 e a recta span{v1}
Exemplo 3 :
O subespaco definido pelo conjunto de vectores {v1, v2} e o plano que contem v1 e v2
(span{v1, v2}) se estes vectores forem linearmente independentes. Se forem dependentes e a
recta que os contem.
A dimensao dum subespaco e o numero de vectores linearmente independentes que sao
necessarios para o gerar. Assim, qualquer recta que passe pela origem e um subespaco de
Topicos de Algebra Linear 5
������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
x1
x2
x3
span{v1 , v2}
v2
v1
Figura 4: O subespaco gerado por v1 e v2 e o plano span{v1, v2}
dimensao um, pois, pode ser gerada por um unico vector. Qualquer plano que contenha
a origem e um subespaco de dimensao dois (pode ser gerado por dois vectores linearmente
independentes).
Seja S um subespaco de IRn com dimensao p. Qualquer conjunto de vectores indepen-
dentes {v1, v2, . . . , vp} pertencentes a S e uma base de S. Deste modo, qualquer elemento
x ∈ S pode ser representado pela combinacao linear
x = β1v1 + β2v2 + · · ·+ βpvp
em que β1, β2, . . . , βp sao as componentes (coordenadas) de x relativamente a base {v1, v2, . . . , vp}.Notemos que qualquer subespaco S tem um numero infinito de bases. No entanto, o numero
de elementos de cada base e sempre igual a dimensao de S.
Sejam x, y ∈ IRn. Se xT y = yT x = 0 dizemos que x e y sao ortogonais o que representamos
por x⊥y. Se yT x = 0 para todo x ∈ S ⊂ IRn, entao y e ortogonal a S o que designamos por
Topicos de Algebra Linear 6
y⊥S. O conjunto de todos os vectores perpendiculares a S e o complemento ortogonal de S
e e representado por S⊥. Formalmente, podemos definir S⊥ por
S⊥ ={y ∈ IRn : yT x = 0, ∀x ∈ S
}.
Pode-se provar que S⊥ e um subespaco de IRn mesmo que S o nao seja.
Sejam S e V subespacos de IRn. A soma de S e V, designada por S ∨V, e o subespaco
gerado por todos os elementos de S e V. A sua definicao formal e
S ∨V = {x + y : x ∈ S ∧ y ∈ V} .
E importante assinalar que este subespaco nao e a uniao de S e V (S∪V nao e um subespaco).
Se S∩V = {0}, designamos S∨V por soma directa. Se, para quaisquer vectores x ∈ S,
y ∈ V, yT x = 0, dizemos que S e ortogonal a V o que representamos por S⊥V. Neste caso,
S ∨V e a soma ortogonal directa e e representada por S⊕V.
Para qualquer subespaco S ∈ IRn existe uma unica decomposicao IRn = S ⊕ S⊥. Isto
significa que para todo z ∈ IRn existe uma unica decomposicao z = x + y em que x ∈ S e
y ∈ S⊥.
3 Subespacos Associados a Matrizes e Decomposicao
QR
Dado um conjunto de vectores em IRn como e que podemos verificar se sao linearmente
independentes? A forma mais simples e formar uma matriz cujas colunas (ou linhas) sao as
coordenadas desses vectores e calcular a sua caracterıstica (recordemos que a caracterıstica
duma matriz e o seu numero de linhas ou colunas linearmente independentes).
Exemplo 4 :
Sejam v1 =
12345
e v2 =
3691215
dois vectores em IR5. Se formarmos a matriz
M =[
v1 v2
]=
1 32 63 94 125 15
Topicos de Algebra Linear 7
podemos ver que car(M) = 1 e concluir que v1 e v2 sao linearmente dependentes (e facil ver
que v2 = 3v1 e que, consequentemente, estes dois vectores sao colineares).
Como car(MT ) = car(M) chegarıamos ao mesmo resultado atraves do calculo da carac-
terıstica de
MT =
[vT
1
vT2
]=
[1 2 3 4 53 6 9 12 15
].
Uma forma interessante de vermos uma matriz A ∈ IRn×m, e encarar as suas colunas (ou as
suas linhas) como um conjunto de vectores que geram um subespaco em IRn (ou IRm no caso
das linhas). Deste modo, podemos associar a A dois subespacos:
• 1 - Subespaco gerado pelas suas colunas (column-space) que designaremos por im(A) (im-
agem de A);
• 2 - Subespaco gerado pelas suas linhas (row-space) que designaremos por im(AT ) (imagem
de AT );
Consideremos agora um vector x ∈ IRm. Se multiplicarmos A por x vamos obter um vector
em IRn, isto e,
v = Ax ∈ IRn
Podemos, entao, afirmar que a matriz A define uma transformacao do espaco IRm para IRn
(IRm → IRn). Sendo
A =[
a1 a2 · · · am
]
em que ai ∈ IRn, i = 1, . . . , m e
x =
x1
x2...
xm
entao
v = Ax =[
a1 a2 · · · am
]
x1
x2...
xm
= a1x1 + a2x2 + · · ·+ amxm,
Topicos de Algebra Linear 8
ou seja, v = Ax e uma combinacao linear das colunas de A, cujos coeficientes sao os elementos
x1, x2, . . . , xm de x. Deste modo, v pertence sempre ao subespaco gerado pelas colunas de A,
isto e, im(A). Se as colunas de A forem linearmente independentes, entao constituem uma
base para im(A). Nestas condicoes, diz-se que A e uma matriz de caracterıstica completa
(car(A) = m = numero de colunas). Identicamente, AT define uma transformacao IRn →IRm, sendo a imagem dessa transformacao (im(AT )) o subespaco gerado pelas linhas de A.
Se as linhas de A constituırem uma base de im(AT ), entao AT e, consequentemente A, sao
matrizes de caracterıstica completa. Assim, A ∈ IRn×m e uma matriz de caracterıstica
completa se e so se
car(A) = n ou car(A) = m ⇔ car(A) = min(n,m)
Notemos que, sendo v = Ax uma combinacao linear das colunas de A, podemos exprimir
v atraves duma outra combinacao linear de outro conjunto de vectores que gere a imagem
de A. Isto significa que podemos escrever
v = Ax = Ax
em que im(A) = im(A) e x sao os coeficientes da referida combinacao linear das colunas
de A. Aqui a unica restricao e car(A) = car(A) e, consequentemente, o numero de colunas
de A, igual ao numero de linhas de x, nao tem que ser igual ao numero de colunas de A.
Frequentemente procuramos que as colunas de A sejam uma base que, termos numericos,
seja o mais robusta possıvel. A robustez maxima e alcancada quando as colunas de A
constituem uma base ortonormal, isto e, quando sao um conjunto de vectores com modulo
unitario e perpendiculares entre si. Matrizes cujas colunas formam uma base ortonormal sao
chamadas matrizes ortonormais e sao frequentemente designadas pela letra Q. Notemos
que se Q ∈ IRn×m for uma matriz ortonormal entao
QT Q = Im
Se Q for uma matriz quadrada (m = n) entao
QT Q = Im = In ⇔ Q−1 = QT .
E esta propriedade que faz com que estas matrizes sejam numericamente muito robustas e
que frequentemente se procure representar im(A) atraves destas matrizes. Uma das formas
Topicos de Algebra Linear 9
mais utilizadas na algebra linear para atingir este objectivo e a decomposicao QR, onde uma
matriz A ∈ IRn×m com n ≥ m e car(A) = r, e decomposta no produto de matrizes
A = Q
[R 0r×(m−r)
0(n−r)×r 0(n−r)×(m−r)
]= QRR
em que Q =[
QR QR
] ∈ IRn×n com QR ∈ IRn×r e QR ∈ IRn×(n−r). Q e uma matriz
ortonormal (QT Q = In) e, consequentemente, QR e QR tambem o sao (QTRQR = Ir e
QTRQR = In−r), sendo im(QR) o complemento ortogonal de im(QR) o que representamos por
QR = Q⊥R. R ∈ IRr×r e uma matriz triangular superior.
Exemplo 5 : Transformacao QR na resolucao do sistema de equacoes Ax = y
Consideremos o sistema de equacoes
Ax = y
em que A ∈ IRn×n, x, y ∈ IRn e car(A) = n. Fazendo uma decomposicao QR teremos
QRx = y ⇔ Rx = QT y
ficando este sistema de equacoes reduzido a
r11 r12 · · · r1n
0 r22 · · · r2n...
.... . .
...0 0 · · · rnn
x1
x2...
xn
=
y1
y2...yn
em que
y =
y1
y2...yn
= QT y.
Como R e uma matriz triangular superior, as solucoes xn, xn−1, . . . , x1 podem ser calculadas
recursivamente por substituicao a retaguarda (back substitution), comecando por xn = yn
rnn.
Com este processo, substituımos a inversao de A pela transposicao de Q e pela inversao da
matriz triangular superior R, que sao operacoes numericamente mais robustas.
Exemplo 6 : Resolucao do problema de mınimos quadrados
O problema de mınimos quadrados consiste no calculo de vector θ ∈ IRm que minimiza
‖Y −Xθ‖2 = (Y −Xθ)T (Y −Xθ)
Topicos de Algebra Linear 10
com Y ∈ IRn, X ∈ IRn×m, n ≥ m e car(X) = m. Efectuando a seguinte decomposicao QR
de X
X = Q
R−−−−0(n−m)×m
Q ∈ IRn×n, R ∈ IRm×m
e, uma vez que Q e uma matriz ortonormal quadrada e que consequentemente QQT = In,
teremos
‖Y −Xθ‖2 = (Y −Xθ)T (Y −Xθ) = (Y −Xθ)T QQT (Y −Xθ) =[QT (Y −Xθ)
]T [QT (Y −Xθ)
]=
∥∥QT Y −QT Xθ)∥∥
2=∥∥∥∥
[Y1
Y2
]−QT Q
[R
0(n−m)×m
]θ
∥∥∥∥2
=
∥∥∥∥[
Y1
Y2
]−
[R
0(n−m)×m
]θ
∥∥∥∥2
=
∥∥∥∥[
Y1 −RθY2
]∥∥∥∥2
=[
(Y1 −Rθ)T Y2T
] [Y1 −Rθ
Y2
]=
= (Y1 −Rθ)T (Y1 −Rθ) + Y2TY2 =
∥∥Y1 −Rθ∥∥
2+
∥∥Y2
∥∥2
em que[
Y1
Y2
]= QT Y, Y1 ∈ IRm, Y2 ∈ IRn−m.
A solucao do problema de mınimos quadrados sera, entao, a solucao do sistema de equacoes
Rθ = Y1
identico ao do exemplo anterior. Como, para θ = θ, Y1−Rθ = 0m, entao min ‖Y −Xθ‖2 =
‖Y2‖2.
Existem varias formas de obter uma decomposicao QR sendo, talvez, as transformacoes de
Householder e a ortogonalizacao de Gram-Schimdt, os metodos mais utilizados.
Alem de im(A), tambem se define o subespaco Nucleo de A (kernel ou null space em
ingles) designado por ker(A) e que e definido por
ker(A) = {x : Ax = 0n} ,
ou seja, o subespaco de IRm que e transformado na origem (de IRn) pela matriz A ∈ IRn×m.
Como este subespaco e formado por todos os vectores perpendiculares as linhas de A, pode-
mos afirmar que ker(A)⊥im(AT ), sendo, por isso, ker(A)∩ im(AT ) = 0m×m. Por outro lado,
Topicos de Algebra Linear 11
como a dimensao do nucleo duma matriz e igual ao seu numero de colunas (m) menos a sua
caracterıstica, entao, dim [ker(A)] + dim[im(AT )
]= m e, consequentemente,
ker(A)⊕ im(AT ) = Rm ⇒ ker(A) = im(AT )⊥.
Identicamente, o nucleo de AT , designado por ker(AT ), e o complemento ortogonal de im(A).
4 Decomposicao em Valores Singulares
Na decomposicao QR e explicitada uma base ortonormal para a imagem duma matriz A.
Nesta seccao iremos ver a decomposicao em valores singulares onde, alem duma base ortonor-
mal para este subespaco, tambem sao explicitadas bases ortonormais para a imagem de AT
e para os nucleos de A e AT . Antes de introduzirmos esta decomposicao vamos recordar a
diagonalizacao de matrizes simetricas.
Lema 1
Se B ∈ IRn×n for uma matriz simetrica, isto e, se BT = B, entao pode ser decomposta na
forma
B = UBΛBUTB
em que
ΛB =
λ1 0 · · · 00 λ2 · · · 0...
.... . .
...0 0 · · · λn
(1)
UBUTB = UT
BUB = In (2)
ou seja, ΛB e uma matriz diagonal e UB uma matriz ortonormal.
Demonstracao:
Como B e simetrica os seus valores proprios sao reais e e diagonalizavel. Para simplificar,
vamos admitir todos os valores proprios de B sao distintos. Nestas condicoes podemos
escrever
B = TΛBT−1
Topicos de Algebra Linear 12
em que ΛB esta definida em (1) e T e uma matriz cujas colunas sao os vectores proprios de
B. Definindo
UB =T
det(T )⇔ U−1
B = det(T )T−1
podemos escrever
B = TΛBT−1 = UBΛBU−1B . (3)
Como B = BT podemos concluir que
B = UBΛBU−1B = U−T
B ΛBUTB ⇒ U−1
B = UTB ⇔ UBUT
B = UTBUB = In.
Se B tiver valores proprios repetidos as suas multiplicidades algebrica e geometrica sao iguais,
continuando a expressao(3) a ser valida para estes casos.
2
Estamos agora em condicoes de apresentar a decomposicao em valores singulares.
Teorema 1 : Decomposicao em valores singulares (svd)
Se A ∈ IRn×m tiver caracterıstica r ≤ min(n,m) entao existem duas matrizes ortonormais
U ∈ IRn×n e V ∈ IRm×m tal que
A = U
[S+ 0r×(m−r)
0(n−r)×r 0(n−r)×(m−r)
]V T (4)
S+ =
σ1 0 · · · 00 σ2 · · · 0...
.... . .
...0 0 · · · σr
∈ IRr×r (5)
com σ1 ≥ σ2 ≥ · · · ≥ σr > 0.
Demonstracao:
Como a matriz AT A ∈ Rm×m e simetrica e, pelo menos, semidefinida positiva, pode ser
decomposta na forma
AT A = V ΛAV T
ΛA =
λ1 0 · · · 00 λ2 · · · 0...
.... . .
...0 0 · · · λm
λi ≥ 0, i = 1, . . . , m.
V V T = V T V = Im
Topicos de Algebra Linear 13
Sendo car(A) = r ≤ m, podemos definir λ1 ≥ λ2 ≥ · · · > λr > 0, λr+1 = λr+2 = · · · = λm =
0 e σi =√
λi, i = 1, . . . , m. As colunas de V sao vectores proprios de AT A, isto e,
V =[
v1 v2 · · · vm
]
AT Avi = λivi = σ2i vi, i = 1, . . . , m.
Se Vr ∈ IRm×r for a matriz cujas colunas sao os vectores proprios associados aos valores
proprios nao nulos e Vr ∈ IRm×(m−r) a matriz com as restantes colunas de V , ou seja,
Vr =[
v1 v2 · · · vr
](6)
Vr =[
vr+1 vr+2 · · · vm
], (7)
entao
AT AVr = AT A[
v1 v2 · · · vr
]=
[AT Av1 AT Av2 · · · AT Avr
](8)
=[
σ21v1 σ2
2v2 · · · σ2rvr
]=
σ21 0 · · · 00 σ2
2 · · · 0...
.... . .
...0 0 · · · σ2
m
[v1 v2 · · · vr
]= S2
+Vr
AT AVr = AT A[
vr+1 vr+2 · · · vm
]=
[AT Avr+1 AT Avr+2 · · · AT Avm
]=
=[
0m 0m · · · 0m
]= 0m×(m−r) (9)
onde S+ e a matriz definida em (5). Seja
Ur = AVrS−1+ ∈ IRn×r. (10)
Pre-multiplicando Ur pelo seu transposto
UTr Ur = (AVrS
−1+ )T (AVrS
−1+ ) = (S−1
+ V Tr AT )(AVrS
−1+ )
= S−1+ V T
r (AT AVr)S−1+ = S−1
+ V Tr (VrS
2+)S−1
+
= S−1+ (V T
r Vr)(S2+S−1
+ ) = S−1+ S+ = Ir
verificamos que Ur e uma matriz ortonormal cujas colunas geram um subespaco de dimensao
r em IRn. Se Ur for uma matriz ortonormal cuja imagem e o complemento ortogonal da
imagem de Ur (Ur = U⊥r ), entao
0(n−r)×r = UTr Ur = UT
r AVrS−1+ ⇒ UT
r A = 0(n−r)×m,
Topicos de Algebra Linear 14
isto e, a imagem de Ur tambem e o complemento ortogonal de A, o que nos permite concluir
que im(Ur) = im(A) e que, consequentemente, as colunas de Ur sao uma base ortonormal de
im(A). Definindo
U =[
Ur | Ur
](11)
podemos calcular
UT AV =
[UT
r
UTr
]A
[Vr | Vr
]=
[UT
r AUT
r A
] [Vr | Vr
]=
[UT
r AVr UTr AVr
UTr AVr UT
r AVr
].(12)
Como UTr Ur = Ir, entao, substituindo, nesta equacao, Ur pelo seu valor definido em (10),
teremos
UTr AVrS
−1+ = Ir ⇒ UT
r AVr = S+.
Por outro lado, fazendo a mesma substituicao no bloco (1, 2) da ultima matriz na expressao
(12), podemos escrever
UTr AVr = (AVrS
−1+ )T AVr = S−1
+ V Tr (AT AVr) = 0(n−r)×(m−r)
pois, de (9), AT AVr = 0m×(m−r). Finalmente, como as colunas de Ur geram o complemento
ortogonal do subespaco gerado pelas colunas de A,
UTr AVr = 0(n−r)×r
UTr AVr = 0(n−r)×(m−r).
Deste modo,
UT AV =
[S+ 0r×(m−r)
0(n−r)×r) 0(n−r)×(m−r)
].
Como UUT = In e V V T = Im, pre-multiplicando e pos-multiplicando UT AV por U e V T ,
respectivamente, obtemos
U(UT AV )V T = U
[S+ 0r×(m−r)
0(n−r)×r) 0(n−r)×(m−r)
]V T = (UUT )A(V V T ) = A
ficando assim concluıda a demonstracao.
2
Normalmente define-se
S =
[S+ 0r×(m−r)
0(n−r)×r 0(n−r)×(m−r)
]∈ IRn×m
Topicos de Algebra Linear 15
e exprime-se a decomposicao em valores singulares na forma
A = USV T .
Se n > m, ou seja, se A tiver mais colunas do que linhas, entao
S =
σ1 0 · · · 00 σ2 · · · 0...
.... . .
...0 0 · · · σm
0 0 · · · 0...
......
...0 0 · · · 0
e se n < m,
S =
σ1 0 · · · 0 0 · · · 00 σ2 · · · 0 0 · · · 0...
.... . .
......
......
0 0 · · · σn 0 · · · 0
Os elementos da diagonal principal de S estao ordenados por ordem decrescente, isto e,
σ1 ≥ σ2 ≥ · · · ≥ σp, com p = min(n,m), e sao designados por valores singulares de A. Na
demonstracao da decomposicao em valores singulares vimos que estes sao as raızes quadradas
positivas de valores proprios de AT A. E facil demonstrar que os valores singulares sao as
raızes quadradas positivas dos valores proprios de AT A quando n ≥ m e dos valores
proprios de AAT quando n ≤ m. S+, definida em (5), e a matriz dos valores singulares
nao nulos. Como car(S) = car(S+), entao car(A) = car(S+), ou seja, a caracterıstica duma
matriz e igual ao numero de valores singulares nao nulos pois, U e V sao matrizes nao
singulares1. Vimos, tambem, que V e uma matriz (ortonormal) cujas colunas sao os vectores
proprios de AT A. pode-se provar, identicamente, que U e uma matriz cujas colunas sao
os vectores proprios de AAT . As colunas de U e V tambem sao designadas por vectores
singulares de A. As de U , sao os vectores singulares a esquerda e as de V , os vectores
singulares a direita.
Utilizando as decomposicoes de V e U definidas em (6)-(7) e (11), respectivamente,
podemos rescrever a decomposicao em valores singulares na forma
A =[
Ur | Ur
] [S+ 0r×(m−r)
0(n−r)×r 0(n−r)×(m−r)
] [V T
r
V Tr
]=
[UrS+ | 0n×(m−r)
] [V T
r
V Tr
]=
= UrS+V Tr .
1Recordemos que matrizes nao singulares sao matrizes de caracterıstica completa e que se G for umamatriz de caracterıstica completa entao a caracterıstica de F = GH e igual a caracterıstica de H.
Topicos de Algebra Linear 16
Chegamos assim a forma reduzida da decomposicao em valores singulares.
• Se, na transformacao IRm → IRn z = Ax, definirmos x = S+V Tr x, teremos z = Ax = Urx.
Com car(A) = car(Ur), A e Ur tem a mesma imagem e , consequentemente, as colunas
de Ur sao uma base ortonormal do subespaco gerado pelas colunas de A (im(A)). Como
AT = VrS+UTr , concluımos, identicamente, que im(Vr) = im(AT ) e que as colunas de Vr
sao uma base ortnormal para o subespaco gerado pelas linhas de A.
• Dado que as colunas de Vr sao perpendiculares as de Vr,
AVr = UrS+V Tr Vr = 0n×(m−r),
o que nos permite afirmar que as colunas de Vr pertencem ao nucleo de A (ker(A)). Como
car(Vr)=car (ker(A)) = m − r, entao im(Vr) = ker(A), sendo as colunas de Vr uma base
ortonormal do nucleo de A. Analogamente, as colunas de Ur sao uma base ortonormal do
nucleo de AT .
Resumindo,
im(Ur) = im(A)
im(Vr) = im(AT )
im(Vr) = ker(A)
im(Ur) = ker(AT ).
5 Norma Quadratica de Matrizes
Os vectores dum espaco IRn sao habitualmente definidos pela combinacao linear dos vectores
ei =
00...010...0
∈ IRn
igesima linhai = 1, . . . , n,
Topicos de Algebra Linear 17
que formam a base canonica de IRn. Seja U =[
u1 u2 · · · un
] ∈ IRn uma matriz
ortonormal. Como
In =[
e1 e2 · · · en
]= UT U = UT
[u1 u2 · · · un
]=
[UT u1 UT u2 · · · UT un
]
podemos concluir que
UT ui = ei.
Isto significa que a transformacao UT x roda os eixos da base ortonormal {u1, . . . , un} para
os eixos da base canonica {e1, . . . , en}. Por outras palavras, a transformacao UT x e uma
rotacao que alinha os eixos u1, . . . , un com e1, . . . , en. Assim, chamaremos alinhador a
matriz UT .
Exemplo 7 : Alinhador no espaco IR2
Se
U =[
u1 u2
]
for uma matriz ortogonal em IR2 entao
UT u1 =
[uT
1
uT2
]u1 =
[uT
1 u1
uT2 u1
]=
[10
]= e1
UT u2 =
[uT
1
uT2
]u2 =
[uT
1 u2
uT1 u2
]=
[01
]= e2
pois, sendo U uma matriz ortonormal, as suas colunas u1 e u2 tem modulo unitario e sao
mutuamente ortogonais. Podemos, entao, concluir, que esta transformacao roda todos os
vectores de um angulo θ (angulo que u1 faz com e1 (ver figura 5). Seja agora
x = α1u1 + α2u2
O vector z = UT x sera
z = UT (α1u1 + α2u2) = α1UT u1 + α2U
T u2 = α1e1 + α2e2 =
[α1
α2
]
ou seja, z e um vector cujas coordenadas sao as de x no referencial definido pelos vectores
u1 e u2 (ver figura 5). Verificamos, assim, que os eixos de u1 e u2 foram alinhados pelos de
e1 e e2 e que, consequentemente, UT e o alinhador do referencial constituıdo pelos vectores
u1 e u2.
Topicos de Algebra Linear 18
x
UT x
u1u2
α1u1
α2u2
1
1
−1
φ
−1
θ
−1
−1
α2e2
α1e1
1φ
1
e1 = UT u1
e2 = UT u2
UT
Figura 5: UT e o alinhador de {u1, u2} no espaco IR2
Como
U =[
u1 u2 · · · un
]= UIn = U
[e1 e2 · · · en
],
entao
Uei = ui, i = 1, . . . , n.
Vemos, deste modo, que a transformacao y = Ux roda os eixos da base canonica {e1, . . . , en}para os da base ortonormal {u1, . . . , un}. Como os eixos da base canonica sao pendurados
nos da base ortonormal, chamaremos cabide a U .
Exemplo 8 : Cabide no espaco IR2
Dado que a matriz U , definida no exemplo anterior, e ortonormal, U−1 = UT . Consequente-
mente z = UT x e x = Uz sao transformacoes inversas. Se a transformacao definida por UT
roda as colunas u1 e u2 de U para e1 e e2, respectivamente, entao a que e definida por U
roda e1 e e2 para u1 e u2. O vector
z =
[α1
α2
]
e transformado no vector
x = Uz =[
u1 u2
] [α1
α2
]= α1u1 + α2u2.
Podemos, entao, afirmar que as coordenadas α1 e α2 de z foram penduradas em u1 e u2 pelo
cabide U .
Topicos de Algebra Linear 19
z
Uz
−1
−1
α2e2
α1e1
1e1
φ
e2
1
U
α1u1
α2u2
1
1
−1
φ
−1
θ
u1 = Ue1
u2 = Ue2
Figura 6: U e o cabide em {u1, u2} no espaco IR2
Seja D ∈ IRn×n uma matriz diagonal, isto e,
D =
d1 0 · · · 00 d2 · · · 0...
.... . .
...0 0 · · · dn
.
Se multiplicarmos D, a direita, pelo vector
x =
α1
α2...
αn
obtemos
xd =
d1α1
d2α2...
dnαn
onde as coordenadas nos eixos de e1, e2, . . . , en estao multiplicadas pelos elementos d1, d2, . . . , dn,
respectivamente, de D. podemos afirmar, entao, que as coordenadas de x foram deformadas
pelos elementos de D e designaremos D por deformador .
Exemplo 9 : Deformador no espaco IR2
Seja
D =
[1 00 0, 5
]
Topicos de Algebra Linear 20
uma matriz diagonal em IR2×2 e C2(1) = {x : ‖x‖2 = 1}, isto e, a circunferencia de raio
unitario. A transformacao z = Dx transforma esta circunferencia numa elipse E2(1, 0.5)
com semi-eixos de comprimento 1 e 0, 5. Vemos, assim, que a circunferencia C2 foi defor-
mada pelo deformador D.
D
1
e1
e2
−0, 5
0, 5
−1
−1
−1 1
C2(1)e2
1
e1
Figura 7: D e um deformador no espaco IR2
Como, atraves da decomposicao em valores singulares, podemos decompor uma matriz
na forma
A = UrS+V Tr
onde Ur e Vr sao matrizes ortonormais e S+ e uma matriz diagonal, podemos ver a trans-
formacao
z = Ax = UrS+V Tr x
como a sequencia das seguintes operacoes:
• Alinhamento dos eixos de v1, v2, . . . , vr com os eixos de e1, e2, . . . , er da base canonica
efectuado pelo alinhador V Tr
• Deformacao da novas coordenadas de x pelo deformador S+.
• Suspensao das novas coordenadas deformadas de x no cabide Ur.
Por outras palavras, os eixos v1, v2, . . . , vr sao deformados de σ1, σ2, . . . , σr e rodados para
u1, u2, . . . , ur.
Topicos de Algebra Linear 21
Exemplo 10 : Transformacao de uma elipse de IR2 para IR2 por uma matriz
A matriz
A =
[1, 44 0, 920, 08 1, 44
]
com a seguinte decomposicao em valores singulares
A =
[0, 8 −0, 60, 6 0, 8
] [2 00 1
] [0, 6 0, 8−0, 8 0, 6
]
transforma a elipse com os eixos alinhados com
v1 =
[0.6−0.8
]e v2 =
[0.80.6
]
de comprimentos 4 e 2, respectivamente, numa outra elipse com os eixos alinhados com
u1 =
[0.80.6
]e u2 =
[ −0.60.8
]
e comprimentos 8 e 2.
Exemplo 11 : Transformacao da hiperesfera de raio unitario
A hiperesfera de ordem m de raio unitario e transformada pela matriz A ∈ IRn×m com
decomposicao em valores singulares
A =[
u1 u2 · · · ur
]
σ1 0 · · · 00 σ2 · · · 0...
.... . .
...0 0 · · · σr
vT1
vT2...
vTr
numa elipsoide de ordem r, com semi-eixos de comprimentos σ1, σ2, . . . , σr alinhados com os
vectores u1, u2, . . . , ur.
A norma quadratica duma matriz A ∈ IRn×m e designada por ‖A‖2 e definida por
‖A‖2 = sup‖x‖2=1
‖Ax‖2
isto e, e o modulo do maior vector z = Ax quando x tem modulo unitario. Como a hiperesfera
de ordem m de raio unitario e transformada por A numa elipsoide com semi-eixos de compri-
mentos iguais aos seus valores singulares, entao o maior vector z = Ax desta transformacao
tem o modulo igual ao do maior valor singular de A e, consequentemente,
‖A‖2 = σ1
Topicos de Algebra Linear 22
A
1
1
1
σ3u3 σ1u1
σ2u2
Figura 8: Transformacao da esfera unitaria numa elipsoide em IR3 por uma matrizA ∈ IR3×3 com vectores singulares a esquerda u1, u2 e u3 e valores singulares σ1, σ2 e σ3.
Exemplo 12 : Norma quadratica duma matriz 2 por 2
Como a matriz
A =
[1, 44 0, 920, 08 1, 44
]
com a seguinte decomposicao em valores singulares
A =
[0, 8 −0, 60, 6 0, 8
] [2 00 1
] [0, 6 0, 8−0, 8 0, 6
]
transforma a circunferencia unitaria numa elipse com semi-eixos de comprimentos 2 e 1,
entao
‖A‖2 = 2 = maior valor singular de A
6 Aproximacao de uma Matriz por Outra de Carac-
terıstica Inferior
Seja A uma matriz com caracterıstica r pertencente a IRn×m em que n > m. A sua decom-
posicao em valores singulares
A = USV T
Topicos de Algebra Linear 23
A
1
1
−1
−1 2 = ‖A‖2
σ1u1 = 2u1σ2u2 = u2
Figura 9: A norma da matriz A e o comprimento do maior semi-eixo da elipse em que etransformada a circunferencia de raio unitario
permite-nos chegar a decomposicao diatica, dada por
A =m∑
i=1
σiuivTi
Para x = αjvj, um vector na direccao de vj, teremos
Ax =m∑
i=1
σiuivTi x =
m∑i=1
σiαjuivTi vj = σjαjujv
Tj vj = σjαjuj
pois vj tem modulo unitario e e perpendicular a vi para i 6= j. Esta expressao evidencia
o facto mencionado na seccao anterior, de que os pontos no eixo de vj sao reescalados
(deformados) de um factor σj e rodados para o eixo de uj.
Consideremos, agora, um vector x com componentes em todos os eixos vi, i = 1, . . . , m,
ou seja,
x = α1v1 + α2v2 + · · ·+ αrvr + αr+1vr+1 + · · ·+ αmvm.
Se car(A) = r e r < m, entao σr+1 = σr+2 = · · · = σm = 0, significando isto que as
componentes αr+1vr+1, αr+2vr+2, . . . , αmvm estao no nucleo de A sendo, por isso, eliminadas
na transformacao Ax. Teremos, assim,
Ax = σ1α1u1 + σ2α2u2 + · · ·+ σrαrur.
Topicos de Algebra Linear 24
Se os valores singulares σk+1, . . . , σr forem muito pequenos, podemos fazer
Ax ≈ α1σ1u1 + σ2α2u2 + · · ·+ σkαkuk = Akx,
em que
Ak =[
u1 u2 · · · uk
]
σ1 0 · · · 00 σ2 · · · 0...
.... . .
...0 0 · · · σk
vT1
vT2...
vTk
.
O erro desta aproximacao e
Ax− Akx = (A− Ak) x = σk+1αk+1uk+1 + σk+2αk+1uk+2 + · · ·+ αrσrur,
sendo
‖Ax− Akx‖2 =√
σ2k+1α
2k+1 + σ2
k+2α2k+2 + · · ·+ σ2
rα2r
pois uk+1, uk+2, . . . , ur sao vectores de norma unitaria mutuamente ortogonais. Como
(Ax− Akx)T Akx = (σk+1αk+1uk+1 + · · ·+ αrσrur)T (σ1α1u1 + · · ·+ αkσkuk) =
= σk+1αk+1uTk+1 (σ1α1u1 + · · ·+ αkσkuk) + · · ·+
+σrαruTr (σ1α1u1 + · · ·+ αkσkuk) =
= σk+1αk+1σ1α1uTk+1u1 + · · ·+ σk+1αk+1σkαku
Tk+1uk + · · ·+
+σrαrσ1α1uTr u1 + · · ·+ σrαrσkαku
Tr uk = 0,
Ax − Akx e Akx sao ortogonais. Isto significa que Akx e a projeccao ortogonal de Ax
no subespaco gerado por u1, u2, . . . , uk, sendo, por isso, a sua melhor aproximacao neste
subespaco e , consequentemente, im(Ak) e a melhor aproximacao de dimensao k do subespaco
im(A).
Se z ∈ IRn for decomposto na forma
z = β1u1 + β2u2 + · · ·+ βnun,
podemos concluir , de forma semelhante, que ATk z e a melhor aproximacao de AT z no sube-
spaco gerado por v1, v2, . . . vk sendo im(ATk ) a melhor aproximacao de dimensao k de im(AT )
Como im(Ak) e im(ATk ) sao as melhores aproximacoes de im(A) e im(AT ), respectiva-
mente, podemos afirmar que Ak e a melhor aproximacao com caracterıstica k de A.
Topicos de Algebra Linear 25
7 Projeccoes Ortogonais de Subespacos
Sejam x e y dois vectores em IRn. A projeccao ortogonal de y em x, que designaremos por
y\x e um vector na direccao de x com modulo ‖y‖2 cos φ em que φ e o angulo entre y e x.
Sendo o produto interno entre x e y dado por
−1
φ
y
x
y\x
y − y\x
ex
1
1
−1
Figura 10: Projeccao ortogonal de y em x.
xT y = ‖x‖2‖y‖2 cos φ, (13)
podemos exprimir y\x na forma
y\x = exxT y
‖x‖2
em que ex e um vector unitario na direccao de x, ou seja,
ex =x
‖x‖2
.
Substituindo ex pelo seu valor em (13), teremos
y\x = xxT y
‖x‖22
= x‖x‖−22 xT y.
Como
‖x‖22 = xT x
podemos, finalmente, escrever,
y\x = x(xT x
)−1xT y.
Topicos de Algebra Linear 26
Como y − y\x e perpendicular a x, entao y\x e a melhor aproximacao na direccao de x.
Notemos, ainda, que a projeccao y\x e uma combinacao linear de x, isto e,
y\x = xθ
em que
θ =(xT x
)−1xT y.
Vemos, assim, que θ e o estimador de mınimos quadrados
θ = min ‖y − xθ‖2.θ
Se x for um vector na direccao de um dos vectores da base canonica, isto e, se x =
Kxei, Kx ∈ IR, entao
y\x = (Kxei)[(Kxei)
T (Kxei)]−1
(Kxei)T y = Kxei
(K2
xeTi ei
)−1Kxe
Ti y =
= Kx(Kx)−2Kxei
(eT
i ei
)−1eT
i y = eieTi y =
=i
0 0 · · · 0 · · · 0...
......
......
...0 0 · · · 1 · · · 0...
......
......
...0 0 · · · 0 · · · 0
i
y1...yi...
yn
=
0...yi...0
= yiei
Como esta expressao e independente de Kx a projeccao y\x, depende unicamente da direccao
de x, ou seja, y\z = y\x para qualquer z na direccao de x. Vemos, deste modo, que projectar
y em x e o mesmo que projectar y no subespaco gerado por x.
Vamos agora ver o que acontece quando x e um vector com direccao arbitraria. Come-
cemos por definir uma base ortonormal {u1, . . . , un} em que x = Kxu1. A seguir podemos
efectuar as seguintes operacoes
• Alinhar u1 com e1.
• Projectar y em e1 no novo referencial.
• Pendurar e1 em u1.
Topicos de Algebra Linear 27
1
−1
−1
1
e1
y1
y2
y
Kxe1 y1e1
Figura 11: Projeccao ortogonal de y no eixo de e1.
x
e1
y
u2 u1
e2
x
e1
y
u2 u1
e2y\x
UT y
Uu1
UT u2
UT y\UT x
UT x
Figura 12: Projeccao ortogonal de y em x: 1 - O plano e rodado para alinhar o eixo de xcom o de e1. 2 - y rodado e projectado no eixo de e1. 3 - O plano e rodado para a posicaoinicial.
Estas operacoes traduzem-se na seguinte expressao
y\x = Py
em que
P =[
u1 u2 · · · un
]
1 0 · · · 00 0 · · · 0...
......
...0 0 · · · 0
uT1
uT2...
uTn
= u1u
T1 (14)
Pode-se provar que P = x(xT x)−1xT . Como (14) e a decomposicao em valores singulares de
P , concluımos que esta matriz tem caracterıstica 1. Notemos que P e uma matriz simetrica
(P T = P ) e idempotente (P 2 = P ).
Topicos de Algebra Linear 28
Suponhamos, agora, que pretendemos projectar y no plano gerado pelo par de vectores
linearmente independentes x1 e x2. Seja {u1, u2} uma base ortonormal desse plano incluıda
na base ortonormal {u1, u2, . . . , un}. Uma vez mais, a projeccao pode ser feita atraves das
seguintes operacoes:
• Alinhar u1 e u2 com e1 e e2, respectivamente.
• Projectar y no novo referencial no plano gerado e1 e e2.
• Pendurar e1 e e2 em u1 e u2, respectivamente.
tal como anteriormente, estas projeccoes traduzem-se na expressao
y\X = Py
em que
P =[
u1 u2 u3 · · · un
]
1 0 0 · · · 00 1 0 · · · 00 0 0 · · · 0...
......
......
0 0 0 · · · 0
uT1
uT2
uT3...
uTn
= u1uT1 + u2u
T2 (15)
e X =[
x1 x2
]. Pode-se provar que
P = X(XT X)−1XT
sendo (15) a decomposicao em valores singulares de P .
Podemos alargar este conceito de projeccao de um vector num plano, ao da projeccao
dum subespaco noutro subespaco. Neste contexto, a projeccao da imagem de Y na imagem
de X em que
Y =[
y1 · · · y`
] ∈ IRn×`, n > `
X =[
x1 · · · xm
] ∈ IRn×m, n > m
e a imagem da matriz
Y \X = PY (16)
em que
P =[
Ur Ur
] [Ir 0r×(m−r)
0(n−r)×r 0(n−r)×(m−r)
] [UT
r
UTr
]= UrU
Tr (17)
Topicos de Algebra Linear 29
Se as colunas x1, . . . , xm de X forem linearmente independentes, entao r = m e
P = X(XT X)−1XT
pois XT X e uma matriz nao singular. Nestas condicoes, a projeccao de Y em X e a com-
binacao linear das colunas de X
Y \X = Xθ,
em que θ tem uma so solucao, dada por
θ =(XT X
)−1XT Y, (18)
que podemos reconhecer como sendo o estimador de mınimos quadrados
θ = min ‖Y −Xθ‖2.θ
(19)
A projeccao Y \X existe sempre mesmo quando as colunas de X nao sao linearmente
independentes. No entanto, (19) deixa de ter uma unica solucao pois XT X e singular.
Como obter uma solucao θ nestas condicoes? Se
X = UrS+V Tr (20)
for a forma reduzida da decomposicao em valores singulares de X, e se em (18) substituirmos(XT X
)−1XT por
X† = VrS−1+ UT
r , (21)
obtemos a estimador
θ = X†Y (22)
que adiante provaremos ser o menor estimador de mınimos quadrados de θ. Pode-se provar
que X† e a unica matriz que obedece as seguintes condicoes (condicoes de Moore-Penrose):
1. XX†X = X
2. X†XX† = X†
3.(XX†)T
= X†X
Topicos de Algebra Linear 30
4.(X†X
)T= XX†
X† e designada como o inverso generalizado ou pseudo-inverso de X. Se car(X) =
m, entao X† = (XT X)−1XT e X†X = Im. Se car(X) = n, entao teremos X† = XT (XXT )−1
e XX† = In.
Vamos agora provar que θ definido em (22) e o menor estimador de mınimos quadrados.
Lema 2 Se X ∈ IRn×m onde n > m for uma matriz com caracterıstica r < m e y ∈ IRn
com n > `, entao
θ(Ψ) = X†y +(Im −X†X
)Ψ, ∀Ψ ∈ IRm
e a solucao geral do problema de mınimos quadrados
min ‖y −Xθ‖2.θ ∈ IRm×` (23)
e
θ = θ(0m×`) = X†y
e a unica solucao de norma mınima, isto e, e a unica solucao tal que
‖θ‖2 ≤∥∥θ(Ψ)
∥∥2, ∀Ψ ∈ IRm.
Demonstracao:
Todas solucoes de (23) devem ser coeficientes de todas as combinacoes lineares de X que
geram y\X , isto e, o conjunto Θ ={θ : Xθ = y\X
}. Utilizando a forma reduzida da decom-
posicao em valores singulares de X em (20) e as definicoes de P e de X† em (17) e (21),
respectivamente,
Xθ = XX†y = (UrS+V Tr )(VrS
−1+ UT
r )y = UrS+(V Tr Vr)S
−1+ UT
r y =
= Ur(S+S−1+ )UT
r y = UrUTr y = Py = y\X .
Vemos, deste modo, que θ = X†y ∈ Θ sendo, por isso, uma solucao de (23). As outras
solucoes sao do tipo θ + Υ tal que X(θ + Υ
)= y\X . Como Xθ = y\X , entao XΥ =
0n×`. Isto significa que Υ pode ser qualquer vector no nucleo de X, ker(X). Υ pode entao
ser gerado atraves da projeccao ortogonal de um vector qualquer Ψ ∈ IRm em ker(X).
Vimos, anteriormente, que ker(X) e o complemento ortogonal de im(XT ) em que im(XT ) e
Topicos de Algebra Linear 31
o subespaco gerado pelas linhas de X. Se Vr for uma base ortonormal de im(XT ), entao, de
(16) e de (17), a projeccao de Ψ em im(XT ) e dada por
Ψ\XT = VrVTr Ψ,
sendo
Υ = Ψ\(XT )⊥ = Ψ−Ψ\XT
a projeccao ortogonal de Ψ em (XT )⊥. Se Vr for a base calculada na decomposicao em
valores singulares de X, entao podemos gerar Υ atraves de
Υ = Ψ−Ψ\XT = Ψ− VrVTr Ψ =
(Im − VrV
Tr
)Ψ =
(Im −X†X
)Ψ, ∀Ψ ∈ IRm.
pois,
X†X = VrS−1+ UT
r UrS+V Tr = VrV
Tr .
A solucao geral de (23) sera
θ(Ψ) = θ +(Im −X†X
)Ψ, ∀Ψ ∈ IRm
em que Ψ e qualquer matriz de IRm.
Como
θ = X†︸︷︷︸VrS−1
+ UTr
y = Vr S−1+ UT
r y︸ ︷︷ ︸y
= Vry ∈ im(XT )
e
Υ =(Im −X†X
)Ψ ∈ ker(X),
entao θ e Υ sao perpendiculares pois ker(X) e o complemento ortogonal de im(XT ). Teremos,
assim,
∥∥θ(Ψ)∥∥2
2= ‖θ‖2
2 + ‖Υ‖22 = ‖θ‖2
2 +∥∥(Im −X†X)Ψ
∥∥2
2
e, finalmente,
‖θ‖2 =∥∥X†y
∥∥2≤ ∥∥θ(Ψ)
∥∥2
onde so se verifica igualdade para Ψ = 0m, ficando assim concluıda a demonstracao.
2
Topicos de Algebra Linear 32
O estimador de mınimos quadrados de norma mınima pode ser expresso atraves de
θ = X†Y = VrS−1+ UrY =
r∑i=1
uTi viY
σi
Esta expressao mostra que, se o menor valor singular σr for muito menor que os outros,
pequenas perturbacoes na matriz que provoquem pequenas alteracoes em ur ou vr causam,
seguramente, perturbacoes muito significativas em θ. Se, no entanto, os valores singulares
nao forem muito diferentes uns dos outros, as perturbacoes nos diferentes vectores singulares
tendem-se a compensar umas as outras, nao fazendo variar significativamente θ. Vemos,
assim, que a sensibilidade de θ depende, fundamentalmente, da diferenca entre os valores
singulares de X. O numero de condicao de X definido por
κ(X) = ‖X‖2‖X†‖2 =σ1
σr
e utilizado como medida de sensibilidade de θ. Por definicao e superior ou igual a 1. Se
for muito grande, entao X e uma matriz mal condicionada. Se se mantiver pequeno X e
bem condicionada. Uma matriz ortonormal tem numero de condicao igual a 1 e, por isso, e
perfeitamente condicionada.
8 Projeccoes Oblıquas de Subespacos
Seja y ∈ IRn dado por
y = a1x1 + a2x2
onde a1 e a2 ∈ IR, x1 e x2 ∈ IRn. A projeccao oblıqua de y em x1 segundo x2, designada por
y\x2x1
, e a1x1. Se y nao estiver no plano gerado por x1 e x2, a projeccao oblıqua de y em x1
segundo x2 e a projeccao oblıqua de y\[x1 x2
] em x1 segundo x2. Como
y\[x1 x2
] = x1θ1 + x2θ2
onde[
θ1
θ2
]=
[x1 x2
]†y
Topicos de Algebra Linear 33
y\x1x2
= a2x1
y
x2
x1y\x2
x1= a1x1
Figura 13: y\x2x1
e a projeccao oblıqua de y em x1 segundo a direccao de x2. y\x1x2
e a projeccaooblıqua de y em x2 segundo a direccao de x1.
entao
y\x2x1
= x1θ1.
Dum modo geral, dizemos que a projeccao de Y ∈ IRn×` em X1 ∈ IRn×m1 segundo X2 ∈IRn×m2 com n > ` e n > m1 + m2 e
Y \X2X1
= X1θ1
onde[
θ1
θ2
]=
[X1 X2
]†Y.
9 Projeccoes nos Subespacos gerados pelas linhas duma
matriz
Quando o numero de colunas duma matriz e superior ao das linhas (m > n) as projeccoes sao
no subespaco gerado pelas linhas. Como, transpondo uma matriz, trocamos as linhas pelas
colunas, tudo o que se disse sobre projeccoes nos subespacos gerados pelas colunas continua
valido desde que todas as matrizes sejam transpostas. Se, no fim de todas as projeccoes,
voltarmos a transpor as matrizes, obtemos
Y/X =(Y T\XT
)T= Y X†X = θX = Y VrV
Tr
em que θ e o estimador de mınimos quadrados de menor norma dado por
θ = Y X†.
Se car(X) = n, entao X† = XT (XXT )−1 e
Y/X = Y XT (XXT )−1X
Topicos de Algebra Linear 34
A projeccao oblıqua de Y em X1 segundo X2 e definida como
Y/X2X1
=(Y T\XT
2
XT1
)T
= θ1X1
onde
[θ2 θ2
]= Y
[X1
X2
]†
10 Produto de Kronecker e Vectorizacao de Matrizes
Em controlo, especialmente nas areas de estimacao e reducao de ordem do modelo, e frequente
ter que se resolver equacoes de Lyapunov. Estas, sao equacoes matriciais, do tipo
ΠA1 + A2Π + A3ΠA4 + Q = 0n×n. (24)
Embora sejam lineares na incognita Π ∈ IRn×n, nao podem ser resolvidas de uma forma
directa porque, nuns termos a incognita aparece multiplicada a direita , noutros e multi-
plicada a esquerda, podendo ainda ser multiplicada simultaneamente a direita e a esquerda
noutros termos. Estas equacoes podem ser resolvidas de forma iterativa. No entanto, o
facto de serem lineares na incognita Π, indicia que existem metodos nao iterativos para a
sua resolucao. Nesta seccao iremos constatar que isso e verdade. Para esse efeito, iremos
transformar a equacao matricial num sistema de n2 equacoes lineares a n2 incognitas que
pode ser resolvido por qualquer algoritmo de resolucao de sistemas de equacoes lineares.
Esta transformacao ira utilizar o produto de Kronecker e, por isso, antes de a estudarmos
iremos ver em que e que consiste e quais sao as suas propriedades.
O produto de Kronecker e uma forma ordenada e compacta de exprimir uma matriz
(ou vector) cujos elementos sao os produtos de todos os elementos de outras duas matrizes
(ou vectores). Trata-se dum operacao bilinear muito utilizada nos modelos de sistemas nao
lineares. Dadas as matrizes A ∈ IRn×m e B ∈ IR`×p, o produto de Kronecker entre A e B,
designado por A⊗B, tem a seguinte definicao
A⊗B =
a11B a12B · · · a1mBa21B a22B · · · a2mB
......
......
an1B an2B · · · anmB
∈ IRn`×mp,
e goza das seguinte propriedades:
Topicos de Algebra Linear 35
Propriedade 1 - Associativa
(A⊗B)⊗ C = A⊗ (B ⊗ C)
Propriedade 2 - Distributiva
(A + B)⊗ (C + D) = A⊗ C + A⊗D + B ⊗ C + B ⊗D
Propriedade 3 - Transposicao
(A⊗B)T = AT ⊗BT
Propriedade 4 - Produto misturado
(A⊗B)(C ⊗D) = AC ⊗BD
Propriedade 5 - Matriz inversa
(A×B)−1 = (A−1 ⊗B−1) ∀A ∈ IRn×n, B ∈ IRm×m
Propriedade 6 - Valores e vectores proprios{
AvA = λAvA
BvB = λBvB⇒ (A⊗B)(vA ⊗ vB) = λAλB(vA ⊗ vB), ∀A ∈ IRn×n, B ∈ IRm×m,
isto e, se λA for um valor proprio de A ∈ IRn×n associado ao vector proprio vA ∈ IRn e se
λB for um valor proprio de B ∈ IRm×m associado ao vector proprio vB ∈ IRm, entao λAλB
e um valor proprio de A⊗B ∈ IRnm×nm associado ao vector proprio vA ⊗ vB ∈ IRnm.
Propriedade 7 A⊗B ∈ IRnm×nm e uma matriz definida positiva se A ∈ IRn×n e B ∈ IRm×m
forem matrizes simetricas, e ambas definidas positivas ou definidas negativas.
Iremos, em seguida, demonstrar a propriedade 4 (produto misturado) deixando a demon-
stracao das outras como exercıcio para o leitor.
Demonstracao da Propriedade 4:
A matriz A⊗B, com A ∈ IRn×m e B ∈ IR`×p pode ser expressa na forma
A⊗B =
a11B a12B · · · a1mB...
......
...ai1B ai2B · · · aimB
......
......
an1B an2B · · · anmB
=
AIB(1, :)...
AIB(i, :)...
AIB(n, :)
Topicos de Algebra Linear 36
em que
AIB(i, :) =[
ai1B ai2B · · · aimB] ∈ IR`×mp
representa o bloco constituıdo pelas linhas (i− 1)` + 1 a i` de A⊗B. Por outro lado C ⊗D
com C ∈ IRm×q e D ∈ IRp×r pode ser expressa na forma
C ⊗D =
c11D · · · c1jD · · · c1qDc21D · · · c2jD · · · c2qD
......
......
...cm1D · · · cmjD · · · cmqD
=
[CJD(:, 1) · · · CJD(:, j) · · · CJD(:, q)
].
Nesta matriz, o bloco
CJD(:, j) =
c1jDc2jD
...cmjD
∈ IRmp
representa o bloco constituıdo pelas colunas (j− 1)r +1 a jr de C⊗D. O bloco constituıdo
pelas linhas (i−1)`+1 a i` e as colunas (j−1)r+1 a jr de (A⊗B)(C⊗D) que designaremos
por AIBCJD(i, j), sera o produto dos blocos AIB(i, :) e CJD(:, j) que acabamos de definir,
ou seja
AIBCJD(i, j) = AIB(i, :)CJD(:, j) =m∑
k=1
aikBckjD =
[m∑
k=1
aikckj
]BD.
Como∑m
k=1 aikckj e o elemento da linha i e coluna j de CA, entao AIBCJD(i, j) tambem
vai ser o bloco constituıdo pelas linhas (i − 1)` + 1 a i` e as colunas (j − 1)r + 1 a jr de
AC ⊗BD que designaremos por AICJBD(i, j). Como, qualquer que sejam i e j,
AIBCJD(i, j) = AICJBD(i, j)
entao (A⊗B)(C ⊗D) = AC ⊗BD, ficando assim demonstrada a propriedade.
2
A operacao vectorizacao consiste em transformar uma matriz num vector, empilhando as
suas colunas umas em cima das outras. Assim, dada a matriz
A =[
a1 a2 · · · ai · · · am
], ai ∈ IRn, i = 1, . . . , m,
Topicos de Algebra Linear 37
a sua vectorizacao, designada por vec(A) e o vector
vec(A) =
a1
a2...ai...
am
∈ IRnm.
Iremos, agora, enunciar uma propriedade que e fundamental para a determinacao duma
solucao nao iterativa de equacoes de Lyapunov identicas a (24).
Propriedade 8
vec(ABC) = (CT ⊗ A)vec(B), ∀A ∈ IRn×m, B ∈ IRm×`, C ∈ IR`×p
Demonstracao:
Sejam
A =
aT1
aT2...
aTn
, B =
[b1 b2 · · · b`
], C =
c11 c12 · · · c1p
c21 c22 · · · c2p...
......
...c`1 c`2 · · · c`p
com ai ∈ IRm, i = 1, . . . , n e bi ∈ IRm, i = 1, . . . , `. O produto destas tres matrizes e
ABC =
aT1
aT2...
aTn
[b1 b2 · · · b`
]
c11 c12 · · · c1j · · · c1p
c21 c22 · · · c2j · · · c2p...
......
......
...c`1 c`2 · · · c`j · · · c`p
=
=
aT1 b1 aT
1 b2 · · · a1b`
aT2 b1 aT
2 b2 · · · a`...
......
...aT
nb1 aTnb2 · · · anb`
c11 c12 · · · c1j · · · c1p
c21 c22 · · · c2j · · · c2p...
......
......
...c`1 c`2 · · · c`j · · · c`p
=
=
∑`i=1 aT
1 bici1
∑`i=1 aT
1 bici2 · · · ∑`i=1 aT
1 bicij · · · ∑`i=1 aT
1 bicip∑`i=1 aT
2 bici1
∑`i=1 aT
2 bici2 · · · ∑`i=1 aT
2 bicij · · · ∑`i=1 aT
2 bicip...
......
......
...∑`i=1 aT
nbici1
∑`i=1 aT
nbici2 · · · ∑`i=1 aT
nbicij · · · ∑`i=1 aT
nbicip
.
Topicos de Algebra Linear 38
Vemos, daqui, que a coluna j de ABC que designaremos por ABC(:, j) e
ABC(:, j) =
∑`i=1 aT
1 bicij∑`i=1 aT
2 bicij...∑`
i=1 aTnbicij
=
c1jaT1 c2ja
T1 · · · c`ja
T1
c1jaT2 c2ja
T2 · · · c`ja
T2
......
......
c1jaTn c2ja
Tn · · · c`ja
Tn
b1
b2...b`
=
=
[c1j c2j · · · c`j
]⊗
aT1
aT2...
aTn
vec(B) = (cT
j ⊗ A)vec(B)
em que
cj =
c1j
c2j...
c`j
∈ IR`
e a coluna j de C. Teremos entao
vec(ABC) =
ABC(:, 1)ABC(:, 2)
...ABC(:, j)
...ABC(:, p)
=
(cT1 ⊗ A)vec(B)
(cT2 ⊗ A)vec(B)
...(cT
j ⊗ A)vec(B)...
(cTp ⊗ A)vec(B)
=
=
cT1 ⊗ A
cT2 ⊗ A
...cTj ⊗ A
...cTp ⊗ A
vec(B) =
cT1
cT2...
cTj
...cTp
⊗ A
vec(B) = (CT ⊗ A)vec(B).
2
Consideremos agora a equacao (24). Podemos rescrever esta equacao na forma
InΠA1 + A2ΠIn + A3ΠA4 + Q = 0n×n.
Como vec(A + B) = vec(A) + vec(B), entao
vec (InΠA1 + A2ΠIn + A3ΠA4 + Q) =
= vec(InΠA1) + vec(A2ΠIn) + vec(A2ΠA4) + vec(Q) = vec(0n×n) = 0n2 .
Topicos de Algebra Linear 39
Utilizando a propriedade 8, teremos
vec(InΠA1) = (AT1 ⊗ In)vec(Π)
vec(A2ΠIn) = (In ⊗ A2)vec(Π)
vec(A3ΠA4) = (AT4 ⊗ A3)vec(Π)
e, consequentemente,
(AT1 ⊗ In)vec(Π) + (In ⊗ A2)vec(Π) + (AT
4 ⊗ A3)vec(Π) + vec(Q) = 0n2 ⇔⇔ (
AT1 ⊗ In + In ⊗ A2 + AT
4 ⊗ A3
)vec(Π) = −vec(Q)
Se AT1 ⊗ In + In ⊗A2 + AT
4 ⊗A3 for uma matriz nao singular a solucao e unica e e dada por
vec(P ) = − (AT
1 ⊗ In + In ⊗ A2 + AT4 ⊗ A3
)−1vec(Q).
11 Norma de Frobenius
A norma de Frobenius duma matriz A ∈ IRn×m, tambem conhecida como norma de Hilbert-
Schmidt, e definida de seguinte forma
‖A‖F = ‖vec(A)‖2 =
√√√√m∑
j=1
n∑i=1
a2ij.
Esta definicao mostra que a norma de Frobenius e muito semelhante a Euclidiana pois resulta
num produto interno definido no espaco das matrizes atraves de
< A,B >= vec(A)T vec(B).
Veremos, em seguida, como e que podemos calcular a norma de Frobenius atraves dos valores
singulares.
Lema 3 Se σ1, σ2, . . . , σp forem os valores singulares da matriz A ∈ IRn×m com p =
min(n,m), entao
‖A‖F =
√√√√p∑
i=1
σ2i =
√traco(AT A) (25)
Topicos de Algebra Linear 40
Demonstracao: Vimos, anteriormente, que A pode ser decomposto na forma
A = UpSpVTp
em que Up ∈ IRn×p e V ∈ IRm×p sao matrizes ortonormais e Sp e uma matriz diagonal cujos
elementos da diagonal principal sao os valores singulares de A, Se σ1, σ2, . . . , σp. Utilizando
a propriedade 8 para vectorizar A teremos
vec(A) = (Vp ⊗ Up)vec(Sp). (26)
Podemos agora calcular a norma de Frobenius de A atraves de
‖A‖2F = ‖vec(A)‖2
2 = [(Vp ⊗ Up)vec(Sp)]T [(Vp ⊗ Up)vec(Sp)] =
= vec(Sp)T (Vp ⊗ Up)
T (Vp ⊗ Up)vec(Sp)
Utilizando as propriedades 3 e 4 do produto de Kronecker e recordando que Up e Vp sao
matrizes ortonormais,
(Vp ⊗ Up)T (Vp ⊗ Up) = (V T
p ⊗ UTp )(Vp ⊗ Up) = (V T
p Vp)⊗ (UTp Up) = Ip ⊗ Ip = Ip2 ,
sendo, por isso,
‖A‖2F = vec(Sp)
T (Vp ⊗ Up)T (Vp ⊗ Up)vec(Sp) = vec(Sp)
T vec(Sp) =
p∑i=1
σ2i ,
pois, sendo Sp uma matriz diagonal cujos elementos da diagonal principal sao os valores singu-
lares de A, os unicos elementos nao nulos de vec(Sp) sao estes valores singulares. Recorrendo,
de novo, a decomposicao (26)
traco(AT A) = traco(VpSpUTp UpSpV
Tp ) = traco(VpS
2pV
Tp )
pois Up e uma matriz ortonormal. Como a operacao traco e comutativa desde que as di-
mensoes das matrizes sejam compatıveis, entao
traco(AT A) = traco(VpS2pV
Tp ) = traco(V T
p VpS2p) =
p∑i=1
σ2i
pois Vp e ortonormal e S2p e uma matriz diagonal cujos elementos da diagonal principal sao
os quadrados dos valores singulares de A.
2