matrici - ladispe.polito.it · matrici basilio bona dauin-politecnico di torino 2007 – 2008...

Matrici

Basilio Bona

DAUIN-Politecnico di Torino

2007 – 2008

Basilio Bona (DAUIN-Politecnico di Torino) Matrici 2007 – 2008 1 / 70

Definizione

Definizione

La matrice e un insieme di N numeri reali o complessi organizzata in mrighe e n colonne, con m×n = N

A =

a11 a12 · · · a1n

a21 a22 · · · a2n

· · · · · · · · · · · ·am1 am2 · · · amn

≡

[aij

]i = 1, . . . ,m j = 1, . . . ,n

Una matrice viene sempre indicata con lettera maiuscola in grassetto, ades. A

Per indicarne le dimensioni si usa una delle seguenti notazioni

Am×n Am×n A ∈ Fm×n A ∈ Fm×n

dove F = R per elementi reali e F = C per elementi complessi


Matrice trasposta

Data una matrice Am×n si definisce matrice trasposta la matrice ottenutascambiando le righe con le colonne

ATn×m =

a11 a21 · · · am1

a12 a22 · · · am2...

.... . .

...a1n a2n · · · amn

Vale la proprieta che (AT)T = A


Matrice quadrata

Una matrice si dice quadrata se m = nUna matrice quadrata n×n si dice triangolare superiore se aij = 0 per i > j

An×n =

a11 a12 · · · a1n

0 a22 · · · a2n...

.... . .

...0 0 · · · ann

Se una matrice quadrata e triangolare superiore, la sua trasposta etriangolare inferiore e viceversa

ATn×n =

a11 0 · · · 0a12 a22 · · · 0...

.... . .

...a1n a2n · · · ann


Matrice simmetrica

Una matrice reale quadrata si dice simmetrica se A = AT, ossia

A−AT = O

In una matrice reale simmetrica vi sono al piun(n+1)

2elementi

indipendentiSe una matrice K ha elementi complessi kij = aij +jbij , (dove j =

√−1) si

indica con K la matrice coniugata, che ha elementi k ij = aij − jbij

Data una matrice complessa K, si definisce matrice aggiunta K∗ la matrice

trasposta coniugata, K∗ = KT

= KT

Una matrice complessa si dice autoaggiunta o hermitiana se K = K∗.Alcuni testi indicano questa matrice con K† oppure con KH


Matrice diagonale

Una matrice quadrata si dice diagonale se aij = 0 per i 6= j

An×n = diag(ai) =

a1 0 · · · 00 a2 · · · 0...

.... . .

...0 0 · · · an

Una matrice diagonale e sempre simmetrica


Matrice antisimmetrica

Matrice antisimmetrica

Una matrice quadrata A si dice antisimmetrica se

A+AT = 0 → A = −AT

Dati i vincoli imposti da questa relazione, la matrice antisimmetrica ha laseguente struttura

An×n =

0 a12 · · · a1n

−a12 0 · · · a2n...

.... . .

...−a1n −a2n · · · 0

In una matrice antisimmetrica vi sono al piun(n−1)

2elementi

indipendenti e non nulli. Vedremo in seguito alcune importanti proprietadelle matrici antisimmetriche 3×3.


Matrice a blocchi

E possibile una rappresentazione a blocchi

A =

A11 · · · A1n

· · · Aij · · ·Am1 · · · Amn

dove i blocchi Aij sono di dimensioni opportuneDate le matrici

A1 =

A11 · · · A1n

O Aij · · ·O O Amn

;A2 =

A11 O O

· · · Aij O

Am1 · · · Amn

;A3 =

A11 O O

O Aij O

O O Amn

A1 e triangolare (superiore) a blocchi, A2 e triangolare (inferiore) ablocchi; infine A3 e diagonale a blocchi


Operazioni su matrici

Le matrici formano un’algebra, cioe uno spazio vettoriale con l’aggiuntadell’operatore prodotto. Le principali operazioni sono: prodotto per

scalare, somma, prodotto di matrici

Prodotto per scalare

αA = α

a11 a12 · · · a1n

a21 a22 · · · a2n...

.... . .

...am1 am2 · · · amn

=

αa11 αa12 · · · αa1n

αa21 αa22 · · · αa2n...

.... . .

...αam1 αam2 · · · αamn

Somma

A+B =

a11 +b11 a12 +b12 · · · a1n +b1n

a21 +b21 a22 +b22 · · · a2n +b2n...

.... . .

...am1 +bm1 am2 +bm2 · · · amn +bmn


Somma

Proprieta della somma

Valgono le seguenti proprieta:

A+O = A

A+B = B+A

(A+B)+C = A+(B+C)

(A+B)T = AT +BT

L’elemento neutro o nullo O prende il nome di matrice nulla. L’operazionedifferenza viene definita con l’ausilio dello scalare α = −1:

A−B = A+(−1)B.


Prodotto

Prodotto di matrici

L’operazione si effettua con la regola “riga per colonna”: il genericoelemento cij della matrice prodotto Cm×p = Am×n ·Bn×p vale

cij =n

∑k=1

aikbkj

La proprieta di bilinearita del prodotto di matrici e garantita, in quanto siverifica immediatamente che, dato uno scalare generico α , vale la seguenteidentita:

α(A ·B) = (αA) ·B = A · (αB)


Prodotto

Proprieta del prodotto

A ·B ·C = (A ·B) ·C = A · (B ·C)A · (B+C) = A ·B+A ·C(A+B) ·C = A ·C+B ·C(A ·B)T = BT ·AT

In generale:

il prodotto di matrici non e commutativo: A ·B 6= B ·A, salvo in casiparticolari;

A ·B = A ·C non implica B = C, salvo in casi particolari;

A ·B = O non implica che sia A = O oppure B = O, salvo in casiparticolari.


Matrice identita

Esiste un elemento neutro rispetto al prodotto, che prende il nome dimatrice identita e viene indicata con In oppure semplicemente I quandonon ci sono ambiguita sulla dimensione; data una matrice rettangolareAm×n si ha

Am×n = ImAm×n = Am×nIn

Matrice identita

I =

1 0 · · · 00 · · · · · · 0...

.... . .

...0 0 · · · 1


Matrice idempotente

Data una matrice quadrata A ∈ Rn×n, la potenza k-esima di matrice vale

Ak =k

∏ℓ=1

A

Una matrice si dice idempotente se

A2 = A.


Traccia

Traccia

La traccia di una matrice quadrata An×n e la somma dei suoi elementidiagonali

tr (A) =n

∑k=1

akk

La traccia di una matrice soddisfa le seguenti proprieta

tr (αA+ βB) = α tr (A)+ β tr (B)tr (AB) = tr (BA)

tr (A) = tr (AT)

tr (A) = tr (T−1AT) per T non singolare (vedi oltre)


Minore

Si definisce minore di ordine p di una matrice Am×n il determinante Dp diuna sottomatrice quadrata ottenuta selezionando p righe e p colonnequalsiasi di Am×n

La definizione formale di determinante verra data tra pocoEsistono tanti minori quante sono le scelte possibili di p su m righe e p sun colonneSi definiscono minori principali di ordine k di una matrice Am×n ideterminanti Dk , con k = 1, · · · ,min{m,n}, ottenuti selezionando le primek righe e k colonne della matrice Am×n


Esempio

Sia data la matrice 3×3

A =

1 −3 57 2 4−1 3 2

Calcoliamo un generico minore D1, ad esempio quello ottenuto cancellandouna riga e una colonna, e – in particolare – la seconda riga e la terzacolonna. Quindi la matrice di cui dobbiamo calcolare i determinante risultala seguente

A23 =

[1 −3−1 3

]

da cui possiamo calcolare il determinante

D1 = det(A23) = 3×1− (−3×−1) = 0


Minore complementare - cofattore

Data la matrice A ∈ Rn×n, indichiamo con A(ij) ∈ R

(n−1)×(n−1) la matriceottenuta cancellando la i -esima riga e la j-esima colonna di A.Si definisce minore complementare Drc di un generico elemento arc di unamatrice quadrata An×n il determinante della matrice ottenuta cancellandola r -esima riga e la c-esima colonna, ossia detA(rc)

Drc = detA(rc).

Si definisce complemento algebrico o cofattore (in inglese cofactor) di unelemento arc di una matrice quadrata An×n il prodotto

Arc = (−1)r+cDrc


Determinante

Una volta definito il cofattore si puo finalmente definire il determinante diA

Fissata una qualsiasi riga i , si ha la definizione “per riga”:

det(A) =n

∑k=1

aik(−1)i+k det(A(ik)) =n

∑k=1

aikAik

oppure, fissata una qualsiasi colonna j , si ha la definizione “per colonna”:

det(A) =n

∑k=1

akj(−1)k+j det(A(kj)) =n

∑k=1

akjAkj

Poiche queste definizioni sono ricorsive e coinvolgono i determinanti diminori via via sempre piu piccoli, occorre definire il determinante dellamatrice 1×1, che vale semplicemente det(aij) = aij .


Proprieta del determinante

Il determinante ha le seguenti proprieta:

det(A ·B) = det(A)det(B)

det(AT) = det(A)

det(kA) = kn det(A)

se si effettua un numero s di scambi tra righe o tra colonne dellamatrice A ottenendo la matrice As , si ha det(As) = (−1)s det(A)

se la matrice A ha due righe o due colonne uguali o proporzionali, siha det(A) = 0

se la matrice A ha una riga o una colonna ottenibile da unacombinazione lineare di altre righe o colonne, si ha det(A) = 0

se la matrice A e triangolare superiore o inferiore, si hadet(A) = ∏n

i=1 aii

se la matrice A e triangolare a blocchi, con p blocchi Aii sulladiagonale, si ha det(A) = ∏p

i=1detAii


Matrice singolare e rango

Una matrice A si dice singolare se det(A) = 0.Si definisce rango (o caratteristica) della matrice Am×n il numeroρ(Am×n) definito come il massimo intero p per cui esiste almeno unminore Dp non nulloValgono le seguenti proprieta:

ρ(A) ≤ min{m,n}se ρ(A) = min{m,n}, la matrice A si dice a rango pieno

se ρ(A) < min{m,n}, la matrice non ha rango pieno e si dice checade di rango

ρ(A ·B) ≤ min{ρ(A),ρ(B)}ρ(A) = ρ(AT)

ρ(A ·AT) = ρ(AT ·A) = ρ(A)

se An×n e detA < n la matrice non ha rango pieno


Matrice invertibile

Data una matrice quadrata A ∈ Rn×n si dice invertibile o non singolare se

esiste la matrice inversa A−1n×n tale che

AA−1 = A−1A = In

La matrice e invertibile se e solo se ρ(A) = n, ossia e di rango pieno; cioequivale ad avere det(A) 6= 0.L’inversa si ottiene come:

A−1 =1

det(A)Adj(A)

Valgono le seguenti proprieta: (A−1)−1 = A; (AT)−1 = (A−1)T.La matrice inversa, quando esiste, permette risolvere l’equazione matricialeseguente

y = Ax

in funzione dell’incognita x, come

x = A−1y.


Matrice ortonormale

Si definisce matrice ortonormale la matrice quadrata per cui A−1 = AT.Per queste matrici vale quindi l’identita

ATA = AAT = I

Date due matrici quadrate di pari dimensioni A e B, vale la seguenteidentita

(AB)−1 = B−1A−1

Esiste un importante risultato, chiamato Lemma d’inversione, chestabilisce quanto segue: se A e C sono matrici quadrate invertibili e B e D

sono matrici di dimensioni opportune, allora

(A+BCD)−1 = A−1−A−1B(DA−1B+C−1)−1DA−1

La matrice (DA−1B+C−1) deve essere anch’essa invertibile. Il lemma diinversione e utile per calcolare l’inversa di una somma di matrici A1 +A2,quando A2 e decomponibile nel prodotto BCD, in cui la matrice C efacilmente invertibile, ad esempio diagonale o triangolare.


Derivata di matrice

Se la matrice quadrata A(t) e composta da elementi aij(t) tutti derivabilinel tempo t, allora la derivata della matrice vale

ddt

A(t) = A(t) =

[ddt

aij(t)

]

= [aij(t)]

Se la matrice quadrata A(t) ha rango ρ(A(t)) = n per ogni valore deltempo t, allora la derivata della sua inversa vale

ddt

A(t)−1 = −A−1(t)A(t)A(t)−1

Ricordiamo che, poiche l’inversione di matrice non e un operatore lineare,risulta in generale

[dA(t)

dt

]−1

6= ddt

[A(t)−1

]


Decomposizione in simmetrica e antisimmetrica

Data una matrice reale di dimensioni qualsiasi A ∈ Rm×n, risultano

simmetriche entrambe le matrici seguenti

ATA ∈ Rn×n

AAT ∈ Rm×m

Data una matrice quadrata A, e sempre possibile decomporla in unasomma di due matrici, come segue:

A = As +Aa

dove

As =1

2(A+AT) matrice simmetrica

Aa =1

2(A−AT) matrice antisimmetrica


Trasformazione di similarita

Trasformazioni di similarita

Data una matrice quadrata A ∈ Rn×n e una matrice quadrata non

singolare T ∈ Rn×n, la matrice B ∈ R

n×n ottenuta come

B = T−1AT oppure B = TAT−1

si dice similare ad A e la trasformazione T si dice di similarita.


Autovalori e autovettori

Se si trova una matrice U per cui la matrice A sia similare alla matricediagonale Λ = diag(λi)

A = UΛU−1

postmoltiplicando per U si puo scrivere

AU = UΛ

e se indichiamo con ui la i -esima colonna di U, ossia

U =[u1 u2 · · · un

]

avremoAui = λiui

Questa relazione e la ben nota formula che lega autovalori e autovettori;quindi possiamo dire che le costanti λi sono gli autovalori di A e i vettoriui sono gli autovettori di A, in generale non normalizzati.


Autovalori e autovettori

Data una matrice quadrata An×n, si chiamano autovalori della matrice (ininglese eigenvalues) le soluzioni λi (reali o complesse) dell’equazionecaratteristica

det(λ I−A) = 0

det(λ I−A) e un polinomio in λ , detto polinomio caratteristico.Se gli autovalori sono tutti distinti, si chiamano autovettori (in ingleseeigenvectors) i vettori ui che soddisfano l’identita

Aui = λiui


Autovettori generalizzati

Se gli autovalori non sono tutti distinti, si ottengono autovettorigeneralizzati, la cui determinazione va oltre gli scopi di questi appunti.Da un punto di vista geometrico, gli autovettori rappresentano quelleparticolari “direzioni” nello spazio R

n (dominio della trasformazione linearerappresentata da A), che si trasformano in se stesse; sono quindi ledirezioni invarianti rispetto alla trasformazione A, mentre gli autovaloriforniscono le rispettive costanti di “scalamento” lungo queste direzioni.L’insieme degli autovalori di una matrice A sara indicato con Λ(A) oppurecon {λi (A)}; l’insieme degli autovettori di A sara indicato con {ui(A)}. Ingenerale, poiche gli autovettori sono rappresentazioni di direzioni invariantirispetto alla trasformazione data, essi sono definiti a meno di unacostante, ossia possono o meno essere normalizzati; tuttavia e convenzionetacita che essi abbiano norma unitaria, salvo quando altrimenti dichiarato.


Autovalori

Proprieta degli autovaloriData una matrice A e i suoi autovalori {λi (A)}, vale

{λi (A+ cI)} = {(λi (A)+ c)}

Data una matrice A e i suoi autovalori {λi (A)}, vale

{λi (cA)} = {(cλi (A)}

Data una matrice triangolare (superiore o inferiore)

a11 a12 · · · a1n

0 a22 · · · a2n...

.... . .

...0 0 · · · ann

,

a11 0 · · · 0a21 a22 · · · 0...

.... . .

...an1 an2 · · · ann

i suoi autovalori sono gli elementi sulla diagonale {λi (A)} = {aii}; lostesso vale per una matrice diagonale.


Invarianza degli autovalori

Data una matrice An×n e i suoi autovalori {λi (A)}, vale

det(A) =n

∏i=1

λi

e

tr (A) =n

∑i=1

λi

Data una qualunque trasformazione invertibile, rappresentata dalla matriceT, gli autovalori di A sono invarianti alle trasformazioni di similarita

B = T−1AT

ossia{λi(B)} = {λi (A)}


Matrice modale

Se costruiamo una matrice M ordinando per colonne gli autovettorinormalizzati ui(A)

M =[u1 · · · un

]

allora la trasformazione di similarita rispetto a M fornisce una matricediagonale

Λ =

λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λn

= M−1AM

La matrice M prende il nome di matrice modale.Se la matrice A e simmetrica, i suoi autovalori sono tutti reali e si hal’identita

Λ = MTAM

In questo caso la matrice M e ortonormale.


Decomposizione ai valori singolari

Data una matrice A ∈ Rm×n qualsiasi, di rango r = ρ(A) ≤ s con

s = min{m,n}, essa si puo fattorizzare secondo la

Decomposizione ai Valori Singolari(Singular value decomposition)

nel modo seguente:

A = UΣVT =s

∑i=1

σiuivTi (1)

elementi caratterizzanti della decomposizione sono:

σi

ui

vi

come vedremo ora



σi(A) ≥ 0 sono detti valori singolari e coincidono con le radiciquadrate non negative degli autovalori della matrice simmetrica ATA:

{σi(A)} = {√

λi(ATA)} σi ≥ 0

ordinati in ordine decrescente

σ1 ≥ σ2 ≥ ·· · ≥ σs ≥ 0

se r < s vi sono r valori singolari positivi; i restanti sono nulli

σ1 ≥ σ2 ≥ ·· · ≥ σr > 0; σr+1 = · · · = σs = 0

U e una matrice (m×m) ortonormale

U =[u1 u2 · · · um

]

contenente per colonne gli autovettori ui della matrice AAT



V e una matrice (n×n) ortonormale

V =[v1 v2 · · · vn

]

contenente per colonne gli autovettori vi della matrice ATA

Σ e una matrice (m×n) con la seguente struttura

se m < n Σ =[Σs O

]

se m = n Σ = Σs

se m > n Σ =

[Σs

O

]

.

La matrice Σs = diag(σi ) e diagonale di dimensioni s × s e contienesulla diagonale i valori singolari:



Alternativamente, possiamo decomporre la matrice A nel modo seguente,che e del tutto analogo a quello descritto in (1), ma mette in evidenza isoli valori singolari positivi:

A =[P P

]

︸︷︷︸

U

[Σr O

O O

]

︸︷︷︸

Σ

[

QT

QT

]

︸︷︷︸

VT

= PΣrQT (2)

dove

P e una matrice ortonormale m× r , P e una matrice ortonormalem× (m− r);

Q e una matrice ortonormale n× r , QT

e una matrice ortonormalen× (n− r);

Σr e una matrice diagonale r × r che contiene sulla diagonale i valorisingolari positivi σi , i = 1, · · · , r .


Decomposizione ai valori singolari e rango

Il rango r della matrice A e pari al numero r ≤ s di valori singolari nonnulli.Data una matrice A ∈ R

m×n qualsiasi, le due matrici ATA e AAT sonosimmetriche, hanno gli stessi valori singolari positivi e differiscono soltantoper il numero di valori singolari nulli.


Matrici come rappresentazione di operatori lineari

Dati due spazi vettoriali X ⊆ Rn e Y ⊆ R

m, aventi rispettivamentedimensioni n e m, e dati due generici vettori x ∈ X e y ∈ Y , la piugenerica trasformazione lineare tra gli spazi si puo rappresentare attraversol’operatore matriciale A ∈ R

m×n, come segue:

y = Ax; x ∈ Rn; y ∈ R

m.

Quindi una matrice puo essere sempre interpretata come un operatore cheprende un vettore dello spazio di “partenza” X e lo trasforma in unvettore dello spazio di “arrivo” Y .Percio qualunque trasformazione lineare ha (almeno) una matrice che larappresenta e, di converso, qualunque matrice e la rappresentazione di unaqualche trasformazione lineare.


Spazio immagine e spazio nullo

Si definisce spazio immagine (in inglese range) della trasformazione A ilsottospazio di Y definito dalla seguente proprieta:

R(A) = {y | y = Ax, x ∈ X }; R(A) ⊆ Y

Si definisce spazio nullo (in inglese kernel o null-space) dellatrasformazione A il sottospazio di X definito dalla seguente proprieta:

N (A) = {x | 0 = Ax, x ∈ X }; N (A) ⊆ X

Lo spazio nullo rappresenta percio tutti quei vettori di X che vengonotrasformati nel vettore nullo (l’origine) di Y .Le dimensioni dello spazio immagine e dello spazio nullo si chiamano,rispettivamente, rango ρ(A) (che abbiamo gia definito precedentemente enullita ν(A):

ρ(A) = dim(R(A)); ν(A) = dim(N (A)).


Relazioni tra spazio immagine e spazio nullo

Se X e Y hanno dimensioni finite, e questo e il nostro caso in quantoX ⊆ R

n e Y ⊂ Rm, allora valgono le seguenti relazioni:

N (A) = R(AT)⊥

R(A) = N (AT)⊥

N (A)⊥ = R(AT)

R(A)⊥ = N (AT)

dove il simbolo ⊥ indica il complemento ortogonale al (sotto-)spaziocorrispondente. Ricordiamo che {0}⊥ = R.Vale anche la seguente decomposizione ortogonale degli spazi X e Y

X = N (A)⊕N (A)⊥ = N (A)⊕R(AT)

Y = R(A)⊕R(A)⊥ = R(A)⊕N (AT)

dove il simbolo ⊕ indica la somma diretta tra due sottospazi.


Inversa generalizzata

Data una matrice reale qualsiasi A ∈ Rm×n, con m 6= n, la matrice inversa

non risulta definita. Tuttavia, e possibile definire una classe di matrici,dette pseudo-inverse, inverse generalizzate o 1-inverse A−, che soddisfanola seguente relazione:

AA−A = A

Se la matrice A ha rango pieno, ossia ρ(A) = min{m,n}, e possibiledefinire due classi di matrici inverse generalizzate particolari

se m < n (ossia ρ(A) = m), l’inversa destra di A e quella matriceAd ∈ R

n×m per cuiAAd = Im×m

se n < m (ossia ρ(A) = n), l’inversa sinistra di A e quella matriceAs ∈ R

n×m per cuiAsA = In×n


Matrici pseudo-inverse

Tra le molte inverse destre e sinistre concepibili, due sono particolarmenteimportanti:

pseudo-inversa destra (m < n):

A+d = AT(AAT)−1

rappresenta una particolare inversa destra. Si puo dimostrare chequando ρ(A) = m allora (AAT)−1 esiste.

pseudo-inversa sinistra (n < m):

A+s = (ATA)−1AT

rappresenta una particolare inversa sinistra.


Pseudo-inversa di Moore-Penrose

Si puo dimostrare che quando ρ(A) = n allora (ATA)−1 esiste.Questa particolare pseudo-inversa sinistra

(ATA)−1AT

prende anche il nome di pseudo-inversa di Moore-Penrose.In generale, anche se ATA non e invertibile, si puo sempre definire unapseudo-inversa di Moore-Penrose A+ che soddisfa le seguenti relazioni:

AA+A = A

A+AA+ = A+

(AA+)T = AA+

(A+A)T = A+A

(3)


Pseudo-inversa destra e sinistra

Le due pseudo-inverse A+d

e A+s coincidono con la matrice inversa

tradizionale A−1 quando A e quadrata e ha rango pieno:

A−1 = A+d

= A+s = A+

La trasformazione lineare associata alla matrice A ∈ Rm×n

y = Ax, (4)

con x ∈ Rn e y ∈ R

m, e equivalente ad un sistema di m equazioni lineari inn incognite, i cui coefficienti sono dati dagli elementi di A; questo sistemalineare puo non ammettere soluzioni, ammetterne una sola o ammetterneun numero infinito.Se vogliamo utilizzare le pseudo-inverse per risolvere il sistema lineare in(4), dobbiamo distinguere due casi, sempre nell’ipotesi che il rango di A

sia pieno:


Soluzione di sistemi lineari - 1

Caso m < n: abbiamo piu incognite che equazioni; tra le infinite soluzionipossibili x ∈ R

n, scegliamo quella che ha norma ‖x‖ minima, individuata da

x = A+d y = AT(AAT)−1y

Tutte le altre possibili soluzioni di y = Ax si ottengono come

x = x+v = A+d y+v

dove v ∈ N (A) e un vettore appartenente allo spazio nullo di A, che hadimensioni n−m. Queste possibili soluzioni si possono anche esprimere inuna forma alternativa

x = A+d y+(I−A+

d A)w (5)

dove w ∈ Rn e un vettore n×1 qualsiasi. La matrice I−A+

d A proietta w

nello spazio nullo di A, trasformando w in v ∈ N (A); essa prende il nomedi matrice di proiezione.



caso n < m: abbiamo piu equazioni che incognite; allora non esistonosoluzioni esatte alla y = Ax, ma solo soluzioni approssimate, con un erroree = y−Ax 6= 0. Tra queste possibili soluzioni approssimate si sceglieconvenzionalmente quella che minimizza la norma dell’errore, ossia

x = arg minx∈Rn

‖y−Ax‖

La soluzione risulta essere

x = A+s y = (ATA)−1ATy

e geometricamente consiste nella proiezione ortogonale di y sulcomplemento ortogonale di N (A), ovvero sul sottospazioN (A)⊥ = R(AT).L’errore di approssimazione, detto anche errore di proiezione, vale

e = (I−AA+s )y (6)

e la sua norma e minima, come detto sopra.Basilio Bona (DAUIN-Politecnico di Torino) Matrici 2007 – 2008 46 / 70


La somiglianza tra la matrice di proiezione I−A+d A in (5) e la matrice che

fornisce l’errore di proiezione I−AA+s in (6) non e casuale e verra

approfondita quando tratteremo le matrici di proiezione.Per calcolare le inverse generalizzate, si puo utilizzare la decomposizione aivalori singolari che abbiamo introdotto sopra.In particolare, ricordando la (2), la pseudo-inversa vale

A+ = V

[Σ−1

r O

O O

]

UT = QΣ−1r PT.


Proiezioni e matrici di proiezione

Il concetto geometrico di proiezione di un segmento su un piano puovenire esteso e generalizzato agli elementi di uno spazio vettoriale. Taleconcetto e utile a risolvere un gran numero di problemi, tra cui i problemidi approssimazione, di stima, di predizione e di filtraggio di segnali.Dato uno spazio vettoriale reale V(Rn) di dimensioni n, dotato di prodottoscalare, ed un suo sottospazio W(Rk) di dimensioni k ≤ n, e possibiledefinire l’operatore proiezione dei vettori v ∈ V sul sottospazio W.L’operatore proiezione e definito dalla matrice quadrata di proiezioneP ∈ R

n×n, le cui colonne sono le proiezioni degli elementi della base di V

in W. Una matrice e di proiezione se e solo se P2 = P ossia se essa eidempotente.La proiezione puo essere ortogonale, oppure non ortogonale; nel primocaso la matrice P e simmetrica, nel secondo caso no. Se P e una matricedi proiezione, anche I−P lo e.


Matrici di proiezione

Classici esempi di matrici di proiezione ortogonale sono le matrici associatealla pseudo-inversa sinistra

P1 = AA+s e P2 = I−AA+

s

e alla pseudo-inversa destra

P3 = A+dA e P4 = I−A+

dA

(vedi le slide sulle inverse generalizzate).Dal punto di vista geometrico, P1 proietta ogni vettore v ∈ V nel spazioimmagine R(A), mentre P2 proietta v nel suo complemento ortogonaleR(A)⊥ = N (AT).


Norma di matrice - 1

Analogamente a quanto avviene per un vettore, e possibile fornire una“misura” della matrice ossia indicarne la “grandezza”, definendo la normadella matrice.Poiche una matrice rappresenta una trasformazione lineare tra vettori, lanorma misura quando grande sia questa trasformazione, ma deve inqualche modo “normalizzare” il risultato perche questo non sia influenzatodalla “grandezza” del vettore che viene trasformato; cio viene fattodefinendo la norma nel modo seguente:

‖A‖ := sup‖x‖

‖Ax‖‖x‖ = sup

‖x‖=1‖Ax‖ .


Norma di matrice - 2

Data una matrice quadrata A ∈ Rn×n, la sua norma deve soddisfare i

seguenti assiomi generali (detti assiomi della norma):

1 ‖A‖ > 0 per ogni A 6= O, ‖A‖ = 0 se e solo se A = O;

2 ‖A+B‖ ≤ ‖A‖+‖B‖ (diseguaglianza triangolare);

3 ‖αA‖ = |α |‖A‖ per ogni scalare α e ogni A;

4 ‖AB‖ ≤ ‖A‖‖B‖.Data A ∈ R

n×n e i suoi autovalori {λi (A)}, vale la seguente diseguaglianza

1∥∥A−1

∥∥≤ |λi | ≤ ‖A‖ ∀i = 1, . . . ,n


Norme di matrice - 1

Elenchiamo le norme di matrice piu comunemente adottate, considerandosolo matrici reali.

Norma spettrale:

‖A‖2 =

√

maxi

{λi (ATA)}

Norma di Frobenius:

‖A‖F =√

∑i

∑j

a2ij =

√

trATA

Massimo valore singolare:

‖A‖σ =√

maxi

{σi (A)}


Norme di matrice - 2

Norma 1 o max-norma:

‖A‖1 = maxj

n

∑i=1

|aij |

Norma ∞:

‖A‖∞ = maxi

n

∑j=1

|aij |

In generale ‖A‖2 = ‖A‖σ e ‖A‖22 ≤ ‖A‖1 ‖A‖∞


Matrici antisimmetriche - 1

Le matrici antisimmetriche sono utili nello studio della cinematica delcorpo rigido, oltre che per definire il prodotto esterno in uno spaziotridimensionale, come abbiamo visto precedentemente.Una matrice S si dice antisimmetrica quando soddisfa la seguenteproprieta:

S+ST = O ossia S = −ST (7)

Una matrice antisimmetrica ha percio sulla diagonale principale elementitutti nulli, mentre gli elementi fuori dalla diagonale soddisfano la relazionesij = −sji , come nel seguente esempio di matrice 4×4

S =

0 1 −3 −1−1 0 4 53 −4 0 −81 −5 8 0

Ne segue che una matrice antisimmetrica e definita da solin(n−1)

2elementi.



Per n = 3 risultan(n−1)

2= 3, per cui la matrice antisimmetrica ha tanti

elementi indipendenti quante sono le componenti di un generico vettoretridimensionale v; la matrice viene allora ad essere in relazione biunivocacon un vettore ed e indicata come S(v).Nel seguito studieremo le proprieta delle matrici antisimmetriche pern = 3, in quanto sono di fondamentale importanza per definire lacinematica delle rotazioni di corpi rigidi in spazi tridimensionali.

Se v =[v1 v2 v3

]Te un vettore qualsiasi, possiamo definire S(v) come

l’operatore che trasforma v in una matrice antisimmetrica:

S(v) =

0 −v3 v2

v3 0 −v1

−v2 v1 0

(8)

e viceversa, data una matrice antisimmetrica qualsiasi, e sempre possibileestrarre da essa un vettore v.



La matrice S(v) si indica semplicemente con S quando non si vuoleevidenziare la dipendenza dal vettore v. La proprieta di antisimmetriacomporta la seguente identita:

ST(v) = −S(v) = S(−v) (9)

Le matrici antisimmetriche soddisfano la proprieta di linearita; dati duescalari λi ∈ R, vale la proprieta

S(λ1u+ λ2v) = λ1S(u)+ λ2S(v) (10)

Inoltre, dati due vettori qualsiasi v e u, si ha la seguente importanteproprieta:

S(u)v = u×v = −v×u = S(−v)u = ST(v)u (11)

e quindi S(u) puo essere interpretata come l’operatore (u×) e viceversa.



Da questa proprieta e dalla anti-commutativita del prodotto esterno segueche

S(u)v = ST(v)u (12)

Infatti

S(u)v = u×v = −v×u = S(−v)u = −S(v)u = ST(v)u

E semplice verificare che la matrice S(u)S(u) = S2(u) e simmetrica everifica la relazione

S2(u) = uuT−‖u‖2I (13)


Autovalori e autovettori di matrici antisimmetriche

Data la matrice antisimmetrica S(v) i suoi autovalori sono immaginari onulli:

λ1 = 0, λ2,3 = ±j‖v‖L’autovettore relativo all’autovalore λ1 = 0 vale v; gli altri due sonocomplessi coniugati.L’insieme delle matrici antisimmetriche forma uno spazio vettoriale.Inoltre, date due matrici antisimmetriche S1 e S2, si definiscecommutatore l’operatore seguente

[S1,S2] := S1S2 −S2S1

che risulta anch’esso antisimmetrico


Matrici ortogonali

Viene chiamata ortogonale una generica matrice quadrata U ∈ Rn per cui

vale la seguente proprieta

UTU =

α1 0 · · · 00 α2 · · · 0...

.... . .

...0 0 · · · αn

con αii 6= 0.


Matrici ortonormali - 1

Una generica matrice quadrata U ∈ Rn e detta invece ortonormale quando

le costanti αii sono tutte unitarie. In questo caso valgono le seguentiproprieta:

l’inversa di U coincide con la trasposta

UUT = UTU = I (14)

ovveroU−1 = UT (15)

Le colonne di U sono tra loro ortogonali e a norma unitaria, comepure le righe.

‖U‖ = 1;

Il determinante di U ha modulo unitario:

|det(U)| = 1 (16)

percio esso puo valere +1 oppure −1.



Il prodotto scalare e invariante a trasformazioni ortonormali, ossia

(Ux) · (Uy) = (Ux)T(Uy) = xTUTUy = xTIy = xTy = x ·y (17)

Se U e una matrice ortonormale,1 di dimensioni opportune, allora‖AU‖ = ‖UA‖ = ‖A‖.Limitandoci al caso di matrici U3×3, solo 3 dei 9 elementi checompongono la matrice sono indipendenti, in quanto le condizioni diortonormalita tra le righe o tra le colonne definiscono 6 vincoli.

1La regola vale anche nel caso piu generale in cui U sia una matrice unitaria, definita

da U∗U = I.Basilio Bona (DAUIN-Politecnico di Torino) Matrici 2007 – 2008 61 / 70


Le matrici ortonormali U3×3 sono la rappresentazione di una particolareclasse di trasformazioni geometriche applicabili a corpi rigidi nello spazioEuclideo; infatti la relazione (17) assicura che il prodotto scalare tra duegenerici vettori si conservi anche tra i rispettivi vettori trasformati.Tuttavia occorre distinguere tra le trasformazioni per cui detU = +1, daquelle per cui detU = −1.Quando det(U) = +1, la matrice U rappresenta una rotazione propria,fisicamente ammissibile e realizzabile, mentre quando det(U) = −1, U

rappresenta una roto-riflessione ovvero una rotazione impropria, che non efisicamente realizzabile su corpi rigidi.Inoltre esiste un’importante differenza tra le rotazioni e le roto-riflessioni:le prime formano un gruppo commutativo continuo; intuitivamente questoequivale a dire che esiste una rotazione infinitesima. Le seconde invecenon formano un gruppo continuo; le riflessioni non possiedono la “qualita”di poter essere infinitesime.



Se U e una matrice ortonormale, vale la proprieta distributiva2 rispetto alprodotto esterno:

U(x×y) = (Ux)× (Uy) (18)

Per ogni matrice di rotazione propria U e ogni vettore x si dimostra che

US(x)UTy = U(

x× (UTy))

= (Ux)× (UUTy)

= (Ux)×y = S(Ux)y(19)

dove S(x) e la matrice antisimmetrica associata a x; si ricavano pertantole relazioni seguenti:

US(x)UT = S(Ux)US(x) = S(Ux)U

(20)

che saranno utilizzate nello studio delle matrici d’inerzia.

2 Questa proprieta non e generalmente vera, salvo appunto quando U e ortonormale.Basilio Bona (DAUIN-Politecnico di Torino) Matrici 2007 – 2008 63 / 70

Forme bilineari e forme quadratiche

Si definisce forma bilineare associata alla matrice A ∈ Rm×n la variabile

scalareb(x,y) := xTAy = yTATx

Si definisce forma quadratica associata alla matrice quadrata A ∈ Rn×n la

variabile scalareq(x) := xTAx = xTATx

Qualsiasi forma quadratica associata ad una matrice antisimmetrica S(y) eidenticamente nulla, ossia

xTS(y)x ≡ 0 ∀x (21)

La dimostrazione di questa proprieta e semplice: definendow = S(y)x = y×x, avremo xTS(y)x = xTw, ma essendo per definizione w

ortogonale sia a y sia a x, il prodotto scalare xTw sara sempre nullo, equindi pure la forma quadratica al primo termine della (21).


Matrici definite positive - 1

Ricordando la decomposizione di una generica matrice A in una partesimmetrica As e in una antisimmetrica Aa, si conclude che la formaquadratica dipende solo dalla parte simmetrica della matrice:

q(x) = xTAx = xT(As +Aa)x = xTAsx

Una matrice quadrata A si dice definita positiva se la forma quadraticaassociata xTAx soddisfa le condizioni

xTAx > 0 ∀x 6= 0

xTAx = 0 x = 0

Una matrice quadrata A si dice semidefinita positiva se la formaquadratica associata xTAx soddisfa la condizione

xTAx≥ 0 ∀x

Una matrice quadrata A si dice definita negativa se −A e definita positiva;analogamente una matrice quadrata A si dice semidefinita negativa se −A

e semidefinita positiva.Basilio Bona (DAUIN-Politecnico di Torino) Matrici 2007 – 2008 65 / 70

Matrici definite positive - 2

Spesso, per indicare queste matrici si usano le notazioni seguenti:

matrice definita positiva: A ≻ 0matrice semidefinita positiva: A � 0matrice definita negativa: A ≺ 0matrice semidefinita negativa: A � 0

Condizione necessaria, ma non sufficiente, affinche una matrice quadrataA sia definita positiva e che gli elementi sulla diagonale siano strettamentepositivi.Condizione necessaria e sufficiente affinche una matrice quadrata A siadefinita positiva e che tutti gli autovalori siano strettamente positivi.


Criterio di Sylvester

Il criterio di Sylvester afferma che condizione necessaria e sufficienteaffinche la matrice quadrata A sia definita positiva e che tutti i suoi minoriprincipali siano strettamente positivi.Una matrice definita positiva ha rango pieno ed e sempre invertibile.Inoltre la forma quadratica xTAx soddisfa la relazione seguente

λmin(A)‖x‖2 ≤ xTAx≤ λmax(A)‖x‖2

dove λmin(A) e λmax(A) sono, rispettivamente, l’autovalore minimo emassimo di A.


Matrice semidefinita e rango

Una matrice An×n semidefinita positiva ha rango ρ(A) = r < n, ovveropossiede r autovalori strettamente positivi e n− r autovalori nulli.La forma quadratica si annulla per ogni x ∈ N (A).Data una matrice reale di dimensioni qualsiasi Am×n, abbiamo visto chesia ATA, sia AAT sono simmetriche; inoltre sappiamo cheρ(ATA) = ρ(AAT) = ρ(A).Si puo dimostrare che esse hanno sempre autovalori reali non negativi, equindi sono definite o semi-definite positive: in particolare, se la matriceAm×n ha rango pieno,

se m < n, ATA � 0 e AAT ≻ 0,

se m = n, ATA ≻ 0 e AAT ≻ 0,

se m > n, ATA ≻ 0 e AAT � 0.


Gradiente

Data la forma bilineare b(x,y) = xTAy, si definiscono gradienti le seguentiespressioni:

gradiente rispetto a x: gradxb(x,y) :=

(∂b(x,y)

∂x

)T

= Ay

gradiente rispetto a y: gradyb(x,y) :=

(∂b(x,y)

∂y

)T

= ATx

Data la forma quadratica q(x) = xTAx, si definisce gradiente rispetto a x

la seguente espressione:

gradxq(x) :=

(∂q(x)

∂x

)T

= 2Ax.


Derivata di matrice

Se la matrice A ha elementi funzione di una variabile x , si puo definire laderivata di matrice rispetto a x

ddx

A(x) =

[daij

dx

]

Se la variabile x e il tempo t, si scrive

ddt

A(t) ≡ A(t) =

[

daij(t)

dt

]

≡[aij

]

Se la matrice A e funzione del tempo attraverso la variabile x(t), allora

ddt

A(x(t)) ≡ A(x(t)) =

[

∂aij(x)

∂x

dx(t)

dt

]

≡[

∂aij(x)

∂x

]

x(t)


matrici - ladispe.polito.it · matrici basilio bona dauin-politecnico di torino 2007 – 2008...

Documents