análise semi-local do método de gauss-newton sob uma ...§ão_-_ademir_alv… · informações...
TRANSCRIPT
UNIVERSIDADE FEDERAL DE GOIÁS
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
ADEMIR ALVES AGUIAR
Análise Semi-Local do Método deGauss-Newton Sob uma Condição
Majorante
Goiânia2014
ADEMIR ALVES AGUIAR
Análise Semi-Local do Método deGauss-Newton Sob uma Condição
Majorante
Dissertação apresentada ao Programa de Pós–Graduaçãodo Instituto de Matemática e Estatística da UniversidadeFederal de Goiás, como requisito parcial para obtenção dotítulo de Mestre em Matemática.
Área de concentração: Otimização.
Orientador: Prof. Dr. Max Leandro Nobre Gonçalves
Goiânia2014
Ficha catalográfica elaboradaautomaticamente com os dados fornecidos pelo(a) autor(a).
Alves Aguiar, Ademir Análise Semi-Local do Método de Gauss-Newton Sob umaCondição Majorante [manuscrito] / Ademir Alves Aguiar. - 2014. 56 f.
Orientador: Prof. Dr. Max Leandro Nobre Gonçalves .Dissertação (Mestrado) - Universidade Federal de Goiás, Instituto deMatemática e Estatística (IME) , Programa de Pós-Graduação emMatemática, Goiânia, 2014. Bibliografia.
1. Método de Gauss-Newton. 2. Condição Majorante. 3. Sistemas deEquações não-linear. 4. Convergência Semi-Local. I. , Dr. Max LeandroNobre Gonçalves, orient. II. Título.
Todos os direitos reservados. É proibida a reprodução total ou parcial dotrabalho sem autorização da universidade, do autor e do orientador(a).
Ademir Alves Aguiar
Graduou-se em Licenciatura em Matemática pela UVA - Universidade Esta-dual Vale do Acaráu. Durante o Mestrado foi bolsista da CAPES.
À minha querida esposa Gislene,
pelo carinho e apoio.
Agradecimentos
À Deus, por me amar e dar a oportunidade e capacidade de ver um sonho sendo
realizado, pois sem Deus não seria possível a conclusão deste projeto. Acima de tudo,
louvado e exaltado seja seu nome, a Ele toda honra e toda glória.
À minha esposa Gislene, já dedicado este trabalho, mas que merece todo agra-
decimento por seu amor, amizade, afeto, carinho, paciência e compreensão. Sua ajuda e
apoio foram determinantes para realização desta conquista.
À minha mãe Jaci, pelo amor, carinho, apoio, orientação em me fazer persistir
sempre, sem suas palavras de esforço seria impossível terminar esta dissertação.
À meu padrasto Gilberto, pelo incentivo e apoio.
À meu pai Isaias (em memória).
Aos amigos da pós-graduação, em especial Jefferson dos Santos, Marcos Tsujii,
Aderval Alves, Carlos Antônio, Pedro Bonfim, Fernando Zuniga, Vando Adona, pelo con-
vívio e amizade, além de me ajudarem nos momentos de dificuldades, sempre lembrarei
de vocês.
Ao meu orientador, professor Dr. Max Leandro Nobre Gonçalves, pela orienta-
ção, confiança, competência, paciência, amizade, motivação e dedicação que foram indis-
pensáveis para concretização deste trabalho.
Aos professores do Instituto de Matemática e Estatística da UFG, que passaram
pela minha trajetória durante o Mestrado em Matemática, em especial aos professores
Glaydston, Maurício Pieterzack, Durval e José Valdo.
À CAPES pela bolsa de estudos concedida, sem a qual seria difícil a concretiza-
ção dos estudos.
Resumo
Aguiar, Ademir Alves. Análise Semi-Local do Método de Gauss-NewtonSob uma Condição Majorante. Goiânia, 2014. 56p. Dissertação de Mestrado.Instituto de Matemática e Estatística, Universidade Federal de Goiás.
Nesta dissertação apresentamos uma análise de convergência semi-local do método de
Gauss-Newton para resolver uma classe especial de sistemas de equações não-lineares,
sob a hipótese que a derivada do operador não-linear satisfaz uma condição majorante. As
demonstrações e condições de convergência apresentadas neste trabalho são simplificadas
pelo uso de uma simples condição majorante. Outra ferramenta de demonstração que
simplifica o nosso estudo é a identificação de regiões onde a iteração de Gauss-Newton
está “bem-definida”. Além disso, casos especiais da teoria geral são apresentados como
aplicações.
Palavras–chave
<Método de Gauss-Newton, Condição Majorante, Sistemas de equações não-
linear, Convergência Semi-local.>
Abstract
Aguiar, Ademir Alves. <Semi-local Analysis of the Gauss- Newton undera majorant condition>. Goiânia, 2014. 56p. MSc. Dissertation. Instituto deMatemática e Estatística, Universidade Federal de Goiás.
In this dissertation we present a semi-local convergence analysis for the Gauss-Newton
method to solve a special class of systems of non-linear equations, under the hypothesis
that the derivative of the non-linear operator satisfies a majorant condition. The proofs
and conditions of convergence presented in this work are simplified by using a simple
majorant condition. Another tool of demonstration that simplifies our study is to identify
regions where the iteration of Gauss-Newton is “well-defined”. Moreover, special cases
of the general theory are presented as applications.
Keywords
<Gauss-Newton Method, Majorant Condition, Non-Linear systems of equations,
Semi-local Convergence.>
Sumário
1 Introdução 9
2 Notações e Resultados Preliminares 122.1 Noções Topológicas e Análise no Espaço Euclidiano 122.2 Noções sobre Transformações Lineares e Matrizes 14
2.2.1 Norma de Matrizes 152.2.2 Pseudo-Inversa de Moore-Penrose 18
2.3 Noções de Análise Convexa 232.4 Funções Analíticas 27
3 Análise Semi-Local para o Método de Gauss-Newton 283.1 Convergência do Método de Gauss-Newton 28
3.1.1 A função auxiliar e a sequência tλ,k 303.1.2 Convergência 34
4 Aplicações 404.1 Resultado de Convergência quando F ′(x0) é sobrejetivo 404.2 Resultado de Convergência sob Condição Lipschitz 434.3 Resultado de Convergência sob Condição Smale 454.4 Exemplos Numéricos 49
5 Considerações Finais 53
Referências Bibliográficas 54
CAPÍTULO 1Introdução
Considere o sistema de equações não-lineares
F(x) = 0, (1-1)
onde Ω⊂Rn é um conjunto aberto e F : Ω→R
m é uma função continuamente diferenciá-
vel em Ω. Se F ′(x) é invertível, o método de Newton e suas variações são os métodos mais
eficientes conhecidos para resolver (1-1), veja por exemplo [7, 11, 12, 33]. Entretanto, se
F ′(x) não é necessariamente invertível, uma generalização do método de Newton, deno-
minado método de Gauss-Newton, encontra soluções de mínimos quadrados de (1-1), os
quais podem ou não ser soluções de (1-1). Estas soluções de mínimos quadrados de (1-1)
estão relacionadas ao problema de mínimos quadrados não-linear:
minx∈Ω
‖F(x)‖2, (1-2)
i.e., tais soluções são pontos críticos da função G(x) = ‖F(x)‖2. Em todo trabalho, a
menos que seja mencionado o contrário explicitamente, ‖.‖ refere-se a norma-2.
Existem diversas aplicações prática para o problema de mínimos quadrados não-
linear, veja por exemplo [13, 28, 31]. Tais aplicações têm como estratégia a estimação
de parâmetros num modelo matemático. Estes problemas de estimação de parâmetros
surge numa grande variedade de disciplinas científicas, tais como o processamento de
sinais, engenharia em geral, estatística, física, economia, biologia, medicina, entre outras,
usando uma função da forma (1-2) para medir a disparidade entre as saídas do modelo e
o conjunto de dados.
Quando F ′(x) é sobrejetivo, pode ser provado que toda solução de mínimos
quadrados de (1-1) é uma solução do respectivo sistema. Formalmente o método de
Gauss-Newton é descrito como: dado um ponto inicial x0 ∈ Ω, defina
xk+1 = xk −F ′(xk)†F(xk), k = 0,1, . . . , (1-3)
onde F ′(xk)† denota a inversa de Moore-Penrose do operador linear F ′(xk). Para mais
10
informações sobre o método de Gauss-Newton e o problema de mínimos quadrados não-
linear, veja por exemplo [1, 3, 5, 22, 28].
Em nossa análise, iremos considerar a classe especial de sistemas de equações
não-lineares estudadas em [16, 18, 19, 23], i.e., sistemas de equações não-lineares onde a
função F em consideração satisfaz
‖F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)‖ ≤ κ‖x− y‖, ∀x,y ∈ Ω (1-4)
para algum 0 ≤ κ < 1 e IRm denota o operador identidade do Rm. Quando F ′(x) é
sobrejetivo, pode ser provado que κ = 0 satisfaz (1-4). Daí, a classe de sistemas de
equações não-lineares, a qual estudaremos, contém os sistemas de equações não-lineares
com derivada sobrejetiva. Além disso, esta classe contém outros exemplos de sistemas
com derivada não sobrejetivas, ver seção 4.4.
Nos últimos anos, vários trabalhos, veja por exemplo [7, 8, 9, 10, 11, 12, 15,
16, 18, 23], relacionados com a convergência do método de Newton e Gauss-Newton
relaxam a hipótese de continuidade Lipschitz de F ′. As principais condições que relaxam
a continuidade Lipschitz de F ′ são a condição majorante para o operador não-linear F ,
que usaremos nesta dissertação, e a condição de Wang, usada por exemplo em [23, 33].
Vale ressaltar, que a condição majorante usada neste trabalho é a seguinte: seja R > 0,
uma função continuamente diferenciável f : [0,R)→ R, é uma função majorante para o
operador F se satisfaz as seguintes hipóteses
‖F ′(x0)†‖‖F ′(y)−F ′(x)‖ ≤ f ′(‖y− x‖+‖x− x0‖)− f ′(‖x− x0‖),
para quaisquer x,y ∈ Ω,‖x− x0‖+‖y− x‖< R, e além disso,
(h1) f (0) = 0, f ′(0) =−1;
(h2) f ′ é convexa e estritamente crescente.
Para mais informações sobre a função majorante, veja por exemplo [7, 8, 9, 10, 11, 12,
15, 16]. Pode ser provado que sob as hipóteses deste trabalho, as duas condições, i.e., a
condição majorante e a condição de Wang são equivalentes, ver comentário 4 de [15].
Entretanto, a adotada em nossa análise tem a vantagem de deixar clara sua relação com o
operador não-linear.
O presente trabalho tem por objetivo apresentar uma análise de convergência
semi-local do método de Gauss-Newton para resolver (1-1), onde F satisfaz (1-4), sob
uma condição majorante. As demonstrações e condições de convergência apresentadas
neste trabalho são simplicadas pelo uso de uma simples condição majorante. Outra ferra-
menta de demonstração que simplifica o nosso estudo é a identificação de regiões onde
a iteração de Gauss-Newton está bem-definida quando comparada com uma determinada
função iteração. Também veremos que a condição majorante usada aqui nos permite obter
11
importantes casos particulares.
Ressaltamos que nosso estudo está fortemente baseado no trabalho [16]. Porém
nossa contribuição é de fazer um estudo abrangente da função majorante, onde quase
todos os resultados necessários para a convergência semi-local do método de Gauss-
Newton serão demonstrados. Uma outra contribuição de nosso estudo em relação à [16],
é de darmos exemplos numéricos que demonstram a importância da classe de sistemas de
equações não-linear mencionada acima.
Esta dissertação está organizada da seguinte forma. No capítulo 2, estabelece-
remos as notações e alguns resultados preliminares para o entendimento dos conceitos
envolvidos na apresentação do método de Gauss-Newton e no estudo de convergência
do método. No capítulo 3, apresentaremos a discussão sobre a convergência semi-local
do método de Gauss-Newton sob uma condição majorante. Mostraremos que sob cer-
tas condições, a sequência gerada pelo método está bem definida e converge para um
ponto crítico de (1-1). No capítulo 4, casos especiais da teoria geral serão apresentados
juntamente com alguns exemplos numéricos. Finalmente, no capítulo 5 faremos as consi-
derações finais.
CAPÍTULO 2Notações e Resultados Preliminares
No presente capítulo, apresentaremos alguns conceitos básicos e resultados de
Análise e Álgebra Linear que serão utilizados posteriormente. Iremos dar algumas noções
de análise convexa e também estudaremos a pseudo-inversa de Moore-Penrose de uma
matriz. Por fim, estudaremos o conceito de funções analíticas.
2.1 Noções Topológicas e Análise no Espaço Euclidiano
Nesta seção definiremos alguns conjuntos importantes do espaço euclidiano Rn,
sequências em Rn e o conceito de taxa de convergência de uma sequência.
Inicialmente, sejam dados o ponto a ∈ Rn e o número real ε > 0. A bola aberta
de centro a e raio ε é o conjunto
B(a,ε) = x ∈ Rn; ‖x−a‖< ε,
isto é, o conjunto dos pontos x ∈ Rn cuja a distância ao ponto a é menor do que ε.
Analogamente a bola fechada de centro a e raio ε é o conjunto
B[a,ε] = x ∈ Rn; ‖x−a‖ ≤ ε.
Uma sequência xk ⊂ Rn é uma aplicação x : N → R
n, que associa a cada
número natural k um vetor xk ∈ Rn. Diz-se que uma sequência xk é limitada quando
o conjunto de seus termos é limitado em Rn, isto é, quando existe um número real c > 0
tal que ‖xk‖ ≤ c, para todo k ∈ N.
Uma sequência xk ⊂ R diz-se monótona quando se tem xk ≤ xk+1 para todo
k ∈ N ou então xk+1 ≤ xk para todo k ∈ N. No primeiro caso, diz-se que xk é monótona
não-decrescente e, no segundo, que xk é monótona não-crescente.
Um conjunto A⊂Rn é aberto quando todos os seus pontos são interiores, ou seja,
para cada a ∈ A existe ε > 0 tal que B(a,ε)⊂ A. Um conjunto A ⊂ Rn é fechado quando
contém todos os seus pontos de aderência. Diz-se que um ponto a é aderente ao conjunto
2.1 Noções Topológicas e Análise no Espaço Euclidiano 13
A ⊂ Rn quando a é limite de alguma sequência de pontos xk ∈ A. Evidentemente, todo
ponto a ∈ A é aderente a A, basta tomar xk = a para todo k ∈ N. Chama-se f echo de um
conjunto A ao conjunto A formado por todos os pontos aderentes a A. Logo um conjunto
A é fechado se, e somente se, A = A, isto é, quando todo ponto aderente a A pertence a A.
Seja A⊂Rn. Um ponto a∈R
n diz-se ponto de acumulação do conjunto A quando
toda bola aberta de centro a contém algum ponto do conjunto A diferente do próprio a, ou
seja, para todo ε > 0, deve existir x ∈ A tal que 0 < ‖x−a‖< ε.
Definição 2.1 Diz-se que uma sequência xk converge para x∗ ∈Rn, se dado ε> 0 existe
n0 tal que
‖xk − x∗‖< ε, ∀k ≥ n0
Uma sequência xk é chamada sequência de Cauchy, se dado ε > 0 existe n0 tal que
‖xm − xk‖< ε, ∀m,k ≥ n0
Uma consequência imediata da Definição 2.1 é que
lim xk = x∗ ⇔ lim ‖xk − x∗‖ = 0.
Uma das maneiras de medir a velocidade de convergência de uma sequência
é calculando sua ordem de convergência. A seguir definiremos o conceito de ordem de
convergência de uma sequência, para mais informações veja por exemplo [6, 28, 29].
Definição 2.2 Seja xk uma sequência em Rn que converge para x∗. Dizemos que a
convergência é Q-linear se existem uma constante α ∈ (0,1) e k0 > 0 tal que
‖xk+1 − x∗‖ ≤ α‖xk − x∗‖, ∀k ≥ k0.
A convergência é dita Q-quadrática se existem uma constante M positiva e k0 > 0, tal que
‖xk+1 − x∗‖ ≤ M‖xk − x∗‖2, ∀k ≥ k0.
A desvantagem da definição acima é que, mesmo se não forem satisfeitas as
condições, a convergência de algumas sequências ainda pode ser razoavelmente rápida,
porém essa "velocidade"é variável. Dessa forma, a definição de taxa de convergência é,
às vezes, estendida como se segue.
Definição 2.3 Seja xk uma sequência em Rn que converge para x∗. Dizemos que a
convergência é R-linear se existe uma sequência σk tal que
‖xk − x∗‖ ≤ σk, ∀k,
2.2 Noções sobre Transformações Lineares e Matrizes 14
e a sequência σk converge Q-linearmente para zero. A convergência é dita R-
quadrática se existe uma sequência σk tal que
‖xk − x∗‖ ≤ σk, ∀k,
e a sequência σk converge Q-quadraticamente para zero.
A seguir, daremos um exemplo de convergência R-linear que pode ser encontrado
em [28].
Exemplo 2.4 Seja a sequência
xk =
1+ 12k , k par
1, k impar.
Note que a sequência xk converge para x∗ = 1. Além disso,
‖xk − x∗‖ ≤ 12k =: σk.
Onde σk converge Q-linearmente para zero. Logo xk converge R-linearmente.
2.2 Noções sobre Transformações Lineares e Matrizes
Nesta seção, apresentaremos os conceitos básicos de transformações lineares e
matrizes, que nos auxiliarão nas demonstrações de resultados posteriores neste trabalho.
Também estudaremos a pseudo-inversa de Moore-Penrose de uma matriz. Para mais
informações sobre os dois primeiros assuntos veja por exemplo [4, 26].
Inicialmente, denotaremos Rm×n o conjunto das matrizes m×n. Dado A∈Rm×n,
denotemos a transposta da matriz A por AT .
O espaço das transformações lineares de Rn em R
m é denotado por L(Rn,Rm).
É importante mencionar que se A ∈ L(Rn,Rm), então A ∈ Rm×n.
O posto segundo colunas de uma matriz A ∈ Rm×n é o número máximo de
colunas linearmente independentes em A. Este número é igual à dimensão do subespaço
vetorial de Rm gerado pelos vetores-coluna de A.
De maneira análoga, definimos o posto segundo linhas da matriz A∈Rm×n como
o número máximo de linhas linearmente independentes em A, ou seja, como a dimensão
do subespaço vetorial de Rn gerado pelos vetores-linha da matriz A.
Embora o vetores coluna e os vetores linha de A sejam sub-espaços de espaços
vetoriais diferentes, o seguinte resultado é válido:
2.2 Noções sobre Transformações Lineares e Matrizes 15
Proposição 2.5 Para toda matriz A ∈ Rm×n, o posto segundo linhas e o posto segundo
colunas são iguais.
Demonstração. Ver Teorema 8.2, pp. 95 de Lima [26].
Portanto, segue a seguinte definição sobre o posto de uma matriz.
Definição 2.6 Seja A∈Rm×n. O posto de A, denotado por posto(A), é o número de linhas
ou de colunas linearmente independentes da matriz A.
Observação 2.7 Se posto(A) = minm,n, então A ∈ Rm×n é posto completo.
A seguir definiremos núcleo e a imagem de uma matriz.
Definição 2.8 Seja A ∈ Rm×n. Designa-se por Núcleo ou Kernel de uma matriz A,
denotado N (A), o seguinte subconjunto,
N (A) = x ∈ Rn |Ax = 0.
Denomina-se imagem de uma matriz A, o seguinte subconjunto,
R (A) = y ∈ Rm |y = Ax, para algum x ∈ R
n.
A seguir daremos a definição de matrizes invertíveis.
Definição 2.9 Uma matriz A∈Rn×n é dita invertível ou não singular, se existe uma matriz
B ∈ Rn×n tal que AB = BA = In, onde In é a matriz identidade de ordem n. A matriz B
é chamada de inversa de A. Escrevemos A−1 para inversa de A. Se A não tem inversa,
dizemos que A é singular ou não invertível.
Proposição 2.10 Uma matriz A ∈ Rn×n admite inversa se, e somente se, posto(A) = n.
Demonstração. Ver Corolário 3.8.2, pp. 47 de Mendes [27].
2.2.1 Norma de Matrizes
Nossa meta nesta subseção é estudar algumas propriedades de norma de matrizes
ou equivalentemente norma de transformações lineares. Além disso, demonstraremos o
conhecido Lema de Banach. Iniciaremos definindo norma.
Seja T,S∈L(Rn,Rm). Uma norma ‖.‖ é uma aplicação que associa a cada matriz
um número real não negativo satisfazendo as seguintes propriedades.
2.2 Noções sobre Transformações Lineares e Matrizes 16
N1. T 6= 0 ⇒‖T‖> 0;
N2. ‖αT‖= |α|‖T‖, ∀α ∈ R;
N3. ‖T +S‖ ≤ ‖T‖+‖S‖.
A condição N3 é conhecida como desigualdade triangular. A seguir daremos um
exemplo de norma matricial induzida pela norma vetorial.
Exemplo 2.11 Seja T ∈ L(Rn,Rm). Considere a norma das transformações lineares ‖.‖como sendo o número
‖T‖= sup‖x‖6=0
‖T x‖‖x‖ (2-1)
É fácil ver que (2-1) satisfaz as propriedades N1, N2 e N3.
Além disso, a aplicação norma matricial induzida pela norma vetorial goza das
seguintes propriedades.
Lema 2.12 Dados T,S ∈ L(Rn,Rn) e x ∈ Rn, então são válidas as seguintes proprieda-
des:
i) ‖T x‖ ≤ ‖T‖‖x‖;
ii) ‖T S‖ ≤ ‖T‖‖S‖;
iii) ‖T k‖ ≤ ‖T‖k, ∀ k = 0,1,2, . . ..
Demonstração. i) Se x é o vetor nulo segue imediato da definição de norma em Rn. Se x
não é o vetor nulo, considere o vetor y = x/‖x‖ e usando (2-1) temos
‖T‖ ≥ ‖Ty‖= 1‖x‖‖T x‖.
Portanto ‖T x‖ ≤ ‖T‖‖x‖.
ii) É fácil ver de (2-1), do item i e propriedades do supremo que
‖T S‖= sup‖x‖6=0
‖T Sx‖‖x‖ ≤ sup
‖x‖6=0
‖T‖‖Sx‖‖x‖ = ‖T‖‖S‖,
o que prova o item ii.
iii) É consequência imediata do item ii.
Observação 2.13 Existem normas matriciais que satisfazem as propriedades N1, N2 e
N3, sem necessariamente satisfazer (2-1) como por exemplo a norma de Frobenius.
2.2 Noções sobre Transformações Lineares e Matrizes 17
Além disso, existem normas matriciais que satisfazem satisfazem as propriedades N1, N2
e N3 mas não satisfazem o item ii do Lema 2.12, como por exemplo a norma l∞ (norma
do máximo). Para mais informações sobre normas matriciais, veja por exemplo, [14, 24].
Lema 2.14 (Lema de Banach) Sejam B ∈ L(Rn,Rn) um operador linear e I o operador
identidade de Rn. Se ‖B− I‖< 1, então B é não singular e vale
‖B−1‖ ≤ 1/(1−‖B− I‖). (2-2)
Demonstração. Primeiro, devemos mostrar que se T ∈L(Rn,Rn) é tal que ‖T‖< 1, então
I −T é inversível e vale
‖(I−T )−1‖ ≤ 11−‖T‖ .
Para isso, considere as seguintes sequências Sk e tk definidas respectivamente por:
Sk = I +T +T 2 + . . .+T k, tk = 1+‖T‖+‖T‖2 + . . .+‖T‖k.
Observe que,
‖Sk+p −Sk‖ ≤ ‖Sk+p −Sk+p−1‖+‖Sk+p−1 −Sk+p−2‖+ . . .+‖Sk+1 −Sk‖≤ ‖T‖k+p +‖T‖k+p−1 + . . .+‖T‖k+1
= (tk+p − tk+p−1)+(tk+p+1 − tk+p−2)+ . . .+(tk+1 − tk)
= tk+p − tk
Agora, como ‖T‖ < 1, temos então que tk é uma sequência convergente, com limite
t∗ = 1/(1− ‖T‖). Portanto, deste fato e da equação acima, Sk é uma sequência de
Cauchy em L(Rn,Rn) (o qual é espaço completo), e assim existe limn→∞ Sn. Agora,
observe que
Sk(I −T ) = (I +T + . . .+T k)(I−T ) = I −T k+1 (2-3)
Por outro lado, temos que limk→∞ I −T k = I, pois
‖I − (I −T k)‖= ‖T k‖ ≤ ‖T‖k, limk→∞
‖T‖k = 0.
Assim, pela última equação e (2-3), concluímos que limk→∞
Sk = (I −T )−1. Note ainda que
‖(I−T )−1‖= ‖ limk→∞
Sk‖ ≤ limk→∞
(‖I‖+‖T‖+ . . .+‖T k‖)≤ limk→∞
tk = 1/(1−‖T‖).
Agora, tomando T = I−B e observando a hipótese ‖B− I‖< 1, temos que (I−T ) = B é
inversível e vale a estimativa dada em (2-2) para a norma da inversa B−1.
2.2 Noções sobre Transformações Lineares e Matrizes 18
2.2.2 Pseudo-Inversa de Moore-Penrose
Apresentaremos nesta subseção a pseudo-inversa ou inversa generalizada de
Moore-Penrose de uma matriz A ∈ Rm×n, que desempenha o papel de A−1 quando A
não possui inversa. Para mais informações sobre inversas generalizadas e suas aplicações,
veja por exemplo [1, 2, 5].
Seja a seguinte equação matricial
AXA = A,
onde A ∈Rm×n é uma matriz dada e X ∈R
n×m é uma matriz à qual queremos determinar.
Observe que se A é uma matriz quadrada não singular, então a equação acima tem
uma única solução X = A−1. Daremos agora o conceito de pseudo-inversa que pode ser
encontrada em [5] e discutiremos sua existência.
Definição 2.15 Dada uma matriz A ∈ Rm×n. Uma matriz A† ∈ R
n×m é chamada pseudo-
inversa da matriz A se AA†A = A, e existem as matrizes U ∈ Rn×n e V ∈ R
m×m tais que
A† =UAT e A† = ATV. (2-4)
Segue que a pseudo-inversa possui as seguintes propriedades:
a. (AT )† = (A†)T ;
b. (A†)† = A.
Observe que as duas propriedades acima são similares as propriedades da matriz
inversa usual. Porém, no Exemplo 2.21, verifica-se que a propriedade (A1A2)† = A†
2A†1
não é em geral válida.
A partir de (2-4), temos que cada linha da pseudo-inversa A† de A é uma
combinação linear das linhas de AT , e cada coluna de A† é uma combinação linear das
colunas de AT .
Quando A ∈ Rm×n, m ≥ n e posto(A) = n, podemos facilmente verificar que a
pseudo-inversa de A é:
A† = (AT A)−1AT .
Realmente, pois A(AT A)−1AT A = A, e se definirmos U = (AT A)−1 e
V = A(AT A)−1(AT A)−1AT , então A† = UAT = ATV . Note que A†A = IRn . Daí,
(AT A)−1AT é chamada de pseudo-inversa a esquerda de A.
2.2 Noções sobre Transformações Lineares e Matrizes 19
Agora, quando A ∈ Rm×n, m ≤ n e posto(A) = m, podemos facilmente verificar
que:
A† = AT (AAT )−1, AA† = IRm. (2-5)
Daí, AT (AAT )−1 é chamada de pseudo-inversa a direita de A.
Agora discutiremos como obter a inversa de Moore-Penrose, para isso usaremos
a propriedade de que uma matriz não nula de posto r pode ser expressa como o produto
de uma matriz posto coluna completo por uma matriz de posto linha completo. Esta
propriedade é denominada como fatorização de posto completo. A prova deste resultado
é descrito no seguinte lema.
Lema 2.16 (Fatorização de Posto Completo) Seja A∈Rm×n, posto(A) = r ≤ min(m,n).
Então, existem matrizes B ∈ Rm×r e C ∈ R
r×n tal que A = BC, onde
posto(A) = posto(B) = posto(C) = r.
Demonstração. Como posto(A) = r, segue que existem r colunas linearmente indepen-
dentes em A. Sem perda de generalidade, seja a1,a2, . . . ,ar tais colunas, onde ai é a i-
ésima coluna de A. As colunas restantes de A podem ser expressas como combinações
lineares de a1,a2, . . . ,ar. Assim, uma possível escolha das matrizes B e C com posto com-
pleto são
B = [a1, . . . ,ar] ∈ Rm×r,
C =
1 . . . 0 c1,r+1 . . . c1,n...
. . ....
. . ....
0 . . . 1 cr,r+1 . . . cr,n
∈ Rr×n,
onde as entradas ci, j são tais que para cada j = r+1, . . . ,n, temos a j = ci, ja1+ . . .+cr, jar.
Portanto, A = BC.
Note que se m < n e posto(A) = m, então obtemos B = Im, C = A, onde Im é uma
matriz identidade ∈ Rm×m. Caso contrário, se m > n e posto(A) = n, então temos que
B = A, C = In.
Exemplo 2.17 Considere a matriz A ∈ R3×4 definida por
A =
2 1 −2 5
1 0 −3 2
3 −1 −13 5
.
2.2 Noções sobre Transformações Lineares e Matrizes 20
Observe que Posto(A) = 2. Assim, a partir do Lema 2.16, temos que uma fatorização de
posto completo de A é:
A =
2 1
1 0
3 −1
[
1 0 −3 2
0 1 4 1
]
= BC.
O próximo resultado garante que pseudo-inversa de uma matriz é única.
Proposição 2.18 Seja A ∈ Rm×n. Se existe a pseudo-inversa A† de A, então ela é única.
Demonstração. Sejam A†1 e A†
2 as inversas generalizadas de A. Devemos mostrar que
A†1 = A†
2. Pela definição 2.15 temos,
AA†1A = AA†
2A = A,
e existem as matrizes U1,U2 ∈ Rn×n e V1,V2 ∈ R
m×m, tais que
A†1 =U1AT = ATV1,
A†2 =U2AT = ATV2.
Seja
D = A†2 −A†
1,U =U2 −U1,V =V2 −V1.
Então, temos que
O = ADA,D =UAT = ATV.
Logo, usando as duas equações acima, obtemos
(DA)T DA = AT DT DA = ATV T ADA = O,
o que implica que,
DA = O.
Por outro lado, como DA = O, temos
DDT = DAUT = O,
o que implica em
D = A†2 −A†
1 = O
portanto A†2 = A†
1.
2.2 Noções sobre Transformações Lineares e Matrizes 21
Provaremos agora que a pseudo-inversa de uma matriz sempre existe. Na ver-
dade, mostraremos que a pseudo-inversa de qualquer matriz A é dada pela fórmula
A† =C†B†,
onde B† e C† são pseudo-inversas das matrizes B e C que formam uma fatorização de
posto completo de A, isto é, A = BC onde B e C são de posto completo (veja Lema 2.16).
Note que já sabemos como calcular B† e C†, ou seja,
B† = (BT B)−1BT ,
e
C† =CT (CCT )−1.
Proposição 2.19 Seja uma matriz A ∈ Rm×n que possui fatorização de posto completo
A = BC, com posto(A) = posto(B) = posto(C) = r, B ∈ Rm×r, C ∈ R
r×n. Então,
A† =C†B†.
Demonstração. Devemos mostrar que
A† =C†B† =CT (CCT )−1(BT B)−1BT
satisfaz a condição da Definição 2.15 para a pseudo-inversa. De fato, primeiro observe
que
AC†B†A = BCCT (CCT )−1(BT B)−1BT BC = BC = A.
Agora, definiremos
U =CT (CCT )−1(BT B)−1(CCT )−1C
e
V = B(BT B)−1(CCT )−1(BT B)−1BT .
É fácil ver que as matrizes U e V acima satisfazem
A† =C†B† =UAT = ATV.
Portanto,
A† =C†B†,
é a pseudo-inversa de A.
2.2 Noções sobre Transformações Lineares e Matrizes 22
Iremos calcular a seguir a pseudo-inversa de uma matriz que não possui inversa,
exemplificando o resultado acima.
Exemplo 2.20 Seja A ∈ R3×4 dada por
A =
2 1 −2 5
1 0 −3 2
3 −1 −13 5
=
2 1
1 0
3 −1
[
1 0 −3 2
0 1 4 1
]
= BC.
Calculando B† e C†, temos
B† = (BT B)−1BT =1
27
[
5 2 5
16 1 −11
]
,
e
C† =CT (CCT )−1 =1
76
9 5
5 7
−7 13
23 17
.
Assim, obtemos
A† =C†B† =1
2052
125 23 −10
137 17 −52
173 −1 −178
387 63 −72
.
Ressaltamos que a fórmula A† =C†B† não funciona no caso em que A não tenha
fatorização de posto completo. O seguinte exemplo ilustra isto.
Exemplo 2.21 Seja A = [1]. Obviamente, A† = A−1 = A = [1]. A matriz A também pode
ser representada da seguinte forma
A =[
0 1]
[
1
1
]
= BC.
Observe que A não possui uma fatorização de posto completo. Seja então a matriz
B† = BT (BBT )−1 =
[
0
1
]
,
e
C† = (CTC)−1CT =[
1/2 1/2]
.
2.3 Noções de Análise Convexa 23
(Note que fórmulas das matrizes B† e C† são diferentes do Exemplo 2.20 por causa das
dimensões de B e C neste exemplo.) Assim,
C†B† = [1/2],
diferente da matriz A†.
Finalmente, é importante ressaltar que a pseudo-inversa pode ser definida de uma
forma equivalente a Definição 2.15. Especificamente, a definição de Penrose de pseudo-
inversa de uma matriz A ∈ Rm×n é uma matriz única A† ∈ R
n×m que satisfaz as seguintes
propriedades:
1. AA†A = A;
2. A†AA† = A†;
3. (AA†)T = AA†;
2. (A†A)T = A†A.
Além disso, a partir da definição da pseudo-inversa de Moore-Penrose obtemos:
A†A = ΠN (A)⊥, AA† = ΠR (A), (2-6)
onde ΠE denota a projeção ortogonal de Rn sobre o subespaço E.
Com respeito a pseudo-inversa de Moore-Penrose, damos a seguir um resultado
que será necessário para garantir a boa definição do método de Gauss-Newton.
Lema 2.22 Sejam A,B : Rn → Rm operadores lineares contínuos. Assuma que
Posto(A)≥ 1, Posto(B)≤ Posto(A), ‖A†‖‖A−B‖< 1.
Então
Posto(A) = Posto(B), ‖B†‖ ≤ ‖A†‖1−‖A†‖‖A−B‖ .
Demonstração. Ver Teorema 8.15, pp. 43 de [22].
2.3 Noções de Análise Convexa
Destinamos esta seção a um estudo dos conceitos relacionados aos conjuntos
convexos e as funções convexas. Para mais informações sobre análise convexa veja
[3, 5, 17, 20]. Iniciaremos definindo conjunto convexo.
2.3 Noções de Análise Convexa 24
Definição 2.23 Um conjunto D ⊂ Rn é chamado conjunto convexo, se
λx+(1−λ)y ∈ D, ∀x,y ∈ D, λ ∈ [0,1].
Geometricamente, esta definição nos diz que o segmento de reta
[x,y] = λx+(1−λ)y : 0 ≤ λ ≤ 1,
está inteiramente contido em D.
Exemplo 2.24 O conjunto vazio, o espaço euclidiano Rn, um conjunto que contém um
ponto só e uma bola em Rn são exemplos de conjuntos convexos.
Definição 2.25 Seja D ⊂Rn um conjunto convexo. Uma função ϕ : D →R é dita convexa
quando para quaisquer x ∈ D,y ∈ D e λ ∈ [0,1], tem-se
ϕ(λx+(1−λ)y)≤ λϕ(x)+(1−λ)ϕ(y).
A função ϕ é dita estritamente convexa quando a desigualdade acima é estrita para todos
x,y ∈ D com x 6= y e λ ∈ (0,1).
Agora apresentaremos a caracterização de funções convexas de uma variável
real.
Proposição 2.26 Sejam I ⊂ R um intervalo e ϕ : I →R uma função diferenciável. Então
ϕ é convexa se, e somente se,
ϕ(y)≥ ϕ(x)+ϕ′(x)(y− x), ∀y ∈ I,x ∈ I. (2-7)
Se (2-7) é estrita para todo y ∈ I e x ∈ I, então ϕ é estritamente convexa.
Demonstração. Dados y ∈ I e x ∈ I, temos por hipótese que
ϕ(λy+(1−λ)x)≤ λϕ(y)+(1−λ)ϕ(x).
Após algumas manipulações algébricas segue que
ϕ(x+λ(y− x))−ϕ(x)λ
≤ ϕ(y)−ϕ(x),
para todo λ ∈ (0,1]. Fazendo λ → 0+ na última desigualdade, temos
ϕ′(x)(y− x)+ϕ(x) ≤ ϕ(y),
2.3 Noções de Análise Convexa 25
que prova a primeira parte. Reciprocamente, considere z = (1−λ)x+λy e observe que
ϕ(x)≥ ϕ(z)+ϕ′(z)(x− z) (2-8)
e
ϕ(y)≥ ϕ(z)+ϕ′(z)(y− z). (2-9)
Multiplicando a desigualdade (2-8) por (1−λ) ≥ 0 e a desigualdade (2-9) por λ ≥ 0, e
adicionando o resultado, obtemos
ϕ(λx+(1−λ)y)≤ λϕ(x)+(1−λ)ϕ(y).
Portanto ϕ é convexa. Agora se (2-7) é estrita para todo x,y ∈ I, então (2-8) e (2-9) va-
lem para desigualdade estrita e analogamente concluímos que ϕ é estritamente convexa.
Proposição 2.27 Sejam I ⊂ R um intervalo e ϕ : I →R uma função convexa.
(i) Dados a,b e c ∈ I, com a < b < c, temos
ϕ(b)−ϕ(a)b−a
≤ ϕ(c)−ϕ(a)c−a
≤ ϕ(c)−ϕ(b)c−b
(2-10)
(ii) Para qualquer u0 ∈ int(I), a aplicação
s(u) =ϕ(u0)−ϕ(u)
u0 −u, u ∈ I,u 6= u0,
não-decrescente e existe (em R)
D−ϕ(u0) = limu→u−0
ϕ(u0)−ϕ(u)u0 −u
= supu<u0
ϕ(u0)−ϕ(u)u0 −u
.
Demonstração. Seja a < b < c, obtemos após algumas manipulações algébricas que
b =c−bc−a
a+b−ac−a
c, (2-11)
ondec−bc−a
< 1 eb−ac−a
< 1. Como ϕ é convexa, segue de (2-11) e alguns cálculos que
ϕ(b)−ϕ(a)≤(
c−bc−a
−1
)
ϕ(a)+b−ac−a
ϕ(c),
que é equivalente aϕ(b)−ϕ(a)
b−a≤ ϕ(c)−ϕ(a)
c−a,
2.3 Noções de Análise Convexa 26
o que prova a primeira desigualdade em (2-10). A segunda desigualdade em (2-10) é feita
de modo análogo. Assim o item (i) está provado. É imediato concluir a partir de (2-10)
que a função s é não-decrescente. Além disso, como u0 ∈ int(I) então existe a ∈ I tal que
u0 < a, daí segue que
s(u) =ϕ(u0)−ϕ(u)
u0 −u≤ ϕ(u0)−ϕ(a)
u0 −a= s(a), ∀u0 > u.
Logo, s é limitada superiormente. Devido a monotonicidade da função s, existe o limite
D−ϕ(u0) = limu→u−0
ϕ(u0)−ϕ(u)u0 −u
= supu<u0
ϕ(u0)−ϕ(u)u0 −u
.
Segue que o item (ii) é válido.
Proposição 2.28 Sejam I ⊂ R um intervalo e ϕ : I −→R uma função derivável. Então ϕ
é convexa (estritamente convexa) se, e somente se, ϕ′ é crescente (estritamente crescente).
Demonstração. Suponhamos que ϕ seja convexa e derivável. Vamos mostrar que ϕ′
é crescente. Sejam x1 < x3 pontos de I. Consideremos pontos x2 e x4 de I tais que
x1 < x2 < x3 < x4. Pela Proposição 2.27 temos que,
ϕ(x2)−ϕ(x1)
x2 − x1≤ ϕ(x4)−ϕ(x3)
x4 − x3.
Fazendo x2 −→ x1 e x4 −→ x3, obtemos ϕ′(x1) ≤ ϕ′(x3). Provando que ϕ′ é cres-
cente. Reciprocamente, seja ϕ′ crescente. Iremos provar que ϕ é convexa. Sejam
x,y em I tal que x < y. Pelo teorema do valor médio exite c ∈ (x,y) de modo que
ϕ(y) = ϕ(x) + ϕ′(c)(y − x). Da monotonicidade de ϕ′ segue-se ϕ′(x) ≤ ϕ′(c). Logo
ϕ(y)≥ ϕ(x)+ϕ′(x)(y− x). Daí pela Proposição 2.26 obtemos que ϕ é convexa.
Corolário 2.29 Uma função ϕ : I →R, duas vezes derivável no intervalo I, é convexa se,
e somente se, ϕ′′ ≥ 0.
Demonstração. Com efeito, ϕ′′(x) ≥ 0 para todo x ∈ I, equivale a afirmar ϕ′ : I → R é
monótona crescente.
2.4 Funções Analíticas 27
2.4 Funções Analíticas
Nesta seção estamos interessados em abordar os conceitos de funções analíticas
em R os quais serão necessários no desenvolvimento do capítulo 4, quando trataremos do
resultado de convergência sob condição de Smale.
Definição 2.30 Sejam I ⊂ R um intervalo aberto. Uma função f : I → R chama-se
analítica quando pode ser localmente expandida em séries de Taylor, i.e., para cada
x0 ∈ I, existe um ε > 0 tal que a série de Taylor
∞
∑n=0
f (n)(x0)
n!hn,
converge para f (x0 +h) quando |h|< ε.
Observação 2.31 A fim de que a série∞
∑n=0
f (n)(x0)
n!hn, convirja para f (x0+h) é necessá-
rio e suficiente que limn→∞
rn(h) = 0, onde rn =f (n)(x0 +θnh)
n!hn, com 0 < θn < 1.
Proposição 2.32 Se 0 ≤ t < 1, então∞
∑i=0
(i+2)(i+1)t i = 2/(1− t)3.
Demonstração. Consideremos a função g : (−1,1) → R, dada por g(t) = (1− t)−1. É
fácil mostrar que esta função é analítica e que
g′(t) = (1− t)−2, g′′(t) = 2(1− t)−3, . . . , g(i)(t) = i!(1− t)−(i+1). (2-12)
Pela Definição 2.30, podemos escrever g da seguinte forma
g(t) =∞
∑i=0
g(i)(0)i!
t i.
Agora combinando (2-12) e a igualdade acima, obtemos que g(t) = ∑∞i=0 t i. Derivando
duas vezes, resulta que
g′′(t) =∞
∑i=0
(i+2)(i+1)t i.
Daí combinando este resultado com a segunda equação em (2-12) concluí a demonstração
da Proposição.
Agora com todos os resultados obtidos neste capítulo, estamos preparados a pro-
var a convergência semi-local do método de Gauss-Newton sob uma condição majorante.
CAPÍTULO 3Análise Semi-Local para o Método de
Gauss-Newton
No presente capítulo, apresentaremos a convergência semi-local do método de
Gauss-Newton. Sob a hipótese que a função não-linear associada com o sistema de
equações satisfaz uma condição majorante, provaremos que o método supracitado está
bem definido e converge para um ponto x∗ tal que F ′(x∗)†F(x∗) = 0. Esta análise não
exige o conhecimento prévio da solução dos problemas de mínimos quadrados e tem
a vantagem de fazer hipóteses apenas sobre o ponto inicial, diferentemente da análise
local ao qual o conhecimento prévio da solução dos problemas de mínimos quadrados
é exigido, além de requerer que o ponto inicial esteja suficientemente próximo desta
solução, veja por exemplo [8, 9, 15]. Além disso, daremos resultados sobre a taxa de
convergência da sequência gerada. A ordem dos resultados apresentados aqui, ressalta a
importância de cada hipótese na análise de convergência do método.
3.1 Convergência do Método de Gauss-Newton
Começaremos esta seção com a seguinte definição de função majorante.
Definição 3.1 Sejam Ω ⊆ Rn um conjunto aberto e F : Ω → R
m uma função continu-
amente diferenciável em Ω. Tome x0 ∈ Ω, R > 0. Dizemos uma função continuamente
diferenciável f : [0,R) → R é uma função majorante para o operador F se satisfaz as
hipóteses
‖F ′(x0)†‖‖F ′(y)−F ′(x)‖ ≤ f ′(‖y− x‖+‖x− x0‖)− f ′(‖x− x0‖),
para quaisquer x,y ∈ Ω,‖x− x0‖+‖y− x‖< R, e além disso,
(h1) f (0) = 0, f ′(0) =−1;
(h2) f ′ é convexa e estritamente crescente.
Para mais informações sobre a função majorante veja por exemplo [7, 8, 9, 10,
11, 12, 15, 16]. Provaremos nesta seção, um teorema semi-local do método de Gauss-
3.1 Convergência do Método de Gauss-Newton 29
Newton, i.e.,
xk+1 = xk −F ′(xk)†F(xk), k = 0,1, . . . ,
para resolver o sistema de equações não-lineares
F(x) = 0,
onde F satisfaz a seguinte classe de sistemas de equações não lineares
‖F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)‖ ≤ κ‖x− y‖, ∀x,y ∈ Ω.
para algum 0 ≤ κ < 1.
Primeiramente, mostraremos que este teorema é valido para uma função auxiliar
associada com a função majorante. Então, provaremos a boa definição do método de
Gauss-Newton e sua convergência.
Teorema 3.2 Sejam Ω ⊆ Rn um conjunto aberto e F : Ω → R
m uma função continua-
mente diferenciável. Suponha que
‖F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)‖ ≤ κ‖x− y‖, ∀x,y ∈ Ω (3-1)
para algum 0 ≤ κ < 1. Seja x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0,F ′(x0) 6= 0 e
Posto(F′(x))≤ Posto(F′(x0)), ∀x ∈ Ω. (3-2)
Assuma que existam R > 0 e uma função continuamente diferenciável f : [0,R)→ R tal
que, B(x0,R)⊆ Ω,
‖F ′(x0)†‖‖F ′(y)−F ′(x)‖ ≤ f ′(‖y− x‖+‖x− x0‖)− f ′(‖x− x0‖), (3-3)
para quaisquer x,y ∈ Ω,‖x− x0‖+‖y− x‖< R, e além disso,
(h1) f (0) = 0, f ′(0) =−1;
(h2) f ′ é convexa e estritamente crescente.
Seja λ ≥ 0 tal que λ ≥−κ f ′(β) e considere a função auxiliar hλ : [0,R)→ R,
hλ(t) := β+λt + f (t). (3-4)
Se hλ satisfaz
(h3) hλ(t) = 0 para algum t ∈ (0,R),
então hλ(t) tem uma menor raiz t∗λ, as sequências para resolver hλ(t) = 0 e F(x) = 0,
3.1 Convergência do Método de Gauss-Newton 30
com pontos iniciais tλ,0 = 0 e x0, respectivamente,
tλ,k+1 = tλ,k −h′0(tλ,k)−1hλ(tλ,k), xk+1 = xk −F ′(xk)
†F(xk), k = 0,1, . . . , (3-5)
estão bem definidas, tλ,k é estritamente crescente, está contida em [0, t∗λ), e converge
para t∗λ, xk está contida na B(x0, t∗λ), converge para um ponto x∗ ∈ B[x0, t∗λ] tal que
F ′(x∗)†F(x∗) = 0,
‖xk+1 − xk‖ ≤ tλ,k+1− tλ,k, ‖x∗− xk‖ ≤ t∗λ − tλ,k, k = 0,1, . . . , (3-6)
e
‖xk+1 − xk‖ ≤tλ,k+1− tλ,k
(tλ,k − tλ,k−1)2‖xk − xk−1‖2, k = 1,2, . . . . (3-7)
Além disso, se λ = 0, as sequências t0,k e xk convergem Q-linearmente e R-
linearmente (ou se, λ = 0 e h′0(t∗0)< 0, Q-quadraticamente e R-quadraticamente) para t∗0
e x∗, respectivamente.
Observação 3.3 É fácil ver que a melhor escolha de λ é a menor possível. Logo, se
f ′(β)≤ 0 então λ=−κ f ′(β) é a melhor escolha. Além disso, como − f ′(β)<− f ′(0) = 1
(h2), uma possível escolha para λ é κ, apesar de não ser a melhor.
Observação 3.4 Se F ′(x) é sobrejetivo, segue da segunda equação em (2-5) que
F ′(x)F ′(x)† = IRm . Daí, podemos escolher λ = 0, visto que F satisfaz (3-1) com κ = 0.
Portanto, o Teorema 3.2 estende os resultados obtidos no Teorema 2 em [12].
Alguns resultados preliminares serão necessários para provar o Teorema 3.2. De
agora em diante vamos assumir que todas as hipóteses do Teorema 3.2 são válidas.
3.1.1 A função auxiliar e a sequência tλ,kNesta subseção, estudaremos a função auxiliar hλ, associada com a função
majorante f , além disso provaremos todos os resultados do Teorema 3.2 em relação a
sequência tλ,k.
Proposição 3.5 As seguintes afirmações são válidas
(i) hλ(0) = β > 0 , h′λ(0) = λ−1 e h′0(t) = f ′(t);
(ii) h′λ é convexa e estritamente crescente;
(iii) hλ é estritamente convexa.
3.1 Convergência do Método de Gauss-Newton 31
Demonstração. Usando (3-4), a diferenciabilidade da função f e as afirmações (h1) e
(h2), então os itens (i) e (ii) seguem imediatamente. Para provar o item (iii) basta usar o
item (ii) e a Proposição 2.28.
Proposição 3.6 A função hλ possuí uma menor raiz t∗λ ∈ (0,R), é estritamente crescente
e
hλ(t)> 0, h′0(t)< 0, t < t − hλ(t)h′0(t)
< t∗λ, ∀t ∈ [0, t∗λ). (3-8)
Além disso, h′0(t∗λ)≤ 0.
Demonstração. Como hλ é uma função contínua em [0,R) e possui uma raiz neste
intervalo (h3), segue que hλ possuí uma menor raiz t∗λ, que é maior que zero devido a
primeira desigualdade no item (i) da Proposição 3.5. A primeira desigualdade em (3-8)
segue da primeira afirmação no item (i) da Proposição 3.5 e da definição de t∗λ ∈ (0,R)
como sendo a menor raiz de hλ. Sabemos pelo item (iii) da Proposição 3.5 que hλ é
estritamente convexa, então
0 = hλ(t∗λ)> hλ(t)+h′λ(t)(t
∗λ − t), t ∈ [0,R), t 6= t∗λ. (3-9)
Se t ∈ [0, t∗λ) então hλ(t)> 0 e t∗λ − t > 0, as quais combinadas com (3-9), implicam que
h′λ(t) < 0 para todo t ∈ [0, t∗λ). Daí como λ ≥ 0 e h′λ(t) = λ+ h′0(t) para todo t ∈ [0, t∗λ),
então a segunda desigualdade em (3-8) está provada. Usando a primeira e a segunda
desigualdade de (3-8), obtemos a terceira. Para provarmos a última desigualdade em (3-8),
dividiremos a inequação (3-9) por −h′λ(t) > 0 e com algumas manipulações algébricas,
temos que
t −hλ(t)/h′λ(t)< t∗λ, ∀t ∈ [0, t∗λ).
Daí, usando a primeira desigualdade em (3-8) e 0 < −h′λ(t) ≤ −h′0(t) para todo
t ∈ [0, t∗λ), temos a desigualdade desejada. Agora como hλ(t)> 0 em [0, t∗λ) e hλ(t∗λ) = 0,
logo h′λ(t∗λ) ≤ 0. Portanto, a última desigualdade da proposição segue do fato que
h′λ(t∗λ) = λ+h′0(t
∗λ) e λ ≥ 0.
De acordo com a segunda inequação em (3-8), a seguinte função iteração para
hλ está bem definida em [0, t∗λ)
nλ : [0, t∗λ) → R
t 7→ t −hλ(t)/h′0(t).(3-10)
Note que, se λ = 0, a sequência nλ se reduz a sequência de Newton.
Proposição 3.7 Se t ∈ [0, t∗λ), então β ≤ nλ(t)< t∗λ.
3.1 Convergência do Método de Gauss-Newton 32
Demonstração. Sabemos da Proposição 3.5 que hλ é estritamente convexa. Daí usando as
duas primeiras igualdades do item (i) da Proposição 3.5 e propriedades de convexidade,
obtemos (1−λ)t −β ≥ −hλ(t), que combinado com λ ≥ 0, implica que t −β ≥ −h′λ(t).
Daí, obtemos de (3-10) que
nλ(t)−β = t − hλ(t)h′0(t)
−β ≥−hλ(t)−hλ(t)h′0(t)
=hλ(t)−h′0(t)
[h′0(t)+1], ∀t ∈ [0, t∗λ).
Sabemos dos itens (i) e (ii) da Proposição 3.5 que h′0(0) = −1 e h′0 é estritamente
crescente. Daí, obtemos que
h′0(t)+1 ≥ 0, ∀t ∈ [0, t∗λ).
Portanto, combinando a inequação acima com as duas primeiras inequações em (3-8),
a primeira inequação da proposição está provada. Para provar a última inequação da
proposição, combine (3-10) e a última desigualdade em (3-8).
Proposição 3.8 A iteração nλ leva [0, t∗λ) em [0, t∗λ), e
t < nλ(t), ∀t ∈ [0, t∗λ).
Além disso, se λ = 0 ou (λ = 0 e h′0(t∗0) < 0), então temos as seguintes inequações,
respectivamente,
t∗0 −n0(t)≤12(t∗0 − t), t∗0 −n0(t)≤
D−h′0(t∗0)
−2h′0(t∗0)(t∗0 − t)2, ∀t ∈ [0, t∗0). (3-11)
Demonstração. As duas primeiras afirmações da proposição seguem trivialmente das duas
últimas inequações em (3-8) e (3-10). Agora se λ = 0, então a sequência em (3-10) reduz-
se a sequência de Newton, i.e.,
n0(t) = t −h0(t)/h′0(t), ∀t ∈ [0, t∗0). (3-12)
Note que hλ(t∗λ) = 0 (Proposição 3.6), em particular h0(t∗0) = 0. Daí, usando (3-12) e a
continuidade de h′, temos que
t∗0 −n0(t) =1
h′0(t)[h′0(t)(t
∗0 − t)+h0(t)]
=1
h′0(t)[h′0(t)(t
∗0 − t)+h0(t)−h0(t
∗0)]
=1
−h′0(t)
∫ t∗0
t
(
h′0(u)−h′0(t))
du.
3.1 Convergência do Método de Gauss-Newton 33
Sabemos pelo item (ii) da Proposição 3.5 que h′λ é convexa. Além disso, como t < t∗0 ,
segue do item (i) da Proposição 2.27 que
h′0(u)−h′0(t)≤[
h′0(t∗0)−h′0(t)
] u− tt∗0 − t
, ∀u ∈ [t, t∗0 ].
Por outro lado, pela segunda inequação em (3-8) temos que h′0(t) < 0, ou equivalente-
mente −1/h′0(t) > 0. Daí, combinando este resultado com as duas últimas inequações,
obtemos
t∗0 −n0(t)≤(
− 1h′0(t)
)∫ t∗0
t
[
h′0(t∗0)−h′0(t)
] u− tt∗0 − t
du.
Agora, o último termo da desigualdade acima juntamente com algumas manipulações
algébricas, implicam
t∗0 −n0(t)≤12
(
h′0(t∗0)−h′0(t)−h′0(t)
)
(t∗0 − t). (3-13)
Portanto, a desigualdade acima junto com h′0(t) < 0 e h′0(t∗0) ≤ 0 prova a primeira
inequação em (3-11). Para concluir a prova, assumimos que λ = 0 e h′0(t∗0)< 0. Tomando
t ∈ [0, t∗0). Além disso, usando que h′λ é crescente e h′0(t)< 0, temos que
h′0(t∗0)−h′0(t)−h′0(t)
≤ h′0(t∗0)−h′0(t)−h′0(t
∗0)
=1
−h′0(t∗0)
h′0(t∗0)−h′0(t)t∗0 − t
(t∗0 − t)
≤ D−h′(t∗0)−h′0(t
∗0)
(t∗0 − t),
onde a última desigualdade segue do item (ii) da Proposição 2.27. Finalmente, combi-
nando a inequação acima com (3-13) obtemos a segunda inequação em (3-11), o que
conclui a prova da proposição.
A definição de tλ,k no Teorema 3.2 é equivalente a seguinte definição:
tλ,0 = 0, tλ,k+1 = nλ(tλ,k), k = 0,1, . . . . (3-14)
O resultado a seguir é consequência imediata da Proposição 3.8.
Corolário 3.9 A sequência tλ,k está bem definida, é estritamente crescente, está con-
tida em [0, t∗λ) e converge para t∗λ. Além disso, se λ = 0 ou (λ = 0 e h′0(t∗0) < 0), então a
sequência t0,k converge Q-linearmente ou Q-quadraticamente para t∗0 , respectivamente,
3.1 Convergência do Método de Gauss-Newton 34
como segue
t∗0 − t0,k+1 ≤12(t∗0 − t0,k), t∗0 − t0,k+1 ≤
D−h′0(t∗0)
−2h′0(t∗0)
(t∗0 − t0,k)2, k = 0,1, . . . .
Portanto, todas as afirmações envolvendo a sequência tλ,k no Teorema 3.2
estão provadas.
3.1.2 Convergência
Nesta subseção, provaremos que a sequência xk gerada pelo método de Gauss-
Newton (ver Teorema 3.2), está bem definida e converge para um ponto x∗ tal que
F ′(x∗)†F(x∗) = 0 . Começaremos com uma proposição que garante a boa definição de
Gauss-Newton na B(x0, t∗λ), depois iremos expor dois lemas que destacam as relações
entre a função majorante f e a função não-linear F .
Proposição 3.10 Se ‖x− x0‖ ≤ t < t∗λ, então Posto(F ′(x)) = Posto(F ′(x0))≥ 1 e
‖F ′(x)†‖ ≤ −‖F ′(x0)†‖/h′0(t).
Em particular, Posto(F ′(x)) = Posto(F ′(x0)) em B(x0, t∗λ).
Demonstração. Seja x ∈ B[x0, t], tal que 0 ≤ t < t∗λ. Usando as hipóteses (3-3), (h1), (h2),
a última igualdade do item (i) da Proposição 3.5 e a segunda inequação em (3-8), obtemos
‖F ′(x0)†‖‖F ′(x)−F ′(x0)‖ ≤ f ′(‖x− x0‖)− f ′(0)≤ f ′(t)+1 = h′0(t)+1 < 1.
Combinando a última inequação com (3-2) e o Lema 2.22, concluímos que Posto(F ′(x))
= Posto(F ′(x0))≥ 1 e
‖F ′(x)†‖ ≤ ‖F ′(x0)†‖
1− ( f ′(t)+1)=
‖F ′(x0)†‖
− f ′(t)=−‖F ′(x0)
†‖h′(t)
É conveniente estudar o erro linear de F para cada ponto em Ω, por isso
definimos
EF(x,y) := F(y)−[
F(x)+F ′(x)(y− x)]
, y, x ∈ Ω. (3-15)
Iremos limitar este erro pelo erro da linearização da função majorante f
e f (t,v) := f (v)−[
f (t)+ f ′(t)(v− t)]
, t, v ∈ [0,R). (3-16)
3.1 Convergência do Método de Gauss-Newton 35
Lema 3.11 Sejam x,y ∈ B(x0,R) e 0 ≤ t < v < R. Se ‖x−x0‖ ≤ t e ‖y−x‖ ≤ v− t, então
‖F ′(x0)†‖‖EF(x,y)‖ ≤ e f (t,v)
‖y− x‖2
(v− t)2 .
Demonstração. Sejam x,y ∈ B(x0,R). Como a bola é convexa então
x+u(y− x) ∈ B(x0,R), ∀u ∈ [0,1].
Daí, usando o fato que F é continuamente diferenciável na B(x0,R), (3-15), temos que
EF(x,y) =∫ 1
0
[
F ′(x+u(y− x))−F ′(x)]
(y− x)du.
Combinando a equação anterior e a hipótese (3-3) do Teorema 3, obtemos
‖F ′(x0)†‖‖EF(x,y)‖ ≤
∫ 1
0‖F ′(x0)
†‖‖F ′(x+u(y− x))−F ′(x)‖‖y− x‖du
≤∫ 1
0
[
f ′(‖x− x0‖+u‖y− x‖)− f ′(‖x− x0‖)]
‖y− x‖du. (3-17)
Agora, usando a convexidade de f ′, as hipóteses ‖x− x0‖ ≤ t, ‖y− x‖ ≤ v− t, v < R e o
item (i) da Proposição 2.27, segue que para qualquer u ∈ [0,1]
f ′(‖x− x0‖+u‖y− x‖)− f ′(‖x− x0‖)≤ f ′(t +u‖y− x‖)− f ′(t)
≤[
f ′(t +u(v− t))− f ′(t)] ‖y− x‖
v− t. (3-18)
É fácil ver, que (3-17) e (3-18) implicam
‖F ′(x0)†‖‖EF(x,y)‖ ≤
∫ 1
0
[
f ′(t +u(v− t))− f ′(t)] ‖y− x‖2
v− tdu,
Finalmente, calculando a integral acima, obtemos o resultado desejado.
A Proposição 3.10 garante, em particular que Posto(F ′(x))≥ 1,∀x ∈ B(x0, t∗λ) e,
consequentemente, a iteração de Gauss-Newton está bem definida. Denotaremos de GF à
função iteração de Gauss-Newton para F nesta região, isto é,
GF : B(x0, t∗λ) → Rn
x 7→ x−F ′(x)†F(x).(3-19)
Observe que podemos aplicar a função iteração de Gauss-Newton em qualquer
x ∈B(x0, t∗λ) para se obter GF(x), o qual pode ou não pertencer a B(x0, t∗λ) ou mesmo, pode
não pertencer ao domínio de F . Assim, os resultados anteriores são apenas para garantir
3.1 Convergência do Método de Gauss-Newton 36
a boa definição de apenas uma iteração. Para assegurar que as iterações de Gauss-Newton
podem ser repetidas indefinidamente, devemos garantir que GF(x) ⊂ B(x0, t∗λ), para isso
precisaremos de alguns resultados adicionais.
Primeiramente, definiremos alguns subconjuntos de B(x0, t∗λ) e iremos provar
que as iterações de Gauss-Newton (3-19) estão "bem comportadas"nestes subconjuntos.
Sejam
K(t) :=
x ∈ Ω : ‖x− x0‖ ≤ t, ‖F ′(x)†F(x)‖6−hλ(t)h′0(t)
, t ∈ [0, t∗λ) , (3-20)
K :=⋃
t∈[0,t∗λ)
K(t). (3-21)
Como 0 ≤ t < t∗λ em (3-20), então temos que, h′0(t) 6= 0 e segue da Proposição 3.10 que
Posto(F ′(x))≥ 1 na B[x0, t]⊂ B(x0, t∗λ). Portanto, as definições são consistentes.
Lema 3.12 Se t ∈ [0, t∗λ), então são válidas as seguintes afirmações:
(i) K(t)⊂ B(x0, t∗λ);
(ii) ‖GF(GF(x))−GF(x)‖ ≤ −hλ(nλ(t))h′0(nλ(t))
(
‖GF (x)−x‖nλ(t)−t
)2, ∀x ∈ K(t);
(iii) GF (K(t))⊂ K (nλ(t)) .
Além disso, K ⊂ B(x0, t∗λ) e GF(K)⊂ K.
Demonstração. O item (i) segue trivialmente da definição de K(t). Agora tomemos
t ∈ [0, t∗λ) e x ∈ K(t). Usando (3-20) e duas primeiras afirmações na Proposição 3.8, temos
que
‖x− x0‖ ≤ t, ‖F ′(x)†F(x)‖ ≤ −hλ(t)h′0(t)
, t < nλ(t)< t∗λ. (3-22)
Note que,
‖GF(x)− x0‖ ≤ ‖x− x0‖+‖GF(x)− x‖= ‖x− x0‖+‖F ′(x)†F(x)‖≤ t −hλ(t)/h′0(t) = nλ(t)< t∗λ,
o que implica
GF(x) ∈ B[x0,nλ(t)]⊂ B(x0, t∗λ). (3-23)
Observemos que GF(x),nλ(t) pertencem aos domínios de F e f , respectivamente. Daí
usando as definições (3-4), (3-10), (3-19), os erros de linearização (3-15) e (3-16) e
3.1 Convergência do Método de Gauss-Newton 37
algumas manipulações algébricas, obtemos as seguintes igualdades
hλ(nλ(t)) = hλ(nλ(t))−[
hλ(t)+h′0(t)(nλ(t)− t)]
= e f (t,nλ(t))−λhλ(t)/h′0(t) (3-24)
e
F(GF(x)) = F(GF(x))−[
F(x)+F ′(x)(GF(x)− x)]
+(IRm −F ′(x)F ′(x)†)F(x)
= EF(x,GF(x))+(IRm −F ′(x)F ′(x)†)F(x).
A partir da última equação, com algumas manipulações algébricas, implicam que
‖F ′(GF(x))†F(GF(x))‖ ≤ ‖F ′(GF(x))
†‖‖EF(x,GF(x))‖+‖F ′(GF(x))
†(IRm −F ′(x)F ′(x)†)F(x)‖. (3-25)
Como ‖GF(x)− x0‖ ≤ nλ(t), segue da Proposição 3.10 que Posto(F ′(GF(x)))≥ 1 e
‖F ′(GF(x))†‖ ≤ −‖F ′(x0)
†‖/h′0(nλ(t)). (3-26)
A partir de (3-25), (3-26) e (3-1), obtemos
‖F ′(GF(x))†F(GF(x))‖ ≤ −‖F ′(x0)
†‖h′0(nλ(t))
‖E(x,GF(x))‖+κ‖GF(x)− x‖.
Por outro lado, usando (3-22), Lema 3.11 e (3-24), temos
‖F ′(x0)†‖‖EF(x,GF(x))‖ ≤ e f (t,nλ(t))
(‖GF(x)− x‖nλ(t)− t
)2
≤ hλ(nλ(t))
(‖GF(x)− x‖nλ(t)− t
)2
+λhλ(t)/h′0(t).
Assim, as duas últimas inequações, junto com a segunda equação em (3-22), implicam
que
‖F ′(GF(x))†F(GF(x))‖ ≤ −hλ(nλ(t))
h′0(nλ(t))
(‖GF(x)− x‖nλ(t)− t
)2
+(
κ+λ(h′0(nλ(t)))−1)(−hλ(t)/h′0(t)
)
. (3-27)
Tomando λ ≥−κ f ′(β), a segunda inequação em (3-8) e (3-22), obtemos que
(
κ+λ(h′0(nλ(t)))−1)≤ κ
(
1− f ′(β)(h′0(nλ(t)))−1) . (3-28)
3.1 Convergência do Método de Gauss-Newton 38
Como f ′(t) = h′0(t), então usando a Proposição 3.7, (h2) e a segunda inequação em (3-8),
temos que
κ(
1− f ′(β)(h′0(nλ(t)))−1)= κ
(
h′0(β)−h′0(nλ(t)))(
−h′0(nλ(t))−1 ≤ 0. (3-29)
Combinando (3-27), (3-28), (3-29) com as duas primeiras desigualdades em (3-8), con-
cluímos
‖F ′(GF(x))†F(GF(x))‖ ≤ −hλ(nλ(t))
h′0(nλ(t))
(‖GF(x)− x‖nλ(t)− t
)2
.
Portanto o item (ii) segue da última inequação e (3-19). Agora, combinando a última
inequação com (3-10), (3-19) e a segunda desigualdade em (3-22), obtemos
‖F ′(GF(x))†F(GF(x))‖ ≤ −hλ(nλ(t))
h′0(nλ(t)).
Este resultado, junto com (3-23), implicam que GF(x) ∈ K(nλ(t)), assim o item (iii) está
provado.
A primeira inclusão da segunda parte do lema, segue trivialmente das definições (3-20) e
(3-21). Para verificar a última inclusão, tomemos x ∈ K. Segue que x ∈ K(t) para algum
t ∈ [0, t∗λ). Usando o item (iii) do lema, temos que GF(x) ∈ K(nλ(t)). Agora, usando a
definição de K e como nλ(t) ∈ [0, t∗λ), chegamos a última inclusão do lema.
Finalmente, estamos prontos para provar o resultado principal desta seção, que
é consequência imediata do último resultado. Primeiramente note que a sequência xk(veja (3-5)) satisfaz a igualdade
xk+1 = GF(xk), k = 0,1, . . . , (3-30)
ao qual é uma definição equivalente desta sequência.
Corolário 3.13 A sequência xk está bem definida, contida na B(x0, t∗λ), converge para
um ponto x∗ ∈ B[x0, t∗λ] tal que F ′(x∗)†F(x∗) = 0. As sequências xk e tλ,k satisfazem
(3-6), (3-7). Além disso, se λ = 0, a sequência xk converge R-linearmente (ou se, λ = 0
e h′0(tλ∗)< 0, R-quadraticamente) para x∗.
Demonstração. Primeiramente, mostraremos por indução que
xk ∈ K(tλ,k), k = 0,1, . . . . (3-31)
Com efeito, como ‖F ′(x0)†F(x0)‖= β, então usando o item (i) da Proposição 3.5, tem-se
que
x0 ∈ K(0)⊂ K,
3.1 Convergência do Método de Gauss-Newton 39
onde a segunda inclusão segue trivialmente de (3-21). Por indução, suponha agora
que xk ∈ K(tλ,k). Usando o item (iii) do Lema 3.12, (3-14) e (3-30), concluímos que
xk+1 ∈ K(tλ,k+1), isto concluí a indução.
Como tλ,k < t∗λ, segue de (3-20), (3-21) e da segunda parte do Lema 3.12 que K(tλ,k) ⊂K ⊂ B(x0, t∗λ). Agora, observe que, usando GF(K)⊂ K (Lema 3.12) e (3-30) implica que
xk está bem definida e contida em K ⊂ B(x0, t∗λ).
Agora, usando (3-31) e (3-20), obtemos
‖F ′(xk)†F(xk)‖ ≤ −hλ(tλ,k)
h′0(tλ,k), k = 0,1, . . . .
Este resultado, junto com (3-5), implicam que
‖xk+1 − xk‖ ≤ tλ,k+1 − tλ,k, k = 0,1, . . . .
Portanto, a primeira desigualdade em (3-6) está provada. Sabemos pelo Corolário 3.9 que
a sequência de números reais tλ,k converge para t∗λ. Daí a última inequação implica que
∞
∑k=k0
‖xk+1 − xk‖ ≤∞
∑k=k0
tλ,k+1− tλ,k = t∗λ − tλ,k0<+∞,
para qualquer k0 ∈ N. Portanto xk é uma sequência de Cauchy na B(x0, t∗λ), e converge
para algum x∗ ∈ B[x0, t∗λ]. Observe que, a última inequação implica na segunda desigual-
dade em (3-6). Iremos agora provar que F ′(x∗)†F(x∗) = 0. Usando simples manipulações
algébricas, (3-1) e (3-5) obtemos que
‖F ′(x∗)†F(xk)‖ ≤∥
∥
∥F ′(x∗)†
(
IRm −F ′(xk)F′(xk)
†)
F(xk)∥
∥
∥
+ ‖F ′(x∗)†‖‖F ′(xk)F′(xk)
†F(xk)‖≤ κ‖xk − x∗‖+‖F ′(x∗)†‖‖F ′(xk)‖‖xk+1 − xk‖
Como F é continuamente diferenciável, então tomando o limite na última inequação,
concluímos que F ′(x∗)†F(x∗) = 0. A desigualdade em (3-7) segue aplicando (3-31), o
item (ii) do Lema 3.12 com x = xk−1 e t = tλ,k−1, as definições (3-14), (3-30) e a primeira
igualdade em (3-5).
Para finalizar a prova, basta combinar a segunda inequação em (3-6) com a última parte
do Corolário 3.9.
Portanto, segue dos Corolários 3.9 e 3.13 que todas as afirmações no Teorema
3.2 são válidas.
CAPÍTULO 4Aplicações
Neste capítulo, apresentaremos três casos especiais do Teorema 3.2, a saber,
resultado de convergência onde F ′(x0) é sobrejetivo, resultado de convergência sob
condição Lipschitz e resultado de convergência sob condição de Smale para funções
analíticas. Por fim, daremos dois exemplos numéricos que esclarecem a aplicabilidade
dos resultados de convergência estudados aqui.
4.1 Resultado de Convergência quando F ′(x0) é sobreje-
tivo
Nesta seção, apresentaremos um teorema sob a hipótese que F ′(x0) é sobrejetivo.
Usaremos uma condição majorante, a qual torna a sequência xk gerada pelo método de
Gauss-Newton invariante sob função F → A†F , onde A : Rn → Rm é um operador linear
sobrejetivo.
Teorema 4.1 Seja Ω ⊆ Rn um conjunto aberto e F : Ω → R
m é uma função continua-
mente diferenciável. Seja x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0 e F ′(x0) é sobrejetivo.
Suponha que existem R > 0 e uma função continuamente diferenciável f : [0,R)→ R tal
que, B(x0,R)⊆ Ω,
‖F ′(x0)†F ′(y)−F ′(x)‖ ≤ f ′(‖y− x‖+‖x− x0‖)− f ′(‖x− x0‖), (4-1)
para quaisquer x,y ∈ Ω,‖x− x0‖+‖y− x‖< R, e além disso,
(h1) f (0) = 0, f ′(0) =−1;
(h2) f ′ é convexa e estritamente crescente.
Considere a função auxiliar h : [0,R)→ R,
h(t) := β+ f (t). (4-2)
4.1 Resultado de Convergência quando F ′(x0) é sobrejetivo 41
Se h satisfaz
(h3) h(t) = 0 para algum t ∈ (0,R),
então h(t) tem uma menor raiz t∗, as sequências para resolver h(t) = 0 e F(x) = 0, com
pontos iniciais t0 = 0 e x0, respectivamente,
tk+1 = tk −h′(tk)−1h(tk) xk+1 = xk −F ′(xk)
†F(xk), k = 0,1, . . . , (4-3)
estão bem definidas, tk é estritamente crescente, está contida em [0, t∗), e converge
Q-linearmente para t∗, xk está contido na B(x0, t∗), converge R-linearmente para um
ponto x∗ ∈ B[x0, t∗] tal que F ′(x∗)†F(x∗) = 0,
‖xk+1 − xk‖ ≤ tk+1 − tk, ‖x∗− xk‖ ≤ t∗− tk, k = 0,1, . . . , (4-4)
‖xk+1 − xk‖ ≤tk+1 − tk
(tk − tk−1)2‖xk − xk−1‖2, k = 1,2, . . . ,
e
‖F ′(x0)†F(xk)‖ ≤
(
tk+1 − tktk − tk−1
)
‖F ′(x0)†F(xk−1)‖, k = 1,2, . . . . (4-5)
Se, adicionalmente, h′(t∗) < 0, então as sequências tk e xk convergem Q-
quadraticamente e R-quadraticamente para t∗ e x∗, respectivamente.
Demonstração. Seja F : Ω → Rn dada por
F(x) = F ′(x0)†F(x), x ∈ Ω. (4-6)
Sobre as hipóteses do teorema, iremos provar que F satisfaz todas as hipóteses do
Teorema 3.2. Primeiramente, como F ′(x0) é sobrejetivo, segue de (2-5) que
F ′(x0)F′(x0)
† = IRm. (4-7)
Agora, seja x ∈ B[x0, t], 0 ≤ t < t∗. Usando as hipóteses (4-1), (h1) e (h2), obtemos
‖F ′(x0)†[F ′(x)−F ′(x0)]‖6 f ′(‖x− x0‖)− f ′(0)6 f ′(t)+1 < 1.
Usando o Lema 2.14 e a inequação acima, concluimos que(
IRn − F ′(x0)†(F ′(x0)−
F ′(x)))
é não singular e
‖(
IRn −F ′(x0)†(F ′(x0)−F ′(x))
)−1‖6 1
1−(
f ′(t)+1) =− 1
f ′(t)=− 1
h′(t). (4-8)
Agora, a equação em (4-7) implica que F ′(x) = F ′(x0)(
IRn −F ′(x0)†(F ′(x0)−F ′(x))
)
,
além disso, como F ′(x0) é sobrejetivo e(
IRn −F ′(x0)†(F ′(x0)−F ′(x))
)
é não singular,
4.1 Resultado de Convergência quando F ′(x0) é sobrejetivo 42
temos que F ′(x) é sobrejetivo para todo x ∈ B(x0, t∗). Note que, usando (4-6) e as
propriedades da inversa de Moore-Penrose, temos que
(F ′(x))† = (F ′(x0)†F ′(x))† = F ′(x)†F ′(x0), ∀ x ∈ Ω.
A última equação e (4-7) implica que F ′ satisfaz (3-1) com κ = 0, e a segunda sequência
em (4-3) coincide com a segunda sequência em (3-5). Além disso, usando a última
equação, (4-6), (4-7) e (2-6), obtemos
‖F ′(x0)†F ′(x0)‖= ‖(F ′(x0)
†F ′(x0))†F ′(x0)
†F ′(x0)‖= ‖F ′(x0)†F ′(x0)‖ (4-9)
e
‖F ′(x0)†‖= ‖F ′(x0)
†F ′(x0)‖= ‖ΠN (F ′(x0))⊥‖= 1. (4-10)
Note que, (4-9) implica que ‖F ′(x0)†F ′(x0)‖ > 0, e (4-10) junto com (4-1) e (4-6)
implicam que F ′ satisfaz (3-3) com f = f . Portanto, com exceção de (4-5), os resultados
do teorema seguem do Teorema 3.2 com F = F , f = f , hλ = h, λ = 0 e t∗λ = t∗.
Agora iremos mostrar (4-5). Com efeito, seja k ∈ 1,2, . . ., usando a equação (4-7) e
algumas manipulações algébricas temos
F ′(xk−1)†F ′(x0)
(
IRn −F ′(x0)†(F ′(x0)−F ′(xk−1))
)
= F ′(xk−1)†F ′(xk−1)
que, combinado com (2-6), (4-8) e ‖xk−1 − x0‖ ≤ tk−1 < t∗, resultam
‖F ′(xk−1)†F ′(x0)‖= ‖ΠN (F ′(xk−1))⊥(IRn −F ′(x0)
†(F ′(x0)F′(xk−1))
)−1‖≤ ‖(IRn −F ′(x0)
†(F ′(x0)−F ′(xk−1)))−1‖
≤ −(h′(tk−1))−1.
Observe que usando (4-3) e (4-7), temos que
‖xk − xk−1‖= ‖F ′(xk−1)†F(xk−1)‖ ≤ −(h′(tk−1))
−1‖F ′(x0)†F(xk−1)‖. (4-11)
4.2 Resultado de Convergência sob Condição Lipschitz 43
Como F(xk−1) também é sobrejetivo, segue de (2-5) que F ′(xk−1)F ′(xk−1)† = IRm . Este
resultado combinado com o Lema 3.11 e (4-4) obtém-se que
‖F ′(x0)†F(xk)‖= ‖F ′(x0)
†(F(xk)−F(xk−1)−F ′(xk−1)(xk − xk−1)‖≤ ‖F ′(x0)
†‖‖EF(xk−1,xk)‖
≤ e f (tk−1, tk)‖xk − xk−1‖(tk − tk−1)
= h(tk)‖xk − xk−1‖(tk − tk−1)
,
onde a última equação é obtida combinando (3-16), (4-2) e (4-3). Daí, usando a última
inequação, (4-11), e que tk e h′ são estritamente crescentes, obtemos
‖F ′(x0)†F(xk)‖ ≤ − h(tk)
h′(tk−1)
‖F ′(x0)†F(xk−1)‖
(tk − tk−1)
≤− h(tk)h′(tk)
‖F ′(x0)†F(xk−1)‖
(tk − tk−1).
Portanto, a inequação desejada surge aplicando a última inequação junto com a definição
de tk em (4-3).
4.2 Resultado de Convergência sob Condição Lipschitz
Nesta seção, mostraremos um teorema correspondente ao Teorema 3.2, onde a
condição geral (3-3) é substituída pela condição Lipschitz. Também apresentaremos um
teorema correspondente ao Teorema 4.1, onde usamos a condição Lipschitz em vez de
(4-1).
Teorema 4.2 Seja Ω ⊆ Rn um conjunto aberto e F : Ω → R
m é uma função continua-
mente diferenciável. Suponha que
‖F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)‖ ≤ κ‖x− y‖, ∀x,y ∈ Ω
para algum 0 ≤ κ < 1. Seja x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0,F ′(x0) 6= 0 e
Posto(F′(x))≤ Posto(F′(x0)), ∀x ∈ Ω.
Suponha que existem R > 0 e L > 0, tal que, B(x0,R)⊆ Ω,
‖F ′(x0)†‖‖(F ′(x)−F ′(y))‖ ≤ L‖x− y‖,
4.2 Resultado de Convergência sob Condição Lipschitz 44
para quaisquer x,y ∈ Ω,‖x−x0‖+‖y−x‖< R. Seja λ = (1−βL)κ e considere a função
auxiliar hλ : [0,R)→ R,
hλ(t) := β− (1−λ)t+(Lt2)/2.
Se
βL ≤ ∆ :=(1−κ)2
(κ2 −κ+1)+√
2κ2 −2κ+1,
então hλ(t) tem uma menor raiz t∗λ =(
1−λ−√
(1−λ)2−2βL)
/L, as sequências para
resolver hλ(t) = 0 e F(x) = 0, com pontos iniciais tλ,0 = 0 e x0, respectivamente,
tλ,k+1 = tλ,k −h′0(tλ,k)−1hλ(tλ,k), xk+1 = xk −F ′(xk)
†F(xk), k = 0,1, . . . ,
estão bem definidas, tλ,k é estritamente crescente, está contida em [0, t∗λ), e converge
para t∗λ, xk está contido na B(x0, t∗λ), converge para um ponto x∗ ∈ B[x0, t∗] tal que
F ′(x∗)†F(x∗) = 0,
‖xk+1 − xk‖ ≤ tλ,k+1− tλ,k, ‖x∗− xk‖ ≤ t∗λ − tλ,k, k = 0,1, . . . ,
‖xk+1 − xk‖ ≤tλ,k+1− tλ,k
(tλ,k − tλ,k−1)2‖xk − xk−1‖2, k = 1,2, . . . .
Além disso, se λ = 0, as sequências tλ,k e xk convergem Q-linearmente e R-
linearmente (ou se, λ = 0 e h′0(t∗λ)< 0, Q-quadraticamente e R-quadraticamente) para t∗λ
e x∗, respectivamente.
Demonstração. Observe que F,x0 e f : [0,R)→ R definida por f (t) = Lt2/2− t, satisfa-
zem a inequação (3-3), e as condições (h1) e (h2). Portanto,
hλ(t) := β− (1−λ)t+(Lt2)/2 = β+λt + f (t).
Uma vez que,
βL ≤ ∆ =(1−κ)2
(κ2 −κ+1)+√
2κ2−2κ+1=
(1−κ)2
(1−κ)2+κ+√
2κ2 −2κ+1≤ 1, (4-12)
temos que λ = (1 − βL)κ ≥ 0 e λ = −κ f ′(β). Além disso, a primeira desi-
gualdade em (4-12) implica que (1 − λ)2 − 2βL ≥ 0, i.e., hλ satisfaz (h3) e
t∗λ =(
1−λ−√
(1−λ)2−2βL)
/L é a menor raiz.
Portanto, tomando f ,hλ,λ e t∗λ definidos acima, temos que todas as afirmações do teorema
seguem do Teorema 3.2.
4.3 Resultado de Convergência sob Condição Smale 45
Sob a condição Lipschitz, o Teorema 4.1 torna-se:
Teorema 4.3 Seja Ω ⊆ Rn um conjunto aberto e F : Ω → R
m é uma função continua-
mente diferenciável. Seja x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0 e F ′(x0) é sobrejetivo.
Suponha que existem R > 0 e L > 0, tais que, B(x0,R)⊆ Ω,
‖F ′(x0)†(F ′(x)−F ′(y))‖ ≤ L‖x− y‖,
para quaisquer x,y ∈ Ω,‖x−x0‖+‖y−x‖< R. Considere a função auxiliar h : [0,R)→R,
h(t) := β− t +(Lt2)/2.
Se βL≤ 1/2, então h(t) tem uma menor raiz t∗=(
1−√
1−2βL)
/L, as sequências para
resolver h(t) = 0 e F(x) = 0, com pontos iniciais t0 = 0 e x0, respectivamente,
tk+1 = tk −h′(tk)−1h(tk), xk+1 = xk −F ′(xk)
†F(xk), k = 0,1, . . . ,
estão bem definidas, tk é estritamente crescente, está contida em [0, t∗), e converge
Q-linearmente para t∗, xk está contido na B(x0, t∗), converge R-linearmente para um
ponto x∗ ∈ B[x0, t∗] tal que F ′(x∗)†F(x∗) = 0,
‖xk+1 − xk‖ ≤ tk+1 − tk, ‖x∗− xk‖ ≤ t∗− tk, k = 0,1, . . . ,
‖xk+1 − xk‖ ≤tk+1 − tk
(tk − tk−1)2‖xk − xk−1‖2, k = 1,2, . . . ,
e
‖F ′(x0)†F(xk)‖ ≤
(
tk+1 − tktk − tk−1
)
‖F ′(x0)†F(xk−1)‖, k = 1,2, . . . .
Se, adicionalmente, βL < 1/2, então as sequências tk e xk convergem Q-
quadraticamente e R-quadraticamente para t∗ e x∗, respectivamente.
Demonstração. A prova segue de modo idêntico a prova do Teorema 4.2.
4.3 Resultado de Convergência sob Condição Smale
Nesta seção, mostraremos um teorema correspondente ao Teorema 3.2, onde a
condição majorante (3-3) é substituída pela condição de Smale, para funções analíticas.
Também apresentaremos um teorema correspondente ao Teorema 4.1, onde usamos a
condição de Smale em vez de (4-1). Para mais informações sobre a condição de Smale,
ver por exemplo [7, 8, 9, 10, 11, 12, 15, 16, 23].
4.3 Resultado de Convergência sob Condição Smale 46
Para simplificar, iremos tomar λ = κ no próximo teorema. Como vimos na
Observação 3.3, está é sempre uma possível escolha para λ.
Teorema 4.4 Seja Ω ⊆ Rn um conjunto aberto e F : Ω → R
m uma função analítica.
Suponha que
‖F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)‖ ≤ κ‖x− y‖, ∀ x,y ∈ Ω (4-13)
para algum 0 ≤ κ < 1. Seja x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0, F ′(x0) 6= 0 e
Posto(F ′(x))≤ Posto(F ′(x0)), ∀ x ∈ Ω.
Suponha que
γ := ‖F ′(x0)†‖sup
n>1
∥
∥
∥
∥
∥
F (n)(x0)
n!
∥
∥
∥
∥
∥
1/(n−1)
<+∞, B(x0,1/γ)⊆ Ω. (4-14)
Considere a função auxiliar hκ : [0, 1/γ)→ R,
hκ(t) := β− (2−κ)t + t/(1− γt).
Se
α := βγ ≤ 3−κ−2√
2−κ,
então hκ(t) tem uma menor raiz
t∗κ =(
1−κ+α−√
(1−κ+α)2−4(2−κ)α)
/(2γ(2−κ)), (4-15)
as sequências para resolver hκ(t) = 0 e F(x) = 0, com pontos iniciais tκ,0 = 0 e x0,
respectivamente,
tκ,k+1 = tκ,k −h′0(tκ,k)−1hκ(tκ,k), xk+1 = xk −F ′(xk)
†F(xk), k = 0,1, . . . , (4-16)
estão bem definidas, tκ,k é estritamente crescente, está contida em [0, t∗κ), e converge
para t∗κ, xk está contida na B(x0, t∗κ), converge para um ponto x∗ ∈ B[x0, t∗κ] tal que
F ′(x∗)†F(x∗) = 0,
‖xk+1 − xk‖ ≤ tκ,k+1 − tκ,k, ‖x∗− xk‖ ≤ t∗κ − tκ,k, k = 0,1, . . . ,
e
‖xk+1 − xk‖ ≤tκ,k+1 − tκ,k
(tκ,k − tκ,k−1)2‖xk − xk−1‖2, k = 1,2, . . . .
4.3 Resultado de Convergência sob Condição Smale 47
Além disso, se κ = 0, então as sequências tκ,k and xk convergem Q-linearmente e
R-linearmente (ou, se κ = 0 e h′0(t∗κ)< 0, Q-quadraticamente e R-quadraticamente) para
t∗κ e x∗, respectivamente.
Para provar o teorema acima, precisaremos dos seguintes resultados.
Lema 4.5 Seja Ω⊆Rn um conjunto aberto e F : Ω→R
m uma função analítica. Suponha
que x0 ∈ Rn e γ está definido em (4-14). Então, para todo x ∈ B(x0,1/γ) temos que
‖F ′(x0)†‖‖F ′′(x)‖6 (2γ)/(1− γ‖x− x0‖)3.
Demonstração. Seja x ∈ Ω. Como F é uma função analítica, então
F ′′(x) = F ′(x0)∞
∑n=0
1n!
F (n+2)(x0)(x− x0)n.
Combinando o resultado acima com (4-14), obtemos que
‖F ′(x0)†‖‖F ′′(x)‖ ≤ γ
∞
∑n=0
(n+2)(n+1)(γ‖x− x0‖)n.
Como B(x0,1/γ) ⊂ Ω, temos então que γ‖x− x0‖ < 1. Daí, usando a Proposição 2.32,
concluímos que
2(1− γ‖x− x0‖)3 =
∞
∑n=0
(n+2)(n+1)(γ‖x− x0‖)n.
Lema 4.6 Seja Ω ⊆ Rn um conjunto aberto e F : Ω → R
m duas vezes continuamente
diferenciável em Ω. Se existe uma função f : [0,R) → R duas vezes continuamente
diferenciável com derivada f ′ convexa e satisfaz
‖F ′(x0)†‖‖F ′′(x)‖6 f ′′(‖x− x0‖), (4-17)
para todo x ∈ Ω tal que ‖x− x0‖< R, então F e f satisfazem (3-3).
Demonstração. Sejam x,y ∈ Ω tal que ‖x− x0‖+‖y− x‖< R. Note então que
‖F ′(x0)†‖‖F ′(y)−F ′(x)‖ ≤
∫ 1
0‖F ′(x0)
†F ′′ (x+ τ(y− x))‖‖y− x‖dτ.
4.3 Resultado de Convergência sob Condição Smale 48
Usando este resultado, o fato que f satisfaz (4-17) e f ′ é convexa, obtemos que
‖F ′(x0)†‖‖F ′(y)−F ′(x)‖ ≤
∫ 1
0f ′′ (‖(x− x0)+ τ(y− x)‖)‖y− x‖dτ
≤∫ 1
0f ′′ (‖(x− x0)‖+ τ‖(y− x)‖)‖y− x‖dτ
= f ′(‖x− x0‖+‖y− x‖)− f ′(‖x− x0‖).
Portanto o resultado acima implica que F e f satisfazem (3-3) e o lema está provado.
Demonstração do Teorema 4.4. Considere a função f : [0,1/γ)→ R definida por
f (t) =t
1− γt−2t.
É fácil mostrar que f é analítica e que
f (0) = 0, f ′(t) = 1(1−γt)2 −2, f ′(0) =−1,
f ′′(t) = 2γ(1−γt)3 , f n(0) = n!γn−1,
para n ≥ 2. Segue das últimas igualdades que f satisfaz (h1) e (h2). Além disso, como
f ′′(t) = (2γ)/(1− γt)3, então combinando este resultado com os Lemas (4.5) e (4.6),
temos que F e f satisfazem (3-3) com R = 1/γ. Agora, note que
hκ(t) = β− (2−κ)t+ t/(1− γt) = β+λt + f (t).
Como λ = κ, temos então que 0 ≤ λ < 1 e λ = −κ f ′(0) ≥ −κ f ′(β), onde a úl-
tima inequação segue de (h2). Além disso, α = βγ ≤ 3 − κ − 2√
2−κ implica que(
(1−κ+α)2 −4(2−κ)α ≥ 0)
, i.e., hκ satisfaz (h3) e
t∗κ =1−κ+α−
√
(1−κ+α)2−4(2−κ)α
2γ(2−κ)
é a menor raiz.
Portanto, tomando f ,λ = κ,hλ = hκ e t∗λ = t∗κ definidos acima, temos que todas as
afirmações do teorema seguem do Teorema 3.2.
Sob a condição de Smale, o Teorema 4.1 torna-se:
Teorema 4.7 Seja Ω ⊆Rn um conjunto aberto e F : Ω →R
m uma função analítica. Seja
4.4 Exemplos Numéricos 49
x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0, F ′(x0) é sobrejetivo. Suponha que
γ := ‖F ′(x0)†‖sup
n>1
∥
∥
∥
∥
∥
F(n)(x0)
n!
∥
∥
∥
∥
∥
1/(n−1)
<+∞, B(x0,1/γ)⊆ Ω.
Considere a função auxiliar h : [0, 1/γ)→ R,
h(t) := β−2t + t/(1− γt).
Se
α := βγ ≤ 3−2√
2,
então h(t) tem uma menor raiz
t∗ =(
1+α−√
(1+α)2−8α)
/(4γ)
as sequências para resolver h(t) = 0 e F(x) = 0, com pontos iniciais t0 = 0 e x0,
respectivamente,
tk +1 = tk −h′(tk)−1h(tk), xk+1 = xk −F ′(xk)
†F(xk), k = 0,1, . . . ,
estão bem definidas, tk é estritamente crescente, está contida em [0, t∗), e converge
para t∗, xk está contida na B(x0, t∗), converge para um ponto x∗ ∈ B[x0, t∗] tal que
F ′(x∗)†F(x∗) = 0,
‖xk+1 − xk‖ ≤ tk+1 − tk, ‖x∗− xk‖ ≤ t∗− tk, k = 0,1, . . . ,
e
‖xk+1 − xk‖ ≤tk+1 − tk
(tk − tk−1)2‖xk − xk−1‖2, k = 1,2, . . . .
Além disso, se α := βγ < 3 − 2√
2, então as sequências tk and xk convergem Q-
quadraticamente e R-quadraticamente para t∗ e x∗, respectivamente.
Demonstração. A prova segue de modo idêntico a prova do Teorema 4.4.
4.4 Exemplos Numéricos
Nesta seção, daremos dois exemplos que demonstram a importância da classe
de sistemas de equações não-linear estudada neste trabalho. O primeiro exemplo ilustra
o caso quando κ 6= 0 e o segundo quando κ = 0, porém F ′(x) não é sobrejetivo.
4.4 Exemplos Numéricos 50
Todos os exemplos contidos nesta seção foram retirados de [23]. Nos exemplos abaixo,
consideraremos R2 com a norma-l1, i.e., ‖x‖=∞
∑i=1
|xi|, onde x : N→R.
Exemplo 4.8 Considere o operador F : R2 → R2 definido por
F(x) = (sen(x1 − x2),cos(x1 − x2)−1)T , x = (x1,x2) ∈ R2
Note que F é analítica em R2, e que
F ′(x) =
[
cos(x1 − x2) −cos(x1 − x2)
−sen(x1 − x2) sen(x1 − x2)
]
.
Assim Posto(F ′(x)) = 1. Daí a pseudo-inversa de Moore-Penrose é
F ′(x)† =12
[
cos(x1 − x2) −sen(x1 − x2)
−cos(x1 − x2) sen(x1 − x2)
]
.
Além disso, por indução matemática obtemos que
F(n)(x)u1u2 . . .un =
[
sen(
x1 − x2 +nπ2
)
cos(
x1 − x2 +nπ2
)
]
n
∏i=1
(u1i −u2
i ) n = 1,2, . . . ,
onde ui = (u1i ,u
2i ) ∈ R
2, para i = 1,2, . . . ,n. Segue então que,
‖F ′(x)†‖= max| cos(x1 − x2) |, | sen(x1 − x2) |
e
‖F(n)(x)‖=| cos(x1 − x2) |+ | sen(x1 − x2) | .
Consequentemente,
γ = ‖F ′(x)†‖supn>1
∥
∥
∥
∥
∥
F(n)(x)n!
∥
∥
∥
∥
∥
1/(n−1)
=| cos(x1 − x2) |+ | sen(x1 − x2) |
2max| cos(x1 − x2) |, | sen(x1 − x2) |. (4-18)
Seja Ω = (x1,x2) : −π5 < xi <
π5 , i = 1,2 ⊆R
2. Note que 0 ≤ 1−cos(x1−x2)≤ 710 para
qualquer (x1,x2) ∈ Ω, concluímos então que
∥
∥
∥F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)
∥
∥
∥=| (1− cos(x1 − x2))sen(x1− x2 − (y1 − y2)) |
≤ 710
‖x− y‖
4.4 Exemplos Numéricos 51
para qualquer y = (y1,y2) ∈ Ω. Daí (4-13) é satisfeita com κ = 710 . Tomemos agora o
ponto inicial x0 = (1/32,0) ∈ Ω. Então obtemos
β := ‖F ′(x0)†F(x0)‖= sen(
132
)
e, a partir de (4-18), temos
γ = ‖F ′(x0)†‖sup
n>1
∥
∥
∥
∥
∥
F(n)(x0)
n!
∥
∥
∥
∥
∥
1/(n−1)
=12
cos(132
)
(
sen(1
32)+ cos(
132
)
)
.
Segue então que
α := βγ =14
sen(116
)
(
sen(132
)+ cos(1
32)
)
<23−2
√130
10= 3−κ−2
√2−κ.
Usando o resultado acima, e (4-15) obtemos
t∗κ <1−κ+α
2γ(2−κ)=
6+5sen( 116)
(
sen( 132)+ cos( 1
32))
26cos( 132)
(
sen( 132)+ cos( 1
32)) <
12.
Portanto, podemos aplicar o Teorema 4.4, para concluir que a sequência xk gerada
pelo método de Gauss-Newton, segunda igualdade em (4-16), com ponto inicial x0
converge para um ponto x∗ ∈ B[x0, t∗κ] tal que F ′(x∗)†F(x∗) = 0.
Exemplo 4.9 Seja τ ∈ R e o operador F : R2 → R2 definido por
F(x) = (sen(x1 + x2),sen(x1 + x2)− τ)T , x = (x1,x2) ∈ R2
Observe que F é analítica em R2, e que
F ′(x) = cos(x1 + x2)
[
1 1
1 1
]
.
Seja x1 + x2 6= π2 +nπ,n ∈ N, daí Posto(F ′(x)) = 1. Logo F ′(x) não é sobrejetivo. Segue
que a pseudo-inversa de Moore-Penrose é
F ′(x)† =1
4cos(x1 + x2)
[
1 1
1 1
]
.
Segue que
β := ‖F ′(x)†F(x)‖= | sen(x1 + x2)− τ2) |
| cos(x1 + x2) |(4-19)
4.4 Exemplos Numéricos 52
e
∥
∥
∥F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)
∥
∥
∥=
(
0
0
)
, para qualquer y = (y1,y2) ∈ Ω.
Além disso, por indução matemática obtemos que
F(n)(x)u1u2 . . .un =
[
sen(
x1 + x2 +nπ2
)
sen(
x1 + x2 +nπ2
)
]
n
∏i=1
(u1i +u2
i ) n = 1,2, . . . ,
onde ui = (u1i ,u
2i ) ∈ R
2, para i = 1,2, . . . ,n. Segue então que,
‖F ′(x)†‖= 12 | cos(x1 + x2) |
e ‖F(n)(x)‖= 2 | sen(x1 + x2 +nπ
2) | .
Consequentemente,
γ = ‖F ′(x)†‖supn>1
∥
∥
∥
∥
∥
F(n)(x)n!
∥
∥
∥
∥
∥
1/(n−1)
= max
√6
6, sup
n≥1
( | tan(x1 + x2) |(2n)!
)1/(2n−1)
. (4-20)
Seja τ = 1 e tomemos o ponto inicial x0 = (π6 ,
5π48 ). Daí a partir de (4-19) e (4-20) obtemos
que
γ = ‖F ′(x0)†‖sup
n>1
∥
∥
∥
∥
∥
F(n)(x0)
n!
∥
∥
∥
∥
∥
1/(n−1)
=12
tan(13π
48)
e
β = sec(13π
48)
(
sen(13π
48)− 1
2
)
.
Segue então que
α = βγ =12
tan(13π
48)
1
cos(13π48 )
(
sen(13π
48)− 1
2
)
< 3−2√
2.
Portanto, podemos aplicar o Teorema 4.4, para concluir que a sequência xk gerada
pelo método de Gauss-Newton, segunda igualdade em (4-16), com ponto inicial x0
converge para um ponto x∗ ∈ B[x0, t∗0 ] tal que F ′(x∗)†F(x∗) = 0.
CAPÍTULO 5Considerações Finais
Nesta dissertação, usando uma simples condição majorante para o operador não-
linear, uma análise de convergência semi-local do método de Gauss-Newton para resolver
o problema (1-1) onde F satisfaz (1-4) foi apresentada. Este estudo, principalmente os
capítulos 3 e 4, foram baseados no trabalho [16]. Porém quase todos os resultados para
convergência semi-local do método de Gauss-Newton foram demonstrados.
Através dos Lemas 3.11 e 3.12, percebemos que a condição majorante usada
aqui, deixou clara a relação entre o operador não-linear F e a função majorante f .
Também, esta condição majorante, nos permitiu unificar resultados de convergência sem
qualquer ligação prévia em um único teorema, a saber, resultados sob condições Lipschitz
e de Smale. Além disso, no caso em que F ′ é sobrejetivo usamos uma condição majorante,
que assegurou uma importante propriedade de invariância da sequência de Gauss-Newton.
A respeito da classe de sistemas estudada neste trabalho, vimos que quando a
derivada do operador não-linear F é sobrejetivo, o sistema F(x) = 0 pertence a ela. Além
disso, dois exemplos foram estudados, Exemplos 4.8 e 4.9, que mostraram que a classe
contém outros tipos de sistemas que não são sobrejetivos.
A análise de convergência efetuada neste trabalho, nos motiva a uma proposta
de pesquisa futura que seria analisar a convergência de variantes dos métodos de Gauss-
Newton e de Newton usando nossa condição majorante. Outra proposta seria estudar aná-
lise de convergência dos métodos de Gauss-Newton e Newton em variedades Riemmani-
anas.
Referências Bibliográficas
[1] AGUIAR, A. A. Análise de Convergência Local do Método de Gauss-Newton
sob Condição Lipschitz. Monografia de Especialização em Matemática, IME/UFG,
Goiânia, 2007.
[2] BEN-ISRAEL, A; GREVILLE, T. N. E. Generalized Inverses: Theory and Applica-
tions. CMS Books in Mathematics, 2 edition, 1973.
[3] BERTSEKAS, D. P. Nonlinear Programming. Athena Scientific, Belmont, Massa-
chusetts, 2 edition, 1999.
[4] BOLDRINI, J. L. Álgebra Linear. Harper & Row do Brasil, São Paulo, 3 edition,
1980.
[5] CHONG, E; ZAK, S. H. An Introduction to Optimization. John Wiely & Sons Inc,
New York, NY, 2 edition, 2001.
[6] DENNIS, J; SCHNABEL, R. B. Numerical methods for unconstrained optimiza-
tion and nonlinear equations v. 16. Classics in Applied Mathematics. Society for
Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 1996. Corrected reprint
of the 1983 original.
[7] FERREIRA, O; GONÇALVES, M. L. N. Local convergence analysis of inexact
newton-like methods under majorant condition. Computational Optimization and
Applications, 48:1–21, 2011.
[8] FERREIRA, O; GONÇALVES, M. L. N; OLIVEIRA, P. R. Local convergence analysis
of the gauss-newton method under a majorant condition. Journal of Complexity,
27:111–125, 2011.
[9] FERREIRA, O; GONÇALVES, M. L. N; OLIVEIRA, P. R. Local convergence analysis
of inexact gauss-newton like methods under majorant condition. Journal of
Computational and Applied Mathematics, 236:2487–2498, 2012.
Referências Bibliográficas 55
[10] FERREIRA, O; GONÇALVES, M. L. N; OLIVEIRA, P. R. Convergence of the gauss-
newton method for convex composite optimization under a majorant condition.
SIAM Journal on Optimization, 23:1757–1783, 2013.
[11] FERREIRA, O. P. Local convergence of newton’s method in banach space from
the viewpoint of the majorant principle. IMA Journal of Numerical Analysis,
29(3):746–759, 2009.
[12] FERREIRA, O. P; SVAITER, B. F. Kantorovich’s majorants principle for newton’s
method. Computational Optimization and Applications, 42(2):213–229, 2009.
[13] FLOUDAS, C. A; PARDALOS, P. M. Encyclopedia of Optimization. Springer,
second edition, 2009.
[14] GOLUB, G. H; LOAN, C. F. V. Matrix Computations. The Johns Hopkins University
Press, Baltimore and London, third edition, 1996.
[15] GONÇALVES, M. L. N. Local convergence of the gauss-newton method for
injective-overdetermined systems of equations under a majorant condition.
Computers & Mathematics with Applications, 66:490–499, 2013.
[16] GONÇALVES, M. L. N; OLIVEIRA, P. R. Convergence of the gauss-newton
method for a special class of systems of equations under a majorant condition.
Optimization: A Journal of Mathematical Programming and Operations Research,
DOI:10.1080/02331934.2013.778854, 2013.
[17] HIRIART-URRUTY, J. B; LEMARÉCHAL, C. Convex Analysis and minimization
algorithms I. Springer-Verlag, New York, 2 edition, 1993.
[18] HU, N; SHEN, W; LI, C. Kantorovich’s type theorems for systems of equations
with constant rank derivatives. Journal of Computational and Applied Mathematics,
219:110–122, 2008.
[19] HÄUSSLER, W. M. A kantorovich-type analysis for the gauss-newton method.
Numerische Mathematik, 48:119–125, 1986.
[20] IZMAILOV, A; SOLODOV, M. Otimização - volume1. Condições de Otimalidade,
Elementos de Análise Convexa e de Dualidade. IMPA, Rio de Janeiro, 2 edition,
2005.
[21] IZMAILOV, A; SOLODOV, M. Otimização - volume2. Métodos Computacionais.
IMPA, Rio de Janeiro, 2007.
Referências Bibliográficas 56
[22] LAWSON, C. L; HANSON, R. J. Solving Least Squares Problems. SIAM, Phila-
delphia, PA, 12 edition, 1995.
[23] LI, C; HU, N; WANG, J. Convergence behavior of gauss-newton’s method and
extensions of the smale point estimate theory. Journal of Complexity, 26:268–295,
2010.
[24] LIMA, E. L. Curso de análise - volume 2. IMPA, Rio de Janeiro, 9 edition, 2006.
[25] LIMA, E. L. Curso de análise - volume 1. IMPA, Rio de Janeiro, 12 edition, 2007.
[26] LIMA, E. L. Álgebra Linear. IMPA, Rio de Janeiro, 8 edition, 2009.
[27] MENDES, R. M. N. Álgebra Linear. PUC Minas, Belo Horizonte, 2013. ISBN:
978-85-915683-0-7.
[28] NOCEDAL, J; WRIGHT, S. J. Numerical optimization. Sringer Series in Operati-
ons Research. Springer-Verlag, New York, 2 edition, 2006.
[29] POTRA, F. A. On q-order and r-order of convergence. Journal of Optimization
Theory and Applications, 63:415–431, 1989.
[30] RIBEIRO, A. A; KARAS, E. W. Otimização Contínua: aspectos teóricos e compu-
tacionais. Cengage Learning, São Paulo, 2013.
[31] SPIEGEL, M. R. Estatística - Coleção Schaum. McGraw-Hill do Brasil, São Paulo,
1977.
[32] STEWART, G. W. On the continuity of the generalized inverse. SIAM Journal on
Applied Mathematics, 17:35–45, 1969.
[33] WANG, X. Convergence of newton’s method and uniqueness of the solution of
equations in banach space. IMA Journal of Numerical Analysis, 20:123–134, 2000.