análise semi-local do método de gauss-newton sob uma ...§ão_-_ademir_alv… · informações...

UNIVERSIDADE FEDERAL DE GOIÁS

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

ADEMIR ALVES AGUIAR

Análise Semi-Local do Método deGauss-Newton Sob uma Condição

Majorante

Goiânia2014

ADEMIR ALVES AGUIAR

Análise Semi-Local do Método deGauss-Newton Sob uma Condição

Majorante

Dissertação apresentada ao Programa de Pós–Graduaçãodo Instituto de Matemática e Estatística da UniversidadeFederal de Goiás, como requisito parcial para obtenção dotítulo de Mestre em Matemática.

Área de concentração: Otimização.

Orientador: Prof. Dr. Max Leandro Nobre Gonçalves

Goiânia2014

Ficha catalográfica elaboradaautomaticamente com os dados fornecidos pelo(a) autor(a).

Alves Aguiar, Ademir Análise Semi-Local do Método de Gauss-Newton Sob umaCondição Majorante [manuscrito] / Ademir Alves Aguiar. - 2014. 56 f.

Orientador: Prof. Dr. Max Leandro Nobre Gonçalves .Dissertação (Mestrado) - Universidade Federal de Goiás, Instituto deMatemática e Estatística (IME) , Programa de Pós-Graduação emMatemática, Goiânia, 2014. Bibliografia.

1. Método de Gauss-Newton. 2. Condição Majorante. 3. Sistemas deEquações não-linear. 4. Convergência Semi-Local. I. , Dr. Max LeandroNobre Gonçalves, orient. II. Título.

Todos os direitos reservados. É proibida a reprodução total ou parcial dotrabalho sem autorização da universidade, do autor e do orientador(a).

Ademir Alves Aguiar

Graduou-se em Licenciatura em Matemática pela UVA - Universidade Esta-dual Vale do Acaráu. Durante o Mestrado foi bolsista da CAPES.

À minha querida esposa Gislene,

pelo carinho e apoio.

Agradecimentos

À Deus, por me amar e dar a oportunidade e capacidade de ver um sonho sendo

realizado, pois sem Deus não seria possível a conclusão deste projeto. Acima de tudo,

louvado e exaltado seja seu nome, a Ele toda honra e toda glória.

À minha esposa Gislene, já dedicado este trabalho, mas que merece todo agra-

decimento por seu amor, amizade, afeto, carinho, paciência e compreensão. Sua ajuda e

apoio foram determinantes para realização desta conquista.

À minha mãe Jaci, pelo amor, carinho, apoio, orientação em me fazer persistir

sempre, sem suas palavras de esforço seria impossível terminar esta dissertação.

À meu padrasto Gilberto, pelo incentivo e apoio.

À meu pai Isaias (em memória).

Aos amigos da pós-graduação, em especial Jefferson dos Santos, Marcos Tsujii,

Aderval Alves, Carlos Antônio, Pedro Bonfim, Fernando Zuniga, Vando Adona, pelo con-

vívio e amizade, além de me ajudarem nos momentos de dificuldades, sempre lembrarei

de vocês.

Ao meu orientador, professor Dr. Max Leandro Nobre Gonçalves, pela orienta-

ção, confiança, competência, paciência, amizade, motivação e dedicação que foram indis-

pensáveis para concretização deste trabalho.

Aos professores do Instituto de Matemática e Estatística da UFG, que passaram

pela minha trajetória durante o Mestrado em Matemática, em especial aos professores

Glaydston, Maurício Pieterzack, Durval e José Valdo.

À CAPES pela bolsa de estudos concedida, sem a qual seria difícil a concretiza-

ção dos estudos.

Resumo

Aguiar, Ademir Alves. Análise Semi-Local do Método de Gauss-NewtonSob uma Condição Majorante. Goiânia, 2014. 56p. Dissertação de Mestrado.Instituto de Matemática e Estatística, Universidade Federal de Goiás.

Nesta dissertação apresentamos uma análise de convergência semi-local do método de

Gauss-Newton para resolver uma classe especial de sistemas de equações não-lineares,

sob a hipótese que a derivada do operador não-linear satisfaz uma condição majorante. As

demonstrações e condições de convergência apresentadas neste trabalho são simplificadas

pelo uso de uma simples condição majorante. Outra ferramenta de demonstração que

simplifica o nosso estudo é a identificação de regiões onde a iteração de Gauss-Newton

está “bem-definida”. Além disso, casos especiais da teoria geral são apresentados como

aplicações.

Palavras–chave

<Método de Gauss-Newton, Condição Majorante, Sistemas de equações não-

linear, Convergência Semi-local.>

Abstract

Aguiar, Ademir Alves. <Semi-local Analysis of the Gauss- Newton undera majorant condition>. Goiânia, 2014. 56p. MSc. Dissertation. Instituto deMatemática e Estatística, Universidade Federal de Goiás.

In this dissertation we present a semi-local convergence analysis for the Gauss-Newton

method to solve a special class of systems of non-linear equations, under the hypothesis

that the derivative of the non-linear operator satisfies a majorant condition. The proofs

and conditions of convergence presented in this work are simplified by using a simple

majorant condition. Another tool of demonstration that simplifies our study is to identify

regions where the iteration of Gauss-Newton is “well-defined”. Moreover, special cases

of the general theory are presented as applications.

Keywords

<Gauss-Newton Method, Majorant Condition, Non-Linear systems of equations,

Semi-local Convergence.>

Sumário

1 Introdução 9

2 Notações e Resultados Preliminares 122.1 Noções Topológicas e Análise no Espaço Euclidiano 122.2 Noções sobre Transformações Lineares e Matrizes 14

2.2.1 Norma de Matrizes 152.2.2 Pseudo-Inversa de Moore-Penrose 18

2.3 Noções de Análise Convexa 232.4 Funções Analíticas 27

3 Análise Semi-Local para o Método de Gauss-Newton 283.1 Convergência do Método de Gauss-Newton 28

3.1.1 A função auxiliar e a sequência tλ,k 303.1.2 Convergência 34

4 Aplicações 404.1 Resultado de Convergência quando F ′(x0) é sobrejetivo 404.2 Resultado de Convergência sob Condição Lipschitz 434.3 Resultado de Convergência sob Condição Smale 454.4 Exemplos Numéricos 49

5 Considerações Finais 53

Referências Bibliográficas 54

CAPÍTULO 1Introdução

Considere o sistema de equações não-lineares

F(x) = 0, (1-1)

onde Ω⊂Rn é um conjunto aberto e F : Ω→R

m é uma função continuamente diferenciá-

vel em Ω. Se F ′(x) é invertível, o método de Newton e suas variações são os métodos mais

eficientes conhecidos para resolver (1-1), veja por exemplo [7, 11, 12, 33]. Entretanto, se

F ′(x) não é necessariamente invertível, uma generalização do método de Newton, deno-

minado método de Gauss-Newton, encontra soluções de mínimos quadrados de (1-1), os

quais podem ou não ser soluções de (1-1). Estas soluções de mínimos quadrados de (1-1)

estão relacionadas ao problema de mínimos quadrados não-linear:

minx∈Ω

‖F(x)‖2, (1-2)

i.e., tais soluções são pontos críticos da função G(x) = ‖F(x)‖2. Em todo trabalho, a

menos que seja mencionado o contrário explicitamente, ‖.‖ refere-se a norma-2.

Existem diversas aplicações prática para o problema de mínimos quadrados não-

linear, veja por exemplo [13, 28, 31]. Tais aplicações têm como estratégia a estimação

de parâmetros num modelo matemático. Estes problemas de estimação de parâmetros

surge numa grande variedade de disciplinas científicas, tais como o processamento de

sinais, engenharia em geral, estatística, física, economia, biologia, medicina, entre outras,

usando uma função da forma (1-2) para medir a disparidade entre as saídas do modelo e

o conjunto de dados.

Quando F ′(x) é sobrejetivo, pode ser provado que toda solução de mínimos

quadrados de (1-1) é uma solução do respectivo sistema. Formalmente o método de

Gauss-Newton é descrito como: dado um ponto inicial x0 ∈ Ω, defina

xk+1 = xk −F ′(xk)†F(xk), k = 0,1, . . . , (1-3)

onde F ′(xk)† denota a inversa de Moore-Penrose do operador linear F ′(xk). Para mais

10

informações sobre o método de Gauss-Newton e o problema de mínimos quadrados não-

linear, veja por exemplo [1, 3, 5, 22, 28].

Em nossa análise, iremos considerar a classe especial de sistemas de equações

não-lineares estudadas em [16, 18, 19, 23], i.e., sistemas de equações não-lineares onde a

função F em consideração satisfaz

‖F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)‖ ≤ κ‖x− y‖, ∀x,y ∈ Ω (1-4)

para algum 0 ≤ κ < 1 e IRm denota o operador identidade do Rm. Quando F ′(x) é

sobrejetivo, pode ser provado que κ = 0 satisfaz (1-4). Daí, a classe de sistemas de

equações não-lineares, a qual estudaremos, contém os sistemas de equações não-lineares

com derivada sobrejetiva. Além disso, esta classe contém outros exemplos de sistemas

com derivada não sobrejetivas, ver seção 4.4.

Nos últimos anos, vários trabalhos, veja por exemplo [7, 8, 9, 10, 11, 12, 15,

16, 18, 23], relacionados com a convergência do método de Newton e Gauss-Newton

relaxam a hipótese de continuidade Lipschitz de F ′. As principais condições que relaxam

a continuidade Lipschitz de F ′ são a condição majorante para o operador não-linear F ,

que usaremos nesta dissertação, e a condição de Wang, usada por exemplo em [23, 33].

Vale ressaltar, que a condição majorante usada neste trabalho é a seguinte: seja R > 0,

uma função continuamente diferenciável f : [0,R)→ R, é uma função majorante para o

operador F se satisfaz as seguintes hipóteses

‖F ′(x0)†‖‖F ′(y)−F ′(x)‖ ≤ f ′(‖y− x‖+‖x− x0‖)− f ′(‖x− x0‖),

para quaisquer x,y ∈ Ω,‖x− x0‖+‖y− x‖< R, e além disso,

(h1) f (0) = 0, f ′(0) =−1;

(h2) f ′ é convexa e estritamente crescente.

Para mais informações sobre a função majorante, veja por exemplo [7, 8, 9, 10, 11, 12,

15, 16]. Pode ser provado que sob as hipóteses deste trabalho, as duas condições, i.e., a

condição majorante e a condição de Wang são equivalentes, ver comentário 4 de [15].

Entretanto, a adotada em nossa análise tem a vantagem de deixar clara sua relação com o

operador não-linear.

O presente trabalho tem por objetivo apresentar uma análise de convergência

semi-local do método de Gauss-Newton para resolver (1-1), onde F satisfaz (1-4), sob

uma condição majorante. As demonstrações e condições de convergência apresentadas

neste trabalho são simplicadas pelo uso de uma simples condição majorante. Outra ferra-

menta de demonstração que simplifica o nosso estudo é a identificação de regiões onde

a iteração de Gauss-Newton está bem-definida quando comparada com uma determinada

função iteração. Também veremos que a condição majorante usada aqui nos permite obter

11

importantes casos particulares.

Ressaltamos que nosso estudo está fortemente baseado no trabalho [16]. Porém

nossa contribuição é de fazer um estudo abrangente da função majorante, onde quase

todos os resultados necessários para a convergência semi-local do método de Gauss-

Newton serão demonstrados. Uma outra contribuição de nosso estudo em relação à [16],

é de darmos exemplos numéricos que demonstram a importância da classe de sistemas de

equações não-linear mencionada acima.

Esta dissertação está organizada da seguinte forma. No capítulo 2, estabelece-

remos as notações e alguns resultados preliminares para o entendimento dos conceitos

envolvidos na apresentação do método de Gauss-Newton e no estudo de convergência

do método. No capítulo 3, apresentaremos a discussão sobre a convergência semi-local

do método de Gauss-Newton sob uma condição majorante. Mostraremos que sob cer-

tas condições, a sequência gerada pelo método está bem definida e converge para um

ponto crítico de (1-1). No capítulo 4, casos especiais da teoria geral serão apresentados

juntamente com alguns exemplos numéricos. Finalmente, no capítulo 5 faremos as consi-

derações finais.

CAPÍTULO 2Notações e Resultados Preliminares

No presente capítulo, apresentaremos alguns conceitos básicos e resultados de

Análise e Álgebra Linear que serão utilizados posteriormente. Iremos dar algumas noções

de análise convexa e também estudaremos a pseudo-inversa de Moore-Penrose de uma

matriz. Por fim, estudaremos o conceito de funções analíticas.

2.1 Noções Topológicas e Análise no Espaço Euclidiano

Nesta seção definiremos alguns conjuntos importantes do espaço euclidiano Rn,

sequências em Rn e o conceito de taxa de convergência de uma sequência.

Inicialmente, sejam dados o ponto a ∈ Rn e o número real ε > 0. A bola aberta

de centro a e raio ε é o conjunto

B(a,ε) = x ∈ Rn; ‖x−a‖< ε,

isto é, o conjunto dos pontos x ∈ Rn cuja a distância ao ponto a é menor do que ε.

Analogamente a bola fechada de centro a e raio ε é o conjunto

B[a,ε] = x ∈ Rn; ‖x−a‖ ≤ ε.

Uma sequência xk ⊂ Rn é uma aplicação x : N → R

n, que associa a cada

número natural k um vetor xk ∈ Rn. Diz-se que uma sequência xk é limitada quando

o conjunto de seus termos é limitado em Rn, isto é, quando existe um número real c > 0

tal que ‖xk‖ ≤ c, para todo k ∈ N.

Uma sequência xk ⊂ R diz-se monótona quando se tem xk ≤ xk+1 para todo

k ∈ N ou então xk+1 ≤ xk para todo k ∈ N. No primeiro caso, diz-se que xk é monótona

não-decrescente e, no segundo, que xk é monótona não-crescente.

Um conjunto A⊂Rn é aberto quando todos os seus pontos são interiores, ou seja,

para cada a ∈ A existe ε > 0 tal que B(a,ε)⊂ A. Um conjunto A ⊂ Rn é fechado quando

contém todos os seus pontos de aderência. Diz-se que um ponto a é aderente ao conjunto

2.1 Noções Topológicas e Análise no Espaço Euclidiano 13

A ⊂ Rn quando a é limite de alguma sequência de pontos xk ∈ A. Evidentemente, todo

ponto a ∈ A é aderente a A, basta tomar xk = a para todo k ∈ N. Chama-se f echo de um

conjunto A ao conjunto A formado por todos os pontos aderentes a A. Logo um conjunto

A é fechado se, e somente se, A = A, isto é, quando todo ponto aderente a A pertence a A.

Seja A⊂Rn. Um ponto a∈R

n diz-se ponto de acumulação do conjunto A quando

toda bola aberta de centro a contém algum ponto do conjunto A diferente do próprio a, ou

seja, para todo ε > 0, deve existir x ∈ A tal que 0 < ‖x−a‖< ε.

Definição 2.1 Diz-se que uma sequência xk converge para x∗ ∈Rn, se dado ε> 0 existe

n0 tal que

‖xk − x∗‖< ε, ∀k ≥ n0

Uma sequência xk é chamada sequência de Cauchy, se dado ε > 0 existe n0 tal que

‖xm − xk‖< ε, ∀m,k ≥ n0

Uma consequência imediata da Definição 2.1 é que

lim xk = x∗ ⇔ lim ‖xk − x∗‖ = 0.

Uma das maneiras de medir a velocidade de convergência de uma sequência

é calculando sua ordem de convergência. A seguir definiremos o conceito de ordem de

convergência de uma sequência, para mais informações veja por exemplo [6, 28, 29].

Definição 2.2 Seja xk uma sequência em Rn que converge para x∗. Dizemos que a

convergência é Q-linear se existem uma constante α ∈ (0,1) e k0 > 0 tal que

‖xk+1 − x∗‖ ≤ α‖xk − x∗‖, ∀k ≥ k0.

A convergência é dita Q-quadrática se existem uma constante M positiva e k0 > 0, tal que

‖xk+1 − x∗‖ ≤ M‖xk − x∗‖2, ∀k ≥ k0.

A desvantagem da definição acima é que, mesmo se não forem satisfeitas as

condições, a convergência de algumas sequências ainda pode ser razoavelmente rápida,

porém essa "velocidade"é variável. Dessa forma, a definição de taxa de convergência é,

às vezes, estendida como se segue.

Definição 2.3 Seja xk uma sequência em Rn que converge para x∗. Dizemos que a

convergência é R-linear se existe uma sequência σk tal que

‖xk − x∗‖ ≤ σk, ∀k,

2.2 Noções sobre Transformações Lineares e Matrizes 14

e a sequência σk converge Q-linearmente para zero. A convergência é dita R-

quadrática se existe uma sequência σk tal que

‖xk − x∗‖ ≤ σk, ∀k,

e a sequência σk converge Q-quadraticamente para zero.

A seguir, daremos um exemplo de convergência R-linear que pode ser encontrado

em [28].

Exemplo 2.4 Seja a sequência

xk =

1+ 12k , k par

1, k impar.

Note que a sequência xk converge para x∗ = 1. Além disso,

‖xk − x∗‖ ≤ 12k =: σk.

Onde σk converge Q-linearmente para zero. Logo xk converge R-linearmente.

2.2 Noções sobre Transformações Lineares e Matrizes

Nesta seção, apresentaremos os conceitos básicos de transformações lineares e

matrizes, que nos auxiliarão nas demonstrações de resultados posteriores neste trabalho.

Também estudaremos a pseudo-inversa de Moore-Penrose de uma matriz. Para mais

informações sobre os dois primeiros assuntos veja por exemplo [4, 26].

Inicialmente, denotaremos Rm×n o conjunto das matrizes m×n. Dado A∈Rm×n,

denotemos a transposta da matriz A por AT .

O espaço das transformações lineares de Rn em R

m é denotado por L(Rn,Rm).

É importante mencionar que se A ∈ L(Rn,Rm), então A ∈ Rm×n.

O posto segundo colunas de uma matriz A ∈ Rm×n é o número máximo de

colunas linearmente independentes em A. Este número é igual à dimensão do subespaço

vetorial de Rm gerado pelos vetores-coluna de A.

De maneira análoga, definimos o posto segundo linhas da matriz A∈Rm×n como

o número máximo de linhas linearmente independentes em A, ou seja, como a dimensão

do subespaço vetorial de Rn gerado pelos vetores-linha da matriz A.

Embora o vetores coluna e os vetores linha de A sejam sub-espaços de espaços

vetoriais diferentes, o seguinte resultado é válido:


Proposição 2.5 Para toda matriz A ∈ Rm×n, o posto segundo linhas e o posto segundo

colunas são iguais.

Demonstração. Ver Teorema 8.2, pp. 95 de Lima [26].

Portanto, segue a seguinte definição sobre o posto de uma matriz.

Definição 2.6 Seja A∈Rm×n. O posto de A, denotado por posto(A), é o número de linhas

ou de colunas linearmente independentes da matriz A.

Observação 2.7 Se posto(A) = minm,n, então A ∈ Rm×n é posto completo.

A seguir definiremos núcleo e a imagem de uma matriz.

Definição 2.8 Seja A ∈ Rm×n. Designa-se por Núcleo ou Kernel de uma matriz A,

denotado N (A), o seguinte subconjunto,

N (A) = x ∈ Rn |Ax = 0.

Denomina-se imagem de uma matriz A, o seguinte subconjunto,

R (A) = y ∈ Rm |y = Ax, para algum x ∈ R

n.

A seguir daremos a definição de matrizes invertíveis.

Definição 2.9 Uma matriz A∈Rn×n é dita invertível ou não singular, se existe uma matriz

B ∈ Rn×n tal que AB = BA = In, onde In é a matriz identidade de ordem n. A matriz B

é chamada de inversa de A. Escrevemos A−1 para inversa de A. Se A não tem inversa,

dizemos que A é singular ou não invertível.

Proposição 2.10 Uma matriz A ∈ Rn×n admite inversa se, e somente se, posto(A) = n.

Demonstração. Ver Corolário 3.8.2, pp. 47 de Mendes [27].

2.2.1 Norma de Matrizes

Nossa meta nesta subseção é estudar algumas propriedades de norma de matrizes

ou equivalentemente norma de transformações lineares. Além disso, demonstraremos o

conhecido Lema de Banach. Iniciaremos definindo norma.

Seja T,S∈L(Rn,Rm). Uma norma ‖.‖ é uma aplicação que associa a cada matriz

um número real não negativo satisfazendo as seguintes propriedades.


N1. T 6= 0 ⇒‖T‖> 0;

N2. ‖αT‖= |α|‖T‖, ∀α ∈ R;

N3. ‖T +S‖ ≤ ‖T‖+‖S‖.

A condição N3 é conhecida como desigualdade triangular. A seguir daremos um

exemplo de norma matricial induzida pela norma vetorial.

Exemplo 2.11 Seja T ∈ L(Rn,Rm). Considere a norma das transformações lineares ‖.‖como sendo o número

‖T‖= sup‖x‖6=0

‖T x‖‖x‖ (2-1)

É fácil ver que (2-1) satisfaz as propriedades N1, N2 e N3.

Além disso, a aplicação norma matricial induzida pela norma vetorial goza das

seguintes propriedades.

Lema 2.12 Dados T,S ∈ L(Rn,Rn) e x ∈ Rn, então são válidas as seguintes proprieda-

des:

i) ‖T x‖ ≤ ‖T‖‖x‖;

ii) ‖T S‖ ≤ ‖T‖‖S‖;

iii) ‖T k‖ ≤ ‖T‖k, ∀ k = 0,1,2, . . ..

Demonstração. i) Se x é o vetor nulo segue imediato da definição de norma em Rn. Se x

não é o vetor nulo, considere o vetor y = x/‖x‖ e usando (2-1) temos

‖T‖ ≥ ‖Ty‖= 1‖x‖‖T x‖.

Portanto ‖T x‖ ≤ ‖T‖‖x‖.

ii) É fácil ver de (2-1), do item i e propriedades do supremo que

‖T S‖= sup‖x‖6=0

‖T Sx‖‖x‖ ≤ sup

‖x‖6=0

‖T‖‖Sx‖‖x‖ = ‖T‖‖S‖,

o que prova o item ii.

iii) É consequência imediata do item ii.

Observação 2.13 Existem normas matriciais que satisfazem as propriedades N1, N2 e

N3, sem necessariamente satisfazer (2-1) como por exemplo a norma de Frobenius.


Além disso, existem normas matriciais que satisfazem satisfazem as propriedades N1, N2

e N3 mas não satisfazem o item ii do Lema 2.12, como por exemplo a norma l∞ (norma

do máximo). Para mais informações sobre normas matriciais, veja por exemplo, [14, 24].

Lema 2.14 (Lema de Banach) Sejam B ∈ L(Rn,Rn) um operador linear e I o operador

identidade de Rn. Se ‖B− I‖< 1, então B é não singular e vale

‖B−1‖ ≤ 1/(1−‖B− I‖). (2-2)

Demonstração. Primeiro, devemos mostrar que se T ∈L(Rn,Rn) é tal que ‖T‖< 1, então

I −T é inversível e vale

‖(I−T )−1‖ ≤ 11−‖T‖ .

Para isso, considere as seguintes sequências Sk e tk definidas respectivamente por:

Sk = I +T +T 2 + . . .+T k, tk = 1+‖T‖+‖T‖2 + . . .+‖T‖k.

Observe que,

‖Sk+p −Sk‖ ≤ ‖Sk+p −Sk+p−1‖+‖Sk+p−1 −Sk+p−2‖+ . . .+‖Sk+1 −Sk‖≤ ‖T‖k+p +‖T‖k+p−1 + . . .+‖T‖k+1

= (tk+p − tk+p−1)+(tk+p+1 − tk+p−2)+ . . .+(tk+1 − tk)

= tk+p − tk

Agora, como ‖T‖ < 1, temos então que tk é uma sequência convergente, com limite

t∗ = 1/(1− ‖T‖). Portanto, deste fato e da equação acima, Sk é uma sequência de

Cauchy em L(Rn,Rn) (o qual é espaço completo), e assim existe limn→∞ Sn. Agora,

observe que

Sk(I −T ) = (I +T + . . .+T k)(I−T ) = I −T k+1 (2-3)

Por outro lado, temos que limk→∞ I −T k = I, pois

‖I − (I −T k)‖= ‖T k‖ ≤ ‖T‖k, limk→∞

‖T‖k = 0.

Assim, pela última equação e (2-3), concluímos que limk→∞

Sk = (I −T )−1. Note ainda que

‖(I−T )−1‖= ‖ limk→∞

Sk‖ ≤ limk→∞

(‖I‖+‖T‖+ . . .+‖T k‖)≤ limk→∞

tk = 1/(1−‖T‖).

Agora, tomando T = I−B e observando a hipótese ‖B− I‖< 1, temos que (I−T ) = B é

inversível e vale a estimativa dada em (2-2) para a norma da inversa B−1.


2.2.2 Pseudo-Inversa de Moore-Penrose

Apresentaremos nesta subseção a pseudo-inversa ou inversa generalizada de

Moore-Penrose de uma matriz A ∈ Rm×n, que desempenha o papel de A−1 quando A

não possui inversa. Para mais informações sobre inversas generalizadas e suas aplicações,

veja por exemplo [1, 2, 5].

Seja a seguinte equação matricial

AXA = A,

onde A ∈Rm×n é uma matriz dada e X ∈R

n×m é uma matriz à qual queremos determinar.

Observe que se A é uma matriz quadrada não singular, então a equação acima tem

uma única solução X = A−1. Daremos agora o conceito de pseudo-inversa que pode ser

encontrada em [5] e discutiremos sua existência.

Definição 2.15 Dada uma matriz A ∈ Rm×n. Uma matriz A† ∈ R

n×m é chamada pseudo-

inversa da matriz A se AA†A = A, e existem as matrizes U ∈ Rn×n e V ∈ R

m×m tais que

A† =UAT e A† = ATV. (2-4)

Segue que a pseudo-inversa possui as seguintes propriedades:

a. (AT )† = (A†)T ;

b. (A†)† = A.

Observe que as duas propriedades acima são similares as propriedades da matriz

inversa usual. Porém, no Exemplo 2.21, verifica-se que a propriedade (A1A2)† = A†

2A†1

não é em geral válida.

A partir de (2-4), temos que cada linha da pseudo-inversa A† de A é uma

combinação linear das linhas de AT , e cada coluna de A† é uma combinação linear das

colunas de AT .

Quando A ∈ Rm×n, m ≥ n e posto(A) = n, podemos facilmente verificar que a

pseudo-inversa de A é:

A† = (AT A)−1AT .

Realmente, pois A(AT A)−1AT A = A, e se definirmos U = (AT A)−1 e

V = A(AT A)−1(AT A)−1AT , então A† = UAT = ATV . Note que A†A = IRn . Daí,

(AT A)−1AT é chamada de pseudo-inversa a esquerda de A.


Agora, quando A ∈ Rm×n, m ≤ n e posto(A) = m, podemos facilmente verificar

que:

A† = AT (AAT )−1, AA† = IRm. (2-5)

Daí, AT (AAT )−1 é chamada de pseudo-inversa a direita de A.

Agora discutiremos como obter a inversa de Moore-Penrose, para isso usaremos

a propriedade de que uma matriz não nula de posto r pode ser expressa como o produto

de uma matriz posto coluna completo por uma matriz de posto linha completo. Esta

propriedade é denominada como fatorização de posto completo. A prova deste resultado

é descrito no seguinte lema.

Lema 2.16 (Fatorização de Posto Completo) Seja A∈Rm×n, posto(A) = r ≤ min(m,n).

Então, existem matrizes B ∈ Rm×r e C ∈ R

r×n tal que A = BC, onde

posto(A) = posto(B) = posto(C) = r.

Demonstração. Como posto(A) = r, segue que existem r colunas linearmente indepen-

dentes em A. Sem perda de generalidade, seja a1,a2, . . . ,ar tais colunas, onde ai é a i-

ésima coluna de A. As colunas restantes de A podem ser expressas como combinações

lineares de a1,a2, . . . ,ar. Assim, uma possível escolha das matrizes B e C com posto com-

pleto são

B = [a1, . . . ,ar] ∈ Rm×r,

C =

1 . . . 0 c1,r+1 . . . c1,n...

. . ....

. . ....

0 . . . 1 cr,r+1 . . . cr,n

∈ Rr×n,

onde as entradas ci, j são tais que para cada j = r+1, . . . ,n, temos a j = ci, ja1+ . . .+cr, jar.

Portanto, A = BC.

Note que se m < n e posto(A) = m, então obtemos B = Im, C = A, onde Im é uma

matriz identidade ∈ Rm×m. Caso contrário, se m > n e posto(A) = n, então temos que

B = A, C = In.

Exemplo 2.17 Considere a matriz A ∈ R3×4 definida por

A =

2 1 −2 5

1 0 −3 2

3 −1 −13 5

.


Observe que Posto(A) = 2. Assim, a partir do Lema 2.16, temos que uma fatorização de

posto completo de A é:

A =

2 1

1 0

3 −1

[

1 0 −3 2

0 1 4 1

]

= BC.

O próximo resultado garante que pseudo-inversa de uma matriz é única.

Proposição 2.18 Seja A ∈ Rm×n. Se existe a pseudo-inversa A† de A, então ela é única.

Demonstração. Sejam A†1 e A†

2 as inversas generalizadas de A. Devemos mostrar que

A†1 = A†

2. Pela definição 2.15 temos,

AA†1A = AA†

2A = A,

e existem as matrizes U1,U2 ∈ Rn×n e V1,V2 ∈ R

m×m, tais que

A†1 =U1AT = ATV1,

A†2 =U2AT = ATV2.

Seja

D = A†2 −A†

1,U =U2 −U1,V =V2 −V1.

Então, temos que

O = ADA,D =UAT = ATV.

Logo, usando as duas equações acima, obtemos

(DA)T DA = AT DT DA = ATV T ADA = O,

o que implica que,

DA = O.

Por outro lado, como DA = O, temos

DDT = DAUT = O,

o que implica em

D = A†2 −A†

1 = O

portanto A†2 = A†

1.


Provaremos agora que a pseudo-inversa de uma matriz sempre existe. Na ver-

dade, mostraremos que a pseudo-inversa de qualquer matriz A é dada pela fórmula

A† =C†B†,

onde B† e C† são pseudo-inversas das matrizes B e C que formam uma fatorização de

posto completo de A, isto é, A = BC onde B e C são de posto completo (veja Lema 2.16).

Note que já sabemos como calcular B† e C†, ou seja,

B† = (BT B)−1BT ,

e

C† =CT (CCT )−1.

Proposição 2.19 Seja uma matriz A ∈ Rm×n que possui fatorização de posto completo

A = BC, com posto(A) = posto(B) = posto(C) = r, B ∈ Rm×r, C ∈ R

r×n. Então,

A† =C†B†.

Demonstração. Devemos mostrar que

A† =C†B† =CT (CCT )−1(BT B)−1BT

satisfaz a condição da Definição 2.15 para a pseudo-inversa. De fato, primeiro observe

que

AC†B†A = BCCT (CCT )−1(BT B)−1BT BC = BC = A.

Agora, definiremos

U =CT (CCT )−1(BT B)−1(CCT )−1C

e

V = B(BT B)−1(CCT )−1(BT B)−1BT .

É fácil ver que as matrizes U e V acima satisfazem

A† =C†B† =UAT = ATV.

Portanto,

A† =C†B†,

é a pseudo-inversa de A.


Iremos calcular a seguir a pseudo-inversa de uma matriz que não possui inversa,

exemplificando o resultado acima.

Exemplo 2.20 Seja A ∈ R3×4 dada por

A =

2 1 −2 5

1 0 −3 2

3 −1 −13 5

=

2 1

1 0

3 −1

[

1 0 −3 2

0 1 4 1

]

= BC.

Calculando B† e C†, temos

B† = (BT B)−1BT =1

27

[

5 2 5

16 1 −11

]

,

e

C† =CT (CCT )−1 =1

76

9 5

5 7

−7 13

23 17

.

Assim, obtemos

A† =C†B† =1

2052

125 23 −10

137 17 −52

173 −1 −178

387 63 −72

.

Ressaltamos que a fórmula A† =C†B† não funciona no caso em que A não tenha

fatorização de posto completo. O seguinte exemplo ilustra isto.

Exemplo 2.21 Seja A = [1]. Obviamente, A† = A−1 = A = [1]. A matriz A também pode

ser representada da seguinte forma

A =[

0 1]

[

1

1

]

= BC.

Observe que A não possui uma fatorização de posto completo. Seja então a matriz

B† = BT (BBT )−1 =

[

0

1

]

,

e

C† = (CTC)−1CT =[

1/2 1/2]

.

2.3 Noções de Análise Convexa 23

(Note que fórmulas das matrizes B† e C† são diferentes do Exemplo 2.20 por causa das

dimensões de B e C neste exemplo.) Assim,

C†B† = [1/2],

diferente da matriz A†.

Finalmente, é importante ressaltar que a pseudo-inversa pode ser definida de uma

forma equivalente a Definição 2.15. Especificamente, a definição de Penrose de pseudo-

inversa de uma matriz A ∈ Rm×n é uma matriz única A† ∈ R

n×m que satisfaz as seguintes

propriedades:

1. AA†A = A;

2. A†AA† = A†;

3. (AA†)T = AA†;

2. (A†A)T = A†A.

Além disso, a partir da definição da pseudo-inversa de Moore-Penrose obtemos:

A†A = ΠN (A)⊥, AA† = ΠR (A), (2-6)

onde ΠE denota a projeção ortogonal de Rn sobre o subespaço E.

Com respeito a pseudo-inversa de Moore-Penrose, damos a seguir um resultado

que será necessário para garantir a boa definição do método de Gauss-Newton.

Lema 2.22 Sejam A,B : Rn → Rm operadores lineares contínuos. Assuma que

Posto(A)≥ 1, Posto(B)≤ Posto(A), ‖A†‖‖A−B‖< 1.

Então

Posto(A) = Posto(B), ‖B†‖ ≤ ‖A†‖1−‖A†‖‖A−B‖ .

Demonstração. Ver Teorema 8.15, pp. 43 de [22].

2.3 Noções de Análise Convexa

Destinamos esta seção a um estudo dos conceitos relacionados aos conjuntos

convexos e as funções convexas. Para mais informações sobre análise convexa veja

[3, 5, 17, 20]. Iniciaremos definindo conjunto convexo.


Definição 2.23 Um conjunto D ⊂ Rn é chamado conjunto convexo, se

λx+(1−λ)y ∈ D, ∀x,y ∈ D, λ ∈ [0,1].

Geometricamente, esta definição nos diz que o segmento de reta

[x,y] = λx+(1−λ)y : 0 ≤ λ ≤ 1,

está inteiramente contido em D.

Exemplo 2.24 O conjunto vazio, o espaço euclidiano Rn, um conjunto que contém um

ponto só e uma bola em Rn são exemplos de conjuntos convexos.

Definição 2.25 Seja D ⊂Rn um conjunto convexo. Uma função ϕ : D →R é dita convexa

quando para quaisquer x ∈ D,y ∈ D e λ ∈ [0,1], tem-se

ϕ(λx+(1−λ)y)≤ λϕ(x)+(1−λ)ϕ(y).

A função ϕ é dita estritamente convexa quando a desigualdade acima é estrita para todos

x,y ∈ D com x 6= y e λ ∈ (0,1).

Agora apresentaremos a caracterização de funções convexas de uma variável

real.

Proposição 2.26 Sejam I ⊂ R um intervalo e ϕ : I →R uma função diferenciável. Então

ϕ é convexa se, e somente se,

ϕ(y)≥ ϕ(x)+ϕ′(x)(y− x), ∀y ∈ I,x ∈ I. (2-7)

Se (2-7) é estrita para todo y ∈ I e x ∈ I, então ϕ é estritamente convexa.

Demonstração. Dados y ∈ I e x ∈ I, temos por hipótese que

ϕ(λy+(1−λ)x)≤ λϕ(y)+(1−λ)ϕ(x).

Após algumas manipulações algébricas segue que

ϕ(x+λ(y− x))−ϕ(x)λ

≤ ϕ(y)−ϕ(x),

para todo λ ∈ (0,1]. Fazendo λ → 0+ na última desigualdade, temos

ϕ′(x)(y− x)+ϕ(x) ≤ ϕ(y),


que prova a primeira parte. Reciprocamente, considere z = (1−λ)x+λy e observe que

ϕ(x)≥ ϕ(z)+ϕ′(z)(x− z) (2-8)

e

ϕ(y)≥ ϕ(z)+ϕ′(z)(y− z). (2-9)

Multiplicando a desigualdade (2-8) por (1−λ) ≥ 0 e a desigualdade (2-9) por λ ≥ 0, e

adicionando o resultado, obtemos

ϕ(λx+(1−λ)y)≤ λϕ(x)+(1−λ)ϕ(y).

Portanto ϕ é convexa. Agora se (2-7) é estrita para todo x,y ∈ I, então (2-8) e (2-9) va-

lem para desigualdade estrita e analogamente concluímos que ϕ é estritamente convexa.

Proposição 2.27 Sejam I ⊂ R um intervalo e ϕ : I →R uma função convexa.

(i) Dados a,b e c ∈ I, com a < b < c, temos

ϕ(b)−ϕ(a)b−a

≤ ϕ(c)−ϕ(a)c−a

≤ ϕ(c)−ϕ(b)c−b

(2-10)

(ii) Para qualquer u0 ∈ int(I), a aplicação

s(u) =ϕ(u0)−ϕ(u)

u0 −u, u ∈ I,u 6= u0,

não-decrescente e existe (em R)

D−ϕ(u0) = limu→u−0

ϕ(u0)−ϕ(u)u0 −u

= supu<u0


.

Demonstração. Seja a < b < c, obtemos após algumas manipulações algébricas que

b =c−bc−a

a+b−ac−a

c, (2-11)

ondec−bc−a

< 1 eb−ac−a

< 1. Como ϕ é convexa, segue de (2-11) e alguns cálculos que

ϕ(b)−ϕ(a)≤(

c−bc−a

−1

)

ϕ(a)+b−ac−a

ϕ(c),

que é equivalente aϕ(b)−ϕ(a)

b−a≤ ϕ(c)−ϕ(a)

c−a,


o que prova a primeira desigualdade em (2-10). A segunda desigualdade em (2-10) é feita

de modo análogo. Assim o item (i) está provado. É imediato concluir a partir de (2-10)

que a função s é não-decrescente. Além disso, como u0 ∈ int(I) então existe a ∈ I tal que

u0 < a, daí segue que

s(u) =ϕ(u0)−ϕ(u)

u0 −u≤ ϕ(u0)−ϕ(a)

u0 −a= s(a), ∀u0 > u.

Logo, s é limitada superiormente. Devido a monotonicidade da função s, existe o limite

D−ϕ(u0) = limu→u−0


= supu<u0


.

Segue que o item (ii) é válido.

Proposição 2.28 Sejam I ⊂ R um intervalo e ϕ : I −→R uma função derivável. Então ϕ

é convexa (estritamente convexa) se, e somente se, ϕ′ é crescente (estritamente crescente).

Demonstração. Suponhamos que ϕ seja convexa e derivável. Vamos mostrar que ϕ′

é crescente. Sejam x1 < x3 pontos de I. Consideremos pontos x2 e x4 de I tais que

x1 < x2 < x3 < x4. Pela Proposição 2.27 temos que,

ϕ(x2)−ϕ(x1)

x2 − x1≤ ϕ(x4)−ϕ(x3)

x4 − x3.

Fazendo x2 −→ x1 e x4 −→ x3, obtemos ϕ′(x1) ≤ ϕ′(x3). Provando que ϕ′ é cres-

cente. Reciprocamente, seja ϕ′ crescente. Iremos provar que ϕ é convexa. Sejam

x,y em I tal que x < y. Pelo teorema do valor médio exite c ∈ (x,y) de modo que

ϕ(y) = ϕ(x) + ϕ′(c)(y − x). Da monotonicidade de ϕ′ segue-se ϕ′(x) ≤ ϕ′(c). Logo

ϕ(y)≥ ϕ(x)+ϕ′(x)(y− x). Daí pela Proposição 2.26 obtemos que ϕ é convexa.

Corolário 2.29 Uma função ϕ : I →R, duas vezes derivável no intervalo I, é convexa se,

e somente se, ϕ′′ ≥ 0.

Demonstração. Com efeito, ϕ′′(x) ≥ 0 para todo x ∈ I, equivale a afirmar ϕ′ : I → R é

monótona crescente.

2.4 Funções Analíticas 27

2.4 Funções Analíticas

Nesta seção estamos interessados em abordar os conceitos de funções analíticas

em R os quais serão necessários no desenvolvimento do capítulo 4, quando trataremos do

resultado de convergência sob condição de Smale.

Definição 2.30 Sejam I ⊂ R um intervalo aberto. Uma função f : I → R chama-se

analítica quando pode ser localmente expandida em séries de Taylor, i.e., para cada

x0 ∈ I, existe um ε > 0 tal que a série de Taylor

∞

∑n=0

f (n)(x0)

n!hn,

converge para f (x0 +h) quando |h|< ε.

Observação 2.31 A fim de que a série∞

∑n=0

f (n)(x0)

n!hn, convirja para f (x0+h) é necessá-

rio e suficiente que limn→∞

rn(h) = 0, onde rn =f (n)(x0 +θnh)

n!hn, com 0 < θn < 1.

Proposição 2.32 Se 0 ≤ t < 1, então∞

∑i=0

(i+2)(i+1)t i = 2/(1− t)3.

Demonstração. Consideremos a função g : (−1,1) → R, dada por g(t) = (1− t)−1. É

fácil mostrar que esta função é analítica e que

g′(t) = (1− t)−2, g′′(t) = 2(1− t)−3, . . . , g(i)(t) = i!(1− t)−(i+1). (2-12)

Pela Definição 2.30, podemos escrever g da seguinte forma

g(t) =∞

∑i=0

g(i)(0)i!

t i.

Agora combinando (2-12) e a igualdade acima, obtemos que g(t) = ∑∞i=0 t i. Derivando

duas vezes, resulta que

g′′(t) =∞

∑i=0

(i+2)(i+1)t i.

Daí combinando este resultado com a segunda equação em (2-12) concluí a demonstração

da Proposição.

Agora com todos os resultados obtidos neste capítulo, estamos preparados a pro-

var a convergência semi-local do método de Gauss-Newton sob uma condição majorante.

CAPÍTULO 3Análise Semi-Local para o Método de

Gauss-Newton

No presente capítulo, apresentaremos a convergência semi-local do método de

Gauss-Newton. Sob a hipótese que a função não-linear associada com o sistema de

equações satisfaz uma condição majorante, provaremos que o método supracitado está

bem definido e converge para um ponto x∗ tal que F ′(x∗)†F(x∗) = 0. Esta análise não

exige o conhecimento prévio da solução dos problemas de mínimos quadrados e tem

a vantagem de fazer hipóteses apenas sobre o ponto inicial, diferentemente da análise

local ao qual o conhecimento prévio da solução dos problemas de mínimos quadrados

é exigido, além de requerer que o ponto inicial esteja suficientemente próximo desta

solução, veja por exemplo [8, 9, 15]. Além disso, daremos resultados sobre a taxa de

convergência da sequência gerada. A ordem dos resultados apresentados aqui, ressalta a

importância de cada hipótese na análise de convergência do método.

3.1 Convergência do Método de Gauss-Newton

Começaremos esta seção com a seguinte definição de função majorante.

Definição 3.1 Sejam Ω ⊆ Rn um conjunto aberto e F : Ω → R

m uma função continu-

amente diferenciável em Ω. Tome x0 ∈ Ω, R > 0. Dizemos uma função continuamente

diferenciável f : [0,R) → R é uma função majorante para o operador F se satisfaz as

hipóteses

‖F ′(x0)†‖‖F ′(y)−F ′(x)‖ ≤ f ′(‖y− x‖+‖x− x0‖)− f ′(‖x− x0‖),


(h1) f (0) = 0, f ′(0) =−1;


Para mais informações sobre a função majorante veja por exemplo [7, 8, 9, 10,

11, 12, 15, 16]. Provaremos nesta seção, um teorema semi-local do método de Gauss-

3.1 Convergência do Método de Gauss-Newton 29

Newton, i.e.,

xk+1 = xk −F ′(xk)†F(xk), k = 0,1, . . . ,

para resolver o sistema de equações não-lineares

F(x) = 0,

onde F satisfaz a seguinte classe de sistemas de equações não lineares

‖F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)‖ ≤ κ‖x− y‖, ∀x,y ∈ Ω.

para algum 0 ≤ κ < 1.

Primeiramente, mostraremos que este teorema é valido para uma função auxiliar

associada com a função majorante. Então, provaremos a boa definição do método de

Gauss-Newton e sua convergência.

Teorema 3.2 Sejam Ω ⊆ Rn um conjunto aberto e F : Ω → R

m uma função continua-

mente diferenciável. Suponha que

‖F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)‖ ≤ κ‖x− y‖, ∀x,y ∈ Ω (3-1)

para algum 0 ≤ κ < 1. Seja x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0,F ′(x0) 6= 0 e

Posto(F′(x))≤ Posto(F′(x0)), ∀x ∈ Ω. (3-2)

Assuma que existam R > 0 e uma função continuamente diferenciável f : [0,R)→ R tal

que, B(x0,R)⊆ Ω,

‖F ′(x0)†‖‖F ′(y)−F ′(x)‖ ≤ f ′(‖y− x‖+‖x− x0‖)− f ′(‖x− x0‖), (3-3)


(h1) f (0) = 0, f ′(0) =−1;


Seja λ ≥ 0 tal que λ ≥−κ f ′(β) e considere a função auxiliar hλ : [0,R)→ R,

hλ(t) := β+λt + f (t). (3-4)

Se hλ satisfaz

(h3) hλ(t) = 0 para algum t ∈ (0,R),

então hλ(t) tem uma menor raiz t∗λ, as sequências para resolver hλ(t) = 0 e F(x) = 0,


com pontos iniciais tλ,0 = 0 e x0, respectivamente,

tλ,k+1 = tλ,k −h′0(tλ,k)−1hλ(tλ,k), xk+1 = xk −F ′(xk)

†F(xk), k = 0,1, . . . , (3-5)

estão bem definidas, tλ,k é estritamente crescente, está contida em [0, t∗λ), e converge

para t∗λ, xk está contida na B(x0, t∗λ), converge para um ponto x∗ ∈ B[x0, t∗λ] tal que

F ′(x∗)†F(x∗) = 0,

‖xk+1 − xk‖ ≤ tλ,k+1− tλ,k, ‖x∗− xk‖ ≤ t∗λ − tλ,k, k = 0,1, . . . , (3-6)

e

‖xk+1 − xk‖ ≤tλ,k+1− tλ,k

(tλ,k − tλ,k−1)2‖xk − xk−1‖2, k = 1,2, . . . . (3-7)

Além disso, se λ = 0, as sequências t0,k e xk convergem Q-linearmente e R-

linearmente (ou se, λ = 0 e h′0(t∗0)< 0, Q-quadraticamente e R-quadraticamente) para t∗0

e x∗, respectivamente.

Observação 3.3 É fácil ver que a melhor escolha de λ é a menor possível. Logo, se

f ′(β)≤ 0 então λ=−κ f ′(β) é a melhor escolha. Além disso, como − f ′(β)<− f ′(0) = 1

(h2), uma possível escolha para λ é κ, apesar de não ser a melhor.

Observação 3.4 Se F ′(x) é sobrejetivo, segue da segunda equação em (2-5) que

F ′(x)F ′(x)† = IRm . Daí, podemos escolher λ = 0, visto que F satisfaz (3-1) com κ = 0.

Portanto, o Teorema 3.2 estende os resultados obtidos no Teorema 2 em [12].

Alguns resultados preliminares serão necessários para provar o Teorema 3.2. De

agora em diante vamos assumir que todas as hipóteses do Teorema 3.2 são válidas.

3.1.1 A função auxiliar e a sequência tλ,kNesta subseção, estudaremos a função auxiliar hλ, associada com a função

majorante f , além disso provaremos todos os resultados do Teorema 3.2 em relação a

sequência tλ,k.

Proposição 3.5 As seguintes afirmações são válidas

(i) hλ(0) = β > 0 , h′λ(0) = λ−1 e h′0(t) = f ′(t);

(ii) h′λ é convexa e estritamente crescente;

(iii) hλ é estritamente convexa.


Demonstração. Usando (3-4), a diferenciabilidade da função f e as afirmações (h1) e

(h2), então os itens (i) e (ii) seguem imediatamente. Para provar o item (iii) basta usar o

item (ii) e a Proposição 2.28.

Proposição 3.6 A função hλ possuí uma menor raiz t∗λ ∈ (0,R), é estritamente crescente

e

hλ(t)> 0, h′0(t)< 0, t < t − hλ(t)h′0(t)

< t∗λ, ∀t ∈ [0, t∗λ). (3-8)

Além disso, h′0(t∗λ)≤ 0.

Demonstração. Como hλ é uma função contínua em [0,R) e possui uma raiz neste

intervalo (h3), segue que hλ possuí uma menor raiz t∗λ, que é maior que zero devido a

primeira desigualdade no item (i) da Proposição 3.5. A primeira desigualdade em (3-8)

segue da primeira afirmação no item (i) da Proposição 3.5 e da definição de t∗λ ∈ (0,R)

como sendo a menor raiz de hλ. Sabemos pelo item (iii) da Proposição 3.5 que hλ é

estritamente convexa, então

0 = hλ(t∗λ)> hλ(t)+h′λ(t)(t

∗λ − t), t ∈ [0,R), t 6= t∗λ. (3-9)

Se t ∈ [0, t∗λ) então hλ(t)> 0 e t∗λ − t > 0, as quais combinadas com (3-9), implicam que

h′λ(t) < 0 para todo t ∈ [0, t∗λ). Daí como λ ≥ 0 e h′λ(t) = λ+ h′0(t) para todo t ∈ [0, t∗λ),

então a segunda desigualdade em (3-8) está provada. Usando a primeira e a segunda

desigualdade de (3-8), obtemos a terceira. Para provarmos a última desigualdade em (3-8),

dividiremos a inequação (3-9) por −h′λ(t) > 0 e com algumas manipulações algébricas,

temos que

t −hλ(t)/h′λ(t)< t∗λ, ∀t ∈ [0, t∗λ).

Daí, usando a primeira desigualdade em (3-8) e 0 < −h′λ(t) ≤ −h′0(t) para todo

t ∈ [0, t∗λ), temos a desigualdade desejada. Agora como hλ(t)> 0 em [0, t∗λ) e hλ(t∗λ) = 0,

logo h′λ(t∗λ) ≤ 0. Portanto, a última desigualdade da proposição segue do fato que

h′λ(t∗λ) = λ+h′0(t

∗λ) e λ ≥ 0.

De acordo com a segunda inequação em (3-8), a seguinte função iteração para

hλ está bem definida em [0, t∗λ)

nλ : [0, t∗λ) → R

t 7→ t −hλ(t)/h′0(t).(3-10)

Note que, se λ = 0, a sequência nλ se reduz a sequência de Newton.

Proposição 3.7 Se t ∈ [0, t∗λ), então β ≤ nλ(t)< t∗λ.


Demonstração. Sabemos da Proposição 3.5 que hλ é estritamente convexa. Daí usando as

duas primeiras igualdades do item (i) da Proposição 3.5 e propriedades de convexidade,

obtemos (1−λ)t −β ≥ −hλ(t), que combinado com λ ≥ 0, implica que t −β ≥ −h′λ(t).

Daí, obtemos de (3-10) que

nλ(t)−β = t − hλ(t)h′0(t)

−β ≥−hλ(t)−hλ(t)h′0(t)

=hλ(t)−h′0(t)

[h′0(t)+1], ∀t ∈ [0, t∗λ).

Sabemos dos itens (i) e (ii) da Proposição 3.5 que h′0(0) = −1 e h′0 é estritamente

crescente. Daí, obtemos que

h′0(t)+1 ≥ 0, ∀t ∈ [0, t∗λ).

Portanto, combinando a inequação acima com as duas primeiras inequações em (3-8),

a primeira inequação da proposição está provada. Para provar a última inequação da

proposição, combine (3-10) e a última desigualdade em (3-8).

Proposição 3.8 A iteração nλ leva [0, t∗λ) em [0, t∗λ), e

t < nλ(t), ∀t ∈ [0, t∗λ).

Além disso, se λ = 0 ou (λ = 0 e h′0(t∗0) < 0), então temos as seguintes inequações,

respectivamente,

t∗0 −n0(t)≤12(t∗0 − t), t∗0 −n0(t)≤

D−h′0(t∗0)

−2h′0(t∗0)(t∗0 − t)2, ∀t ∈ [0, t∗0). (3-11)

Demonstração. As duas primeiras afirmações da proposição seguem trivialmente das duas

últimas inequações em (3-8) e (3-10). Agora se λ = 0, então a sequência em (3-10) reduz-

se a sequência de Newton, i.e.,

n0(t) = t −h0(t)/h′0(t), ∀t ∈ [0, t∗0). (3-12)

Note que hλ(t∗λ) = 0 (Proposição 3.6), em particular h0(t∗0) = 0. Daí, usando (3-12) e a

continuidade de h′, temos que

t∗0 −n0(t) =1

h′0(t)[h′0(t)(t

∗0 − t)+h0(t)]

=1

h′0(t)[h′0(t)(t

∗0 − t)+h0(t)−h0(t

∗0)]

=1

−h′0(t)

∫ t∗0

t

(

h′0(u)−h′0(t))

du.


Sabemos pelo item (ii) da Proposição 3.5 que h′λ é convexa. Além disso, como t < t∗0 ,

segue do item (i) da Proposição 2.27 que

h′0(u)−h′0(t)≤[

h′0(t∗0)−h′0(t)

] u− tt∗0 − t

, ∀u ∈ [t, t∗0 ].

Por outro lado, pela segunda inequação em (3-8) temos que h′0(t) < 0, ou equivalente-

mente −1/h′0(t) > 0. Daí, combinando este resultado com as duas últimas inequações,

obtemos

t∗0 −n0(t)≤(

− 1h′0(t)

)∫ t∗0

t

[

h′0(t∗0)−h′0(t)

] u− tt∗0 − t

du.

Agora, o último termo da desigualdade acima juntamente com algumas manipulações

algébricas, implicam

t∗0 −n0(t)≤12

(

h′0(t∗0)−h′0(t)−h′0(t)

)

(t∗0 − t). (3-13)

Portanto, a desigualdade acima junto com h′0(t) < 0 e h′0(t∗0) ≤ 0 prova a primeira

inequação em (3-11). Para concluir a prova, assumimos que λ = 0 e h′0(t∗0)< 0. Tomando

t ∈ [0, t∗0). Além disso, usando que h′λ é crescente e h′0(t)< 0, temos que

h′0(t∗0)−h′0(t)−h′0(t)

≤ h′0(t∗0)−h′0(t)−h′0(t

∗0)

=1

−h′0(t∗0)

h′0(t∗0)−h′0(t)t∗0 − t

(t∗0 − t)

≤ D−h′(t∗0)−h′0(t

∗0)

(t∗0 − t),

onde a última desigualdade segue do item (ii) da Proposição 2.27. Finalmente, combi-

nando a inequação acima com (3-13) obtemos a segunda inequação em (3-11), o que

conclui a prova da proposição.

A definição de tλ,k no Teorema 3.2 é equivalente a seguinte definição:

tλ,0 = 0, tλ,k+1 = nλ(tλ,k), k = 0,1, . . . . (3-14)

O resultado a seguir é consequência imediata da Proposição 3.8.

Corolário 3.9 A sequência tλ,k está bem definida, é estritamente crescente, está con-

tida em [0, t∗λ) e converge para t∗λ. Além disso, se λ = 0 ou (λ = 0 e h′0(t∗0) < 0), então a

sequência t0,k converge Q-linearmente ou Q-quadraticamente para t∗0 , respectivamente,


como segue

t∗0 − t0,k+1 ≤12(t∗0 − t0,k), t∗0 − t0,k+1 ≤

D−h′0(t∗0)

−2h′0(t∗0)

(t∗0 − t0,k)2, k = 0,1, . . . .

Portanto, todas as afirmações envolvendo a sequência tλ,k no Teorema 3.2

estão provadas.

3.1.2 Convergência

Nesta subseção, provaremos que a sequência xk gerada pelo método de Gauss-

Newton (ver Teorema 3.2), está bem definida e converge para um ponto x∗ tal que

F ′(x∗)†F(x∗) = 0 . Começaremos com uma proposição que garante a boa definição de

Gauss-Newton na B(x0, t∗λ), depois iremos expor dois lemas que destacam as relações

entre a função majorante f e a função não-linear F .

Proposição 3.10 Se ‖x− x0‖ ≤ t < t∗λ, então Posto(F ′(x)) = Posto(F ′(x0))≥ 1 e

‖F ′(x)†‖ ≤ −‖F ′(x0)†‖/h′0(t).

Em particular, Posto(F ′(x)) = Posto(F ′(x0)) em B(x0, t∗λ).

Demonstração. Seja x ∈ B[x0, t], tal que 0 ≤ t < t∗λ. Usando as hipóteses (3-3), (h1), (h2),

a última igualdade do item (i) da Proposição 3.5 e a segunda inequação em (3-8), obtemos

‖F ′(x0)†‖‖F ′(x)−F ′(x0)‖ ≤ f ′(‖x− x0‖)− f ′(0)≤ f ′(t)+1 = h′0(t)+1 < 1.

Combinando a última inequação com (3-2) e o Lema 2.22, concluímos que Posto(F ′(x))

= Posto(F ′(x0))≥ 1 e

‖F ′(x)†‖ ≤ ‖F ′(x0)†‖

1− ( f ′(t)+1)=

‖F ′(x0)†‖

− f ′(t)=−‖F ′(x0)

†‖h′(t)

É conveniente estudar o erro linear de F para cada ponto em Ω, por isso

definimos

EF(x,y) := F(y)−[

F(x)+F ′(x)(y− x)]

, y, x ∈ Ω. (3-15)

Iremos limitar este erro pelo erro da linearização da função majorante f

e f (t,v) := f (v)−[

f (t)+ f ′(t)(v− t)]

, t, v ∈ [0,R). (3-16)


Lema 3.11 Sejam x,y ∈ B(x0,R) e 0 ≤ t < v < R. Se ‖x−x0‖ ≤ t e ‖y−x‖ ≤ v− t, então

‖F ′(x0)†‖‖EF(x,y)‖ ≤ e f (t,v)

‖y− x‖2

(v− t)2 .

Demonstração. Sejam x,y ∈ B(x0,R). Como a bola é convexa então

x+u(y− x) ∈ B(x0,R), ∀u ∈ [0,1].

Daí, usando o fato que F é continuamente diferenciável na B(x0,R), (3-15), temos que

EF(x,y) =∫ 1

0

[

F ′(x+u(y− x))−F ′(x)]

(y− x)du.

Combinando a equação anterior e a hipótese (3-3) do Teorema 3, obtemos

‖F ′(x0)†‖‖EF(x,y)‖ ≤

∫ 1

0‖F ′(x0)

†‖‖F ′(x+u(y− x))−F ′(x)‖‖y− x‖du

≤∫ 1

0

[

f ′(‖x− x0‖+u‖y− x‖)− f ′(‖x− x0‖)]

‖y− x‖du. (3-17)

Agora, usando a convexidade de f ′, as hipóteses ‖x− x0‖ ≤ t, ‖y− x‖ ≤ v− t, v < R e o

item (i) da Proposição 2.27, segue que para qualquer u ∈ [0,1]

f ′(‖x− x0‖+u‖y− x‖)− f ′(‖x− x0‖)≤ f ′(t +u‖y− x‖)− f ′(t)

≤[

f ′(t +u(v− t))− f ′(t)] ‖y− x‖

v− t. (3-18)

É fácil ver, que (3-17) e (3-18) implicam

‖F ′(x0)†‖‖EF(x,y)‖ ≤

∫ 1

0

[

f ′(t +u(v− t))− f ′(t)] ‖y− x‖2

v− tdu,

Finalmente, calculando a integral acima, obtemos o resultado desejado.

A Proposição 3.10 garante, em particular que Posto(F ′(x))≥ 1,∀x ∈ B(x0, t∗λ) e,

consequentemente, a iteração de Gauss-Newton está bem definida. Denotaremos de GF à

função iteração de Gauss-Newton para F nesta região, isto é,

GF : B(x0, t∗λ) → Rn

x 7→ x−F ′(x)†F(x).(3-19)

Observe que podemos aplicar a função iteração de Gauss-Newton em qualquer

x ∈B(x0, t∗λ) para se obter GF(x), o qual pode ou não pertencer a B(x0, t∗λ) ou mesmo, pode

não pertencer ao domínio de F . Assim, os resultados anteriores são apenas para garantir


a boa definição de apenas uma iteração. Para assegurar que as iterações de Gauss-Newton

podem ser repetidas indefinidamente, devemos garantir que GF(x) ⊂ B(x0, t∗λ), para isso

precisaremos de alguns resultados adicionais.

Primeiramente, definiremos alguns subconjuntos de B(x0, t∗λ) e iremos provar

que as iterações de Gauss-Newton (3-19) estão "bem comportadas"nestes subconjuntos.

Sejam

K(t) :=

x ∈ Ω : ‖x− x0‖ ≤ t, ‖F ′(x)†F(x)‖6−hλ(t)h′0(t)

, t ∈ [0, t∗λ) , (3-20)

K :=⋃

t∈[0,t∗λ)

K(t). (3-21)

Como 0 ≤ t < t∗λ em (3-20), então temos que, h′0(t) 6= 0 e segue da Proposição 3.10 que

Posto(F ′(x))≥ 1 na B[x0, t]⊂ B(x0, t∗λ). Portanto, as definições são consistentes.

Lema 3.12 Se t ∈ [0, t∗λ), então são válidas as seguintes afirmações:

(i) K(t)⊂ B(x0, t∗λ);

(ii) ‖GF(GF(x))−GF(x)‖ ≤ −hλ(nλ(t))h′0(nλ(t))

(

‖GF (x)−x‖nλ(t)−t

)2, ∀x ∈ K(t);

(iii) GF (K(t))⊂ K (nλ(t)) .

Além disso, K ⊂ B(x0, t∗λ) e GF(K)⊂ K.

Demonstração. O item (i) segue trivialmente da definição de K(t). Agora tomemos

t ∈ [0, t∗λ) e x ∈ K(t). Usando (3-20) e duas primeiras afirmações na Proposição 3.8, temos

que

‖x− x0‖ ≤ t, ‖F ′(x)†F(x)‖ ≤ −hλ(t)h′0(t)

, t < nλ(t)< t∗λ. (3-22)

Note que,

‖GF(x)− x0‖ ≤ ‖x− x0‖+‖GF(x)− x‖= ‖x− x0‖+‖F ′(x)†F(x)‖≤ t −hλ(t)/h′0(t) = nλ(t)< t∗λ,

o que implica

GF(x) ∈ B[x0,nλ(t)]⊂ B(x0, t∗λ). (3-23)

Observemos que GF(x),nλ(t) pertencem aos domínios de F e f , respectivamente. Daí

usando as definições (3-4), (3-10), (3-19), os erros de linearização (3-15) e (3-16) e


algumas manipulações algébricas, obtemos as seguintes igualdades

hλ(nλ(t)) = hλ(nλ(t))−[

hλ(t)+h′0(t)(nλ(t)− t)]

= e f (t,nλ(t))−λhλ(t)/h′0(t) (3-24)

e

F(GF(x)) = F(GF(x))−[

F(x)+F ′(x)(GF(x)− x)]

+(IRm −F ′(x)F ′(x)†)F(x)

= EF(x,GF(x))+(IRm −F ′(x)F ′(x)†)F(x).

A partir da última equação, com algumas manipulações algébricas, implicam que

‖F ′(GF(x))†F(GF(x))‖ ≤ ‖F ′(GF(x))

†‖‖EF(x,GF(x))‖+‖F ′(GF(x))

†(IRm −F ′(x)F ′(x)†)F(x)‖. (3-25)

Como ‖GF(x)− x0‖ ≤ nλ(t), segue da Proposição 3.10 que Posto(F ′(GF(x)))≥ 1 e

‖F ′(GF(x))†‖ ≤ −‖F ′(x0)

†‖/h′0(nλ(t)). (3-26)

A partir de (3-25), (3-26) e (3-1), obtemos

‖F ′(GF(x))†F(GF(x))‖ ≤ −‖F ′(x0)

†‖h′0(nλ(t))

‖E(x,GF(x))‖+κ‖GF(x)− x‖.

Por outro lado, usando (3-22), Lema 3.11 e (3-24), temos

‖F ′(x0)†‖‖EF(x,GF(x))‖ ≤ e f (t,nλ(t))

(‖GF(x)− x‖nλ(t)− t

)2

≤ hλ(nλ(t))


)2

+λhλ(t)/h′0(t).

Assim, as duas últimas inequações, junto com a segunda equação em (3-22), implicam

que

‖F ′(GF(x))†F(GF(x))‖ ≤ −hλ(nλ(t))

h′0(nλ(t))


)2

+(

κ+λ(h′0(nλ(t)))−1)(−hλ(t)/h′0(t)

)

. (3-27)

Tomando λ ≥−κ f ′(β), a segunda inequação em (3-8) e (3-22), obtemos que

(

κ+λ(h′0(nλ(t)))−1)≤ κ

(

1− f ′(β)(h′0(nλ(t)))−1) . (3-28)


Como f ′(t) = h′0(t), então usando a Proposição 3.7, (h2) e a segunda inequação em (3-8),

temos que

κ(

1− f ′(β)(h′0(nλ(t)))−1)= κ

(

h′0(β)−h′0(nλ(t)))(

−h′0(nλ(t))−1 ≤ 0. (3-29)

Combinando (3-27), (3-28), (3-29) com as duas primeiras desigualdades em (3-8), con-

cluímos

‖F ′(GF(x))†F(GF(x))‖ ≤ −hλ(nλ(t))

h′0(nλ(t))


)2

.

Portanto o item (ii) segue da última inequação e (3-19). Agora, combinando a última

inequação com (3-10), (3-19) e a segunda desigualdade em (3-22), obtemos

‖F ′(GF(x))†F(GF(x))‖ ≤ −hλ(nλ(t))

h′0(nλ(t)).

Este resultado, junto com (3-23), implicam que GF(x) ∈ K(nλ(t)), assim o item (iii) está

provado.

A primeira inclusão da segunda parte do lema, segue trivialmente das definições (3-20) e

(3-21). Para verificar a última inclusão, tomemos x ∈ K. Segue que x ∈ K(t) para algum

t ∈ [0, t∗λ). Usando o item (iii) do lema, temos que GF(x) ∈ K(nλ(t)). Agora, usando a

definição de K e como nλ(t) ∈ [0, t∗λ), chegamos a última inclusão do lema.

Finalmente, estamos prontos para provar o resultado principal desta seção, que

é consequência imediata do último resultado. Primeiramente note que a sequência xk(veja (3-5)) satisfaz a igualdade

xk+1 = GF(xk), k = 0,1, . . . , (3-30)

ao qual é uma definição equivalente desta sequência.

Corolário 3.13 A sequência xk está bem definida, contida na B(x0, t∗λ), converge para

um ponto x∗ ∈ B[x0, t∗λ] tal que F ′(x∗)†F(x∗) = 0. As sequências xk e tλ,k satisfazem

(3-6), (3-7). Além disso, se λ = 0, a sequência xk converge R-linearmente (ou se, λ = 0

e h′0(tλ∗)< 0, R-quadraticamente) para x∗.

Demonstração. Primeiramente, mostraremos por indução que

xk ∈ K(tλ,k), k = 0,1, . . . . (3-31)

Com efeito, como ‖F ′(x0)†F(x0)‖= β, então usando o item (i) da Proposição 3.5, tem-se

que

x0 ∈ K(0)⊂ K,


onde a segunda inclusão segue trivialmente de (3-21). Por indução, suponha agora

que xk ∈ K(tλ,k). Usando o item (iii) do Lema 3.12, (3-14) e (3-30), concluímos que

xk+1 ∈ K(tλ,k+1), isto concluí a indução.

Como tλ,k < t∗λ, segue de (3-20), (3-21) e da segunda parte do Lema 3.12 que K(tλ,k) ⊂K ⊂ B(x0, t∗λ). Agora, observe que, usando GF(K)⊂ K (Lema 3.12) e (3-30) implica que

xk está bem definida e contida em K ⊂ B(x0, t∗λ).

Agora, usando (3-31) e (3-20), obtemos

‖F ′(xk)†F(xk)‖ ≤ −hλ(tλ,k)

h′0(tλ,k), k = 0,1, . . . .

Este resultado, junto com (3-5), implicam que

‖xk+1 − xk‖ ≤ tλ,k+1 − tλ,k, k = 0,1, . . . .

Portanto, a primeira desigualdade em (3-6) está provada. Sabemos pelo Corolário 3.9 que

a sequência de números reais tλ,k converge para t∗λ. Daí a última inequação implica que

∞

∑k=k0

‖xk+1 − xk‖ ≤∞

∑k=k0

tλ,k+1− tλ,k = t∗λ − tλ,k0<+∞,

para qualquer k0 ∈ N. Portanto xk é uma sequência de Cauchy na B(x0, t∗λ), e converge

para algum x∗ ∈ B[x0, t∗λ]. Observe que, a última inequação implica na segunda desigual-

dade em (3-6). Iremos agora provar que F ′(x∗)†F(x∗) = 0. Usando simples manipulações

algébricas, (3-1) e (3-5) obtemos que

‖F ′(x∗)†F(xk)‖ ≤∥

∥

∥F ′(x∗)†

(

IRm −F ′(xk)F′(xk)

†)

F(xk)∥

∥

∥

+ ‖F ′(x∗)†‖‖F ′(xk)F′(xk)

†F(xk)‖≤ κ‖xk − x∗‖+‖F ′(x∗)†‖‖F ′(xk)‖‖xk+1 − xk‖

Como F é continuamente diferenciável, então tomando o limite na última inequação,

concluímos que F ′(x∗)†F(x∗) = 0. A desigualdade em (3-7) segue aplicando (3-31), o

item (ii) do Lema 3.12 com x = xk−1 e t = tλ,k−1, as definições (3-14), (3-30) e a primeira

igualdade em (3-5).

Para finalizar a prova, basta combinar a segunda inequação em (3-6) com a última parte

do Corolário 3.9.

Portanto, segue dos Corolários 3.9 e 3.13 que todas as afirmações no Teorema

3.2 são válidas.

CAPÍTULO 4Aplicações

Neste capítulo, apresentaremos três casos especiais do Teorema 3.2, a saber,

resultado de convergência onde F ′(x0) é sobrejetivo, resultado de convergência sob

condição Lipschitz e resultado de convergência sob condição de Smale para funções

analíticas. Por fim, daremos dois exemplos numéricos que esclarecem a aplicabilidade

dos resultados de convergência estudados aqui.

4.1 Resultado de Convergência quando F ′(x0) é sobreje-

tivo

Nesta seção, apresentaremos um teorema sob a hipótese que F ′(x0) é sobrejetivo.

Usaremos uma condição majorante, a qual torna a sequência xk gerada pelo método de

Gauss-Newton invariante sob função F → A†F , onde A : Rn → Rm é um operador linear

sobrejetivo.

Teorema 4.1 Seja Ω ⊆ Rn um conjunto aberto e F : Ω → R

m é uma função continua-

mente diferenciável. Seja x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0 e F ′(x0) é sobrejetivo.

Suponha que existem R > 0 e uma função continuamente diferenciável f : [0,R)→ R tal

que, B(x0,R)⊆ Ω,

‖F ′(x0)†F ′(y)−F ′(x)‖ ≤ f ′(‖y− x‖+‖x− x0‖)− f ′(‖x− x0‖), (4-1)


(h1) f (0) = 0, f ′(0) =−1;


Considere a função auxiliar h : [0,R)→ R,

h(t) := β+ f (t). (4-2)

4.1 Resultado de Convergência quando F ′(x0) é sobrejetivo 41

Se h satisfaz

(h3) h(t) = 0 para algum t ∈ (0,R),

então h(t) tem uma menor raiz t∗, as sequências para resolver h(t) = 0 e F(x) = 0, com

pontos iniciais t0 = 0 e x0, respectivamente,

tk+1 = tk −h′(tk)−1h(tk) xk+1 = xk −F ′(xk)

†F(xk), k = 0,1, . . . , (4-3)

estão bem definidas, tk é estritamente crescente, está contida em [0, t∗), e converge

Q-linearmente para t∗, xk está contido na B(x0, t∗), converge R-linearmente para um

ponto x∗ ∈ B[x0, t∗] tal que F ′(x∗)†F(x∗) = 0,

‖xk+1 − xk‖ ≤ tk+1 − tk, ‖x∗− xk‖ ≤ t∗− tk, k = 0,1, . . . , (4-4)

‖xk+1 − xk‖ ≤tk+1 − tk

(tk − tk−1)2‖xk − xk−1‖2, k = 1,2, . . . ,

e

‖F ′(x0)†F(xk)‖ ≤

(

tk+1 − tktk − tk−1

)

‖F ′(x0)†F(xk−1)‖, k = 1,2, . . . . (4-5)

Se, adicionalmente, h′(t∗) < 0, então as sequências tk e xk convergem Q-

quadraticamente e R-quadraticamente para t∗ e x∗, respectivamente.

Demonstração. Seja F : Ω → Rn dada por

F(x) = F ′(x0)†F(x), x ∈ Ω. (4-6)

Sobre as hipóteses do teorema, iremos provar que F satisfaz todas as hipóteses do

Teorema 3.2. Primeiramente, como F ′(x0) é sobrejetivo, segue de (2-5) que

F ′(x0)F′(x0)

† = IRm. (4-7)

Agora, seja x ∈ B[x0, t], 0 ≤ t < t∗. Usando as hipóteses (4-1), (h1) e (h2), obtemos

‖F ′(x0)†[F ′(x)−F ′(x0)]‖6 f ′(‖x− x0‖)− f ′(0)6 f ′(t)+1 < 1.

Usando o Lema 2.14 e a inequação acima, concluimos que(

IRn − F ′(x0)†(F ′(x0)−

F ′(x)))

é não singular e

‖(

IRn −F ′(x0)†(F ′(x0)−F ′(x))

)−1‖6 1

1−(

f ′(t)+1) =− 1

f ′(t)=− 1

h′(t). (4-8)

Agora, a equação em (4-7) implica que F ′(x) = F ′(x0)(

IRn −F ′(x0)†(F ′(x0)−F ′(x))

)

,

além disso, como F ′(x0) é sobrejetivo e(

IRn −F ′(x0)†(F ′(x0)−F ′(x))

)

é não singular,

4.1 Resultado de Convergência quando F ′(x0) é sobrejetivo 42

temos que F ′(x) é sobrejetivo para todo x ∈ B(x0, t∗). Note que, usando (4-6) e as

propriedades da inversa de Moore-Penrose, temos que

(F ′(x))† = (F ′(x0)†F ′(x))† = F ′(x)†F ′(x0), ∀ x ∈ Ω.

A última equação e (4-7) implica que F ′ satisfaz (3-1) com κ = 0, e a segunda sequência

em (4-3) coincide com a segunda sequência em (3-5). Além disso, usando a última

equação, (4-6), (4-7) e (2-6), obtemos

‖F ′(x0)†F ′(x0)‖= ‖(F ′(x0)

†F ′(x0))†F ′(x0)

†F ′(x0)‖= ‖F ′(x0)†F ′(x0)‖ (4-9)

e

‖F ′(x0)†‖= ‖F ′(x0)

†F ′(x0)‖= ‖ΠN (F ′(x0))⊥‖= 1. (4-10)

Note que, (4-9) implica que ‖F ′(x0)†F ′(x0)‖ > 0, e (4-10) junto com (4-1) e (4-6)

implicam que F ′ satisfaz (3-3) com f = f . Portanto, com exceção de (4-5), os resultados

do teorema seguem do Teorema 3.2 com F = F , f = f , hλ = h, λ = 0 e t∗λ = t∗.

Agora iremos mostrar (4-5). Com efeito, seja k ∈ 1,2, . . ., usando a equação (4-7) e

algumas manipulações algébricas temos

F ′(xk−1)†F ′(x0)

(

IRn −F ′(x0)†(F ′(x0)−F ′(xk−1))

)

= F ′(xk−1)†F ′(xk−1)

que, combinado com (2-6), (4-8) e ‖xk−1 − x0‖ ≤ tk−1 < t∗, resultam

‖F ′(xk−1)†F ′(x0)‖= ‖ΠN (F ′(xk−1))⊥(IRn −F ′(x0)

†(F ′(x0)F′(xk−1))

)−1‖≤ ‖(IRn −F ′(x0)

†(F ′(x0)−F ′(xk−1)))−1‖

≤ −(h′(tk−1))−1.

Observe que usando (4-3) e (4-7), temos que

‖xk − xk−1‖= ‖F ′(xk−1)†F(xk−1)‖ ≤ −(h′(tk−1))

−1‖F ′(x0)†F(xk−1)‖. (4-11)

4.2 Resultado de Convergência sob Condição Lipschitz 43

Como F(xk−1) também é sobrejetivo, segue de (2-5) que F ′(xk−1)F ′(xk−1)† = IRm . Este

resultado combinado com o Lema 3.11 e (4-4) obtém-se que

‖F ′(x0)†F(xk)‖= ‖F ′(x0)

†(F(xk)−F(xk−1)−F ′(xk−1)(xk − xk−1)‖≤ ‖F ′(x0)

†‖‖EF(xk−1,xk)‖

≤ e f (tk−1, tk)‖xk − xk−1‖(tk − tk−1)

= h(tk)‖xk − xk−1‖(tk − tk−1)

,

onde a última equação é obtida combinando (3-16), (4-2) e (4-3). Daí, usando a última

inequação, (4-11), e que tk e h′ são estritamente crescentes, obtemos

‖F ′(x0)†F(xk)‖ ≤ − h(tk)

h′(tk−1)

‖F ′(x0)†F(xk−1)‖

(tk − tk−1)

≤− h(tk)h′(tk)

‖F ′(x0)†F(xk−1)‖

(tk − tk−1).

Portanto, a inequação desejada surge aplicando a última inequação junto com a definição

de tk em (4-3).

4.2 Resultado de Convergência sob Condição Lipschitz

Nesta seção, mostraremos um teorema correspondente ao Teorema 3.2, onde a

condição geral (3-3) é substituída pela condição Lipschitz. Também apresentaremos um

teorema correspondente ao Teorema 4.1, onde usamos a condição Lipschitz em vez de

(4-1).



mente diferenciável. Suponha que

‖F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)‖ ≤ κ‖x− y‖, ∀x,y ∈ Ω

para algum 0 ≤ κ < 1. Seja x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0,F ′(x0) 6= 0 e

Posto(F′(x))≤ Posto(F′(x0)), ∀x ∈ Ω.

Suponha que existem R > 0 e L > 0, tal que, B(x0,R)⊆ Ω,

‖F ′(x0)†‖‖(F ′(x)−F ′(y))‖ ≤ L‖x− y‖,

4.2 Resultado de Convergência sob Condição Lipschitz 44

para quaisquer x,y ∈ Ω,‖x−x0‖+‖y−x‖< R. Seja λ = (1−βL)κ e considere a função

auxiliar hλ : [0,R)→ R,

hλ(t) := β− (1−λ)t+(Lt2)/2.

Se

βL ≤ ∆ :=(1−κ)2

(κ2 −κ+1)+√

2κ2 −2κ+1,

então hλ(t) tem uma menor raiz t∗λ =(

1−λ−√

(1−λ)2−2βL)

/L, as sequências para

resolver hλ(t) = 0 e F(x) = 0, com pontos iniciais tλ,0 = 0 e x0, respectivamente,

tλ,k+1 = tλ,k −h′0(tλ,k)−1hλ(tλ,k), xk+1 = xk −F ′(xk)

†F(xk), k = 0,1, . . . ,

estão bem definidas, tλ,k é estritamente crescente, está contida em [0, t∗λ), e converge

para t∗λ, xk está contido na B(x0, t∗λ), converge para um ponto x∗ ∈ B[x0, t∗] tal que

F ′(x∗)†F(x∗) = 0,

‖xk+1 − xk‖ ≤ tλ,k+1− tλ,k, ‖x∗− xk‖ ≤ t∗λ − tλ,k, k = 0,1, . . . ,

‖xk+1 − xk‖ ≤tλ,k+1− tλ,k

(tλ,k − tλ,k−1)2‖xk − xk−1‖2, k = 1,2, . . . .

Além disso, se λ = 0, as sequências tλ,k e xk convergem Q-linearmente e R-

linearmente (ou se, λ = 0 e h′0(t∗λ)< 0, Q-quadraticamente e R-quadraticamente) para t∗λ

e x∗, respectivamente.

Demonstração. Observe que F,x0 e f : [0,R)→ R definida por f (t) = Lt2/2− t, satisfa-

zem a inequação (3-3), e as condições (h1) e (h2). Portanto,

hλ(t) := β− (1−λ)t+(Lt2)/2 = β+λt + f (t).

Uma vez que,

βL ≤ ∆ =(1−κ)2

(κ2 −κ+1)+√

2κ2−2κ+1=

(1−κ)2

(1−κ)2+κ+√

2κ2 −2κ+1≤ 1, (4-12)

temos que λ = (1 − βL)κ ≥ 0 e λ = −κ f ′(β). Além disso, a primeira desi-

gualdade em (4-12) implica que (1 − λ)2 − 2βL ≥ 0, i.e., hλ satisfaz (h3) e

t∗λ =(

1−λ−√

(1−λ)2−2βL)

/L é a menor raiz.

Portanto, tomando f ,hλ,λ e t∗λ definidos acima, temos que todas as afirmações do teorema

seguem do Teorema 3.2.

4.3 Resultado de Convergência sob Condição Smale 45

Sob a condição Lipschitz, o Teorema 4.1 torna-se:



mente diferenciável. Seja x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0 e F ′(x0) é sobrejetivo.

Suponha que existem R > 0 e L > 0, tais que, B(x0,R)⊆ Ω,

‖F ′(x0)†(F ′(x)−F ′(y))‖ ≤ L‖x− y‖,

para quaisquer x,y ∈ Ω,‖x−x0‖+‖y−x‖< R. Considere a função auxiliar h : [0,R)→R,

h(t) := β− t +(Lt2)/2.

Se βL≤ 1/2, então h(t) tem uma menor raiz t∗=(

1−√

1−2βL)

/L, as sequências para

resolver h(t) = 0 e F(x) = 0, com pontos iniciais t0 = 0 e x0, respectivamente,

tk+1 = tk −h′(tk)−1h(tk), xk+1 = xk −F ′(xk)

†F(xk), k = 0,1, . . . ,


Q-linearmente para t∗, xk está contido na B(x0, t∗), converge R-linearmente para um

ponto x∗ ∈ B[x0, t∗] tal que F ′(x∗)†F(x∗) = 0,

‖xk+1 − xk‖ ≤ tk+1 − tk, ‖x∗− xk‖ ≤ t∗− tk, k = 0,1, . . . ,

‖xk+1 − xk‖ ≤tk+1 − tk

(tk − tk−1)2‖xk − xk−1‖2, k = 1,2, . . . ,

e

‖F ′(x0)†F(xk)‖ ≤

(

tk+1 − tktk − tk−1

)

‖F ′(x0)†F(xk−1)‖, k = 1,2, . . . .

Se, adicionalmente, βL < 1/2, então as sequências tk e xk convergem Q-


Demonstração. A prova segue de modo idêntico a prova do Teorema 4.2.

4.3 Resultado de Convergência sob Condição Smale

Nesta seção, mostraremos um teorema correspondente ao Teorema 3.2, onde a

condição majorante (3-3) é substituída pela condição de Smale, para funções analíticas.

Também apresentaremos um teorema correspondente ao Teorema 4.1, onde usamos a

condição de Smale em vez de (4-1). Para mais informações sobre a condição de Smale,

ver por exemplo [7, 8, 9, 10, 11, 12, 15, 16, 23].


Para simplificar, iremos tomar λ = κ no próximo teorema. Como vimos na

Observação 3.3, está é sempre uma possível escolha para λ.


m uma função analítica.

Suponha que

‖F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)‖ ≤ κ‖x− y‖, ∀ x,y ∈ Ω (4-13)

para algum 0 ≤ κ < 1. Seja x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0, F ′(x0) 6= 0 e

Posto(F ′(x))≤ Posto(F ′(x0)), ∀ x ∈ Ω.

Suponha que

γ := ‖F ′(x0)†‖sup

n>1

∥

∥

∥

∥

∥

F (n)(x0)

n!

∥

∥

∥

∥

∥

1/(n−1)

<+∞, B(x0,1/γ)⊆ Ω. (4-14)

Considere a função auxiliar hκ : [0, 1/γ)→ R,

hκ(t) := β− (2−κ)t + t/(1− γt).

Se

α := βγ ≤ 3−κ−2√

2−κ,

então hκ(t) tem uma menor raiz

t∗κ =(

1−κ+α−√

(1−κ+α)2−4(2−κ)α)

/(2γ(2−κ)), (4-15)

as sequências para resolver hκ(t) = 0 e F(x) = 0, com pontos iniciais tκ,0 = 0 e x0,

respectivamente,

tκ,k+1 = tκ,k −h′0(tκ,k)−1hκ(tκ,k), xk+1 = xk −F ′(xk)

†F(xk), k = 0,1, . . . , (4-16)

estão bem definidas, tκ,k é estritamente crescente, está contida em [0, t∗κ), e converge

para t∗κ, xk está contida na B(x0, t∗κ), converge para um ponto x∗ ∈ B[x0, t∗κ] tal que

F ′(x∗)†F(x∗) = 0,

‖xk+1 − xk‖ ≤ tκ,k+1 − tκ,k, ‖x∗− xk‖ ≤ t∗κ − tκ,k, k = 0,1, . . . ,

e

‖xk+1 − xk‖ ≤tκ,k+1 − tκ,k

(tκ,k − tκ,k−1)2‖xk − xk−1‖2, k = 1,2, . . . .


Além disso, se κ = 0, então as sequências tκ,k and xk convergem Q-linearmente e

R-linearmente (ou, se κ = 0 e h′0(t∗κ)< 0, Q-quadraticamente e R-quadraticamente) para

t∗κ e x∗, respectivamente.

Para provar o teorema acima, precisaremos dos seguintes resultados.

Lema 4.5 Seja Ω⊆Rn um conjunto aberto e F : Ω→R

m uma função analítica. Suponha

que x0 ∈ Rn e γ está definido em (4-14). Então, para todo x ∈ B(x0,1/γ) temos que

‖F ′(x0)†‖‖F ′′(x)‖6 (2γ)/(1− γ‖x− x0‖)3.

Demonstração. Seja x ∈ Ω. Como F é uma função analítica, então

F ′′(x) = F ′(x0)∞

∑n=0

1n!

F (n+2)(x0)(x− x0)n.

Combinando o resultado acima com (4-14), obtemos que

‖F ′(x0)†‖‖F ′′(x)‖ ≤ γ

∞

∑n=0

(n+2)(n+1)(γ‖x− x0‖)n.

Como B(x0,1/γ) ⊂ Ω, temos então que γ‖x− x0‖ < 1. Daí, usando a Proposição 2.32,

concluímos que

2(1− γ‖x− x0‖)3 =

∞

∑n=0

(n+2)(n+1)(γ‖x− x0‖)n.

Lema 4.6 Seja Ω ⊆ Rn um conjunto aberto e F : Ω → R

m duas vezes continuamente

diferenciável em Ω. Se existe uma função f : [0,R) → R duas vezes continuamente

diferenciável com derivada f ′ convexa e satisfaz

‖F ′(x0)†‖‖F ′′(x)‖6 f ′′(‖x− x0‖), (4-17)

para todo x ∈ Ω tal que ‖x− x0‖< R, então F e f satisfazem (3-3).

Demonstração. Sejam x,y ∈ Ω tal que ‖x− x0‖+‖y− x‖< R. Note então que

‖F ′(x0)†‖‖F ′(y)−F ′(x)‖ ≤

∫ 1

0‖F ′(x0)

†F ′′ (x+ τ(y− x))‖‖y− x‖dτ.


Usando este resultado, o fato que f satisfaz (4-17) e f ′ é convexa, obtemos que

‖F ′(x0)†‖‖F ′(y)−F ′(x)‖ ≤

∫ 1

0f ′′ (‖(x− x0)+ τ(y− x)‖)‖y− x‖dτ

≤∫ 1

0f ′′ (‖(x− x0)‖+ τ‖(y− x)‖)‖y− x‖dτ

= f ′(‖x− x0‖+‖y− x‖)− f ′(‖x− x0‖).

Portanto o resultado acima implica que F e f satisfazem (3-3) e o lema está provado.

Demonstração do Teorema 4.4. Considere a função f : [0,1/γ)→ R definida por

f (t) =t

1− γt−2t.

É fácil mostrar que f é analítica e que

f (0) = 0, f ′(t) = 1(1−γt)2 −2, f ′(0) =−1,

f ′′(t) = 2γ(1−γt)3 , f n(0) = n!γn−1,

para n ≥ 2. Segue das últimas igualdades que f satisfaz (h1) e (h2). Além disso, como

f ′′(t) = (2γ)/(1− γt)3, então combinando este resultado com os Lemas (4.5) e (4.6),

temos que F e f satisfazem (3-3) com R = 1/γ. Agora, note que

hκ(t) = β− (2−κ)t+ t/(1− γt) = β+λt + f (t).

Como λ = κ, temos então que 0 ≤ λ < 1 e λ = −κ f ′(0) ≥ −κ f ′(β), onde a úl-

tima inequação segue de (h2). Além disso, α = βγ ≤ 3 − κ − 2√

2−κ implica que(

(1−κ+α)2 −4(2−κ)α ≥ 0)

, i.e., hκ satisfaz (h3) e

t∗κ =1−κ+α−

√

(1−κ+α)2−4(2−κ)α

2γ(2−κ)

é a menor raiz.

Portanto, tomando f ,λ = κ,hλ = hκ e t∗λ = t∗κ definidos acima, temos que todas as

afirmações do teorema seguem do Teorema 3.2.

Sob a condição de Smale, o Teorema 4.1 torna-se:

Teorema 4.7 Seja Ω ⊆Rn um conjunto aberto e F : Ω →R

m uma função analítica. Seja

4.4 Exemplos Numéricos 49

x0 ∈ Ω tal que β := ‖F ′(x0)†F(x0)‖> 0, F ′(x0) é sobrejetivo. Suponha que

γ := ‖F ′(x0)†‖sup

n>1

∥

∥

∥

∥

∥

F(n)(x0)

n!

∥

∥

∥

∥

∥

1/(n−1)

<+∞, B(x0,1/γ)⊆ Ω.

Considere a função auxiliar h : [0, 1/γ)→ R,

h(t) := β−2t + t/(1− γt).

Se

α := βγ ≤ 3−2√

2,

então h(t) tem uma menor raiz

t∗ =(

1+α−√

(1+α)2−8α)

/(4γ)

as sequências para resolver h(t) = 0 e F(x) = 0, com pontos iniciais t0 = 0 e x0,

respectivamente,

tk +1 = tk −h′(tk)−1h(tk), xk+1 = xk −F ′(xk)

†F(xk), k = 0,1, . . . ,


para t∗, xk está contida na B(x0, t∗), converge para um ponto x∗ ∈ B[x0, t∗] tal que

F ′(x∗)†F(x∗) = 0,

‖xk+1 − xk‖ ≤ tk+1 − tk, ‖x∗− xk‖ ≤ t∗− tk, k = 0,1, . . . ,

e

‖xk+1 − xk‖ ≤tk+1 − tk

(tk − tk−1)2‖xk − xk−1‖2, k = 1,2, . . . .

Além disso, se α := βγ < 3 − 2√

2, então as sequências tk and xk convergem Q-


Demonstração. A prova segue de modo idêntico a prova do Teorema 4.4.

4.4 Exemplos Numéricos

Nesta seção, daremos dois exemplos que demonstram a importância da classe

de sistemas de equações não-linear estudada neste trabalho. O primeiro exemplo ilustra

o caso quando κ 6= 0 e o segundo quando κ = 0, porém F ′(x) não é sobrejetivo.


Todos os exemplos contidos nesta seção foram retirados de [23]. Nos exemplos abaixo,

consideraremos R2 com a norma-l1, i.e., ‖x‖=∞

∑i=1

|xi|, onde x : N→R.

Exemplo 4.8 Considere o operador F : R2 → R2 definido por

F(x) = (sen(x1 − x2),cos(x1 − x2)−1)T , x = (x1,x2) ∈ R2

Note que F é analítica em R2, e que

F ′(x) =

[

cos(x1 − x2) −cos(x1 − x2)

−sen(x1 − x2) sen(x1 − x2)

]

.

Assim Posto(F ′(x)) = 1. Daí a pseudo-inversa de Moore-Penrose é

F ′(x)† =12

[

cos(x1 − x2) −sen(x1 − x2)

−cos(x1 − x2) sen(x1 − x2)

]

.

Além disso, por indução matemática obtemos que

F(n)(x)u1u2 . . .un =

[

sen(

x1 − x2 +nπ2

)

cos(

x1 − x2 +nπ2

)

]

n

∏i=1

(u1i −u2

i ) n = 1,2, . . . ,

onde ui = (u1i ,u

2i ) ∈ R

2, para i = 1,2, . . . ,n. Segue então que,

‖F ′(x)†‖= max| cos(x1 − x2) |, | sen(x1 − x2) |

e

‖F(n)(x)‖=| cos(x1 − x2) |+ | sen(x1 − x2) | .

Consequentemente,

γ = ‖F ′(x)†‖supn>1

∥

∥

∥

∥

∥

F(n)(x)n!

∥

∥

∥

∥

∥

1/(n−1)

=| cos(x1 − x2) |+ | sen(x1 − x2) |

2max| cos(x1 − x2) |, | sen(x1 − x2) |. (4-18)

Seja Ω = (x1,x2) : −π5 < xi <

π5 , i = 1,2 ⊆R

2. Note que 0 ≤ 1−cos(x1−x2)≤ 710 para

qualquer (x1,x2) ∈ Ω, concluímos então que

∥

∥

∥F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)

∥

∥

∥=| (1− cos(x1 − x2))sen(x1− x2 − (y1 − y2)) |

≤ 710

‖x− y‖


para qualquer y = (y1,y2) ∈ Ω. Daí (4-13) é satisfeita com κ = 710 . Tomemos agora o

ponto inicial x0 = (1/32,0) ∈ Ω. Então obtemos

β := ‖F ′(x0)†F(x0)‖= sen(

132

)

e, a partir de (4-18), temos

γ = ‖F ′(x0)†‖sup

n>1

∥

∥

∥

∥

∥

F(n)(x0)

n!

∥

∥

∥

∥

∥

1/(n−1)

=12

cos(132

)

(

sen(1

32)+ cos(

132

)

)

.

Segue então que

α := βγ =14

sen(116

)

(

sen(132

)+ cos(1

32)

)

<23−2

√130

10= 3−κ−2

√2−κ.

Usando o resultado acima, e (4-15) obtemos

t∗κ <1−κ+α

2γ(2−κ)=

6+5sen( 116)

(

sen( 132)+ cos( 1

32))

26cos( 132)

(

sen( 132)+ cos( 1

32)) <

12.

Portanto, podemos aplicar o Teorema 4.4, para concluir que a sequência xk gerada

pelo método de Gauss-Newton, segunda igualdade em (4-16), com ponto inicial x0

converge para um ponto x∗ ∈ B[x0, t∗κ] tal que F ′(x∗)†F(x∗) = 0.

Exemplo 4.9 Seja τ ∈ R e o operador F : R2 → R2 definido por

F(x) = (sen(x1 + x2),sen(x1 + x2)− τ)T , x = (x1,x2) ∈ R2

Observe que F é analítica em R2, e que

F ′(x) = cos(x1 + x2)

[

1 1

1 1

]

.

Seja x1 + x2 6= π2 +nπ,n ∈ N, daí Posto(F ′(x)) = 1. Logo F ′(x) não é sobrejetivo. Segue

que a pseudo-inversa de Moore-Penrose é

F ′(x)† =1

4cos(x1 + x2)

[

1 1

1 1

]

.

Segue que

β := ‖F ′(x)†F(x)‖= | sen(x1 + x2)− τ2) |

| cos(x1 + x2) |(4-19)


e

∥

∥

∥F ′(y)†(IRm −F ′(x)F ′(x)†)F(x)

∥

∥

∥=

(

0

0

)

, para qualquer y = (y1,y2) ∈ Ω.

Além disso, por indução matemática obtemos que

F(n)(x)u1u2 . . .un =

[

sen(

x1 + x2 +nπ2

)

sen(

x1 + x2 +nπ2

)

]

n

∏i=1

(u1i +u2

i ) n = 1,2, . . . ,

onde ui = (u1i ,u

2i ) ∈ R

2, para i = 1,2, . . . ,n. Segue então que,

‖F ′(x)†‖= 12 | cos(x1 + x2) |

e ‖F(n)(x)‖= 2 | sen(x1 + x2 +nπ

2) | .

Consequentemente,

γ = ‖F ′(x)†‖supn>1

∥

∥

∥

∥

∥

F(n)(x)n!

∥

∥

∥

∥

∥

1/(n−1)

= max

√6

6, sup

n≥1

( | tan(x1 + x2) |(2n)!

)1/(2n−1)

. (4-20)

Seja τ = 1 e tomemos o ponto inicial x0 = (π6 ,

5π48 ). Daí a partir de (4-19) e (4-20) obtemos

que

γ = ‖F ′(x0)†‖sup

n>1

∥

∥

∥

∥

∥

F(n)(x0)

n!

∥

∥

∥

∥

∥

1/(n−1)

=12

tan(13π

48)

e

β = sec(13π

48)

(

sen(13π

48)− 1

2

)

.

Segue então que

α = βγ =12

tan(13π

48)

1

cos(13π48 )

(

sen(13π

48)− 1

2

)

< 3−2√

2.

Portanto, podemos aplicar o Teorema 4.4, para concluir que a sequência xk gerada

pelo método de Gauss-Newton, segunda igualdade em (4-16), com ponto inicial x0

converge para um ponto x∗ ∈ B[x0, t∗0 ] tal que F ′(x∗)†F(x∗) = 0.

CAPÍTULO 5Considerações Finais

Nesta dissertação, usando uma simples condição majorante para o operador não-

linear, uma análise de convergência semi-local do método de Gauss-Newton para resolver

o problema (1-1) onde F satisfaz (1-4) foi apresentada. Este estudo, principalmente os

capítulos 3 e 4, foram baseados no trabalho [16]. Porém quase todos os resultados para

convergência semi-local do método de Gauss-Newton foram demonstrados.

Através dos Lemas 3.11 e 3.12, percebemos que a condição majorante usada

aqui, deixou clara a relação entre o operador não-linear F e a função majorante f .

Também, esta condição majorante, nos permitiu unificar resultados de convergência sem

qualquer ligação prévia em um único teorema, a saber, resultados sob condições Lipschitz

e de Smale. Além disso, no caso em que F ′ é sobrejetivo usamos uma condição majorante,

que assegurou uma importante propriedade de invariância da sequência de Gauss-Newton.

A respeito da classe de sistemas estudada neste trabalho, vimos que quando a

derivada do operador não-linear F é sobrejetivo, o sistema F(x) = 0 pertence a ela. Além

disso, dois exemplos foram estudados, Exemplos 4.8 e 4.9, que mostraram que a classe

contém outros tipos de sistemas que não são sobrejetivos.

A análise de convergência efetuada neste trabalho, nos motiva a uma proposta

de pesquisa futura que seria analisar a convergência de variantes dos métodos de Gauss-

Newton e de Newton usando nossa condição majorante. Outra proposta seria estudar aná-

lise de convergência dos métodos de Gauss-Newton e Newton em variedades Riemmani-

anas.

Referências Bibliográficas

[1] AGUIAR, A. A. Análise de Convergência Local do Método de Gauss-Newton

sob Condição Lipschitz. Monografia de Especialização em Matemática, IME/UFG,

Goiânia, 2007.

[2] BEN-ISRAEL, A; GREVILLE, T. N. E. Generalized Inverses: Theory and Applica-

tions. CMS Books in Mathematics, 2 edition, 1973.

[3] BERTSEKAS, D. P. Nonlinear Programming. Athena Scientific, Belmont, Massa-

chusetts, 2 edition, 1999.

[4] BOLDRINI, J. L. Álgebra Linear. Harper & Row do Brasil, São Paulo, 3 edition,

1980.

[5] CHONG, E; ZAK, S. H. An Introduction to Optimization. John Wiely & Sons Inc,

New York, NY, 2 edition, 2001.

[6] DENNIS, J; SCHNABEL, R. B. Numerical methods for unconstrained optimiza-

tion and nonlinear equations v. 16. Classics in Applied Mathematics. Society for

Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 1996. Corrected reprint

of the 1983 original.

[7] FERREIRA, O; GONÇALVES, M. L. N. Local convergence analysis of inexact

newton-like methods under majorant condition. Computational Optimization and

Applications, 48:1–21, 2011.

[8] FERREIRA, O; GONÇALVES, M. L. N; OLIVEIRA, P. R. Local convergence analysis

of the gauss-newton method under a majorant condition. Journal of Complexity,

27:111–125, 2011.

[9] FERREIRA, O; GONÇALVES, M. L. N; OLIVEIRA, P. R. Local convergence analysis

of inexact gauss-newton like methods under majorant condition. Journal of

Computational and Applied Mathematics, 236:2487–2498, 2012.


[10] FERREIRA, O; GONÇALVES, M. L. N; OLIVEIRA, P. R. Convergence of the gauss-

newton method for convex composite optimization under a majorant condition.

SIAM Journal on Optimization, 23:1757–1783, 2013.

[11] FERREIRA, O. P. Local convergence of newton’s method in banach space from

the viewpoint of the majorant principle. IMA Journal of Numerical Analysis,

29(3):746–759, 2009.

[12] FERREIRA, O. P; SVAITER, B. F. Kantorovich’s majorants principle for newton’s

method. Computational Optimization and Applications, 42(2):213–229, 2009.

[13] FLOUDAS, C. A; PARDALOS, P. M. Encyclopedia of Optimization. Springer,

second edition, 2009.

[14] GOLUB, G. H; LOAN, C. F. V. Matrix Computations. The Johns Hopkins University

Press, Baltimore and London, third edition, 1996.

[15] GONÇALVES, M. L. N. Local convergence of the gauss-newton method for

injective-overdetermined systems of equations under a majorant condition.

Computers & Mathematics with Applications, 66:490–499, 2013.

[16] GONÇALVES, M. L. N; OLIVEIRA, P. R. Convergence of the gauss-newton

method for a special class of systems of equations under a majorant condition.

Optimization: A Journal of Mathematical Programming and Operations Research,

DOI:10.1080/02331934.2013.778854, 2013.

[17] HIRIART-URRUTY, J. B; LEMARÉCHAL, C. Convex Analysis and minimization

algorithms I. Springer-Verlag, New York, 2 edition, 1993.

[18] HU, N; SHEN, W; LI, C. Kantorovich’s type theorems for systems of equations

with constant rank derivatives. Journal of Computational and Applied Mathematics,

219:110–122, 2008.

[19] HÄUSSLER, W. M. A kantorovich-type analysis for the gauss-newton method.

Numerische Mathematik, 48:119–125, 1986.

[20] IZMAILOV, A; SOLODOV, M. Otimização - volume1. Condições de Otimalidade,

Elementos de Análise Convexa e de Dualidade. IMPA, Rio de Janeiro, 2 edition,

2005.

[21] IZMAILOV, A; SOLODOV, M. Otimização - volume2. Métodos Computacionais.

IMPA, Rio de Janeiro, 2007.


[22] LAWSON, C. L; HANSON, R. J. Solving Least Squares Problems. SIAM, Phila-

delphia, PA, 12 edition, 1995.

[23] LI, C; HU, N; WANG, J. Convergence behavior of gauss-newton’s method and

extensions of the smale point estimate theory. Journal of Complexity, 26:268–295,

2010.

[24] LIMA, E. L. Curso de análise - volume 2. IMPA, Rio de Janeiro, 9 edition, 2006.

[25] LIMA, E. L. Curso de análise - volume 1. IMPA, Rio de Janeiro, 12 edition, 2007.

[26] LIMA, E. L. Álgebra Linear. IMPA, Rio de Janeiro, 8 edition, 2009.

[27] MENDES, R. M. N. Álgebra Linear. PUC Minas, Belo Horizonte, 2013. ISBN:

978-85-915683-0-7.

[28] NOCEDAL, J; WRIGHT, S. J. Numerical optimization. Sringer Series in Operati-

ons Research. Springer-Verlag, New York, 2 edition, 2006.

[29] POTRA, F. A. On q-order and r-order of convergence. Journal of Optimization

Theory and Applications, 63:415–431, 1989.

[30] RIBEIRO, A. A; KARAS, E. W. Otimização Contínua: aspectos teóricos e compu-

tacionais. Cengage Learning, São Paulo, 2013.

[31] SPIEGEL, M. R. Estatística - Coleção Schaum. McGraw-Hill do Brasil, São Paulo,

1977.

[32] STEWART, G. W. On the continuity of the generalized inverse. SIAM Journal on

Applied Mathematics, 17:35–45, 1969.

[33] WANG, X. Convergence of newton’s method and uniqueness of the solution of

equations in banach space. IMA Journal of Numerical Analysis, 20:123–134, 2000.

análise semi-local do método de gauss-newton sob uma ...§ão_-_ademir_alv… · informações...

Documents