a aplicação da teoria de valores extremos ao tráfego da ponte 25 de … · 2019-10-18 · resumo...
TRANSCRIPT
Maria da Conceição Nunes Elói Veiga de Almeida
Licenciada em Gestão
A Aplicação da Teoria de Valores Extremosao Tráfego da Ponte 25 de Abril
Dissertação para obtenção do Grau de Mestre em
Matemática e Aplicações ramo Matemática Financeira
Orientador: Frederico Almeida Gião Gonçalves Caeiro,Professor Auxiliar, Universidade Nova de Lisboa
Júri
Presidente: Professor Doutor Filipe José Gonçalves Pereira MarquesArguente: Professora Doutora Dora Susana Raposo Prata Gomes
Vogal: Professor Doutor Frederico Almeida Gião Gonçalves Caeiro
Março, 2019
A Aplicação da Teoria de Valores Extremosao Tráfego da Ponte 25 de Abril
Copyright © Maria da Conceição Nunes Elói Veiga de Almeida, Faculdade de Ciências e
Tecnologia, Universidade NOVA de Lisboa.
A Faculdade de Ciências e Tecnologia e a Universidade NOVA de Lisboa têm o direito,
perpétuo e sem limites geográficos, de arquivar e publicar esta dissertação através de
exemplares impressos reproduzidos em papel ou de forma digital, ou por qualquer outro
meio conhecido ou que venha a ser inventado, e de a divulgar através de repositórios
científicos e de admitir a sua cópia e distribuição com objetivos educacionais ou de inves-
tigação, não comerciais, desde que seja dado crédito ao autor e editor.
Este documento foi gerado utilizando o processador (pdf)LATEX, com base no template “novathesis” [1] desenvolvido no Dep. Informática da FCT-NOVA [2].[1] https://github.com/joaomlourenco/novathesis [2] http://www.di.fct.unl.pt
À minha família
Agradecimentos
Em primeiro lugar, quero agradecer ao Professor Doutor Frederico Caeiro que me orien-
tou ao longo deste processo! Pela sua disponibilidade constante, pelos e-mails sempre
respondidos, pelo esclarecimento de dúvidas por mais “ilógico” que fosse, pelo facto de
sempre me dar tanta liberdade para explorar uma área do seu interesse ao meu gosto,
pela sua visão de conjunto tão precisa e prática, pelos conselhos e comentários tão úteis e
pela proposta deste estudo que acabou por me entusiasmar tanto.
Quero agradecer à Faculdade de Ciências e Tecnologia pelos recursos disponibilizados
para a elaboração desta dissertação, por todas as ferramentas e conhecimentos necessários
para a elaboração do meu trabalho.
Também quero agradecer muito em particular ao Exmo. Sr. Dr. Rui Cesar Ilha Luso
Soares do Instituto da Mobilidade e dos Transportes, I.P.! Pela incansável disponibilidade!
Quando tantas portas me fecharam e me abriu uma tão grande janela! Pelo incontável
número de emails que respondeu, pela chamada que atendeu, pelo esclarecimento de
dúvidas de qualquer tipo, pelos dados variados que foram pedidos, e não só! É difícil
expressar em palavras o enorme agradecimento que lhe devo! Muito Obrigada!
Depois tenho que agradecer imenso a toda a minha família! Principalmente, aos meus
pais e irmãos! Pelos conselhos sábios do meu pai, pelo apoio incondicional da minha mãe,
pela ajuda na clarificação de “foco” da Mariana, pelo tão necessário sentido de humor do
Miguel e pela escuta tão atenta do João! Não deixando de agradecer de forma especial
ao meu avô, à minha tia Coim e aos meus tios. Nunca me faltou o vosso apoio e palavras
animadoras com as quais sempre se trabalhava com melhor e maior ânimo!
Um muito obrigada aos meus colegas de Mestrado! E a tantas pessoas amigas! Pela
escuta atenta e interessada, conselhos tão bons, por todo o apoio e não só! Um obrigada
especial à Ana pela disponibilidade de me “acolher” quando precisava de me focar mais
nos estudos, por me tirar as dúvidas sobre o LaTeX e por todos os seus conselhos tão
práticos e úteis. Um obrigada à Raquel por me ouvir tantas e tantas vezes, pelos conselhos
da experiência “das teses”, por sempre me dar “na cabeça” quando necessário e por me
apoiar! Não cabem os nomes de todos mas não posso (nem quero) deixar de referir um
obrigado especial à Teresa, à São e ao Salvador!
E a todos e a cada um: Muito Obrigada por tudo!
vii
Resumo
A Teoria dos Valores Extremos permite o estudo dos acontecimentos extremos que são
possivelmente desastrosos e de grande impacto para a sociedade. O comportamento
dos Extremos pode ser modelado por uma das três distribuições – Gumbel, Fréchet e
Weibull – se bem que estas distribuições podem ser representadas numa única expressão,
a distribuição Generalizada de Valores Extremos (GEV).
Nesta dissertação, serão analisados os números de veículos que atravessam a Ponte 25
de Abril, nos dois sentidos, diariamente. Também serão efetuadas duas análises, conse-
quentes destes dados, uma com base na sazonalidade e outra relativa ao valor das receitas
das portagens cobradas na travessia desta Ponte.
Será utilizada uma abordagem paramétrica para a inferência estatística sobre aconteci-
mentos raros. Para isso serão utilizados três modelos: o Modelo GEV (também conhecido
como Modelo dos Máximos Anuais), o Modelo GEV Multivariado (ou Modelo Estatís-
tico das r maiores observações) e o Modelo Generalizado de Pareto (GP ou Modelo dos
excessos acima do limiar). Estes modelos são muito usados em diversas áreas.
Nesta tese é feita uma descrição do fluxo de tráfego na Ponte 25 de Abril e os Métodos
dos Valores Extremos são utilizados para fazer uma previsão do comportamento desse
mesmo tráfego. Serão estimados níveis de retorno, períodos de retorno e probabilidades
de excedência. Será utilizado o Método da Máxima Verosimilhança para a estimação de
parâmetros e o Método do perfil Log-Verosimilhança para a estimação de Intervalos de
Confiança.
Palavras-chave: Teoria dos Valores Extremos, Modelo GEV, Modelo GEV Multivariado,
Modelo Generalizado de Pareto (GP), Método da Máxima Verosimilhança, Tráfego Rodo-
viário.
ix
Abstract
The Extreme Values Theory enables the study of extreme events that are possibly disas-
trous and of great impact for society. The behaviour of the Extremes can be modelled by
using one of three distributions – Gumbel, Fréchet and Weibull – even though they can
be represented in a single expression, the Generalized Extreme-Value distribution (GEV).
In this dissertation, the numbers of vehicles crossing daily and in both directions in
the 25 de Abril Bridge will be analysed. Two analyzes will also be carried out, as a result
of these data, one based on the verified seasonality and another in relation to the tolls
and revenues collected in the crossing of this Bridge.
A parametric approach will be used for statistical inference about rare events. To
achieve this three methods will be used: the GEV Model (also known as the Annual
Maximum Model), the Multivariate GEV Model (or r Largest order statistic Model) and
the Generalized Pareto Model (GP or Peak Over Threshold Model). These models are
widely used in various areas.
In this thesis a description is made of the traffic flow in the 25 de Abril Bridge and
the Methods of the Extreme Values are used to make a prediction of the behavior of this
traffic. Return levels, return periods and probabilities of exceedance will be estimated.
The Maximum Likelihood Method will be used for the estimation of parameters and so
will the Profile Log-Likelihood Method when estimating Confidence Intervals.
Keywords: Extreme Values Theory, GEV Model, Multivariate GEV Model, Generalized
Pareto Model, Maximum Likelihood Method, Road Traffic.
xi
Índice
Lista de Figuras xv
Lista de Tabelas xix
Siglas xxi
1 Introdução 1
2 Apresentação dos dados 3
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Descrição geral dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.1 História da Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . 3
2.2.2 Recolha e análise genérica do tráfego da Ponte 25 de Abril . . . . . 6
2.3 Análise da sazonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.1 Apreciação Gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.2 Ajuste Sazonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Análise do valor e receitas das portagens da Ponte 25 de Abril . . . . . . . 17
3 A Teoria dos Valores Extremos 25
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Noções básicas de modelação estatística . . . . . . . . . . . . . . . . . . . 26
3.2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2 Processos Aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.3 Leis Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.4 Modelação Paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Teoria Clássica e modelos dos Valores Extremos . . . . . . . . . . . . . . . 34
3.3.1 Modelos Assintóticos . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.2 Inferência para a distribuição GEV . . . . . . . . . . . . . . . . . . 39
3.3.3 Generalização do modelo: o modelo estatístico das r maiores obser-
vações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4 Modelos com Limiar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.2 Caracterização do Modelo Assintótico . . . . . . . . . . . . . . . . 47
xiii
ÍNDICE
3.4.3 Modelação dos limiares dos excessos . . . . . . . . . . . . . . . . . 49
4 Aplicação de Modelos de Valores Extremos e análise dos resultados 55
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Modelo GEV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 Modelo GEV Multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4 Modelo GP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4.1 Seleção do limiar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4.2 Estimação de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . 74
4.4.3 Verificação do modelo . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4.4 Níveis de retorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.4.5 Escolha do limiar revista . . . . . . . . . . . . . . . . . . . . . . . . 80
5 Conclusões e problemas por analisar 85
Referências Bibliográficas 87
I Anexo 89
I.1 Ajuste sazonal, resultados detalhados . . . . . . . . . . . . . . . . . . . . . 89
I.1.1 Estatística QS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
I.1.2 Previsões do tráfego na Ponte 25 de Abril com o ajuste sazonal . . 90
I.2 Análise das portagens e receitas da Ponte 25 de Abril, valores detalhados 91
I.3 Aplicação dos Modelos da Teoria dos Valores Extremos . . . . . . . . . . . 94
I.3.1 Modelo GEV Multivariado - Gráficos em detalhe . . . . . . . . . . 94
xiv
Lista de Figuras
2.1 Cronograma da história da Ponte 25 de Abril resumida (1876-1999) . . . . . 4
2.2 Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Tráfego Médio Diário Anual (1966-2018) . . . . . . . . . . . . . . . . . . . . . 7
2.4 Tráfego Médio Diário Mensal (2006-2018) . . . . . . . . . . . . . . . . . . . . 7
2.5 Gráfico sequencial de dados diários do tráfego da Ponte 25 de Abril (2010-2018) 8
2.6 Tráfego diário na Ponte 25 de Abril em 2010 . . . . . . . . . . . . . . . . . . . 8
2.7 Tráfego total mensal na Ponte 25 de Abril (2010-2018) . . . . . . . . . . . . . 9
2.8 Tráfego total mensal na Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . 11
2.9 Monthplot - Tráfego por mês na Ponte 25 de Abril . . . . . . . . . . . . . . . . 11
2.10 Gráficos espectrais para efeitos de sazonalidade e dias úteis . . . . . . . . . . 15
2.11 Componentes Sazonal e Irregular por mês . . . . . . . . . . . . . . . . . . . . 16
2.12 Séries Original e Ajustada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.13 Primeira previsão do tráfego na Ponte 25 de Abril com ajuste sazonal . . . . 17
2.14 Segunda previsão do tráfego na Ponte 25 de Abril com ajuste sazonal . . . . 17
2.15 Evolução do valor das Portagens de 1996 a 2019 da Ponte 25 de Abril . . . . 19
2.16 Aumentos por ano do valor unitário das Portagens da Ponte 25 de Abril . . . 19
2.17 Receitas totais mensais da Ponte 25 de Abril (2003-2017) . . . . . . . . . . . 20
2.18 Receitas totais mensais da Ponte 25 de Abril, de 2011 a 2017 . . . . . . . . . 21
2.19 Receitas totais anuais cobradas na Ponte 25 de Abril, com e sem inflação a
preços constantes de 2003 (2003-2017) . . . . . . . . . . . . . . . . . . . . . . 21
2.20 Diferenças das receitas totais anuais cobradas da Ponte 25 de Abril (2003-2017) 22
2.21 Percentagem referente às receitas totais da Lusoponte em 2017 . . . . . . . . 23
3.1 Gráficos de NR da distribuição GEV com parâmetros de forma ξ = −0.2, ξ = 0
e ξ = 0.2, respetivamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1 Máximos diários anuais do tráfego na Ponte 25 de Abril (2010-2018) . . . . . 56
4.2 Gráfico da Autocorrelação Parcial . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 Características Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4 Boxplot dos máximos diários anuais na Ponte 25 de Abril (2010-2018) . . . . 57
4.5 Gráficos diagnóstico para o Modelo GEV ajustado aos dados do tráfego da
Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
xv
Lista de Figuras
4.6 Perfil da log-verosimilhança para ξ para os máximos anuais do tráfego da
Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.7 Perfil da log-verosimilhança para diferentes anos de NR no tráfego da Ponte
25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.8 Gráficos diagnóstico para o ajuste do Modelo Gumbel aos máximos anuais do
tráfego da Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.9 Os 3 maiores valores diários de tráfego, por ano, na Ponte 25 de Abril (2010-
2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.10 Os 5 maiores valores diários de tráfego, por ano, na Ponte 25 de Abril (2010-
2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.11 Os 10 maiores valores diários de tráfego, por ano, na Ponte 25 de Abril (2010-
2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.12 Os NR estimados com IC de 95% para a distribuição de máximos anuais ba-
seados no Modelo estatístico das r maiores observações ajustado aos dados do
tráfego da Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.13 Gráficos diagnóstico do Modelo estatístico das r maiores observações com r = 3
para os maiores valores anuais de tráfego na Ponte 25 de Abril . . . . . . . . 70
4.14 Gráficos diagnóstico do Modelo estatístico das r maiores observações com r = 5
para os maiores valores anuais de tráfego na Ponte 25 de Abril . . . . . . . . 70
4.15 Gráficos diagnóstico do Modelo estatístico das r maiores observações com
r = 10 para os maiores valores anuais de tráfego na Ponte 25 de Abril . . . . . 71
4.16 GVRM para os dados do tráfego diário da Ponte 25 de Abril . . . . . . . . . . 73
4.17 GVRM com o lugar dos valores dos limiares representados com cores diferen-
tes para os dados do tráfego diário da Ponte 25 de Abril . . . . . . . . . . . . 74
4.18 Gráficos diagnóstico para o modelo ajustado ao primeiro limiar, u1 = 165212 77
4.19 Gráficos diagnóstico para o modelo ajustado ao segundo limiar, u2 = 156297 77
4.20 Gráficos diagnóstico para o modelo ajustado ao terceiro limiar, u3 = 161734 78
4.21 Estimação de parâmetros para 50 limiares diferentes para os dados diários do
tráfego da Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.22 Gráficos do perfil da log-verosimilhança para ξ, no modelo de excedências do
limiar, aplicados nos dados do tráfego da Ponte 25 de Abril . . . . . . . . . . 81
4.23 Gráficos dos NR para anos diferentes, para o primeiro limiar, u1 = 165212 . 81
4.24 Gráficos dos NR para anos diferentes, para o segundo limiar, u2 = 156297 . . 82
4.25 Gráficos dos NR para anos diferentes, para o terceiro limiar, u3 = 161734 . . 82
I.1 Primeira previsão do tráfego na Ponte 25 de Abril com ajuste sazonal, valores
correspondentes ao gráfico representado na figura 2.13 . . . . . . . . . . . . . 90
I.2 Segunda previsão do tráfego na Ponte 25 de Abril com ajuste sazonal, valores
correspondentes ao gráfico representado na figura 2.14 . . . . . . . . . . . . . 90
xvi
Lista de Figuras
I.3 Diagnóstico do modelo para os dados do tráfego da Ponte 25 de Abril com
base no modelo ajustado da estatística das r maiores observações com r = 5.
Gráficos de probabilidade (do lado esquerdo) e de quantis (do lado direito)
para as estatísticas de k maiores observações, k = 1, ...,5 . . . . . . . . . . . . . 94
xvii
Lista de Tabelas
2.1 Valores do tráfego total mensal na Ponte 25 de Abril (2010-2018) e Média
mensal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Datas e dias da semana dos valores máximos anuais . . . . . . . . . . . . . . 10
2.3 Output da Estatística QS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Output do summary(ajuste) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Descrição dos veículos de cada uma das Classes . . . . . . . . . . . . . . . . . 18
2.6 Tráfego médio diário e receitas cobradas nas pontes 25 de Abril e Vasco da
Gama, de janeiro a dezembro de 2017 e a soma anual . . . . . . . . . . . . . . 22
2.7 Portagens pagas em cada uma das pontes da Lusoponte e respetivas médias
(valores de 2019) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.1 Blocos de máximos, valores dos máximos anuais e respetivas datas . . . . . . 58
4.2 Valores dos IC dos parâmetros estimados. . . . . . . . . . . . . . . . . . . . . 59
4.3 Valores obtidos para diferentes anos de NR para o modelo GEV . . . . . . . . 61
4.4 Valores dos IC dos parâmetros estimados pelo modelo Gumbel . . . . . . . . 65
4.5 Valores obtidos para diferentes anos de NR para o modelo Gumbel . . . . . . 65
4.6 A log-verosimilhança maximizada, a estimação dos parâmetros e os erros pa-
drão correspondentes, quando considerados os r = 1, 3, 5 e 10 maiores valores
de tráfego anuais na Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . 68
4.7 Os valores dos IC dos parâmetros estimados pela MV correspondentes, quando
considerados os r = 1, 3, 5 e 10 maiores valores de tráfego anuais na Ponte 25
de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.8 Valores dos NR e dos IC quando r = 1, 3, 5 e 10 maiores valores de tráfego
anuais na Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.9 Valores estimados dos parâmetros e respetivos IC, para diferentes limiares . 76
4.10 A log-verosimilhança maximizada e a matriz variância-covariância estimadas
para os dois parâmetros, para os diferentes limiares . . . . . . . . . . . . . . . 76
4.11 Valores: das excedências ao limiar; da probabilidade de excedência; variância;
matriz variância-covariância para os três parâmetros com diferentes limiares 79
4.12 Valores obtidos para diferentes anos de NR para o primeiro limiar . . . . . . 79
4.13 Valores obtidos para diferentes anos de NR para o segundo limiar . . . . . . 79
4.14 Valores obtidos para diferentes anos de NR para o terceiro limiar . . . . . . . 80
xix
Lista de Tabelas
I.1 Valor unitário das Portagens da Ponte 25 de Abril, das quatro Classes, de 1996
a 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
I.2 Diferença entre os valores unitários das Portagens da Ponte 25 de Abril, das
quatro Classes, de 1996 a 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
I.3 Receitas em milhares de euros da Ponte 25 de Abril de 1998 a 2010 . . . . . . 92
I.4 Receitas em milhares de euros da Ponte 25 de Abril de 2011 a 2017 . . . . . . 92
I.5 Valores das receitas cobradas com e sem inflação a preços constantes de 2003
e a respetiva taxa em cada ano de 2003 a 2017 . . . . . . . . . . . . . . . . . . 92
I.6 Diferenças das receitas em milhares de euros da Ponte 25 de Abril de 2003 a
2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
xx
Siglas
f.d. Função de distribuição.
f.d.p. Função de densidade de probabilidade.
GEV Generalizada de Valores Extremos (em inglês, Generalized Extreme Va-lue).
GP Generalizada de Pareto.
GVRM Gráfico ou Gráficos de Vida Residual Média.
i.i.d. Independentes e identicamente distribuídas.
IC Intervalo ou Intervalos de Confiança.
MV Máxima Verosimilhança.
NR Nível ou Níveis de Retorno.
TLC Teorema Limite Central.
v.a. variável aleatória.
v.a.’s variáveis aleatórias.
xxi
CAPÍTULO 1Introdução
A Teoria dos Valores Extremos proporciona técnicas de inferência estatística orientada
para o estudo de comportamentos estocásticos extremais.
Esta teoria é frequentemente utilizada para obter distribuições de probabilidade do
máximo ou mínimo de variáveis aleatórias (v.a.’s) independentes e identicamente distri-
buídas (i.i.d.), bem como para modelar a distribuição de excessos acima de um certo nível.
Por exemplo, supondo que a sucessão de v.a.’s i.i.d. X1,X2, . . . representa o número de
veículos que passam diariamente numa ponte, poder-se-á então estudar a distribuição da
v.a.
Mn = max {X1, . . . ,Xn}
que representa o valor máximo diário de veículos durante um período de n observações.
Se F(x) representa a função distribuição (f.d.) de Xi então a função distribuição de Mn é
Pr(Mn ≤ x) = Pr(X1 ≤ x∩X2 ≤ x∩ · · · ∩Xn ≤ x) = Pr(X1 ≤ x)Pr(X2 ≤ x) . . .Pr(Xn ≤ x) =
= F(x)F(x) . . .F(x) = [F(x)]n.
Como geralmente F(x) é desconhecida, para se obter a distribuição de Mn, recorre-se à
teoria assintótica de valores extremos, que teve o seu início com os trabalhos de Fréchet,
Fisher e Tippett (1928), Mises (1936) e o seu auge foi com o trabalho de Gnedenko (1943)
que obteve as condições necessárias e suficientes que garantem a existência de um dos três
tipos de distribuição limite para o máximo de v.a.’s i.i.d., nomeadamente a distribuição
de Gumbel, Fréchet e Weibull.
Esta teoria é de suma importância para conhecer o comportamento de valores excessi-
vamente elevados ou muito reduzidos, devido às consequências que podem gerar. Trata-se
de um ramo da estatística que adquiriu maior relevância, principalmente, nos últimos
setenta anos. Os seus domínios de aplicação são muito variados: meteorologia, seguros,
telecomunicações, engenharia civil, economia, finanças, etc.
1
CAPÍTULO 1. INTRODUÇÃO
Esta Teoria também pode ser aplicada a acontecimentos mais correntes, como por
exemplo, o fluxo de tráfego numa ponte.
É de conhecimento corrente que congestionamentos significativos, situações de “pára-
arranca”, provocam atrasos nas deslocações, desgastes nos veículos, aumentos de consumo
de combustível e aumentos na duração das viagens. Todos estes fenómenos implicam cus-
tos significativos quer económicos quer de produtividade. Estes factos também se aplicam
ao que acontece na Ponte 25 de Abril, em Lisboa, tendo um enormíssimo significado pela
grande quantidade de veículos que diariamente a atravessam, por isso, foi considerado
relevante efetuar este estudo, o qual está na base desta dissertação. Em concreto, é efetu-
ada a aplicação da Teoria dos Valores Extremos ao tráfego da Ponte 25 de Abril, tal como
indicado no título desta tese.
Esta dissertação está organizada do seguinte modo: no Capítulo 1 tem-se a introdução;
o Capítulo 2 é constituído por três partes: na primeira é feita uma breve introdução à
história da Ponte 25 de Abril e também de uma análise de todos os dados adquiridos
referentes ao fluxo do tráfego dessa Ponte, na segunda, será analisada a sazonalidade
nos dados, tendo presente que este não é o foco principal desta dissertação mas sim a
aplicação da Teoria dos Valores Extremos ao estudo do tráfego na ponte, na terceira, será
efetuada uma análise das evoluções dos preços das portagens entre os anos 1996 e 2019 e
das receitas entre os anos 2003 e 2017, da Ponte 25 de Abril, disponibilizados; no Capítulo
3 está um resumo teórico de alguns modelos da Teoria dos Valores Extremos, tais como,
o Modelo dos Valores Extremos Generalizado (GEV), o Modelo GEV Multivariado e o
Modelo Generalizado de Pareto (GP); já no Capítulo 4 encontra-se o foco principal desta
dissertação que é a aplicação da Teoria dos Valores Extremos aos dados do tráfego da
Ponte 25 de Abril. Os dados mais trabalhados serão os dados diários do tráfego, desde
1 de janeiro de 2010 até 31 de dezembro de 2018. Por não serem os únicos valores que
foram disponibilidade são também trabalhados os valores referentes ao tráfego médio
mensal de 2006 a 2010 e os valores de tráfego médio anual de 1966 a 2006; no Capítulo 5
são efetuadas algumas observações finais sobre o estudo elaborado e indicados problemas
em aberto que poderão ser estudados.
2
CAPÍTULO 2Apresentação dos dados
2.1 Introdução
Esta secção tem três parte. Na primeira, apresenta-se um pouco da história da Ponte
25 de Abril e alguns acontecimentos (como por exemplo a construção da Ponte Vasco da
Gama) que possam ter tido algum impacto na utilização da Ponte aqui estudada. Vão ser
analisados todos os dados adquiridos e não só os referentes ao tráfego diário. Serão tidos
em consideração os dados diários do tráfego da Ponte 25 de Abril desde 1 de janeiro de
2010 até 31 de dezembro de 2018, o tráfego médio diário mensal desde 2006 e o tráfego
médio diário anual desde 1966.
Na segunda parte, será efetuada uma análise da existência ou não de sazonalidade nos
dados. E na terceira e última parte, será elaborada uma análise referente ao valor pago
por cada viatura dependendo da Classe que lhe é atribuída, como também, das receitas
recebidas através do pagamento das mesmas.
2.2 Descrição geral dos dados
2.2.1 História da Ponte 25 de Abril
Nesta parte apresenta-se um pouco da história da Ponte 25 de Abril. Esta estrutura é
uma ponte suspensa rodoferroviária que faz a ligação entre as cidades de Lisboa e Almada.
Esta união é feita no denominado “gargalo do Tejo”, isto é, na parte mais estreita e final
do estuário do rio Tejo.
Na figura 2.1 está representado um cronograma com alguma da história da Ponte que
teve como fonte de informação Infraestruturas de Portugal (2018a).
3
CAPÍTULO 2. APRESENTAÇÃO DOS DADOS
Foi efetuada a 1ª proposta,pelo Engenheiro MiguelPais, sobre a construção deuma ponte entre o Grilo e oMontijo, para resolver afalha de ligação entre amargem Norte e Sul do tejo,em Lisboa. Este projeto, noentanto, não seguiu.
Ao abrigo da Lei nº 2094 de 25 denovembro, o Governo aprovou aconstrução da Ponte sobre o tejo.O projeto foi entregue aoEngenheiro José do Canto Moniz,diretor dos Serviços deConservação da Junta Autónomade Estradas. O Gabinete da Pontesobre o tejo foi criado.
Foram abertas as 4 propostasapresentadas no concurso públicointernacional iniciado no ano anterior, nodia 3 de maio deste ano. A comissão deapreciação, presidida pelo EngenheiroDuarte Abecassis, decidiu queprovisoriamente a United States SteelExport Company ficaria adjudicada, comalgumas indicações, a principal seria quea ponte teria de ser, mais tarde, adaptadaao tráfego ferroviário.
Foi assinado o contrato paraa construção da Ponte, numprazo de 51 meses, por isso,previa-se que estivesseconcluída no dia 5 defevereiro de 1967.
A Ponte sobre oTejo começa aser construídano dia 5 denovembro.
No dia 6 de agosto éinaugurada a Ponte sobre oTejo, chamada na alturaPonte Salazar, com aberturaao tráfego, 6 meses antes dadata prevista.
Deu-se a Revoluçãode 25 de abril de 1974,o nome foi alteradopara Ponte 25 deAbril.
Adjudica-se à empresaSteinman BoyntonGroquist & Bridsal, aelaboração do projetodo caminho de ferro naPonte.
Concluiu-se oprojeto dotráfegoferroviário
Abre-se o concurso internacionale dão-se inicio as obras dereforço, do alargamento dotabuleiro e a inclusão da via-férrea na ponte como osrespetivos acessos.
Foi inaugurado o EixoFerroviário Norte Sul, no dia 30de julho às 13:30. Passados 33anos desde a inauguração, ocomboio passa finalmente naPonte.
1876 1958 1960
1990
1974196619621961
1994 1995 1999
Figura 2.1: Cronograma da história da Ponte 25 de Abril resumida (1876-1999)
(a) Ponte 25 de Abril durante o dia (b) Ponte 25 de Abril durante a noite
Figura 2.2: Ponte 25 de Abril
Na figura 2.2 tem-se do lado esquerdo a figura 2.2a obtida através de Almeida (2018)
e do lado direito a figura 2.2b obtida através de Costa (2018). Ao visualizar estas imagens
pode-se ter uma noção mais adequada da grandeza da Ponte Salazar, como foi inicial-
mente chamada, se for ponderado o facto de que quando foi inaugurada, em 1966, era
a quinta maior estrutura metálica do mundo e a maior fora dos Estados Unidos. Neste
momento, ocupa o 36º lugar a nível mundial. Portanto, até esta altura só ainda construí-
ram mais trinta e uma pontes maiores que a mencionada e já passaram cinquenta anos
desde a sua inauguração. Por este andar, a Ponte sobre o Tejo ficará no Top50 até meados
de 2040.
A Construção teve um custo que na altura rondou os dois milhões e duzentos mil
contos, o que corresponde, ao valor aproximado de onze milhões de euros, sem ajuste de
inflação (ou seja, sem ter em conta o aumento contínuo e generalizado dos preços).
Esta possibilidade de travessia, permitida pela Ponte 25 de Abril, teve como con-
sequência uma explosão urbanística que surgiu na margem esquerda do Rio Tejo, de
4
2.2. DESCRIÇÃO GERAL DOS DADOS
Almada a Setúbal, e houve efetivamente um crescimento económico e turístico no Sul de
Portugal, tendo como grande destaque a região do Algarve.
Como se pode observar no cronograma (figura 2.1) a travessia ferroviária foi inaugu-
rada em 1999, mais concretamente no dia 30 de julho. E no ano anterior, no dia 29 de
março, foi inaugurada a Ponte Vasco da Gama, uma nova travessia do Tejo, entre Saca-
vém e o Montijo. Estas duas modalidades diferentes de travessia, rodoviária e ferroviária,
tinham como principal objetivo diminuir o tráfego da Ponte 25 de Abril, mas tal não
ocorreu. Como se pode ler no trecho retirado do Volume I do documento “Auditoria à
aplicação do Modelo Contratual e aos Acordos de Reposição do Equilíbrio Financeiro”
efetuado pelo Tribunal de Contas Garcia, Pignatelli, Salina e Santos (2000):
“(. . . ) a versão inicial do Modelo apresentava-se equilibrada tendo em atenção, entre
outros, os seguintes pressupostos:
• Haveria uma diminuição do tráfego na Ponte 25 de Abril, na sequência da abertura
da nova ponte, ou seja, a Ponte Vasco da Gama e da ferrovia.
• O tráfego previsto para 1998 e 1999, na Antiga Travessia, seria inferior ao estimado
para 1996 e 1997.
• As taxas de portagem a cobrar na Ponte 25 de Abril, em 1998 e 1999, representariam
valores superiores ao dobro, em termos médios, dos praticados em 1996 e 1997.
Contudo, a realidade mostrou que:
• Não houve uma diminuição do tráfego na Ponte 25 de Abril, na sequência da aber-
tura da nova ponte e da ferrovia
• O tráfego na Ponte 25 de Abril, em 1998 e 1999, não foi inferior ao tráfego verificado
em 1996 e 1997.
• As taxas de portagem cobradas em 1998 e 1999 representaram valores inferiores
a metade dos constantes do Caso Base, isto é, mantiveram inalterado o seu valor.
(. . . )”
A circulação tanto rodoviária como ferroviária é intensa. Todos os dias se ouvem
nas notícias os congestionamentos recorrentes na Ponte sobre o Tejo. Dando particular
destaque aos números, por exemplo conforme a notícia de Trainlogistic (2018): “no iníciodo ano 2006: na chamada “hora de ponta” passaram cerca de sete mil carros, nos dois sentidose, em média, passavam por dia cerca de cento e cinquenta mil (...). Na mesma altura, em relaçãoà circulação ferroviária, havia a passagem diariamente de cento e cinquenta e sete comboios,nos dois sentidos, transportando cerca de oitenta mil passageiros por dia. Em 2006 passavamcerca de quatrocentas mil pessoas na Ponte 25 de Abril.” Hoje em dia, só na parte rodoviária
chegam a passar cerca de 140000 automóveis por dia nos dois sentidos.
5
CAPÍTULO 2. APRESENTAÇÃO DOS DADOS
2.2.2 Recolha e análise genérica do tráfego da Ponte 25 de Abril
Nesta dissertação, serão utilizados os dados referentes ao tráfego da Ponte 25 de Abril
para a aplicação dos modelos da Teoria dos Valores Extremos. Depois de contactadas
várias entidades como: a Brisa, a Lusoponte, o INE (Instituto Nacional de Estatística), e
o IMT (Instituto da Mobilidade e dos Transportes, I.P.). A instituição que forneceu os
dados apresentados e tratados neste trabalho foi o IMT a quem já se fez uma referência
em particular nos agradecimentos. Pois sem estes, o estudo aqui apresentado não seria
possível.
Obtiveram-se os valores diários referentes ao tráfego da Ponte 25 de Abril desde 1 de
janeiro de 2010 até 31 de dezembro de 2018. O tráfego é contabilizado nos dois sentidos,
apesar de só existirem portagens no sentido Sul-Norte, também é contabilizado o tráfego
no outro sentido através de sensores colocados no pavimento. Foi a partir de 2010 que
se começou a fazer a recolha dos dados diários pela própria entidade. Antes de 2010, só
se têm em arquivo os dados das médias mensais até 2006 e, antes de 2006 até 1966, as
médias anuais.
No próximo capítulo, os dados diários terão uma relevância particular, pois ao exis-
tirem variações ao longo do mês é necessário dispor dos dados desagregados para se
aplicarem os modelos de valores extremos. Por isso, para não se deixarem dados de lado,
será feita uma análise geral de todos os dados adquiridos.
Verifica-se a existência de 3287 valores diários; 156 valores referentes a TMDM (Trá-
fego Médio Diário Mensal), ou seja, a média mensal do tráfego diário; e 54 dados de
TMDA (Tráfego Médio Diário Anual), isto é, a média anual do tráfego diário.
Na figura 2.3 pode-se observar a média anual do tráfego diário desde 1966 até 2018.
Verifica-se que desde 1966 até 1993 têm um comportamento, tendencialmente, crescente.
Têm um pequeno decréscimo em 1994 e outro em 1998. Este segundo poderá associar-se
à inauguração da Ponte Vasco da Gama, no entanto, esta diminuição no tráfego não foi
tão acentuada quanto se pretendia. Pois, como já se mencionou, a construção da segunda
ponte para a travessia do Tejo era também para, de algum modo, reduzir o tráfego na Ponte
25 de Abril. Aliás, segundo a notícia do Jornal “Público” (2006), o trânsito aumentou 16%
entre 1998 e 2005. No ano 1999 foi finalmente inaugurada a via férrea, mas, tal como se
constata pela observação do gráfico, essa também não teve um impacto considerável no
fluxo de veículos que atravessam a Ponte sobre o Tejo.
6
2.2. DESCRIÇÃO GERAL DOS DADOS
0
20 000
40 000
60 000
80 000
100 000
120 000
140 000
160 000
180 00019
6619
6719
6819
6919
7019
7119
7219
7319
7419
7519
7619
7719
7819
7919
8019
8119
8219
8319
8419
8519
8619
8719
8819
8919
9019
9119
9219
9319
9419
9519
9619
9719
9819
9920
0020
0120
0220
0320
0420
0520
0620
0720
0820
0920
1020
1120
1220
1320
1420
1520
1620
1720
18
TMDA
ANOS
Tráfego Médio Diário Anual
TMDA
Figura 2.3: Tráfego Médio Diário Anual (1966-2018)
Através da figura 2.4 onde está representado o gráfico da média mensal do tráfego
diário, desde 2006 a 2018, nota-se um ligeiro decréscimo no fluxo de automóveis de
2006 até 2014. Neste último ano, está o mínimo valor apresentado. Pode-se associar esta
diminuição gradual ao impacto da Crise no poder de compra dos portugueses e que pode
ter sido uma consequência imediata, a diminuição da utilização do automóvel.
2006 2008 2010 2012 2014 2016 2018
1300
0015
0000
1700
00
Tráfego Médio Diário Mensal
Anos
TM
DM
Figura 2.4: Tráfego Médio Diário Mensal (2006-2018)
No gráfico sequencial, apresentado na figura 2.5, estão representados os valores diá-
rios do tráfego da Ponte 25 de Abril. Nestes nota-se um comportamento que demonstra
repetição na variação de valores. Logo pode-se dizer que os valores aparentam ter sazona-
lidade, esta será verificada no ponto seguinte desta secção.
7
CAPÍTULO 2. APRESENTAÇÃO DOS DADOS
2010 2012 2014 2016 2018
8000
012
0000
1600
00
Gráfico sequencial
Anos
Núm
ero
de v
eícu
los
Figura 2.5: Gráfico sequencial de dados diários do tráfego da Ponte 25 de Abril (2010-2018)
2.3 Análise da sazonalidade
2.3.1 Apreciação Gráfica
Nesta parte procurar-se-á verificar a existência ou não de sazonalidade nos dados.
Consegue-se através da figura 2.5, constatar a existência de uma certa oscilação que se
pode considerar repetitiva. De modo mais detalhado, na figura 2.6, estão representados
os dados diários de 2010.
jan mar mai jul set nov jan
1000
0014
0000
1800
00
Tráfego diário na Ponte 25 de Abril em 2010
Meses
Núm
ero
de v
eícu
los
Figura 2.6: Tráfego diário na Ponte 25 de Abril em 2010
Pela figura 2.6 consegue-se visualizar que o fluxo de trânsito aumenta gradualmente
até julho e mantém-se no seu momento máximo nesse mês e a partir de agosto, começa
a diminuir. É bastante compreensível o comportamento do fluxo de tráfego, tendo em
conta as estações do ano, por exemplo, consegue-se verificar que nos meses de inverno o
tráfego na Ponte 25 de Abril é menor mas vai crescendo até aos meses de verão.
8
2.3. ANÁLISE DA SAZONALIDADE
3000000
3500000
4000000
4500000
5000000
5500000
jan fev mar abr mai jun jul ago set out nov dez
NÚ
ME
RO
DE
VE
ÍCU
LO
S
MESES
Tráfego total mensal
2010 2011 2012 2013 2014 2015 2016 2017 2018 Média
Figura 2.7: Tráfego total mensal na Ponte 25 de Abril (2010-2018)
Pela figura 2.7,verifica-se a variação existente em cada mês, tendo no gráfico do fluxo
total mensal de cada ano (de 2010 a 2018) e a média mensal. O número de veículos a
fazer a travessia do Tejo tem o seguinte comportamento: vai aumentando gradualmente de
janeiro a julho onde há um “pico de tráfego” notório; a partir daqui há uma diminuição de
agosto a novembro; por fim, um pequeno aumento em Dezembro. Tal como se constatou
na figura 2.6 mas não com tanto detalhe.
Ano/mês JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ
2010 4224652 3828746 4563546 4506398 4757528 4624064 4980058 4727474 4406776 4209592 4056474 4091686
2011 4145533 3910751 4284042 4270360 4553549 4524434 4837444 4610856 4533814 4433562 4008582 4187329
2012 4166050 3914763 4315830 3950928 4430800 4372117 4821938 4586311 4311110 4129951 3838369 4012693
2013 3854645 3565231 3855582 4049453 4328235 4347041 4718802 4612927 4207995 4123280 4012741 4060121
2014 3787677 3510724 4041857 3997244 4374994 4199051 4706455 4518544 4164528 4258606 3854476 4080572
2015 3878744 3609397 4217205 4124907 4470700 4320618 4741665 4590546 4366085 4146466 4038909 4059142
2016 3895119 3732524 4178028 4160492 4370279 4473275 4906518 4783522 4515494 4286352 4111362 4105737
2017 4051244 3727218 4279434 4309458 4512357 4549332 4893114 4776071 4467813 4480308 4154925 4191607
2018 4108993 3801563 4124483 4195723 4619924 4477089 4879373 4857197 4641572 4420293 3953403 4173989
Média 4012517 3733435 4206667 4173885 4490930 4431891 4831707 4673716 4401687 4276490 4003249 4106986
< Anual > Anual > Mensal < Mensal É 2 coisas
Tabela 2.1: Valores do tráfego total mensal na Ponte 25 de Abril (2010-2018) e Médiamensal
Na Tabela 2.1 tem-se a amarelo o valor anual mais pequeno, pode-se dizer que nor-
malmente o fluxo de trânsito é mais pequeno em meses com temperaturas mais baixas, já
que estes valores ocorreram sempre em fevereiro (se bem que este mês como tem menos
dias é normal que o seu valor total mensal seja mais reduzido), excepto em 2012 que foi
em novembro. A vermelho está representado o maior valor anual, que tem sido sempre no
mês de julho. A verde está representado o maior valor mensal, em cinco dos doze meses
ocorreram em 2010, um dos valores ocorreu em 2012, três em 2017 e dois em 2018. Já os
menores valores mensais, representados a azul, oscilaram entre os anos de 2012 a 2014,
9
CAPÍTULO 2. APRESENTAÇÃO DOS DADOS
sendo que em 2014 teve seis meses com os menores valores. Os valores a cor-de-laranja
são duplamente representativos: em fevereiro de 2014 é o menor valor mensal e anual;
em julho do mesmo ano está representado o maior valor anual e o menor valor mensal.
Ano Data Dia da semanaNúmero veículos
2010 02/jul sexta-feira 180 846
2011 15/jul sexta-feira 170 750
2012 06/jul sexta-feira 169 322
2013 28/jun sexta-feira 172 842
2014 11/jul sexta-feira 169 406
2015 26/jun sexta-feira 165 212
2016 15/jul sexta-feira 172 982
2017 14/jul sexta-feira 175 961
2018 31/ago sexta-feira 172 030
Máximos anuais
Tabela 2.2: Datas e dias da semana dos valores máximos anuais
Quanto à tabela 2.2 pode-se afirmar que os valores máximos anuais ocorrem sempre
entre a última semana de junho e a primeira quinzena de julho, excepto em 2018, que foi
no último dia do mês de agosto, e todos estes valores máximos anuais ocorreram numa
sexta-feira.
2.3.2 Ajuste Sazonal
A sazonalidade é recorrentemente causada por movimentos que possuem a mesma
periodicidade e, normalmente, oscilatórios e ocorrem em períodos determinados no meio
do ano, como feriados, variações climáticas, férias, etc. O Processo de remoção da sa-
zonalidade de uma série temporal é conhecido como ajuste sazonal. Nesta secção será
apresentado, tendo como base o artigo Ferreira e Mattos (2016) que usa o X-13ARIMA-
SEATS com interface no software R utilizando o pacote seasonal (Sax & Eddelbuettel, 2018)
que foi desenvolvido por Christoph Sax, um modo de dessazonalizar séries temporais.
10
2.3. ANÁLISE DA SAZONALIDADE
Tráfego total mensal na Ponte 25 de Abril
Anos
Núm
ero
de v
eícu
los
men
sais
2010 2012 2014 2016 2018
3500
000
4000
000
4500
000
5000
000
Figura 2.8: Tráfego total mensal na Ponte 25 de Abril
Monthplot − Tráfego por mês
Meses
traf
ego
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
3500
000
4000
000
4500
000
5000
000
tráfego/mêsmédia/mês
Figura 2.9: Monthplot - Tráfego por mês na Ponte 25 de Abril
Ao analisar as figuras 2.8 e 2.9 pode-se verificar que o índice de fluxo de tráfego:
a. Tem características sazonais, já que de fevereiro a julho tem um comportamento mai-
oritariamente crescente e de julho a fevereiro, decrescente. E este comportamento
verifica-se ao longo dos anos;
b. Houve um pico mínimo bastante acentuado em 2013, talvez nessa altura se tenha
sentido de forma mais acentuada as consequências da crise económica em Portugal.
Se bem que em 2014 existe um mínimo menor que o de 2013 como se pode observar
no gráfico 2.8;
c. Através do gráfico 2.8, verifica-se que existe uma tendência decrescente de 2010
a 2014 e de 2014, até ao fim deste gráfico, a tendência passa a ser crescente, tal-
vez a partir desta altura as consequências da crise não se sintam de modo muito
acentuado;
d. Pelo gráfico 2.9 com o título “Monthplot -Tráfego por mês” (já que Monthplot sig-
nifica o gráfico mensal), em que se tem a série temporal de cada mês do ano (ou
seja, estão juntos os dados dos anos de 2010 a 2018, por mês) verifica-se que os dois
maiores valores mensais ocorrem nos meses de julho e agosto, que acabam por ficar
11
CAPÍTULO 2. APRESENTAÇÃO DOS DADOS
justificados pela altura do ano, já que no verão, na altura balnear, a passagem pela
Ponte 25 de Abril é mais recorrente dado o número de praias existentes na margem
Sul.
Depois de analisado o comportamento histórico da Série Temporal, efetuou-se o ajuste
sazonal automático, usando o X13-ARIMA-SEATS que a partir de agora será denominado
por X13. Como existem vários estudos empíricos que mostram que nem todos os ajustes
automáticos conseguem remover a sazonalidade, como seria esperado, é muito importante
fazer o teste de sazonalidade. No X13 é dado pela estatística QS. O teste tem como
hipótese nula: não existe sazonalidade. Para explicar melhor esta estatística foram tidas
em conta as informações de Bureau (2017), “StackExchange” (2018) e Maravall (2005) e
resumindo calcula-se do seguinte modo:
1. A série para a qual é calculada a estatística QS é diferenciada de acordo com o
modelo ARIMA (que será explicado com maior detalhe mais adiante) e também
pela seguinte regra:
ndif =max(1,min(d +D,2))
onde:
ndif : é o número de diferenças regulares a serem tidas em conta;
d e D: são, respetivamente, o número de diferenças regulares e sazonais no modelo
ARIMA escolhido.
(O ndif = 0 irá ocorrer se a estatística QS for calculada para a série de resíduos, ou
seja, nenhuma diferença será aplicada.)
2. As duas primeiras autocorrelações de ordem sazonal (em dados mensais, como neste
caso, serão 12 e 24) são obtidas e se essas autocorrelações forem menores ou iguais
a zero, então serão definidas como zero.
3. A estatística é definida do seguinte modo:
QS = n(n+ 2)(R2s
n−2 + R22s
n−2s
)onde:
n: número de observações das séries diferenciadas;
s: é a periodicidade dos dados (12, neste caso, com os dados ordenados mensal-
mente);
R2s e R2
2s: são as autocorrelações obtidas no ponto anterior.
12
2.3. ANÁLISE DA SAZONALIDADE
Apresenta-se para a estatística QS calculada para a série original, tendo em conta que
os dados foram agrupados mensalmente, o código do R que se encontra em anexo I.1.1.
O output do teste da estatística QS que está apresentado na tabela 2.3 mostra que o
teste para além de ter sido efetuado à série original e com ajuste, também foi aplicado nas
séries de resíduos do modelo ARIMA e da componente irregular. Tem-se a expectativa de
que não existam evidências de sazonalidade em todas as séries, exceto na série original.
Como se pode observar dado o grande valor da estatística QS (e o baixo valor do p-value
implícito) pode-se concluir que há sazonalidade na série.
qs valor pSérie original 117,9867 0,0000Série original corrigida por valores extremos 124,4607 0,0000Série dos resíduos do modelo ARIMA 0,0000 1,0000Série temporal com ajuste sazonal 0,0000 1,0000Série temporal com ajuste sazonal corrigida por valores extremos 0,0000 1,0000Série de componente irregular 0,0000 1,0000Série de componente irregular corrigida por valores extremos 0,0000 1,0000Série original 102,5000 0,0000Série original corrigida por valores extremos 110,3575 0,0000Série dos resíduos do modelo ARIMA 0,0000 1,0000Série temporal com ajuste sazonal 0,0000 1,0000Série temporal com ajuste sazonal corrigida por valores extremos 0,0000 1,0000Série de componente irregular 0,0000 1,0000Série de componente irregular corrigida por valores extremos 0,0000 1,0000
Tabela 2.3: Output da Estatística QS
O teste é feito na série completa (resultados da linha 2 à 8 do output) e nos últimos 8
anos mais recentes (já que neste caso o comprimento é maior que 8 anos e está apresentado
nas linhas seguintes do output), caso contrário, o teste seria feito apenas na série completa.
Ao considerar um nível de confiança de 95%, não existe nenhuma evidência de sazo-
nalidade nas séries dessazonalizada, dos resíduos do modelo ARIMA e da componente
irregular. No entanto, existem evidências de sazonalidade para a série original. De seguida
diagnostica-se o pré-ajuste e o modelo ARIMA. Mas antes disso, uma breve explicação
sobre o modelo ARIMA, para tal teve-se em consideração a explicação dada em Wikipedia
(2018).
ARIMA é uma sigla em inglês para “autoregressive integrated moving average”, ou seja,
para um modelo autorregressivo integrado de médias móveis. Este modelo é uma genera-
lização do modelo ARMA (modelo autorregressivo de médias móveis). Estes dois modelos
são ajustados aos dados da série temporal para compreender melhor o comportamento
dos dados ou para efetuar previsões de futuros pontos na série. Os modelos ARIMA
são aplicados normalmente a dados que mostram a não evidência de estacionariedade,
por isso, a série dos dados inicial é diferenciada uma ou mais vezes para eliminar a não
estacionariedade.
13
CAPÍTULO 2. APRESENTAÇÃO DOS DADOS
A parte autorregressiva (AR) do modelo ARIMA indica que a variável de interesse
(que evolui) é regredida nos seus próprios valores desfasados (ou seja, anteriores). A parte
integrada (I) indica que os valores dos dados foram substituídos pela diferença entre
valores (ou seja, por exemplo, os valores de X2 serão substituídos pela diferença entre X2
e X1) e este processo diferenciador pode ter sido realizado mais do que uma vez. A parte
da média móvel (MA) indica que o erro de regressão é na verdade uma combinação linear
dos termos de erro, cujos valores ocorreram simultaneamente, e em vários momentos no
passado. O objetivo de cada uma destas características é elaborar um modelo que se ajuste
aos dados do melhor modo possível.
Os Modelos ARIMA não sazonais são geralmente denotados por ARIMA(p,d,q), em
que os parâmetros p, d e q são números inteiros não negativos, p é a ordem (número
de desfasamentos) do modelo autorregressivo, d é o grau de diferenciação (número de
vezes em que os dados tiveram valores passados, subtraídos) e q é a ordem do mo-
delo da média móvel. Os Modelos ARIMA sazonais são denotados normalmente como
ARIMA(p,d,q)(P ,D,Q)m, em que m se refere ao número de períodos de cada intervalo e
P, D e Q referem-se aos termos de autorregressão, diferenciação e média móvel para a
parte sazonal do modelo ARIMA, respetivamente.
Coefficients: Estimate Std. Error z value Pr(>|z|) Codes
Constant 2054 1124 1.827 0.0677 0.05
Easter[1] -82760 39020 -2.121 0.0339 0.01
MA-Nonseasonal-01 0,6925 0,06691 10.349 <2e-16 0
MA-Seasonal-12 0,9978 0,077974 12.513 <2e-16 0
SEATS adj. ARIMA: Obs.:
Transform: none
AICc: 2477 35.87 0.05
BIC: 2489 0.9797 0.05
108
Box-Ljung (no autocorr.):
Shapiro (normality):
QS (no seasonality in final): 0
(0 1 1)(0 1 1)
Tabela 2.4: Output do summary(ajuste)
Em relação ao output obtido pode-se afirmar o seguinte: o modelo ARIMA estimado é
da ordem (0 1 1)(0 1 1) e o parâmetro MA sazonal é significativo. De acordo com o teste
de autocorrelação de Box-Ljung, não existem evidências de autocorrelação residual para o
modelo ARIMA estimado. O teste de normalidade de Shapiro-Wilk sugere a não existência
de normalidade, no entanto, essa não é uma característica extremamente necessária no
diagnóstico de modelos ARIMA. Também se verifica que não foi empregue qualquer
transformação logarítmica.
O próximo passo é fazer um diagnóstico, fornecido pelo programa, que tem o objetivo
de verificar se existem indícios de sazonalidade e efeitos de dias úteis antes e depois do
ajuste sazonal. Este diagnóstico é fornecido pelo gráfico da função de autocovariância, de
uma dada Série Temporal, reestimada por densidade espectral. Este diagnóstico é dado
14
2.3. ANÁLISE DA SAZONALIDADE
por quatro séries que são: a série original, a série dessazonalizada, a série dos resíduos
do modelo ARIMA e a série da componente irregular. No R, usa-se a função series() do
pacote seasonal para obter as séries espectrais.
0.0 0.1 0.2 0.3 0.4 0.5
9095
100
110
120
Série Original
Frequência
OriginalEfeitos SazonaisEfeitos de dias úteis
(a) Série Original
0.0 0.1 0.2 0.3 0.4 0.5
8590
9510
010
5
Série com ajuste Sazonal
Frequência
Ajuste SazonalEfeitos SazonaisEfeitos de dias úteis
(b) Série com ajuste Sazonal
0.0 0.1 0.2 0.3 0.4 0.5
9095
100
105
Série de Resíduos do modelo ARIMA
Frequência
ResíduosEfeitos SazonaisEfeitos de dias úteis
(c) Série de Resíduos do modelo ARIMA
0.0 0.1 0.2 0.3 0.4 0.5
9095
100
Série da Componente Irregular
Frequência
Componente IrregularEfeitos SazonaisEfeitos de dias úteis
(d) Série da componente Irregular
Figura 2.10: Gráficos espectrais para efeitos de sazonalidade e dias úteis
Para serem interpretados os gráficos representados na figura 2.10 tem que se ter em
conta o seguinte: existem indícios de efeitos sazonais na série, se a densidade espectral
da Série Temporal apresenta mais do que um pico sobre frequências sazonais (linhas
vermelhas e tracejadas); também existem indícios de efeitos de dias úteis, caso hajam
picos nas frequências de dias úteis (linhas tracejadas em azul). Como tal, pode-se afirmar
que só se verificam efeitos de sazonalidade para a série original e não existem efeitos de
dias úteis. Por esse motivo, não é necessário corrigir nenhum efeito referente aos dias
úteis. E verifica-se que a série está bem dessazonalizada, já que só o primeiro gráfico
apresenta mais do que um pico sobre frequências sazonais.
Os dois gráficos apresentados de seguida, nas figuras 2.11 e 2.12, são referentes aos
factores sazonais e à série com ajuste sazonal.
15
CAPÍTULO 2. APRESENTAÇÃO DOS DADOS
Meses
J F M A M J J A S O N D
−4e
+05
0e+
004e
+05
Componentes Sazonal e Irregular por mês
Componente IrregularSazonalMédia Sazonal
Figura 2.11: Componentes Sazonal e Irregular por mês
A representação gráfica da figura 2.11 é útil para visualizar a evolução dos fatores
sazonais ao longo do tempo e é dada pela função monthplot(). Para além da evolução dos
fatores sazonais, é possível verificar o comportamento da série SI (componentes sazonal e
irregular agregadas).
Séries Original e Ajustada
Anos
2010 2012 2014 2016 2018
3500
000
4000
000
4500
000
5000
000
OriginalAjustada
Figura 2.12: Séries Original e Ajustada
Na figura 2.12 vê-se o fluxo de tráfego na Ponte 25 de Abril com ajuste sazonal, através
do qual, mais uma vez, se constata uma ligeira descida até 2014 do número de automóveis
a atravessar a Ponte e um aumento gradual nos anos seguintes.
O programa X13, usando modelos SARIMA (ARIMA Sazonal, ou seja, em inglês Se-asonal ARIMA) faz previsões não só da Série original mas também da Série com ajuste
sazonal. Do adequado ajuste sazonal depende a qualidade das previsões efetuadas a partir
deste.
16
2.4. ANÁLISE DO VALOR E RECEITAS DAS PORTAGENS DA PONTE 25 DE
ABRIL
Previsão de tráfego na Ponte 25 de Abril
Anos
2010 2012 2014 2016 2018 2020
3500
000
4500
000
5500
000
trafegotrafego com ajusteCI 95%
Figura 2.13: Primeira previsão do tráfego na Ponte 25 de Abril com ajuste sazonal
Previsão de tráfego na Ponte 25 de Abril
Anos
2010 2012 2014 2016 2018 2020
3500
000
4000
000
4500
000
5000
000
TrafegoTrafego AjustadoPrevisão do Tráfego Ajustado
Figura 2.14: Segunda previsão do tráfego na Ponte 25 de Abril com ajuste sazonal
Nas figuras 2.13 e 2.14 encontram-se representadas as previsões do tráfego com ajuste
sazonal. Na figura 2.13, tem-se a preto o tráfego com ajuste representado e a azul os respe-
tivos IC de 95% dessa previsão. Verifica-se que a previsão indica que o máximo de 2020
será superior aos máximos anuais dos anos anteriores. Pela visualização do gráfico 2.14
é notória a tendência crescente da previsão do tráfego ajustado. Os resultados previstos
estão de um modo mais detalhado nas tabelas I.1 e I.2 em anexo.
2.4 Análise do valor e receitas das portagens da Ponte 25 de
Abril
Nesta secção, vai-se procurar fazer uma pequena análise das receitas obtidas na pas-
sagem da Ponte 25 de Abril, algumas das informações apresentadas têm como origem os
seguintes documentos: Infraestruturas de Portugal (2017) e Infraestruturas de Portugal
17
CAPÍTULO 2. APRESENTAÇÃO DOS DADOS
(2018b). Inicialmente ter-se-á em conta o valor unitário das portagens e a sua evolução.
De seguida, vai se fazer uma breve análise das receitas realizadas.
No decorrer do texto seguinte será utilizado o conceito de “valor unitário”, entendido
como o valor pago por cada viatura dependendo da Classe que lhe é atribuída.
Antes da perspectiva mais detalhada sobre o valor unitário das portagens, vão-se
esclarecer as seguintes observações:
1. A distinção entre cada uma das Classes de veículos é apresentada na tabela 2.5 que
foi retirada do site Lusoponte (2019a).
Tabela 2.5: Descrição dos veículos de cada uma das Classes
Atualmente, consideram-se da Classe 5 os motociclos, que pagam de portagem o
mesmo que a Classe 1. Mas para esta análise aqui apresentada não serão tidos em
consideração por falta de informações.
2. Houve uma mudança na zona de cobrança da Ponte 25 de Abril do sentido Norte-
Sul para o sentido Sul-Norte na madrugada do dia 28 de novembro de 1992. E as
portagens sempre foram cobradas só num dos sentidos.
3. Aqui serão apresentados os dados, do valor unitário das portagens, a partir de 1992,
pois foram os dados fornecidos pelo IMT.
4. Até 2010 inclusive as portagens não eram cobradas no mês de agosto na Ponte 25
de Abril, por ser o período de férias dos operadores desta portagem. Mas a partir de
2011 passou a ser cobrada e assim, em princípio, se irá manter.
Passando à análise do valor unitário das portagens pagas por cada uma das quatro
Classes de veículos têm-se os dados referentes nos gráficos 2.15 e 2.16. Os dados de 1996
18
2.4. ANÁLISE DO VALOR E RECEITAS DAS PORTAGENS DA PONTE 25 DE
ABRIL
a 2001 foram convertidos para euros, já que os seus valores originais estavam em escudos.
- €
1,00 €
2,00 €
3,00 €
4,00 €
5,00 €
6,00 €
7,00 €
8,00 € 0
1-0
1-1
99
6
01-
10
-19
96
01-
07
-19
97
01-
04
-19
98
01-
01
-19
99
01-
10
-19
99
01-
07
-20
00
01-
04
-20
01
01-
01
-20
02
01-
10
-20
02
01-
07
-20
03
01-
04
-20
04
01-
01
-20
05
01-
10
-20
05
01-
07
-20
06
01-
04
-20
07
01-
01
-20
08
01-
10
-20
08
01-
07
-20
09
01-
04
-20
10
01-
01
-20
11
01-
10
-20
11
01-
07
-20
12
01-
04
-20
13
01-
01
-20
14
01-
10
-20
14
01-
07
-20
15
01-
04
-20
16
01-
01
-20
17
01-
10
-20
17
01-
07
-20
18
Va
lor
un
itário
da
s p
ort
age
ns
Datas
Evolução do valor das Portagens de 1996 a 2019
Classe 1 Classe 2 Classe 3 Classe 4
Figura 2.15: Evolução do valor das Portagens de 1996 a 2019 da Ponte 25 de Abril
Ao se observar o gráfico 2.15 constata-se que o valor unitário das portagens tem vindo
a aumentar ao longo dos anos. Este aumento, aparenta ser praticamente constante. Só
em 2010 se nota uma pequena diminuição no aumento, ou seja, a diferença entre o valor
das portagens de um ano para o outro foi menor. Por exemplo, de 2008 para 2009 houve
um aumento de vinte cêntimos, no valor unitário da portagem, para a Classe 4; de 2009
para 2010 não houve nenhuma diferença no início do ano (como nos restantes anos tinha
havido) e, mais tarde, no segundo semestre de 2010, houve um aumento de apenas cinco
cêntimos para a Classe 4.
- €
0,05 €
0,10 €
0,15 €
0,20 €
0,25 €
0,30 €
2004 2005 2006 2007 2008 2009 2ºS2010
2011 2012 2013 2014 2016 2017 2018 2019
Va
lor
da
dife
renç
a
Anos
Aumentos por ano do valor das Portagens
Classe 1 Classe 2 Classe 3 Classe 4 Média
Figura 2.16: Aumentos por ano do valor unitário das Portagens da Ponte 25 de Abril
19
CAPÍTULO 2. APRESENTAÇÃO DOS DADOS
Em relação ao gráfico 2.16 que se refere às diferenças entre o valor das portagens dos
vários anos, como estas têm sido sempre positivas, o gráfico denomina-se como “aumentos
por ano do valor das portagens”. Este gráfico apresenta dois anos relevantes. O primeiro
já foi visualizado no gráfico 2.15, em relação ao segundo semestre de 2010, houve uma
grande diminuição no valor do aumento, já que as quatro Classes só aumentaram cada
uma cinco cêntimos. O segundo ano mais relevante é 2012, onde se nota um aumento
bastante acentuado no valor unitário das Portagens. Por exemplo, a Classe 4 aumentou
nesse ano vinte e cinco cêntimos. Os dados estão apresentados de modo mais detalhado
em tabelas que se encontram em anexo, em relação ao gráfico 2.15 na tabela I.1 e na tabela
I.2 sobre os dados do gráfico 2.16.
Quanto às receitas da Ponte 25 de Abril obtidas podem-se observar os gráficos 2.17 e
2.18 cujos valores representados são os valores reais cobrados e foram adquiridos através
do “INE” (2018). De um modo mais detalhado as receitas estão representadas em duas
tabelas em anexo na I.3 e na I.4.
0
500
1000
1500
2000
2500
3000
3500
4000
4500
jan
/03
ma
i/03
set/
03
jan
/04
ma
i/04
set/
04
jan
/05
ma
i/05
set/
05
jan
/06
ma
i/06
set/
06
jan
/07
ma
i/07
set/
07
jan
/08
ma
i/08
set/
08
jan
/09
ma
i/09
set/
09
jan
/10
ma
i/10
set/
10
jan
/11
ma
i/11
set/
11
jan
/12
ma
i/12
set/
12
jan
/13
ma
i/13
set/
13
jan
/14
ma
i/14
set/
14
jan
/15
ma
i/15
set/
15
jan
/16
ma
i/16
set/
16
jan
/17
ma
i/17
set/
17
Re
ceita
s
Anos
Receitas da Ponte 25 de Abril em milhares de Euros
Figura 2.17: Receitas totais mensais da Ponte 25 de Abril (2003-2017)
É visível através da figura 2.17 que as receitas obtidas através da Ponte 25 de Abril têm
uma tendência crescente. Em concreto, nesta representação, nota-se o impacto bastante
acentuado no mês de agosto (neste caso, nos anos 2003 a 2010) já que esta portagem não
era cobrada nesse mês, como já foi referido. A 30 de julho de 2012 saiu a seguinte notícia
no “Jornal de Negócios” (2012), referente a esta mudança:
“A isenção de portagens em Agosto começou em 1996 e resultou da renegociação do contratode concessão entre o Estado e a Lusoponte depois do bloqueio na Ponte sobre o Tejo, a que sechamou “buzinão”.
Segundo o secretário de Estado das Obras Públicas, Transportes e Comunicações, SérgioMonteiro, as isenções na cobrança de portagens nos meses de agosto desde essa altura geraramuma dívida de 110 milhões de euros.
No ano passado, o Governo decidiu reintroduzir as portagens devido às “dificuldades finan-ceiras que o país atravessa” e aos “compromissos de redução de despesa pública assumidos peloEstado português”.
20
2.4. ANÁLISE DO VALOR E RECEITAS DAS PORTAGENS DA PONTE 25 DE
ABRIL
Esta medida vai vigorar todos os anos até ao termo da concessão da ponte, em 2030, segundofonte da Lusoponte.(...)”
2200
2700
3200
3700
4200
4700
jan
/11
ma
r/1
1
ma
i/11
jul/1
1
set/
11
no
v/1
1
jan
/12
ma
r/1
2
ma
i/12
jul/1
2
set/
12
no
v/1
2
jan
/13
ma
r/1
3
ma
i/13
jul/1
3
set/
13
no
v/1
3
jan
/14
ma
r/1
4
ma
i/14
jul/1
4
set/
14
no
v/1
4
jan
/15
ma
r/1
5
ma
i/15
jul/1
5
set/
15
no
v/1
5
jan
/16
ma
r/1
6
ma
i/16
jul/1
6
set/
16
no
v/1
6
jan
/17
ma
r/1
7
ma
i/17
jul/1
7
set/
17
no
v/1
7
Re
ceita
s
Anos
Receitas da Ponte 25 de Abril em milhares de Euros
Figura 2.18: Receitas totais mensais da Ponte 25 de Abril, de 2011 a 2017
O gráfico 2.18 apresenta com maior detalhe o comportamento das Receitas da Ponte
25 de Abril de 2011 a 2017. Tal como os dados referentes ao fluxo de veículos na Ponte 25
de Abril as receitas, naturalmente, mostram o mesmo comportamento. Por isso, é visível
um comportamento semelhante em todos os anos, ou seja, há um aumento acentuado de
fevereiro até julho, onde há um pico de receitas, e depois decresce até novembro, tem um
pequeno aumento em dezembro que se pode associar às festividades deste mês (como o
Natal e a passagem de ano) e volta a diminuir até fevereiro. Não deixa de ser notório o
fluxo elevado de receitas provenientes da Ponte 25 de Abril onde, por exemplo, no mês
de julho de 2017 foram de 4116 milhares de Euros.
25000
27000
29000
31000
33000
35000
37000
39000
41000
43000
45000
2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Va
lore
s da
s R
ece
itas
em
milh
are
s de
€
Anos
Receitas cobradas com e sem inflação
Receitas com inflação Receitas sem inflação
Figura 2.19: Receitas totais anuais cobradas na Ponte 25 de Abril, com e sem inflação apreços constantes de 2003 (2003-2017)
21
CAPÍTULO 2. APRESENTAÇÃO DOS DADOS
Se se analisar, anualmente, os valores têm vindo a aumentar como se pode observar
na figura 2.19 mesmo que se retire a inflação ao valor das receitas cobradas (para se ver
com maior detalhe cada um dos valores pode-se observar em anexo a tabela I.5). Já na
figura 2.20 verifica-se a diferença entre as receitas anuais.
-1500
-1000
-500
0
500
1000
1500
2000
2500
3000
3500
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Dife
renç
a en
tre
Re
ceita
s e
m m
ilhar
es
de
€
Anos
Diferenças entre as Receitas Anuais
Figura 2.20: Diferenças das receitas totais anuais cobradas da Ponte 25 de Abril (2003-2017)
As diferenças entre estes anos são quase sempre positivas, ou seja, houve quase sempre
aumentos nas receitas totais cobradas na Ponte 25 de Abril, com excepção da diferença
entre os anos 2007-2008 e de 2009-2010, já que no primeiro caso houve uma diminuição
de 940 milhares de euros e no segundo uma diminuição de 332 milhares de euros. Po-
dem observar-se, com maior detalhe, as diferenças entre as receitas anuais na tabela I.6
apresentada em anexo.
Tabela 2.6: Tráfego médio diário e receitas cobradas nas pontes 25 de Abril e Vasco daGama, de janeiro a dezembro de 2017 e a soma anual
A tabela 2.6 foi retira do relatório Lima (2018). Nesta tabela consegue-se observar, em
relação às receitas, o valor total cobrado em cada uma das pontes 25 de Abril e Vasco da
Gama, como também, a soma das mesmas. Nota-se que a Ponte 25 de Abril acaba por ter
sempre um maior volume de receitas e para uma visualização mais detalhada tem-se o
gráfico 2.21.
22
2.4. ANÁLISE DO VALOR E RECEITAS DAS PORTAGENS DA PONTE 25 DE
ABRIL
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
Anual Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Pe
rce
nta
gem
Total mensal e anual
Percentagem referente às receitas totais
Ponte 25 de Abril
Ponte Vasco da Gama
Figura 2.21: Percentagem referente às receitas totais da Lusoponte em 2017
No gráfico 2.21 é interessante verificar que a maioria das receitas totais da Lusoponte
são provenientes da Ponte 25 de Abril. Também se nota, através da tabela 2.6, que existe
mais fluxo de veículos a atravessar a Ponte 25 de Abril do que a Ponte Vasco da Gama. É
possível que o valor unitário da Portagem que se paga tenha alguma relevância na decisão
dos utilizadores sobre qual a ponte que irão usar para chegarem ao seu destino. Em 2019,
na Ponte Vasco da Gama os preços das portagens são os apresentados na tabela 2.7, como
se pode verificar em Lusoponte (2019b).
Ponte 25 de Abril
Ponte Vasco da Gama
Diferença entre valores
Classe 1 1,85 € 2,85 € 1,00 €
Classe 2 4,05 € 6,45 € 2,40 €
Classe 3 5,55 € 9,50 € 3,95 €
Classe 4 7,20 € 12,20 € 5,00 €
Média 4,66 € 7,75 € 3,09 €
Tabela 2.7: Portagens pagas em cada uma das pontes da Lusoponte e respetivas médias(valores de 2019)
Concluindo, em 2019, em média, na Ponte Vasco da Gama paga-se mais 3,09 euros
que na travessia da Ponte 25 de Abril. No entanto, não se irá entrar em grandes detalhes
já que este não é o ponto fundamental desta dissertação.
23
CAPÍTULO 3A Teoria dos Valores Extremos
3.1 Introdução
O estudo que nesta tese vai ser apresentado utiliza, como instrumento, a Teoria dos
Valores Extremos. Após análise de bibliografia sobre o tema, como por exemplo do livro
Coles (2001), do livro Beirlant, Goegebeur, Segers e Teugels (2006) e do artigo Penalva,
Neves e Nunes (2013), foi verificado que os conceitos de que se necessitava para efetuar
este estudo são comuns à bibliografia. Sendo este modelo teórico, instrumental para o
estudo, visto que se trata da aplicação da Teoria dos Valores Extremos a uma situação
concreta – o estudo do fluxo do tráfego diário na Ponte 25 de Abril – procurou-se iden-
tificar a bibliografia que mais facilmente e de modo acessível apresentava este modelo.
Assim foi selecionada como fonte principal, para a apresentação deste modelo, o Livro
An Introduction to Statistical Modeling of Extreme Values, de Coles (2001). Este capítulo é
essencialmente constituído por um resumo da estrutura e da teoria apresentada no Capí-
tulo 1 ao 4 do referido livro, podendo, por isso, não ser feita a referenciação bibliográfica
convencional, típica de uma transcrição de textos referidos.
Na Análise de Valores Extremos, tal como o nome indica, faz-se a análise e a estimação
da probabilidade de ocorrerem acontecimentos eventualmente mais extremos do que
qualquer outro que já tenha sido anteriormente observado. O que realmente a distingue
de qualquer outra análise é o facto de procurar quantificar o comportamento estocástico
de um acontecimento que possui valores excecionalmente superiores ou inferiores aos
valores mais usuais.
Quando não existem diretrizes empíricas ou físicas com as quais se formulam re-
gras de extrapolação, os modelos utilizados são derivados de argumentos assintóticos.
Supondo que se denota por X1,X2, . . . a sucessão do número de veículos que passam
diariamente numa ponte, então
Mn = max {X1, . . . ,Xn}
25
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
representa o valor máximo diário de veículos durante um período de n observações. Pode-
ria calcular-se de forma exata a distribuição de Mn, caso se conhecesse o comportamento
estatístico de Xi . Como esse comportamento é desconhecido, esse cálculo não é possível.
Contudo, o comportamento aproximado de Mn, para grandes valores de n, segue argu-
mento de limites detalhados, permitindo n→∞, o que leva a uma família de modelos
que podem ser ajustados pelos valores observados de Mn.
O paradigma de valor extremo pode ser a denominação da análise de Valores Extre-
mos, visto que possui um princípio para a extrapolação de modelos baseada na imple-
mentação de limites matemáticos como aproximações de nível finito. É relevante que as
limitações que estão implícitas na adoção do paradigma do valor extremo sejam tidas
em conta: primeiro, é preciso ter cuidado ao tratar como resultados exatos os resultados
obtidos através de argumentos assintóticos por detrás da elaboração dos modelos para
amostras de dimensão finita; segundo, podem não ser razoáveis para um processo em
estudo, as circunstâncias idealizadas que estão na base dos modelos que são derivados;
depois, quando os modelos são implementados na prática, pode haver um desperdício de
informações. Por exemplo, ao registar-se unicamente o máximo anual e a partir de vários
máximos anuais chegar-se a um modelo que descreva as variações de um ano para outro,
pode acontecer que em qualquer ano particular, existam eventos extremos adicionais que
sejam mais extremos que outros valores de máximos anuais. Mas como não são o máximo
desse ano acabam por ser excluídos da análise. Por isso, usam-se mais dados por ano
no modelo estatísticos das r maiores observações e no Modelo Generalizado de Pareto
usam-se as observações que se encontram acima deste.
A implementação estatística, como complemento ao desenvolvimento de modelos ade-
quados para os valores extremos, é bastante relevante. E para que esta seja elaborada do
melhor modo, ter-se-ão em consideração as seguintes observações: o método de estimação
explorado será baseado nas técnicas da função de verosimilhança já que são únicas na
capacidade que possuem de se adaptar à modificação do modelo, pois o método de esti-
mação é o meio pelo qual os parâmetros desconhecidos de um modelo são diferidos com
base em dados históricos; a quantificação da incerteza é importante dada a variabilidade
da amostragem; os diagnósticos do modelo para avaliar a qualidade do ajuste do modelo
têm a sua relevância; em relação ao uso de informações, são explorados modelos que
usem vários dados, como os modelos multivariados, ou usam-se informações covariáveis
ou se incorporam fontes adicionais de conhecimento numa análise.
3.2 Noções básicas de modelação estatística
3.2.1 Introdução
Nesta secção serão apresentadas algumas noções básicas de modelação estatística,
se forem denotados por x1, . . . ,xn os dados de uma sucessão do número de veículos
observados diariamente. Logo, na travessia da ponte o tráfego no dia i tem a quantidade
26
3.2. NOÇÕES BÁSICAS DE MODELAÇÃO ESTATÍSTICA
aleatória de veículos, Xi . Quando o valor passa a ser conhecido é representado por xi .
Supõe-se que Xi tem uma distribuição de probabilidade que atribui vários valores
que o Xi possa ter. Os dados, x1, . . . ,xn são um registo completo do padrão de tráfego que
realmente existiu. Mas o papel da estatística não é apenas resumir o que já aconteceu,
mas inferir as características da aleatoriedade no processo que gerou os dados.
As estatísticas consideram a sucessão x1, . . . ,xn como realizações da sucessão de v.a.’s
X1, . . . ,Xn e utilizam os dados para estimar a estrutura probabilística dessas v.a.’s.
3.2.2 Processos Aleatórios
Um processo aleatório é uma sucessão de v.a.’s X1, X2, . . . . O exemplo mais simples é
o de uma sucessão de v.a.’s i.i.d., que poderá ser, por exemplo, a descrição de fenómenos
da vida real como cheias nos rios, picos de tráfego demasiado acentuado, e não só.
Definição 1. Um processo aleatório X1, X2, . . . é considerado estacionário se, dado qualquerconjunto de inteiros {i1, . . . , ik} e qualquer número inteiro m, as distribuições conjuntas de(Xi1 , . . . ,Xik ) e de (Xi1+m
, . . . ,Xik+m) forem idênticas.
O que implica a estacionariedade é que, dado qualquer subconjunto de variáveis, a
distribuição conjunta do mesmo subconjunto visto em m pontos de tempo permanece
inalterada. Ao contrário de uma série independente, a estacionariedade não impede que
Xi dependa de valores anteriores, embora Xi+m deva ter a mesma dependência dos seus
valores anteriores.
3.2.3 Leis Limite
Definição 2. Sendo X1, X2, . . . uma sucessão de v.a.’s, tendo respetivamente f.d. F1, F2, . . . ,
diz-se que a sucessão converge em distribuição para a v.a. X, e escreve-se Xnd→X, tendo a f.d.
F seFn(x)→ F(x) com n→∞,
em todos os pontos de continuidade de F.
A utilidade de estabelecer uma distribuição limite F para uma sucessão de v.a.’s
X1, X2, . . . , para aplicações estatísticas, é justificar o uso de F como uma aproximação
para a distribuição de Xn para n grande.
O Teorema Limite Central (TLC) é descrito de seguida.
Teorema 1. Seja X1, X2, . . . uma sucessão de v.a.’s i.i.d. com média µ finita e variância σ2
positiva. Então, definindo
Xn =X1 + · · ·+Xn
n,
tem-se √n(Xn −µ)σ
d→ Z (3.1)
com n→∞, onde Z∼N (0,1).
27
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
Em aplicações estatísticas, o TLC é usado por interpretação de (3.1) como uma apro-
ximação para a distribuição da média da amostra Xn para n grande. Isto é,
Xn∼N (µ,σ2/n) (3.2)
onde a notação ∼ significa “é aproximadamente distribuído”. O que faz o TLC notável
é que a distribuição aproximada da média amostral é normal, independentemente da
distribuição da sucessão de v.a.’s X1, X2, . . . .
3.2.4 Modelação Paramétrica
3.2.4.1 A Estrutura Paramétrica
A utilização de informações da amostra para fazer inferências sobre a estrutura da
probabilidade da população, da qual os dados surgiram, é um objetivo comum na mode-
lação estatística. No caso mais simples, os dados x1, . . . , xn são considerados realizações
independentes da distribuição da população. A inferência equivale à estimativa dessa
distribuição, para a qual existem duas abordagens: a paramétrica e não paramétrica. Na
abordagem paramétrica é necessário, em primeiro lugar, adotar uma família de modelos
dentro da qual a verdadeira distribuição dos dados esteja supostamente presente. Um
modelo é escolhido, normalmente, por motivos empíricos, usando técnicas exploratórias
para verificar famílias de modelos que parecem amplamente consistentes com os dados
disponíveis. Outra hipótese, é utilizar as leis limite como aproximações. Já se mencionou
no contexto de se usar a distribuição normal, como uma aproximação da distribuição das
médias amostrais, e a abordagem também é central para o desenvolvimento de modelos
de valores extremos.
Na discussão subsequente, restringiu-se a abordagem ao caso de uma variável aleató-
ria (v.a.) contínua cuja função de densidade de probabilidade (f.d.p.) existe, apesar dos
argumentos se aplicarem mais amplamente. Também se assumem que os dados x1, . . . , xnrepresentam realizações independentes de uma v.a. X cuja a f.d.p. pertence a uma fa-
mília de distribuições de probabilidade com funções de densidade F= {f (x;θ) : θ ∈Θ}conhecida. Denota-se o verdadeiro valor do parâmetro θ por θ0. A inferência é reduzida
à estimativa do parâmetro θ0 dentro do espaço de parâmetros Θ. O parâmetro θ pode ser
um escalar, como θ = p na família binomial, ou pode representar um vetor de parâmetros,
tal como θ = (µ, σ ) na família normal.
3.2.4.2 Estimação por Máxima Verosimilhança
Um método de estimação é a máxima verosimilhança (MV). Cada valor de θ ∈ Θdefine um modelo em Fque atribui probabilidades diferentes aos dados observados, se
as variáveis forem discretas. A probabilidade dos dados observados como uma função
de θ é chamada função de verosimilhança. Os valores de θ que têm uma alta probabi-
lidade de verosimilhança correspondem a modelos que dão uma probabilidade elevada
28
3.2. NOÇÕES BÁSICAS DE MODELAÇÃO ESTATÍSTICA
aos dados observados. O princípio da estimação por MV é adotar o modelo com maior
verosimilhança, já que este é o que atribui maior probabilidade aos dados observados.
Em maior detalhe, referindo-se à situação em que x1, ... ,xn são realizações indepen-
dentes de uma v.a. com f.d.p. f (x;θ0), a função de verosimilhança é
L(θ) =n∏i=1
f (xi ;θ). (3.3)
Lembrando que as variáveis X1, . . . ,Xk são mutuamente independentes se
fX1,...,Xk (x1, . . . ,xk) =k∏i=1
fXi (xi). (3.4)
A factorização em (3.3) é devida então a (3.4) para observações independentes. Nestes
casos é mais conveniente aplicar logaritmos e trabalhar com a função log-verosimilhança
`(θ) = log L(θ) =n∑i=1
logf (xi ;θ). (3.5)
O estimador de MV θ0 de θ0 é definido como o valor de θ que maximiza a fun-
ção de verosimilhança apropriada. Uma vez que a função logaritmo é monótona, a log-
verosimilhança tem o seu máximo no mesmo ponto que a função de verosimilhança, pelo
que o estimador de MV também maximiza a função log-verosimilhança correspondente.
3.2.4.3 Normalidade Aproximada do Estimador de Máxima Verosimilhança
Um benefício substancial da adoção da MV como princípio para a estimação de parâ-
metros é o facto de ser amplamente aplicável e estar disponível para várias distribuições
de amostragem úteis. Isto leva a aproximações para erros padrão e Intervalos de confiança
(IC). Destes obtêm-se alguns resultados úteis.
Cada um dos resultados é uma lei limite assintótica obtida à medida que o tamanho
da amostra n tende para infinito. Os resultados são válidos apenas sob condições de
regularidade, cuja precisão melhora à medida que n aumenta.
Teorema 2. Sejam x1, ... ,xn realizações independentes de uma distribuição dentro de umafamília paramétrica F, sendoMVN a notação de uma distribuição Normal Multivariada, e l(•)e θ0 denotam, respetivamente a função log-verosimilhança e o estimador de MV d-dimensionaldo modelo do parâmetro θ0. Então, sob condições de regularidade para grandes n
θ0∼MVN d
(θ0, IE(θ0)−1
),
onde
IE(θ) =
e1,1(θ) · · · · · · e1,d(θ)...
. . . ei,j(θ)...
... ej,i(θ). . .
...
ed,1(θ) · · · · · · ed,d(θ)
,
29
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
com
ei,j(θ) = E{− ∂2`∂θi∂θj
(θ)}.
A matriz IE(θ) é normalmente referida como a matriz da informação esperada.
O Teorema 2 pode ser usado para se obterem IC aproximados para componentes
individuais de θ0 = (θ1, . . . ,θd). Denotando um termo arbitrário no inverso de IE(θ) por
ψi,j , decorre das propriedades da distribuição normal multivariada que, para n grande,
θi∼N (θi , ψi,i).
Portanto, se ψi,i fosse conhecido, um IC (1−α)× 100% aproximado para θi seria
θi ± z α2√ψi,i (3.6)
onde z α2
é o quantil(1− α2
)da distribuição normal padrão. Uma vez que o verdadeiro
valor de θ0 é habitualmente desconhecido, é comum aproximar os termos de IE com os
da matriz de informação observada, definida por
IO(θ) =
− ∂2`∂θ1
2 (θ) · · · · · · − ∂2`∂θ1∂θd
(θ)...
. . . − ∂2`∂θi∂θj
(θ)...
... − ∂2`∂θj∂θi
(θ). . .
...
− ∂2`∂θd∂θ1
(θ) · · · · · · − ∂2`∂θd
2 (θ)
e avaliado em θ = θ. Denotando os termos do inverso desta matriz por ψi,j , segue-se que
um IC (1−α) aproximado para θi , é
θi ± z α2
√ψi,i . (3.7)
Estes intervalos são frequentemente mais precisos do que os obtidos em (3.6).
Embora uma família paramétrica Fpossa ser indexada por um parâmetro θ, no qual
θ0 representa o verdadeiro valor, pode não ser θ0 o valor de particular interesse. Em vez
disso, pode ser alguma função φ0= g(θ0) que se pretenda estimar, onde φ0 pode ter uma
dimensão diferente de θ0. Restringe-se a atenção para a situação em que φ0 é uma função
escalar de θ0. Isto é útil, muitas vezes, na modelação do valor extremo, onde θ0 é o vetor
do parâmetro de uma distribuição representante do comportamento do valor extremo,
mas a probabilidade de algum acontecimento extremo – que é uma função de θ0 – é que
é necessária. Os dois resultados seguintes permitem que inferências de MV de θ0 sejam
transformadas para fornecer inferências correspondentes em φ0.
Teorema 3. Se θ0 é a estimativa da MV de θ0 e φ = g(θ) é uma função escalar, então aestimativa de MV φ0 é dada por φ0 = g(θ0).
30
3.2. NOÇÕES BÁSICAS DE MODELAÇÃO ESTATÍSTICA
Este resultado significa que a estimativa de MV de qualquer função de θ0 é obtida por
substituição simples.
Teorema 4. Seja θ0 o estimador de MV da maior amostra do parâmetro d-dimensional θ0
com matriz variância-covariância aproximada Vθ. Então se φ = g(θ) é uma função escalar, oestimador de MV de φ0 = g(θ0) satisfaz
φ0∼N(φ0,Vφ
),
onde
Vφ = ∇φTVθ∇φ,
com
∇φ =[∂φ
∂θ1, . . . ,
∂φ
∂θd
]T,
avaliado em θ0.
O Teorema 4 é conhecido como método delta e permite que a normalidade aproxi-
mada de θ0 seja usada para obter IC para φ0.
3.2.4.4 A Inferência Aproximada Utilizando a Função Desvio
O estimador de verosimilhança baseia-se na função de desvio, definida por
D(θ) = 2{`(θ0)− `(θ)
}. (3.8)
Valores de θ com um desvio pequeno correspondem a modelos com alta verosimi-
lhança. Deste modo, um critério natural para derivar regiões de confiança é especificar
uma região de confiança
C = {θ :D(θ) ≤ c}
para algumas escolhas de c. Como não é possível escolher c, de tal forma, que a região
correspondente C tenha uma probabilidade pré-específica, (1−α), de conter o verdadeiro
parâmetro θ0, pois iria exigir que se conhecesse a distribuição da população, usa-se uma
aproximação para a distribuição de amostragem que é válida para amostras de grandes
dimensões.
Para o teorema seguinte é útil ter em conta a seguinte definição de distribuição para
variáveis aleatórias contínuas.
Definição 3. Se Z1, ...,Zk são variáveis normais padronizadas independentes, a variável
X = Z12 + · · ·+Zk2
tem uma distribuição qui-quadrado com k graus de liberdade e escreve-se X ∼ χ2k .
31
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
Teorema 5. Sejam x1, ... ,xn, realizações independentes de uma distribuição dentro de umafamília paramétrica F, e θ0 o estimador de MV do parâmetro θ0 do modelo d-dimensional.Então, para n grande, sob condições de regularidade adequadas, a função de desvio (3.8) satisfaz
D(θ0)∼χ2d .
Segue do Teorema 5 que uma região de confiança (1−α) aproximada para θ0 é dada
por
Cα = {θ :D(θ) ≤ cα} ,
onde cα é o quantil (1−α) da distribuição χ2d .
3.2.4.5 A Inferência Usando a Função de Verosimilhança de Perfil
Uma alternativa ao método que faz inferências numa componente particular θi de
um vetor de parâmetros θ é o método baseado no perfil da verosimilhança. A log-verosi-
milhança para θ pode ser formalmente escrita como `(θi ,θ−i), onde θ−i , denota todas as
componentes de θ excluindo θi . O perfil log-verosimilhança para θi é definido como
`p(θi) = maxθ−i
`(θi ,θ−i).
Ou seja, para cada valor de θi , o perfil de log-verosimilhança é a log-verosimilhança
maximizada em relação a todos os outros componentes de θ.
Esta definição pode ser generalizada para a situação onde θ pode ser dividido em
duas componentes, (θ(1),θ(2)), das quais θ(1) é o vetor de dimensão k de interesse e θ(2)
corresponde aos componentes restantes (d − k).
Teorema 6. Sejam x1, ... ,xn realizações independentes de uma distribuição pertencente auma família paramétrica F, e θ0 o estimador de verosimilhança máximo do parâmetro θ0 =
(θ(1),θ(2)) do modelo d-dimensional, onde θ(1) é um subconjunto k-dimensional de θ0. Então,sob condições de regularidade adequadas, para grandes valores de n
Dp(θ(1)
)= 2
{`(θ0
)− `p(θ(1))
}∼χ2
k .
O Teorema 6 é frequentemente utilizado em duas situações diferentes. Primeiro, por
um componente único θi ,Cα ={θi :Dp(θi) ≤ cα
}é um IC (1 − α)×100% para θi , onde cα é
o quantil (1−α) da distribuição χ21. A segunda aplicação é a seleção de modelos. Supondo
que M1 é um modelo com o vetor de parâmetros θ, e o modelo M0 é o subconjunto do mo-
delo M1, obtido restringindo k dos componentes de θ para ser, por exemplo, zero. Assim,
θ pode ser partido em duas partes como θ = (θ(1),θ(2)), onde o primeiro componente, da
dimensão k, é zero no modelo M0. Agora, se `1(M1) for a log-verosimilhança maximizada
32
3.2. NOÇÕES BÁSICAS DE MODELAÇÃO ESTATÍSTICA
para o modelo M1 e, sendo `0(M0) a log-verosimilhança maximizada para o modelo M0,
define-se
D = 2 {`1 (M1)− `0 (M0)}
como a estatística de desvio. Pelo Teorema 6,Cα ={θ(1) :Dp
(θ(1)
)≤ cα
}compreende uma
região de confiança (1−α) para o verdadeiro valor de θ(1), onde Dp é o perfil de desvio
e cα é o quantil (1−α) da distribuição χ2k . Portanto, para verificar se M0 é uma redução
plausível do modelo M1, é suficiente verificar se 0 está em Cα, que é equivalente a verificar
se D < cα. Isto é denominado teste de razão de verosimilhança.
Teorema 7. Seja M0 com o parâmetro θ(2) o sub-modelo de M1 com o parâmetro θ0 =
(θ(1),θ(2)), sob a restrição de que o subvetor k-dimensional θ(1) = 0. Sejam `0(M0) e `1(M1)
os valores maximizados da log-verosimilhança para os modelos M0 e M1, respetivamente. Umteste da validade do modelo M0 em relação ao M1, no nível de significância α, é rejeitar M0
em favor de M1, se D = 2 {`1 (M1)− `0 (M0)} > cα, onde cα é o quantil (1−α) da distribuiçãoχ2k .
Finalmente, observa-se que é provável que cada uma das aproximações, de amostras
de grandes dimensões é válida quando x1, ...,xn são realizações independentes, mas não
identicamente distribuídas de uma família indexada por um parâmetro θ.
3.2.4.6 Diagnóstico do Modelo
A razão pela qual se ajusta um modelo estatístico a dados é para tirar conclusões sobre
algum aspeto da população da qual os dados foram extraídos. A questão principal diz
respeito à capacidade do modelo para descrever variações na população em geral. A única
opção que normalmente está disponível é julgar a precisão de um modelo em termos do
seu acordo com os dados que foram realmente utilizados para estimar.
Assumindo que os dados x1, ...,xn são realizações independentes de uma população
com f.d. desconhecida F, uma estimativa de F, denotada por F, é obtida pela MV, e quer-
se avaliar a possibilidade da amostra ser proveniente de F. Primeiro, uma estimativa do
modelo de F pode ser obtida empiricamente a partir dos dados. Denotando por x(1), ... ,x(n)
a amostra ordenada, de modo que x(1) ≤ x(2) ≤ · · · ≤ x(n), sendo F uma estimativa da
verdadeira probabilidade de F e para qualquer um dos x(i), exatamente i das n observações
têm um valor menor ou igual a x(i), então uma estimativa empírica da probabilidade de
uma observação ser menor ou igual a x(i) é F(x(i)
)= i/n. Um ligeiro ajuste para F
(x(i)
)=
i/(n+ 1) é geralmente feito para evitar ter F(x(i)
)= 1. Isto leva à seguinte definição.
Definição 4. Dada uma amostra ordenada de observações independentes
x(1) ≤ x(2) ≤ · · · ≤ x(n)
de uma população com f.d. F, a função de distribuição empírica é definida por
F(x) =i
n+ 1para x(i) ≤ x < x(i+1).
33
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
Como F é uma estimativa da verdadeira distribuição de probabilidade F, deverá estar
de acordo com o modelo candidato, F, desde que este seja uma estimativa adequada de
F. Vários procedimentos da qualidade de ajuste são baseados nas comparações de F e
F. Duas técnicas gráficas, em particular, são usadas frequentemente e descrevem-se de
seguida.
Definição 5. Dada uma amostra ordenada de observações independentes
x(1) ≤ x(2) ≤ · · · ≤ x(n)
de uma população com f.d. estimada F, um gráfico de probabilidade consiste nos pontos{(F(x(i)
),i
n+1
):i= 1, . . . ,n
}.
E um gráfico de quantis consiste nos pontos{(F−1
( in+ 1
), x(i)
): i = 1, . . . ,n
}.
Se F é um modelo razoável para a distribuição da população, os pontos do gráfico de
probabilidade devem estar próximos da diagonal da unidade. Desvios substanciais da
linearidade fornecem evidência de uma falha em F como um modelo para os dados.
Se F é uma estimativa razoável de F, então o gráfico quantil também deve consistir
em pontos próximos à diagonal da unidade, ou seja, a y = x.
O gráfico de probabilidade e o gráfico de quantis contêm as mesmas informações
expressas numa escala diferente. No entanto, a percepção que é ganha em diferentes
escalas pode ser importante.
3.3 Teoria Clássica e modelos dos Valores Extremos
3.3.1 Modelos Assintóticos
3.3.1.1 Formulação do Modelo
O modelo que será apresentado é a pedra angular da teoria dos valores extremos. Este
foca-se no comportamento estatístico de
Mn =max {X1, . . . ,Xn}
onde X1, . . . ,Xn é uma sucessão de v.a.’s independentes com uma f.d. comum, F. Em
aplicações, o Xi geralmente representa valores de um processo medido numa escala de
tempo regular, de modo que Mn representa o máximo do processo em n unidades de
observação. Se n é o número de observações num ano, então Mn corresponde ao máximo
anual.
Em teoria, a distribuição de Mn pode ser derivada exatamente para todos os valores
de n:
Pr {Mn≤z} = Pr {X1 ≤ z, . . . ,Xn ≤ z} = Pr {X1 ≤ z} × · · ·×Pr {Xn ≤ z} = {F(z)}n . (3.9)
34
3.3. TEORIA CLÁSSICA E MODELOS DOS VALORES EXTREMOS
No entanto, a f.d. F é desconhecida, logo isto não é imediatamente útil na prática.
Uma possibilidade é utilizar técnicas estatísticas padrão para estimar F a partir de dados
observados, e depois substitui-se a estimativa em (3.9). Infelizmente, discrepâncias muito
pequenas na estimativa de F podem levar a discrepâncias substanciais para Fn.
Uma abordagem alternativa é aceitar que F é desconhecida e procurar famílias de mo-
delos aproximadas de Fn, que podem ser estimados com base apenas nos dados extremos.
Isto é semelhante à prática habitual de aproximar a distribuição das médias amostrais
pela distribuição normal, como justificado pelo TLC.
Observa-se o comportamento de Fn com n → ∞. Mas isso simplesmente não é su-
ficiente: para qualquer z < z+, onde z+ é o limite superior do suporte de F, Fn(z) → 0
com n→∞, pelo que a distribuição de Mn será degenerada com massa de probabilidade
concentrada em z+. Esta dificuldade é evitada permitindo uma normalização linear da
variável Mn:
Mn∗ =
Mn − bnan
,
para sucessões de constantes an > 0 e bn. Escolhas apropriadas de an e bn estabilizam
a localização e a escala de Mn∗ à medida que n aumenta, evitando as dificuldades que
surgem com a variável Mn. Por isso, procuram-se distribuições de limites para Mn∗, com
escolhas apropriadas de an e bn, em vez de Mn.
3.3.1.2 Teorema dos Modelos Extremos
Toda a gama de distribuições de limites possíveis para Mn∗ é dada pelo Teorema 8, o
Teorema dos Modelos Extremos.
Teorema 8. Se existirem sucessões reais {an > 0} e {bn} de tal modo que
Pr{Mn − bnan
≤ z}→ G (z) com n→∞, (3.10)
onde G é uma f.d. não-degenerada, então G é uma das seguintes distribuições:
I:
G(z) = exp{−exp
[−(z − ba
)] }, −∞ < z <∞ ; (3.11)
II:
G(z) =
0, z ≤ b,exp
{−(z−ba
)−α}, z > b;
(3.12)
III:
G(z) =
exp{−[−(z−ba
)−α]}, z < b,
1, z ≥ b;(3.13)
para os parâmetros a > 0, b ∈R e, no caso das distribuições II e III, α > 0.
35
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
Portanto, o Teorema 8 afirma que os máximos da amostra Mn−bnan
reescalonados con-
vergem na distribuição para uma variável com uma distribuição que se encontra dentro
de uma das famílias apresentadas. Estas três classes de distribuições são denominadas
Distribuições de Valores Extremos, com tipos I, II e III, amplamente conhecidas como
as famílias de Gumbel, de Fréchet e de Weibull, respetivamente. Cada família tem um
parâmetro de localização, b, e de escala, a; para além disso, as famílias Fréchet e Weibull
têm um parâmetro de forma, α.
O Teorema 8 implica que, quando Mn pode ser estabilizado com sucessões adequadas
an e bn, a variável normalizada correspondente Mn∗ tem uma distribuição limite que
deve ser um dos três tipos de distribuições de valores extremos. A característica notável
deste resultado é que os três tipos de distribuições de valor extremo são os únicos limites
possíveis para a distribuiçãoMn∗, independentemente da distribuição F para a população.
É neste sentido, que o teorema fornece uma distribuição limite análoga ao TLC.
3.3.1.3 Distribuição generalizada dos valores Extremos
Os três tipos de limites que surgem no Teorema 8 têm formas distintas de compor-
tamento, correspondendo às diferentes formas do comportamento da cauda da f.d. F do
Xi . Para tornar esta ideia mais clara, considere-se o comportamento da distribuição limite
G em z+, no seu limite superior do suporte. Para a distribuição de Weibull z+ é finita,
enquanto que para as restantes distribuições z+ =∞. No entanto, a densidade de G decai
exponencialmente para a distribuição de Gumbel e polinomialmente para a distribui-
ção de Fréchet, correspondendo a taxas relativamente diferentes de quedas na cauda de
F. Segue que nas aplicações, as três diferentes distribuições dão uma representação um
pouco distinta do comportamento do valor extremo. Nas primeiras aplicações da teoria
de valores extremos era comum adotar uma das três famílias e depois estimar os parâme-
tros relevantes dessa distribuição. Mas existem dois pontos fracos: primeiro, é necessária
uma técnica para escolher qual das três famílias é mais apropriada para os dados em
questão; segundo, uma vez tomada tal decisão, as inferências subsequentes assumem que
esta escolha é a correta e não têm em consideração a incerteza que tal seleção envolve,
embora essa incerteza possa ser substancial.
Reformulando os modelos do Teorema 8 é possível uma melhor análise. É fácil ve-
rificar que as famílias Gumbel, Fréchet e Weibull podem ser combinadas numa única
família de modelos tendo a função de distribuição da forma
G(z) = exp{−[1 + ξ
(z −µσ
)]− 1ξ
}, (3.14)
definido no conjunto {z : 1 + ξ(z−µσ
)> 0}, onde os parâmetros satisfazem −∞ < µ < ∞,
σ > 0 e −∞ < ξ <∞. Esta é a família do valor extremo generalizado (GEV – generalized
extreme value) das distribuições. O modelo tem três parâmetros: um parâmetro de loca-
lização, µ; um parâmetro de escala, σ ; e um parâmetro de forma, ξ. As classes do tipo
II e do tipo III da distribuição de valores extremos correspondem, respetivamente, aos
36
3.3. TEORIA CLÁSSICA E MODELOS DOS VALORES EXTREMOS
casos ξ > 0 e ξ < 0 nesta parametrização. O subconjunto da família GEV com ξ = 0 é
interpretado como o limite de (3.14) quando ξ→ 0, levando à família Gumbel com f.d.
G(z) = exp[−exp
{−(z −µσ
)}], −∞ < z <∞.
A unificação das três famílias numa única família simplifica muito a implementação
estatística. Através da inferência em ξ, os próprios dados determinam o tipo mais ade-
quado de comportamento da cauda, e não há necessidade de fazer julgamentos subjetivos
a priori sobre qual a distribuição de valor extremo individual a adotar. Além disso, a in-
certeza no valor inferido de ξ, mede a falta de certeza sobre qual dos três tipos de modelos
originais é o mais apropriado para um determinado conjunto de dados.
Pode-se assim reformular o Teorema 8.
Corolário 1. Sendo G um membro da família GEV então
G(z) = exp{−[1 + ξ
(z −µσ
)]− 1ξ
},
definido no conjunto{z: 1+ξ
(z−µσ
)> 0
}, onde −∞ < µ <∞, σ > 0 e −∞ < ξ <∞.
Interpretando o limite no Corolário 1, como uma aproximação para grandes valores
de n, é recomendado o uso da família GEV para modelar a distribuição de máximos de
grandes sucessões. A aparente dificuldade pelo facto das constantes de normalização
serem desconhecidas, na prática, é facilmente resolvido. Assumindo (3.14),
Pr{Mn − bnan
≤ z}≈ G(z)
para um n suficientemente grande. De modo equivalente, tem-se
Pr {Mn ≤ z} ≈ G{z − bnan
}= G∗(z),
onde G∗ é outro membro da família GEV. Por outras palavras, se o Corolário 1 permite
a aproximação da distribuição de Mn∗ por um membro da família GEV para n grandes,
a distribuição do próprio Mn, também pode ser aproximada, por um membro diferente
da mesma família. Uma vez que, os parâmetros da distribuição têm que ser estimados
de qualquer forma, é irrelevante, na prática, que os parâmetros da distribuição G sejam
diferentes daqueles de G∗.
Este argumento leva à seguinte abordagem para modelar os extremos de uma série de
observações independentes X1,X2, . . . . Os dados são agrupados em blocos em sucessões
de observações de comprimento n, para algum valor grande de n, gerando uma série de
blocos de máximos, Mn,1, . . . ,Mn,m, para os quais a distribuição GEV pode ser ajustada.
Frequentemente, os blocos são escolhidos para corresponder a um período de tempo de
comprimento de um ano, que nestes casos significa que n é o número de observações num
37
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
ano e os máximos dos blocos são máximos anuais. Estimativas de quantis extremos, da
distribuição máxima anual, são obtidos invertendo a equação (3.14)
zp =
µ− σξ[1− {−log(1− p) }−ξ
], para ξ , 0,
µ− σ log {−log(1− p) } , para ξ = 0,(3.15)
onde G(zp) = 1 − p. Na terminologia comum, zp é o nível de retorno (NR) associado ao
período de retorno 1p , porque com um grau razoável de precisão, o nível zp é esperado
que seja excedido, em média, uma vez a cada 1p anos. Mais precisamente, zp é excedido
pelo máximo anual, em qualquer ano, com probabilidade p.
Como os quantis permitem que os modelos de probabilidade sejam expressos numa
escala de dados, a relação do modelo GEV com os seus parâmetros é mais fácil de interpre-
tar em termos de expressões de quantis (3.15). Em particular, definindo yp = −log(1− p),
de modo que
zp =
µ− σξ[1− yp−ξ
], para ξ , 0,
µ− σ logyp , para ξ = 0;
segue-se que, se zp é traçado contra yp, numa escala logarítmica – ou equivalente, se zp é
traçado contra logyp – o gráfico é linear no caso de ξ = 0. Se ξ < 0 o gráfico é convexo com
limite assintótico com p→ 0 em µ− σξ ; se ξ > 0 o gráfico é côncavo e não tem limite finito.
Este gráfico na figura 3.1 é uma representação do gráfico do nível de retorno. Devido à
simplicidade de interpretação, e tendo presente que a escolha de escala comprime a cauda
da distribuição, de modo que o efeito da extrapolação é realçado, os gráficos de NR são
particularmente convenientes para a apresentação e a validação do modelo. A figura 3.1
mostra gráficos de NR para uma gama de parâmetros de forma, retirada do livro Coles
(2001).
Qua
ntil
Log y
𝝃 = 𝟎. 𝟐
𝝃 = 𝟎
𝝃 = −𝟎. 𝟐
Figura 3.1: Gráficos de NR da distribuição GEV com parâmetros de forma ξ = −0.2, ξ = 0e ξ = 0.2, respetivamente
38
3.3. TEORIA CLÁSSICA E MODELOS DOS VALORES EXTREMOS
3.3.2 Inferência para a distribuição GEV
3.3.2.1 Considerações Gerais
Motivado pelo Corolário 1, o GEV fornece um modelo para a distribuição de blocos
de máximos. A aplicação consiste em agrupar os dados em blocos de igual comprimento,
e ajustar o GEV ao conjunto de blocos de máximos. Mas ao implementar este modelo
para qualquer conjunto de dados, em particular, a escolha do tamanho do bloco pode ser
crítica. A escolha equivale a uma troca entre viés e variância: os blocos que são muito
pequenos significam que a aproximação pelo modelo limite no Corolário 1 é provavel-
mente pobre, levando a um enviesamento na estimativa e extrapolação; blocos grandes
geram poucos blocos de máximos, levando a uma grande variância na estimação. Por isso,
considerações pragmáticas muitas vezes levam à adoção de blocos de duração de um ano.
Por exemplo, se apenas os dados máximos anuais tiverem sido gravados, então, o uso de
blocos mais curtos não é uma opção. Até quando este não é o caso, é provável que uma
análise dos dados máximos anuais seja mais robusta do que uma análise baseada em
blocos mais curtos levando a que as condições do Corolário 1 não sejam respeitados. Por
exemplo, as temperaturas diárias, é provável, que variem consoante a estação, opondo-se
à suposição de que Xi tenha uma distribuição comum. Se os dados foram agrupados
em blocos de aproximadamente três meses, o máximo do bloco do verão provavelmente
será muito maior do que o bloco de inverno, e uma inferência que não conseguiu levar
esta não-homogeneidade em conta poderia dar resultados imprecisos. Fazendo, em vez
disso, blocos de comprimento de um ano significa que a suposição de que o bloco de
máximos tem uma distribuição comum é plausível, embora a justificação formal para a
aproximação do GEV permanece inválida.
Agora simplifica-se a notação denotando os blocos de máximos por Z1, . . . ,Zm. Estes
são assumidos como variáveis independentes de uma distribuição GEV cujos parâmetros
devem ser estimados. Se os Xi forem independentes, então os Zi , também serão indepen-
dentes. No entanto, a independência do Zi é provável que seja uma aproximação razoável,
mesmo se Xi constituir uma série dependente. Neste caso, embora não seja abrangido pelo
Corolário 1, a conclusão de que o Zi tem uma distribuição GEV ainda pode ser razoável.
Muitas técnicas têm sido propostas para a estimação de parâmetros em modelos de
valor extremo. Cada técnica tem os seus prós e contras, mas a utilidade geral e a adaptabi-
lidade à construção complexa de modelos de técnicas de verosimilhança básicas, tornam
esta abordagem particularmente atraente.
Uma dificuldade potencial com o uso de métodos de verosimilhança para o GEV refere-
se à validade das condições de regularidade, exigidas pelas propriedades assintóticas
usuais, associadas ao estimador de MV. Tais condições não são satisfeitas pelo modelo GEV,
porque os pontos finais da distribuição GEV são funções dos valores dos parâmetros: µ−σ/ξ é um limite superior do suporte da distribuição quando ξ < 0 e um ponto final inferior
quando ξ > 0. Esta transgressão das condições usuais de regularidade, significa que os
resultados da verosimilhança assintótica padrão, não são automaticamente aplicáveis.
39
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
Smith (1985) estudou este problema em detalhe e obteve os seguintes resultados:
• quando ξ > −0.5, os estimadores de MV são regulares, ou seja, têm as propriedades
assintóticas usuais;
• quando −1 < ξ < −0.5, os estimadores de MV são geralmente obtidos, mas não
possuem as propriedades assintóticas padrão;
• quando ξ < −1, os estimadores de probabilidade MV são improváveis de serem
obtidos.
O caso ξ ≤ −0.5 corresponde a distribuições com um limite muito curto da cauda superior.
Esta situação raramente é encontrada em aplicações de modelação de valor extremo,
por isso as limitações teóricas da abordagem da MV, geralmente, na prática não são um
obstáculo.
3.3.2.2 Estimação por máxima Verosimilhança
Sob a suposição de que Z1, . . . ,Zm sejam variáveis independentes com distribuição
GEV, a log-verosimilhança para os parâmetros GEV quando ξ , 0 é
`(µ,σ ,ξ) = −mlogσ −(1 +
1ξ
) m∑i=1
log[1 + ξ
(zi −µσ
)]−
m∑i=1
[1 + ξ
(zi −µσ
)]− 1ξ, (3.16)
providencia-se que
1 + ξ(zi −µσ
)> 0, para i = 1, . . . ,m. (3.17)
Em combinações de parâmetros para os quais (3.17) não é respeitado, correspondendo
a uma configuração para a qual, pelo menos, um dos dados observados está além de um
ponto final da distribuição, a verosimilhança é zero e a log-verosimilhança é igual a −∞.
O caso ξ = 0 requer um tratamento separado usando o limite de Gumbel da distribui-
ção GEV. Isto leva à log-verosimilhança
`(µ,σ ) = −mlogσ −m∑i=1
(zi −µσ
)−
m∑i=1
exp{−(zi −µσ
)}. (3.18)
A Maximização do par de Equações (3.16) e (3.18) em relação ao vetor de parâmetros
(µ,σ ,ξ), leva ao estimador de MV com respeito a toda a família GEV. Não há solução
analítica, mas para qualquer conjunto de dados a maximização é simples usando algorit-
mos de otimização numérica padrão. É necessário ter algum cuidado para garantir que
tais algoritmos não se alterem, de tal modo, que fiquem combinações de parâmetros que
não respeitem a (3.17), e também devem ser evitadas dificuldades numéricas que possam
surgir da avaliação de (3.16) nas vizinhanças de ξ = 0. Este último problema resolve-se
facilmente utilizando a (3.18) no lugar de (3.16) para os valores de ξ ficarem dentro de
uma pequena janela à volta de zero.
40
3.3. TEORIA CLÁSSICA E MODELOS DOS VALORES EXTREMOS
Estando ξ sujeito às limitações discutidas anteriormente, a distribuição aproximada
de (µ, σ , ξ) é normal multivariada com média (µ,σ ,ξ) e a matriz de variância-covariância
igual ao inverso da matriz de informação observada, avaliada na estimativa da MV. Em-
bora esta matriz possa ser calculada analiticamente, é mais fácil usar técnicas de diferen-
ciação numérica para avaliar as segundas derivadas e rotinas standard numéricas para
realizar a inversão. IC e outras formas de inferência seguem imediatamente da normali-
dade aproximada do estimador.
3.3.2.3 Inferências para níveis de retorno
Por substituição das estimativas de MV dos parâmetros GEV em (3.15), a estimativa
da MV de zp para 0 < p < 1, o NR 1/p, é obtida da seguinte forma
zp =
µ− σξ
[1− yp−ξ
], para ξ , 0,
µ− σ logyp , para ξ = 0,(3.19)
onde yp = − log(1− p). Além disso, pelo método delta,
V ar(zp
)≈ ∇zpTV∇zp, (3.20)
onde V é a matriz de variância-covariância de (µ, σ , ξ) e
∇zpT =[∂zp∂µ
,∂zp∂σ
,∂zp∂ξ
]=
[1, −ξ−1
(1− yp−ξ
),σξ−2
(1− yp−ξ
)− σξ−1yp
−ξ logyp]
avaliado em (µ, σ , ξ).
Geralmente são longos períodos de retorno, correspondendo a pequenos valores de p,
que são de maior interesse. Se ξ < 0 também é possível fazer inferências sobre o limite
superior do suporte da distribuição, que é efetivamente o ’período infinito de retorno da
observação’, correspondendo, a zp com p = 0. A estimativa da MV é
z0 = µ− σξ,
e (3.20) ainda é válida com
∇z0T =
[1,ξ−1,σξ−2
],
novamente avaliado em (µ, σ , ξ). Quando ξ ≥ 0 a estimativa da MV do limite superior do
suporte é infinita.
É necessário ter cuidado na interpretação das inferências do NR, especialmente para
NR correspondentes a longos períodos. Primeiro, a aproximação normal da distribuição
do estimador da MV pode ser pobre. Melhores aproximações são geralmente obtidas a
partir do perfil adequado da função de verosimilhança. Fundamentalmente, as estima-
tivas e as suas medidas de precisão baseiam-se no pressuposto de que o modelo está
correto. Embora o modelo GEV seja apoiado por argumentos matemáticos, o seu uso na
extrapolação é baseado em premissas não verificáveis, e as medidas de incerteza sobre os
NR devem ser apropriadamente consideradas como limites inferiores que poderiam ser
muito maiores se a incerteza devido à correção do modelo fosse tida em consideração.
41
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
3.3.2.4 O Perfil da Verosimilhança
A avaliação numérica, do perfil da verosimilhança para qualquer um dos parâmetros,
individualmente, µ,σ ou ξ, é simples. Por exemplo, para obter o perfil da verosimilhança
para ξ, fixa-se ξ = ξ0, e maximiza-se a log-verosimilhança (3.16) em relação aos parâme-
tros restantes, µ e σ . Isto é repetido para um intervalo de valores de ξ0. Os valores maxi-
mizados correspondentes da log-verosimilhança constituem o perfil log-verosimilhança
para ξ, a partir do qual o Teorema 6 permite obter IC aproximados.
Esta metodologia também pode ser aplicada quando a inferência é necessária em
algumas combinações de parâmetros. Em particular, podem-se obter IC para qualquer
NR específico zp. Isto requer uma reparametrização do modelo GEV, de modo que zpseja um dos parâmetros do modelo, após o qual o perfil log-verosimilhança é obtido pela
maximização em relação aos parâmetros restantes na maneira usual. A reparametrização
é direta:
µ = zp +σξ
[1− {−log(1− p) }−ξ
], (3.21)
de tal modo, que a substituição de µ em (3.16) por (3.21) tenha o efeito desejado de
expressar o modelo GEV em termos dos parâmetros (zp,σ ,ξ).
3.3.2.5 Verificação do Modelo
Embora seja impossível verificar a validade de uma extrapolação baseada num modelo
GEV, a avaliação pode ser feita com referência aos dados observados. Isto não é suficiente
para justificar a extrapolação, mas é um pré-requisito razoável.
Como descrito anteriormente, um gráfico de probabilidade é uma comparação entre
funções de distribuição empírica e ajustada. Com os blocos de máximos ordenados deste
modo z(1) ≤ z(2) ≤ · · · ≤ z(m), a f.d. empírica avaliada em z(i) é dada por
G(z(i)
)=
im+ 1
.
Por substituição de estimativas de parâmetros em (3.14), as estimativas baseadas em
modelos correspondentes são
G(z(i)
)= exp
−[1 + ξ
(z(i) − µσ
)]− 1ξ
.Se o modelo GEV estiver a funcionar bem,
G(z(i)
)≈ G
(z(i)
)para cada i, então um gráfico de probabilidade constituído pelos pontos{(
G(z(i)
), G
(z(i)
)), i = 1, . . . ,m
},
deve ficar perto da diagonal unidade. Quaisquer desvios substanciais da linearidade são
indicativos de alguma falha no modelo GEV.
42
3.3. TEORIA CLÁSSICA E MODELOS DOS VALORES EXTREMOS
Uma fraqueza do gráfico de probabilidade para modelos de valor extremo é que am-
bos G(z(i)
)e G
(z(i)
)são obrigados a aproximar-se de 1 quando z(i) aumenta, enquanto
é geralmente a precisão do modelo para grandes valores de z que é de maior preocupa-
ção. Ou seja, o gráfico de probabilidade fornece a menor informação na região de maior
interesse. Esta falha é evitada pelo gráfico quantil, consistindo nos pontos{(G−1
( im+ 1
), z(i)
), i = 1, . . . ,m
}, (3.22)
onde, de (3.19)
G−1( im+ 1
)= µ− σ
ξ
1− {−log( im+ 1
) }−ξ .Saídas da linearidade no gráfico de quantis também indicam falha do modelo.
Conforme discutido anteriormente, o gráfico do NR, que compreende um gráfico de
zp = µ+σξ
[1−{−log(1−p) }−ξ
]contra yp = −log(1− p) numa escala logarítmica, é particularmente conveniente para
interpretar modelos de valor extremo. A cauda da distribuição é comprimida, de modo
que, as estimativas do NR para longos períodos de retorno sejam exibidas, enquanto a
linearidade do gráfico no caso ξ = 0 fornece uma linha de base, contra a qual se julga o
efeito do parâmetro que fora estimado.
Como resumo de um modelo ajustado, o gráfico de NR consiste no locus dos pontos{(logyp , zp
): 0 <p < 1
},
onde zp é a estimativa da MV de zp. Os IC podem ser adicionados ao gráfico para aumentar
a sua informação. Estimativas empíricas da função do NR, obtidas a partir dos pontos
(3.22), também podem ser adicionadas, permitindo que o gráfico do NR seja usado como
um diagnóstico de modelo. Se o modelo GEV é adequado aos dados, a curva baseada
no modelo e as estimativas empíricas devem estar razoavelmente de acordo. Qualquer
discordância substancial ou sistemática, após o adiantamento para o erro de amostragem,
sugere uma inadequação do modelo GEV.
Os gráficos de probabilidade, de quantis e de NR são baseados numa comparação entre
modelos base e estimativas empíricas da f.d.. Para completar, um diagnóstico equivalente
é baseado na função de densidade, ou seja, é uma comparação da f.d.p., de um modelo
ajustado, com um histograma dos dados.
3.3.3 Generalização do modelo: o modelo estatístico das r maioresobservações
3.3.3.1 Formulação do Modelo
Uma dificuldade implícita em qualquer análise de valores extremos é a quantidade
limitada de dados para a estimativa do modelo. Os extremos são escassos, por definição,
43
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
por isso, as estimativas dos modelos, especialmente de NR extremos, têm uma grande
variação. Esta questão motivou a procura por caracterizações do comportamento do valor
extremo, que permita a modelação de dados, que não sejam apenas através de blocos de
máximos.
Existem duas caracterizações gerais bem conhecidas. Uma é baseada em excedências
de um limite elevado, a outra baseia-se no comportamento das estatísticas das r maiores
observações dentro de um bloco, para valores pequenos de r. Este estudo concentra-se
num modelo estatístico das r maiores observações.
Supondo que X1,X2, . . . é uma sucessão de v.a.’s i.d.d., e objetivam caracterizar o com-
portamento do extremo Xi . Na Secção 3.3.1.3, obteve-se que a distribuição limite, com
n→∞, de Mn, adequadamente redimensionada, é GEV. Primeiro estende-se este resul-
tado para outras estatísticas de ordem extrema, definindo
Mn(k) = k maior estatística ordinal de {X1, . . . ,Xn} ,
e identificando o comportamento limitante dessa variável, para k fixo, com n → ∞. O
seguinte resultado generaliza o Teorema 8.
Teorema 9. Se houver sucessões de constantes, {an > 0} e {bn}, de tal modo que
Pr{Mn−bnan
≤z}→G (z) com n→∞.
Para alguma f.d. não-degenerada G, tal que G é a f.d. GEV dada por (3.14), então, para um k
fixo,
Pr{Mn
(k) − bnan
≤ z}→ Gk(z),
em que{z: 1+ξ(z−µ)
σ > 0}, onde
Gk(z) = exp {−τ(z)}k−1∑s=0
τ(z)s
s!, (3.23)
com
τ(z) =[1 + ξ
(z −µσ
)]− 1ξ.
O Teorema 9 implica que, se a estatística das k maiores observações num bloco for
normalizada exatamente da mesma maneira que o máximo, então a sua distribuição
limite é da forma dada por (3.23), cujos parâmetros correspondem aos parâmetros da
distribuição limite GEV do bloco máximo. Novamente, absorvendo as constantes de escala
desconhecidas nos parâmetros de localização e de escala do modelo, segue-se que, para n
grande, a distribuição aproximada de Mn(k) está dentro da família (3.23).
44
3.3. TEORIA CLÁSSICA E MODELOS DOS VALORES EXTREMOS
Há, no entanto, uma dificuldade ao usar (3.23) como modelo. A situação que ocorre
muitas vezes, é de ter cada uma das r maiores observações dentro de cada um dos vários
blocos, para alguns valores de r. Isto é, geralmente tem-se o vetor completo
Mn(r) =
(Mn
(1), . . . ,Mn(r)
)para cada um dos vários blocos. Enquanto o Teorema 9 dá uma família para a distribuição
aproximada de cada um dos componentes de Mn(r), não dá a distribuição conjunta de
Mn(r). Além disso, os componentes não podem ser independentes: Mn
(2) não pode ser
maior que Mn(1), por exemplo, logo o resultado de cada componente influencia a distri-
buição do outro. Consequentemente, o resultado do Teorema 9 não conduz em si mesmo a
um modelo paraMn(r). Em vez disso, exige-se uma caracterização da distribuição conjunta
limite de todo o vetorMn(r). Com redimensionamento apropriado isto pode ser alcançado,
mas a distribuição conjunta limite leva à intratabilidade. No entanto, o seguinte teorema
dá a função densidade conjunta da distribuição limite.
Teorema 10. Se houver sucessões de constantes, {an > 0} e {bn}, de tal modo, que
Pr{Mn − bnan
≤ z}→ G(z)
com n→∞, para alguma f.d. não-degenerada G, então, para r fixo, a distribuição limite, comn→∞, de
M(r)n =
(Mn
(1) − bnan
, . . . ,Mn
(r) − bnan
)fica dentro da família com f.d.p. conjunta
f(z(1), . . . , z(r)
)= exp
−[1 + ξ
(z(r) −µσ
)]− 1ξ
×r∏k=1
σ−1[1 + ξ
(z(k) −µσ
)]− 1ξ −1
, (3.24)
onde −∞ < µ < ∞, σ > 0 e −∞ < ξ < ∞; z(r) ≤ z(r−1) ≤ · · · ≤ z(1); e z(k):ξ(z(k)−µσ
)> 0 para
k = 1, . . . , r.
No caso de r = 1, (3.24) reduz-se para a família de funções de densidade GEV. O caso
ξ = 0 em (3.24) é interpretada como a forma limite com ξ → 0, levando à família de
funções de densidade
f(z(1), . . . , z(r)
)= exp
{−exp
[−(z(r) −µσ
)] }×
r∏k=1
σ−1exp[−(z(k) −µσ
)], (3.25)
para a qual o caso r = 1 reduz à densidade da família Gumbel.
3.3.3.2 Modelação das Estatísticas das r maiores observações
Tendo uma série de variáveis i.i.d., os dados são agrupados em m blocos. No bloco
i as maiores observações ri são gravadas, levando à série Mi(ri ) =
(zi
(1), . . . , zi(ri )
)para
45
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
i = 1, . . . ,m. É usual definir r1 = · · · = rm = r para algum valor de r específico, a não ser que
menos dados estejam disponíveis em alguns blocos.
Assim como no modelo GEV a questão do tamanho do bloco equivale a uma troca
entre viés e variância, o número “de ordem” das estatísticas usadas em cada bloco também:
valores pequenos de r geram poucos dados o que leva a uma variância elevada; grandes
valores de r são suscetíveis de não respeitar o suporte assintótico para o modelo, levando
ao enviesamento. Na prática é comum selecionar o ri maior possível, sujeito a diagnósticos
de um modelo adequado.
A verosimilhança para este modelo é obtida a partir de (3.24) e (3.25), ao absorver os
coeficientes de escala desconhecidos em parâmetros de localização e de escala da maneira
usual, e levando a produtos através de blocos. Portanto, quando ξ , 0,
L(µ,σ ,ξ) =m∏i=1
exp
−1 + ξ
z(ri )i −µσ
− 1ξ ×
ri∏k=1
σ−1
1 + ξ
z(k)i −µσ
− 1ξ −1
, (3.26)
fornecida 1+ξ(zi
(k)−µσ
)> 0, k = 1, . . . , ri , i = 1, . . . ,m; caso contrário, a verosimilhança é zero.
Quando ξ = 0,
L(µ,σ ,ξ) =m∏i=1
exp{−exp
[−(z(ri ) −µσ
)] }×
ri∏k=1
σ−1 exp
−z(k)i −µσ
. (3.27)
A verosimilhança (3.26) e (3.27) ou, mais frequentemente, a correspondente log-vero-
similhança, pode ser maximizada numericamente para obter estimativas de MV. A teoria
da verosimilhança assintótica padrão também fornece erros padrão e IC aproximados. No
caso especial de ri = 1 para cada i, a função de verosimilhança reduz-se à verosimilhança
do modelo GEV dos blocos de máximos. De modo geral, através do modelo estatístico das
r maiores observações obtém-se uma verosimilhança cujos parâmetros correspondem aos
da distribuição GEV dos blocos de máximos, mas com mais quantidade de dados extremos
observados incorporados. Portanto, em relação a uma análise de blocos de máximo padrão,
a interpretação dos parâmetros é inalterada, mas a precisão deve ser melhorada, devido à
inclusão de informações extras.
3.4 Modelos com Limiar
3.4.1 Introdução
Seja X1,X2, . . . uma sucessão de v.a.’s i.i.d., tendo como f.d. marginal F. É natural consi-
derar como eventos extremos aqueles de Xi , que excedem algum limiar alto u. Denotando
um termo arbitrário na sucessão Xi porX, segue-se que uma descrição do comportamento
estocástico de eventos extremos é dada pela probabilidade condicional
Pr {X > u + y|X > u} =1−F(u + y)
1−F(u), y > 0, (3.28)
46
3.4. MODELOS COM LIMIAR
se a distribuição principal F fosse conhecida, a distribuição de ultrapassagens do limiar
em (3.28) também seria conhecida. Uma vez que, em aplicações práticas, este não é o caso,
são procuradas aproximações que são amplamente aplicáveis para valores elevados do
limiar. Isto é paralelo ao uso do modelo GEV, como uma aproximação da distribuição dos
máximos das sucessões longas, quando a população principal é desconhecida.
3.4.2 Caracterização do Modelo Assintótico
3.4.2.1 Distribuição de Pareto Generalizada
O resultado principal está contido no seguinte teorema.
Teorema 11. Seja X1,X2, . . . uma sucessão de v.a.’s independentes com a f.d. comum F e seja
Mn = max {X1, . . . ,Xn} .
Denotando um termo arbitrário na sucessão Xi por X, e supondo que F satisfaz o Corolário 1,de modo que, para n grandes,
Pr {Mn ≤ z} ≈ G(z),
onde
G(z) = exp{−[1 + ξ
(z −µσ
)]− 1ξ
},
para alguns, µ,σ > 0 e ξ. Então, para u suficientemente grande, a f.d. de (X −u), condicionalem X > u, é aproximadamente
H(y) = 1−(1 +
ξy
σ
)− 1ξ
, (3.29)
definido em{y: y > 0 e
(1 + ξy
σ
)> 0
}, onde
σ = σ + ξ(u −µ). (3.30)
A família de distribuições definida pela (3.29) é chamada Família Generalizada de
Pareto (GP). O Teorema 11 implica que, se os blocos de máximos tiverem uma distri-
buição G aproximada, então os excessos de um limiar têm uma distribuição aproximada
dentro da família GP. Além disso, os parâmetros desta distribuição dos limiares dos exces-
sos são unicamente determinados por aqueles da distribuição GEV associados aos blocos
de máximos. Em particular, o parâmetro ξ em (3.29) é igual ao da distribuição GEV
correspondente. Escolhendo um parâmetro diferente, mas igualmente grande, o bloco
de tamanho n afetaria os valores dos parâmetros GEV, mas não os da distribuição GP
correspondente dos limiares dos excessos: ξ é invariante quanto ao tamanho do bloco,
enquanto o cálculo de σ em (3.30) não é perturbado pelas mudanças em µ e em σ que são
auto-compensadoras.
47
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
A dualidade entre as famílias GEV e GP significa que o parâmetro de forma ξ é
dominante na determinação do comportamento qualitativo da distribuição GP, assim
como, para a distribuição GEV. Se ξ < 0, a distribuição de excessos tem um limiar superior
de u − σξ ; se ξ > 0, a distribuição não tem limiar superior. Também poderá ser ilimitada
se ξ = 0, que deve ser novamente interpretado tendo em conta o limiar ξ→ 0 em (3.29),
levando a
H(y) = 1− exp(−y
σ
), y > 0, (3.31)
correspondendo a uma distribuição exponencial com o parâmetro 1σ .
3.4.2.2 Justificação do esboço do Modelo GP
Aqui apresenta-se uma pequena prova do Teorema 11, um argumento mais detalhado
é dado em Leadbetter, Lindgren e Rootzen (1983).
Tendo X a f.d. F pela suposição do Teorema 8, para n suficientemente grande,
Fn(z) ≈ exp{−[1 + ξ
(z −µσ
)]− 1ξ
}para alguns parâmetros µ, σ > 0 e ξ. Consequentemente,
nlogF(z) ≈[1 + ξ
(z −µσ
)]− 1ξ. (3.32)
Mas para grandes valores de z, a expansão em série de Taylor implica que
logF(z) ≈ −{1−F(z)} .
Substituindo em (3.32) obtém-se
n (−{1−F(z)}) ≈ −[1 + ξ
(z −µσ
)]− 1ξ,
da qual se obtém
1−F(u) ≈ 1n
[1 + ξ
(u −µσ
)]− 1ξ,
para u grande. Da mesma forma, para y > 0,
1−F(u + y) ≈ 1n
[1 + ξ
(u + y −µσ
)]− 1ξ. (3.33)
Por isso,
Pr {X > u + y|X > u} ≈n−1
[1 + ξ(u+y−µ)
σ
]− 1ξ
n−1[1 + ξ(u−µ)
σ
]− 1ξ
=
1 +ξ(u+y−µ)
σ
1 + ξ(u−µ)σ
− 1ξ
=[1 +
ξy
σ
]− 1ξ
, (3.34)
onde,
σ = σ + ξ(u −µ),
como requerido.
48
3.4. MODELOS COM LIMIAR
3.4.3 Modelação dos limiares dos excessos
3.4.3.1 Seleção do limiar
O Teorema 11 sugere a seguinte estrutura para modelação de valores extremos. Os
dados em bruto consistem numa sucessão de medidas x1, . . . ,xn. Eventos extremos são
identificados por um limiar alto u, para o qual as excedências são {xi : xi > u}. Rotulando
estas excedências por x(1), . . . ,x(k) e definindo o limiar dos excessos por yj = x(j) −u, sendo
que j = 1, . . . , k. Por este teorema, o yj pode ser considerado como realizações indepen-
dentes de uma v.a. cuja distribuição pode ser aproximada por um membro da família GP.
A inferência consiste em ajustar a família GP ao limiar de excedências observado, seguido
da verificação e extrapolação do modelo.
Esta abordagem contrasta com a abordagem dos blocos de máximos através da carac-
terização de uma observação como extrema se exceder a um limiar alto. Mas a questão
da escolha do limiar é análoga à escolha do tamanho do bloco na abordagem dos blo-
cos de máximos, implicando um equilíbrio entre viés e variância. Neste caso, um limiar
muito baixo é suscetível de não respeitar a base assintótica do modelo, levando ao envie-
samento; se o limiar for muito alto irá gerar alguns excessos com os quais o modelo pode
ser estimado, o que levará a uma alta variância. A prática padrão é adotar como limiar
o mais baixo possível, que levará, em princípio, a um modelo com limiar que fornece
uma aproximação razoável. Existem dois métodos disponíveis para este fim: um é uma
técnica exploratória realizada antes da estimação do modelo; a outra é uma avaliação
da estabilidade das estimativas dos parâmetros, baseada na adaptação de modelos numa
gama de diferentes limiares.
Mais detalhadamente, o primeiro método é baseado na média da distribuição GP. Se
Y tem uma distribuição GP com parâmetros σ e ξ, então
E(Y ) =σ
1− ξ, (3.35)
fornecido ξ < 1. Quando ξ ≥ 1 a média é infinita. Agora, supondo que a distribuição GP
é válida como modelo para os excessos de um limiar u0 gerado por uma série X1, . . . ,Xn,
da qual um termo arbitrário é denotado por X. Pela (3.35),
E (X −u0|X > u0) =σu0
1− ξ,
fornecido ξ < 1, onde se denota σu0como parâmetro de escala correspondente aos exces-
sos do limiar u0. Mas se a distribuição GP é válida para os excessos do limiar u0, deve
igualmente ser válida para todos os limiares u > u0, sujeita à mudança do parâmetro de
escala apropriada para σu . Portanto, para u > u0,
E (X −u|X > u) =σu
1− ξ=σu0
+ ξu1− ξ
(3.36)
em virtude de (3.30). Então, para u > u0, E (X −u | X > u) é uma função linear de u. Além
disso, E (X −u | X > u) é simplesmente a média dos excessos do limiar u, para o qual a
49
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
média da amostra dos excessos do limiar u fornece uma estimativa empírica. De acordo
com (3.36), estas estimativas são esperadas mudar linearmente com u, em níveis de u
para os quais o modelo da GP é apropriado. Isto leva ao seguinte procedimento. O lugar
geométrico dos pontos u, 1
nu
nu∑i=1
(x(i) −u)
:u < xmax
,onde x(1), . . . ,x(nu) consistem nas nu observações que excedem u e xmax é o maior dos Xi ,
é denominado por gráfico de vida residual média (GVRM). Acima de um limiar u0, em
que a distribuição GP fornece uma aproximação válida para a distribuição excesso, o
GVRM deve ser, aproximadamente, linear em u. Os IC podem ser adicionados ao gráfico
com base na normalidade aproximada das médias de amostragem. A interpretação de um
GVRM nem sempre é simples na prática.
O segundo procedimento, para seleção de limiares, é estimar o modelo numa gama de
limiares. Acima de um nível u0, em que a motivação assintótica para a distribuição GP é
válida, as estimativas do parâmetro da forma, ξ, devem ser, aproximadamente, constantes,
enquanto as estimativas de σu devem ser lineares em u, devido a (3.36).
3.4.3.2 Estimação de Parâmetros
Tendo determinado um limiar, os parâmetros da distribuição GP podem ser estimados
pela MV. Supondo que os valores y1, . . . , yk são os k excessos de um limiar u. Para ξ , 0 a
log-verosimilhança é derivada a partir de (3.29) como
`(σ,ξ) = −k logσ −(1 +
1ξ
) k∑i=1
log(1 +
ξyiσ
), (3.37)
dado(1 + ξyi
σ
)> 0 para i = 1, . . . , k; de outro modo, `(σ,ξ) = −∞. No caso de ξ = 0 a
log-verosimilhança é obtida da (3.31) como
`(σ ) = −k logσ − σ−1k∑i=1
yi .
A maximização analítica da log-verosimilhança não é possível, por isso, são novamente
necessárias técnicas numéricas, é preciso cuidado para evitar instabilidades numéricas
quando ξ ≈ 0 em (3.37), e é necessário assegurar que o algoritmo não falhe, devido à
avaliação feita fora do espaço de parâmetros permitido. Os erros padrão e os IC para a
distribuição GP são obtidos da forma habitual da teoria da verosimilhança padrão.
3.4.3.3 Níveis de Retorno
Como já referido, é geralmente mais conveniente interpretar modelos de valores extre-
mos em termos de quantis ou NR, em vez de valores de parâmetros individuais. Por isso,
50
3.4. MODELOS COM LIMIAR
assumindo que uma distribuição GP com os parâmetros σ e ξ é um modelo adequado
para excedências de um limiar u por uma variável X. Ou seja, para x > u,
Pr {X > x|X > u} =[1 + ξ
(x −uσ
)]− 1ξ.
Segue que
Pr {X > x} = ζu[1 + ξ
(x −uσ
)]− 1ξ, (3.38)
onde ζu = Pr {X > u}. Assim, o nível xm que é excedido, em média, uma vez a cada m
observações, é a solução de
ζu
[1 + ξ
(xm −uσ
)]− 1ξ
=1m. (3.39)
Reorganizando fica,
xm = u +σξ
[(mζu)ξ − 1
], (3.40)
desde que m seja suficientemente grande para garantir que xm > u. Isto tudo assume que
ξ , 0. Se ξ = 0, fazendo o mesmo com (3.31) leva a
xm = u + σ log(mζu) , (3.41)
novamente, desde que m seja suficientemente grande.
Por construção, xm é o nível de retorno da observação m. A partir da (3.40) e da (3.41),
ao se fazer um gráfico de xm contra m numa escala logarítmica, produz-se as mesmas
características qualitativas como nos gráficos de NR baseados no modelo GEV: linearidade
se ξ = 0; concavidade se ξ > 0; convexidade se ξ < 0. Para apresentar, é mais conveniente
mostrar os NR numa escala anual, de modo que o NR do ano N seja o nível esperado para
ser excedido uma vez a cada N anos. Se existem ny observações por ano, isto corresponde
ao NR da observação m, onde m =N ×ny . Assim, o NR do ano N é definido por
zN = u +σξ
[(Nnyζu
)ξ− 1
],
a menos que ξ = 0, nesse caso
zN = u + σ log(Nnyζu) .
A estimação dos NR requer a substituição dos valores dos parâmetros pelas suas estimati-
vas. Para σ e ξ isto corresponde à substituição pelas estimativas de MV correspondentes,
e a estimativa de ζu , ou seja, a probabilidade de uma observação individual exceder o
limiar u, também é necessária. Terá um estimador natural de
ζu =kn,
a proporção da amostra de pontos que excede u. Uma vez que, o número de excedências
de u seguem uma distribuição binomial Bin(n, ζu), ζu , é também um estimador de MV
de ζu .
51
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
Os erros padrão ou os IC para xm podem ser derivados pelo método delta, mas a
incerteza na estimativa de ζu também deve ser incluída no cálculo. A partir das propri-
edades padrão da distribuição binomial V ar(ζu) ≈ ζu(1−ζu)n , então a matriz completa de
variância-covariância para (ζu , σ , ξ) é aproximadamente
V =
ζu(1−ζu)
n 0 0
0 v1,1 v1,2
0 v2,1 v2,2
,onde vi,j denota o termo (i, j) da matriz de variância-covariância de σ e ξ. Assim, pelo
método delta,
V ar(xm) ≈ ∇xmTV∇xm, (3.42)
onde
∇xmT =[∂xm∂ζu
,∂xm∂σ
,∂xm∂ξ
]=
=[σmξζu
ξ−1,ξ−1{(mζu)ξ − 1
},−σξ−2
{(mζu)ξ − 1
}+ σξ−1(mζu)ξ log(mζu)
],
avaliado em (ζu , σ , ξ).
Como nos modelos anteriores, as melhores estimativas de precisão para os parâmetros
e os NR são obtidos a partir do perfil apropriado de verosimilhança. Para σ ou ξ isto é
simples, para os NR, é requerida uma reparametrização. É mais simples ignorar a incer-
teza em ζu , que é geralmente pequena em relação à dos outros parâmetros. A partir de
(3.40) e (3.41)
σ =
(xm−u)ξ
(mζu)ξ−1, se ξ , 0;
xm−ulog(mζu) , se ξ = 0.
Com xm fixo, a substituição em (3.37) leva a uma verosimilhança de um parâmetro
que pode ser maximizada em relação a ξ. Como função do xm, este é o perfil de log-
verosimilhança para o NR da observação m.
3.4.3.4 Escolha do limiar revista
Como foi mencionado, os GVRM podem ser difíceis de interpretar como um método
de seleção de limiares. Uma técnica complementar é ajustar a distribuição GP numa gama
de limiares e procurar a estabilidade das estimativas dos parâmetros. O argumento é o
seguinte.
Pelo Teorema 11, se uma distribuição GP for um modelo razoável para excessos de
um limiar u0, então os excessos de um limiar superior u também devem seguir uma dis-
tribuição GP. Os parâmetros de forma, das duas distribuições, são idênticos. No entanto,
denotando por σu , o valor do parâmetro de escala da distribuição GP, para um limiar de
u > u0, segue-se de (3.30) que
σu = σu0+ ξ (u −u0) , (3.43)
52
3.4. MODELOS COM LIMIAR
de modo que o parâmetro de escala mude com u a menos que ξ = 0. Esta dificuldade
pode ser reparada, ao modificar o parâmetro de escala da distribuição GP do seguinte
modo,
σ ∗ = σu − ξu,
que é constante em relação a u em virtude de (3.43). Consequentemente, as estimativas
de ambos σ ∗ e ξ devem ser constantes acima de u0, se u0 é um limiar válido de excessos
para acompanhar a distribuição GP. A variabilidade da amostra significa que as estimati-
vas destas quantidades não serão exatamente constantes, mas devem ser estáveis após a
permissão para os seus erros de amostragem.
Este argumento sugere o gráfico de σ ∗ e ξ contra u, junto com os IC para cada uma
dessas quantidades, e selecionando u0 como o menor valor de u, para o qual as estimativas
permanecem quase constantes. Os IC de ξ são obtidos imediatamente a partir da matriz
variância-covariância V . Os IC para σ ∗ requerem o método delta, usando
V ar(σ ∗) ≈ ∇σ ∗TV∇σ ∗,
onde
∇σ ∗T =[∂σ ∗
∂σu,∂σ ∗
∂ξ
]= [1,−u] .
3.4.3.5 Verificação do Modelo
Gráficos de probabilidade, de quantis, de NR e de densidade são todos úteis para
avaliar a qualidade de um ajuste do modelo GP. Assumindo um limiar u, os limiares de
excessos y(1) ≤ · · · ≤ y(k) e um modelo estimado H , o gráfico de probabilidade consiste nos
pares{(
ik+1 , H(y(i))
); i = 1, . . . , k
}, onde
H(y) = 1−(1 +
ξy
σ
)− 1ξ
,
fornecido ξ , 0. Se ξ = 0 o gráfico é construído usando (3.31) no lugar de (3.29). Nova-
mente assumindo ξ , 0, o gráfico de quantis consiste nos pares{(H−1
( ik + 1
), y(i)
); i = 1, . . . , k
},
onde
H−1(y) = u +σ
ξ
[y−ξ − 1
].
Se o modelo GP for razoável para modelar excessos de u, então ambos os gráficos de
probabilidade e de quantis devem consistir em pontos que são aproximadamente lineares.
Um gráfico de NR, consiste no lugar geométrico dos pontos {(m, xm)} para grandes
valores de m, onde xm é o NR estimado da observação m:
xm = u +σ
ξ
[(mζu
)ξ− 1
],
53
CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS
novamente modificado se ξ = 0. Tal como acontece com o gráfico de NR do modelo
GEV, é normal traçar a curva de NR numa escala logarítmica para enfatizar o efeito de
extrapolação e também para adicionar limites de confiança e estimativas empíricas dos
NR.
Finalmente, a função densidade do modelo GP ajustado pode ser comparado com um
histograma das excedências dos limiares.
54
CAPÍTULO 4Aplicação de Modelos de Valores
Extremos e análise dos resultados
4.1 Introdução
Nesta secção, serão aplicados cada um dos modelos descritos em detalhe no capítulo
3, aos dados do tráfego diário da Ponte 25 de Abril e tirar-se-ão algumas conclusões sobre
a aplicabilidade dos modelos a estes dados.
Vai-se fazer uma análise preliminar aos dados essencialmente gráfica. Esta permitirá
ter uma ideia do comportamento da cauda direita da distribuição associada aos dados
referentes aos máximos anuais de veículos na Ponte 25 de Abril. A amostra, como já foi
indicada, é composta pelo número de veículos que passaram diariamente na Ponte 25 de
Abril, desde 01 de janeiro de 2010 a 31 de dezembro de 2018.
Tal como anteriormente foi explicado no capítulo 3, para se modelar os extremos de
uma série de observações independentes, os dados são agrupados em blocos de obser-
vações de cumprimento n, gerando uma série de máximos de blocos. A dimensão dos
blocos será escolhida para corresponder a um período de tempo de um ano, portanto, n
será o número de observações num ano e os máximos dos blocos são máximos anuais, já
que deste modo a sazonalidade não irá afetar a análise dos dados. Assumindo que este
valor de n seja suficientemente grande, os argumentos assintóticos levam a um modelo
que descreve as variações nos máximos anuais de um ano para o outro e que podem ser
ajustadas aos máximos anuais observados.
No entanto, em qualquer ano em particular, podem ter ocorrido eventos extremos
adicionais e é possível que sejam mais extremos do que o máximo de outros anos. Já que
tais dados não são o máximo anual no ano em que surgiram, estes vão ser excluídos de
uma parte desta análise, contudo, na aplicação do Modelo GEV Multivariado e no Modelo
estatístico das r maiores observações serão tidos em consideração mais valores para além
do máximo anual. No caso em que só se considera o máximo anual, como se têm os dados
55
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
diários de 9 anos a amostra terá uma dimensão igual a m = 9 observações e esta está
representada na figura 4.1.
2010 2012 2014 2016 2018
1650
0017
0000
1750
0018
0000
Máximos diários anuais
Anos
Máx
imo
diár
io a
nual
Figura 4.1: Máximos diários anuais do tráfego na Ponte 25 de Abril (2010-2018)
No gráfico de autocorrelação parcial (figura 4.2), apresentado de seguida, pode-se
observar que os valores são fracamente correlacionados entre si, portanto, é possível a
existência de independência nos dados.
0 2 4 6 8
−0.
50.
00.
51.
0
Lag
AC
F
Gráfico ACF
Figura 4.2: Gráfico da Autocorrelação Parcial
As características amostrais, como a mediana, a média, os quartis e os extremos são:
Mínimo 1º Quartil Mediana Média 3º Quartil Máximo165212 169406 172030 172150 172982 180846
Figura 4.3: Características Amostrais
Observa-se através destes valores que o número de veículos varia entre 165212 e
56
4.2. MODELO GEV
180846. Verifica-se que os dados são negativamente assimétricos pelo boxplot represen-
tado na figura 4.4, tira-se essa conclusão pelo risco da mediana que se encontra mais
próximo do 3º Quartil. Também se tem um outlier representado, ou seja, um ponto fora
das “linhas” desenhadas, no ponto máximo da distribuição, ou seja, em 180846.
165000 170000 175000 180000
Boxplot
Máximos diários anuais na Ponte 25 de Abril
Figura 4.4: Boxplot dos máximos diários anuais na Ponte 25 de Abril (2010-2018)
De seguida para se efetuarem as aplicações dos Modelos de Valores Extremos foram
tidos em conta, para além do livro Coles (2001), a dissertação de mestrado Rosário (2013) e
“GITHUB” (2009). As aplicações efetuadas ao tráfego da Ponte 25 de Abril nomeadamente:
ao Modelo GEV os blocos dos máximos anuais; ao Modelo GEV Multivariado as 3, 5 e 10
maiores observações anuais; e ao Modelo GP os valores do tráfego acima do limiar u igual
a 165212, 156297 e 161734 ao Modelo GP.
4.2 Modelo GEV
Como mencionado na secção 3.3.1.3 para se modelarem valores extremos de uma série
de observações independentes X1,X2, . . . os dados juntam-se em sucessões de observações
de comprimento n, gerando uma série de blocos de máximos,Mn,1, . . . ,Mn,m (para os quais
a distribuição GEV poderá ser montada). Escolheu-se o comprimento de um ano, portanto,
n será o número de observações num ano e os máximos dos blocos serão máximos anuais.
Como já mencionado anteriormente os máximos anuais são os seguintes:
57
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
Tabela 4.1: Blocos de máximos, valores dos máximos anuais e respetivas datas
Os blocos de máximos serão denotados por Z1, . . . ,Zm, neste caso, com m = 9.
4.2.0.1 Estimação por Máxima Verosimilhança
Os dados são modelados como observações independentes da distribuição GEV. Quanto
à maximização da log-verosimilhança do GEV, obtida através da função gev.fit() do pa-
cote ismev (Heffernan & Stephenson, 2018) que será utilizado ao longo das três secções
seguintes (sendo esta a primeira), para os dados referidos, obteve-se o seguinte output:
R code 4.1: Output do gev.fit()
1 $conv
2 [1] 0
3
4 $nllh
5 [1] 87.59868
6
7 $mle
8 [1] 1.701567e+05 3.778887e+03 -1.324375e-01
9
10 $se
11 [1] 1403.6701498 1027.8844808 0.2397786
Pode-se verificar que:
(µ, σ , ξ) = (170156.7,3778.887,−0.1324375),
para a qual a log-verosimilhança é −87.59868. A matriz da variância-covariância aproxi-
mada das estimativas dos parâmetros é:
58
4.2. MODELO GEV
M =
1970289.8894 183742.0436 −109.8018
183742.0436 1056546.5059 −113.8859
−109.8018 −113.8859 0.05749378
Tendo em consideração os resultados obtidos por Smith (1985), e já que ξ > −0.5,
pode-se afirmar que os estimadores da MV são regulares, ou seja, têm as propriedades
assintóticas usuais.
A diagonal principal da matriz representada corresponde aos valores das variâncias
dos parâmetros individuais de (µ,σ ,ξ). Calculando as respetivas raízes quadradas, obtêm-
se os erros padrão que são 1403.670,1027.884 e 0.2397786 para µ, σ e ξ respetivamente.
Podem-se calcular os IC de 95%, aproximadamente, para cada parâmetro, combinando
as estimativas obtidas e os erros padrão:
Tabela 4.2: Valores dos IC dos parâmetros estimados.
Como se pode ver pelos valores dos ICs dos parâmetros estimados, o IC do parâmetro
ξ contém zero, logo a Distribuição Gumbel poderá ser a distribuição mais precisa da
família GEV para estes dados. Para analisar esta situação será efetuado o ajustamento dos
dados à distribuição Gumbel na secção 4.2.0.5.
4.2.0.2 Verificação do Modelo
Para se visualizar melhor a extrapolação do modelo GEV, tem-se a figura 4.5. Para isso,
utilizou-se a função gev.diag(), que para modelos estacionários produz quatro gráficos
diagnóstico (usando o output da função gev.fit()).
59
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
Gráfico de Probabilidade Gráfico de Quantis
Gráfico de DensidadeGráfico do Nível de Retorno
Empírica Modelo
zPeríodo de Retorno
Nív
el de
Reto
rno
f(z)
Modelo
Em
pír
ica
Figura 4.5: Gráficos diagnóstico para o Modelo GEV ajustado aos dados do tráfego daPonte 25 de Abril
Através do gráfico de probabilidade, que é uma comparação entre funções de distri-
buição empírica e ajustada, quando os pontos ficam perto da diagonal unidade é sinal
de que o modelo GEV está bem ajustado. Se há desvios substanciais da linearidade estes
são indicativos de alguma falha no modelo. Como aparentemente não acontece pode-se
afirmar o contrário.
No gráfico de quantis se estiverem representadas saídas de linearidade, tal como no
caso anterior, estas indicariam falha do modelo. Apesar de haver um ponto um pouco
afastado da diagonal, todos os outros apresentam uma certa linearidade. Tem-se também
o gráfico baseado na função de densidade, ou seja, está representada uma comparação da
função de densidade de probabilidade (de um modelo ajustado) com um histograma dos
dados.
Quanto ao gráfico do NR tem-se a representação de um gráfico do nível que se espera
que seja excedido pelo processo uma vez em cada p anos (nível de retorno zp) contra o
(logaritmo do) período de retorno p. O gráfico do NR é particularmente relevante para
interpretar modelos de valor extremo. A cauda da distribuição é comprimida de tal modo
que as estimativas do NR são exibidas para longos períodos de retorno. A linha preta
representa a estimativa da MV dos parâmetros da distribuição GEV ajustada aos dados
do tráfego da Ponte 25 de Abril. As linhas azuis são IC de aproximadamente 95%. Já os
pontos são os níveis de retorno empíricos e ajudam na validação do modelo, portanto,
neste caso, existem 9 pontos no conjunto de dados, o maior ponto corresponde ao quantil
empírico do ano 9. Tendo em conta a observação do gráfico de NR da figura 4.5 pode-se
dizer que o modelo está bem ajustado, já que os pontos se encontram entre as linhas de
confiança.
Os gráficos da figura 4.5 que têm como base uma comparação entre modelos base
60
4.2. MODELO GEV
e estimativas empíricas da f.d., estão razoavelmente de acordo quanto à adequação do
modelo GEV ajustado aos dados referentes aos máximos anuais do tráfego na Ponte 25 de
Abril.
4.2.0.3 Inferência para níveis de retorno
As estimativas para os NR são obtidas pela substituição dos valores nas equações
(3.22) e (3.23). Para se calcularem os IC de 95% será calculada a variância do NR, pelo
método delta. Vão ser calculados quatro NR para: 5, 10, 50 e 100 anos. Feitas as respetivas
substituições nas equações e calculadas as mesmas, foram obtidos os seguintes valores:
Tabela 4.3: Valores obtidos para diferentes anos de NR para o modelo GEV
Tendo em conta a tabela 4.3 espera-se que, em média, num ano em cada 5, 10, 50 ou
100 anos, haja um dia em que o número de veículos que atravessa a Ponte 25 de Abril seja
superior a 175297, 177510, 181671 e 183174, respetivamente.
Como, neste caso, ξ < 0 também é possível fazer inferências sobre o limite superior do
suporte da distribuição que é efetivamente o ‘período inferior de retorno da observação’,
ou seja, calcula-se zp com p = 0.
A estimativa da MV é z0 = µ− σξ
e (3.20) é válida com ∇z0T =
[1,−ξ−1,σξ−2
]avaliado
em (µ, σ , ξ). Portanto, para este caso em concreto, depois de efetuadas as respetivas subs-
tituições e cálculos, tem-se z0 = 198690 e o respetivo IC de, aproximadamente, 95% é
[104368,293012]. Como se pode observar o valor de z para p = 0 é o maior valor compa-
rando com os outros resultados, como seria de esperar, e em relação ao IC é também o de
maior amplitude.
4.2.0.4 Perfil da Verosimilhança
Para se obter o perfil da verosimilhança vai-se usar a função gev.prof() do pacote
ismev (Heffernan & Stephenson, 2018). Esta função permite o cálculo do perfil log-vero-
similhança para o parâmetro de forma, ξ, e para diferentes anos de NRs, para modelos
61
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
GEV.
−1.0 −0.5 0.0 0.5 1.0
−91
−90
−89
−88
Parâmetro forma
Per
fil L
og−
vero
sim
ilhan
ça
Figura 4.6: Perfil da log-verosimilhança para ξ para os máximos anuais do tráfego daPonte 25 de Abril
A figura 4.6 mostra o gráfico do perfil da log-verosimilhança para ξ no tráfego da
Ponte 25 de Abril cujos valores do IC de, aproximadamente, 95%, obtidos através do
mesmo, são [−0.6900517,0.516]. Têm-se aqui ilustrados os quatro gráficos do perfil log-
verosimilhança para os diferentes NR:
175000 180000 185000
−91
−90
−89
−88
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(a) NR de 5 anos
175000 180000 185000 190000 195000
−90
.5−
89.5
−88
.5−
87.5
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(b) NR de 10 anos
180000 190000 200000 210000 220000 230000 240000
−90
.0−
89.5
−89
.0−
88.5
−88
.0−
87.5
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(c) NR de 50 anos
180000 200000 220000 240000 260000 280000
−90
.0−
89.5
−89
.0−
88.5
−88
.0−
87.5
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(d) NR de 100 anos
Figura 4.7: Perfil da log-verosimilhança para diferentes anos de NR no tráfego da Ponte25 de Abril
62
4.2. MODELO GEV
Um IC de, aproximadamente, 95% para o NR de 5 anos é obtido a partir do perfil
da log-verosimilhança como [172374,182571]; para 10 anos é [174230,191357]; para 50
anos é [177380,228875]; para 100 anos é [178418,257250].
4.2.0.5 Distribuição de Gumbel
Segundo o que já foi referido, em relação às distribuições de valores extremos, quando
se obtém o parâmetro de forma menor que zero, em princípio, significaria que a distribui-
ção em causa seria do tipo Weibull. No entanto, vai-se fazer a substituição da família GEV
pela família Gumbel que corresponde a ξ = 0, já que na secção 4.2.0.1 se verificou que o IC
do parâmetro ξ contém o valor zero, para isso usa-se a função gum.fit() do mesmo pacote
para a obtenção da estimação dos parâmetros. Para o caso aqui estudado obtiveram-se os
seguintes resultados:
R code 4.2: Output do gum.fit()
1 $conv
2 [1] 0
3
4 $nllh
5 [1] 87.7446
6
7 $mle
8 [1] 170160.479 3665.779
9
10 $se
11 [1] 1293.3233 915.7362
Quanto aos gráficos de diagnóstico utiliza-se a função gum.diag(), com o output ante-
rior, e resultaram os gráficos seguintes:
63
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Gráfico de Probabilidade
Empírica
Mod
elo
168000 172000 176000
1650
0018
0000
Gráfico de Quantis
Modelo
Em
píric
a
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0019
0000
Período de Retorno
Nív
el d
e R
etor
no
Gráfico do Nível de Retorno Gráfico de Densidade
zf(
z)
165000 170000 175000 180000 185000
0e+
008e
−05
Figura 4.8: Gráficos diagnóstico para o ajuste do Modelo Gumbel aos máximos anuais dotráfego da Ponte 25 de Abril
Neste caso, a MV corresponde à maximização da (3.21) e depois dos cálculos corres-
pondentes obtêm-se os erros padrão e não só. Para os dados aqui estudados, como já se
observou pelo output, obteve-se:
(µ, σ ) = (170160.479,3665.779)
Já os erros padrão são 1293.3233 e 915.7362 para µ e σ , respetivamente, a log-vero-
similhança é de −87.7446.
Tendo em consideração, os resultados obtidos, pode-se calcular a estatística do teste
da razão de verosimilhança para a redução do modelo Gumbel:
D = 2 {87.7446− 87.59868} = 0.29184
Este valor é pequeno quando comparado com a distribuição χ21, o que sugere que o modelo
de Gumbel é adequado para estes dados. Já se tinha essa impressão e ao se visualizarem
os gráficos diagnóstico na figura 4.8, que mostram que a qualidade do ajuste é compará-
vel à do modelo GEV. Não é nenhuma surpresa, uma vez que os parâmetros estimados
nestes dois modelos são tão semelhantes, o que também significa que (a curto prazo) a
extrapolação do modelo com base em qualquer dos modelos leva a respostas bastante
semelhantes.
Pode-se fazer uma comparação em relação aos IC. Os valores obtidos para os últimos
parâmetros estimados são:
64
4.2. MODELO GEV
Tabela 4.4: Valores dos IC dos parâmetros estimados pelo modelo Gumbel
As estimativas para os NR são obtidas pela substituição dos valores nas equações (3.22)
e (3.23), neste caso, na equação (3.22) será substituído o segundo ramo do sistema. Para se
calcularem os IC de, aproximadamente, 95% será calculada, como no caso anterior, pelo
método delta. Os cálculos foram efetuados para os mesmos anos de NR e obtiveram-se os
seguintes valores:
Tabela 4.5: Valores obtidos para diferentes anos de NR para o modelo Gumbel
Segundo a tabela 4.5 espera-se que, em média, num ano em cada 5, 10, 50 ou 100 anos,
haja um dia em que o número de veículos que atravessa a Ponte 25 de Abril seja superior
a 175659, 178410, 1844641 e 187024, respetivamente.
Posto isto, a maior diferença entre os dois modelos é em termos de precisão de estima-
ção, ou seja, os parâmetros dos modelos têm estimativas com IC de menor amplitude no
modelo Gumbel. Já em relação às estimativas dos IC para os NR de 5 e de 10 anos, os IC
são de maior amplitude no modelo Gumbel e para os NR de 50 e de 100 anos são maiores
no modelo GEV.
Para se optar por um dos modelos são de grande ajuda os gráficos diagnóstico. As esti-
mativas das curvas do NR são bastante semelhantes, no entanto, os IC são mais amplos no
modelo GEV, especialmente para períodos de retorno mais longos. Uma incerteza redu-
zida é sempre desejável, de modo que se o modelo Gumbel pudesse ser mais confiável, as
suas inferências seriam preferidas. Sabe-se que o teorema de modelos extremos fornece
suporte para se modelar os blocos de máximos com a família GEV, da qual a família Gum-
bel é um subconjunto. Realmente, verifica-se através dos dados que o modelo Gumbel é
65
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
plausível, por outro lado, isso não implica que os outros modelos não sejam.
De facto, a estimativa da MV dentro da família GEV não é da família Gumbel, portanto,
a opção mais segura é aceitar que há incerteza sobre o valor do parâmetro forma e preferir
a inferência baseada no modelo GEV.
4.3 Modelo GEV Multivariado
Na análise de valores extremos, existe uma dificuldade que é a quantidade limitada
de dados para a estimativa do modelo. Nesta secção, vai-se utilizar uma caracterização
geral, que é baseada no comportamento das estatísticas das r maiores observações dentro
de um bloco, para valores de r pequenos.
Tendo em conta que X1,X2, ... é uma sucessão de v.a.’s i.i.d. que representa, neste caso,
os valores diários do tráfego da Ponte 25 de Abril e tem como objetivo caracterizar o
comportamento do extremo Xi . Primeiro vai-se estender o resultado obtido na secção
3.3.1.3 para outras estatísticas de ordem extrema, definindo
Mn(k) = k maior estatística ordinal de {X1, . . . ,Xn} ,
e identificando o comportamento do limite dessa variável, para k fixo, com n→∞.
Deste modo, como o objetivo é aplicar o modelo para cada bloco de um ano, vão se
extrair os k = 3, k = 5 e k = 10 maiores valores diários de tráfego, obtendo-se um conjunto
de 9 vetores aleatórios 3-dimensionais, 5-dimensionais e 10-dimensionais. Foram elegidos
os valores k = 3 e k = 5, tendo em conta, os gráficos de probabilidade e de quantis I.3 em
anexo, já a seleção do k = 10 foi princialmente com o objetivo de ter um k superior como
termo de comparação. As observações estão representadas nas figuras 4.9, 4.10 e 4.11.
2010 2012 2014 2016 2018
1600
0016
5000
1700
0017
5000
Os 3 Maiores Valores de Tráfego Anuais, na Ponte 25 de Abril
Anos
Tráf
ego
diár
io n
a P
onte
25
de A
bril
Figura 4.9: Os 3 maiores valores diários de tráfego, por ano, na Ponte 25 de Abril (2010-2018)
O teorema 9 implica que se a estatística das r maiores observações num bloco for
normalizada exatamente da mesma maneira que o máximo, então a sua distribuição
limite é dada por (3.23) cujos parâmetros correspondem aos parâmetros da distribuição
66
4.3. MODELO GEV MULTIVARIADO
limite de GEV do bloco de máximos. Existe uma dificuldade que exige uma caracterização
do conjunto limite de todo o vector Mn(r).
2010 2012 2014 2016 2018
1600
0017
0000
1800
00
Os 5 Maiores Valores de Tráfego Anuais, na Ponte 25 de Abril
Anos
Tráf
ego
diár
io n
a P
onte
25
de A
bril
Figura 4.10: Os 5 maiores valores diários de tráfego, por ano, na Ponte 25 de Abril (2010-2018)
Neste caso, os dados serão agrupados em m = 9 blocos. Ou seja, no bloco i as maiores
observações ri são gravadas, levando à série Mi(ri ) =
(zi
(1), . . . , zi(ri )
)para i = 1, . . . ,m. É
usual definir r1 = · · · = rm = r para algum valor de r específico, como já tinha sido referido.
2010 2012 2014 2016 2018
1600
0017
0000
1800
00
Os 10 Maiores Valores de Tráfego Anuais, na Ponte 25 de Abril
Anos
Tráf
ego
diár
io n
a P
onte
25
de A
bril
Figura 4.11: Os 10 maiores valores diários de tráfego, por ano, na Ponte 25 de Abril(2010-2018)
A amostra que será utilizada, é composta pelos 3, 5 e 10 maiores valores de tráfego
da Ponte 25 de abril para cada um dos anos (2010 até 2018), como já se mencionou.
Como tal, a verosimilhança para este modelo é obtida a partir de (3.24) e de (3.25). As
estimativas da MV e os erros padrão são dados na tabela 4.6 por inferências baseadas no
valor selecionado de r. Não esquecendo que quanto maior o valor de r, mais pequenos
os erros padrão, logo correspondem a modelos de maior precisão, mas se a aproximação
assintótica é válida para uma escolha de r única, então as estimativas dos parâmetros
devem ser estáveis quando o modelo é ajustado com menos estatísticas ordinais.
67
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
Tabela 4.6: A log-verosimilhança maximizada, a estimação dos parâmetros e os errospadrão correspondentes, quando considerados os r = 1, 3, 5 e 10 maiores valores detráfego anuais na Ponte 25 de Abril
Nota-se que à medida que se aumenta o número de observações retidas, os erros
padrão das estimativas têm tendência para diminuir, exceto num caso para o parâmetro
escala que é melhor no caso de r = 5 que no caso de r = 10. Tendo em conta os valores
apresentados na tabela 4.6 o r = 10 é o valor que possui os erros padrão das estimativas
com menores valores, sem contar com o parâmetro escala.
Em qualquer um dos casos ξ < 0, logo a distribuição subjacente a estes valores de
tráfego diário da Ponte 25 de Abril poderá ser Weibull. Se for esse o caso, a distribuição
terá uma cauda leve e com limite superior do suporte finito. Contudo, as estimativas do
parâmetro de forma estão muito perto do zero, logo a hipótese da distribuição de Gumbel
não deve ser excluída.
Tabela 4.7: Os valores dos IC dos parâmetros estimados pela MV correspondentes, quandoconsiderados os r = 1, 3, 5 e 10 maiores valores de tráfego anuais na Ponte 25 de Abril
Observando-se os valores da tabela 4.6 e também da tabela 4.7, verifica-se que existe
uma certa estabilidade nas estimativas dos parâmetros de localização e de escala, mesmo
que a variabilidade de amostragem seja contabilizada. Isto levanta a dúvida da validade
do modelo para valores de r > 5.
Já que os parâmetros µ, σ e ξ correspondem exatamente aos parâmetros do modelo
68
4.3. MODELO GEV MULTIVARIADO
GEV da distribuição de máximos anuais, para se avaliar o ajuste do modelo com mais
detalhe conseguem-se derivar as curvas do NR da distribuição dos máximos anuais. São
efetuadas do mesmo modo que o modelo GEV, no entanto, neste caso utilizam-se as
estimativas de MV e a matriz da variância-covariância do modelo estatístico das r maiores
observações. Na figura 4.12 têm-se os gráficos para cada valor de r de 2 a 10. Na mesma
figura verifica-se que a concordância entre o modelo e os dados, à medida que o r aumenta,
vai diminuindo.
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0017
0000
1750
0018
0000
Período de Retorno
Nív
el d
e R
etor
no
r=2
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0017
0000
1750
0018
0000
Período de Retorno
Nív
el d
e R
etor
nor=3
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0017
0000
1750
0018
0000
1850
00
Período de Retorno
Nív
el d
e R
etor
no
r=4
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0017
0000
1750
0018
0000
Período de Retorno
Nív
el d
e R
etor
no
r=5
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0017
0000
1750
0018
0000
1850
00
Período de Retorno
Nív
el d
e R
etor
no
r=6
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0017
0000
1750
0018
0000
1850
00
Período de Retorno
Nív
el d
e R
etor
no
r=7
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0017
0000
1750
0018
0000
1850
00
Período de Retorno
Nív
el d
e R
etor
no
r=8
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0017
0000
1750
0018
0000
1850
00
Período de Retorno
Nív
el d
e R
etor
no
r=9
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0017
0000
1750
0018
0000
1850
00
Período de Retorno
Nív
el d
e R
etor
no
r=10
Figura 4.12: Os NR estimados com IC de 95% para a distribuição de máximos anuaisbaseados no Modelo estatístico das r maiores observações ajustado aos dados do tráfegoda Ponte 25 de Abril
Para qualquer escolha de r, a precisão do ajuste pode ser verificada com maior detalhe,
para cada r = 3, 5 e 10 o conjunto usual de disgnóstico é mostrado nas figuras 4.13, 4.14
e 4.15. Relativamente aos gráficos de NR, estes obtêm-se exatamente do mesmo modo
que para o modelo de blocos de máximos, substituindo as estimativas de parâmetros e
a matriz de variância-covariância pelas obtidas pela maximização de (3.26). Como se
pode verificar as diferenças são bastante acentuadas, nota-se que o melhor ajuste para
o máximo anual do tráfego da Ponte 25 de Abril ocorre quando são tidas em conta as 3
maiores observações em cada ano. Consegue-se tirar essa conclusão pela observação do
gráfico do NR, em que se verifica que para este caso os valores mostrados encontram-se
69
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
maioritariamente dentro das linhas azuis dos IC, no caso em que r = 5 os pontos já se
encontram um pouco mais afastados e no caso de r = 10 é raro o ponto que se encontre
dentro dos limites desenhados pelo IC.
0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Gráfico de Probabilidade
Empírica
Mod
elo
170000 172000 174000 176000 178000
1650
0018
0000
Gráfico de Quantis
Modelo
Em
píric
a
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0018
0000
Período de Retorno
Nív
el d
e R
etor
no
Gráfico do Nível de Retorno Gráfico de Densidade
z
f(z)
165000 170000 175000 180000 185000
0e+
006e
−05
Figura 4.13: Gráficos diagnóstico do Modelo estatístico das r maiores observações comr = 3 para os maiores valores anuais de tráfego na Ponte 25 de Abril
0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Gráfico de Probabilidade
Empírica
Mod
elo
170000 172000 174000 176000 178000
1650
0018
0000
Gráfico de Quantis
Modelo
Em
píric
a
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0018
0000
Período de Retorno
Nív
el d
e R
etor
no
Gráfico do Nível de Retorno Gráfico de Densidade
z
f(z)
165000 170000 175000 180000 185000
0e+
008e
−05
Figura 4.14: Gráficos diagnóstico do Modelo estatístico das r maiores observações comr = 5 para os maiores valores anuais de tráfego na Ponte 25 de Abril
70
4.3. MODELO GEV MULTIVARIADO
0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Gráfico de Probabilidade
Empírica
Mod
elo
172000 174000 176000 178000 180000
1650
0018
0000
Gráfico de Quantis
Modelo
Em
píric
a
1e−01 1e+00 1e+01 1e+02 1e+03
1650
0018
0000
Período de Retorno
Nív
el d
e R
etor
no
Gráfico do Nível de Retorno Gráfico de Densidade
zf(
z)
165000 170000 175000 180000 185000
0e+
008e
−05
Figura 4.15: Gráficos diagnóstico do Modelo estatístico das r maiores observações comr = 10 para os maiores valores anuais de tráfego na Ponte 25 de Abril
Para os dados do tráfego da Ponte 25 de Abril, a preocupação com a falta de ajuste
é reforçada pelos gráficos das figuras 4.13, 4.14 e 4.15. As verificações também podem
ser feitas sobre a qualidade do ajuste para cada uma das estatísticas do pedido, fazendo
gráficos de probabilidade e de quantis. Estes são obtidos comparando a distribuição da
estatística de k ordem, (3.23), com os valores dos parâmetros substituídos pelas suas
estimativas (com as estimativas empíricas correspondentes).
Para os dados do tráfego da Ponte 25 de Abril, com o modelo ajustado correspondente
a r = 5, os gráficos de probabilidade e de quantis para cada uma das 4 estatísticas de
maiores observações são dadas pela figura I.3 em anexo. Estes gráficos mostram alguma
falha na adequação ao modelo.
Na tabela 4.8 encontram-se as estimativas de NR de 5, 10, 50 e 100 anos, para cada
um dos valores de r, portanto, para r = 1, r = 3, r = 5 e r = 10 e ainda os IC de, aproxima-
damente, 95% que foram calculados pelo método delta.
71
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
Tabela 4.8: Valores dos NR e dos IC quando r = 1, 3, 5 e 10 maiores valores de tráfegoanuais na Ponte 25 de Abril
Já que nos casos apresentados ξ < 0, também é possível fazer inferências sobre o limite
superior do suporte da distribuição que é efetivamente o ’período inferior de retorno da
observação’, isto é, z0. Este valor está calculado na última linha da tabela 4.8 e os seus
respetivos IC de 95% (aproximadamente). O z0 como seria de esperar é o maior valor para
zp e os IC de z0 são os que possuem maior amplitude, os dois limites destes intervalos são,
efetivamente, o menor e o maior valor obtidos.
Depois de se verificarem os valores obtidos para estimativas dos parâmetros, para
os erros padrão e observando-se os gráficos diagnóstico (4.13, 4.14 e 4.15) resultantes
do ajuste do Modelo estatístico para as r = 3, 5 e 10 maiores observações dos valores de
tráfego anuais na Ponte 25 de Abril, pode-se concluir que o ajuste efetuado que aparenta
ser ligeiramente melhor que os restantes para estes dados é o Modelo estatístico das r = 5
maiores observações.
4.4 Modelo GP
Nesta parte, vai-se seguir o que foi descrito na secção 3.4.
4.4.1 Seleção do limiar
O Teorema 11 sugere um modo para a modelagem das maiores observações. Neste
caso, os dados são os valores diários do tráfego da Ponte 25 de Abril, representados por
uma sucessão de medidas xi , . . . ,xn. Os eventos extremos serão identificados por um limiar
u, para o qual as excedências são {xi : xi > u} e representam-se por x(1), . . . ,x(k).
Como mencionado na secção 3.4.3.1 uma forma que ajuda a saber qual o limiar u que
se deve selecionar é a visualização do GVRM. Na figura 4.16 está representado o mesmo
referente aos dados aqui abordados.
72
4.4. MODELO GP
80000 100000 120000 140000 160000 180000
010
000
3000
050
000
u
Méd
ia d
os E
xces
sos
Figura 4.16: GVRM para os dados do tráfego diário da Ponte 25 de Abril
Ao observar o gráfico 4.16 verifica-se que existe uma relação inversa entre a quanti-
dade de valores e a grandeza dos mesmos, isto é, quanto maior é a quantidade existente
mais pequenos são os valores de tráfego diário representados e a quantidade vai dimi-
nuindo quando o respectivo valor representado vai aumentando. No entanto, este decrés-
cimo nem sempre é igual, ou seja, é mais acentuado até cerca do ponto u = 135000, depois
varia a inclinação, continuando a diminuir, desta vez, com um ritmo menos acelerado e
existe um ponto a partir do qual o declive diminui mais um pouco.
Quanto à seleção de u: a prática standard é adotar como limiar o valor mais baixo
possível, que levará, em princípio, ao ajuste de um modelo limiar que irá fornecer uma
aproximação razoável.
Para estes dados em concreto foram escolhidos três possíveis valores para o u que serão
comparados. O primeiro valor é u = 165212, representa o valor mínimo dos máximos
anuais. O segundo valor selecionado para o u é 156297, é o valor encontrado através
do GVRM onde o comportamento do gráfico mais se altera. Por último, o terceiro valor
selecionado para o u é 161734, onde se teve em conta a prática standard e se selecionou o
u cujas excedências correspondessem a 5% do valor total da amostra.
De seguida na figura 4.17, assinalam-se os lugares dos valores dos limiares u selecio-
nados em cada um dos três casos referidos, com uma linha vermelha, uma linha azul e
uma linha verde.
73
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
80000 100000 120000 140000 160000 180000
010
000
3000
050
000
u
Méd
ia d
os E
xces
sos
u1=165212u2=156297u3=161734
Figura 4.17: GVRM com o lugar dos valores dos limiares representados com cores dife-rentes para os dados do tráfego diário da Ponte 25 de Abril
4.4.2 Estimação de Parâmetros
Para se calcularem os valores da estimativa de MV, usou-se a função gpd.fit() do pacote
que se tem utilizado, o cálculo foi efetuado para cada um dos valores de u. Os outputscorrespondentes foram os três seguintes:
1. Para u1 = 165212:
R code 4.3: Output do gpd.fit() para u1 = 165212
1 $threshold
2 [1] 165212
3
4 $nexc
5 [1] 84
6
7 $conv
8 [1] 0
9
10 $nllh
11 [1] 773.3564
12
13 $mle
14 [1] 3876.91407301 -0.05639767
15
16 $rate
17 [1] 0.02555522
18
19 $se
20 [1] 662.6056307 0.1304004
74
4.4. MODELO GP
2. Para u2 = 156297:
R code 4.4: Output do gpd.fit() para u2 = 156297
1 $threshold
2 [1] 156297
3
4 $nexc
5 [1] 430
6
7 $conv
8 [1] 0
9
10 $nllh
11 [1] 4113.271
12
13 $mle
14 [1] 6354.6384655 -0.1912576
15
16 $rate
17 [1] 0.1308184
18
19 $se
20 [1] 393.43799623 0.03851097
3. Para u3 = 161734:
R code 4.5: Output do gpd.fit() para u3 = 161734
1 $threshold
2 [1] 161734
3
4 $nexc
5 [1] 165
6
7 $conv
8 [1] 0
9
10 $nllh
11 [1] 1548.466
12
13 $mle
14 [1] 5179.9469359 -0.1677628
15
16 $rate
17 [1] 0.05019775
75
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
18
19 $se
20 [1] 538.65428333 0.06930568
As Estimativas da MV para os parâmetros e os respetivos IC de aproximadamente
95%, para cada limiar u estão representados na seguinte tabela 4.9.
Tabela 4.9: Valores estimados dos parâmetros e respetivos IC, para diferentes limiares
Como se pode verificar através da tabela 4.9 a estimativa do parâmetro de forma é
sempre menor que zero quando estimado e os respetivos IC contêm maioritariamente
valores negativos. Na tabela 4.10 estão os valores das log-verosimilhanças maximizadas e
respetivas matrizes de variância-covariância para cada limiar.
Tabela 4.10: A log-verosimilhança maximizada e a matriz variância-covariância estimadaspara os dois parâmetros, para os diferentes limiares
4.4.3 Verificação do modelo
Os gráficos de probabilidade, de quantis, de NR e de densidade são todos úteis para
avaliar a qualidade do ajuste do modelo GP.
Apresentam-se a seguir os gráficos diagnóstico para o modelo ajustado GP para cada
um dos limiares representados nas figuras 4.18, 4.19 e 4.20. Não esquecendo que os
gráficos de probabilidade e quantis devem consistir em pontos que são aproximadamente
lineares quando um modelo GP é razoável para modelar as excedências de u. Já a função
de densidade do modelo GP ajustado é comparada com um histograma das excedências
dos limiares.
76
4.4. MODELO GP
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Gráfico de Probabilidade
Empírica
Mod
elo
165000 170000 175000 180000
1650
0018
0000
Gráfico de Quantis
Modelo
Em
píric
a
1e−01 1e+00 1e+01 1e+02 1e+03
1700
0022
0000
Gráfico do Nível de Retorno
Período de Retorno
Nív
el d
e R
etor
no
Gráfico de Densidade
xf(
x)
165000 170000 175000 180000
0.00
000
0.00
020
Figura 4.18: Gráficos diagnóstico para o modelo ajustado ao primeiro limiar, u1 = 165212
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Gráfico de Probabilidade
Empírica
Mod
elo
160000 165000 170000 175000 180000
1600
0018
0000
Gráfico de Quantis
Modelo
Em
píric
a
1e−01 1e+00 1e+01 1e+02 1e+03
1600
0019
0000
Gráfico do Nível de Retorno
Período de Retorno
Nív
el d
e R
etor
no
Gráfico de Densidade
x
f(x)
155000 160000 165000 170000 175000 180000
0.00
000
0.00
015
Figura 4.19: Gráficos diagnóstico para o modelo ajustado ao segundo limiar, u2 = 156297
77
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Gráfico de Probabilidade
Empírica
Mod
elo
165000 170000 175000 180000
1650
0018
0000
Gráfico de Quantis
Modelo
Em
píric
a
1e−01 1e+00 1e+01 1e+02 1e+03
1700
0020
0000
Gráfico do Nível de Retorno
Período de Retorno
Nív
el d
e R
etor
no
Gráfico de Densidade
xf(
x)
160000 165000 170000 175000 180000
0.00
000
0.00
015
Figura 4.20: Gráficos diagnóstico para o modelo ajustado ao terceiro limiar, u3 = 161734
Depois de observados os gráficos diagnóstico pode afirmar-se que, tendo em conta o
que já foi mencionado sobre os gráficos de probabilidade e quantil e observando unica-
mente estes dois gráficos, o segundo limiar é o que possui os valores com um comporta-
mento mais linear. Em relação ao gráfico do NR, o primeiro limiar é o que tem um gráfico
com um comportamento mais satisfatório, já que os pontos se encontram todos entre os
limites de confiança.
4.4.4 Níveis de retorno
Como já foi mencionado, é conveniente interpretar modelos de valores extremos
em termos de quantis ou NR, em vez de valores de parâmetros individuais. Para isso
calcularam-se as excedências para cada limiar u no conjunto completo das 3287 observa-
ções, também se efetuou o cálculo da estimativa da MV da probabilidade de excedências;
da respetiva variância e da matriz variância-covariância para (ζu , σ , ξ). Os resultados
obtidos estão representados na tabela 4.11.
78
4.4. MODELO GP
Tabela 4.11: Valores: das excedências ao limiar; da probabilidade de excedência; variância;matriz variância-covariância para os três parâmetros com diferentes limiares
Como é mais conveniente mostrar os NR numa escala anual, de tal modo que o NR do
ano N é o nível excedido em média uma vez a cada N anos, foram calculados os NR para
5,10, 50 e 100 anos, para cada um dos limiares. Sendo que, por exemplo, o NR de 5 anos
corresponde ao NR da observação m com m = 356× 5 = 1825.
Ao se substituir na (3.40) obtêm-se os valores de xm, ou seja, do NR da observaçãom, e
ao se substituir na (3.42) obtém-se pelo método delta o valor da V ar (xm), deste modo, será
possível calcular também um IC de, aproximadamente, 95% para xm. Os valores obtidos,
para cada um dos limiares, estão representados nas três tabelas seguintes:4.12;4.13;4.14.
Tabela 4.12: Valores obtidos para diferentes anos de NR para o primeiro limiar
Tabela 4.13: Valores obtidos para diferentes anos de NR para o segundo limiar
79
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
Tabela 4.14: Valores obtidos para diferentes anos de NR para o terceiro limiar
4.4.5 Escolha do limiar revista
Como explicado na secção 3.4.3.4 uma técnica complementar é ajustar a distribuição
GP numa gama de limiares e procurar a estabilidade das estimativas dos parâmetros. Os
gráficos de σ ∗ e ξ contra u são os dois na figura 4.21.
155000 160000 165000 170000
−50
000
050
000
Limiar
Esc
ala
Mod
ifica
da
155000 160000 165000 170000
−0.
6−
0.2
0.2
0.4
Limiar
For
ma
Figura 4.21: Estimação de parâmetros para 50 limiares diferentes para os dados diáriosdo tráfego da Ponte 25 de Abril
Só foi possível fazer o gráfico para um intervalo mais pequeno de valores, como se
vê, calculou-se de 155000 até 170000. Por isso, selecionou-se o intervalo de valores que,
segundo o observado no GVRM, seriam os de maior relevância. E, tal como observado
no gráfico 4.16, o padrão de mudança para limiares muito altos também é patente nesta
representação 4.21, mas, neste último, as perturbações parecem pequenas em relação aos
80
4.4. MODELO GP
erros de amostragem. Aparentemente, tendo em conta a figura 4.21, o primeiro valor do
u será o mais razoável.
A melhor precisão é obtida utilizando os IC do perfil da log-verisimilhança. As figuras
seguintes mostram o perfil da log-verosimilhança para ξ, para os diferentes limiares.
−0.3 −0.2 −0.1 0.0 0.1 0.2 0.3
−77
6.0
−77
5.0
−77
4.0
Parâmetro forma
Per
fil L
og−
vero
sim
ilhan
ça
(a) u1 = 165212
−0.24 −0.22 −0.20 −0.18 −0.16 −0.14−
4115
.5−
4114
.5−
4113
.5
Parâmetro forma
Per
fil L
og−
vero
sim
ilhan
ça
(b) u2 = 156297
−0.25 −0.20 −0.15 −0.10 −0.05
−15
51.5
−15
50.5
−15
49.5
−15
48.5
Parâmetro forma
Per
fil L
og−
vero
sim
ilhan
ça
(c) u3 = 161734
Figura 4.22: Gráficos do perfil da log-verosimilhança para ξ, no modelo de excedênciasdo limiar, aplicados nos dados do tráfego da Ponte 25 de Abril
Um IC de 95%, aproximadamente, para ξ, é obtido a partir dos gráficos como [−0.2582,
0.2540] para o primeiro limiar; [−0.2478, −0.1361]; para o segundo limiar e [−0.2767,
−0.0625] para o terceiro limiar.
Já o perfil da log-verosimilhança para os NR de diferentes anos são representados nos
gráficos seguintes, para os três limiares selecionados.
176000 178000 180000 182000 184000 186000 188000
−77
6.0
−77
5.0
−77
4.0
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(a) NR de 5 anos
180000 185000 190000 195000
−77
6.0
−77
5.0
−77
4.0
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(b) NR de 10 anos
180000 190000 200000 210000 220000
−77
6.5
−77
5.5
−77
4.5
−77
3.5
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(c) NR de 50 anos
180000 190000 200000 210000 220000 230000
−77
6.0
−77
5.0
−77
4.0
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(d) NR de 100 anos
Figura 4.23: Gráficos dos NR para anos diferentes, para o primeiro limiar, u1 = 165212
O IC de 95%, aproximadamente, para o NR de 5 anos é obtido a partir do perfil da
log-verosimilhança como [176020,186065]; para 10 anos é [177395,192242]; para 50 anos
é [179780,211825]; para 100 anos é [180475,223085].
81
CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE
DOS RESULTADOS
176000 177000 178000 179000 180000 181000 182000
−41
16.0
−41
15.0
−41
14.0
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(a) NR de 5 anos
177000 178000 179000 180000 181000 182000 183000 184000
−41
16.0
−41
15.0
−41
14.0
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(b) NR de 10 anos
180000 182000 184000 186000 188000
−41
16.0
−41
15.0
−41
14.0
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(c) NR de 50 anos
180000 182000 184000 186000 188000 190000
−41
16.0
−41
15.0
−41
14.0
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(d) NR de 100 anos
Figura 4.24: Gráficos dos NR para anos diferentes, para o segundo limiar, u2 = 156297
O IC de 95%, aproximadamente, para o NR de 5 anos é obtido a partir do perfil da
log-verosimilhança como [176090, 180966]; para 10 anos é [177260, 183095]; para 50
anos é [179289, 187500]; para 100 anos é [179930, 189170].
176000 178000 180000 182000 184000
−15
51.5
−15
50.5
−15
49.5
−15
48.5
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(a) NR de 5 anos
178000 180000 182000 184000 186000
−15
51.0
−15
50.0
−15
49.0
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(b) NR de 10 anos
180000 185000 190000 195000
−15
51.0
−15
50.0
−15
49.0
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(c) NR de 50 anos
180000 185000 190000 195000
−15
51.5
−15
50.5
−15
49.5
−15
48.5
Nível de Retorno
Per
fil L
og−
vero
sim
ilhan
ça
(d) NR de 100 anos
Figura 4.25: Gráficos dos NR para anos diferentes, para o terceiro limiar, u3 = 161734
O IC de 95%, aproximadamente, para o NR de 5 anos é obtido a partir do perfil da
82
4.4. MODELO GP
log-verosimilhança como [166452,189828]; para 10 anos é [167522,191935]; para 50 anos
é [170027,195526]; para 100 anos é [171082,196630].
83
CAPÍTULO 5Conclusões e problemas por analisar
A Teoria de Valores Extremos é uma vertente da Estatística por explorar e consegue
estudar o que outras áreas ignoram, que são os valores extremos, tantas vezes considerados
como “outliers” que “estragam as previsões” e, no entanto, são normalmente os valores
que têm mais impacto tanto a nível ambiental (como numa catástrofe natural), como a
nível financeiro quando existem “crashs” ou “booms” no mercado da bolsa.
Este ramo da Estatística não vai impedir que estes casos ocorram contudo pode ajudar
a prever e compreender estes acontecimentos e, deste modo, permitir minorar ou evitar
que as consequências sejam tão catastróficas.
Nesta dissertação foi elaborada uma análise da aplicação da Teoria dos Valores Ex-
tremos ao tráfego da Ponte 25 de Abril, um dos locais com maior fluxo de tráfego diário
recorrente em todo o país. Estimaram-se os parâmetros do modelo em questão, e fizeram-
se inferências sobre os níveis de retorno para um determinado número de anos, sobre os
períodos de retorno, etc., que são fulcrais para a previsão de fluxos de grande tráfego.
Relembrado, a amostra original disponibilizada é constituída por: registos diários do
tráfego da Ponte 25 de Abril desde 1 de janeiro de 2010 até 31 de dezembro de 2018;
registos do tráfego médio diário mensal desde 2006; registos do tráfego médio diário
anual desde 1966, de que foram efetuadas sub-amostras para se aplicarem os Modelos
da Teoria dos Valores Extremos, como por exemplo, os valores máximos anuais, com o
objetivo de serem aplicados aos máximos agrupados em blocos e à distribuição Gumbel.
Os métodos aplicados aos valores máximos anuais mostraram que o parâmetro de
forma, ξ, apresentou valores menores que zero, o que significa que a distribuição subja-
cente aos valores do tráfego anual máximo poderá ser a distribuição Weibull. No entanto,
a distribuição Gumbel não poderá ficar de lado visto que houve IC que incluíam o zero.
Como se pode observar na tabela 4.2 o IC do parâmetro forma é maioritariamente nega-
tivo, pelo que a distribuição subjacente deverá ser Weibull, mas deve também incluir a
análise da distribuição Gumbel pelo facto do IC inclui o ξ = 0.
No Modelo estatístico das r maiores observações fizeram-se três sub-amostras, com as
85
CAPÍTULO 5. CONCLUSÕES E PROBLEMAS POR ANALISAR
três, as cinco e as dez maiores observações de cada ano (desde 2010 a 2018), tendo em
consideração, não só as estimativas dos parâmetros e dos erros padrão das estimativas
para cada um dos valores de r, como também, a observação dos gráficos diagnóstico, 4.13,
4.14 e 4.15. A qualidade do ajuste para os máximos anuais do fluxo de tráfego na Ponte
25 de Abril, parece ser ligeiramente melhor quando são retidas as 5 maiores observações
em cada ano.
No método do modelo GP selecionaram-se os valores acima de três limiares diferentes,
tendo presente os gráficos diagnóstico, 4.18, 4.19 e 4.20. Ao visualizar, de modo mais
detalhado, os gráficos de probabilidade e de quantil, o melhor valor para u é 156297,
ou seja, o segundo limiar. Este também é o valor cujos erros padrão das estimativas são
menores.
Nesta tese focou-se o estudo no tráfego da Ponte 25 de Abril, mas seria relevante fazer
o mesmo estudo noutras Pontes, principalmente, na Ponte Vasco da Gama, fazendo uma
relação entre as duas através de um Modelo para Extremos Bivariados.
Neste estudo utilizaram-se os dados referentes ao tráfego diário, únicos disponibili-
zados. No entanto, se for possível disponibilizar os dados horários, poder-se-iam fazer as
previsões horárias de maior fluxo de tráfego e, com essa informação disponível, tomar
decisões quanto às deslocações e utilização da ponte. Quanto às empresas que são res-
ponsáveis por estas infraestruturas, poderiam eleger os melhores horários para possíveis
manutenções necessárias ou serem tidas em conta para outras ações.
Nesta tese não foi abordado o impacto dos ciclos de carga dos veículos na estrutura
da Ponte 25 de Abril. Poderá ter interesse na área da Engenharia das Estruturas e como
informação para a Lusoponte. Existem já estudos feitos nesta vertente, como é o caso do
artigo Yang, Zhang e Ren (2018).
Em relação à análise financeira da Ponte 25 de Abril, foi efetuado um estudo com base
nas receitas cobradas e no valor unitário pago nas Portagens por cada uma das Classes.
Verificou-se que tem havido um aumento dos preços unitários, por Classe, ao longo dos
anos, pelo menos, desde 1996, bem como das receitas recolhidas. Ainda se verificou que as
receitas da Lusoponte são maioritariamente provenientes da Ponte 25 de Abril. Todavia,
não foram exploradas as receitas a nível líquido, nem a percentagem que efetivamente é
lucro para a Lusoponte, já que ao ser uma entidade “Público-Privada” tem um modo de
funcionar distinto em relação ao fim das receitas.
86
Referências Bibliográficas
Almeida, I. (2018, novembro 7). Ponte 25 de abril não está em risco mas precisa de obras.
Obtido de http://www.lisbonne-idee.pt/p5383-ponte-abril-nao-esta-risco-mas-
precisa-obras.html
Beirlant, J., Goegebeur, Y., Segers, J. & Teugels, J. L. (2006). Statistics of extremes: Theoryand applications. John Wiley e Sons Ltd.
Bureau, U. S. C. (2017, janeiro 18). X-13arima-seats reference manual accessible html outputversion.
Coles, S. (2001). An introduction to statistical modeling of extreme values. Springer Series in
Statistics.
Costa, E. (2018, novembro 7). Ponte 25 de abril e tejo. Obtido de https://emanueljccosta.
files.wordpress.com/2014/10/ponte-25-de-abril-e-tejo-236.jpg
Ferreira, P. G. C. & Mattos, D. M. (2016). Usando o r para ensinar ajuste sazonal. Instituto
Brasileiro de Economia (FGV|IBRE).
Fisher, R. A. & Tippett, L. H. C. (1928). Limiting forms of the frequency distribution
of the largest or smallest member of a sample. Em Mathematical proceedings of thecambridge philosophical society (Vol. 24, 2, pp. 180–190). Cambridge University Press.
Garcia, A., Pignatelli, C., Salina, A. & Santos, G. (2000). Auditoria à aplicação do modelocontratual e aos acordos de reposição do equilíbrio financeiro. Tribunal de Contas Sector
Público Empresarial – DA IX.
GITHUB. (2009, janeiro 13). Obtido de https://github.com/cran/ismev/blob/master/R/
gev.R
Gnedenko, B. (1943). Sur ia distribution limite du terme maximum d’une serie aleatoire.
Annals of mathematics, 423–453.
Heffernan, J. E. & Stephenson, A. G. (2018, maio 8). Ismev: An introduction to statisticalmodeling of extreme values.
INE. (2018, novembro 7). Obtido de www.ine.pt/xportal/xmain?xpid=INE&xpgid=ine_
indicadores&indOcorrCod=0008937&contexto=bd&selTab=tab2
Infraestruturas de Portugal, S. (2017). Relatório síntese de execução orçamentar 4º trimestre2017.
Infraestruturas de Portugal, S. (2018a, novembro 7). 50 anos da ponte 25 de abril - linha
do tempo. Obtido de www.infraestruturasdeportugal.pt/50-anos-da-ponte-25-de-
abril/linha-do-tempo
87
REFERÊNCIAS BIBLIOGRÁFICAS
Infraestruturas de Portugal, S. (2018b). Relatório e contas consolidado 2018 primeiro semes-tre.
Jornal de Negócios. (2012, julho 30). Obtido de www.jornaldenegocios.pt/economia/
detalhe/mecircs_de_agosto_volta_a_ser_pago_na_ponte_25_de_abril
Leadbetter, M. R., Lindgren, G. & Rootzen, H. (1983). Extremes and related properties ofrandom sequences and processes. Springer Verlag.
Lima, F. (2018). Estatísticas dos transportes e comunicações 2017.
Lusoponte, C. (2019a, fevereiro 26). Informacoes gerais - ponte 25 de abril. Obtido de
www.lusoponte.pt/25-de-abril/informacoes-gerais
Lusoponte, C. (2019b, março 15). Informacoes gerais - ponte vasco da gama. Obtido de
www.lusoponte.pt/vasco-da-gama/informacoes-gerais
Maravall, A. (2005). An application of the tramo-seats automatic procedure; direct versus
indirect adjustment. Computational Statistics & Data Analysis, 50(9), 2167–2190.
Mises, R. v. (1936). La distribution de la plus grande de n valeurs. Rev. Math. UnionInterbalcanique, 1, 141–160.
Penalva, H., Neves, M. & Nunes, S. (2013). Topics in data analysis using r in extreme
value theory. Metodoloski zvezki, (1).
Público. (2006, agosto 6). Obtido de www.publico.pt/2006/08/06/local/noticia/ponte-
25 - de - abril - primeira - travessia - do - tejo - em - lisboa - completa - hoje - 40 - anos -
1266400
Rosário, P. A. G. (2013). Análise de valores extremos para níveis pluviométricos em barcelos(tese de mestrado, Universidade de Lisboa - Faculdade de Ciências).
Sax, C. & Eddelbuettel, D. (2018, dezembro 20). Seasonal: R interface to x-13-arima-seats.Smith, R. L. (1985). Maximum likelihood estimation in a class of nonregular cases. Bio-
metrika, 72(1), 67–90.
StackExchange. (2018, fevereiro 26). Obtido de https : / / stats . stackexchange . com /
questions/148573/the-results-and-specifics-from-the-qs-function-in-r
Trainlogistic. (2018, novembro 6). Ponte 25 de abril. Obtido de http://www.trainlogistic.
com/pt/Estrutura/ObrasArte/Eixo-NS/pt_25abril.htm
Wikipedia. (2018, fevereiro 27). Autorregressive integrated moving average. Obtido de
https://en.wikipedia.org/wiki/Autorregressive_integrated_moving_average
Yang, X., Zhang, J. & Ren, W.-X. (2018). Threshold selection for extreme value estimation
of vehicle load effect on bridges. International journal of distributed sensor networks,14(2), 1–12.
88
ANEXO IAnexo
I.1 Ajuste sazonal, resultados detalhados
I.1.1 Estatística QS
Código do R para o cálculo da estatística QS:
1 require(seasonal)
2 m <- seas(x=trafego)
3 require(polynom)
4 x <- trafego
5 S <- frequency(x)
6 S
7 [1] 12
8 y<-udg(m, "x13mdl")
9 y
10 x13mdl
11 (0 1 1)(0 1 1)
12
13 ndif <- max(1, min(2, 2))
14 dx <- filter(x, polynomial(c(1,-1))^ndif, sides=1)
15 dx <- window(dx, start=time(x)[ndif+1])
16 R <- acf(dx, lag.max=S*2, plot=FALSE)$acf[-1,,1][c(S, 2*S)]
17 if (R[1] <= 0)
18 + R[1] <- 0
19 if (R[2] <= 0)
20 + R[2] <- 0
21 R
22 [1] 0.7092818 0.6373856
23 n <- length(dx)
24 n
25 [1] 106
26 QS <- n*(n+2)*(R[1]^2/(n-S) + R[2]^2/(n-2*S))
27 pvalue <- pchisq(q=QS, df=2, lower.tail=FALSE)
28 round(c(QS=QS, p.value=pvalue), 4)
89
ANEXO I. ANEXO
29 QS p.value
30 117.9867 0.0000
31 qs(m)["qsori",]
32 qs p-val
33 117.9867 0.0000
I.1.2 Previsões do tráfego na Ponte 25 de Abril com o ajuste sazonal
Data PrevisãoLimite
Inferior ICLimite
superior ICjan/19 4101281 3918143 4284419fev/19 3854536 3649774 4059299mar/19 4314374 4100248 4528500abr/19 4281630 4067490 4495770mai/19 4625369 4402324 4848413jun/19 4571697 4338591 4804803jul/19 4987469 4743992 5230946
ago/19 4837331 4584004 5090658set/19 4577284 4313499 4841070out/19 4464936 4190220 4739652nov/19 4198770 3914404 4483137dez/19 4312279 4017568 4606989jan/20 4211359 3905353 4517364fev/20 3940587 3622264 3622264
mar/20 4455309 4124362 4786256
abr/20 4395985 4053811 4738158
mai/20 4739824 4386410 5093238
jun/20 4696185 4330561 5061808
jul/20 5110072 4732070 5488074
ago/20 4960036 4570310 5349761
set/20 4704063 4301873 5106253
out/20 4589830 4175558 5004102
nov/20 4329724 3903079 4756369
dez/20 4447306 4008123 4886489
Figura I.1: Primeira previsão do tráfego na Ponte 25 de Abril com ajuste sazonal, valorescorrespondentes ao gráfico representado na figura 2.13
Ano/mês JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ
2019 4388701 4395892 4403730 4412215 4421347 4431125 4440763 4450023 4459457 4469065 4478847 4488803
2020 4498933 4509237 4519715 4530366 4541192 4552192 4563366 4574714 4600244 4663029 4766106 4898965
Figura I.2: Segunda previsão do tráfego na Ponte 25 de Abril com ajuste sazonal, valorescorrespondentes ao gráfico representado na figura 2.14
90
I .2. ANÁLISE DAS PORTAGENS E RECEITAS DA PONTE 25 DE ABRIL,
VALORES DETALHADOS
I.2 Análise das portagens e receitas da Ponte 25 de Abril,
valores detalhados
Data de início de aplicação
Classe 1 Classe 2 Classe 3 Classe 4
01/01/1996 0,75 € 1,85 € 2,74 € 3,59 €
01/01/2002 1,00 € 2,55 € 3,75 € 4,85 €
01/01/2003 1,05 € 2,65 € 3,90 € 5,05 €
01/01/2004 1,10 € 2,75 € 4,05 € 5,25 €
01/01/2005 1,15 € 2,85 € 4,15 € 5,40 €
01/01/2006 1,20 € 2,95 € 4,30 € 5,60 €
01/01/2007 1,25 € 3,05 € 4,45 € 5,80 €
01/01/2008 1,30 € 3,15 € 4,55 € 5,95 €
01/01/2009 1,35 € 3,25 € 4,70 € 6,15 €
01/07/2010 1,40 € 3,30 € 4,75 € 6,20 €
01/01/2011 1,45 € 3,40 € 4,85 € 6,35 €
01/01/2012 1,55 € 3,55 € 5,05 € 6,60 €
01/01/2013 1,60 € 3,70 € 5,20 € 6,80 €
01/01/2014 1,65 € 3,75 € 5,25 € 6,85 €
01/01/2016 1,70 € 3,80 € 5,30 € 6,95 €
01/01/2017 1,75 € 3,85 € 5,35 € 7,00 €
01/01/2018 1,80 € 3,95 € 5,45 € 7,10 €
01/01/2019 1,85 € 4,05 € 5,55 € 7,20 €
Tabela I.1: Valor unitário das Portagens da Ponte 25 de Abril, das quatro Classes, de 1996a 2019
Intervalo de tempo Classe 1 Classe 2 Classe 3 Classe 4 Média
01-01-1996 a 31-12-200101-01-2002 a 31-12-2002 0,25 € 0,70 € 1,01 € 1,26 € 0,81 €
01-01-2003 a 31-12-2003 0,05 € 0,10 € 0,15 € 0,20 € 0,13 €
01-01-2004 a 31-12-2004 0,05 € 0,10 € 0,15 € 0,20 € 0,13 €
01-01-2005 a 31-12-2005 0,05 € 0,10 € 0,10 € 0,15 € 0,10 €
01-01-2006 a 31-12-2006 0,05 € 0,10 € 0,15 € 0,20 € 0,13 €
01-01-2007 a 31-12-2007 0,05 € 0,10 € 0,15 € 0,20 € 0,13 €
01-01-2008 a 31-12-2008 0,05 € 0,10 € 0,10 € 0,15 € 0,10 €
01-01-2009 a 30-06-2010 0,05 € 0,10 € 0,15 € 0,20 € 0,13 €
01-07-2010 a 31-12-2010 0,05 € 0,05 € 0,05 € 0,05 € 0,05 €
01-01-2011 a 31-12-2011 0,05 € 0,10 € 0,10 € 0,15 € 0,10 €
01-01-2012 a 31-12-2012 0,10 € 0,15 € 0,20 € 0,25 € 0,18 €
01-01-2013 a 31-12-2013 0,05 € 0,15 € 0,15 € 0,20 € 0,14 €
01-01-2014 a 31-12-2015 0,05 € 0,05 € 0,05 € 0,05 € 0,05 €
01-01-2016 a 31-12-2016 0,05 € 0,05 € 0,05 € 0,10 € 0,06 €
01-01-2017 a 31-12-2017 0,05 € 0,05 € 0,05 € 0,05 € 0,05 €
01-01-2018 a 31-12-2018 0,05 € 0,10 € 0,10 € 0,10 € 0,09 €
01-01-2019 a 31-12-2019 0,05 € 0,10 € 0,10 € 0,10 € 0,09 €
Aumento
Tabela I.2: Diferença entre os valores unitários das Portagens da Ponte 25 de Abril, dasquatro Classes, de 1996 a 2019
91
ANEXO I. ANEXO
Mês | Ano 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Janeiro 1827 1794 1919 x x 2537 2662 2803 2903 2971 2914 2914 2900 2978 3076 2921 2960 3022 3119 3308
Fevereiro 1724 1720 1896 x x 2393 2566 2621 2683 2728 2799 2799 2651 2840 2917 2749 2756 2837 3003 3095
Março 1949 1929 2043 x x 2656 2768 2873 2983 3132 3053 3175 3065 2481 3165 3000 3162 3252 3332 3469
Abril 1812 1884 1874 x x 2577 2788 2909 2983 3069 3009 3086 3077 3135 2985 3087 3164 3224 3333 3618
Maio 1922 2019 2113 x x 2844 2920 3061 3199 3226 3094 3271 3241 3260 3259 3276 3421 3488 3509 3699
Junho 1920 2052 2149 x x 2796 2940 3095 3059 3233 3147 3243 3188 3320 3278 3378 3357 3486 3658 3828
Julho 2071 2245 2292 x x 3001 3142 3336 3391 3557 3453 3583 3644 3539 3648 3669 3753 3841 4035 4116
Agosto - - - x x - - - - - - - - 3382 3510 3664 3691 3731 3996 4069
Setembro 1759 1970 2078 x x 2752 2946 2997 3089 3237 3098 3235 3266 3225 3249 3344 3331 3450 3686 3778
Outubro 1803 1965 2043 x x 2675 2794 2882 2972 3182 3067 3143 3074 3124 3030 3100 3288 3206 3454 3691
Novembro 1807 1928 1935 x x 2545 2691 2773 2837 3008 2890 2936 2931 2841 2820 3035 3013 3123 3258 3413
Dezembro 1812 1937 1901 x x 2603 2767 2865 2922 3067 2946 3002 3018 3000 2988 3117 3223 3259 3401 3485
Tabela I.3: Receitas em milhares de euros da Ponte 25 de Abril de 1998 a 2010
Na tabela I.3 o valores representados a vermelho não se encontram disponíveis no INE,
“INE” (2018), e a cor-de-laranja estão marcados os meses de agosto, quando as portagens
não eram cobradas, logo estes valores são igual a zero.
Mês | Ano 2011 2012 2013 2014 2015 2016 2017Janeiro 2978 3076 2921 2960 3022 3119 3308Fevereiro 2840 2917 2749 2756 2837 3003 3095Março 2481 3165 3000 3162 3252 3332 3469Abril 3135 2985 3087 3164 3224 3333 3618Maio 3260 3259 3276 3421 3488 3509 3699Junho 3320 3278 3378 3357 3486 3658 3828Julho 3539 3648 3669 3753 3841 4035 4116Agosto 3382 3510 3664 3691 3731 3996 4069Setembro 3225 3249 3344 3331 3450 3686 3778Outubro 3124 3030 3100 3288 3206 3454 3691Novembro 2841 2820 3035 3013 3123 3258 3413Dezembro 3000 2988 3117 3223 3259 3401 3485
Tabela I.4: Receitas em milhares de euros da Ponte 25 de Abril de 2011 a 2017
AnoReceitas
com inflação
Taxa de Inflação
(%)
Receitas sem
inflação
2003 29379 4,4 293792004 30984 3,5 299362005 32215 5,8 294192006 33021 5,5 285832007 34410 1,6 293172008 33470 1,5 280942009 34387 -3,6 299422010 34055 4,6 283492011 37125 8,9 283792012 37925 3,3 280642013 38340 -2,3 290392014 39119 -1,2 299892015 39919 -1,0 309112016 41784 -0,6 325512017 43569 3,1 32921
Tabela I.5: Valores das receitas cobradas com e sem inflação a preços constantes de 2003e a respetiva taxa em cada ano de 2003 a 2017
Os Valores das Receitas sem inflação foram ajustados aos preços de 2003. Para se
92
I .2. ANÁLISE DAS PORTAGENS E RECEITAS DA PONTE 25 DE ABRIL,
VALORES DETALHADOS
efetuar o cálculo das Receitas sem inflação foi dividido o valor das Receitas do ano N por
1 mais a taxa de inflação que aparece no ano N + 1. Já que a taxa de inflação que aparece
no ano N se refere ao ano N − 1.
Ano Valor total anual2003 293792004 30984 16052005 32215 12312006 33021 8062007 34410 13892008 33470 -9402009 34387 9172010 34055 -3322011 37125 30702012 37925 8002013 38340 4152014 39119 7792015 39919 8002016 41784 18652017 43569 1785
Variação
Tabela I.6: Diferenças das receitas em milhares de euros da Ponte 25 de Abril de 2003 a2017
93
ANEXO I. ANEXO
I.3 Aplicação dos Modelos da Teoria dos Valores Extremos
I.3.1 Modelo GEV Multivariado - Gráficos em detalhe
0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
k=1
170000 172000 174000 176000 178000
1650
0018
0000
k=1
0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
k=2
168000 170000 172000 17400016
5000
k=2
0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
k=3
165000 167000 169000 171000
1650
00
k=3
0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
k=4
164000 166000 168000 170000
1600
0017
5000
k=4
0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
k=5
163000 165000 167000 169000
1600
0017
5000
k=5
Figura I.3: Diagnóstico do modelo para os dados do tráfego da Ponte 25 de Abril combase no modelo ajustado da estatística das r maiores observações com r = 5. Gráficos deprobabilidade (do lado esquerdo) e de quantis (do lado direito) para as estatísticas de kmaiores observações, k = 1, ...,5
94