a aplicação da teoria de valores extremos ao tráfego da ponte 25 de … · 2019-10-18 · resumo...

Maria da Conceição Nunes Elói Veiga de Almeida

Licenciada em Gestão

A Aplicação da Teoria de Valores Extremosao Tráfego da Ponte 25 de Abril

Dissertação para obtenção do Grau de Mestre em

Matemática e Aplicações ramo Matemática Financeira

Orientador: Frederico Almeida Gião Gonçalves Caeiro,Professor Auxiliar, Universidade Nova de Lisboa

Júri

Presidente: Professor Doutor Filipe José Gonçalves Pereira MarquesArguente: Professora Doutora Dora Susana Raposo Prata Gomes

Vogal: Professor Doutor Frederico Almeida Gião Gonçalves Caeiro

Março, 2019

A Aplicação da Teoria de Valores Extremosao Tráfego da Ponte 25 de Abril

Copyright © Maria da Conceição Nunes Elói Veiga de Almeida, Faculdade de Ciências e

Tecnologia, Universidade NOVA de Lisboa.

A Faculdade de Ciências e Tecnologia e a Universidade NOVA de Lisboa têm o direito,

perpétuo e sem limites geográficos, de arquivar e publicar esta dissertação através de

exemplares impressos reproduzidos em papel ou de forma digital, ou por qualquer outro

meio conhecido ou que venha a ser inventado, e de a divulgar através de repositórios

científicos e de admitir a sua cópia e distribuição com objetivos educacionais ou de inves-

tigação, não comerciais, desde que seja dado crédito ao autor e editor.

Este documento foi gerado utilizando o processador (pdf)LATEX, com base no template “novathesis” [1] desenvolvido no Dep. Informática da FCT-NOVA [2].[1] https://github.com/joaomlourenco/novathesis [2] http://www.di.fct.unl.pt

https://github.com/joaomlourenco/novathesis

http://www.di.fct.unl.pt

À minha família

Agradecimentos

Em primeiro lugar, quero agradecer ao Professor Doutor Frederico Caeiro que me orien-

tou ao longo deste processo! Pela sua disponibilidade constante, pelos e-mails sempre

respondidos, pelo esclarecimento de dúvidas por mais “ilógico” que fosse, pelo facto de

sempre me dar tanta liberdade para explorar uma área do seu interesse ao meu gosto,

pela sua visão de conjunto tão precisa e prática, pelos conselhos e comentários tão úteis e

pela proposta deste estudo que acabou por me entusiasmar tanto.

Quero agradecer à Faculdade de Ciências e Tecnologia pelos recursos disponibilizados

para a elaboração desta dissertação, por todas as ferramentas e conhecimentos necessários

para a elaboração do meu trabalho.

Também quero agradecer muito em particular ao Exmo. Sr. Dr. Rui Cesar Ilha Luso

Soares do Instituto da Mobilidade e dos Transportes, I.P.! Pela incansável disponibilidade!

Quando tantas portas me fecharam e me abriu uma tão grande janela! Pelo incontável

número de emails que respondeu, pela chamada que atendeu, pelo esclarecimento de

dúvidas de qualquer tipo, pelos dados variados que foram pedidos, e não só! É difícil

expressar em palavras o enorme agradecimento que lhe devo! Muito Obrigada!

Depois tenho que agradecer imenso a toda a minha família! Principalmente, aos meus

pais e irmãos! Pelos conselhos sábios do meu pai, pelo apoio incondicional da minha mãe,

pela ajuda na clarificação de “foco” da Mariana, pelo tão necessário sentido de humor do

Miguel e pela escuta tão atenta do João! Não deixando de agradecer de forma especial

ao meu avô, à minha tia Coim e aos meus tios. Nunca me faltou o vosso apoio e palavras

animadoras com as quais sempre se trabalhava com melhor e maior ânimo!

Um muito obrigada aos meus colegas de Mestrado! E a tantas pessoas amigas! Pela

escuta atenta e interessada, conselhos tão bons, por todo o apoio e não só! Um obrigada

especial à Ana pela disponibilidade de me “acolher” quando precisava de me focar mais

nos estudos, por me tirar as dúvidas sobre o LaTeX e por todos os seus conselhos tão

práticos e úteis. Um obrigada à Raquel por me ouvir tantas e tantas vezes, pelos conselhos

da experiência “das teses”, por sempre me dar “na cabeça” quando necessário e por me

apoiar! Não cabem os nomes de todos mas não posso (nem quero) deixar de referir um

obrigado especial à Teresa, à São e ao Salvador!

E a todos e a cada um: Muito Obrigada por tudo!

vii

Resumo

A Teoria dos Valores Extremos permite o estudo dos acontecimentos extremos que são

possivelmente desastrosos e de grande impacto para a sociedade. O comportamento

dos Extremos pode ser modelado por uma das três distribuições – Gumbel, Fréchet e

Weibull – se bem que estas distribuições podem ser representadas numa única expressão,

a distribuição Generalizada de Valores Extremos (GEV).

Nesta dissertação, serão analisados os números de veículos que atravessam a Ponte 25

de Abril, nos dois sentidos, diariamente. Também serão efetuadas duas análises, conse-

quentes destes dados, uma com base na sazonalidade e outra relativa ao valor das receitas

das portagens cobradas na travessia desta Ponte.

Será utilizada uma abordagem paramétrica para a inferência estatística sobre aconteci-

mentos raros. Para isso serão utilizados três modelos: o Modelo GEV (também conhecido

como Modelo dos Máximos Anuais), o Modelo GEV Multivariado (ou Modelo Estatís-

tico das r maiores observações) e o Modelo Generalizado de Pareto (GP ou Modelo dos

excessos acima do limiar). Estes modelos são muito usados em diversas áreas.

Nesta tese é feita uma descrição do fluxo de tráfego na Ponte 25 de Abril e os Métodos

dos Valores Extremos são utilizados para fazer uma previsão do comportamento desse

mesmo tráfego. Serão estimados níveis de retorno, períodos de retorno e probabilidades

de excedência. Será utilizado o Método da Máxima Verosimilhança para a estimação de

parâmetros e o Método do perfil Log-Verosimilhança para a estimação de Intervalos de

Confiança.

Palavras-chave: Teoria dos Valores Extremos, Modelo GEV, Modelo GEV Multivariado,

Modelo Generalizado de Pareto (GP), Método da Máxima Verosimilhança, Tráfego Rodo-

viário.

ix

Abstract

The Extreme Values Theory enables the study of extreme events that are possibly disas-

trous and of great impact for society. The behaviour of the Extremes can be modelled by

using one of three distributions – Gumbel, Fréchet and Weibull – even though they can

be represented in a single expression, the Generalized Extreme-Value distribution (GEV).

In this dissertation, the numbers of vehicles crossing daily and in both directions in

the 25 de Abril Bridge will be analysed. Two analyzes will also be carried out, as a result

of these data, one based on the verified seasonality and another in relation to the tolls

and revenues collected in the crossing of this Bridge.

A parametric approach will be used for statistical inference about rare events. To

achieve this three methods will be used: the GEV Model (also known as the Annual

Maximum Model), the Multivariate GEV Model (or r Largest order statistic Model) and

the Generalized Pareto Model (GP or Peak Over Threshold Model). These models are

widely used in various areas.

In this thesis a description is made of the traffic flow in the 25 de Abril Bridge and

the Methods of the Extreme Values are used to make a prediction of the behavior of this

traffic. Return levels, return periods and probabilities of exceedance will be estimated.

The Maximum Likelihood Method will be used for the estimation of parameters and so

will the Profile Log-Likelihood Method when estimating Confidence Intervals.

Keywords: Extreme Values Theory, GEV Model, Multivariate GEV Model, Generalized

Pareto Model, Maximum Likelihood Method, Road Traffic.

xi

Índice

Lista de Figuras xv

Lista de Tabelas xix

Siglas xxi

1 Introdução 1

2 Apresentação dos dados 3

2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 Descrição geral dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2.1 História da Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . 3

2.2.2 Recolha e análise genérica do tráfego da Ponte 25 de Abril . . . . . 6

2.3 Análise da sazonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3.1 Apreciação Gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3.2 Ajuste Sazonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4 Análise do valor e receitas das portagens da Ponte 25 de Abril . . . . . . . 17

3 A Teoria dos Valores Extremos 25

3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2 Noções básicas de modelação estatística . . . . . . . . . . . . . . . . . . . 26

3.2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2.2 Processos Aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2.3 Leis Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2.4 Modelação Paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.3 Teoria Clássica e modelos dos Valores Extremos . . . . . . . . . . . . . . . 34

3.3.1 Modelos Assintóticos . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3.2 Inferência para a distribuição GEV . . . . . . . . . . . . . . . . . . 39

3.3.3 Generalização do modelo: o modelo estatístico das r maiores obser-

vações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4 Modelos com Limiar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.4.2 Caracterização do Modelo Assintótico . . . . . . . . . . . . . . . . 47

xiii

ÍNDICE

3.4.3 Modelação dos limiares dos excessos . . . . . . . . . . . . . . . . . 49

4 Aplicação de Modelos de Valores Extremos e análise dos resultados 55

4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.2 Modelo GEV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.3 Modelo GEV Multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.4 Modelo GP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.4.1 Seleção do limiar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.4.2 Estimação de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . 74

4.4.3 Verificação do modelo . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.4.4 Níveis de retorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.4.5 Escolha do limiar revista . . . . . . . . . . . . . . . . . . . . . . . . 80

5 Conclusões e problemas por analisar 85

Referências Bibliográficas 87

I Anexo 89

I.1 Ajuste sazonal, resultados detalhados . . . . . . . . . . . . . . . . . . . . . 89

I.1.1 Estatística QS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

I.1.2 Previsões do tráfego na Ponte 25 de Abril com o ajuste sazonal . . 90

I.2 Análise das portagens e receitas da Ponte 25 de Abril, valores detalhados 91

I.3 Aplicação dos Modelos da Teoria dos Valores Extremos . . . . . . . . . . . 94

I.3.1 Modelo GEV Multivariado - Gráficos em detalhe . . . . . . . . . . 94

xiv

Lista de Figuras

2.1 Cronograma da história da Ponte 25 de Abril resumida (1876-1999) . . . . . 4

2.2 Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3 Tráfego Médio Diário Anual (1966-2018) . . . . . . . . . . . . . . . . . . . . . 7

2.4 Tráfego Médio Diário Mensal (2006-2018) . . . . . . . . . . . . . . . . . . . . 7

2.5 Gráfico sequencial de dados diários do tráfego da Ponte 25 de Abril (2010-2018) 8

2.6 Tráfego diário na Ponte 25 de Abril em 2010 . . . . . . . . . . . . . . . . . . . 8

2.7 Tráfego total mensal na Ponte 25 de Abril (2010-2018) . . . . . . . . . . . . . 9

2.8 Tráfego total mensal na Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . 11

2.9 Monthplot - Tráfego por mês na Ponte 25 de Abril . . . . . . . . . . . . . . . . 11

2.10 Gráficos espectrais para efeitos de sazonalidade e dias úteis . . . . . . . . . . 15

2.11 Componentes Sazonal e Irregular por mês . . . . . . . . . . . . . . . . . . . . 16

2.12 Séries Original e Ajustada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.13 Primeira previsão do tráfego na Ponte 25 de Abril com ajuste sazonal . . . . 17

2.14 Segunda previsão do tráfego na Ponte 25 de Abril com ajuste sazonal . . . . 17

2.15 Evolução do valor das Portagens de 1996 a 2019 da Ponte 25 de Abril . . . . 19

2.16 Aumentos por ano do valor unitário das Portagens da Ponte 25 de Abril . . . 19

2.17 Receitas totais mensais da Ponte 25 de Abril (2003-2017) . . . . . . . . . . . 20

2.18 Receitas totais mensais da Ponte 25 de Abril, de 2011 a 2017 . . . . . . . . . 21

2.19 Receitas totais anuais cobradas na Ponte 25 de Abril, com e sem inflação a

preços constantes de 2003 (2003-2017) . . . . . . . . . . . . . . . . . . . . . . 21

2.20 Diferenças das receitas totais anuais cobradas da Ponte 25 de Abril (2003-2017) 22

2.21 Percentagem referente às receitas totais da Lusoponte em 2017 . . . . . . . . 23

3.1 Gráficos de NR da distribuição GEV com parâmetros de forma ξ = −0.2, ξ = 0

e ξ = 0.2, respetivamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1 Máximos diários anuais do tráfego na Ponte 25 de Abril (2010-2018) . . . . . 56

4.2 Gráfico da Autocorrelação Parcial . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.3 Características Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.4 Boxplot dos máximos diários anuais na Ponte 25 de Abril (2010-2018) . . . . 57

4.5 Gráficos diagnóstico para o Modelo GEV ajustado aos dados do tráfego da

Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

xv

Lista de Figuras

4.6 Perfil da log-verosimilhança para ξ para os máximos anuais do tráfego da

Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.7 Perfil da log-verosimilhança para diferentes anos de NR no tráfego da Ponte

25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.8 Gráficos diagnóstico para o ajuste do Modelo Gumbel aos máximos anuais do

tráfego da Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.9 Os 3 maiores valores diários de tráfego, por ano, na Ponte 25 de Abril (2010-

2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66


2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67


2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.12 Os NR estimados com IC de 95% para a distribuição de máximos anuais ba-

seados no Modelo estatístico das r maiores observações ajustado aos dados do


4.13 Gráficos diagnóstico do Modelo estatístico das r maiores observações com r = 3

para os maiores valores anuais de tráfego na Ponte 25 de Abril . . . . . . . . 70

4.14 Gráficos diagnóstico do Modelo estatístico das r maiores observações com r = 5

para os maiores valores anuais de tráfego na Ponte 25 de Abril . . . . . . . . 70

4.15 Gráficos diagnóstico do Modelo estatístico das r maiores observações com

r = 10 para os maiores valores anuais de tráfego na Ponte 25 de Abril . . . . . 71

4.16 GVRM para os dados do tráfego diário da Ponte 25 de Abril . . . . . . . . . . 73

4.17 GVRM com o lugar dos valores dos limiares representados com cores diferen-

tes para os dados do tráfego diário da Ponte 25 de Abril . . . . . . . . . . . . 74

4.18 Gráficos diagnóstico para o modelo ajustado ao primeiro limiar, u1 = 165212 77

4.19 Gráficos diagnóstico para o modelo ajustado ao segundo limiar, u2 = 156297 77

4.20 Gráficos diagnóstico para o modelo ajustado ao terceiro limiar, u3 = 161734 78

4.21 Estimação de parâmetros para 50 limiares diferentes para os dados diários do


4.22 Gráficos do perfil da log-verosimilhança para ξ, no modelo de excedências do

limiar, aplicados nos dados do tráfego da Ponte 25 de Abril . . . . . . . . . . 81

4.23 Gráficos dos NR para anos diferentes, para o primeiro limiar, u1 = 165212 . 81

4.24 Gráficos dos NR para anos diferentes, para o segundo limiar, u2 = 156297 . . 82

4.25 Gráficos dos NR para anos diferentes, para o terceiro limiar, u3 = 161734 . . 82

I.1 Primeira previsão do tráfego na Ponte 25 de Abril com ajuste sazonal, valores

correspondentes ao gráfico representado na figura 2.13 . . . . . . . . . . . . . 90

I.2 Segunda previsão do tráfego na Ponte 25 de Abril com ajuste sazonal, valores

correspondentes ao gráfico representado na figura 2.14 . . . . . . . . . . . . . 90

xvi

Lista de Figuras

I.3 Diagnóstico do modelo para os dados do tráfego da Ponte 25 de Abril com

base no modelo ajustado da estatística das r maiores observações com r = 5.

Gráficos de probabilidade (do lado esquerdo) e de quantis (do lado direito)

para as estatísticas de k maiores observações, k = 1, ...,5 . . . . . . . . . . . . . 94

xvii

Lista de Tabelas

2.1 Valores do tráfego total mensal na Ponte 25 de Abril (2010-2018) e Média

mensal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Datas e dias da semana dos valores máximos anuais . . . . . . . . . . . . . . 10

2.3 Output da Estatística QS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4 Output do summary(ajuste) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5 Descrição dos veículos de cada uma das Classes . . . . . . . . . . . . . . . . . 18

2.6 Tráfego médio diário e receitas cobradas nas pontes 25 de Abril e Vasco da

Gama, de janeiro a dezembro de 2017 e a soma anual . . . . . . . . . . . . . . 22

2.7 Portagens pagas em cada uma das pontes da Lusoponte e respetivas médias

(valores de 2019) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.1 Blocos de máximos, valores dos máximos anuais e respetivas datas . . . . . . 58

4.2 Valores dos IC dos parâmetros estimados. . . . . . . . . . . . . . . . . . . . . 59

4.3 Valores obtidos para diferentes anos de NR para o modelo GEV . . . . . . . . 61

4.4 Valores dos IC dos parâmetros estimados pelo modelo Gumbel . . . . . . . . 65

4.5 Valores obtidos para diferentes anos de NR para o modelo Gumbel . . . . . . 65

4.6 A log-verosimilhança maximizada, a estimação dos parâmetros e os erros pa-

drão correspondentes, quando considerados os r = 1, 3, 5 e 10 maiores valores

de tráfego anuais na Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . 68

4.7 Os valores dos IC dos parâmetros estimados pela MV correspondentes, quando

considerados os r = 1, 3, 5 e 10 maiores valores de tráfego anuais na Ponte 25

de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.8 Valores dos NR e dos IC quando r = 1, 3, 5 e 10 maiores valores de tráfego

anuais na Ponte 25 de Abril . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.9 Valores estimados dos parâmetros e respetivos IC, para diferentes limiares . 76

4.10 A log-verosimilhança maximizada e a matriz variância-covariância estimadas

para os dois parâmetros, para os diferentes limiares . . . . . . . . . . . . . . . 76

4.11 Valores: das excedências ao limiar; da probabilidade de excedência; variância;

matriz variância-covariância para os três parâmetros com diferentes limiares 79

4.12 Valores obtidos para diferentes anos de NR para o primeiro limiar . . . . . . 79

4.13 Valores obtidos para diferentes anos de NR para o segundo limiar . . . . . . 79

4.14 Valores obtidos para diferentes anos de NR para o terceiro limiar . . . . . . . 80

xix

Lista de Tabelas

I.1 Valor unitário das Portagens da Ponte 25 de Abril, das quatro Classes, de 1996

a 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

I.2 Diferença entre os valores unitários das Portagens da Ponte 25 de Abril, das

quatro Classes, de 1996 a 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

I.3 Receitas em milhares de euros da Ponte 25 de Abril de 1998 a 2010 . . . . . . 92

I.4 Receitas em milhares de euros da Ponte 25 de Abril de 2011 a 2017 . . . . . . 92

I.5 Valores das receitas cobradas com e sem inflação a preços constantes de 2003

e a respetiva taxa em cada ano de 2003 a 2017 . . . . . . . . . . . . . . . . . . 92

I.6 Diferenças das receitas em milhares de euros da Ponte 25 de Abril de 2003 a

2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

xx

Siglas

f.d. Função de distribuição.

f.d.p. Função de densidade de probabilidade.

GEV Generalizada de Valores Extremos (em inglês, Generalized Extreme Va-lue).

GP Generalizada de Pareto.

GVRM Gráfico ou Gráficos de Vida Residual Média.

i.i.d. Independentes e identicamente distribuídas.

IC Intervalo ou Intervalos de Confiança.

MV Máxima Verosimilhança.

NR Nível ou Níveis de Retorno.

TLC Teorema Limite Central.

v.a. variável aleatória.

v.a.’s variáveis aleatórias.

xxi

CAPÍTULO 1Introdução

A Teoria dos Valores Extremos proporciona técnicas de inferência estatística orientada

para o estudo de comportamentos estocásticos extremais.

Esta teoria é frequentemente utilizada para obter distribuições de probabilidade do

máximo ou mínimo de variáveis aleatórias (v.a.’s) independentes e identicamente distri-

buídas (i.i.d.), bem como para modelar a distribuição de excessos acima de um certo nível.

Por exemplo, supondo que a sucessão de v.a.’s i.i.d. X1,X2, . . . representa o número de

veículos que passam diariamente numa ponte, poder-se-á então estudar a distribuição da

v.a.

Mn = max {X1, . . . ,Xn}

que representa o valor máximo diário de veículos durante um período de n observações.

Se F(x) representa a função distribuição (f.d.) de Xi então a função distribuição de Mn é

Pr(Mn ≤ x) = Pr(X1 ≤ x∩X2 ≤ x∩ · · · ∩Xn ≤ x) = Pr(X1 ≤ x)Pr(X2 ≤ x) . . .Pr(Xn ≤ x) =

= F(x)F(x) . . .F(x) = [F(x)]n.

Como geralmente F(x) é desconhecida, para se obter a distribuição de Mn, recorre-se à

teoria assintótica de valores extremos, que teve o seu início com os trabalhos de Fréchet,

Fisher e Tippett (1928), Mises (1936) e o seu auge foi com o trabalho de Gnedenko (1943)

que obteve as condições necessárias e suficientes que garantem a existência de um dos três

tipos de distribuição limite para o máximo de v.a.’s i.i.d., nomeadamente a distribuição

de Gumbel, Fréchet e Weibull.

Esta teoria é de suma importância para conhecer o comportamento de valores excessi-

vamente elevados ou muito reduzidos, devido às consequências que podem gerar. Trata-se

de um ramo da estatística que adquiriu maior relevância, principalmente, nos últimos

setenta anos. Os seus domínios de aplicação são muito variados: meteorologia, seguros,

telecomunicações, engenharia civil, economia, finanças, etc.

1

CAPÍTULO 1. INTRODUÇÃO

Esta Teoria também pode ser aplicada a acontecimentos mais correntes, como por

exemplo, o fluxo de tráfego numa ponte.

É de conhecimento corrente que congestionamentos significativos, situações de “pára-

arranca”, provocam atrasos nas deslocações, desgastes nos veículos, aumentos de consumo

de combustível e aumentos na duração das viagens. Todos estes fenómenos implicam cus-

tos significativos quer económicos quer de produtividade. Estes factos também se aplicam

ao que acontece na Ponte 25 de Abril, em Lisboa, tendo um enormíssimo significado pela

grande quantidade de veículos que diariamente a atravessam, por isso, foi considerado

relevante efetuar este estudo, o qual está na base desta dissertação. Em concreto, é efetu-

ada a aplicação da Teoria dos Valores Extremos ao tráfego da Ponte 25 de Abril, tal como

indicado no título desta tese.

Esta dissertação está organizada do seguinte modo: no Capítulo 1 tem-se a introdução;

o Capítulo 2 é constituído por três partes: na primeira é feita uma breve introdução à

história da Ponte 25 de Abril e também de uma análise de todos os dados adquiridos

referentes ao fluxo do tráfego dessa Ponte, na segunda, será analisada a sazonalidade

nos dados, tendo presente que este não é o foco principal desta dissertação mas sim a

aplicação da Teoria dos Valores Extremos ao estudo do tráfego na ponte, na terceira, será

efetuada uma análise das evoluções dos preços das portagens entre os anos 1996 e 2019 e

das receitas entre os anos 2003 e 2017, da Ponte 25 de Abril, disponibilizados; no Capítulo

3 está um resumo teórico de alguns modelos da Teoria dos Valores Extremos, tais como,

o Modelo dos Valores Extremos Generalizado (GEV), o Modelo GEV Multivariado e o

Modelo Generalizado de Pareto (GP); já no Capítulo 4 encontra-se o foco principal desta

dissertação que é a aplicação da Teoria dos Valores Extremos aos dados do tráfego da

Ponte 25 de Abril. Os dados mais trabalhados serão os dados diários do tráfego, desde

1 de janeiro de 2010 até 31 de dezembro de 2018. Por não serem os únicos valores que

foram disponibilidade são também trabalhados os valores referentes ao tráfego médio

mensal de 2006 a 2010 e os valores de tráfego médio anual de 1966 a 2006; no Capítulo 5

são efetuadas algumas observações finais sobre o estudo elaborado e indicados problemas

em aberto que poderão ser estudados.

2

CAPÍTULO 2Apresentação dos dados

2.1 Introdução

Esta secção tem três parte. Na primeira, apresenta-se um pouco da história da Ponte

25 de Abril e alguns acontecimentos (como por exemplo a construção da Ponte Vasco da

Gama) que possam ter tido algum impacto na utilização da Ponte aqui estudada. Vão ser

analisados todos os dados adquiridos e não só os referentes ao tráfego diário. Serão tidos

em consideração os dados diários do tráfego da Ponte 25 de Abril desde 1 de janeiro de

2010 até 31 de dezembro de 2018, o tráfego médio diário mensal desde 2006 e o tráfego

médio diário anual desde 1966.

Na segunda parte, será efetuada uma análise da existência ou não de sazonalidade nos

dados. E na terceira e última parte, será elaborada uma análise referente ao valor pago

por cada viatura dependendo da Classe que lhe é atribuída, como também, das receitas

recebidas através do pagamento das mesmas.

2.2 Descrição geral dos dados

2.2.1 História da Ponte 25 de Abril

Nesta parte apresenta-se um pouco da história da Ponte 25 de Abril. Esta estrutura é

uma ponte suspensa rodoferroviária que faz a ligação entre as cidades de Lisboa e Almada.

Esta união é feita no denominado “gargalo do Tejo”, isto é, na parte mais estreita e final

do estuário do rio Tejo.

Na figura 2.1 está representado um cronograma com alguma da história da Ponte que

teve como fonte de informação Infraestruturas de Portugal (2018a).

3

CAPÍTULO 2. APRESENTAÇÃO DOS DADOS

Foi efetuada a 1ª proposta,pelo Engenheiro MiguelPais, sobre a construção deuma ponte entre o Grilo e oMontijo, para resolver afalha de ligação entre amargem Norte e Sul do tejo,em Lisboa. Este projeto, noentanto, não seguiu.

Ao abrigo da Lei nº 2094 de 25 denovembro, o Governo aprovou aconstrução da Ponte sobre o tejo.O projeto foi entregue aoEngenheiro José do Canto Moniz,diretor dos Serviços deConservação da Junta Autónomade Estradas. O Gabinete da Pontesobre o tejo foi criado.

Foram abertas as 4 propostasapresentadas no concurso públicointernacional iniciado no ano anterior, nodia 3 de maio deste ano. A comissão deapreciação, presidida pelo EngenheiroDuarte Abecassis, decidiu queprovisoriamente a United States SteelExport Company ficaria adjudicada, comalgumas indicações, a principal seria quea ponte teria de ser, mais tarde, adaptadaao tráfego ferroviário.

Foi assinado o contrato paraa construção da Ponte, numprazo de 51 meses, por isso,previa-se que estivesseconcluída no dia 5 defevereiro de 1967.

A Ponte sobre oTejo começa aser construídano dia 5 denovembro.

No dia 6 de agosto éinaugurada a Ponte sobre oTejo, chamada na alturaPonte Salazar, com aberturaao tráfego, 6 meses antes dadata prevista.

Deu-se a Revoluçãode 25 de abril de 1974,o nome foi alteradopara Ponte 25 deAbril.

Adjudica-se à empresaSteinman BoyntonGroquist & Bridsal, aelaboração do projetodo caminho de ferro naPonte.

Concluiu-se oprojeto dotráfegoferroviário

Abre-se o concurso internacionale dão-se inicio as obras dereforço, do alargamento dotabuleiro e a inclusão da via-férrea na ponte como osrespetivos acessos.

Foi inaugurado o EixoFerroviário Norte Sul, no dia 30de julho às 13:30. Passados 33anos desde a inauguração, ocomboio passa finalmente naPonte.

1876 1958 1960

1990

1974196619621961

1994 1995 1999

Figura 2.1: Cronograma da história da Ponte 25 de Abril resumida (1876-1999)

(a) Ponte 25 de Abril durante o dia (b) Ponte 25 de Abril durante a noite

Figura 2.2: Ponte 25 de Abril

Na figura 2.2 tem-se do lado esquerdo a figura 2.2a obtida através de Almeida (2018)

e do lado direito a figura 2.2b obtida através de Costa (2018). Ao visualizar estas imagens

pode-se ter uma noção mais adequada da grandeza da Ponte Salazar, como foi inicial-

mente chamada, se for ponderado o facto de que quando foi inaugurada, em 1966, era

a quinta maior estrutura metálica do mundo e a maior fora dos Estados Unidos. Neste

momento, ocupa o 36º lugar a nível mundial. Portanto, até esta altura só ainda construí-

ram mais trinta e uma pontes maiores que a mencionada e já passaram cinquenta anos

desde a sua inauguração. Por este andar, a Ponte sobre o Tejo ficará no Top50 até meados

de 2040.

A Construção teve um custo que na altura rondou os dois milhões e duzentos mil

contos, o que corresponde, ao valor aproximado de onze milhões de euros, sem ajuste de

inflação (ou seja, sem ter em conta o aumento contínuo e generalizado dos preços).

Esta possibilidade de travessia, permitida pela Ponte 25 de Abril, teve como con-

sequência uma explosão urbanística que surgiu na margem esquerda do Rio Tejo, de

4

2.2. DESCRIÇÃO GERAL DOS DADOS

Almada a Setúbal, e houve efetivamente um crescimento económico e turístico no Sul de

Portugal, tendo como grande destaque a região do Algarve.

Como se pode observar no cronograma (figura 2.1) a travessia ferroviária foi inaugu-

rada em 1999, mais concretamente no dia 30 de julho. E no ano anterior, no dia 29 de

março, foi inaugurada a Ponte Vasco da Gama, uma nova travessia do Tejo, entre Saca-

vém e o Montijo. Estas duas modalidades diferentes de travessia, rodoviária e ferroviária,

tinham como principal objetivo diminuir o tráfego da Ponte 25 de Abril, mas tal não

ocorreu. Como se pode ler no trecho retirado do Volume I do documento “Auditoria à

aplicação do Modelo Contratual e aos Acordos de Reposição do Equilíbrio Financeiro”

efetuado pelo Tribunal de Contas Garcia, Pignatelli, Salina e Santos (2000):

“(. . . ) a versão inicial do Modelo apresentava-se equilibrada tendo em atenção, entre

outros, os seguintes pressupostos:

• Haveria uma diminuição do tráfego na Ponte 25 de Abril, na sequência da abertura

da nova ponte, ou seja, a Ponte Vasco da Gama e da ferrovia.

• O tráfego previsto para 1998 e 1999, na Antiga Travessia, seria inferior ao estimado

para 1996 e 1997.

• As taxas de portagem a cobrar na Ponte 25 de Abril, em 1998 e 1999, representariam

valores superiores ao dobro, em termos médios, dos praticados em 1996 e 1997.

Contudo, a realidade mostrou que:

• Não houve uma diminuição do tráfego na Ponte 25 de Abril, na sequência da aber-

tura da nova ponte e da ferrovia

• O tráfego na Ponte 25 de Abril, em 1998 e 1999, não foi inferior ao tráfego verificado

em 1996 e 1997.

• As taxas de portagem cobradas em 1998 e 1999 representaram valores inferiores

a metade dos constantes do Caso Base, isto é, mantiveram inalterado o seu valor.

(. . . )”

A circulação tanto rodoviária como ferroviária é intensa. Todos os dias se ouvem

nas notícias os congestionamentos recorrentes na Ponte sobre o Tejo. Dando particular

destaque aos números, por exemplo conforme a notícia de Trainlogistic (2018): “no iníciodo ano 2006: na chamada “hora de ponta” passaram cerca de sete mil carros, nos dois sentidose, em média, passavam por dia cerca de cento e cinquenta mil (...). Na mesma altura, em relaçãoà circulação ferroviária, havia a passagem diariamente de cento e cinquenta e sete comboios,nos dois sentidos, transportando cerca de oitenta mil passageiros por dia. Em 2006 passavamcerca de quatrocentas mil pessoas na Ponte 25 de Abril.” Hoje em dia, só na parte rodoviária

chegam a passar cerca de 140000 automóveis por dia nos dois sentidos.

5


2.2.2 Recolha e análise genérica do tráfego da Ponte 25 de Abril

Nesta dissertação, serão utilizados os dados referentes ao tráfego da Ponte 25 de Abril

para a aplicação dos modelos da Teoria dos Valores Extremos. Depois de contactadas

várias entidades como: a Brisa, a Lusoponte, o INE (Instituto Nacional de Estatística), e

o IMT (Instituto da Mobilidade e dos Transportes, I.P.). A instituição que forneceu os

dados apresentados e tratados neste trabalho foi o IMT a quem já se fez uma referência

em particular nos agradecimentos. Pois sem estes, o estudo aqui apresentado não seria

possível.

Obtiveram-se os valores diários referentes ao tráfego da Ponte 25 de Abril desde 1 de

janeiro de 2010 até 31 de dezembro de 2018. O tráfego é contabilizado nos dois sentidos,

apesar de só existirem portagens no sentido Sul-Norte, também é contabilizado o tráfego

no outro sentido através de sensores colocados no pavimento. Foi a partir de 2010 que

se começou a fazer a recolha dos dados diários pela própria entidade. Antes de 2010, só

se têm em arquivo os dados das médias mensais até 2006 e, antes de 2006 até 1966, as

médias anuais.

No próximo capítulo, os dados diários terão uma relevância particular, pois ao exis-

tirem variações ao longo do mês é necessário dispor dos dados desagregados para se

aplicarem os modelos de valores extremos. Por isso, para não se deixarem dados de lado,

será feita uma análise geral de todos os dados adquiridos.

Verifica-se a existência de 3287 valores diários; 156 valores referentes a TMDM (Trá-

fego Médio Diário Mensal), ou seja, a média mensal do tráfego diário; e 54 dados de

TMDA (Tráfego Médio Diário Anual), isto é, a média anual do tráfego diário.

Na figura 2.3 pode-se observar a média anual do tráfego diário desde 1966 até 2018.

Verifica-se que desde 1966 até 1993 têm um comportamento, tendencialmente, crescente.

Têm um pequeno decréscimo em 1994 e outro em 1998. Este segundo poderá associar-se

à inauguração da Ponte Vasco da Gama, no entanto, esta diminuição no tráfego não foi

tão acentuada quanto se pretendia. Pois, como já se mencionou, a construção da segunda

ponte para a travessia do Tejo era também para, de algum modo, reduzir o tráfego na Ponte

25 de Abril. Aliás, segundo a notícia do Jornal “Público” (2006), o trânsito aumentou 16%

entre 1998 e 2005. No ano 1999 foi finalmente inaugurada a via férrea, mas, tal como se

constata pela observação do gráfico, essa também não teve um impacto considerável no

fluxo de veículos que atravessam a Ponte sobre o Tejo.

6

2.2. DESCRIÇÃO GERAL DOS DADOS

0

20 000

40 000

60 000

80 000

100 000

120 000

140 000

160 000

180 00019

6619

6719

6819

6919

7019

7119

7219

7319

7419

7519

7619

7719

7819

7919

8019

8119

8219

8319

8419

8519

8619

8719

8819

8919

9019

9119

9219

9319

9419

9519

9619

9719

9819

9920

0020

0120

0220

0320

0420

0520

0620

0720

0820

0920

1020

1120

1220

1320

1420

1520

1620

1720

18

TMDA

ANOS

Tráfego Médio Diário Anual

TMDA

Figura 2.3: Tráfego Médio Diário Anual (1966-2018)

Através da figura 2.4 onde está representado o gráfico da média mensal do tráfego

diário, desde 2006 a 2018, nota-se um ligeiro decréscimo no fluxo de automóveis de

2006 até 2014. Neste último ano, está o mínimo valor apresentado. Pode-se associar esta

diminuição gradual ao impacto da Crise no poder de compra dos portugueses e que pode

ter sido uma consequência imediata, a diminuição da utilização do automóvel.

2006 2008 2010 2012 2014 2016 2018

1300

0015

0000

1700

00

Tráfego Médio Diário Mensal

Anos

TM

DM

Figura 2.4: Tráfego Médio Diário Mensal (2006-2018)

No gráfico sequencial, apresentado na figura 2.5, estão representados os valores diá-

rios do tráfego da Ponte 25 de Abril. Nestes nota-se um comportamento que demonstra

repetição na variação de valores. Logo pode-se dizer que os valores aparentam ter sazona-

lidade, esta será verificada no ponto seguinte desta secção.

7


2010 2012 2014 2016 2018

8000

012

0000

1600

00

Gráfico sequencial

Anos

Núm

ero

de v

eícu

los

Figura 2.5: Gráfico sequencial de dados diários do tráfego da Ponte 25 de Abril (2010-2018)

2.3 Análise da sazonalidade

2.3.1 Apreciação Gráfica

Nesta parte procurar-se-á verificar a existência ou não de sazonalidade nos dados.

Consegue-se através da figura 2.5, constatar a existência de uma certa oscilação que se

pode considerar repetitiva. De modo mais detalhado, na figura 2.6, estão representados

os dados diários de 2010.

jan mar mai jul set nov jan

1000

0014

0000

1800

00

Tráfego diário na Ponte 25 de Abril em 2010

Meses

Núm

ero

de v

eícu

los

Figura 2.6: Tráfego diário na Ponte 25 de Abril em 2010

Pela figura 2.6 consegue-se visualizar que o fluxo de trânsito aumenta gradualmente

até julho e mantém-se no seu momento máximo nesse mês e a partir de agosto, começa

a diminuir. É bastante compreensível o comportamento do fluxo de tráfego, tendo em

conta as estações do ano, por exemplo, consegue-se verificar que nos meses de inverno o

tráfego na Ponte 25 de Abril é menor mas vai crescendo até aos meses de verão.

8

2.3. ANÁLISE DA SAZONALIDADE

3000000

3500000

4000000

4500000

5000000

5500000

jan fev mar abr mai jun jul ago set out nov dez

NÚ

ME

RO

DE

VE

ÍCU

LO

S

MESES

Tráfego total mensal

2010 2011 2012 2013 2014 2015 2016 2017 2018 Média

Figura 2.7: Tráfego total mensal na Ponte 25 de Abril (2010-2018)

Pela figura 2.7,verifica-se a variação existente em cada mês, tendo no gráfico do fluxo

total mensal de cada ano (de 2010 a 2018) e a média mensal. O número de veículos a

fazer a travessia do Tejo tem o seguinte comportamento: vai aumentando gradualmente de

janeiro a julho onde há um “pico de tráfego” notório; a partir daqui há uma diminuição de

agosto a novembro; por fim, um pequeno aumento em Dezembro. Tal como se constatou

na figura 2.6 mas não com tanto detalhe.

Ano/mês JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ

2010 4224652 3828746 4563546 4506398 4757528 4624064 4980058 4727474 4406776 4209592 4056474 4091686

2011 4145533 3910751 4284042 4270360 4553549 4524434 4837444 4610856 4533814 4433562 4008582 4187329

2012 4166050 3914763 4315830 3950928 4430800 4372117 4821938 4586311 4311110 4129951 3838369 4012693

2013 3854645 3565231 3855582 4049453 4328235 4347041 4718802 4612927 4207995 4123280 4012741 4060121

2014 3787677 3510724 4041857 3997244 4374994 4199051 4706455 4518544 4164528 4258606 3854476 4080572

2015 3878744 3609397 4217205 4124907 4470700 4320618 4741665 4590546 4366085 4146466 4038909 4059142

2016 3895119 3732524 4178028 4160492 4370279 4473275 4906518 4783522 4515494 4286352 4111362 4105737

2017 4051244 3727218 4279434 4309458 4512357 4549332 4893114 4776071 4467813 4480308 4154925 4191607

2018 4108993 3801563 4124483 4195723 4619924 4477089 4879373 4857197 4641572 4420293 3953403 4173989

Média 4012517 3733435 4206667 4173885 4490930 4431891 4831707 4673716 4401687 4276490 4003249 4106986

< Anual > Anual > Mensal < Mensal É 2 coisas

Tabela 2.1: Valores do tráfego total mensal na Ponte 25 de Abril (2010-2018) e Médiamensal

Na Tabela 2.1 tem-se a amarelo o valor anual mais pequeno, pode-se dizer que nor-

malmente o fluxo de trânsito é mais pequeno em meses com temperaturas mais baixas, já

que estes valores ocorreram sempre em fevereiro (se bem que este mês como tem menos

dias é normal que o seu valor total mensal seja mais reduzido), excepto em 2012 que foi

em novembro. A vermelho está representado o maior valor anual, que tem sido sempre no

mês de julho. A verde está representado o maior valor mensal, em cinco dos doze meses

ocorreram em 2010, um dos valores ocorreu em 2012, três em 2017 e dois em 2018. Já os

menores valores mensais, representados a azul, oscilaram entre os anos de 2012 a 2014,

9


sendo que em 2014 teve seis meses com os menores valores. Os valores a cor-de-laranja

são duplamente representativos: em fevereiro de 2014 é o menor valor mensal e anual;

em julho do mesmo ano está representado o maior valor anual e o menor valor mensal.

Ano Data Dia da semanaNúmero veículos

2010 02/jul sexta-feira 180 846



2013 28/jun sexta-feira 172 842


2015 26/jun sexta-feira 165 212



2018 31/ago sexta-feira 172 030

Máximos anuais

Tabela 2.2: Datas e dias da semana dos valores máximos anuais

Quanto à tabela 2.2 pode-se afirmar que os valores máximos anuais ocorrem sempre

entre a última semana de junho e a primeira quinzena de julho, excepto em 2018, que foi

no último dia do mês de agosto, e todos estes valores máximos anuais ocorreram numa

sexta-feira.

2.3.2 Ajuste Sazonal

A sazonalidade é recorrentemente causada por movimentos que possuem a mesma

periodicidade e, normalmente, oscilatórios e ocorrem em períodos determinados no meio

do ano, como feriados, variações climáticas, férias, etc. O Processo de remoção da sa-

zonalidade de uma série temporal é conhecido como ajuste sazonal. Nesta secção será

apresentado, tendo como base o artigo Ferreira e Mattos (2016) que usa o X-13ARIMA-

SEATS com interface no software R utilizando o pacote seasonal (Sax & Eddelbuettel, 2018)

que foi desenvolvido por Christoph Sax, um modo de dessazonalizar séries temporais.

10


Tráfego total mensal na Ponte 25 de Abril

Anos

Núm

ero

de v

eícu

los

men

sais

2010 2012 2014 2016 2018

3500

000

4000

000

4500

000

5000

000

Figura 2.8: Tráfego total mensal na Ponte 25 de Abril

Monthplot − Tráfego por mês

Meses

traf

ego

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

3500

000

4000

000

4500

000

5000

000

tráfego/mêsmédia/mês

Figura 2.9: Monthplot - Tráfego por mês na Ponte 25 de Abril

Ao analisar as figuras 2.8 e 2.9 pode-se verificar que o índice de fluxo de tráfego:

a. Tem características sazonais, já que de fevereiro a julho tem um comportamento mai-

oritariamente crescente e de julho a fevereiro, decrescente. E este comportamento

verifica-se ao longo dos anos;

b. Houve um pico mínimo bastante acentuado em 2013, talvez nessa altura se tenha

sentido de forma mais acentuada as consequências da crise económica em Portugal.

Se bem que em 2014 existe um mínimo menor que o de 2013 como se pode observar

no gráfico 2.8;

c. Através do gráfico 2.8, verifica-se que existe uma tendência decrescente de 2010

a 2014 e de 2014, até ao fim deste gráfico, a tendência passa a ser crescente, tal-

vez a partir desta altura as consequências da crise não se sintam de modo muito

acentuado;

d. Pelo gráfico 2.9 com o título “Monthplot -Tráfego por mês” (já que Monthplot sig-

nifica o gráfico mensal), em que se tem a série temporal de cada mês do ano (ou

seja, estão juntos os dados dos anos de 2010 a 2018, por mês) verifica-se que os dois

maiores valores mensais ocorrem nos meses de julho e agosto, que acabam por ficar

11


justificados pela altura do ano, já que no verão, na altura balnear, a passagem pela

Ponte 25 de Abril é mais recorrente dado o número de praias existentes na margem

Sul.

Depois de analisado o comportamento histórico da Série Temporal, efetuou-se o ajuste

sazonal automático, usando o X13-ARIMA-SEATS que a partir de agora será denominado

por X13. Como existem vários estudos empíricos que mostram que nem todos os ajustes

automáticos conseguem remover a sazonalidade, como seria esperado, é muito importante

fazer o teste de sazonalidade. No X13 é dado pela estatística QS. O teste tem como

hipótese nula: não existe sazonalidade. Para explicar melhor esta estatística foram tidas

em conta as informações de Bureau (2017), “StackExchange” (2018) e Maravall (2005) e

resumindo calcula-se do seguinte modo:

1. A série para a qual é calculada a estatística QS é diferenciada de acordo com o

modelo ARIMA (que será explicado com maior detalhe mais adiante) e também

pela seguinte regra:

ndif =max(1,min(d +D,2))

onde:

ndif : é o número de diferenças regulares a serem tidas em conta;

d e D: são, respetivamente, o número de diferenças regulares e sazonais no modelo

ARIMA escolhido.

(O ndif = 0 irá ocorrer se a estatística QS for calculada para a série de resíduos, ou

seja, nenhuma diferença será aplicada.)

2. As duas primeiras autocorrelações de ordem sazonal (em dados mensais, como neste

caso, serão 12 e 24) são obtidas e se essas autocorrelações forem menores ou iguais

a zero, então serão definidas como zero.

3. A estatística é definida do seguinte modo:

QS = n(n+ 2)(R2s

n−2 + R22s

n−2s

)onde:

n: número de observações das séries diferenciadas;

s: é a periodicidade dos dados (12, neste caso, com os dados ordenados mensal-

mente);

R2s e R2

2s: são as autocorrelações obtidas no ponto anterior.

12


Apresenta-se para a estatística QS calculada para a série original, tendo em conta que

os dados foram agrupados mensalmente, o código do R que se encontra em anexo I.1.1.

O output do teste da estatística QS que está apresentado na tabela 2.3 mostra que o

teste para além de ter sido efetuado à série original e com ajuste, também foi aplicado nas

séries de resíduos do modelo ARIMA e da componente irregular. Tem-se a expectativa de

que não existam evidências de sazonalidade em todas as séries, exceto na série original.

Como se pode observar dado o grande valor da estatística QS (e o baixo valor do p-value

implícito) pode-se concluir que há sazonalidade na série.

qs valor pSérie original 117,9867 0,0000Série original corrigida por valores extremos 124,4607 0,0000Série dos resíduos do modelo ARIMA 0,0000 1,0000Série temporal com ajuste sazonal 0,0000 1,0000Série temporal com ajuste sazonal corrigida por valores extremos 0,0000 1,0000Série de componente irregular 0,0000 1,0000Série de componente irregular corrigida por valores extremos 0,0000 1,0000Série original 102,5000 0,0000Série original corrigida por valores extremos 110,3575 0,0000Série dos resíduos do modelo ARIMA 0,0000 1,0000Série temporal com ajuste sazonal 0,0000 1,0000Série temporal com ajuste sazonal corrigida por valores extremos 0,0000 1,0000Série de componente irregular 0,0000 1,0000Série de componente irregular corrigida por valores extremos 0,0000 1,0000

Tabela 2.3: Output da Estatística QS

O teste é feito na série completa (resultados da linha 2 à 8 do output) e nos últimos 8

anos mais recentes (já que neste caso o comprimento é maior que 8 anos e está apresentado

nas linhas seguintes do output), caso contrário, o teste seria feito apenas na série completa.

Ao considerar um nível de confiança de 95%, não existe nenhuma evidência de sazo-

nalidade nas séries dessazonalizada, dos resíduos do modelo ARIMA e da componente

irregular. No entanto, existem evidências de sazonalidade para a série original. De seguida

diagnostica-se o pré-ajuste e o modelo ARIMA. Mas antes disso, uma breve explicação

sobre o modelo ARIMA, para tal teve-se em consideração a explicação dada em Wikipedia

(2018).

ARIMA é uma sigla em inglês para “autoregressive integrated moving average”, ou seja,

para um modelo autorregressivo integrado de médias móveis. Este modelo é uma genera-

lização do modelo ARMA (modelo autorregressivo de médias móveis). Estes dois modelos

são ajustados aos dados da série temporal para compreender melhor o comportamento

dos dados ou para efetuar previsões de futuros pontos na série. Os modelos ARIMA

são aplicados normalmente a dados que mostram a não evidência de estacionariedade,

por isso, a série dos dados inicial é diferenciada uma ou mais vezes para eliminar a não

estacionariedade.

13


A parte autorregressiva (AR) do modelo ARIMA indica que a variável de interesse

(que evolui) é regredida nos seus próprios valores desfasados (ou seja, anteriores). A parte

integrada (I) indica que os valores dos dados foram substituídos pela diferença entre

valores (ou seja, por exemplo, os valores de X2 serão substituídos pela diferença entre X2

e X1) e este processo diferenciador pode ter sido realizado mais do que uma vez. A parte

da média móvel (MA) indica que o erro de regressão é na verdade uma combinação linear

dos termos de erro, cujos valores ocorreram simultaneamente, e em vários momentos no

passado. O objetivo de cada uma destas características é elaborar um modelo que se ajuste

aos dados do melhor modo possível.

Os Modelos ARIMA não sazonais são geralmente denotados por ARIMA(p,d,q), em

que os parâmetros p, d e q são números inteiros não negativos, p é a ordem (número

de desfasamentos) do modelo autorregressivo, d é o grau de diferenciação (número de

vezes em que os dados tiveram valores passados, subtraídos) e q é a ordem do mo-

delo da média móvel. Os Modelos ARIMA sazonais são denotados normalmente como

ARIMA(p,d,q)(P ,D,Q)m, em que m se refere ao número de períodos de cada intervalo e

P, D e Q referem-se aos termos de autorregressão, diferenciação e média móvel para a

parte sazonal do modelo ARIMA, respetivamente.

Coefficients: Estimate Std. Error z value Pr(>|z|) Codes

Constant 2054 1124 1.827 0.0677 0.05

Easter[1] -82760 39020 -2.121 0.0339 0.01

MA-Nonseasonal-01 0,6925 0,06691 10.349 <2e-16 0

MA-Seasonal-12 0,9978 0,077974 12.513 <2e-16 0

SEATS adj. ARIMA: Obs.:

Transform: none

AICc: 2477 35.87 0.05

BIC: 2489 0.9797 0.05

108

Box-Ljung (no autocorr.):

Shapiro (normality):

QS (no seasonality in final): 0

(0 1 1)(0 1 1)

Tabela 2.4: Output do summary(ajuste)

Em relação ao output obtido pode-se afirmar o seguinte: o modelo ARIMA estimado é

da ordem (0 1 1)(0 1 1) e o parâmetro MA sazonal é significativo. De acordo com o teste

de autocorrelação de Box-Ljung, não existem evidências de autocorrelação residual para o

modelo ARIMA estimado. O teste de normalidade de Shapiro-Wilk sugere a não existência

de normalidade, no entanto, essa não é uma característica extremamente necessária no

diagnóstico de modelos ARIMA. Também se verifica que não foi empregue qualquer

transformação logarítmica.

O próximo passo é fazer um diagnóstico, fornecido pelo programa, que tem o objetivo

de verificar se existem indícios de sazonalidade e efeitos de dias úteis antes e depois do

ajuste sazonal. Este diagnóstico é fornecido pelo gráfico da função de autocovariância, de

uma dada Série Temporal, reestimada por densidade espectral. Este diagnóstico é dado

14


por quatro séries que são: a série original, a série dessazonalizada, a série dos resíduos

do modelo ARIMA e a série da componente irregular. No R, usa-se a função series() do

pacote seasonal para obter as séries espectrais.

0.0 0.1 0.2 0.3 0.4 0.5

9095

100

110

120

Série Original

Frequência

OriginalEfeitos SazonaisEfeitos de dias úteis

(a) Série Original

0.0 0.1 0.2 0.3 0.4 0.5

8590

9510

010

5

Série com ajuste Sazonal

Frequência

Ajuste SazonalEfeitos SazonaisEfeitos de dias úteis

(b) Série com ajuste Sazonal

0.0 0.1 0.2 0.3 0.4 0.5

9095

100

105

Série de Resíduos do modelo ARIMA

Frequência

ResíduosEfeitos SazonaisEfeitos de dias úteis

(c) Série de Resíduos do modelo ARIMA

0.0 0.1 0.2 0.3 0.4 0.5

9095

100

Série da Componente Irregular

Frequência

Componente IrregularEfeitos SazonaisEfeitos de dias úteis

(d) Série da componente Irregular

Figura 2.10: Gráficos espectrais para efeitos de sazonalidade e dias úteis

Para serem interpretados os gráficos representados na figura 2.10 tem que se ter em

conta o seguinte: existem indícios de efeitos sazonais na série, se a densidade espectral

da Série Temporal apresenta mais do que um pico sobre frequências sazonais (linhas

vermelhas e tracejadas); também existem indícios de efeitos de dias úteis, caso hajam

picos nas frequências de dias úteis (linhas tracejadas em azul). Como tal, pode-se afirmar

que só se verificam efeitos de sazonalidade para a série original e não existem efeitos de

dias úteis. Por esse motivo, não é necessário corrigir nenhum efeito referente aos dias

úteis. E verifica-se que a série está bem dessazonalizada, já que só o primeiro gráfico

apresenta mais do que um pico sobre frequências sazonais.

Os dois gráficos apresentados de seguida, nas figuras 2.11 e 2.12, são referentes aos

factores sazonais e à série com ajuste sazonal.

15


Meses

J F M A M J J A S O N D

−4e

+05

0e+

004e

+05

Componentes Sazonal e Irregular por mês

Componente IrregularSazonalMédia Sazonal

Figura 2.11: Componentes Sazonal e Irregular por mês

A representação gráfica da figura 2.11 é útil para visualizar a evolução dos fatores

sazonais ao longo do tempo e é dada pela função monthplot(). Para além da evolução dos

fatores sazonais, é possível verificar o comportamento da série SI (componentes sazonal e

irregular agregadas).

Séries Original e Ajustada

Anos

2010 2012 2014 2016 2018

3500

000

4000

000

4500

000

5000

000

OriginalAjustada

Figura 2.12: Séries Original e Ajustada

Na figura 2.12 vê-se o fluxo de tráfego na Ponte 25 de Abril com ajuste sazonal, através

do qual, mais uma vez, se constata uma ligeira descida até 2014 do número de automóveis

a atravessar a Ponte e um aumento gradual nos anos seguintes.

O programa X13, usando modelos SARIMA (ARIMA Sazonal, ou seja, em inglês Se-asonal ARIMA) faz previsões não só da Série original mas também da Série com ajuste

sazonal. Do adequado ajuste sazonal depende a qualidade das previsões efetuadas a partir

deste.

16

2.4. ANÁLISE DO VALOR E RECEITAS DAS PORTAGENS DA PONTE 25 DE

ABRIL

Previsão de tráfego na Ponte 25 de Abril

Anos

2010 2012 2014 2016 2018 2020

3500

000

4500

000

5500

000

trafegotrafego com ajusteCI 95%

Figura 2.13: Primeira previsão do tráfego na Ponte 25 de Abril com ajuste sazonal

Previsão de tráfego na Ponte 25 de Abril

Anos

2010 2012 2014 2016 2018 2020

3500

000

4000

000

4500

000

5000

000

TrafegoTrafego AjustadoPrevisão do Tráfego Ajustado

Figura 2.14: Segunda previsão do tráfego na Ponte 25 de Abril com ajuste sazonal

Nas figuras 2.13 e 2.14 encontram-se representadas as previsões do tráfego com ajuste

sazonal. Na figura 2.13, tem-se a preto o tráfego com ajuste representado e a azul os respe-

tivos IC de 95% dessa previsão. Verifica-se que a previsão indica que o máximo de 2020

será superior aos máximos anuais dos anos anteriores. Pela visualização do gráfico 2.14

é notória a tendência crescente da previsão do tráfego ajustado. Os resultados previstos

estão de um modo mais detalhado nas tabelas I.1 e I.2 em anexo.

2.4 Análise do valor e receitas das portagens da Ponte 25 de

Abril

Nesta secção, vai-se procurar fazer uma pequena análise das receitas obtidas na pas-

sagem da Ponte 25 de Abril, algumas das informações apresentadas têm como origem os

seguintes documentos: Infraestruturas de Portugal (2017) e Infraestruturas de Portugal

17


(2018b). Inicialmente ter-se-á em conta o valor unitário das portagens e a sua evolução.

De seguida, vai se fazer uma breve análise das receitas realizadas.

No decorrer do texto seguinte será utilizado o conceito de “valor unitário”, entendido

como o valor pago por cada viatura dependendo da Classe que lhe é atribuída.

Antes da perspectiva mais detalhada sobre o valor unitário das portagens, vão-se

esclarecer as seguintes observações:

1. A distinção entre cada uma das Classes de veículos é apresentada na tabela 2.5 que

foi retirada do site Lusoponte (2019a).

Tabela 2.5: Descrição dos veículos de cada uma das Classes

Atualmente, consideram-se da Classe 5 os motociclos, que pagam de portagem o

mesmo que a Classe 1. Mas para esta análise aqui apresentada não serão tidos em

consideração por falta de informações.

2. Houve uma mudança na zona de cobrança da Ponte 25 de Abril do sentido Norte-

Sul para o sentido Sul-Norte na madrugada do dia 28 de novembro de 1992. E as

portagens sempre foram cobradas só num dos sentidos.

3. Aqui serão apresentados os dados, do valor unitário das portagens, a partir de 1992,

pois foram os dados fornecidos pelo IMT.

4. Até 2010 inclusive as portagens não eram cobradas no mês de agosto na Ponte 25

de Abril, por ser o período de férias dos operadores desta portagem. Mas a partir de

2011 passou a ser cobrada e assim, em princípio, se irá manter.

Passando à análise do valor unitário das portagens pagas por cada uma das quatro

Classes de veículos têm-se os dados referentes nos gráficos 2.15 e 2.16. Os dados de 1996

18


ABRIL

a 2001 foram convertidos para euros, já que os seus valores originais estavam em escudos.

- €

1,00 €

2,00 €

3,00 €

4,00 €

5,00 €

6,00 €

7,00 €

8,00 € 0

1-0

1-1

99

6

01-

10

-19

96

01-

07

-19

97

01-

04

-19

98

01-

01

-19

99

01-

10

-19

99

01-

07

-20

00

01-

04

-20

01

01-

01

-20

02

01-

10

-20

02

01-

07

-20

03

01-

04

-20

04

01-

01

-20

05

01-

10

-20

05

01-

07

-20

06

01-

04

-20

07

01-

01

-20

08

01-

10

-20

08

01-

07

-20

09

01-

04

-20

10

01-

01

-20

11

01-

10

-20

11

01-

07

-20

12

01-

04

-20

13

01-

01

-20

14

01-

10

-20

14

01-

07

-20

15

01-

04

-20

16

01-

01

-20

17

01-

10

-20

17

01-

07

-20

18

Va

lor

un

itário

da

s p

ort

age

ns

Datas

Evolução do valor das Portagens de 1996 a 2019

Classe 1 Classe 2 Classe 3 Classe 4

Figura 2.15: Evolução do valor das Portagens de 1996 a 2019 da Ponte 25 de Abril

Ao se observar o gráfico 2.15 constata-se que o valor unitário das portagens tem vindo

a aumentar ao longo dos anos. Este aumento, aparenta ser praticamente constante. Só

em 2010 se nota uma pequena diminuição no aumento, ou seja, a diferença entre o valor

das portagens de um ano para o outro foi menor. Por exemplo, de 2008 para 2009 houve

um aumento de vinte cêntimos, no valor unitário da portagem, para a Classe 4; de 2009

para 2010 não houve nenhuma diferença no início do ano (como nos restantes anos tinha

havido) e, mais tarde, no segundo semestre de 2010, houve um aumento de apenas cinco

cêntimos para a Classe 4.

- €

0,05 €

0,10 €

0,15 €

0,20 €

0,25 €

0,30 €

2004 2005 2006 2007 2008 2009 2ºS2010

2011 2012 2013 2014 2016 2017 2018 2019

Va

lor

da

dife

renç

a

Anos

Aumentos por ano do valor das Portagens

Classe 1 Classe 2 Classe 3 Classe 4 Média

Figura 2.16: Aumentos por ano do valor unitário das Portagens da Ponte 25 de Abril

19


Em relação ao gráfico 2.16 que se refere às diferenças entre o valor das portagens dos

vários anos, como estas têm sido sempre positivas, o gráfico denomina-se como “aumentos

por ano do valor das portagens”. Este gráfico apresenta dois anos relevantes. O primeiro

já foi visualizado no gráfico 2.15, em relação ao segundo semestre de 2010, houve uma

grande diminuição no valor do aumento, já que as quatro Classes só aumentaram cada

uma cinco cêntimos. O segundo ano mais relevante é 2012, onde se nota um aumento

bastante acentuado no valor unitário das Portagens. Por exemplo, a Classe 4 aumentou

nesse ano vinte e cinco cêntimos. Os dados estão apresentados de modo mais detalhado

em tabelas que se encontram em anexo, em relação ao gráfico 2.15 na tabela I.1 e na tabela

I.2 sobre os dados do gráfico 2.16.

Quanto às receitas da Ponte 25 de Abril obtidas podem-se observar os gráficos 2.17 e

2.18 cujos valores representados são os valores reais cobrados e foram adquiridos através

do “INE” (2018). De um modo mais detalhado as receitas estão representadas em duas

tabelas em anexo na I.3 e na I.4.

0

500

1000

1500

2000

2500

3000

3500

4000

4500

jan

/03

ma

i/03

set/

03

jan

/04

ma

i/04

set/

04

jan

/05

ma

i/05

set/

05

jan

/06

ma

i/06

set/

06

jan

/07

ma

i/07

set/

07

jan

/08

ma

i/08

set/

08

jan

/09

ma

i/09

set/

09

jan

/10

ma

i/10

set/

10

jan

/11

ma

i/11

set/

11

jan

/12

ma

i/12

set/

12

jan

/13

ma

i/13

set/

13

jan

/14

ma

i/14

set/

14

jan

/15

ma

i/15

set/

15

jan

/16

ma

i/16

set/

16

jan

/17

ma

i/17

set/

17

Re

ceita

s

Anos

Receitas da Ponte 25 de Abril em milhares de Euros

Figura 2.17: Receitas totais mensais da Ponte 25 de Abril (2003-2017)

É visível através da figura 2.17 que as receitas obtidas através da Ponte 25 de Abril têm

uma tendência crescente. Em concreto, nesta representação, nota-se o impacto bastante

acentuado no mês de agosto (neste caso, nos anos 2003 a 2010) já que esta portagem não

era cobrada nesse mês, como já foi referido. A 30 de julho de 2012 saiu a seguinte notícia

no “Jornal de Negócios” (2012), referente a esta mudança:

“A isenção de portagens em Agosto começou em 1996 e resultou da renegociação do contratode concessão entre o Estado e a Lusoponte depois do bloqueio na Ponte sobre o Tejo, a que sechamou “buzinão”.

Segundo o secretário de Estado das Obras Públicas, Transportes e Comunicações, SérgioMonteiro, as isenções na cobrança de portagens nos meses de agosto desde essa altura geraramuma dívida de 110 milhões de euros.

No ano passado, o Governo decidiu reintroduzir as portagens devido às “dificuldades finan-ceiras que o país atravessa” e aos “compromissos de redução de despesa pública assumidos peloEstado português”.

20


ABRIL

Esta medida vai vigorar todos os anos até ao termo da concessão da ponte, em 2030, segundofonte da Lusoponte.(...)”

2200

2700

3200

3700

4200

4700

jan

/11

ma

r/1

1

ma

i/11

jul/1

1

set/

11

no

v/1

1

jan

/12

ma

r/1

2

ma

i/12

jul/1

2

set/

12

no

v/1

2

jan

/13

ma

r/1

3

ma

i/13

jul/1

3

set/

13

no

v/1

3

jan

/14

ma

r/1

4

ma

i/14

jul/1

4

set/

14

no

v/1

4

jan

/15

ma

r/1

5

ma

i/15

jul/1

5

set/

15

no

v/1

5

jan

/16

ma

r/1

6

ma

i/16

jul/1

6

set/

16

no

v/1

6

jan

/17

ma

r/1

7

ma

i/17

jul/1

7

set/

17

no

v/1

7

Re

ceita

s

Anos

Receitas da Ponte 25 de Abril em milhares de Euros

Figura 2.18: Receitas totais mensais da Ponte 25 de Abril, de 2011 a 2017

O gráfico 2.18 apresenta com maior detalhe o comportamento das Receitas da Ponte

25 de Abril de 2011 a 2017. Tal como os dados referentes ao fluxo de veículos na Ponte 25

de Abril as receitas, naturalmente, mostram o mesmo comportamento. Por isso, é visível

um comportamento semelhante em todos os anos, ou seja, há um aumento acentuado de

fevereiro até julho, onde há um pico de receitas, e depois decresce até novembro, tem um

pequeno aumento em dezembro que se pode associar às festividades deste mês (como o

Natal e a passagem de ano) e volta a diminuir até fevereiro. Não deixa de ser notório o

fluxo elevado de receitas provenientes da Ponte 25 de Abril onde, por exemplo, no mês

de julho de 2017 foram de 4116 milhares de Euros.

25000

27000

29000

31000

33000

35000

37000

39000

41000

43000

45000

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017

Va

lore

s da

s R

ece

itas

em

milh

are

s de

€

Anos

Receitas cobradas com e sem inflação

Receitas com inflação Receitas sem inflação

Figura 2.19: Receitas totais anuais cobradas na Ponte 25 de Abril, com e sem inflação apreços constantes de 2003 (2003-2017)

21


Se se analisar, anualmente, os valores têm vindo a aumentar como se pode observar

na figura 2.19 mesmo que se retire a inflação ao valor das receitas cobradas (para se ver

com maior detalhe cada um dos valores pode-se observar em anexo a tabela I.5). Já na

figura 2.20 verifica-se a diferença entre as receitas anuais.

-1500

-1000

-500

0

500

1000

1500

2000

2500

3000

3500

2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017

Dife

renç

a en

tre

Re

ceita

s e

m m

ilhar

es

de

€

Anos

Diferenças entre as Receitas Anuais

Figura 2.20: Diferenças das receitas totais anuais cobradas da Ponte 25 de Abril (2003-2017)

As diferenças entre estes anos são quase sempre positivas, ou seja, houve quase sempre

aumentos nas receitas totais cobradas na Ponte 25 de Abril, com excepção da diferença

entre os anos 2007-2008 e de 2009-2010, já que no primeiro caso houve uma diminuição

de 940 milhares de euros e no segundo uma diminuição de 332 milhares de euros. Po-

dem observar-se, com maior detalhe, as diferenças entre as receitas anuais na tabela I.6

apresentada em anexo.

Tabela 2.6: Tráfego médio diário e receitas cobradas nas pontes 25 de Abril e Vasco daGama, de janeiro a dezembro de 2017 e a soma anual

A tabela 2.6 foi retira do relatório Lima (2018). Nesta tabela consegue-se observar, em

relação às receitas, o valor total cobrado em cada uma das pontes 25 de Abril e Vasco da

Gama, como também, a soma das mesmas. Nota-se que a Ponte 25 de Abril acaba por ter

sempre um maior volume de receitas e para uma visualização mais detalhada tem-se o

gráfico 2.21.

22


ABRIL

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

Anual Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez

Pe

rce

nta

gem

Total mensal e anual

Percentagem referente às receitas totais

Ponte 25 de Abril

Ponte Vasco da Gama

Figura 2.21: Percentagem referente às receitas totais da Lusoponte em 2017

No gráfico 2.21 é interessante verificar que a maioria das receitas totais da Lusoponte

são provenientes da Ponte 25 de Abril. Também se nota, através da tabela 2.6, que existe

mais fluxo de veículos a atravessar a Ponte 25 de Abril do que a Ponte Vasco da Gama. É

possível que o valor unitário da Portagem que se paga tenha alguma relevância na decisão

dos utilizadores sobre qual a ponte que irão usar para chegarem ao seu destino. Em 2019,

na Ponte Vasco da Gama os preços das portagens são os apresentados na tabela 2.7, como

se pode verificar em Lusoponte (2019b).

Ponte 25 de Abril

Ponte Vasco da Gama

Diferença entre valores

Classe 1 1,85 € 2,85 € 1,00 €

Classe 2 4,05 € 6,45 € 2,40 €

Classe 3 5,55 € 9,50 € 3,95 €

Classe 4 7,20 € 12,20 € 5,00 €

Média 4,66 € 7,75 € 3,09 €

Tabela 2.7: Portagens pagas em cada uma das pontes da Lusoponte e respetivas médias(valores de 2019)

Concluindo, em 2019, em média, na Ponte Vasco da Gama paga-se mais 3,09 euros

que na travessia da Ponte 25 de Abril. No entanto, não se irá entrar em grandes detalhes

já que este não é o ponto fundamental desta dissertação.

23

CAPÍTULO 3A Teoria dos Valores Extremos

3.1 Introdução

O estudo que nesta tese vai ser apresentado utiliza, como instrumento, a Teoria dos

Valores Extremos. Após análise de bibliografia sobre o tema, como por exemplo do livro

Coles (2001), do livro Beirlant, Goegebeur, Segers e Teugels (2006) e do artigo Penalva,

Neves e Nunes (2013), foi verificado que os conceitos de que se necessitava para efetuar

este estudo são comuns à bibliografia. Sendo este modelo teórico, instrumental para o

estudo, visto que se trata da aplicação da Teoria dos Valores Extremos a uma situação

concreta – o estudo do fluxo do tráfego diário na Ponte 25 de Abril – procurou-se iden-

tificar a bibliografia que mais facilmente e de modo acessível apresentava este modelo.

Assim foi selecionada como fonte principal, para a apresentação deste modelo, o Livro

An Introduction to Statistical Modeling of Extreme Values, de Coles (2001). Este capítulo é

essencialmente constituído por um resumo da estrutura e da teoria apresentada no Capí-

tulo 1 ao 4 do referido livro, podendo, por isso, não ser feita a referenciação bibliográfica

convencional, típica de uma transcrição de textos referidos.

Na Análise de Valores Extremos, tal como o nome indica, faz-se a análise e a estimação

da probabilidade de ocorrerem acontecimentos eventualmente mais extremos do que

qualquer outro que já tenha sido anteriormente observado. O que realmente a distingue

de qualquer outra análise é o facto de procurar quantificar o comportamento estocástico

de um acontecimento que possui valores excecionalmente superiores ou inferiores aos

valores mais usuais.

Quando não existem diretrizes empíricas ou físicas com as quais se formulam re-

gras de extrapolação, os modelos utilizados são derivados de argumentos assintóticos.

Supondo que se denota por X1,X2, . . . a sucessão do número de veículos que passam

diariamente numa ponte, então

Mn = max {X1, . . . ,Xn}

25

CAPÍTULO 3. A TEORIA DOS VALORES EXTREMOS

representa o valor máximo diário de veículos durante um período de n observações. Pode-

ria calcular-se de forma exata a distribuição de Mn, caso se conhecesse o comportamento

estatístico de Xi . Como esse comportamento é desconhecido, esse cálculo não é possível.

Contudo, o comportamento aproximado de Mn, para grandes valores de n, segue argu-

mento de limites detalhados, permitindo n→∞, o que leva a uma família de modelos

que podem ser ajustados pelos valores observados de Mn.

O paradigma de valor extremo pode ser a denominação da análise de Valores Extre-

mos, visto que possui um princípio para a extrapolação de modelos baseada na imple-

mentação de limites matemáticos como aproximações de nível finito. É relevante que as

limitações que estão implícitas na adoção do paradigma do valor extremo sejam tidas

em conta: primeiro, é preciso ter cuidado ao tratar como resultados exatos os resultados

obtidos através de argumentos assintóticos por detrás da elaboração dos modelos para

amostras de dimensão finita; segundo, podem não ser razoáveis para um processo em

estudo, as circunstâncias idealizadas que estão na base dos modelos que são derivados;

depois, quando os modelos são implementados na prática, pode haver um desperdício de

informações. Por exemplo, ao registar-se unicamente o máximo anual e a partir de vários

máximos anuais chegar-se a um modelo que descreva as variações de um ano para outro,

pode acontecer que em qualquer ano particular, existam eventos extremos adicionais que

sejam mais extremos que outros valores de máximos anuais. Mas como não são o máximo

desse ano acabam por ser excluídos da análise. Por isso, usam-se mais dados por ano

no modelo estatísticos das r maiores observações e no Modelo Generalizado de Pareto

usam-se as observações que se encontram acima deste.

A implementação estatística, como complemento ao desenvolvimento de modelos ade-

quados para os valores extremos, é bastante relevante. E para que esta seja elaborada do

melhor modo, ter-se-ão em consideração as seguintes observações: o método de estimação

explorado será baseado nas técnicas da função de verosimilhança já que são únicas na

capacidade que possuem de se adaptar à modificação do modelo, pois o método de esti-

mação é o meio pelo qual os parâmetros desconhecidos de um modelo são diferidos com

base em dados históricos; a quantificação da incerteza é importante dada a variabilidade

da amostragem; os diagnósticos do modelo para avaliar a qualidade do ajuste do modelo

têm a sua relevância; em relação ao uso de informações, são explorados modelos que

usem vários dados, como os modelos multivariados, ou usam-se informações covariáveis

ou se incorporam fontes adicionais de conhecimento numa análise.

3.2 Noções básicas de modelação estatística

3.2.1 Introdução

Nesta secção serão apresentadas algumas noções básicas de modelação estatística,

se forem denotados por x1, . . . ,xn os dados de uma sucessão do número de veículos

observados diariamente. Logo, na travessia da ponte o tráfego no dia i tem a quantidade

26

3.2. NOÇÕES BÁSICAS DE MODELAÇÃO ESTATÍSTICA

aleatória de veículos, Xi . Quando o valor passa a ser conhecido é representado por xi .

Supõe-se que Xi tem uma distribuição de probabilidade que atribui vários valores

que o Xi possa ter. Os dados, x1, . . . ,xn são um registo completo do padrão de tráfego que

realmente existiu. Mas o papel da estatística não é apenas resumir o que já aconteceu,

mas inferir as características da aleatoriedade no processo que gerou os dados.

As estatísticas consideram a sucessão x1, . . . ,xn como realizações da sucessão de v.a.’s

X1, . . . ,Xn e utilizam os dados para estimar a estrutura probabilística dessas v.a.’s.

3.2.2 Processos Aleatórios

Um processo aleatório é uma sucessão de v.a.’s X1, X2, . . . . O exemplo mais simples é

o de uma sucessão de v.a.’s i.i.d., que poderá ser, por exemplo, a descrição de fenómenos

da vida real como cheias nos rios, picos de tráfego demasiado acentuado, e não só.

Definição 1. Um processo aleatório X1, X2, . . . é considerado estacionário se, dado qualquerconjunto de inteiros {i1, . . . , ik} e qualquer número inteiro m, as distribuições conjuntas de(Xi1 , . . . ,Xik ) e de (Xi1+m

, . . . ,Xik+m) forem idênticas.

O que implica a estacionariedade é que, dado qualquer subconjunto de variáveis, a

distribuição conjunta do mesmo subconjunto visto em m pontos de tempo permanece

inalterada. Ao contrário de uma série independente, a estacionariedade não impede que

Xi dependa de valores anteriores, embora Xi+m deva ter a mesma dependência dos seus

valores anteriores.

3.2.3 Leis Limite

Definição 2. Sendo X1, X2, . . . uma sucessão de v.a.’s, tendo respetivamente f.d. F1, F2, . . . ,

diz-se que a sucessão converge em distribuição para a v.a. X, e escreve-se Xnd→X, tendo a f.d.

F seFn(x)→ F(x) com n→∞,

em todos os pontos de continuidade de F.

A utilidade de estabelecer uma distribuição limite F para uma sucessão de v.a.’s

X1, X2, . . . , para aplicações estatísticas, é justificar o uso de F como uma aproximação

para a distribuição de Xn para n grande.

O Teorema Limite Central (TLC) é descrito de seguida.

Teorema 1. Seja X1, X2, . . . uma sucessão de v.a.’s i.i.d. com média µ finita e variância σ2

positiva. Então, definindo

Xn =X1 + · · ·+Xn

n,

tem-se √n(Xn −µ)σ

d→ Z (3.1)

com n→∞, onde Z∼N (0,1).

27


Em aplicações estatísticas, o TLC é usado por interpretação de (3.1) como uma apro-

ximação para a distribuição da média da amostra Xn para n grande. Isto é,

Xn∼N (µ,σ2/n) (3.2)

onde a notação ∼ significa “é aproximadamente distribuído”. O que faz o TLC notável

é que a distribuição aproximada da média amostral é normal, independentemente da

distribuição da sucessão de v.a.’s X1, X2, . . . .

3.2.4 Modelação Paramétrica

3.2.4.1 A Estrutura Paramétrica

A utilização de informações da amostra para fazer inferências sobre a estrutura da

probabilidade da população, da qual os dados surgiram, é um objetivo comum na mode-

lação estatística. No caso mais simples, os dados x1, . . . , xn são considerados realizações

independentes da distribuição da população. A inferência equivale à estimativa dessa

distribuição, para a qual existem duas abordagens: a paramétrica e não paramétrica. Na

abordagem paramétrica é necessário, em primeiro lugar, adotar uma família de modelos

dentro da qual a verdadeira distribuição dos dados esteja supostamente presente. Um

modelo é escolhido, normalmente, por motivos empíricos, usando técnicas exploratórias

para verificar famílias de modelos que parecem amplamente consistentes com os dados

disponíveis. Outra hipótese, é utilizar as leis limite como aproximações. Já se mencionou

no contexto de se usar a distribuição normal, como uma aproximação da distribuição das

médias amostrais, e a abordagem também é central para o desenvolvimento de modelos

de valores extremos.

Na discussão subsequente, restringiu-se a abordagem ao caso de uma variável aleató-

ria (v.a.) contínua cuja função de densidade de probabilidade (f.d.p.) existe, apesar dos

argumentos se aplicarem mais amplamente. Também se assumem que os dados x1, . . . , xnrepresentam realizações independentes de uma v.a. X cuja a f.d.p. pertence a uma fa-

mília de distribuições de probabilidade com funções de densidade F= {f (x;θ) : θ ∈Θ}conhecida. Denota-se o verdadeiro valor do parâmetro θ por θ0. A inferência é reduzida

à estimativa do parâmetro θ0 dentro do espaço de parâmetros Θ. O parâmetro θ pode ser

um escalar, como θ = p na família binomial, ou pode representar um vetor de parâmetros,

tal como θ = (µ, σ ) na família normal.

3.2.4.2 Estimação por Máxima Verosimilhança

Um método de estimação é a máxima verosimilhança (MV). Cada valor de θ ∈ Θdefine um modelo em Fque atribui probabilidades diferentes aos dados observados, se

as variáveis forem discretas. A probabilidade dos dados observados como uma função

de θ é chamada função de verosimilhança. Os valores de θ que têm uma alta probabi-

lidade de verosimilhança correspondem a modelos que dão uma probabilidade elevada

28


aos dados observados. O princípio da estimação por MV é adotar o modelo com maior

verosimilhança, já que este é o que atribui maior probabilidade aos dados observados.

Em maior detalhe, referindo-se à situação em que x1, ... ,xn são realizações indepen-

dentes de uma v.a. com f.d.p. f (x;θ0), a função de verosimilhança é

L(θ) =n∏i=1

f (xi ;θ). (3.3)

Lembrando que as variáveis X1, . . . ,Xk são mutuamente independentes se

fX1,...,Xk (x1, . . . ,xk) =k∏i=1

fXi (xi). (3.4)

A factorização em (3.3) é devida então a (3.4) para observações independentes. Nestes

casos é mais conveniente aplicar logaritmos e trabalhar com a função log-verosimilhança

`(θ) = log L(θ) =n∑i=1

logf (xi ;θ). (3.5)

O estimador de MV θ0 de θ0 é definido como o valor de θ que maximiza a fun-

ção de verosimilhança apropriada. Uma vez que a função logaritmo é monótona, a log-

verosimilhança tem o seu máximo no mesmo ponto que a função de verosimilhança, pelo

que o estimador de MV também maximiza a função log-verosimilhança correspondente.

3.2.4.3 Normalidade Aproximada do Estimador de Máxima Verosimilhança

Um benefício substancial da adoção da MV como princípio para a estimação de parâ-

metros é o facto de ser amplamente aplicável e estar disponível para várias distribuições

de amostragem úteis. Isto leva a aproximações para erros padrão e Intervalos de confiança

(IC). Destes obtêm-se alguns resultados úteis.

Cada um dos resultados é uma lei limite assintótica obtida à medida que o tamanho

da amostra n tende para infinito. Os resultados são válidos apenas sob condições de

regularidade, cuja precisão melhora à medida que n aumenta.

Teorema 2. Sejam x1, ... ,xn realizações independentes de uma distribuição dentro de umafamília paramétrica F, sendoMVN a notação de uma distribuição Normal Multivariada, e l(•)e θ0 denotam, respetivamente a função log-verosimilhança e o estimador de MV d-dimensionaldo modelo do parâmetro θ0. Então, sob condições de regularidade para grandes n

θ0∼MVN d

(θ0, IE(θ0)−1

),

onde

IE(θ) =

e1,1(θ) · · · · · · e1,d(θ)...

. . . ei,j(θ)...

... ej,i(θ). . .

...

ed,1(θ) · · · · · · ed,d(θ)

,

29


com

ei,j(θ) = E{− ∂2`∂θi∂θj

(θ)}.

A matriz IE(θ) é normalmente referida como a matriz da informação esperada.

O Teorema 2 pode ser usado para se obterem IC aproximados para componentes

individuais de θ0 = (θ1, . . . ,θd). Denotando um termo arbitrário no inverso de IE(θ) por

ψi,j , decorre das propriedades da distribuição normal multivariada que, para n grande,

θi∼N (θi , ψi,i).

Portanto, se ψi,i fosse conhecido, um IC (1−α)× 100% aproximado para θi seria

θi ± z α2√ψi,i (3.6)

onde z α2

é o quantil(1− α2

)da distribuição normal padrão. Uma vez que o verdadeiro

valor de θ0 é habitualmente desconhecido, é comum aproximar os termos de IE com os

da matriz de informação observada, definida por

IO(θ) =

− ∂2`∂θ1

2 (θ) · · · · · · − ∂2`∂θ1∂θd

(θ)...

. . . − ∂2`∂θi∂θj

(θ)...

... − ∂2`∂θj∂θi

(θ). . .

...

− ∂2`∂θd∂θ1

(θ) · · · · · · − ∂2`∂θd

2 (θ)

e avaliado em θ = θ. Denotando os termos do inverso desta matriz por ψi,j , segue-se que

um IC (1−α) aproximado para θi , é

θi ± z α2

√ψi,i . (3.7)

Estes intervalos são frequentemente mais precisos do que os obtidos em (3.6).

Embora uma família paramétrica Fpossa ser indexada por um parâmetro θ, no qual

θ0 representa o verdadeiro valor, pode não ser θ0 o valor de particular interesse. Em vez

disso, pode ser alguma função φ0= g(θ0) que se pretenda estimar, onde φ0 pode ter uma

dimensão diferente de θ0. Restringe-se a atenção para a situação em que φ0 é uma função

escalar de θ0. Isto é útil, muitas vezes, na modelação do valor extremo, onde θ0 é o vetor

do parâmetro de uma distribuição representante do comportamento do valor extremo,

mas a probabilidade de algum acontecimento extremo – que é uma função de θ0 – é que

é necessária. Os dois resultados seguintes permitem que inferências de MV de θ0 sejam

transformadas para fornecer inferências correspondentes em φ0.

Teorema 3. Se θ0 é a estimativa da MV de θ0 e φ = g(θ) é uma função escalar, então aestimativa de MV φ0 é dada por φ0 = g(θ0).

30


Este resultado significa que a estimativa de MV de qualquer função de θ0 é obtida por

substituição simples.

Teorema 4. Seja θ0 o estimador de MV da maior amostra do parâmetro d-dimensional θ0

com matriz variância-covariância aproximada Vθ. Então se φ = g(θ) é uma função escalar, oestimador de MV de φ0 = g(θ0) satisfaz

φ0∼N(φ0,Vφ

),

onde

Vφ = ∇φTVθ∇φ,

com

∇φ =[∂φ

∂θ1, . . . ,

∂φ

∂θd

]T,

avaliado em θ0.

O Teorema 4 é conhecido como método delta e permite que a normalidade aproxi-

mada de θ0 seja usada para obter IC para φ0.

3.2.4.4 A Inferência Aproximada Utilizando a Função Desvio

O estimador de verosimilhança baseia-se na função de desvio, definida por

D(θ) = 2{`(θ0)− `(θ)

}. (3.8)

Valores de θ com um desvio pequeno correspondem a modelos com alta verosimi-

lhança. Deste modo, um critério natural para derivar regiões de confiança é especificar

uma região de confiança

C = {θ :D(θ) ≤ c}

para algumas escolhas de c. Como não é possível escolher c, de tal forma, que a região

correspondente C tenha uma probabilidade pré-específica, (1−α), de conter o verdadeiro

parâmetro θ0, pois iria exigir que se conhecesse a distribuição da população, usa-se uma

aproximação para a distribuição de amostragem que é válida para amostras de grandes

dimensões.

Para o teorema seguinte é útil ter em conta a seguinte definição de distribuição para

variáveis aleatórias contínuas.

Definição 3. Se Z1, ...,Zk são variáveis normais padronizadas independentes, a variável

X = Z12 + · · ·+Zk2

tem uma distribuição qui-quadrado com k graus de liberdade e escreve-se X ∼ χ2k .

31


Teorema 5. Sejam x1, ... ,xn, realizações independentes de uma distribuição dentro de umafamília paramétrica F, e θ0 o estimador de MV do parâmetro θ0 do modelo d-dimensional.Então, para n grande, sob condições de regularidade adequadas, a função de desvio (3.8) satisfaz

D(θ0)∼χ2d .

Segue do Teorema 5 que uma região de confiança (1−α) aproximada para θ0 é dada

por

Cα = {θ :D(θ) ≤ cα} ,

onde cα é o quantil (1−α) da distribuição χ2d .

3.2.4.5 A Inferência Usando a Função de Verosimilhança de Perfil

Uma alternativa ao método que faz inferências numa componente particular θi de

um vetor de parâmetros θ é o método baseado no perfil da verosimilhança. A log-verosi-

milhança para θ pode ser formalmente escrita como `(θi ,θ−i), onde θ−i , denota todas as

componentes de θ excluindo θi . O perfil log-verosimilhança para θi é definido como

`p(θi) = maxθ−i

`(θi ,θ−i).

Ou seja, para cada valor de θi , o perfil de log-verosimilhança é a log-verosimilhança

maximizada em relação a todos os outros componentes de θ.

Esta definição pode ser generalizada para a situação onde θ pode ser dividido em

duas componentes, (θ(1),θ(2)), das quais θ(1) é o vetor de dimensão k de interesse e θ(2)

corresponde aos componentes restantes (d − k).

Teorema 6. Sejam x1, ... ,xn realizações independentes de uma distribuição pertencente auma família paramétrica F, e θ0 o estimador de verosimilhança máximo do parâmetro θ0 =

(θ(1),θ(2)) do modelo d-dimensional, onde θ(1) é um subconjunto k-dimensional de θ0. Então,sob condições de regularidade adequadas, para grandes valores de n

Dp(θ(1)

)= 2

{`(θ0

)− `p(θ(1))

}∼χ2

k .

O Teorema 6 é frequentemente utilizado em duas situações diferentes. Primeiro, por

um componente único θi ,Cα ={θi :Dp(θi) ≤ cα

}é um IC (1 − α)×100% para θi , onde cα é

o quantil (1−α) da distribuição χ21. A segunda aplicação é a seleção de modelos. Supondo

que M1 é um modelo com o vetor de parâmetros θ, e o modelo M0 é o subconjunto do mo-

delo M1, obtido restringindo k dos componentes de θ para ser, por exemplo, zero. Assim,

θ pode ser partido em duas partes como θ = (θ(1),θ(2)), onde o primeiro componente, da

dimensão k, é zero no modelo M0. Agora, se `1(M1) for a log-verosimilhança maximizada

32


para o modelo M1 e, sendo `0(M0) a log-verosimilhança maximizada para o modelo M0,

define-se

D = 2 {`1 (M1)− `0 (M0)}

como a estatística de desvio. Pelo Teorema 6,Cα ={θ(1) :Dp

(θ(1)

)≤ cα

}compreende uma

região de confiança (1−α) para o verdadeiro valor de θ(1), onde Dp é o perfil de desvio

e cα é o quantil (1−α) da distribuição χ2k . Portanto, para verificar se M0 é uma redução

plausível do modelo M1, é suficiente verificar se 0 está em Cα, que é equivalente a verificar

se D < cα. Isto é denominado teste de razão de verosimilhança.

Teorema 7. Seja M0 com o parâmetro θ(2) o sub-modelo de M1 com o parâmetro θ0 =

(θ(1),θ(2)), sob a restrição de que o subvetor k-dimensional θ(1) = 0. Sejam `0(M0) e `1(M1)

os valores maximizados da log-verosimilhança para os modelos M0 e M1, respetivamente. Umteste da validade do modelo M0 em relação ao M1, no nível de significância α, é rejeitar M0

em favor de M1, se D = 2 {`1 (M1)− `0 (M0)} > cα, onde cα é o quantil (1−α) da distribuiçãoχ2k .

Finalmente, observa-se que é provável que cada uma das aproximações, de amostras

de grandes dimensões é válida quando x1, ...,xn são realizações independentes, mas não

identicamente distribuídas de uma família indexada por um parâmetro θ.

3.2.4.6 Diagnóstico do Modelo

A razão pela qual se ajusta um modelo estatístico a dados é para tirar conclusões sobre

algum aspeto da população da qual os dados foram extraídos. A questão principal diz

respeito à capacidade do modelo para descrever variações na população em geral. A única

opção que normalmente está disponível é julgar a precisão de um modelo em termos do

seu acordo com os dados que foram realmente utilizados para estimar.

Assumindo que os dados x1, ...,xn são realizações independentes de uma população

com f.d. desconhecida F, uma estimativa de F, denotada por F, é obtida pela MV, e quer-

se avaliar a possibilidade da amostra ser proveniente de F. Primeiro, uma estimativa do

modelo de F pode ser obtida empiricamente a partir dos dados. Denotando por x(1), ... ,x(n)

a amostra ordenada, de modo que x(1) ≤ x(2) ≤ · · · ≤ x(n), sendo F uma estimativa da

verdadeira probabilidade de F e para qualquer um dos x(i), exatamente i das n observações

têm um valor menor ou igual a x(i), então uma estimativa empírica da probabilidade de

uma observação ser menor ou igual a x(i) é F(x(i)

)= i/n. Um ligeiro ajuste para F

(x(i)

)=

i/(n+ 1) é geralmente feito para evitar ter F(x(i)

)= 1. Isto leva à seguinte definição.

Definição 4. Dada uma amostra ordenada de observações independentes

x(1) ≤ x(2) ≤ · · · ≤ x(n)

de uma população com f.d. F, a função de distribuição empírica é definida por

F(x) =i

n+ 1para x(i) ≤ x < x(i+1).

33


Como F é uma estimativa da verdadeira distribuição de probabilidade F, deverá estar

de acordo com o modelo candidato, F, desde que este seja uma estimativa adequada de

F. Vários procedimentos da qualidade de ajuste são baseados nas comparações de F e

F. Duas técnicas gráficas, em particular, são usadas frequentemente e descrevem-se de

seguida.

Definição 5. Dada uma amostra ordenada de observações independentes

x(1) ≤ x(2) ≤ · · · ≤ x(n)

de uma população com f.d. estimada F, um gráfico de probabilidade consiste nos pontos{(F(x(i)

),i

n+1

):i= 1, . . . ,n

}.

E um gráfico de quantis consiste nos pontos{(F−1

( in+ 1

), x(i)

): i = 1, . . . ,n

}.

Se F é um modelo razoável para a distribuição da população, os pontos do gráfico de

probabilidade devem estar próximos da diagonal da unidade. Desvios substanciais da

linearidade fornecem evidência de uma falha em F como um modelo para os dados.

Se F é uma estimativa razoável de F, então o gráfico quantil também deve consistir

em pontos próximos à diagonal da unidade, ou seja, a y = x.

O gráfico de probabilidade e o gráfico de quantis contêm as mesmas informações

expressas numa escala diferente. No entanto, a percepção que é ganha em diferentes

escalas pode ser importante.

3.3 Teoria Clássica e modelos dos Valores Extremos

3.3.1 Modelos Assintóticos

3.3.1.1 Formulação do Modelo

O modelo que será apresentado é a pedra angular da teoria dos valores extremos. Este

foca-se no comportamento estatístico de

Mn =max {X1, . . . ,Xn}

onde X1, . . . ,Xn é uma sucessão de v.a.’s independentes com uma f.d. comum, F. Em

aplicações, o Xi geralmente representa valores de um processo medido numa escala de

tempo regular, de modo que Mn representa o máximo do processo em n unidades de

observação. Se n é o número de observações num ano, então Mn corresponde ao máximo

anual.

Em teoria, a distribuição de Mn pode ser derivada exatamente para todos os valores

de n:

Pr {Mn≤z} = Pr {X1 ≤ z, . . . ,Xn ≤ z} = Pr {X1 ≤ z} × · · ·×Pr {Xn ≤ z} = {F(z)}n . (3.9)

34

3.3. TEORIA CLÁSSICA E MODELOS DOS VALORES EXTREMOS

No entanto, a f.d. F é desconhecida, logo isto não é imediatamente útil na prática.

Uma possibilidade é utilizar técnicas estatísticas padrão para estimar F a partir de dados

observados, e depois substitui-se a estimativa em (3.9). Infelizmente, discrepâncias muito

pequenas na estimativa de F podem levar a discrepâncias substanciais para Fn.

Uma abordagem alternativa é aceitar que F é desconhecida e procurar famílias de mo-

delos aproximadas de Fn, que podem ser estimados com base apenas nos dados extremos.

Isto é semelhante à prática habitual de aproximar a distribuição das médias amostrais

pela distribuição normal, como justificado pelo TLC.

Observa-se o comportamento de Fn com n → ∞. Mas isso simplesmente não é su-

ficiente: para qualquer z < z+, onde z+ é o limite superior do suporte de F, Fn(z) → 0

com n→∞, pelo que a distribuição de Mn será degenerada com massa de probabilidade

concentrada em z+. Esta dificuldade é evitada permitindo uma normalização linear da

variável Mn:

Mn∗ =

Mn − bnan

,

para sucessões de constantes an > 0 e bn. Escolhas apropriadas de an e bn estabilizam

a localização e a escala de Mn∗ à medida que n aumenta, evitando as dificuldades que

surgem com a variável Mn. Por isso, procuram-se distribuições de limites para Mn∗, com

escolhas apropriadas de an e bn, em vez de Mn.

3.3.1.2 Teorema dos Modelos Extremos

Toda a gama de distribuições de limites possíveis para Mn∗ é dada pelo Teorema 8, o

Teorema dos Modelos Extremos.

Teorema 8. Se existirem sucessões reais {an > 0} e {bn} de tal modo que

Pr{Mn − bnan

≤ z}→ G (z) com n→∞, (3.10)

onde G é uma f.d. não-degenerada, então G é uma das seguintes distribuições:

I:

G(z) = exp{−exp

[−(z − ba

)] }, −∞ < z <∞ ; (3.11)

II:

G(z) =

0, z ≤ b,exp

{−(z−ba

)−α}, z > b;

(3.12)

III:

G(z) =

exp{−[−(z−ba

)−α]}, z < b,

1, z ≥ b;(3.13)

para os parâmetros a > 0, b ∈R e, no caso das distribuições II e III, α > 0.

35


Portanto, o Teorema 8 afirma que os máximos da amostra Mn−bnan

reescalonados con-

vergem na distribuição para uma variável com uma distribuição que se encontra dentro

de uma das famílias apresentadas. Estas três classes de distribuições são denominadas

Distribuições de Valores Extremos, com tipos I, II e III, amplamente conhecidas como

as famílias de Gumbel, de Fréchet e de Weibull, respetivamente. Cada família tem um

parâmetro de localização, b, e de escala, a; para além disso, as famílias Fréchet e Weibull

têm um parâmetro de forma, α.

O Teorema 8 implica que, quando Mn pode ser estabilizado com sucessões adequadas

an e bn, a variável normalizada correspondente Mn∗ tem uma distribuição limite que

deve ser um dos três tipos de distribuições de valores extremos. A característica notável

deste resultado é que os três tipos de distribuições de valor extremo são os únicos limites

possíveis para a distribuiçãoMn∗, independentemente da distribuição F para a população.

É neste sentido, que o teorema fornece uma distribuição limite análoga ao TLC.

3.3.1.3 Distribuição generalizada dos valores Extremos

Os três tipos de limites que surgem no Teorema 8 têm formas distintas de compor-

tamento, correspondendo às diferentes formas do comportamento da cauda da f.d. F do

Xi . Para tornar esta ideia mais clara, considere-se o comportamento da distribuição limite

G em z+, no seu limite superior do suporte. Para a distribuição de Weibull z+ é finita,

enquanto que para as restantes distribuições z+ =∞. No entanto, a densidade de G decai

exponencialmente para a distribuição de Gumbel e polinomialmente para a distribui-

ção de Fréchet, correspondendo a taxas relativamente diferentes de quedas na cauda de

F. Segue que nas aplicações, as três diferentes distribuições dão uma representação um

pouco distinta do comportamento do valor extremo. Nas primeiras aplicações da teoria

de valores extremos era comum adotar uma das três famílias e depois estimar os parâme-

tros relevantes dessa distribuição. Mas existem dois pontos fracos: primeiro, é necessária

uma técnica para escolher qual das três famílias é mais apropriada para os dados em

questão; segundo, uma vez tomada tal decisão, as inferências subsequentes assumem que

esta escolha é a correta e não têm em consideração a incerteza que tal seleção envolve,

embora essa incerteza possa ser substancial.

Reformulando os modelos do Teorema 8 é possível uma melhor análise. É fácil ve-

rificar que as famílias Gumbel, Fréchet e Weibull podem ser combinadas numa única

família de modelos tendo a função de distribuição da forma

G(z) = exp{−[1 + ξ

(z −µσ

)]− 1ξ

}, (3.14)

definido no conjunto {z : 1 + ξ(z−µσ

)> 0}, onde os parâmetros satisfazem −∞ < µ < ∞,

σ > 0 e −∞ < ξ <∞. Esta é a família do valor extremo generalizado (GEV – generalized

extreme value) das distribuições. O modelo tem três parâmetros: um parâmetro de loca-

lização, µ; um parâmetro de escala, σ ; e um parâmetro de forma, ξ. As classes do tipo

II e do tipo III da distribuição de valores extremos correspondem, respetivamente, aos

36


casos ξ > 0 e ξ < 0 nesta parametrização. O subconjunto da família GEV com ξ = 0 é

interpretado como o limite de (3.14) quando ξ→ 0, levando à família Gumbel com f.d.

G(z) = exp[−exp

{−(z −µσ

)}], −∞ < z <∞.

A unificação das três famílias numa única família simplifica muito a implementação

estatística. Através da inferência em ξ, os próprios dados determinam o tipo mais ade-

quado de comportamento da cauda, e não há necessidade de fazer julgamentos subjetivos

a priori sobre qual a distribuição de valor extremo individual a adotar. Além disso, a in-

certeza no valor inferido de ξ, mede a falta de certeza sobre qual dos três tipos de modelos

originais é o mais apropriado para um determinado conjunto de dados.

Pode-se assim reformular o Teorema 8.

Corolário 1. Sendo G um membro da família GEV então

G(z) = exp{−[1 + ξ

(z −µσ

)]− 1ξ

},

definido no conjunto{z: 1+ξ

(z−µσ

)> 0

}, onde −∞ < µ <∞, σ > 0 e −∞ < ξ <∞.

Interpretando o limite no Corolário 1, como uma aproximação para grandes valores

de n, é recomendado o uso da família GEV para modelar a distribuição de máximos de

grandes sucessões. A aparente dificuldade pelo facto das constantes de normalização

serem desconhecidas, na prática, é facilmente resolvido. Assumindo (3.14),

Pr{Mn − bnan

≤ z}≈ G(z)

para um n suficientemente grande. De modo equivalente, tem-se

Pr {Mn ≤ z} ≈ G{z − bnan

}= G∗(z),

onde G∗ é outro membro da família GEV. Por outras palavras, se o Corolário 1 permite

a aproximação da distribuição de Mn∗ por um membro da família GEV para n grandes,

a distribuição do próprio Mn, também pode ser aproximada, por um membro diferente

da mesma família. Uma vez que, os parâmetros da distribuição têm que ser estimados

de qualquer forma, é irrelevante, na prática, que os parâmetros da distribuição G sejam

diferentes daqueles de G∗.

Este argumento leva à seguinte abordagem para modelar os extremos de uma série de

observações independentes X1,X2, . . . . Os dados são agrupados em blocos em sucessões

de observações de comprimento n, para algum valor grande de n, gerando uma série de

blocos de máximos, Mn,1, . . . ,Mn,m, para os quais a distribuição GEV pode ser ajustada.

Frequentemente, os blocos são escolhidos para corresponder a um período de tempo de

comprimento de um ano, que nestes casos significa que n é o número de observações num

37


ano e os máximos dos blocos são máximos anuais. Estimativas de quantis extremos, da

distribuição máxima anual, são obtidos invertendo a equação (3.14)

zp =

µ− σξ[1− {−log(1− p) }−ξ

], para ξ , 0,

µ− σ log {−log(1− p) } , para ξ = 0,(3.15)

onde G(zp) = 1 − p. Na terminologia comum, zp é o nível de retorno (NR) associado ao

período de retorno 1p , porque com um grau razoável de precisão, o nível zp é esperado

que seja excedido, em média, uma vez a cada 1p anos. Mais precisamente, zp é excedido

pelo máximo anual, em qualquer ano, com probabilidade p.

Como os quantis permitem que os modelos de probabilidade sejam expressos numa

escala de dados, a relação do modelo GEV com os seus parâmetros é mais fácil de interpre-

tar em termos de expressões de quantis (3.15). Em particular, definindo yp = −log(1− p),

de modo que

zp =

µ− σξ[1− yp−ξ

], para ξ , 0,

µ− σ logyp , para ξ = 0;

segue-se que, se zp é traçado contra yp, numa escala logarítmica – ou equivalente, se zp é

traçado contra logyp – o gráfico é linear no caso de ξ = 0. Se ξ < 0 o gráfico é convexo com

limite assintótico com p→ 0 em µ− σξ ; se ξ > 0 o gráfico é côncavo e não tem limite finito.

Este gráfico na figura 3.1 é uma representação do gráfico do nível de retorno. Devido à

simplicidade de interpretação, e tendo presente que a escolha de escala comprime a cauda

da distribuição, de modo que o efeito da extrapolação é realçado, os gráficos de NR são

particularmente convenientes para a apresentação e a validação do modelo. A figura 3.1

mostra gráficos de NR para uma gama de parâmetros de forma, retirada do livro Coles

(2001).

Qua

ntil

Log y

𝝃 = 𝟎. 𝟐

𝝃 = 𝟎

𝝃 = −𝟎. 𝟐

Figura 3.1: Gráficos de NR da distribuição GEV com parâmetros de forma ξ = −0.2, ξ = 0e ξ = 0.2, respetivamente

38


3.3.2 Inferência para a distribuição GEV

3.3.2.1 Considerações Gerais

Motivado pelo Corolário 1, o GEV fornece um modelo para a distribuição de blocos

de máximos. A aplicação consiste em agrupar os dados em blocos de igual comprimento,

e ajustar o GEV ao conjunto de blocos de máximos. Mas ao implementar este modelo

para qualquer conjunto de dados, em particular, a escolha do tamanho do bloco pode ser

crítica. A escolha equivale a uma troca entre viés e variância: os blocos que são muito

pequenos significam que a aproximação pelo modelo limite no Corolário 1 é provavel-

mente pobre, levando a um enviesamento na estimativa e extrapolação; blocos grandes

geram poucos blocos de máximos, levando a uma grande variância na estimação. Por isso,

considerações pragmáticas muitas vezes levam à adoção de blocos de duração de um ano.

Por exemplo, se apenas os dados máximos anuais tiverem sido gravados, então, o uso de

blocos mais curtos não é uma opção. Até quando este não é o caso, é provável que uma

análise dos dados máximos anuais seja mais robusta do que uma análise baseada em

blocos mais curtos levando a que as condições do Corolário 1 não sejam respeitados. Por

exemplo, as temperaturas diárias, é provável, que variem consoante a estação, opondo-se

à suposição de que Xi tenha uma distribuição comum. Se os dados foram agrupados

em blocos de aproximadamente três meses, o máximo do bloco do verão provavelmente

será muito maior do que o bloco de inverno, e uma inferência que não conseguiu levar

esta não-homogeneidade em conta poderia dar resultados imprecisos. Fazendo, em vez

disso, blocos de comprimento de um ano significa que a suposição de que o bloco de

máximos tem uma distribuição comum é plausível, embora a justificação formal para a

aproximação do GEV permanece inválida.

Agora simplifica-se a notação denotando os blocos de máximos por Z1, . . . ,Zm. Estes

são assumidos como variáveis independentes de uma distribuição GEV cujos parâmetros

devem ser estimados. Se os Xi forem independentes, então os Zi , também serão indepen-

dentes. No entanto, a independência do Zi é provável que seja uma aproximação razoável,

mesmo se Xi constituir uma série dependente. Neste caso, embora não seja abrangido pelo

Corolário 1, a conclusão de que o Zi tem uma distribuição GEV ainda pode ser razoável.

Muitas técnicas têm sido propostas para a estimação de parâmetros em modelos de

valor extremo. Cada técnica tem os seus prós e contras, mas a utilidade geral e a adaptabi-

lidade à construção complexa de modelos de técnicas de verosimilhança básicas, tornam

esta abordagem particularmente atraente.

Uma dificuldade potencial com o uso de métodos de verosimilhança para o GEV refere-

se à validade das condições de regularidade, exigidas pelas propriedades assintóticas

usuais, associadas ao estimador de MV. Tais condições não são satisfeitas pelo modelo GEV,

porque os pontos finais da distribuição GEV são funções dos valores dos parâmetros: µ−σ/ξ é um limite superior do suporte da distribuição quando ξ < 0 e um ponto final inferior

quando ξ > 0. Esta transgressão das condições usuais de regularidade, significa que os

resultados da verosimilhança assintótica padrão, não são automaticamente aplicáveis.

39


Smith (1985) estudou este problema em detalhe e obteve os seguintes resultados:

• quando ξ > −0.5, os estimadores de MV são regulares, ou seja, têm as propriedades

assintóticas usuais;

• quando −1 < ξ < −0.5, os estimadores de MV são geralmente obtidos, mas não

possuem as propriedades assintóticas padrão;

• quando ξ < −1, os estimadores de probabilidade MV são improváveis de serem

obtidos.

O caso ξ ≤ −0.5 corresponde a distribuições com um limite muito curto da cauda superior.

Esta situação raramente é encontrada em aplicações de modelação de valor extremo,

por isso as limitações teóricas da abordagem da MV, geralmente, na prática não são um

obstáculo.

3.3.2.2 Estimação por máxima Verosimilhança

Sob a suposição de que Z1, . . . ,Zm sejam variáveis independentes com distribuição

GEV, a log-verosimilhança para os parâmetros GEV quando ξ , 0 é

`(µ,σ ,ξ) = −mlogσ −(1 +

1ξ

) m∑i=1

log[1 + ξ

(zi −µσ

)]−

m∑i=1

[1 + ξ

(zi −µσ

)]− 1ξ, (3.16)

providencia-se que

1 + ξ(zi −µσ

)> 0, para i = 1, . . . ,m. (3.17)

Em combinações de parâmetros para os quais (3.17) não é respeitado, correspondendo

a uma configuração para a qual, pelo menos, um dos dados observados está além de um

ponto final da distribuição, a verosimilhança é zero e a log-verosimilhança é igual a −∞.

O caso ξ = 0 requer um tratamento separado usando o limite de Gumbel da distribui-

ção GEV. Isto leva à log-verosimilhança

`(µ,σ ) = −mlogσ −m∑i=1

(zi −µσ

)−

m∑i=1

exp{−(zi −µσ

)}. (3.18)

A Maximização do par de Equações (3.16) e (3.18) em relação ao vetor de parâmetros

(µ,σ ,ξ), leva ao estimador de MV com respeito a toda a família GEV. Não há solução

analítica, mas para qualquer conjunto de dados a maximização é simples usando algorit-

mos de otimização numérica padrão. É necessário ter algum cuidado para garantir que

tais algoritmos não se alterem, de tal modo, que fiquem combinações de parâmetros que

não respeitem a (3.17), e também devem ser evitadas dificuldades numéricas que possam

surgir da avaliação de (3.16) nas vizinhanças de ξ = 0. Este último problema resolve-se

facilmente utilizando a (3.18) no lugar de (3.16) para os valores de ξ ficarem dentro de

uma pequena janela à volta de zero.

40


Estando ξ sujeito às limitações discutidas anteriormente, a distribuição aproximada

de (µ, σ , ξ) é normal multivariada com média (µ,σ ,ξ) e a matriz de variância-covariância

igual ao inverso da matriz de informação observada, avaliada na estimativa da MV. Em-

bora esta matriz possa ser calculada analiticamente, é mais fácil usar técnicas de diferen-

ciação numérica para avaliar as segundas derivadas e rotinas standard numéricas para

realizar a inversão. IC e outras formas de inferência seguem imediatamente da normali-

dade aproximada do estimador.

3.3.2.3 Inferências para níveis de retorno

Por substituição das estimativas de MV dos parâmetros GEV em (3.15), a estimativa

da MV de zp para 0 < p < 1, o NR 1/p, é obtida da seguinte forma

zp =

µ− σξ

[1− yp−ξ

], para ξ , 0,

µ− σ logyp , para ξ = 0,(3.19)

onde yp = − log(1− p). Além disso, pelo método delta,

V ar(zp

)≈ ∇zpTV∇zp, (3.20)

onde V é a matriz de variância-covariância de (µ, σ , ξ) e

∇zpT =[∂zp∂µ

,∂zp∂σ

,∂zp∂ξ

]=

[1, −ξ−1

(1− yp−ξ

),σξ−2

(1− yp−ξ

)− σξ−1yp

−ξ logyp]

avaliado em (µ, σ , ξ).

Geralmente são longos períodos de retorno, correspondendo a pequenos valores de p,

que são de maior interesse. Se ξ < 0 também é possível fazer inferências sobre o limite

superior do suporte da distribuição, que é efetivamente o ’período infinito de retorno da

observação’, correspondendo, a zp com p = 0. A estimativa da MV é

z0 = µ− σξ,

e (3.20) ainda é válida com

∇z0T =

[1,ξ−1,σξ−2

],

novamente avaliado em (µ, σ , ξ). Quando ξ ≥ 0 a estimativa da MV do limite superior do

suporte é infinita.

É necessário ter cuidado na interpretação das inferências do NR, especialmente para

NR correspondentes a longos períodos. Primeiro, a aproximação normal da distribuição

do estimador da MV pode ser pobre. Melhores aproximações são geralmente obtidas a

partir do perfil adequado da função de verosimilhança. Fundamentalmente, as estima-

tivas e as suas medidas de precisão baseiam-se no pressuposto de que o modelo está

correto. Embora o modelo GEV seja apoiado por argumentos matemáticos, o seu uso na

extrapolação é baseado em premissas não verificáveis, e as medidas de incerteza sobre os

NR devem ser apropriadamente consideradas como limites inferiores que poderiam ser

muito maiores se a incerteza devido à correção do modelo fosse tida em consideração.

41


3.3.2.4 O Perfil da Verosimilhança

A avaliação numérica, do perfil da verosimilhança para qualquer um dos parâmetros,

individualmente, µ,σ ou ξ, é simples. Por exemplo, para obter o perfil da verosimilhança

para ξ, fixa-se ξ = ξ0, e maximiza-se a log-verosimilhança (3.16) em relação aos parâme-

tros restantes, µ e σ . Isto é repetido para um intervalo de valores de ξ0. Os valores maxi-

mizados correspondentes da log-verosimilhança constituem o perfil log-verosimilhança

para ξ, a partir do qual o Teorema 6 permite obter IC aproximados.

Esta metodologia também pode ser aplicada quando a inferência é necessária em

algumas combinações de parâmetros. Em particular, podem-se obter IC para qualquer

NR específico zp. Isto requer uma reparametrização do modelo GEV, de modo que zpseja um dos parâmetros do modelo, após o qual o perfil log-verosimilhança é obtido pela

maximização em relação aos parâmetros restantes na maneira usual. A reparametrização

é direta:

µ = zp +σξ

[1− {−log(1− p) }−ξ

], (3.21)

de tal modo, que a substituição de µ em (3.16) por (3.21) tenha o efeito desejado de

expressar o modelo GEV em termos dos parâmetros (zp,σ ,ξ).

3.3.2.5 Verificação do Modelo

Embora seja impossível verificar a validade de uma extrapolação baseada num modelo

GEV, a avaliação pode ser feita com referência aos dados observados. Isto não é suficiente

para justificar a extrapolação, mas é um pré-requisito razoável.

Como descrito anteriormente, um gráfico de probabilidade é uma comparação entre

funções de distribuição empírica e ajustada. Com os blocos de máximos ordenados deste

modo z(1) ≤ z(2) ≤ · · · ≤ z(m), a f.d. empírica avaliada em z(i) é dada por

G(z(i)

)=

im+ 1

.

Por substituição de estimativas de parâmetros em (3.14), as estimativas baseadas em

modelos correspondentes são

G(z(i)

)= exp

−[1 + ξ

(z(i) − µσ

)]− 1ξ

.Se o modelo GEV estiver a funcionar bem,

G(z(i)

)≈ G

(z(i)

)para cada i, então um gráfico de probabilidade constituído pelos pontos{(

G(z(i)

), G

(z(i)

)), i = 1, . . . ,m

},

deve ficar perto da diagonal unidade. Quaisquer desvios substanciais da linearidade são

indicativos de alguma falha no modelo GEV.

42


Uma fraqueza do gráfico de probabilidade para modelos de valor extremo é que am-

bos G(z(i)

)e G

(z(i)

)são obrigados a aproximar-se de 1 quando z(i) aumenta, enquanto

é geralmente a precisão do modelo para grandes valores de z que é de maior preocupa-

ção. Ou seja, o gráfico de probabilidade fornece a menor informação na região de maior

interesse. Esta falha é evitada pelo gráfico quantil, consistindo nos pontos{(G−1

( im+ 1

), z(i)

), i = 1, . . . ,m

}, (3.22)

onde, de (3.19)

G−1( im+ 1

)= µ− σ

ξ

1− {−log( im+ 1

) }−ξ .Saídas da linearidade no gráfico de quantis também indicam falha do modelo.

Conforme discutido anteriormente, o gráfico do NR, que compreende um gráfico de

zp = µ+σξ

[1−{−log(1−p) }−ξ

]contra yp = −log(1− p) numa escala logarítmica, é particularmente conveniente para

interpretar modelos de valor extremo. A cauda da distribuição é comprimida, de modo

que, as estimativas do NR para longos períodos de retorno sejam exibidas, enquanto a

linearidade do gráfico no caso ξ = 0 fornece uma linha de base, contra a qual se julga o

efeito do parâmetro que fora estimado.

Como resumo de um modelo ajustado, o gráfico de NR consiste no locus dos pontos{(logyp , zp

): 0 <p < 1

},

onde zp é a estimativa da MV de zp. Os IC podem ser adicionados ao gráfico para aumentar

a sua informação. Estimativas empíricas da função do NR, obtidas a partir dos pontos

(3.22), também podem ser adicionadas, permitindo que o gráfico do NR seja usado como

um diagnóstico de modelo. Se o modelo GEV é adequado aos dados, a curva baseada

no modelo e as estimativas empíricas devem estar razoavelmente de acordo. Qualquer

discordância substancial ou sistemática, após o adiantamento para o erro de amostragem,

sugere uma inadequação do modelo GEV.

Os gráficos de probabilidade, de quantis e de NR são baseados numa comparação entre

modelos base e estimativas empíricas da f.d.. Para completar, um diagnóstico equivalente

é baseado na função de densidade, ou seja, é uma comparação da f.d.p., de um modelo

ajustado, com um histograma dos dados.

3.3.3 Generalização do modelo: o modelo estatístico das r maioresobservações

3.3.3.1 Formulação do Modelo

Uma dificuldade implícita em qualquer análise de valores extremos é a quantidade

limitada de dados para a estimativa do modelo. Os extremos são escassos, por definição,

43


por isso, as estimativas dos modelos, especialmente de NR extremos, têm uma grande

variação. Esta questão motivou a procura por caracterizações do comportamento do valor

extremo, que permita a modelação de dados, que não sejam apenas através de blocos de

máximos.

Existem duas caracterizações gerais bem conhecidas. Uma é baseada em excedências

de um limite elevado, a outra baseia-se no comportamento das estatísticas das r maiores

observações dentro de um bloco, para valores pequenos de r. Este estudo concentra-se

num modelo estatístico das r maiores observações.

Supondo que X1,X2, . . . é uma sucessão de v.a.’s i.d.d., e objetivam caracterizar o com-

portamento do extremo Xi . Na Secção 3.3.1.3, obteve-se que a distribuição limite, com

n→∞, de Mn, adequadamente redimensionada, é GEV. Primeiro estende-se este resul-

tado para outras estatísticas de ordem extrema, definindo

Mn(k) = k maior estatística ordinal de {X1, . . . ,Xn} ,

e identificando o comportamento limitante dessa variável, para k fixo, com n → ∞. O

seguinte resultado generaliza o Teorema 8.

Teorema 9. Se houver sucessões de constantes, {an > 0} e {bn}, de tal modo que

Pr{Mn−bnan

≤z}→G (z) com n→∞.

Para alguma f.d. não-degenerada G, tal que G é a f.d. GEV dada por (3.14), então, para um k

fixo,

Pr{Mn

(k) − bnan

≤ z}→ Gk(z),

em que{z: 1+ξ(z−µ)

σ > 0}, onde

Gk(z) = exp {−τ(z)}k−1∑s=0

τ(z)s

s!, (3.23)

com

τ(z) =[1 + ξ

(z −µσ

)]− 1ξ.

O Teorema 9 implica que, se a estatística das k maiores observações num bloco for

normalizada exatamente da mesma maneira que o máximo, então a sua distribuição

limite é da forma dada por (3.23), cujos parâmetros correspondem aos parâmetros da

distribuição limite GEV do bloco máximo. Novamente, absorvendo as constantes de escala

desconhecidas nos parâmetros de localização e de escala do modelo, segue-se que, para n

grande, a distribuição aproximada de Mn(k) está dentro da família (3.23).

44


Há, no entanto, uma dificuldade ao usar (3.23) como modelo. A situação que ocorre

muitas vezes, é de ter cada uma das r maiores observações dentro de cada um dos vários

blocos, para alguns valores de r. Isto é, geralmente tem-se o vetor completo

Mn(r) =

(Mn

(1), . . . ,Mn(r)

)para cada um dos vários blocos. Enquanto o Teorema 9 dá uma família para a distribuição

aproximada de cada um dos componentes de Mn(r), não dá a distribuição conjunta de

Mn(r). Além disso, os componentes não podem ser independentes: Mn

(2) não pode ser

maior que Mn(1), por exemplo, logo o resultado de cada componente influencia a distri-

buição do outro. Consequentemente, o resultado do Teorema 9 não conduz em si mesmo a

um modelo paraMn(r). Em vez disso, exige-se uma caracterização da distribuição conjunta

limite de todo o vetorMn(r). Com redimensionamento apropriado isto pode ser alcançado,

mas a distribuição conjunta limite leva à intratabilidade. No entanto, o seguinte teorema

dá a função densidade conjunta da distribuição limite.

Teorema 10. Se houver sucessões de constantes, {an > 0} e {bn}, de tal modo, que

Pr{Mn − bnan

≤ z}→ G(z)

com n→∞, para alguma f.d. não-degenerada G, então, para r fixo, a distribuição limite, comn→∞, de

M(r)n =

(Mn

(1) − bnan

, . . . ,Mn

(r) − bnan

)fica dentro da família com f.d.p. conjunta

f(z(1), . . . , z(r)

)= exp

−[1 + ξ

(z(r) −µσ

)]− 1ξ

×r∏k=1

σ−1[1 + ξ

(z(k) −µσ

)]− 1ξ −1

, (3.24)

onde −∞ < µ < ∞, σ > 0 e −∞ < ξ < ∞; z(r) ≤ z(r−1) ≤ · · · ≤ z(1); e z(k):ξ(z(k)−µσ

)> 0 para

k = 1, . . . , r.

No caso de r = 1, (3.24) reduz-se para a família de funções de densidade GEV. O caso

ξ = 0 em (3.24) é interpretada como a forma limite com ξ → 0, levando à família de

funções de densidade

f(z(1), . . . , z(r)

)= exp

{−exp

[−(z(r) −µσ

)] }×

r∏k=1

σ−1exp[−(z(k) −µσ

)], (3.25)

para a qual o caso r = 1 reduz à densidade da família Gumbel.

3.3.3.2 Modelação das Estatísticas das r maiores observações

Tendo uma série de variáveis i.i.d., os dados são agrupados em m blocos. No bloco

i as maiores observações ri são gravadas, levando à série Mi(ri ) =

(zi

(1), . . . , zi(ri )

)para

45


i = 1, . . . ,m. É usual definir r1 = · · · = rm = r para algum valor de r específico, a não ser que

menos dados estejam disponíveis em alguns blocos.

Assim como no modelo GEV a questão do tamanho do bloco equivale a uma troca

entre viés e variância, o número “de ordem” das estatísticas usadas em cada bloco também:

valores pequenos de r geram poucos dados o que leva a uma variância elevada; grandes

valores de r são suscetíveis de não respeitar o suporte assintótico para o modelo, levando

ao enviesamento. Na prática é comum selecionar o ri maior possível, sujeito a diagnósticos

de um modelo adequado.

A verosimilhança para este modelo é obtida a partir de (3.24) e (3.25), ao absorver os

coeficientes de escala desconhecidos em parâmetros de localização e de escala da maneira

usual, e levando a produtos através de blocos. Portanto, quando ξ , 0,

L(µ,σ ,ξ) =m∏i=1

exp

−1 + ξ

z(ri )i −µσ

− 1ξ ×

ri∏k=1

σ−1

1 + ξ

z(k)i −µσ

− 1ξ −1

, (3.26)

fornecida 1+ξ(zi

(k)−µσ

)> 0, k = 1, . . . , ri , i = 1, . . . ,m; caso contrário, a verosimilhança é zero.

Quando ξ = 0,

L(µ,σ ,ξ) =m∏i=1

exp{−exp

[−(z(ri ) −µσ

)] }×

ri∏k=1

σ−1 exp

−z(k)i −µσ

. (3.27)

A verosimilhança (3.26) e (3.27) ou, mais frequentemente, a correspondente log-vero-

similhança, pode ser maximizada numericamente para obter estimativas de MV. A teoria

da verosimilhança assintótica padrão também fornece erros padrão e IC aproximados. No

caso especial de ri = 1 para cada i, a função de verosimilhança reduz-se à verosimilhança

do modelo GEV dos blocos de máximos. De modo geral, através do modelo estatístico das

r maiores observações obtém-se uma verosimilhança cujos parâmetros correspondem aos

da distribuição GEV dos blocos de máximos, mas com mais quantidade de dados extremos

observados incorporados. Portanto, em relação a uma análise de blocos de máximo padrão,

a interpretação dos parâmetros é inalterada, mas a precisão deve ser melhorada, devido à

inclusão de informações extras.

3.4 Modelos com Limiar

3.4.1 Introdução

Seja X1,X2, . . . uma sucessão de v.a.’s i.i.d., tendo como f.d. marginal F. É natural consi-

derar como eventos extremos aqueles de Xi , que excedem algum limiar alto u. Denotando

um termo arbitrário na sucessão Xi porX, segue-se que uma descrição do comportamento

estocástico de eventos extremos é dada pela probabilidade condicional

Pr {X > u + y|X > u} =1−F(u + y)

1−F(u), y > 0, (3.28)

46

3.4. MODELOS COM LIMIAR

se a distribuição principal F fosse conhecida, a distribuição de ultrapassagens do limiar

em (3.28) também seria conhecida. Uma vez que, em aplicações práticas, este não é o caso,

são procuradas aproximações que são amplamente aplicáveis para valores elevados do

limiar. Isto é paralelo ao uso do modelo GEV, como uma aproximação da distribuição dos

máximos das sucessões longas, quando a população principal é desconhecida.

3.4.2 Caracterização do Modelo Assintótico

3.4.2.1 Distribuição de Pareto Generalizada

O resultado principal está contido no seguinte teorema.

Teorema 11. Seja X1,X2, . . . uma sucessão de v.a.’s independentes com a f.d. comum F e seja

Mn = max {X1, . . . ,Xn} .

Denotando um termo arbitrário na sucessão Xi por X, e supondo que F satisfaz o Corolário 1,de modo que, para n grandes,

Pr {Mn ≤ z} ≈ G(z),

onde

G(z) = exp{−[1 + ξ

(z −µσ

)]− 1ξ

},

para alguns, µ,σ > 0 e ξ. Então, para u suficientemente grande, a f.d. de (X −u), condicionalem X > u, é aproximadamente

H(y) = 1−(1 +

ξy

σ

)− 1ξ

, (3.29)

definido em{y: y > 0 e

(1 + ξy

σ

)> 0

}, onde

σ = σ + ξ(u −µ). (3.30)

A família de distribuições definida pela (3.29) é chamada Família Generalizada de

Pareto (GP). O Teorema 11 implica que, se os blocos de máximos tiverem uma distri-

buição G aproximada, então os excessos de um limiar têm uma distribuição aproximada

dentro da família GP. Além disso, os parâmetros desta distribuição dos limiares dos exces-

sos são unicamente determinados por aqueles da distribuição GEV associados aos blocos

de máximos. Em particular, o parâmetro ξ em (3.29) é igual ao da distribuição GEV

correspondente. Escolhendo um parâmetro diferente, mas igualmente grande, o bloco

de tamanho n afetaria os valores dos parâmetros GEV, mas não os da distribuição GP

correspondente dos limiares dos excessos: ξ é invariante quanto ao tamanho do bloco,

enquanto o cálculo de σ em (3.30) não é perturbado pelas mudanças em µ e em σ que são

auto-compensadoras.

47


A dualidade entre as famílias GEV e GP significa que o parâmetro de forma ξ é

dominante na determinação do comportamento qualitativo da distribuição GP, assim

como, para a distribuição GEV. Se ξ < 0, a distribuição de excessos tem um limiar superior

de u − σξ ; se ξ > 0, a distribuição não tem limiar superior. Também poderá ser ilimitada

se ξ = 0, que deve ser novamente interpretado tendo em conta o limiar ξ→ 0 em (3.29),

levando a

H(y) = 1− exp(−y

σ

), y > 0, (3.31)

correspondendo a uma distribuição exponencial com o parâmetro 1σ .

3.4.2.2 Justificação do esboço do Modelo GP

Aqui apresenta-se uma pequena prova do Teorema 11, um argumento mais detalhado

é dado em Leadbetter, Lindgren e Rootzen (1983).

Tendo X a f.d. F pela suposição do Teorema 8, para n suficientemente grande,

Fn(z) ≈ exp{−[1 + ξ

(z −µσ

)]− 1ξ

}para alguns parâmetros µ, σ > 0 e ξ. Consequentemente,

nlogF(z) ≈[1 + ξ

(z −µσ

)]− 1ξ. (3.32)

Mas para grandes valores de z, a expansão em série de Taylor implica que

logF(z) ≈ −{1−F(z)} .

Substituindo em (3.32) obtém-se

n (−{1−F(z)}) ≈ −[1 + ξ

(z −µσ

)]− 1ξ,

da qual se obtém

1−F(u) ≈ 1n

[1 + ξ

(u −µσ

)]− 1ξ,

para u grande. Da mesma forma, para y > 0,

1−F(u + y) ≈ 1n

[1 + ξ

(u + y −µσ

)]− 1ξ. (3.33)

Por isso,

Pr {X > u + y|X > u} ≈n−1

[1 + ξ(u+y−µ)

σ

]− 1ξ

n−1[1 + ξ(u−µ)

σ

]− 1ξ

=

1 +ξ(u+y−µ)

σ

1 + ξ(u−µ)σ

− 1ξ

=[1 +

ξy

σ

]− 1ξ

, (3.34)

onde,

σ = σ + ξ(u −µ),

como requerido.

48


3.4.3 Modelação dos limiares dos excessos

3.4.3.1 Seleção do limiar

O Teorema 11 sugere a seguinte estrutura para modelação de valores extremos. Os

dados em bruto consistem numa sucessão de medidas x1, . . . ,xn. Eventos extremos são

identificados por um limiar alto u, para o qual as excedências são {xi : xi > u}. Rotulando

estas excedências por x(1), . . . ,x(k) e definindo o limiar dos excessos por yj = x(j) −u, sendo

que j = 1, . . . , k. Por este teorema, o yj pode ser considerado como realizações indepen-

dentes de uma v.a. cuja distribuição pode ser aproximada por um membro da família GP.

A inferência consiste em ajustar a família GP ao limiar de excedências observado, seguido

da verificação e extrapolação do modelo.

Esta abordagem contrasta com a abordagem dos blocos de máximos através da carac-

terização de uma observação como extrema se exceder a um limiar alto. Mas a questão

da escolha do limiar é análoga à escolha do tamanho do bloco na abordagem dos blo-

cos de máximos, implicando um equilíbrio entre viés e variância. Neste caso, um limiar

muito baixo é suscetível de não respeitar a base assintótica do modelo, levando ao envie-

samento; se o limiar for muito alto irá gerar alguns excessos com os quais o modelo pode

ser estimado, o que levará a uma alta variância. A prática padrão é adotar como limiar

o mais baixo possível, que levará, em princípio, a um modelo com limiar que fornece

uma aproximação razoável. Existem dois métodos disponíveis para este fim: um é uma

técnica exploratória realizada antes da estimação do modelo; a outra é uma avaliação

da estabilidade das estimativas dos parâmetros, baseada na adaptação de modelos numa

gama de diferentes limiares.

Mais detalhadamente, o primeiro método é baseado na média da distribuição GP. Se

Y tem uma distribuição GP com parâmetros σ e ξ, então

E(Y ) =σ

1− ξ, (3.35)

fornecido ξ < 1. Quando ξ ≥ 1 a média é infinita. Agora, supondo que a distribuição GP

é válida como modelo para os excessos de um limiar u0 gerado por uma série X1, . . . ,Xn,

da qual um termo arbitrário é denotado por X. Pela (3.35),

E (X −u0|X > u0) =σu0

1− ξ,

fornecido ξ < 1, onde se denota σu0como parâmetro de escala correspondente aos exces-

sos do limiar u0. Mas se a distribuição GP é válida para os excessos do limiar u0, deve

igualmente ser válida para todos os limiares u > u0, sujeita à mudança do parâmetro de

escala apropriada para σu . Portanto, para u > u0,

E (X −u|X > u) =σu

1− ξ=σu0

+ ξu1− ξ

(3.36)

em virtude de (3.30). Então, para u > u0, E (X −u | X > u) é uma função linear de u. Além

disso, E (X −u | X > u) é simplesmente a média dos excessos do limiar u, para o qual a

49


média da amostra dos excessos do limiar u fornece uma estimativa empírica. De acordo

com (3.36), estas estimativas são esperadas mudar linearmente com u, em níveis de u

para os quais o modelo da GP é apropriado. Isto leva ao seguinte procedimento. O lugar

geométrico dos pontos u, 1

nu

nu∑i=1

(x(i) −u)

:u < xmax

,onde x(1), . . . ,x(nu) consistem nas nu observações que excedem u e xmax é o maior dos Xi ,

é denominado por gráfico de vida residual média (GVRM). Acima de um limiar u0, em

que a distribuição GP fornece uma aproximação válida para a distribuição excesso, o

GVRM deve ser, aproximadamente, linear em u. Os IC podem ser adicionados ao gráfico

com base na normalidade aproximada das médias de amostragem. A interpretação de um

GVRM nem sempre é simples na prática.

O segundo procedimento, para seleção de limiares, é estimar o modelo numa gama de

limiares. Acima de um nível u0, em que a motivação assintótica para a distribuição GP é

válida, as estimativas do parâmetro da forma, ξ, devem ser, aproximadamente, constantes,

enquanto as estimativas de σu devem ser lineares em u, devido a (3.36).

3.4.3.2 Estimação de Parâmetros

Tendo determinado um limiar, os parâmetros da distribuição GP podem ser estimados

pela MV. Supondo que os valores y1, . . . , yk são os k excessos de um limiar u. Para ξ , 0 a

log-verosimilhança é derivada a partir de (3.29) como

`(σ,ξ) = −k logσ −(1 +

1ξ

) k∑i=1

log(1 +

ξyiσ

), (3.37)

dado(1 + ξyi

σ

)> 0 para i = 1, . . . , k; de outro modo, `(σ,ξ) = −∞. No caso de ξ = 0 a

log-verosimilhança é obtida da (3.31) como

`(σ ) = −k logσ − σ−1k∑i=1

yi .

A maximização analítica da log-verosimilhança não é possível, por isso, são novamente

necessárias técnicas numéricas, é preciso cuidado para evitar instabilidades numéricas

quando ξ ≈ 0 em (3.37), e é necessário assegurar que o algoritmo não falhe, devido à

avaliação feita fora do espaço de parâmetros permitido. Os erros padrão e os IC para a

distribuição GP são obtidos da forma habitual da teoria da verosimilhança padrão.

3.4.3.3 Níveis de Retorno

Como já referido, é geralmente mais conveniente interpretar modelos de valores extre-

mos em termos de quantis ou NR, em vez de valores de parâmetros individuais. Por isso,

50


assumindo que uma distribuição GP com os parâmetros σ e ξ é um modelo adequado

para excedências de um limiar u por uma variável X. Ou seja, para x > u,

Pr {X > x|X > u} =[1 + ξ

(x −uσ

)]− 1ξ.

Segue que

Pr {X > x} = ζu[1 + ξ

(x −uσ

)]− 1ξ, (3.38)

onde ζu = Pr {X > u}. Assim, o nível xm que é excedido, em média, uma vez a cada m

observações, é a solução de

ζu

[1 + ξ

(xm −uσ

)]− 1ξ

=1m. (3.39)

Reorganizando fica,

xm = u +σξ

[(mζu)ξ − 1

], (3.40)

desde que m seja suficientemente grande para garantir que xm > u. Isto tudo assume que

ξ , 0. Se ξ = 0, fazendo o mesmo com (3.31) leva a

xm = u + σ log(mζu) , (3.41)

novamente, desde que m seja suficientemente grande.

Por construção, xm é o nível de retorno da observação m. A partir da (3.40) e da (3.41),

ao se fazer um gráfico de xm contra m numa escala logarítmica, produz-se as mesmas

características qualitativas como nos gráficos de NR baseados no modelo GEV: linearidade

se ξ = 0; concavidade se ξ > 0; convexidade se ξ < 0. Para apresentar, é mais conveniente

mostrar os NR numa escala anual, de modo que o NR do ano N seja o nível esperado para

ser excedido uma vez a cada N anos. Se existem ny observações por ano, isto corresponde

ao NR da observação m, onde m =N ×ny . Assim, o NR do ano N é definido por

zN = u +σξ

[(Nnyζu

)ξ− 1

],

a menos que ξ = 0, nesse caso

zN = u + σ log(Nnyζu) .

A estimação dos NR requer a substituição dos valores dos parâmetros pelas suas estimati-

vas. Para σ e ξ isto corresponde à substituição pelas estimativas de MV correspondentes,

e a estimativa de ζu , ou seja, a probabilidade de uma observação individual exceder o

limiar u, também é necessária. Terá um estimador natural de

ζu =kn,

a proporção da amostra de pontos que excede u. Uma vez que, o número de excedências

de u seguem uma distribuição binomial Bin(n, ζu), ζu , é também um estimador de MV

de ζu .

51


Os erros padrão ou os IC para xm podem ser derivados pelo método delta, mas a

incerteza na estimativa de ζu também deve ser incluída no cálculo. A partir das propri-

edades padrão da distribuição binomial V ar(ζu) ≈ ζu(1−ζu)n , então a matriz completa de

variância-covariância para (ζu , σ , ξ) é aproximadamente

V =

ζu(1−ζu)

n 0 0

0 v1,1 v1,2

0 v2,1 v2,2

,onde vi,j denota o termo (i, j) da matriz de variância-covariância de σ e ξ. Assim, pelo

método delta,

V ar(xm) ≈ ∇xmTV∇xm, (3.42)

onde

∇xmT =[∂xm∂ζu

,∂xm∂σ

,∂xm∂ξ

]=

=[σmξζu

ξ−1,ξ−1{(mζu)ξ − 1

},−σξ−2

{(mζu)ξ − 1

}+ σξ−1(mζu)ξ log(mζu)

],

avaliado em (ζu , σ , ξ).

Como nos modelos anteriores, as melhores estimativas de precisão para os parâmetros

e os NR são obtidos a partir do perfil apropriado de verosimilhança. Para σ ou ξ isto é

simples, para os NR, é requerida uma reparametrização. É mais simples ignorar a incer-

teza em ζu , que é geralmente pequena em relação à dos outros parâmetros. A partir de

(3.40) e (3.41)

σ =

(xm−u)ξ

(mζu)ξ−1, se ξ , 0;

xm−ulog(mζu) , se ξ = 0.

Com xm fixo, a substituição em (3.37) leva a uma verosimilhança de um parâmetro

que pode ser maximizada em relação a ξ. Como função do xm, este é o perfil de log-

verosimilhança para o NR da observação m.

3.4.3.4 Escolha do limiar revista

Como foi mencionado, os GVRM podem ser difíceis de interpretar como um método

de seleção de limiares. Uma técnica complementar é ajustar a distribuição GP numa gama

de limiares e procurar a estabilidade das estimativas dos parâmetros. O argumento é o

seguinte.

Pelo Teorema 11, se uma distribuição GP for um modelo razoável para excessos de

um limiar u0, então os excessos de um limiar superior u também devem seguir uma dis-

tribuição GP. Os parâmetros de forma, das duas distribuições, são idênticos. No entanto,

denotando por σu , o valor do parâmetro de escala da distribuição GP, para um limiar de

u > u0, segue-se de (3.30) que

σu = σu0+ ξ (u −u0) , (3.43)

52


de modo que o parâmetro de escala mude com u a menos que ξ = 0. Esta dificuldade

pode ser reparada, ao modificar o parâmetro de escala da distribuição GP do seguinte

modo,

σ ∗ = σu − ξu,

que é constante em relação a u em virtude de (3.43). Consequentemente, as estimativas

de ambos σ ∗ e ξ devem ser constantes acima de u0, se u0 é um limiar válido de excessos

para acompanhar a distribuição GP. A variabilidade da amostra significa que as estimati-

vas destas quantidades não serão exatamente constantes, mas devem ser estáveis após a

permissão para os seus erros de amostragem.

Este argumento sugere o gráfico de σ ∗ e ξ contra u, junto com os IC para cada uma

dessas quantidades, e selecionando u0 como o menor valor de u, para o qual as estimativas

permanecem quase constantes. Os IC de ξ são obtidos imediatamente a partir da matriz

variância-covariância V . Os IC para σ ∗ requerem o método delta, usando

V ar(σ ∗) ≈ ∇σ ∗TV∇σ ∗,

onde

∇σ ∗T =[∂σ ∗

∂σu,∂σ ∗

∂ξ

]= [1,−u] .


Gráficos de probabilidade, de quantis, de NR e de densidade são todos úteis para

avaliar a qualidade de um ajuste do modelo GP. Assumindo um limiar u, os limiares de

excessos y(1) ≤ · · · ≤ y(k) e um modelo estimado H , o gráfico de probabilidade consiste nos

pares{(

ik+1 , H(y(i))

); i = 1, . . . , k

}, onde

H(y) = 1−(1 +

ξy

σ

)− 1ξ

,

fornecido ξ , 0. Se ξ = 0 o gráfico é construído usando (3.31) no lugar de (3.29). Nova-

mente assumindo ξ , 0, o gráfico de quantis consiste nos pares{(H−1

( ik + 1

), y(i)

); i = 1, . . . , k

},

onde

H−1(y) = u +σ

ξ

[y−ξ − 1

].

Se o modelo GP for razoável para modelar excessos de u, então ambos os gráficos de

probabilidade e de quantis devem consistir em pontos que são aproximadamente lineares.

Um gráfico de NR, consiste no lugar geométrico dos pontos {(m, xm)} para grandes

valores de m, onde xm é o NR estimado da observação m:

xm = u +σ

ξ

[(mζu

)ξ− 1

],

53


novamente modificado se ξ = 0. Tal como acontece com o gráfico de NR do modelo

GEV, é normal traçar a curva de NR numa escala logarítmica para enfatizar o efeito de

extrapolação e também para adicionar limites de confiança e estimativas empíricas dos

NR.

Finalmente, a função densidade do modelo GP ajustado pode ser comparado com um

histograma das excedências dos limiares.

54

CAPÍTULO 4Aplicação de Modelos de Valores

Extremos e análise dos resultados

4.1 Introdução

Nesta secção, serão aplicados cada um dos modelos descritos em detalhe no capítulo

3, aos dados do tráfego diário da Ponte 25 de Abril e tirar-se-ão algumas conclusões sobre

a aplicabilidade dos modelos a estes dados.

Vai-se fazer uma análise preliminar aos dados essencialmente gráfica. Esta permitirá

ter uma ideia do comportamento da cauda direita da distribuição associada aos dados

referentes aos máximos anuais de veículos na Ponte 25 de Abril. A amostra, como já foi

indicada, é composta pelo número de veículos que passaram diariamente na Ponte 25 de

Abril, desde 01 de janeiro de 2010 a 31 de dezembro de 2018.

Tal como anteriormente foi explicado no capítulo 3, para se modelar os extremos de

uma série de observações independentes, os dados são agrupados em blocos de obser-

vações de cumprimento n, gerando uma série de máximos de blocos. A dimensão dos

blocos será escolhida para corresponder a um período de tempo de um ano, portanto, n

será o número de observações num ano e os máximos dos blocos são máximos anuais, já

que deste modo a sazonalidade não irá afetar a análise dos dados. Assumindo que este

valor de n seja suficientemente grande, os argumentos assintóticos levam a um modelo

que descreve as variações nos máximos anuais de um ano para o outro e que podem ser

ajustadas aos máximos anuais observados.

No entanto, em qualquer ano em particular, podem ter ocorrido eventos extremos

adicionais e é possível que sejam mais extremos do que o máximo de outros anos. Já que

tais dados não são o máximo anual no ano em que surgiram, estes vão ser excluídos de

uma parte desta análise, contudo, na aplicação do Modelo GEV Multivariado e no Modelo

estatístico das r maiores observações serão tidos em consideração mais valores para além

do máximo anual. No caso em que só se considera o máximo anual, como se têm os dados

55

CAPÍTULO 4. APLICAÇÃO DE MODELOS DE VALORES EXTREMOS E ANÁLISE

DOS RESULTADOS

diários de 9 anos a amostra terá uma dimensão igual a m = 9 observações e esta está

representada na figura 4.1.

2010 2012 2014 2016 2018

1650

0017

0000

1750

0018

0000

Máximos diários anuais

Anos

Máx

imo

diár

io a

nual

Figura 4.1: Máximos diários anuais do tráfego na Ponte 25 de Abril (2010-2018)

No gráfico de autocorrelação parcial (figura 4.2), apresentado de seguida, pode-se

observar que os valores são fracamente correlacionados entre si, portanto, é possível a

existência de independência nos dados.

0 2 4 6 8

−0.

50.

00.

51.

0

Lag

AC

F

Gráfico ACF

Figura 4.2: Gráfico da Autocorrelação Parcial

As características amostrais, como a mediana, a média, os quartis e os extremos são:

Mínimo 1º Quartil Mediana Média 3º Quartil Máximo165212 169406 172030 172150 172982 180846

Figura 4.3: Características Amostrais

Observa-se através destes valores que o número de veículos varia entre 165212 e

56

4.2. MODELO GEV

180846. Verifica-se que os dados são negativamente assimétricos pelo boxplot represen-

tado na figura 4.4, tira-se essa conclusão pelo risco da mediana que se encontra mais

próximo do 3º Quartil. Também se tem um outlier representado, ou seja, um ponto fora

das “linhas” desenhadas, no ponto máximo da distribuição, ou seja, em 180846.

165000 170000 175000 180000

Boxplot

Máximos diários anuais na Ponte 25 de Abril

Figura 4.4: Boxplot dos máximos diários anuais na Ponte 25 de Abril (2010-2018)

De seguida para se efetuarem as aplicações dos Modelos de Valores Extremos foram

tidos em conta, para além do livro Coles (2001), a dissertação de mestrado Rosário (2013) e

“GITHUB” (2009). As aplicações efetuadas ao tráfego da Ponte 25 de Abril nomeadamente:

ao Modelo GEV os blocos dos máximos anuais; ao Modelo GEV Multivariado as 3, 5 e 10

maiores observações anuais; e ao Modelo GP os valores do tráfego acima do limiar u igual

a 165212, 156297 e 161734 ao Modelo GP.

4.2 Modelo GEV

Como mencionado na secção 3.3.1.3 para se modelarem valores extremos de uma série

de observações independentes X1,X2, . . . os dados juntam-se em sucessões de observações

de comprimento n, gerando uma série de blocos de máximos,Mn,1, . . . ,Mn,m (para os quais

a distribuição GEV poderá ser montada). Escolheu-se o comprimento de um ano, portanto,

n será o número de observações num ano e os máximos dos blocos serão máximos anuais.

Como já mencionado anteriormente os máximos anuais são os seguintes:

57


DOS RESULTADOS

Tabela 4.1: Blocos de máximos, valores dos máximos anuais e respetivas datas

Os blocos de máximos serão denotados por Z1, . . . ,Zm, neste caso, com m = 9.

4.2.0.1 Estimação por Máxima Verosimilhança

Os dados são modelados como observações independentes da distribuição GEV. Quanto

à maximização da log-verosimilhança do GEV, obtida através da função gev.fit() do pa-

cote ismev (Heffernan & Stephenson, 2018) que será utilizado ao longo das três secções

seguintes (sendo esta a primeira), para os dados referidos, obteve-se o seguinte output:

R code 4.1: Output do gev.fit()

1 $conv

2 [1] 0

3

4 $nllh

5 [1] 87.59868

6

7 $mle

8 [1] 1.701567e+05 3.778887e+03 -1.324375e-01

9

10 $se

11 [1] 1403.6701498 1027.8844808 0.2397786

Pode-se verificar que:

(µ, σ , ξ) = (170156.7,3778.887,−0.1324375),

para a qual a log-verosimilhança é −87.59868. A matriz da variância-covariância aproxi-

mada das estimativas dos parâmetros é:

58

4.2. MODELO GEV

M =

1970289.8894 183742.0436 −109.8018

183742.0436 1056546.5059 −113.8859

−109.8018 −113.8859 0.05749378

Tendo em consideração os resultados obtidos por Smith (1985), e já que ξ > −0.5,

pode-se afirmar que os estimadores da MV são regulares, ou seja, têm as propriedades

assintóticas usuais.

A diagonal principal da matriz representada corresponde aos valores das variâncias

dos parâmetros individuais de (µ,σ ,ξ). Calculando as respetivas raízes quadradas, obtêm-

se os erros padrão que são 1403.670,1027.884 e 0.2397786 para µ, σ e ξ respetivamente.

Podem-se calcular os IC de 95%, aproximadamente, para cada parâmetro, combinando

as estimativas obtidas e os erros padrão:

Tabela 4.2: Valores dos IC dos parâmetros estimados.

Como se pode ver pelos valores dos ICs dos parâmetros estimados, o IC do parâmetro

ξ contém zero, logo a Distribuição Gumbel poderá ser a distribuição mais precisa da

família GEV para estes dados. Para analisar esta situação será efetuado o ajustamento dos

dados à distribuição Gumbel na secção 4.2.0.5.


Para se visualizar melhor a extrapolação do modelo GEV, tem-se a figura 4.5. Para isso,

utilizou-se a função gev.diag(), que para modelos estacionários produz quatro gráficos

diagnóstico (usando o output da função gev.fit()).

59


DOS RESULTADOS

Gráfico de Probabilidade Gráfico de Quantis

Gráfico de DensidadeGráfico do Nível de Retorno

Empírica Modelo

zPeríodo de Retorno

Nív

el de

Reto

rno

f(z)

Modelo

Em

pír

ica

Figura 4.5: Gráficos diagnóstico para o Modelo GEV ajustado aos dados do tráfego daPonte 25 de Abril

Através do gráfico de probabilidade, que é uma comparação entre funções de distri-

buição empírica e ajustada, quando os pontos ficam perto da diagonal unidade é sinal

de que o modelo GEV está bem ajustado. Se há desvios substanciais da linearidade estes

são indicativos de alguma falha no modelo. Como aparentemente não acontece pode-se

afirmar o contrário.

No gráfico de quantis se estiverem representadas saídas de linearidade, tal como no

caso anterior, estas indicariam falha do modelo. Apesar de haver um ponto um pouco

afastado da diagonal, todos os outros apresentam uma certa linearidade. Tem-se também

o gráfico baseado na função de densidade, ou seja, está representada uma comparação da

função de densidade de probabilidade (de um modelo ajustado) com um histograma dos

dados.

Quanto ao gráfico do NR tem-se a representação de um gráfico do nível que se espera

que seja excedido pelo processo uma vez em cada p anos (nível de retorno zp) contra o

(logaritmo do) período de retorno p. O gráfico do NR é particularmente relevante para

interpretar modelos de valor extremo. A cauda da distribuição é comprimida de tal modo

que as estimativas do NR são exibidas para longos períodos de retorno. A linha preta

representa a estimativa da MV dos parâmetros da distribuição GEV ajustada aos dados

do tráfego da Ponte 25 de Abril. As linhas azuis são IC de aproximadamente 95%. Já os

pontos são os níveis de retorno empíricos e ajudam na validação do modelo, portanto,

neste caso, existem 9 pontos no conjunto de dados, o maior ponto corresponde ao quantil

empírico do ano 9. Tendo em conta a observação do gráfico de NR da figura 4.5 pode-se

dizer que o modelo está bem ajustado, já que os pontos se encontram entre as linhas de

confiança.

Os gráficos da figura 4.5 que têm como base uma comparação entre modelos base

60

4.2. MODELO GEV

e estimativas empíricas da f.d., estão razoavelmente de acordo quanto à adequação do

modelo GEV ajustado aos dados referentes aos máximos anuais do tráfego na Ponte 25 de

Abril.

4.2.0.3 Inferência para níveis de retorno

As estimativas para os NR são obtidas pela substituição dos valores nas equações

(3.22) e (3.23). Para se calcularem os IC de 95% será calculada a variância do NR, pelo

método delta. Vão ser calculados quatro NR para: 5, 10, 50 e 100 anos. Feitas as respetivas

substituições nas equações e calculadas as mesmas, foram obtidos os seguintes valores:

Tabela 4.3: Valores obtidos para diferentes anos de NR para o modelo GEV

Tendo em conta a tabela 4.3 espera-se que, em média, num ano em cada 5, 10, 50 ou

100 anos, haja um dia em que o número de veículos que atravessa a Ponte 25 de Abril seja

superior a 175297, 177510, 181671 e 183174, respetivamente.

Como, neste caso, ξ < 0 também é possível fazer inferências sobre o limite superior do

suporte da distribuição que é efetivamente o ‘período inferior de retorno da observação’,

ou seja, calcula-se zp com p = 0.

A estimativa da MV é z0 = µ− σξ

e (3.20) é válida com ∇z0T =

[1,−ξ−1,σξ−2

]avaliado

em (µ, σ , ξ). Portanto, para este caso em concreto, depois de efetuadas as respetivas subs-

tituições e cálculos, tem-se z0 = 198690 e o respetivo IC de, aproximadamente, 95% é

[104368,293012]. Como se pode observar o valor de z para p = 0 é o maior valor compa-

rando com os outros resultados, como seria de esperar, e em relação ao IC é também o de

maior amplitude.

4.2.0.4 Perfil da Verosimilhança

Para se obter o perfil da verosimilhança vai-se usar a função gev.prof() do pacote

ismev (Heffernan & Stephenson, 2018). Esta função permite o cálculo do perfil log-vero-

similhança para o parâmetro de forma, ξ, e para diferentes anos de NRs, para modelos

61


DOS RESULTADOS

GEV.

−1.0 −0.5 0.0 0.5 1.0

−91

−90

−89

−88

Parâmetro forma

Per

fil L

og−

vero

sim

ilhan

ça

Figura 4.6: Perfil da log-verosimilhança para ξ para os máximos anuais do tráfego daPonte 25 de Abril

A figura 4.6 mostra o gráfico do perfil da log-verosimilhança para ξ no tráfego da

Ponte 25 de Abril cujos valores do IC de, aproximadamente, 95%, obtidos através do

mesmo, são [−0.6900517,0.516]. Têm-se aqui ilustrados os quatro gráficos do perfil log-

verosimilhança para os diferentes NR:

175000 180000 185000

−91

−90

−89

−88

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(a) NR de 5 anos

175000 180000 185000 190000 195000

−90

.5−

89.5

−88

.5−

87.5

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(b) NR de 10 anos

180000 190000 200000 210000 220000 230000 240000

−90

.0−

89.5

−89

.0−

88.5

−88

.0−

87.5

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(c) NR de 50 anos

180000 200000 220000 240000 260000 280000

−90

.0−

89.5

−89

.0−

88.5

−88

.0−

87.5

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(d) NR de 100 anos

Figura 4.7: Perfil da log-verosimilhança para diferentes anos de NR no tráfego da Ponte25 de Abril

62

4.2. MODELO GEV

Um IC de, aproximadamente, 95% para o NR de 5 anos é obtido a partir do perfil

da log-verosimilhança como [172374,182571]; para 10 anos é [174230,191357]; para 50

anos é [177380,228875]; para 100 anos é [178418,257250].

4.2.0.5 Distribuição de Gumbel

Segundo o que já foi referido, em relação às distribuições de valores extremos, quando

se obtém o parâmetro de forma menor que zero, em princípio, significaria que a distribui-

ção em causa seria do tipo Weibull. No entanto, vai-se fazer a substituição da família GEV

pela família Gumbel que corresponde a ξ = 0, já que na secção 4.2.0.1 se verificou que o IC

do parâmetro ξ contém o valor zero, para isso usa-se a função gum.fit() do mesmo pacote

para a obtenção da estimação dos parâmetros. Para o caso aqui estudado obtiveram-se os

seguintes resultados:

R code 4.2: Output do gum.fit()

1 $conv

2 [1] 0

3

4 $nllh

5 [1] 87.7446

6

7 $mle

8 [1] 170160.479 3665.779

9

10 $se

11 [1] 1293.3233 915.7362

Quanto aos gráficos de diagnóstico utiliza-se a função gum.diag(), com o output ante-

rior, e resultaram os gráficos seguintes:

63


DOS RESULTADOS

0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

Gráfico de Probabilidade

Empírica

Mod

elo

168000 172000 176000

1650

0018

0000

Gráfico de Quantis

Modelo

Em

píric

a

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0019

0000

Período de Retorno

Nív

el d

e R

etor

no

Gráfico do Nível de Retorno Gráfico de Densidade

zf(

z)

165000 170000 175000 180000 185000

0e+

008e

−05

Figura 4.8: Gráficos diagnóstico para o ajuste do Modelo Gumbel aos máximos anuais dotráfego da Ponte 25 de Abril

Neste caso, a MV corresponde à maximização da (3.21) e depois dos cálculos corres-

pondentes obtêm-se os erros padrão e não só. Para os dados aqui estudados, como já se

observou pelo output, obteve-se:

(µ, σ ) = (170160.479,3665.779)

Já os erros padrão são 1293.3233 e 915.7362 para µ e σ , respetivamente, a log-vero-

similhança é de −87.7446.

Tendo em consideração, os resultados obtidos, pode-se calcular a estatística do teste

da razão de verosimilhança para a redução do modelo Gumbel:

D = 2 {87.7446− 87.59868} = 0.29184

Este valor é pequeno quando comparado com a distribuição χ21, o que sugere que o modelo

de Gumbel é adequado para estes dados. Já se tinha essa impressão e ao se visualizarem

os gráficos diagnóstico na figura 4.8, que mostram que a qualidade do ajuste é compará-

vel à do modelo GEV. Não é nenhuma surpresa, uma vez que os parâmetros estimados

nestes dois modelos são tão semelhantes, o que também significa que (a curto prazo) a

extrapolação do modelo com base em qualquer dos modelos leva a respostas bastante

semelhantes.

Pode-se fazer uma comparação em relação aos IC. Os valores obtidos para os últimos

parâmetros estimados são:

64

4.2. MODELO GEV

Tabela 4.4: Valores dos IC dos parâmetros estimados pelo modelo Gumbel

As estimativas para os NR são obtidas pela substituição dos valores nas equações (3.22)

e (3.23), neste caso, na equação (3.22) será substituído o segundo ramo do sistema. Para se

calcularem os IC de, aproximadamente, 95% será calculada, como no caso anterior, pelo

método delta. Os cálculos foram efetuados para os mesmos anos de NR e obtiveram-se os

seguintes valores:

Tabela 4.5: Valores obtidos para diferentes anos de NR para o modelo Gumbel

Segundo a tabela 4.5 espera-se que, em média, num ano em cada 5, 10, 50 ou 100 anos,

haja um dia em que o número de veículos que atravessa a Ponte 25 de Abril seja superior

a 175659, 178410, 1844641 e 187024, respetivamente.

Posto isto, a maior diferença entre os dois modelos é em termos de precisão de estima-

ção, ou seja, os parâmetros dos modelos têm estimativas com IC de menor amplitude no

modelo Gumbel. Já em relação às estimativas dos IC para os NR de 5 e de 10 anos, os IC

são de maior amplitude no modelo Gumbel e para os NR de 50 e de 100 anos são maiores

no modelo GEV.

Para se optar por um dos modelos são de grande ajuda os gráficos diagnóstico. As esti-

mativas das curvas do NR são bastante semelhantes, no entanto, os IC são mais amplos no

modelo GEV, especialmente para períodos de retorno mais longos. Uma incerteza redu-

zida é sempre desejável, de modo que se o modelo Gumbel pudesse ser mais confiável, as

suas inferências seriam preferidas. Sabe-se que o teorema de modelos extremos fornece

suporte para se modelar os blocos de máximos com a família GEV, da qual a família Gum-

bel é um subconjunto. Realmente, verifica-se através dos dados que o modelo Gumbel é

65


DOS RESULTADOS

plausível, por outro lado, isso não implica que os outros modelos não sejam.

De facto, a estimativa da MV dentro da família GEV não é da família Gumbel, portanto,

a opção mais segura é aceitar que há incerteza sobre o valor do parâmetro forma e preferir

a inferência baseada no modelo GEV.

4.3 Modelo GEV Multivariado

Na análise de valores extremos, existe uma dificuldade que é a quantidade limitada

de dados para a estimativa do modelo. Nesta secção, vai-se utilizar uma caracterização

geral, que é baseada no comportamento das estatísticas das r maiores observações dentro

de um bloco, para valores de r pequenos.

Tendo em conta que X1,X2, ... é uma sucessão de v.a.’s i.i.d. que representa, neste caso,

os valores diários do tráfego da Ponte 25 de Abril e tem como objetivo caracterizar o

comportamento do extremo Xi . Primeiro vai-se estender o resultado obtido na secção

3.3.1.3 para outras estatísticas de ordem extrema, definindo

Mn(k) = k maior estatística ordinal de {X1, . . . ,Xn} ,

e identificando o comportamento do limite dessa variável, para k fixo, com n→∞.

Deste modo, como o objetivo é aplicar o modelo para cada bloco de um ano, vão se

extrair os k = 3, k = 5 e k = 10 maiores valores diários de tráfego, obtendo-se um conjunto

de 9 vetores aleatórios 3-dimensionais, 5-dimensionais e 10-dimensionais. Foram elegidos

os valores k = 3 e k = 5, tendo em conta, os gráficos de probabilidade e de quantis I.3 em

anexo, já a seleção do k = 10 foi princialmente com o objetivo de ter um k superior como

termo de comparação. As observações estão representadas nas figuras 4.9, 4.10 e 4.11.

2010 2012 2014 2016 2018

1600

0016

5000

1700

0017

5000

Os 3 Maiores Valores de Tráfego Anuais, na Ponte 25 de Abril

Anos

Tráf

ego

diár

io n

a P

onte

25

de A

bril

Figura 4.9: Os 3 maiores valores diários de tráfego, por ano, na Ponte 25 de Abril (2010-2018)

O teorema 9 implica que se a estatística das r maiores observações num bloco for

normalizada exatamente da mesma maneira que o máximo, então a sua distribuição

limite é dada por (3.23) cujos parâmetros correspondem aos parâmetros da distribuição

66

4.3. MODELO GEV MULTIVARIADO

limite de GEV do bloco de máximos. Existe uma dificuldade que exige uma caracterização

do conjunto limite de todo o vector Mn(r).

2010 2012 2014 2016 2018

1600

0017

0000

1800

00


Anos

Tráf

ego

diár

io n

a P

onte

25

de A

bril

Figura 4.10: Os 5 maiores valores diários de tráfego, por ano, na Ponte 25 de Abril (2010-2018)

Neste caso, os dados serão agrupados em m = 9 blocos. Ou seja, no bloco i as maiores

observações ri são gravadas, levando à série Mi(ri ) =

(zi

(1), . . . , zi(ri )

)para i = 1, . . . ,m. É

usual definir r1 = · · · = rm = r para algum valor de r específico, como já tinha sido referido.

2010 2012 2014 2016 2018

1600

0017

0000

1800

00


Anos

Tráf

ego

diár

io n

a P

onte

25

de A

bril

Figura 4.11: Os 10 maiores valores diários de tráfego, por ano, na Ponte 25 de Abril(2010-2018)

A amostra que será utilizada, é composta pelos 3, 5 e 10 maiores valores de tráfego

da Ponte 25 de abril para cada um dos anos (2010 até 2018), como já se mencionou.

Como tal, a verosimilhança para este modelo é obtida a partir de (3.24) e de (3.25). As

estimativas da MV e os erros padrão são dados na tabela 4.6 por inferências baseadas no

valor selecionado de r. Não esquecendo que quanto maior o valor de r, mais pequenos

os erros padrão, logo correspondem a modelos de maior precisão, mas se a aproximação

assintótica é válida para uma escolha de r única, então as estimativas dos parâmetros

devem ser estáveis quando o modelo é ajustado com menos estatísticas ordinais.

67


DOS RESULTADOS

Tabela 4.6: A log-verosimilhança maximizada, a estimação dos parâmetros e os errospadrão correspondentes, quando considerados os r = 1, 3, 5 e 10 maiores valores detráfego anuais na Ponte 25 de Abril

Nota-se que à medida que se aumenta o número de observações retidas, os erros

padrão das estimativas têm tendência para diminuir, exceto num caso para o parâmetro

escala que é melhor no caso de r = 5 que no caso de r = 10. Tendo em conta os valores

apresentados na tabela 4.6 o r = 10 é o valor que possui os erros padrão das estimativas

com menores valores, sem contar com o parâmetro escala.

Em qualquer um dos casos ξ < 0, logo a distribuição subjacente a estes valores de

tráfego diário da Ponte 25 de Abril poderá ser Weibull. Se for esse o caso, a distribuição

terá uma cauda leve e com limite superior do suporte finito. Contudo, as estimativas do

parâmetro de forma estão muito perto do zero, logo a hipótese da distribuição de Gumbel

não deve ser excluída.

Tabela 4.7: Os valores dos IC dos parâmetros estimados pela MV correspondentes, quandoconsiderados os r = 1, 3, 5 e 10 maiores valores de tráfego anuais na Ponte 25 de Abril

Observando-se os valores da tabela 4.6 e também da tabela 4.7, verifica-se que existe

uma certa estabilidade nas estimativas dos parâmetros de localização e de escala, mesmo

que a variabilidade de amostragem seja contabilizada. Isto levanta a dúvida da validade

do modelo para valores de r > 5.

Já que os parâmetros µ, σ e ξ correspondem exatamente aos parâmetros do modelo

68


GEV da distribuição de máximos anuais, para se avaliar o ajuste do modelo com mais

detalhe conseguem-se derivar as curvas do NR da distribuição dos máximos anuais. São

efetuadas do mesmo modo que o modelo GEV, no entanto, neste caso utilizam-se as

estimativas de MV e a matriz da variância-covariância do modelo estatístico das r maiores

observações. Na figura 4.12 têm-se os gráficos para cada valor de r de 2 a 10. Na mesma

figura verifica-se que a concordância entre o modelo e os dados, à medida que o r aumenta,

vai diminuindo.

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0017

0000

1750

0018

0000

Período de Retorno

Nív

el d

e R

etor

no

r=2

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0017

0000

1750

0018

0000

Período de Retorno

Nív

el d

e R

etor

nor=3

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0017

0000

1750

0018

0000

1850

00

Período de Retorno

Nív

el d

e R

etor

no

r=4

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0017

0000

1750

0018

0000

Período de Retorno

Nív

el d

e R

etor

no

r=5

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0017

0000

1750

0018

0000

1850

00

Período de Retorno

Nív

el d

e R

etor

no

r=6

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0017

0000

1750

0018

0000

1850

00

Período de Retorno

Nív

el d

e R

etor

no

r=7

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0017

0000

1750

0018

0000

1850

00

Período de Retorno

Nív

el d

e R

etor

no

r=8

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0017

0000

1750

0018

0000

1850

00

Período de Retorno

Nív

el d

e R

etor

no

r=9

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0017

0000

1750

0018

0000

1850

00

Período de Retorno

Nív

el d

e R

etor

no

r=10

Figura 4.12: Os NR estimados com IC de 95% para a distribuição de máximos anuaisbaseados no Modelo estatístico das r maiores observações ajustado aos dados do tráfegoda Ponte 25 de Abril

Para qualquer escolha de r, a precisão do ajuste pode ser verificada com maior detalhe,

para cada r = 3, 5 e 10 o conjunto usual de disgnóstico é mostrado nas figuras 4.13, 4.14

e 4.15. Relativamente aos gráficos de NR, estes obtêm-se exatamente do mesmo modo

que para o modelo de blocos de máximos, substituindo as estimativas de parâmetros e

a matriz de variância-covariância pelas obtidas pela maximização de (3.26). Como se

pode verificar as diferenças são bastante acentuadas, nota-se que o melhor ajuste para

o máximo anual do tráfego da Ponte 25 de Abril ocorre quando são tidas em conta as 3

maiores observações em cada ano. Consegue-se tirar essa conclusão pela observação do

gráfico do NR, em que se verifica que para este caso os valores mostrados encontram-se

69


DOS RESULTADOS

maioritariamente dentro das linhas azuis dos IC, no caso em que r = 5 os pontos já se

encontram um pouco mais afastados e no caso de r = 10 é raro o ponto que se encontre

dentro dos limites desenhados pelo IC.

0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8


Empírica

Mod

elo

170000 172000 174000 176000 178000

1650

0018

0000

Gráfico de Quantis

Modelo

Em

píric

a

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0018

0000

Período de Retorno

Nív

el d

e R

etor

no


z

f(z)

165000 170000 175000 180000 185000

0e+

006e

−05

Figura 4.13: Gráficos diagnóstico do Modelo estatístico das r maiores observações comr = 3 para os maiores valores anuais de tráfego na Ponte 25 de Abril

0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8


Empírica

Mod

elo

170000 172000 174000 176000 178000

1650

0018

0000

Gráfico de Quantis

Modelo

Em

píric

a

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0018

0000

Período de Retorno

Nív

el d

e R

etor

no


z

f(z)

165000 170000 175000 180000 185000

0e+

008e

−05


70


0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8


Empírica

Mod

elo

172000 174000 176000 178000 180000

1650

0018

0000

Gráfico de Quantis

Modelo

Em

píric

a

1e−01 1e+00 1e+01 1e+02 1e+03

1650

0018

0000

Período de Retorno

Nív

el d

e R

etor

no


zf(

z)

165000 170000 175000 180000 185000

0e+

008e

−05


Para os dados do tráfego da Ponte 25 de Abril, a preocupação com a falta de ajuste

é reforçada pelos gráficos das figuras 4.13, 4.14 e 4.15. As verificações também podem

ser feitas sobre a qualidade do ajuste para cada uma das estatísticas do pedido, fazendo

gráficos de probabilidade e de quantis. Estes são obtidos comparando a distribuição da

estatística de k ordem, (3.23), com os valores dos parâmetros substituídos pelas suas

estimativas (com as estimativas empíricas correspondentes).

Para os dados do tráfego da Ponte 25 de Abril, com o modelo ajustado correspondente

a r = 5, os gráficos de probabilidade e de quantis para cada uma das 4 estatísticas de

maiores observações são dadas pela figura I.3 em anexo. Estes gráficos mostram alguma

falha na adequação ao modelo.

Na tabela 4.8 encontram-se as estimativas de NR de 5, 10, 50 e 100 anos, para cada

um dos valores de r, portanto, para r = 1, r = 3, r = 5 e r = 10 e ainda os IC de, aproxima-

damente, 95% que foram calculados pelo método delta.

71


DOS RESULTADOS

Tabela 4.8: Valores dos NR e dos IC quando r = 1, 3, 5 e 10 maiores valores de tráfegoanuais na Ponte 25 de Abril

Já que nos casos apresentados ξ < 0, também é possível fazer inferências sobre o limite

superior do suporte da distribuição que é efetivamente o ’período inferior de retorno da

observação’, isto é, z0. Este valor está calculado na última linha da tabela 4.8 e os seus

respetivos IC de 95% (aproximadamente). O z0 como seria de esperar é o maior valor para

zp e os IC de z0 são os que possuem maior amplitude, os dois limites destes intervalos são,

efetivamente, o menor e o maior valor obtidos.

Depois de se verificarem os valores obtidos para estimativas dos parâmetros, para

os erros padrão e observando-se os gráficos diagnóstico (4.13, 4.14 e 4.15) resultantes

do ajuste do Modelo estatístico para as r = 3, 5 e 10 maiores observações dos valores de

tráfego anuais na Ponte 25 de Abril, pode-se concluir que o ajuste efetuado que aparenta

ser ligeiramente melhor que os restantes para estes dados é o Modelo estatístico das r = 5

maiores observações.

4.4 Modelo GP

Nesta parte, vai-se seguir o que foi descrito na secção 3.4.

4.4.1 Seleção do limiar

O Teorema 11 sugere um modo para a modelagem das maiores observações. Neste

caso, os dados são os valores diários do tráfego da Ponte 25 de Abril, representados por

uma sucessão de medidas xi , . . . ,xn. Os eventos extremos serão identificados por um limiar

u, para o qual as excedências são {xi : xi > u} e representam-se por x(1), . . . ,x(k).

Como mencionado na secção 3.4.3.1 uma forma que ajuda a saber qual o limiar u que

se deve selecionar é a visualização do GVRM. Na figura 4.16 está representado o mesmo

referente aos dados aqui abordados.

72

4.4. MODELO GP

80000 100000 120000 140000 160000 180000

010

000

3000

050

000

u

Méd

ia d

os E

xces

sos

Figura 4.16: GVRM para os dados do tráfego diário da Ponte 25 de Abril

Ao observar o gráfico 4.16 verifica-se que existe uma relação inversa entre a quanti-

dade de valores e a grandeza dos mesmos, isto é, quanto maior é a quantidade existente

mais pequenos são os valores de tráfego diário representados e a quantidade vai dimi-

nuindo quando o respectivo valor representado vai aumentando. No entanto, este decrés-

cimo nem sempre é igual, ou seja, é mais acentuado até cerca do ponto u = 135000, depois

varia a inclinação, continuando a diminuir, desta vez, com um ritmo menos acelerado e

existe um ponto a partir do qual o declive diminui mais um pouco.

Quanto à seleção de u: a prática standard é adotar como limiar o valor mais baixo

possível, que levará, em princípio, ao ajuste de um modelo limiar que irá fornecer uma

aproximação razoável.

Para estes dados em concreto foram escolhidos três possíveis valores para o u que serão

comparados. O primeiro valor é u = 165212, representa o valor mínimo dos máximos

anuais. O segundo valor selecionado para o u é 156297, é o valor encontrado através

do GVRM onde o comportamento do gráfico mais se altera. Por último, o terceiro valor

selecionado para o u é 161734, onde se teve em conta a prática standard e se selecionou o

u cujas excedências correspondessem a 5% do valor total da amostra.

De seguida na figura 4.17, assinalam-se os lugares dos valores dos limiares u selecio-

nados em cada um dos três casos referidos, com uma linha vermelha, uma linha azul e

uma linha verde.

73


DOS RESULTADOS

80000 100000 120000 140000 160000 180000

010

000

3000

050

000

u

Méd

ia d

os E

xces

sos

u1=165212u2=156297u3=161734

Figura 4.17: GVRM com o lugar dos valores dos limiares representados com cores dife-rentes para os dados do tráfego diário da Ponte 25 de Abril

4.4.2 Estimação de Parâmetros

Para se calcularem os valores da estimativa de MV, usou-se a função gpd.fit() do pacote

que se tem utilizado, o cálculo foi efetuado para cada um dos valores de u. Os outputscorrespondentes foram os três seguintes:

1. Para u1 = 165212:

R code 4.3: Output do gpd.fit() para u1 = 165212

1 $threshold

2 [1] 165212

3

4 $nexc

5 [1] 84

6

7 $conv

8 [1] 0

9

10 $nllh

11 [1] 773.3564

12

13 $mle

14 [1] 3876.91407301 -0.05639767

15

16 $rate

17 [1] 0.02555522

18

19 $se

20 [1] 662.6056307 0.1304004

74

4.4. MODELO GP

2. Para u2 = 156297:


1 $threshold

2 [1] 156297

3

4 $nexc

5 [1] 430

6

7 $conv

8 [1] 0

9

10 $nllh

11 [1] 4113.271

12

13 $mle

14 [1] 6354.6384655 -0.1912576

15

16 $rate

17 [1] 0.1308184

18

19 $se

20 [1] 393.43799623 0.03851097

3. Para u3 = 161734:


1 $threshold

2 [1] 161734

3

4 $nexc

5 [1] 165

6

7 $conv

8 [1] 0

9

10 $nllh

11 [1] 1548.466

12

13 $mle

14 [1] 5179.9469359 -0.1677628

15

16 $rate

17 [1] 0.05019775

75


DOS RESULTADOS

18

19 $se

20 [1] 538.65428333 0.06930568

As Estimativas da MV para os parâmetros e os respetivos IC de aproximadamente

95%, para cada limiar u estão representados na seguinte tabela 4.9.

Tabela 4.9: Valores estimados dos parâmetros e respetivos IC, para diferentes limiares

Como se pode verificar através da tabela 4.9 a estimativa do parâmetro de forma é

sempre menor que zero quando estimado e os respetivos IC contêm maioritariamente

valores negativos. Na tabela 4.10 estão os valores das log-verosimilhanças maximizadas e

respetivas matrizes de variância-covariância para cada limiar.

Tabela 4.10: A log-verosimilhança maximizada e a matriz variância-covariância estimadaspara os dois parâmetros, para os diferentes limiares

4.4.3 Verificação do modelo

Os gráficos de probabilidade, de quantis, de NR e de densidade são todos úteis para

avaliar a qualidade do ajuste do modelo GP.

Apresentam-se a seguir os gráficos diagnóstico para o modelo ajustado GP para cada

um dos limiares representados nas figuras 4.18, 4.19 e 4.20. Não esquecendo que os

gráficos de probabilidade e quantis devem consistir em pontos que são aproximadamente

lineares quando um modelo GP é razoável para modelar as excedências de u. Já a função

de densidade do modelo GP ajustado é comparada com um histograma das excedências

dos limiares.

76

4.4. MODELO GP

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8


Empírica

Mod

elo

165000 170000 175000 180000

1650

0018

0000

Gráfico de Quantis

Modelo

Em

píric

a

1e−01 1e+00 1e+01 1e+02 1e+03

1700

0022

0000

Gráfico do Nível de Retorno

Período de Retorno

Nív

el d

e R

etor

no

Gráfico de Densidade

xf(

x)

165000 170000 175000 180000

0.00

000

0.00

020

Figura 4.18: Gráficos diagnóstico para o modelo ajustado ao primeiro limiar, u1 = 165212

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8


Empírica

Mod

elo

160000 165000 170000 175000 180000

1600

0018

0000

Gráfico de Quantis

Modelo

Em

píric

a

1e−01 1e+00 1e+01 1e+02 1e+03

1600

0019

0000


Período de Retorno

Nív

el d

e R

etor

no


x

f(x)

155000 160000 165000 170000 175000 180000

0.00

000

0.00

015

Figura 4.19: Gráficos diagnóstico para o modelo ajustado ao segundo limiar, u2 = 156297

77


DOS RESULTADOS

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8


Empírica

Mod

elo

165000 170000 175000 180000

1650

0018

0000

Gráfico de Quantis

Modelo

Em

píric

a

1e−01 1e+00 1e+01 1e+02 1e+03

1700

0020

0000


Período de Retorno

Nív

el d

e R

etor

no


xf(

x)

160000 165000 170000 175000 180000

0.00

000

0.00

015

Figura 4.20: Gráficos diagnóstico para o modelo ajustado ao terceiro limiar, u3 = 161734

Depois de observados os gráficos diagnóstico pode afirmar-se que, tendo em conta o

que já foi mencionado sobre os gráficos de probabilidade e quantil e observando unica-

mente estes dois gráficos, o segundo limiar é o que possui os valores com um comporta-

mento mais linear. Em relação ao gráfico do NR, o primeiro limiar é o que tem um gráfico

com um comportamento mais satisfatório, já que os pontos se encontram todos entre os

limites de confiança.

4.4.4 Níveis de retorno

Como já foi mencionado, é conveniente interpretar modelos de valores extremos

em termos de quantis ou NR, em vez de valores de parâmetros individuais. Para isso

calcularam-se as excedências para cada limiar u no conjunto completo das 3287 observa-

ções, também se efetuou o cálculo da estimativa da MV da probabilidade de excedências;

da respetiva variância e da matriz variância-covariância para (ζu , σ , ξ). Os resultados

obtidos estão representados na tabela 4.11.

78

4.4. MODELO GP

Tabela 4.11: Valores: das excedências ao limiar; da probabilidade de excedência; variância;matriz variância-covariância para os três parâmetros com diferentes limiares

Como é mais conveniente mostrar os NR numa escala anual, de tal modo que o NR do

ano N é o nível excedido em média uma vez a cada N anos, foram calculados os NR para

5,10, 50 e 100 anos, para cada um dos limiares. Sendo que, por exemplo, o NR de 5 anos

corresponde ao NR da observação m com m = 356× 5 = 1825.

Ao se substituir na (3.40) obtêm-se os valores de xm, ou seja, do NR da observaçãom, e

ao se substituir na (3.42) obtém-se pelo método delta o valor da V ar (xm), deste modo, será

possível calcular também um IC de, aproximadamente, 95% para xm. Os valores obtidos,

para cada um dos limiares, estão representados nas três tabelas seguintes:4.12;4.13;4.14.

Tabela 4.12: Valores obtidos para diferentes anos de NR para o primeiro limiar

Tabela 4.13: Valores obtidos para diferentes anos de NR para o segundo limiar

79


DOS RESULTADOS

Tabela 4.14: Valores obtidos para diferentes anos de NR para o terceiro limiar

4.4.5 Escolha do limiar revista

Como explicado na secção 3.4.3.4 uma técnica complementar é ajustar a distribuição

GP numa gama de limiares e procurar a estabilidade das estimativas dos parâmetros. Os

gráficos de σ ∗ e ξ contra u são os dois na figura 4.21.

155000 160000 165000 170000

−50

000

050

000

Limiar

Esc

ala

Mod

ifica

da

155000 160000 165000 170000

−0.

6−

0.2

0.2

0.4

Limiar

For

ma

Figura 4.21: Estimação de parâmetros para 50 limiares diferentes para os dados diáriosdo tráfego da Ponte 25 de Abril

Só foi possível fazer o gráfico para um intervalo mais pequeno de valores, como se

vê, calculou-se de 155000 até 170000. Por isso, selecionou-se o intervalo de valores que,

segundo o observado no GVRM, seriam os de maior relevância. E, tal como observado

no gráfico 4.16, o padrão de mudança para limiares muito altos também é patente nesta

representação 4.21, mas, neste último, as perturbações parecem pequenas em relação aos

80

4.4. MODELO GP

erros de amostragem. Aparentemente, tendo em conta a figura 4.21, o primeiro valor do

u será o mais razoável.

A melhor precisão é obtida utilizando os IC do perfil da log-verisimilhança. As figuras

seguintes mostram o perfil da log-verosimilhança para ξ, para os diferentes limiares.

−0.3 −0.2 −0.1 0.0 0.1 0.2 0.3

−77

6.0

−77

5.0

−77

4.0

Parâmetro forma

Per

fil L

og−

vero

sim

ilhan

ça

(a) u1 = 165212

−0.24 −0.22 −0.20 −0.18 −0.16 −0.14−

4115

.5−

4114

.5−

4113

.5

Parâmetro forma

Per

fil L

og−

vero

sim

ilhan

ça

(b) u2 = 156297

−0.25 −0.20 −0.15 −0.10 −0.05

−15

51.5

−15

50.5

−15

49.5

−15

48.5

Parâmetro forma

Per

fil L

og−

vero

sim

ilhan

ça

(c) u3 = 161734

Figura 4.22: Gráficos do perfil da log-verosimilhança para ξ, no modelo de excedênciasdo limiar, aplicados nos dados do tráfego da Ponte 25 de Abril

Um IC de 95%, aproximadamente, para ξ, é obtido a partir dos gráficos como [−0.2582,

0.2540] para o primeiro limiar; [−0.2478, −0.1361]; para o segundo limiar e [−0.2767,

−0.0625] para o terceiro limiar.

Já o perfil da log-verosimilhança para os NR de diferentes anos são representados nos

gráficos seguintes, para os três limiares selecionados.

176000 178000 180000 182000 184000 186000 188000

−77

6.0

−77

5.0

−77

4.0

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(a) NR de 5 anos

180000 185000 190000 195000

−77

6.0

−77

5.0

−77

4.0

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(b) NR de 10 anos

180000 190000 200000 210000 220000

−77

6.5

−77

5.5

−77

4.5

−77

3.5

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(c) NR de 50 anos

180000 190000 200000 210000 220000 230000

−77

6.0

−77

5.0

−77

4.0

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(d) NR de 100 anos

Figura 4.23: Gráficos dos NR para anos diferentes, para o primeiro limiar, u1 = 165212

O IC de 95%, aproximadamente, para o NR de 5 anos é obtido a partir do perfil da

log-verosimilhança como [176020,186065]; para 10 anos é [177395,192242]; para 50 anos

é [179780,211825]; para 100 anos é [180475,223085].

81


DOS RESULTADOS

176000 177000 178000 179000 180000 181000 182000

−41

16.0

−41

15.0

−41

14.0

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(a) NR de 5 anos

177000 178000 179000 180000 181000 182000 183000 184000

−41

16.0

−41

15.0

−41

14.0

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(b) NR de 10 anos

180000 182000 184000 186000 188000

−41

16.0

−41

15.0

−41

14.0

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(c) NR de 50 anos

180000 182000 184000 186000 188000 190000

−41

16.0

−41

15.0

−41

14.0

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(d) NR de 100 anos

Figura 4.24: Gráficos dos NR para anos diferentes, para o segundo limiar, u2 = 156297


log-verosimilhança como [176090, 180966]; para 10 anos é [177260, 183095]; para 50

anos é [179289, 187500]; para 100 anos é [179930, 189170].

176000 178000 180000 182000 184000

−15

51.5

−15

50.5

−15

49.5

−15

48.5

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(a) NR de 5 anos

178000 180000 182000 184000 186000

−15

51.0

−15

50.0

−15

49.0

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(b) NR de 10 anos

180000 185000 190000 195000

−15

51.0

−15

50.0

−15

49.0

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(c) NR de 50 anos

180000 185000 190000 195000

−15

51.5

−15

50.5

−15

49.5

−15

48.5

Nível de Retorno

Per

fil L

og−

vero

sim

ilhan

ça

(d) NR de 100 anos

Figura 4.25: Gráficos dos NR para anos diferentes, para o terceiro limiar, u3 = 161734


82

4.4. MODELO GP

log-verosimilhança como [166452,189828]; para 10 anos é [167522,191935]; para 50 anos

é [170027,195526]; para 100 anos é [171082,196630].

83

CAPÍTULO 5Conclusões e problemas por analisar

A Teoria de Valores Extremos é uma vertente da Estatística por explorar e consegue

estudar o que outras áreas ignoram, que são os valores extremos, tantas vezes considerados

como “outliers” que “estragam as previsões” e, no entanto, são normalmente os valores

que têm mais impacto tanto a nível ambiental (como numa catástrofe natural), como a

nível financeiro quando existem “crashs” ou “booms” no mercado da bolsa.

Este ramo da Estatística não vai impedir que estes casos ocorram contudo pode ajudar

a prever e compreender estes acontecimentos e, deste modo, permitir minorar ou evitar

que as consequências sejam tão catastróficas.

Nesta dissertação foi elaborada uma análise da aplicação da Teoria dos Valores Ex-

tremos ao tráfego da Ponte 25 de Abril, um dos locais com maior fluxo de tráfego diário

recorrente em todo o país. Estimaram-se os parâmetros do modelo em questão, e fizeram-

se inferências sobre os níveis de retorno para um determinado número de anos, sobre os

períodos de retorno, etc., que são fulcrais para a previsão de fluxos de grande tráfego.

Relembrado, a amostra original disponibilizada é constituída por: registos diários do

tráfego da Ponte 25 de Abril desde 1 de janeiro de 2010 até 31 de dezembro de 2018;

registos do tráfego médio diário mensal desde 2006; registos do tráfego médio diário

anual desde 1966, de que foram efetuadas sub-amostras para se aplicarem os Modelos

da Teoria dos Valores Extremos, como por exemplo, os valores máximos anuais, com o

objetivo de serem aplicados aos máximos agrupados em blocos e à distribuição Gumbel.

Os métodos aplicados aos valores máximos anuais mostraram que o parâmetro de

forma, ξ, apresentou valores menores que zero, o que significa que a distribuição subja-

cente aos valores do tráfego anual máximo poderá ser a distribuição Weibull. No entanto,

a distribuição Gumbel não poderá ficar de lado visto que houve IC que incluíam o zero.

Como se pode observar na tabela 4.2 o IC do parâmetro forma é maioritariamente nega-

tivo, pelo que a distribuição subjacente deverá ser Weibull, mas deve também incluir a

análise da distribuição Gumbel pelo facto do IC inclui o ξ = 0.

No Modelo estatístico das r maiores observações fizeram-se três sub-amostras, com as

85

CAPÍTULO 5. CONCLUSÕES E PROBLEMAS POR ANALISAR

três, as cinco e as dez maiores observações de cada ano (desde 2010 a 2018), tendo em

consideração, não só as estimativas dos parâmetros e dos erros padrão das estimativas

para cada um dos valores de r, como também, a observação dos gráficos diagnóstico, 4.13,

4.14 e 4.15. A qualidade do ajuste para os máximos anuais do fluxo de tráfego na Ponte

25 de Abril, parece ser ligeiramente melhor quando são retidas as 5 maiores observações

em cada ano.

No método do modelo GP selecionaram-se os valores acima de três limiares diferentes,

tendo presente os gráficos diagnóstico, 4.18, 4.19 e 4.20. Ao visualizar, de modo mais

detalhado, os gráficos de probabilidade e de quantil, o melhor valor para u é 156297,

ou seja, o segundo limiar. Este também é o valor cujos erros padrão das estimativas são

menores.

Nesta tese focou-se o estudo no tráfego da Ponte 25 de Abril, mas seria relevante fazer

o mesmo estudo noutras Pontes, principalmente, na Ponte Vasco da Gama, fazendo uma

relação entre as duas através de um Modelo para Extremos Bivariados.

Neste estudo utilizaram-se os dados referentes ao tráfego diário, únicos disponibili-

zados. No entanto, se for possível disponibilizar os dados horários, poder-se-iam fazer as

previsões horárias de maior fluxo de tráfego e, com essa informação disponível, tomar

decisões quanto às deslocações e utilização da ponte. Quanto às empresas que são res-

ponsáveis por estas infraestruturas, poderiam eleger os melhores horários para possíveis

manutenções necessárias ou serem tidas em conta para outras ações.

Nesta tese não foi abordado o impacto dos ciclos de carga dos veículos na estrutura

da Ponte 25 de Abril. Poderá ter interesse na área da Engenharia das Estruturas e como

informação para a Lusoponte. Existem já estudos feitos nesta vertente, como é o caso do

artigo Yang, Zhang e Ren (2018).

Em relação à análise financeira da Ponte 25 de Abril, foi efetuado um estudo com base

nas receitas cobradas e no valor unitário pago nas Portagens por cada uma das Classes.

Verificou-se que tem havido um aumento dos preços unitários, por Classe, ao longo dos

anos, pelo menos, desde 1996, bem como das receitas recolhidas. Ainda se verificou que as

receitas da Lusoponte são maioritariamente provenientes da Ponte 25 de Abril. Todavia,

não foram exploradas as receitas a nível líquido, nem a percentagem que efetivamente é

lucro para a Lusoponte, já que ao ser uma entidade “Público-Privada” tem um modo de

funcionar distinto em relação ao fim das receitas.

86

Referências Bibliográficas

Almeida, I. (2018, novembro 7). Ponte 25 de abril não está em risco mas precisa de obras.

Obtido de http://www.lisbonne-idee.pt/p5383-ponte-abril-nao-esta-risco-mas-

precisa-obras.html

Beirlant, J., Goegebeur, Y., Segers, J. & Teugels, J. L. (2006). Statistics of extremes: Theoryand applications. John Wiley e Sons Ltd.

Bureau, U. S. C. (2017, janeiro 18). X-13arima-seats reference manual accessible html outputversion.

Coles, S. (2001). An introduction to statistical modeling of extreme values. Springer Series in

Statistics.

Costa, E. (2018, novembro 7). Ponte 25 de abril e tejo. Obtido de https://emanueljccosta.

files.wordpress.com/2014/10/ponte-25-de-abril-e-tejo-236.jpg

Ferreira, P. G. C. & Mattos, D. M. (2016). Usando o r para ensinar ajuste sazonal. Instituto

Brasileiro de Economia (FGV|IBRE).

Fisher, R. A. & Tippett, L. H. C. (1928). Limiting forms of the frequency distribution

of the largest or smallest member of a sample. Em Mathematical proceedings of thecambridge philosophical society (Vol. 24, 2, pp. 180–190). Cambridge University Press.

Garcia, A., Pignatelli, C., Salina, A. & Santos, G. (2000). Auditoria à aplicação do modelocontratual e aos acordos de reposição do equilíbrio financeiro. Tribunal de Contas Sector

Público Empresarial – DA IX.

GITHUB. (2009, janeiro 13). Obtido de https://github.com/cran/ismev/blob/master/R/

gev.R

Gnedenko, B. (1943). Sur ia distribution limite du terme maximum d’une serie aleatoire.

Annals of mathematics, 423–453.

Heffernan, J. E. & Stephenson, A. G. (2018, maio 8). Ismev: An introduction to statisticalmodeling of extreme values.

INE. (2018, novembro 7). Obtido de www.ine.pt/xportal/xmain?xpid=INE&xpgid=ine_

indicadores&indOcorrCod=0008937&contexto=bd&selTab=tab2

Infraestruturas de Portugal, S. (2017). Relatório síntese de execução orçamentar 4º trimestre2017.

Infraestruturas de Portugal, S. (2018a, novembro 7). 50 anos da ponte 25 de abril - linha

do tempo. Obtido de www.infraestruturasdeportugal.pt/50-anos-da-ponte-25-de-

abril/linha-do-tempo

87

http://www.lisbonne-idee.pt/p5383-ponte-abril-nao-esta-risco-mas-precisa-obras.html

http://www.lisbonne-idee.pt/p5383-ponte-abril-nao-esta-risco-mas-precisa-obras.html

https://emanueljccosta.files.wordpress.com/2014/10/ponte-25-de-abril-e-tejo-236.jpg

https://emanueljccosta.files.wordpress.com/2014/10/ponte-25-de-abril-e-tejo-236.jpg

https://github.com/cran/ismev/blob/master/R/gev.R

https://github.com/cran/ismev/blob/master/R/gev.R

www.ine.pt/xportal/xmain?xpid=INE&xpgid=ine_indicadores&indOcorrCod=0008937&contexto=bd&selTab=tab2

www.ine.pt/xportal/xmain?xpid=INE&xpgid=ine_indicadores&indOcorrCod=0008937&contexto=bd&selTab=tab2

www.infraestruturasdeportugal.pt/50-anos-da-ponte-25-de-abril/linha-do-tempo

www.infraestruturasdeportugal.pt/50-anos-da-ponte-25-de-abril/linha-do-tempo

REFERÊNCIAS BIBLIOGRÁFICAS

Infraestruturas de Portugal, S. (2018b). Relatório e contas consolidado 2018 primeiro semes-tre.

Jornal de Negócios. (2012, julho 30). Obtido de www.jornaldenegocios.pt/economia/

detalhe/mecircs_de_agosto_volta_a_ser_pago_na_ponte_25_de_abril

Leadbetter, M. R., Lindgren, G. & Rootzen, H. (1983). Extremes and related properties ofrandom sequences and processes. Springer Verlag.

Lima, F. (2018). Estatísticas dos transportes e comunicações 2017.

Lusoponte, C. (2019a, fevereiro 26). Informacoes gerais - ponte 25 de abril. Obtido de

www.lusoponte.pt/25-de-abril/informacoes-gerais

Lusoponte, C. (2019b, março 15). Informacoes gerais - ponte vasco da gama. Obtido de

www.lusoponte.pt/vasco-da-gama/informacoes-gerais

Maravall, A. (2005). An application of the tramo-seats automatic procedure; direct versus

indirect adjustment. Computational Statistics & Data Analysis, 50(9), 2167–2190.

Mises, R. v. (1936). La distribution de la plus grande de n valeurs. Rev. Math. UnionInterbalcanique, 1, 141–160.

Penalva, H., Neves, M. & Nunes, S. (2013). Topics in data analysis using r in extreme

value theory. Metodoloski zvezki, (1).

Público. (2006, agosto 6). Obtido de www.publico.pt/2006/08/06/local/noticia/ponte-

25 - de - abril - primeira - travessia - do - tejo - em - lisboa - completa - hoje - 40 - anos -

1266400

Rosário, P. A. G. (2013). Análise de valores extremos para níveis pluviométricos em barcelos(tese de mestrado, Universidade de Lisboa - Faculdade de Ciências).

Sax, C. & Eddelbuettel, D. (2018, dezembro 20). Seasonal: R interface to x-13-arima-seats.Smith, R. L. (1985). Maximum likelihood estimation in a class of nonregular cases. Bio-

metrika, 72(1), 67–90.

StackExchange. (2018, fevereiro 26). Obtido de https : / / stats . stackexchange . com /

questions/148573/the-results-and-specifics-from-the-qs-function-in-r

Trainlogistic. (2018, novembro 6). Ponte 25 de abril. Obtido de http://www.trainlogistic.

com/pt/Estrutura/ObrasArte/Eixo-NS/pt_25abril.htm

Wikipedia. (2018, fevereiro 27). Autorregressive integrated moving average. Obtido de

https://en.wikipedia.org/wiki/Autorregressive_integrated_moving_average

Yang, X., Zhang, J. & Ren, W.-X. (2018). Threshold selection for extreme value estimation

of vehicle load effect on bridges. International journal of distributed sensor networks,14(2), 1–12.

88

www.jornaldenegocios.pt/economia/detalhe/mecircs_de_agosto_volta_a_ser_pago_na_ponte_25_de_abril

www.jornaldenegocios.pt/economia/detalhe/mecircs_de_agosto_volta_a_ser_pago_na_ponte_25_de_abril

www.lusoponte.pt/25-de-abril/informacoes-gerais

www.lusoponte.pt/vasco-da-gama/informacoes-gerais

www.publico.pt/2006/08/06/local/noticia/ponte-25-de-abril-primeira-travessia-do-tejo-em-lisboa-completa-hoje-40-anos-1266400



https://stats.stackexchange.com/questions/148573/the-results-and-specifics-from-the-qs-function-in-r

https://stats.stackexchange.com/questions/148573/the-results-and-specifics-from-the-qs-function-in-r

http://www.trainlogistic.com/pt/Estrutura/ObrasArte/Eixo-NS/pt_25abril.htm

http://www.trainlogistic.com/pt/Estrutura/ObrasArte/Eixo-NS/pt_25abril.htm

https://en.wikipedia.org/wiki/Autorregressive_integrated_moving_average

ANEXO IAnexo

I.1 Ajuste sazonal, resultados detalhados

I.1.1 Estatística QS

Código do R para o cálculo da estatística QS:

1 require(seasonal)

2 m <- seas(x=trafego)

3 require(polynom)

4 x <- trafego

5 S <- frequency(x)

6 S

7 [1] 12

8 y<-udg(m, "x13mdl")

9 y

10 x13mdl

11 (0 1 1)(0 1 1)

12

13 ndif <- max(1, min(2, 2))

14 dx <- filter(x, polynomial(c(1,-1))^ndif, sides=1)

15 dx <- window(dx, start=time(x)[ndif+1])

16 R <- acf(dx, lag.max=S*2, plot=FALSE)$acf[-1,,1][c(S, 2*S)]

17 if (R[1] <= 0)

18 + R[1] <- 0

19 if (R[2] <= 0)

20 + R[2] <- 0

21 R

22 [1] 0.7092818 0.6373856

23 n <- length(dx)

24 n

25 [1] 106

26 QS <- n*(n+2)*(R[1]^2/(n-S) + R[2]^2/(n-2*S))

27 pvalue <- pchisq(q=QS, df=2, lower.tail=FALSE)

28 round(c(QS=QS, p.value=pvalue), 4)

89

ANEXO I. ANEXO

29 QS p.value

30 117.9867 0.0000

31 qs(m)["qsori",]

32 qs p-val

33 117.9867 0.0000

I.1.2 Previsões do tráfego na Ponte 25 de Abril com o ajuste sazonal

Data PrevisãoLimite

Inferior ICLimite

superior ICjan/19 4101281 3918143 4284419fev/19 3854536 3649774 4059299mar/19 4314374 4100248 4528500abr/19 4281630 4067490 4495770mai/19 4625369 4402324 4848413jun/19 4571697 4338591 4804803jul/19 4987469 4743992 5230946

ago/19 4837331 4584004 5090658set/19 4577284 4313499 4841070out/19 4464936 4190220 4739652nov/19 4198770 3914404 4483137dez/19 4312279 4017568 4606989jan/20 4211359 3905353 4517364fev/20 3940587 3622264 3622264

mar/20 4455309 4124362 4786256

abr/20 4395985 4053811 4738158

mai/20 4739824 4386410 5093238

jun/20 4696185 4330561 5061808

jul/20 5110072 4732070 5488074

ago/20 4960036 4570310 5349761

set/20 4704063 4301873 5106253

out/20 4589830 4175558 5004102

nov/20 4329724 3903079 4756369

dez/20 4447306 4008123 4886489

Figura I.1: Primeira previsão do tráfego na Ponte 25 de Abril com ajuste sazonal, valorescorrespondentes ao gráfico representado na figura 2.13

Ano/mês JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ

2019 4388701 4395892 4403730 4412215 4421347 4431125 4440763 4450023 4459457 4469065 4478847 4488803

2020 4498933 4509237 4519715 4530366 4541192 4552192 4563366 4574714 4600244 4663029 4766106 4898965

Figura I.2: Segunda previsão do tráfego na Ponte 25 de Abril com ajuste sazonal, valorescorrespondentes ao gráfico representado na figura 2.14

90

I .2. ANÁLISE DAS PORTAGENS E RECEITAS DA PONTE 25 DE ABRIL,

VALORES DETALHADOS

I.2 Análise das portagens e receitas da Ponte 25 de Abril,

valores detalhados

Data de início de aplicação

Classe 1 Classe 2 Classe 3 Classe 4

01/01/1996 0,75 € 1,85 € 2,74 € 3,59 €

01/01/2002 1,00 € 2,55 € 3,75 € 4,85 €

01/01/2003 1,05 € 2,65 € 3,90 € 5,05 €

01/01/2004 1,10 € 2,75 € 4,05 € 5,25 €

01/01/2005 1,15 € 2,85 € 4,15 € 5,40 €

01/01/2006 1,20 € 2,95 € 4,30 € 5,60 €

01/01/2007 1,25 € 3,05 € 4,45 € 5,80 €

01/01/2008 1,30 € 3,15 € 4,55 € 5,95 €

01/01/2009 1,35 € 3,25 € 4,70 € 6,15 €

01/07/2010 1,40 € 3,30 € 4,75 € 6,20 €

01/01/2011 1,45 € 3,40 € 4,85 € 6,35 €

01/01/2012 1,55 € 3,55 € 5,05 € 6,60 €

01/01/2013 1,60 € 3,70 € 5,20 € 6,80 €

01/01/2014 1,65 € 3,75 € 5,25 € 6,85 €

01/01/2016 1,70 € 3,80 € 5,30 € 6,95 €

01/01/2017 1,75 € 3,85 € 5,35 € 7,00 €

01/01/2018 1,80 € 3,95 € 5,45 € 7,10 €

01/01/2019 1,85 € 4,05 € 5,55 € 7,20 €

Tabela I.1: Valor unitário das Portagens da Ponte 25 de Abril, das quatro Classes, de 1996a 2019

Intervalo de tempo Classe 1 Classe 2 Classe 3 Classe 4 Média

01-01-1996 a 31-12-200101-01-2002 a 31-12-2002 0,25 € 0,70 € 1,01 € 1,26 € 0,81 €

01-01-2003 a 31-12-2003 0,05 € 0,10 € 0,15 € 0,20 € 0,13 €

01-01-2004 a 31-12-2004 0,05 € 0,10 € 0,15 € 0,20 € 0,13 €

01-01-2005 a 31-12-2005 0,05 € 0,10 € 0,10 € 0,15 € 0,10 €

01-01-2006 a 31-12-2006 0,05 € 0,10 € 0,15 € 0,20 € 0,13 €

01-01-2007 a 31-12-2007 0,05 € 0,10 € 0,15 € 0,20 € 0,13 €

01-01-2008 a 31-12-2008 0,05 € 0,10 € 0,10 € 0,15 € 0,10 €

01-01-2009 a 30-06-2010 0,05 € 0,10 € 0,15 € 0,20 € 0,13 €

01-07-2010 a 31-12-2010 0,05 € 0,05 € 0,05 € 0,05 € 0,05 €

01-01-2011 a 31-12-2011 0,05 € 0,10 € 0,10 € 0,15 € 0,10 €

01-01-2012 a 31-12-2012 0,10 € 0,15 € 0,20 € 0,25 € 0,18 €

01-01-2013 a 31-12-2013 0,05 € 0,15 € 0,15 € 0,20 € 0,14 €

01-01-2014 a 31-12-2015 0,05 € 0,05 € 0,05 € 0,05 € 0,05 €

01-01-2016 a 31-12-2016 0,05 € 0,05 € 0,05 € 0,10 € 0,06 €

01-01-2017 a 31-12-2017 0,05 € 0,05 € 0,05 € 0,05 € 0,05 €

01-01-2018 a 31-12-2018 0,05 € 0,10 € 0,10 € 0,10 € 0,09 €

01-01-2019 a 31-12-2019 0,05 € 0,10 € 0,10 € 0,10 € 0,09 €

Aumento

Tabela I.2: Diferença entre os valores unitários das Portagens da Ponte 25 de Abril, dasquatro Classes, de 1996 a 2019

91

ANEXO I. ANEXO

Mês | Ano 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017

Janeiro 1827 1794 1919 x x 2537 2662 2803 2903 2971 2914 2914 2900 2978 3076 2921 2960 3022 3119 3308

Fevereiro 1724 1720 1896 x x 2393 2566 2621 2683 2728 2799 2799 2651 2840 2917 2749 2756 2837 3003 3095

Março 1949 1929 2043 x x 2656 2768 2873 2983 3132 3053 3175 3065 2481 3165 3000 3162 3252 3332 3469

Abril 1812 1884 1874 x x 2577 2788 2909 2983 3069 3009 3086 3077 3135 2985 3087 3164 3224 3333 3618

Maio 1922 2019 2113 x x 2844 2920 3061 3199 3226 3094 3271 3241 3260 3259 3276 3421 3488 3509 3699

Junho 1920 2052 2149 x x 2796 2940 3095 3059 3233 3147 3243 3188 3320 3278 3378 3357 3486 3658 3828

Julho 2071 2245 2292 x x 3001 3142 3336 3391 3557 3453 3583 3644 3539 3648 3669 3753 3841 4035 4116

Agosto - - - x x - - - - - - - - 3382 3510 3664 3691 3731 3996 4069

Setembro 1759 1970 2078 x x 2752 2946 2997 3089 3237 3098 3235 3266 3225 3249 3344 3331 3450 3686 3778

Outubro 1803 1965 2043 x x 2675 2794 2882 2972 3182 3067 3143 3074 3124 3030 3100 3288 3206 3454 3691

Novembro 1807 1928 1935 x x 2545 2691 2773 2837 3008 2890 2936 2931 2841 2820 3035 3013 3123 3258 3413

Dezembro 1812 1937 1901 x x 2603 2767 2865 2922 3067 2946 3002 3018 3000 2988 3117 3223 3259 3401 3485

Tabela I.3: Receitas em milhares de euros da Ponte 25 de Abril de 1998 a 2010

Na tabela I.3 o valores representados a vermelho não se encontram disponíveis no INE,

“INE” (2018), e a cor-de-laranja estão marcados os meses de agosto, quando as portagens

não eram cobradas, logo estes valores são igual a zero.

Mês | Ano 2011 2012 2013 2014 2015 2016 2017Janeiro 2978 3076 2921 2960 3022 3119 3308Fevereiro 2840 2917 2749 2756 2837 3003 3095Março 2481 3165 3000 3162 3252 3332 3469Abril 3135 2985 3087 3164 3224 3333 3618Maio 3260 3259 3276 3421 3488 3509 3699Junho 3320 3278 3378 3357 3486 3658 3828Julho 3539 3648 3669 3753 3841 4035 4116Agosto 3382 3510 3664 3691 3731 3996 4069Setembro 3225 3249 3344 3331 3450 3686 3778Outubro 3124 3030 3100 3288 3206 3454 3691Novembro 2841 2820 3035 3013 3123 3258 3413Dezembro 3000 2988 3117 3223 3259 3401 3485

Tabela I.4: Receitas em milhares de euros da Ponte 25 de Abril de 2011 a 2017

AnoReceitas

com inflação

Taxa de Inflação

(%)

Receitas sem

inflação

2003 29379 4,4 293792004 30984 3,5 299362005 32215 5,8 294192006 33021 5,5 285832007 34410 1,6 293172008 33470 1,5 280942009 34387 -3,6 299422010 34055 4,6 283492011 37125 8,9 283792012 37925 3,3 280642013 38340 -2,3 290392014 39119 -1,2 299892015 39919 -1,0 309112016 41784 -0,6 325512017 43569 3,1 32921

Tabela I.5: Valores das receitas cobradas com e sem inflação a preços constantes de 2003e a respetiva taxa em cada ano de 2003 a 2017

Os Valores das Receitas sem inflação foram ajustados aos preços de 2003. Para se

92

I .2. ANÁLISE DAS PORTAGENS E RECEITAS DA PONTE 25 DE ABRIL,

VALORES DETALHADOS

efetuar o cálculo das Receitas sem inflação foi dividido o valor das Receitas do ano N por

1 mais a taxa de inflação que aparece no ano N + 1. Já que a taxa de inflação que aparece

no ano N se refere ao ano N − 1.

Ano Valor total anual2003 293792004 30984 16052005 32215 12312006 33021 8062007 34410 13892008 33470 -9402009 34387 9172010 34055 -3322011 37125 30702012 37925 8002013 38340 4152014 39119 7792015 39919 8002016 41784 18652017 43569 1785

Variação

Tabela I.6: Diferenças das receitas em milhares de euros da Ponte 25 de Abril de 2003 a2017

93

ANEXO I. ANEXO

I.3 Aplicação dos Modelos da Teoria dos Valores Extremos

I.3.1 Modelo GEV Multivariado - Gráficos em detalhe

0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

k=1

170000 172000 174000 176000 178000

1650

0018

0000

k=1

0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

k=2

168000 170000 172000 17400016

5000

k=2

0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

k=3

165000 167000 169000 171000

1650

00

k=3

0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

k=4

164000 166000 168000 170000

1600

0017

5000

k=4

0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

k=5

163000 165000 167000 169000

1600

0017

5000

k=5

Figura I.3: Diagnóstico do modelo para os dados do tráfego da Ponte 25 de Abril combase no modelo ajustado da estatística das r maiores observações com r = 5. Gráficos deprobabilidade (do lado esquerdo) e de quantis (do lado direito) para as estatísticas de kmaiores observações, k = 1, ...,5

94

a aplicação da teoria de valores extremos ao tráfego da ponte 25 de … · 2019-10-18 · resumo...

Documents