análise multivariadae
Post on 02-Oct-2015
218 Views
Preview:
DESCRIPTION
TRANSCRIPT
-
1
UNIVERSIDADE DE LISBOA
FACULDADE DE CINCIAS
DEPARTAMENTO DE ESTATSTICA E INVESTIGAO OPERACIONAL
ANLISE ESTATSTICA MULTIVARIADA APLICADA A
DADOS HIDROGEOLGICOS
Vnia Sofia Pires Simes Gomes
Dissertao
Mestrado em Estatstica
2013
-
2
UNIVERSIDADE DE LISBOA
FACULDADE DE CINCIAS
DEPARTAMENTO DE ESTATSTICA E INVESTIGAO OPERACIONAL
ANLISE ESTATSTICA MULTIVARIADA APLICADA A
DADOS HIDROGEOLGICOS
Vnia Sofia Pires Simes Gomes
Dissertao orientada pela Prof. Doutora Fernanda Diamantino e
coorientada pela Prof. Doutora Catarina Silva
Mestrado em Estatstica
2013
-
3
-
i
ndice
ndice de Figuras ............................................................................................................. iii
ndice de Tabelas .............................................................................................................. v
ndice de Anexos ............................................................................................................. vi
Resumo ........................................................................................................................... vii
Abstract ............................................................................................................................ ix
Captulo 1: Introduo ...................................................................................................... 1
1.1. Objetivos do estudo ........................................................................................... 1
1.2. Enquadramento geolgico ................................................................................. 6
Captulo 2: Metodologia ................................................................................................... 9
2.1. Conceitos de lgebra matricial ............................................................................... 9
2.1.1. Conceito de matriz .......................................................................................... 9
2.1.2. Tipos de matrizes ............................................................................................ 9
2.1.3. Igualdade de matrizes .................................................................................... 10
2.1.4. Operaes com matrizes................................................................................ 11
2.1.5. Trao de uma matriz ...................................................................................... 11
2.1.6. Vetores linearmente dependentes e independentes ....................................... 11
2.1.7. Caracterstica de uma matriz ......................................................................... 12
2.1.8. Determinante ................................................................................................. 12
2.1.9. Matriz adjunta e matriz inversa ..................................................................... 13
2.1.10. Matriz ortogonal .......................................................................................... 13
2.1.11. Valores prprios e vetores prprios ............................................................ 13
2.1.12. Decomposio espetral ................................................................................ 14
2.2. Caractersticas amostrais .................................................................................. 15
2.2.1. Caractersticas amostrais univariadas ....................................................... 15
2.2.2. Caractersticas amostrais bivariadas ......................................................... 16
2.3. Tcnicas de Anlise Multivariada .................................................................... 18
2.3.1. Anlise em Componentes Principais ........................................................ 19
2.3.1.1. Introduo ............................................................................................... 19
2.3.1.2. O modelo matemtico ............................................................................. 20
2.3.1.3. Nmero de componentes a reter ............................................................. 22
-
ii
2.3.2. Anlise Fatorial ........................................................................................ 23
2.3.2.1. Introduo ............................................................................................... 23
2.3.2.2. O modelo matemtico ............................................................................. 23
2.3.2.3. Nmero de fatores a reter ....................................................................... 24
2.3.2.4. Rotao dos fatores ................................................................................. 25
2.3.2.5. Mtodo de extrao dos fatores .............................................................. 26
2.3.2.6. Validao do modelo de anlise fatorial................................................. 27
2.3.2.7. Anlise em Componentes Principais versus Anlise Fatorial ................ 28
2.3.3. Anlise de Clusters ................................................................................... 29
2.3.3.1. Introduo.......................................................................................... 29
2.3.3.2. Medidas de proximidade ................................................................... 30
2.3.3.3. Mtodos de agregao ....................................................................... 32
2.3.3.4. Critrios de agregao ....................................................................... 33
Captulo 3: Anlise de dados hidrogeolgicos ............................................................... 35
3.1. Anlise Exploratria dos Dados ...................................................................... 39
3.1.1. Caractersticas amostrais .......................................................................... 39
3.1.2. Correlao linear de Pearson .................................................................... 45
3.1.3. Representaes grficas ............................................................................ 47
3.2. Anlise Multivariada ........................................................................................ 63
3.2.1. Anlise em Componentes Principais ........................................................ 63
3.2.2. Anlise Fatorial ........................................................................................ 71
3.2.3. Anlise de Clusters ................................................................................... 78
Captulo 4: Concluses ................................................................................................... 89
Consideraes Finais ...................................................................................................... 95
Bibliografia ..................................................................................................................... 97
Anexos .......................................................................................................................... 101
-
iii
ndice de Figuras
Figura 1: Localizao geogrfica das amostras de gua e respetivas formaes
geolgicas ....................................................................................................... 4
Figura 2: Localizao geogrfica das amostras de gua ................................................ 36
Figura 3: Localizao geogrfica das amostras de gua e respetivas formaes
geolgicas ....................................................................................................... 37
Figura 4: Diagramas em caixa de bigodes paralelos de cada varivel comparando
cada formao geolgica ................................................................................. 48
Figura 5: Diagramas em caixa de bigodes paralelos de cada formao geolgica,
para cada io.................................................................................................... 51
Figura 6: Diagramas de disperso das observaes reorganizadas versus cada uma
das variveis em estudo .................................................................................. 54
Figura 7: Matriz de diagramas de disperso para cada formao geolgica com as
variveis condutividade eltrica, clcio, sdio e cloreto ................................. 58
Figura 8: Matriz de diagramas de disperso para cada formao geolgica com as
variveis bicarbonato, clcio e magnsio ........................................................ 60
Figura 9: Matriz de diagramas de disperso para cada formao geolgica com as
variveis bicarbonato, clcio e sulfato ............................................................ 61
Figura 10: Diagrama de disperso para cada formao geolgica com as variveis
nitrato e sulfato ............................................................................................... 62
Figura 11: Scree plot (nmero de componentes principais versus valores prprios) ..... 65
Figura 12: Representao grfica dos loadings das duas primeiras componentes
principais....................................................................................................... 67
Figura 13: Representao grfica dos scores (observaes) das duas primeiras
componentes principais ................................................................................ 68
Figura 14: Representao grfica dos scores (formaes geolgicas) das duas
primeiras componentes principais ................................................................ 69
Figura 15: Representao grfica (biplot) dos loadings e dos scores (observaes)
das duas primeiras componentes principais .................................................. 70
Figura 16: Representao grfica (biplot) dos loadings e dos scores (formaes
geolgicas) das duas primeiras componentes principais .............................. 70
Figura 17: Representao grfica dos loadings dos 2 primeiros fatores ........................ 75
-
iv
Figura 18: Dendograma (variveis estandardizadas) para a amostra global
utilizando o mtodo de Ward ........................................................................ 79
Figura 19: Localizao geogrfica das amostras de gua que constituem os clusters
(cluster1, cluster2 e cluster3) obtidos quando se utiliza o mtodo de
Ward com as variveis estandardizadas ....................................................... 79
Figura 20: Dendograma (variveis estandardizadas) para a amostra global
utilizando o mtodo de Complete Linkage ................................................ 80
Figura 21: Localizao geogrfica das amostras de gua que constituem os clusters
(cluster1, cluster2 e cluster3) obtidos quando se utiliza o mtodo de
Complete Linkage com as variveis estandardizadas ................................... 81
Figura 22: Dendograma (com os scores das 5 primeiras componentes principais)
para a amostra global usando o mtodo de Ward ......................................... 83
Figura 23: Localizao geogrfica das amostras de gua que constituem os clusters
(cluster1, cluster2 e cluster3) obtidos quando se utiliza o mtodo de
Ward com as 5 primeiras componentes principais ....................................... 84
Figura 24: Dendograma (com os scores das 5 primeiras componentes principais)
para a amostra global usando o mtodo de Complete Linkage .................... 85
Figura 25: Localizao geogrfica das amostras de gua que constituem os clusters
(cluster1, cluster2 e cluster3) obtidos quando se utiliza o mtodo de
Complete Linkage com os scores das 5 primeiras componentes
principais....................................................................................................... 86
Figura 26: Dendogramas (observaes) para cada formao geolgica utilizando o
mtodo de Ward (variveis estandardizadas) ............................................... 87
-
v
ndice de Tabelas
Tabela 1: Escala de avaliao da anlise fatorial............................................................ 27
Tabela 2: Provenincia das amostras .............................................................................. 38
Tabela 3: Caractersticas amostrais das variveis (amostra global) ............................... 39
Tabela 4: Caractersticas amostrais (mdia e desvio padro) das variveis em cada
grupo de formaes geolgica ........................................................................ 44
Tabela 5: Valores prprios da matriz de correlaes amostral ....................................... 63
Tabela 6: Proporo de varincia explicada por cada componente e proporo de
varincia acumulada explicada at componente j. ....................................... 64
Tabela 7: Matriz dos loadings das componentes principais ........................................... 66
Tabela 8: Valores prprios da matriz de correlaes amostral ....................................... 71
Tabela 9: Proporo de varincia explicada por cada fator e proporo de varincia
acumulada pelo fator j ..................................................................................... 72
Tabela 10: Comunalidades iniciais e extradas atravs do mtodo das componentes
principais....................................................................................................... 73
Tabela 11: Matriz dos loadings (sem rotao dos fatores) ............................................. 73
Tabela 12: Matriz da transformao ortogonal obtida pelo mtodo de rotao
varimax ....................................................................................................... 74
Tabela 13: Matriz dos loadings (aps rotao varimax) ................................................ 74
Tabela 14: Designao dos fatores ................................................................................. 75
Tabela 15: KMO e teste de esfericidade de Bartlett ....................................................... 76
Tabela 16: Medida de adequao amostral para cada varivel (MSA) .......................... 77
Tabela 17: Caracterizao dos grupos de formaes geolgicas.................................... 89
Tabela 18: Tabela resumo dos outliers por cada grupo de formao geolgica e por
cada varivel ................................................................................................. 90
-
vi
ndice de Anexos
Anexo 1: Matriz dos dados ............................................................................................ 104
Anexo 2: Caracterizao dos grupos de formaes geolgicas .................................... 105
Anexo 3: Tabelas com os valores extremos (os 5 maiores e os 5 menores valores)
para cada varivel.......................................................................................... 107
Anexo 4: Matriz de correlaes de Peason - amostra gobal.......................................... 108
Anexo 5: Matriz de correlaes de Pearson - Aluvies ................................................ 109
Anexo 6: Matriz de correlaes de Pearson - Formao de Benfica............................. 110
Anexo 7: Matriz de correlaes de Pearson - Complexo Vulcnico de Lisboa ............ 111
Anexo 8: Matriz de correlaes de Pearson - Calcrios de Entrecampos ..................... 112
Anexo 9: Matriz de correlaes de Pearson - Areolas da Estefnia e Areias do Vale
de Chelas ....................................................................................................... 113
Anexo 10: Matriz de correlaes de Pearson - Argilas do Forno do Tijolo e Argilas
e Calcrios dos Prazeres ................................................................................ 114
Anexo 11: Scores das 5 primeiras componentes principais .......................................... 116
-
vii
Resumo
Para o presente estudo utilizaram-se anlises qumicas de 48 amostras de gua
subterrnea da cidade de Lisboa das quais se selecionaram 13 variveis referentes a
espcies dissolvidas (anies e caties) e parmetros fsico-qumicos.
Este estudo teve como objetivo avaliar a existncia de relao entre a composio
qumica da gua subterrnea e as formaes geolgicas por onde esta circulou, ou seja,
pretendeu-se identificar as espcies dissolvidas que caracterizavam cada formao
geolgica, bem como, identificar o que distinguia cada uma das formaes geolgicas.
Deste modo, numa fase inicial procedeu-se a uma anlise exploratria com o intuito de
caracterizar a amostra global e as amostras parciais (correspondentes a cada formao
geolgica) e, numa fase final procedeu-se a uma anlise multivariada, onde se
utilizaram tcnicas de reduo de dimensionalidade (anlise em componentes principais
e anlise fatorial) e tcnicas de agrupamento de dados (anlise de clusters).
Concluiu-se que as amostras provenientes da Formao de Benfica e do Complexo
Vulcnico de Lisboa tinham composio qumica idntica. Relativamente s restantes
formaes geolgicas, no existia uma homogeneidade entre amostras provenientes da
mesma formao, nem entre amostras provenientes de formaes distintas, pelo que, a
caracterizao das formaes geolgicas tornou-se muito complexa.
Como os valores das correlaes de Pearson, entre as variveis, eram baixos, a
aplicao das tcnicas de reduo de dimensionalidade no surtiu o efeito desejado.
Palavras chave: gua subterrnea, anlise exploratria, anlise em componentes
principais, anlise fatorial, anlise de clusters.
-
viii
-
ix
Abstract
For the present study we used chemical analyzes of 48 groundwater samples of Lisbon
in which was selected 13 variables related to dissolved species (anions and cations) and
physico-chemical parameters.
This study aims to evaluate whether there is a relationship between the chemical
composition of the groundwater and the geological formations where it circulated, this
is, it was intended to identify the dissolved species that characterize each geological
formation, as well as to identify what distinguishes each geological formations.
Thus, initially we proceeded with an exploratory analysis in order to characterize the
sample and partial samples (corresponding to each geological formation), and in a final
stage, we applied a multivariate analysis, where techniques were used to reduce the
dimensionality (principal component analysis and factor analysis) and techniques to
data clustering (cluster analysis).
It was concluded that the samples from the Formao de Benfica and Complexo
Vulcnico de Lisboa had identical chemical composition. For the other geological
formations, there was no homogeneity among samples from the same formation, or
between samples from different formations. Therefore, the characterization of the
geologic formations has become very complex.
Since the values of the Pearson correlations among the variables were low, the
application of reduce the dimensionality techniques do not have the desired effect.
Keywords: Groundwater, exploratory analysis, principal component analysis, factor
analysis, cluster analysis
-
x
-
1
Captulo 1: Introduo
Este trabalho surge com o intuito de dar resposta a algumas questes relativas
caracterizao de guas subterrneas da cidade de Lisboa, tendo como ponto de partida
um conjunto de 48 anlises de guas subterrneas recolhidas no especificamente para
este trabalho. Este conjunto resultou de recolhas para a concretizao de unidades
curriculares do 1 ciclo de estudos em Geologia da FCUL (Caria et al, 2009, Manca et
al, 2008 e Sanches et a,l 2006) e 2 ciclo de estudos em Geologia Aplicada e do
Ambiente da FCUL (Oliveira, 2010) e em Engenharia do Ambiente do IST (Lopes,
2007). A localizao geogrfica de, cada amostra de gua encontra-se na figura 1, onde
se pode observar a que formao geolgica corresponde.
1.1. Objetivos do estudo
Para a realizao deste trabalho foram definidos alguns objetivos, nomeadamente:
Calcular, analisar e interpretar as caractersticas amostrais;
Aferir sobre a qualidade das guas subterrneas para consumo humano;
Analisar e interpretar as representaes grficas (anlise exploratria);
Identificar as espcies dissolvidas que caracterizam cada formao geolgica;
Relacionar a composio qumica da gua subterrnea com a formao
geolgica aflorante no local de recolha;
Descrever a variabilidade dos dados com um menor nmero de variveis no
correlacionadas;
Explicar atravs de um menor nmero de fatores (no observados) as
correlaes entre as variveis;
Utilizar uma anlise de clusters para reagrupar as amostras de gua subterrnea
de acordo com a sua composio qumica;
Identificar caractersticas distintivas de cada uma das formaes geolgicas;
Identificar caractersticas comuns entre as formaes geolgicas.
-
2
-
3
Destaca-se como objetivo principal a caracterizao de cada grupo de formaes
geolgicas, atravs da anlise das concentraes das espcies qumicas dissolvidas nas
guas subterrneas, bem como de alguns parmetros fsico-qumicos.
O trabalho ser dividido em duas partes. A primeira parte ser constituda pelos
captulos 1 e 2 e corresponder ao desenvolvimento terico. A segunda parte ser
constituda pelos captulos 3 e 4 e corresponder ao desenvolvimento prtico.
No captulo 1 ser feito o enquadramento geolgico, no qual se far uma breve
introduo s caractersticas das formaes geolgicas.
No captulo 2 ser abordada a metodologia a desenvolver. Na primeira seco iro
definir-se alguns conceitos de lgebra matricial. Na segunda seco, com o intuito de se
efetuar uma anlise exploratria dos dados, iro definir-se algumas caractersticas
amostrais. Na terceira e ltima seco ser feita uma breve abordagem das tcnicas de
anlise multivariada a serem utilizadas, nomeadamente a anlise em componentes
principais, a anlise fatorial e a anlise de clusters.
No captulo 3 sero apresentados os resultados obtidos.
No captulo 4 sero apresentadas as concluses.
A anlise estatstica ser efetuada com a utilizao do software SPSS, verso 19.
-
4
Figura 1: Localizao geogrfica das amostras de gua e respetivas formaes geolgicas
-
5
-
6
1.2. Enquadramento geolgico
A composio qumica da gua subterrnea da rea de Lisboa est intimamente
relacionada com as caractersticas do meio geolgico, das condies climticas e
tambm das atividades humanas que decorrem na cidade.
O Concelho de Lisboa situa-se na Orla mesocenozica, a qual constituda por espessas
sries de sedimentos, onde predominam os sedimentos carbonatados, os arenitos e os
argilitos (Almeida et al., 2000).
Na rea do concelho de Lisboa os terrenos mais antigos, cujos principais afloramentos
se encontram nas zonas de Monsanto, Ajuda e Vale de Alcntara, so
predominantemente constitudos por calcrios, calcrios margosos e margas. A geologia
de Lisboa, de elevada complexidade, pode ser descrita de um modo simplificado em trs
setores: Setor SW, Monsanto-Ajuda-Alcntara; Setor NW, Formao de Benfica e
Miocnico; Setor E, Srie Miocnica.
Setor SW: Monsanto-Ajuda-Alcntara
As formaes calcrias do Cenomaniano, que se apresentam dobradas e fraturadas
(Cabral, 2006), esto sobrepostas por formaes baslticas do Complexo Vulcnico de
Lisboa (1). Neste setor, as formaes cretcicas estendem-se desde a zona central e
mais elevada da Serra de Monsanto, seguindo pelo Vale de Alcntara at praticamente
ao Rio Tejo, prolongando-se para SW ao longo da encosta do Bairro da Ajuda,
aflorando no seio do Complexo Vulcnico de Lisboa (Pais et al., 2006).
Esta zona compreende formaes do Cretcico superior, como a Formao de Caneas
(C2 cn), constituda por calcrios margosos e dolomticos, datados do Albiano superior a
Cenomaniano mdio. Sobre a formao anterior, assenta a Formao de Bica (C2 Bi), do
Cenomaniano superior, representada por calcrios compactos e apinhoados, com
ndulos de slex e com rudistas. No topo do Cretcico superior aflora o Complexo
Vulcnico de Lisboa, constitudo por rochas eruptivas bsicas (Basaltos), sob a forma
de escoadas lvicas alternando com piroclastos e aglomerados vulcnicos, com idade
provvel do Cenomaniano (Pais et al., 2006).
-
7
Setor NW: Formao de Benfica e Miocnico
constitudo por formaes cenozicas correspondentes Formao de Benfica ( Bf)
e ao Miocnico. Este setor est na continuidade da estrutura de Monsanto e apresenta
uma sucesso de ondulaes suaves.
Sobre o Complexo Vulcnico de Lisboa, assenta, em discordncia, a Formao de
Benfica ( Bf), constituda por depsitos continentais, onde se intercalam nveis mais
argilosos, detrticos e carbonatados.
Setor Este: Srie Miocnica
Compreende intercalaes de formaes detrticas e carbonatadas da Srie Miocnica.
Apresenta-se, de um modo geral, em monoclinal, inclinando suavemente para E-SE.
O Neognico abrange unidades miocnicas como as Camadas de Prazeres (Mpr), do
Aquitaniano a Burdigaliano inferior, constitudas por argilitos, argilitos siltosos e
margosos, margas e calcrios.
Sobrepostas a estas, esto as Areolas de Av. da Estefnia (MEs), datada do Burdigaliano
e constituda por areias finas, siltosas, micceas (areolas) argilas silto arenosas e
arenitos mais ou menos consolidados. De seguida, depositaram-se os Calcrios de
Entrecampos (MEC), formao representada por biocalcarenitos com frao detrtica
abundante, por vezes argilosa, ricos de moldes e/ou fragmentos de moluscos e calcrios
margosos, cinzento-esverdeado.
A formao anterior passa superiormente a areias muito finas argilosas, piritosas, e a
siltitos argilosos de cor cinzenta, com moluscos, peixes e abundantes microfsseis,
correspondente unidade de Argilas de Forno do Tijolo (MFT).
A formao Areias do Vale de Chelas (Mvb) constituda por areias feldspticas,
fluviais, incoerentes ou fracamente cimentadas, s vezes grosseiras e compactas; em
posio superior ocorrem areias dunares.
As aluvies (a) do Concelho de Lisboa incluem os depsitos diretamente associados ao
leito principal do Rio Tejo e a todas as ribeiras e linhas de gua que a este afluem, na
sua margem direita. As espessuras das aluvies do Tejo so muito variveis de local
para local. Estas so predominantemente lodosas, com abundante matria orgnica, ou
arenosas. As aluvies das ribeiras afluentes do Tejo tm composio em muitos casos
dependentes das litologias erodidas, contendo frequentemente, matria orgnica
(Almeida, 1991).
-
8
-
9
Captulo 2: Metodologia
Neste captulo procede-se ao desenvolvimento terico das metodologias aplicadas no
estudo a realizar.
2.1. Conceitos de lgebra matricial
Nesta seco relembram-se alguns conceitos cruciais de lgebra matricial que se
utilizam no desenvolvimento das tcnicas de anlise multivariada. Naturalmente
comea-se com o conceito de matriz (Monteiro, 2001, Searle, 1982 e Timm, 2002).
2.1.1. Conceito de matriz
Designa-se por matriz de ordem n m, a tabela A =
, com n linhas e
m colunas.
Pode denotar-se a matriz A por [ ] com i = 1,, n e j = 1,, m.
As entradas aij so os elementos de A, em que i indica a linha e j indica a coluna.
Quando uma matriz tem ordem n 1 ou ordem 1 n designa-se por vetor, ou seja, tem
n linhas e uma coluna ou tem 1 linha e n colunas, respetivamente. No primeiro caso
designa-se por vetor coluna e representa-se do seguinte modo: x =
. No segundo
caso designamos por vetor linha e representa-se do seguinte modo: xT = .
Uma matriz de ordem 1 1 designa-se por escalar.
2.1.2. Tipos de matrizes
No que se segue definem-se alguns tipos de matizes, nomeadamente matriz quadrada,
diagonal, identidade, transposta e simtrica.
-
10
Uma matriz quadrada a matriz em que o nmero de linhas igual ao nmero de
colunas e diz-se que tem ordem n n, ou simplesmente ordem n.
Caso contrrio, se o nmero de linhas for diferente do nmero de colunas, diz-se que a
matriz retangular de ordem n m.
Uma matriz quadrada de ordem n, em que
com i, j = 1, , n, designa-se
por uma matriz diagonal, ou seja, a uma matriz da forma:
Em particular, se d11 = 1,, dnn = 1, tem-se a matriz Identidade, que se denota por In, e
representa-se da forma:
.
Para qualquer matriz A quadrada de ordem n, verifica-se a seguinte propriedade:
AI = IA = A.
Seja A uma matriz de ordem n m. Designa-se por matriz transposta de A, e
representa-se por AT, matriz que se obtm trocando as linhas com as colunas, ou seja,
as linhas de A so as colunas de AT e as colunas de A so as linhas de A
T.
Assim sendo, tem-se que:
se A = de ordem n m, ento AT = de ordem m n.
Seja A uma matriz quadrada de ordem n. Diz-se que A simtrica se e s se A = AT.
2.1.3. Igualdade de matrizes
Duas matrizes so iguais se os elementos de uma coincidirem com os elementos da
outra, tendo ambas, naturalmente, a mesma ordem.
-
11
Sejam A e B duas matrizes com a mesma ordem (n m), tais que A = e B = .
Diz-se que as matrizes A e B so iguais se e s se = , para todo i = 1,, n e
j = 1,, m.
2.1.4. Operaes com matrizes
Por vezes torna-se necessrio efetuar algumas operaes entre matrizes, como o caso
da adio, da subtrao ou do produto de duas ou mais matrizes, bem como a
multiplicao de um escalar por uma matriz.
Sejam A e B duas matrizes com a mesma ordem (n m), tais que A = e B = .
A sua soma (diferena), A + B (A B) igual a C, onde C = =
(C = = ), com i = 1, , n e j = 1, , m.
Seja A uma matriz de ordem n m, tal que A = e um escalar. A multiplicao
da matriz A por um escalar representa-se por A ou A e igual a , com
i = 1, , n e j = 1, , m.
Sejam A e B duas matrizes de ordem n m e m p, respetivamente. O produto de A
por B origina C de ordem n p, tal que AB = C = , onde = .
2.1.5. Trao de uma matriz
Seja A uma matriz quadrada de ordem n n, tal que os elementos da diagonal so da
forma aii, com i = 1,, n. Ento o trao de A igual soma dos elementos da diagonal,
ou seja, tr(A) = .
2.1.6. Vetores linearmente dependentes e independentes
Os vetores dizem-se linearmente dependentes se for possvel escrever o
vetor nulo como combinao linear de sem que os escalares sejam todos
-
12
nulos. Se o vetor nulo s se puder escrever como combinao linear de sendo
os escalares todos nulos, ento os vetores so linearmente independentes.
2.1.7. Caracterstica de uma matriz
Designa-se por caracterstica de uma matriz A de ordem n n o nmero de linhas (ou
colunas) linearmente independentes. Representa-se a caracterstica de A por r(A).
2.1.8. Determinante
O determinante de uma matriz quadrada de ordem n dado
por onde K o nmero de inverses1 da
permutao ( e p indica que a soma ocorre sobre todas as permutaes de
(1, 2, , n), ou seja, existem n! permutaes. O determinante de uma matriz A pode
denotar-se por detA ou |A|.
Designa-se por menor complemento de um elemento de um determinante, ao
determinante que se obtm, suprimindo a linha e a coluna a que pertence esse elemento
(linha i e coluna j). Representa-se por .
O complemento algbrico de um elemento igual ao menor complemento ou ao seu
simtrico e representa-se por .
Pode-se calcular o determinante de outra forma.
Teorema de Laplace: Seja A uma matriz quadrada de ordem n, o seu determinante
igual soma dos produtos dos elementos de uma linha (ou coluna) pelos respetivos
complementos algbricos. Assim sendo,
, onde o complemento algbrico de .
1 Dada uma permutao dos inteiros 1, 2, , n, existe uma inverso quando um inteiro precede outro
menor do que ele.
-
13
2.1.9. Matriz adjunta e matriz inversa
matriz que se obtm calculando os respetivos complementos algbricos para cada
entrada e fazendo a sua transposta, designa-se por matriz adjunta. Representa-se
por adj A.
Uma matriz A quadrada de ordem n invertvel se existir uma matriz B quadrada de
ordem n tal que AB = BA = In. Designamos B por matriz inversa de A e representa-se
por A-1.
Notas:
1) Uma matriz invertvel se e s se o seu determinante for diferente de zero.
2) A matriz inversa nica.
3) Pode ser obtida por: A-1 =
.
2.1.10. Matriz ortogonal
Uma matriz A quadrada de ordem n, invertvel, diz-se ortogonal se a inversa e a
transposta coincidirem, ou seja, A-1
= AT.
2.1.11. Valores prprios e vetores prprios
Seja A uma matriz quadrada (n n), um escalar e x um vetor no nulo tal que
Ax = x. Diz-se que o valor prprio de A e x um vetor prprio associado.
Considere-se a equao |A I| = 0, cujas solues so os valores prprios da matriz A.
O polinmio |A I| designa-se por polinmio caracterstico.
Observaes:
Uma vez que a matriz A tem ordem n, ento o polinmio caracterstico tem n
razes e deste modo tm-se n valores prprios, sejam , . Aps a
determinar os valores prprios determinam-se os vetores prprios, , , ,
-
14
, associados a cada valor prprio. Para esse efeito usa-se a igualdade
(A I)x=0.
O vetor prprio obtido associado a cada valor prprio no nico, deste modo se
x for vetor prprio ento cx (c um escalar no nulo) tambm vetor prprio.
Notas:
1) A soma dos valores prprios igual ao trao de A, ou seja, tr(A) = .
2) O produto dos valores prprios igual ao determinante de A, ou seja,
det(A) = .
2.1.12. Decomposio espetral
Teorema da decomposio espetral: (Decomposio em valores prprios e vetores
prprios)
Seja A uma matriz simtrica e considere-se ainda os valores prprios de A e os vetores
prprios normalizados. Temos que AQ = Q com QTQ = I, onde a matriz diagonal
dos valores prprios, =
e Q a matriz ortogonal dos vetores prprios. Se
QT = Q
-1, ento A = Q QT.
-
15
2.2. Caractersticas amostrais
Nesta seco definem-se algumas caractersticas amostrais a utilizar na anlise
exploratria dos dados.
2.2.1. Caractersticas amostrais univariadas
Para se caracterizar um conjunto de dados, comea-se por calcular algumas
caractersticas amostrais, de localizao e de disperso. No que se segue, definem-se
algumas dessas caractersticas amostrais. Mais precisamente, a mdia, o desvio padro,
os extremos, a mediana e os quartis (Murteira, 2007).
Dado um conjunto de observaes (x1, , xn), diz-se que
a mdia
amostral e que =
a varincia amostral. O desvio padro
amostral dado pela raiz quadrada positiva da varincia, ou seja, .
A mdia amostral uma medida de localizao, a varincia e o desvio padro amostrais
so medidas de disperso. Estas permitem medir a variabilidade dos em torno da mdia
amostral.
Um conjunto de observaes (x1, x2, , xn) pode ser ordenado ordenado de modo
ascendente, tal que x1:n x2:n xn:n, sendo x1:n o mnimo e xn:n o mximo.
Tendo um conjunto ordenado de observaes, pode-se calcular a mediana do seguinte
modo
-
16
Define-se quantil de ordem p por:
onde [np] designa a parte inteira de np.
Observaes:
1) O quantil de ordem 0,5 designa-se por mediana.
2) Os quantis de ordem 0,25 e 0,75 designam-se por primeiro quartil e terceiro
quartil respetivamente.
3) Os quantis de ordem 0,1; ; 0,9 designam-se por decis.
4) Os quantis de ordem 0,01; ; 0,99 designam-se por percentis.
Uma representao grfica usual para representar os extremos, os quartis e a mediana
o diagrama em caixa de bigodes.
2.2.2. Caractersticas amostrais bivariadas
Na seco anterior definiram-se algumas caractersticas amostrais (no caso univariado).
Nesta seco definem-se as caractersticas amostrais para o caso bivariado, ou seja,
caractersticas que permitem comparar as variveis duas a duas, de forma a avaliar o
grau de associao entre as duas variveis. Neste caso, calculam-se as covarincias e
correlaes amostrais.
Considere-se um par de observaes (xi, yi), com i, j = 1, , n. Pode-se proceder sua
representao grfica num referencial cartesiano. Esse grfico designa-se por diagrama
de disperso.
Esta representao grfica permite avaliar o grau de associao entre duas variveis.
Para quantificar essa associao podem usar-se duas medidas: a covarincia amostral e /
ou coeficiente de correlao linear.
A covarincia amostral dada por cov(x,y) =
. Tambm
pode ser denotada por .
-
17
A covarincia uma estatstica bivariada utilizada para quantificar a associao linear
entre duas variveis. Porm, influenciada pelas unidades de medida. Neste caso, teria
de se proceder estandardizao do conjunto de dados, ou por outro lado, calcular-se o
coeficiente de correlao amostral.
O coeficiente de correlao ou coeficiente de correlao de Pearson dado por
r =
, ou seja,
.
O coeficiente de correlao varia entre -1 e 1 e usado para variveis quantitativas.
Se as variveis no forem quantitativas, usa-se o coeficiente de correlao de
Spearman.
Para calcular o coeficiente de correlao de Spearman procede-se de igual modo, mas
substituem-se as observaes (qualitativas) pelas respetivas ordens.
-
18
2.3. Tcnicas de Anlise Multivariada
Nesta seco procede-se ao desenvolvimento terico das tcnicas de anlise
multivariada a utilizar neste estudo, nomeadamente, a anlise em componentes
principais (ACP), a anlise fatorial (AF) e a anlise de clusters (AC).
Com estas tcnicas pretende-se resumir a informao contida nos dados, de forma a
tornar mais fcil a sua interpretao.
As duas primeiras tcnicas (ACP e AF) relacionam-se diretamente com as variveis,
designam-se por anlise modo-R, ao passo que a ltima tcnica (AC) relaciona-se com
os indivduos, designa-se por anlise modo-Q.
Mais claramente, a anlise-modo R permite identificar as variveis que mais contribuem
para a explicao da variabilidade dos dados, com a menor perda de informao. A
anlise modo-Q usada para agrupamento de indivduos em classes/grupos
homogneos, atravs de caractersticas comuns entre os indivduos.
-
19
2.3.1. Anlise em Componentes Principais
2.3.1.1. Introduo
A anlise em componentes principais uma tcnica de anlise multivariada introduzida
pelo estatstico Karl Pearson em 1901 e mais tarde desenvolvida por Hotelling em 1933
(Mardia et al, 1979).
A anlise em componentes principais um mtodo de anlise multivariada que consiste
em transformar um conjunto de variveis originais correlacionadas num conjunto de
novas variveis no correlacionadas: as componentes principais. As variveis originais e
as componentes principais tm a mesma dimenso.
O principal objetivo da ACP a reduo da dimensionalidade, ou seja, a diminuio do
nmero de componentes, de forma a explicar a variabilidade dos dados. Esta reduo
consegue-se uma vez que as variveis originais esto correlacionadas, sendo algumas
delas redundantes, ao passo que as componentes principais so no correlacionadas,
podendo explicar a informao dada pelas variveis originais com um menor nmero de
componentes. Caso as variveis originais estejam fracamente correlacionadas, as
componentes principais vo coincidir com as variveis originais.
Estas novas variveis (as componentes principais) so uma combinao linear das
variveis originais, com uma ordem decrescente de importncia. A primeira
componente principal a mais importante, uma vez que descreve a maior parte da
variabilidade dos dados.
Pretende-se que este nmero de componentes principais seja o menor possvel, ou seja,
parte-se de p variveis originais para k componentes principais, com k muito inferior a
p, de modo que a perda de informao seja a menor possvel.
Assim sendo, se as variveis originais estiverem muito correlacionadas, o nmero de
componentes principais que expliquem a variabilidade reduzido. Caso as variveis
originais estejam pouco correlacionadas essa reduo pouco significativa.
-
20
2.3.1.2. O modelo matemtico
Considere-se o modelo matemtico para as componentes principais
Yj = a1jX1 + a2jX2 + + apjXp
ou, Y = AX, em que X1, , Xp so as variveis originais, Y1, , Yp so as
componentes principais no correlacionadas e de varincia decrescente e aij o peso da
j-sima varivel com a i-sima componente principal, representados na matriz A de
ordem p (Chatfield, 1980).
Para a determinao das componentes principais tem de se utilizar a matriz de
covarincias amostral ou a matriz de correlaes amostral. Quando as escalas de medida
das variveis so diferentes usa-se a matriz de correlaes amostral. Desta forma torna-
se possvel a comparao.
De salientar que, pelo facto de no existir invarincia de escala na ACP, as componentes
obtidas so diferentes quando se usa a matriz de covarincias e quando se usa a matriz
de correlaes. As componentes principais obtidas tambm so diferentes quando a
unidade de medida das variveis originais alterada (Gnanadesikan,1997).
Para determinar as componentes principais, comea-se por calcular os valores prprios
da matriz de correlaes amostral, seguidamente determinam-se os vetores prprios
associados a cada valor prprio.
Desta forma, cada componente principal um vetor prprio associado a cada um dos
valores prprios. Mais precisamente, a primeira componente principal corresponde ao
vetor prprio associado ao maior valor prprio. A segunda componente principal
corresponde ao vetor prprio associado ao segundo maior valor prprio e, assim por
diante, de modo que as componentes principais sejam ortogonais entre si.
Designam-se os valores prprios da matriz de correlaes amostral por , e
tem-se que 0. Estes valores prprios representam a varincia das
componentes principais, ou seja, var(Yj) = . A ordenao das componentes principais
feita atravs da ordenao dos valores prprios, de modo que i-sima componente
principal corresponda o i-simo maior valor prprio.
-
21
No modelo matemtico para as componentes principais
com j = 1, , p, os aij so estimados de modo que a primeira componente contenha a
maior varincia (maior valor prprio) e assim por diante. Esses pesos so dados pelos
vetores prprios associados a cada valor prprio. Tem-se que,
= 1 com i = 1, , p e,
ai1aj1 + + aipajp = 0 para todo o i diferente de j.
Os pesos das componentes principais (aij) representam a importncia relativa das
variveis originais em cada componente principal.
Os yj observados designam-se por scores das componentes principais.
A correlao entre as variveis originais e as componentes principais designa-se por
loading. Estes fornecem a indicao de como as variveis originais so importantes para
a formao das componentes principais. Assim sendo, loadings prximos de um
indicam que essa varivel importante na formao da componente principal, enquanto
loadings prximos de zero indicam que a varivel no importante na formao da
componente principal. Os loadings so significantes se forem maiores que 0,3 em valor
absoluto. O loading da j-sima varivel com a i-sima componente principal dado por
, em que aij o peso da j-sima varivel com a i-sima componente
principal, o valor prprio da i-sima componente principal e sj o desvio padro da
j-sima varivel.
A comunalidade da j-sima varivel dada por
, que se refere proporo
de varincia das variveis que so explicadas pelas componentes principais.
Neste processo, a varincia preservada, uma vez que a soma das varincias das
variveis originais igual soma das varincias das componentes principais.
-
22
2.3.1.3. Nmero de componentes a reter
Ao usar esta tcnica de anlise multivariada tem de se decidir o nmero de componentes
a reter, ou seja, quantas componentes so necessrias para explicar a variabilidade dos
dados. Desta forma, existem algumas regras para decidir o nmero de componentes
principais a reter, de modo que estas expliquem a variabilidade dos dados e que a perda
de informao seja a menor possvel.
Um primeiro critrio reter o nmero de componentes principais que expliquem pelo
menos 80% da variabilidade total. Sendo a varincia da j-sima componente principal
e a varincia total, tem-se que
a proporo explicada pela j-
sima componente principal e
a proporo explicada pelas k primeiras
componentes principais. Este valor deve ser superior a 80%.
O segundo critrio (critrio de Kaiser, proposto em 1960) consiste em excluir as
componentes principais cujos valores prprios sejam inferiores sua mdia aritmtica
(quando usada a matriz de correlaes, a mdia dos valores prprios um).
O terceiro critrio consiste em utilizar uma representao grfica do nmero de
componentes principais versus os valores prprios. Este grfico designa-se por scree
plot, proposto por Cattell em 1966. O grfico tem a forma de um cotovelo. Deve-se
reter o nmero de componentes principais at o grfico se tornar praticamente paralelo
ao eixo Ox, uma vez que esses valores prprios so muito reduzidos e praticamente
iguais, pouco ou nada contribuem para a explicao da variabilidade dos dados
(Rencher, 1995).
-
23
2.3.2. Anlise Fatorial
2.3.2.1. Introduo
A Anlise Fatorial comeou a ser desenvolvida pelo psiclogo Charles Spearman em
1904, para testar os fatores de inteligncia e habilidade nos jovens, quando realizados
testes a diferentes reas do conhecimento (cincias e humanidades). Mais tarde foi
tambm desenvolvida por Thurstone em 1931 (Harman, 1976).
A Anlise Fatorial uma tcnica de anlise multivariada que consiste em escrever p
variveis y1, y2, , yp como combinao linear de novas variveis f1, f2, , fm, com m
menor que p. Estas novas variveis designam-se por fatores latentes, sendo no
observadas. As variveis y1, y2, , yp so moderadamente correlacionadas (Rencher,
1995).
O objetivo da anlise fatorial reduzir o nmero de fatores latentes, de forma a explicar
a maior correlao existente no conjunto de dados. Pretende-se exprimir o que de
comum existe nas variveis iniciais, de modo a perder-se a menor informao possvel.
2.3.2.2. O modelo matemtico
Considere-se o modelo matemtico para a anlise fatorial:
Ou, alternativamente, usando notao matricial, Y = , onde
y = [y1, y2, , yp]T
o vetor das variveis, f = [f1, f2, , fm]T
o vetor dos fatores
comuns , T o vetor dos fatores especficos e
a matriz dos pesos fatoriais, que no nica.
Assim sendo, cada varivel decomposta em duas: a parte comum e a parte especfica.
Os coeficientes so designados por loadings ou pesos, que permitem mostrar de que
modo a varivel yi depende do fator fj. Estes loadings representam a covarincia entre
-
24
as variveis e os fatores, ou seja, cov(yi, fj) = com i = 1, , p e j = 1, , m desde
que cov(y, f) = .
Tem-se que E(fj) = 0, var(fj) = 1, cov(fi, fj) = 0, i j.
O a parte residual de Yi, tendo-se E( ) = 0, var( = , que a varincia
especfica, cov( ) = 0, i j e cov( fj) = 0 para todo i e j.
Tem-se ainda que var(Yi) = +
+ + + =
, em que a
comunalidade, que se refere varincia comum e a varincia especfica ou nica,
que se refere varincia residual (Rencher, 1995).
Se a matriz de correlaes tiver valores elevados significa que as variveis tm bastante
em comum, formando grupos homogneos. Se os valores das correlaes forem
reduzidos, significa que as variveis tm pouco ou nada em comum, formando grupos
heterogneos.
2.3.2.3. Nmero de fatores a reter
Na anlise em componentes principais tinha de se selecionar um nmero de
componentes mais reduzido, ou seja, era necessrio analisar o nmero de componentes a
reter de modo que estas explicassem a variabilidade dos dados, mas tambm que o seu
nmero fosse bastante reduzido. Teria de se encontrar uma relao parcimoniosa, no
sentido de no se usar um nmero excessivo de componentes, mas tambm de no se
perder informao preciosa. Na anlise fatorial pretende-se fazer algo semelhante,
decidir o nmero de fatores a reter de modo a explicar pelo menos 80% da variabilidade
total. Escolher um nmero de fatores igual ao nmero de valores prprios maiores que a
mdia dos valores prprios. Se for utilizada a matriz de correlaes (R), a mdia 1, se
for utilizada a matriz de covarincias (S), a mdia
, em que o valor prprio
da matriz S. semelhana da anlise em componentes principais, pode-se usar o teste
do scree plot dos valores prprios de S ou R versus o nmero de fatores. O grfico
obtido apresenta inicialmente uma acentuada inclinao e no final uma reduzida
inclinao, pelo que os valores prprios sero praticamente iguais e reduzidos. Deve-se
ento reter o nmero de fatores (m) a partir dos quais o grfico fica uma reta paralela ao
eixo das abcissas, tendo este grfico a forma de um cotovelo (Rencher, 1995).
-
25
2.3.2.4. Rotao dos fatores
Para uma melhor interpretao dos fatores obtidos inicialmente, recorre-se rotao dos
eixos. Existem vrias tcnicas de rotao.
Este mtodo de rotao consiste na transformao da soluo inicial atravs da
multiplicao de uma matriz de rotao ortogonal pela matriz dos loadings, de modo
que a soluo seja interpretada de uma forma mais eficiente. Com esta rotao pretende-
se aumentar os valores absolutos dos grandes loadings e reduzir os valores absolutos
dos pequenos loadings, distinguindo assim loadings significantes de loadings
insignificantes.
As rotaes podem ser ortogonais ou oblquas. As mais utlizadas so as ortogonais,
destacando-se, a rotao varimax, a rotao quartimax e a rotao equimax.
Com o mtodo varimax pretende-se maximizar a varincia dos loadings de cada coluna
da matriz , de forma a existirem alguns loadings significativos e todos os
outros prximos de zero. Pretende-se maximizar V, com a restrio das comunalidades
permanecerem inalteradas.
Para um dado fator j, tem-se
, onde a varincia da comunalidade das
variveis no fator j, o quadrado do loading da i-sima varivel no j-simo fator,
a mdia do quadrado dos loadings para o fator j, p o nmero de
variveis e k o nmero de fatores.
A varincia total V de todos os fatores dada por:
Este mtodo, desenvolvido por Kaiser em 1958, tornou-se muito popular.
Com o mtodo quartimax pretende-se simplificar as linhas da matriz de loadings, ou
seja, tornar os loadings de cada varivel elevados para um pequeno nmero de fatores e
prximos de zero para os restantes. Pretende-se maximizar Q, com a restrio das
comunalidades no se alterarem.
-
26
Para uma dada varivel i, tem-se
, onde a varincia da comunalidade na
varivel i e
a mdia do quadrado dos loadings na varivel i.
A varincia total Q de todas as variveis dada por:
Com o mtodo equamax pretende-se fazer uma mistura dos dois anteriores mtodos
(Afifi, 1996, Harman, 1976, Rencher, 1995, Sharma, 1996 e Timm, 2002).
2.3.2.5. Mtodo de extrao dos fatores
Os mtodos de extrao dos fatores disponveis no SPSS so: mtodo das componentes
principais (principal components), mtodo da mxima verosimilhana (maximum
likelihood), mtodo dos mnimos quadrados (unweighted least squares and generalized
least squares), principal axis factoring, alpha factoring e image factoring.
Com estes mtodos procede-se extrao dos fatores e consequentemente estimao
dos loadings e das comunalidades.
O mtodo das componentes principais bastante usual. O SPSS utiliza-o por defeito.
-
27
2.3.2.6. Validao do modelo de anlise fatorial
Para avaliar a qualidade da anlise efetuada realizam-se alguns testes. A anlise fatorial
usada para descrever as correlaes entre as variveis. Deste modo, torna-se
necessrio que a matriz de correlaes seja significativamente diferente da matriz
identidade, efetuando-se o teste de esfericidade de Bartlett. Este teste usa-se para
testar H0: R = I versus H1: R I, em que R a matriz de correlaes amostral e I a
matriz identidade.
A estatstica de teste (n 1
)
com distribuio qui-
quadrado com
p (p - 1) graus de liberdade (Rencher, 1995).
Para avaliar se a anlise fatorial adequada aos dados usa-se a medida de adequao
de amostragem de Kaiser-Meyer-Olkin (KMO) ou measure of sampling adequacy
(MSA), proposta por Kaiser em 1970. Define-se por:
KMO / MSA =
,
onde R = e Q = = DR-1
D, com D =
.
O KMO toma valores entre 0 e 1. Recomendam-se valores superiores a 0.8. Na tabela 1
encontra-se a escala de avaliao da anlise fatorial efetuada (Maroco, 2007, Reis, 2001
e Timm, 2002).
KMO / MSA AF
0.9 1 Muito boa
0.8 0.9 Boa
0.7 0.8 Mdia
0.6 0.7 Medocre
0.5 -0.6 M
< 0.5 Inaceitvel
Tabela 1: Escala de avaliao da anlise fatorial
-
28
2.3.2.7. Anlise em Componentes Principais versus Anlise Fatorial
Na anlise fatorial escrevem-se as variveis como combinao linear dos fatores,
enquanto na anlise em componentes principais escrevem-se as componentes principais
como combinao linear das variveis, so procedimentos inversos. A anlise em
componentes principais permite explicar a maior parte da variabilidade total das
variveis, enquanto na anlise fatorial pretende-se explicar as correlaes entre as
variveis. No caso da ACP as componentes principais obtidas so nicas, no caso da AF
os fatores dependem da rotao efetuada. No caso da ACP a soluo obtida pode ser
diferente se usada uma escala de medio diferente, enquanto na AF, h invarincia de
escala, ou seja, as solues so invariantes com a mudana da escala de medio.
Quando se aumenta o nmero de componentes retidas, as primeiras componentes
principais mantm-se inalteradas, enquanto na anlise fatorial, os fatores podem tornar-
se bastante diferentes quando o nmero de fatores retidos modificado. (Everitt, 2011 e
Maroco, 2007).
-
29
2.3.3. Anlise de Clusters
2.3.3.1. Introduo
A anlise de clusters uma tcnica de anlise multivariada que tem como principal
objetivo o agrupamento de elementos. Este agrupamento efetuado de forma que
elementos pertencentes ao mesmo grupo tenham caractersticas semelhantes e
elementos de diferentes grupos tenham caractersticas dissemelhantes. Genericamente,
parte-se de um conjunto com n observaes e pretende-se formar k grupos com um
menor nmero de observaes.
Para a construo desses grupos usam-se mtodos hierrquicos ou mtodos no
hierrquicos. Entre os mtodos hierrquicos, estes podem ser aglomerativos ou
divisivos.
Considere-se um conjunto de n observaes e p variveis dispostos na seguinte matriz
de ordem n p,
.
O elemento representa o valor do objeto (indivduo) i na varivel j.
Seguidamente constri-se a matriz D de ordem n, dada por
, em
que dkl representa a distncia entre os objetos k e l, com k, l = 1, , n. Esta matriz
designa-se por matriz de proximidade.
Deste modo, o passo que se segue escolher a medida de proximidade entre os
indivduos (Everitt et al, 2001, Maroco, 2007 e Reis, 1997).
-
30
2.3.3.2. Medidas de proximidade
Para a construo da matriz de proximidade D, definida anteriormente, necessrio
selecionar uma medida de proximidade, podendo ser uma medida de distncia, de
dissemelhana ou de semelhana.
Segundo Everitt (2001), dois indivduos esto prximos se a dissemelhana ou a
distncia entre eles pequena ou, se a semelhana entre eles grande.
Uma medida de semelhana caracteriza-se pelas seguintes propriedades:
1) 0 1
2) = 1
3) =
onde denota a medida de semelhana entre os indivduos i e j.
Nos dados categricos habitual usar-se uma medida de semelhana.
Uma medida de dissemelhana caracteriza-se pelas seguintes propriedades:
1) 0
2) = 0
3) =
onde denota a medida de dissemelhana entre os indivduos i e j.
Uma medida de distncia caracteriza-se pelas seguintes propriedades:
1) 0
2) = 0
3) =
4) (desigualdade triangular)
onde denota a medida de distncia entre os indivduos i e j.
-
31
Apresentam-se em seguida algumas medidas de distncia (Everitt et al, 2001 Maroco,
2007, Reis, 1997 e Timm, 2002).
1) Distncia Euclidiana
=
2) Quadrado da Distncia Euclidiana
3) Distncia de Manhattan ou distncia absoluta ou City-Block Metric
4) Distncia de Minkowski
uma generalizao da distncia Euclidiana e coincidem quando r = 2.
5) Distncia de Mahalanobis
onde S denota a matriz de covarincias amostral.
A medida de distncia mais usada a euclidiana.
Em seguida, definem-se algumas medidas de dissemelhana.
1) Correlao de Pearson:
com
-
32
onde
e .
2) Separao Angular
com
.
2.3.3.3. Mtodos de agregao
Um dos objetivos da anlise de clusters reduzir a distncia dentro dos grupos e
aumentar a distncia entre os grupos.
Aps selecionada a medida de proximidade e construda a respetiva matriz de
proximidade, pretende-se saber quantos clusters se obtm. Assim sendo, para a
determinao desses k grupos usam-se mtodos hierrquicos ou mtodos no
hierrquicos. Quanto aos mtodos hierrquicos, estes podem ser aglomerativos ou
divisivos. Um processo diz-se aglomerativo se no final do processo se obtm um nico
cluster com todos os elementos e diz-se divisivo se no fim do processo existirem n
clusters com um nico elemento cada.
Em qualquer dos mtodos tem-se como objetivo a escolha da soluo tima, ou seja,
nmero timo de clusters. Essa deciso fica a cargo do investigador.
As etapas resultantes deste processo hierrquico (aglomerativo ou divisivo) podem ser
representadas atravs de um grfico o dendograma (Everitt, 2001).
Os mtodos aglomerativos so os mais utilizados.
-
33
2.3.3.4. Critrios de agregao
Aps definidas as medidas de proximidade entre dois elementos, necessrio definir
medidas de proximidade entre os clusters, ou seja, definir critrios de agregao entre os
grupos (Everitt et al, 2001 Maroco, 2007, Reis, 1997 e Timm, 2002).
1) Complete Linkage ou mtodo do vizinho mais afastado
A distncia entre dois grupos medida como sendo a distncia mxima entre um par de
objetos, entre todos os clusters. Utilizando este critrio os clusters obtidos so mais
compactos.
2) Single Linkage ou mtodo do vizinho mais prximo
A distncia entre dois grupos medida como sendo a distncia mnima entre um par de
objetos, entre todos os clusters. Utilizando este critrio os clusters obtidos so
desequilibrados e desalinhados, em particular quando o nmero de dados elevado.
3) Average Linkage
A distncia entre dois grupos medida como sendo a mdia da distncia entre todos os
pares de objetos dos dois grupos. Utilizando este critrio os clusters obtidos tm
pequenas varincias.
Este um critrio intermdio entre o Complete Linkage e o Single Linkage, sendo
relativamente robusto.
4) Critrio do Centride
A distncia entre dois grupos medida como sendo a distncia entre os seus centrides.
Cada centride corresponde mdia ponderada dos elementos dos dois grupos.
-
34
5) Critrio de Ward
Neste mtodo no so calculadas distncias, formam-se os clusters de modo a
minimizar a soma dos quadrados dos erros.
No que se segue, apresentam-se as etapas do mtodo hierrquico aglomerativo.
Agrupamento hierrquico (mtodo aglomerativo):
Dada a matriz de proximidades D = [dij] de ordem n n, seguem-se os passos seguintes
(Timm, 2002):
1. Comea-se com n clusters, cada um deles com um elemento.
2. Usando a matriz D, escolhemos os elementos mais semelhantes, digamos i e j.
3. Juntam-se esses dois elementos, i e j, formando um novo cluster (ij).
Recalculam-se as distncias entre o novo cluster (ij) e os elementos j existentes,
usando o critrio de agregao selecionado. Obtm-se uma nova matriz de
proximidade de ordem (n 1) (n 1).
4. Repetem-se os passos 2 e 3, (n 1) vezes.
Nota: O agrupamento no hierrquico no ser considerado neste trabalho.
-
35
Captulo 3: Anlise de dados hidrogeolgicos
O estudo baseia-se num conjunto de 48 amostras de gua subterrnea recolhidas em
furos, minas, nascentes e poos da cidade de Lisboa, conforme se pode visualizar na
figura 2. Utilizam-se as anlises qumicas dessas 48 amostras de gua e selecionam-se
13 variveis referentes a parmetros fsico-qumicos e espcies dissolvidas (anies e
caties). Mais precisamente:
Os parmetros fsico-qumicos: o pH, a condutividade eltrica (C.E.) e o
potencial redox (Eh);
As espcies dissolvidas: o bicarbonato ( ), o clcio (Ca
2+), o sdio (Na
+), o
potssio (K+)
, o magnsio (Mg2+
), o fluoreto ( ), o cloreto ( ), o brometo
( ), o nitrato ( ) e o sulfato (
).
As amostras de guas subterrneas agora utilizadas no foram recolhidas
especificamente para este trabalho, resultaram de recolhas para a concretizao de
unidades curriculares do 1 ciclo de estudos em Geologia da FCUL (Caria et al, 2009,
Manca et al, 2008 e Sanches et al, 2006) e 2 ciclo de estudos em Geologia Aplicada e
do Ambiente da FCUL (Oliveira, 2010) e em Engenharia do Ambiente do IST (Lopes,
2007).
-
36
Figura 2: Localizao geogrfica das amostras de gua
Como j foi referido anteriormente, a geologia de Lisboa de grande complexidade,
pelo que, para facilitar a anlise estatstica das amostras de gua, as formaes
geolgicas foram agrupadas, tendo em conta as suas semelhanas litolgicas, da
seguinte forma: Aluvies (1); Formao de Benfica (2); Complexo Vulcnico de Lisboa
(CVL) (3); Calcrios de Entrecampos (4); Areolas da Estefnia e Areias do Vale de
Chelas (5) e Argilas do Forno do Tijolo e Argilas e Calcrios dos Prazeres (6).
Na figura 3 encontram-se as localizaes das amostras recolhidas e a respetiva formao
geolgica aflorante.
-
37
Figura 3: Localizao geogrfica das amostras de gua e respetivas formaes geolgicas
-
38
A partir da figura 3 pode construir-se a tabela 2 em que se indica a provenincia de cada
amostra.
Grupos de formaes geolgicas Amostras recolhidas
(1) Aluvies Lis10/ Lis11/ Lis12/ Lis13/ Lis16 / Lis37
(2) Formao de Benfica Lis23/ Lis24/ Lis25/ Lis26/ Lis28/ Lis31/
Lis33/ Lis34/ Lis35/ Lis36/ Lis46
(3) CVL Lis27/ Lis29/ Lis30/ Lis32/ Lis44/ Lis47/ Lis48
(4) Calcrios de Entrecampos Lis1/ Lis2/ Lis5/ Lis14/ Lis17/ Lis19
(5) Areolas da Estefnia e Areias
do Vale de Chelas
Lis3/ Lis4/ Lis6/ Lis15/ Lis18/ Lis20/ Lis21/
Lis38/ Lis39/ Lis40/ Lis41/ Lis45
(6) Argilas do Forno do Tijolo e
Argilas e Calcrios dos Prazeres
Lis7/ Lis8/ Lis9/ Lis22/ Lis42/ Lis43
Tabela 2: Provenincia das amostras
-
39
3.1. Anlise Exploratria dos Dados
3.1.1. Caractersticas amostrais
Na tabela 3 encontram-se algumas caractersticas amostrais obtidas para as 48 amostras
de gua provenientes de 6 grupos de formaes geolgicas distintas:
Variveis Mdia Desvio
Padro Mediana 1 Quartil 3 Quartil Mnimo Mximo
pH 7,53 0,80 7,460 6,985 8,030 6,13 10,45
C.E. 1161,96 364,27 1174,500 953,500 1411,500 395,00 2220,00
Eh 30,43 151,13 34,250 -102,100 187,000 -258,10 248,00
359,3 111,55 374,000 291,120 426,500 43,00 575,00
Ca2+
123,17 49,39 114,500 82,000 152,500 40,00 245,60
Na+ 99,31 52,83 89,450 67,650 132,000 9,70 275,40
K+ 16,40 23,21 8,550 3,035 17,200 0,00 109,00
Mg2+
32,39 20,45 28,650 17,650 42,300 0,00 91,40
0,26 0,22 0,185 0,132 0,335 0,00 1,01
93,48 43,72 88,100 58,950 118,900 18,50 195,00
0,44 0,83 0,180 0,000 0,385 0,00 3,40
43,35 48,13 30,800 5,785 52,250 0,00 206,00
138,20 111,88 113,700 71,800 160,750 6,10 653,00
Tabela 3: Caractersticas amostrais das variveis (amostra global)
Da anlise da tabela 3, podem-se observar algumas caractersticas amostrais para as 13
variveis em estudo. O pH das amostras recolhidas varia entre 6.13 e 10.45, as amostras
de gua Lis4, Lis13, Lis5, Lis6 e Lis9 tm valores de pH 6.13, 6.20, 6.25, 6.26 e 10.45,
respetivamente, que esto fora dos valores paramtricos, de acordo com o Decreto Lei
306-2007 da qualidade da gua para consumo humano (o pH deve estar compreendido
entre 6.5 e 9, inclusive). A condutividade eltrica varia entre 395 e 2220 S/cm e a sua
mediana (1174.5 S/cm) superior mdia (1161.96 S/cm). O Eh varia entre -258.1 e
248 mV e tem mediana (34.25 mV) superior mdia (30.43 mV). Como existem
valores Eh positivos e negativos a variabilidade em torno da mdia muito grande,
sendo o desvio padro elevado (151.13 mV) e a mdia relativamente baixa (30.43 mV).
As concentraes do io bicarbonato variam entre 43 e 575 mg/L, apresentando uma
mediana (374 mg/L) superior mdia (359.3 mg/L). As concentraes do io clcio
variam entre 40 e 245,6 mg/L, existindo um grande nmero de amostras de gua com
concentraes deste io superiores ao valor paramtrico (100 mg/L), mais precisamente
29 amostras de gua. As concentraes do io sdio variam entre 9.7 e 275.4 mg/L e
-
40
apresentam uma grande variabilidade em torno da mdia, sendo o desvio padro 52.83
mg/L. As amostras Lis21 e Lis31 apresentam concentraes, deste io, de 275.4 e 217
mg/L, respetivamente, acima do valor paramtrico (200 mg/L). As concentraes do io
potssio variam entre 0 e 109 mg/L. O desvio padro elevado (23.21 mg/L), em
comparao com a mdia (16.4 mg/L). Das 48 amostras, 19 apresentam concentraes
do io potssio acima do valor paramtrico (12 mg/L) e 20 amostras tm concentraes
inferiores a 6 mg/L. Deste modo, a variabilidade em torno da mdia muito grande. As
concentraes do io magnsio variam entre 0 e 91.4 mg/L. Nas amostras Lis22, Lis16,
Lis20, Lis48, Lis47, Lis43 e Lis30 as concentraes deste io so 91.4, 73.5, 69.5, 65.1,
65, 60.3 e 57.5 mg/L, respetivamente. Todas essas concentraes so superiores ao
valor paramtrico (50 mg/L). As concentraes do io fluoreto variam entre 0 e 1.01
mg/L. A variabilidade em torno da mdia muito elevada, sendo a mdia de 0.26 mg/L
e o desvio padro de 0.22 mg/L. As concentraes do io cloreto variam entre 18.5 e
195 mg/L. As concentraes do io brometo variam entre 0 e 3.4 mg/L. Das 48
amostras, 40 apresentam concentraes deste io inferior a 0.5 mg/L e em 17 dessas 40
amostras no se deteta a presena deste io (0 mg/L). Desta forma, a variabilidade em
torno da mdia muito grande, sendo o desvio padro de 0.83 mg/L e a mdia de
0.44mg/L. As concentraes do io nitrato variam entre 0 e 206 mg/L. Das 48 amostras,
12 apresentam uma concentrao superior ao valor paramtrico (50 mg/L). A
variabilidade em relao mdia elevada, sendo a mdia e o desvio padro 43.35 e
48.13 mg/L, respetivamente. As concentraes do io sulfato variam entre 6.1 e 653
mg/L. Nas amostras Lis21, Lis9, Lis42 e Lis37 as concentraes deste io so 653,
459.2, 329 e 271 mg/L, respetivamente, todas superiores ao valor paramtrico (250
mg/L). O desvio padro muito grande (111.88 mg/L) indicador de uma grande
variabilidade em torno da mdia.
Sobre a qualidade da gua para consumo humano pode-se aferir que, das 48 amostras de
gua, apenas 8 (Lis7, Lis12, Lis27, Lis29, Lis30, Lis33, Lis36 e Lis44) so
consideradas apropriadas para o consumo humano, embora fosse necessrio averiguar
se, do ponto de vista bacteriolgico, estariam de acordo com as recomendaes da
legislao que regula a qualidade das guas para o consumo humano.
Tal como sugere a tabela 2, a amostra global das 48 amostras de gua pode ser
subdividida em 6 amostrais parciais, correspondendo a cada grupo de formaes
-
41
geolgicas. Desta forma, na tabela 4 encontram-se as caractersticas amostrais (mdia e
desvio padro) das 48 amostras de gua separadas pelos grupos de formaes
geolgicas a que pertencem.
Por observao da tabela 4, pode afirmar-se que o pH mdio nas Aluvies e nas Areolas
da Estefnia e Areias do Vale de Chelas praticamente igual, 7.39 e 7.38,
respetivamente. A variabilidade em torno da mdia inferior nas Areolas da Estefnia e
Areias do Vale de Chelas. A maior mdia e o maior desvio padro surgem no grupo de
formaes geolgicas Argilas do Forno do Tijolo e Argilas e Calcrios dos Prazeres,
tomando os valores de 7.87 e de 1.49, respetivamente. Os Calcrios de Entrecampos
apresentam o menor pH mdio de valor 7.2. O menor desvio padro surge na Formao
de Benfica, cujo valor 0.32. Embora a mdia seja relativamente alta, cujo valor 7.71.
Quanto condutividade eltrica, na Formao de Benfica e no CVL as mdias so
inferiores a 950 S/cm, enquanto nas restantes formaes geolgicas as mdias
ultrapassam os 1200 S/cm. A menor variabilidade em torno da mdia verifica-se no
CVL, onde o desvio padro 131.79 S/cm e a maior variabilidade em torno da mdia
ocorre nas Aluvies, onde o desvio padro 466.19 S/cm.
Quanto ao Eh, a sua mdia positiva na Formao de Benfica e no CVL, sendo 192.34
e 143.71 mV, respetivamente; a mdia negativa nas restantes formaes.
Relativamente variabilidade em torno da mdia menor na Formao de Benfica e
nos Calcrios de Entrecampos, cujo desvio padro 42.34 mV e 41.59 mV,
respetivamente.
Quanto ao io bicarbonato, verifica-se a maior variabilidade em torno da mdia nas
Argilas e a menor no CVL, sendo o desvio padro de 189.99 e 48.72 mg/L,
respetivamente. A maior concentrao mdia encontra-se nos Calcrios de Entrecampos
(415.17 mg/L) e a menor na Formao de Benfica (278.61 mg/L).
Quanto ao io de clcio, observa-se que a maior concentrao mdia nas Aluvies
(172.97 mg/L), enquanto as menores concentraes mdias so na Formao de Benfica
e no CVL, cujos valores so 88.15 e 80.86 mg/L, respetivamente. Tambm estas duas
ltimas apresentam a menor variabilidade em torno da mdia, uma vez que os seus
desvios padro so os menores, 15.88 mg/L no CVL e 29.21 mg/L na Formao de
Benfica.
Quanto ao io sdio, a menor concentrao mdia no CVL (58.69 mg/L) e a maior
na Areolas da Estefnia e Areias do Vale de Chelas (123.58 mg/L). A menor
-
42
variabilidade em torno da mdia surge nos Calcrios de Entrecampos, onde o desvio
padro 21.72 mg/L.
Quanto ao io potssio, as suas concentraes mdias tomam valores bastante
diferentes, nomeadamente, as Aluvies e o CVL tm mdias mais reduzidas (5.7 e 3.7
mg/L, respetivamente), enquanto os Calcrios de Entrecampos e as Areolas da Estefnia
e Areias do Vale de Chelas tm mdias muito elevadas (27.35 e 33.54 mg/L,
respetivamente). Para este io, em todas as formaes geolgicas verifica-se uma
grande variabilidade em torno da mdia, visvel atravs do seu desvio padro elevado,
destacando as Areolas da Estefnia e Areias do Vale de Chelas com o maior desvio
padro (34.13 mg/L).
Quanto ao io magnsio, nas Aluvies a mdia no muito elevada (28.63 mg/L), mas
a variabilidade em torno da mdia muito elevada, uma vez que o seu desvio padro
23.61 mg/L. No CVL a concentrao mdia a mais elevada (53.63 mg/L), mas a
variabilidade em torno da mdia a menor, uma vez que o desvio padro 10.04 mg/L.
A menor mdia (21.20 mg/L) nos Calcrios de Entrecampos e a maior variabilidade
em torno da mdia nas Argilas do Forno do Tijolo e Argilas e Calcrios dos Prazeres,
cujo desvio padro 29.20 mg/L.
Quanto ao io fluoreto, a menor concentrao mdia (0.11 mg/L) surge no CVL,
enquanto a maior concentrao mdia (0.39 mg/L) surge nas Argilas. O mesmo se pode
afirmar quanto variabilidade em torno da mdia, pois o desvio padro no CVL 0.08
mg/L e nas Argilas 0.33 mg/L. Os Calcrios de Entrecampos e as Areolas da Estefnia
e Areias do Vale de Chelas apresentam a mesma concentrao mdia (0.31 mg/L), mas
a variabilidade em torno da mdia muito inferior nos Calcrios de Entrecampos, uma
vez que o desvio padro consideravelmente inferior, sendo 0.13 mg/L nos Calcrios
de Entrecampos e 0.30 mg/L nas Areolas da Estefnia e Areias do Vale de Chelas.
Quanto ao io cloreto, o CVL aparece como a formao geolgica com a menor
concentrao mdia deste io (61.16 mg/L). As Aluvies, as Areolas da Estefnia e
Areias do Vale de Chelas e as Argilas aparecem com as maiores concentraes mdias
deste io, em torno dos 100 mg/L, destacando as Aluvies cuja concentrao mdia a
mais elevada (105.13 mg/L). A maior variabilidade em torno da mdia ocorre nas
Aluvies e nas Argilas, onde os desvios padro so 61.65 e 70.93 mg/L, respetivamente,
em oposio menor variabilidade que ocorre nos Calcrios de Entrecampos, cujo
desvio padro 18.12 mg/L.
-
43
Quanto ao io brometo, a variabilidade em torno da mdia bastante elevada, em
particular nas Aluvies, nas Areolas da Estefnia e Areias do Vale de Chelas e nas
Argilas, onde os desvios padro tomam os valores de 1.23, de 1.06 e de 1.23 mg/L,
respetivamente. As concentraes mdias, deste io, tambm so elevadas nestas
formaes geolgicas, nas Aluvies 0.85 mg/L, nas Areolas 0.66 mg/L e nas Argilas
0.82 mg/L. Nos Calcrios de Entrecampos a concentrao mdia bem menor (0.14
mg/L), mas a variabilidade em torno da mdia muito elevada (0.17 mg/L). O CVL
aparece como a formao geolgica que tem a menor concentrao mdia deste io,
cujo valor 0.05 mg/L.
Quanto ao io nitrato, as Argilas apresentam a menor concentrao mdia (5.67 mg/L),
por sua vez a variabilidade em torno da mdia muito elevada (7.9 mg/L). A maior
concentrao mdia (79.72 mg/L) deste composto ocorre na Formao de Benfica. As
Aluvies e as Areolas da Estefnia e Areias do Vale de Chelas apresentam
concentraes mdias prximas dos 50 mg/L e desvios padro elevados.
Quanto ao io sulfato, a maior concentrao mdia (223.7 mg/L) deste composto ocorre
nas Argilas e a menor concentrao mdia (71.73 mg/L) no CVL. A formao de
Benfica e o CVL apresentam valores mdios e desvios padro semelhantes e baixos.
-
44
Tabela 4: Caractersticas amostrais (mdia e desvio padro) das variveis em cada grupo de formaes geolgica
Formaes geolgicas
1 2 3 4 5 6
Mdia
Desvio
Padro Mdia
Desvio
Padro Mdia
Desvio
Padro Mdia
Desvio
Padro Mdia
Desvio
Padro Mdia
Desvio
Padro
pH 7,39 0,95 7,71 0,32 7,59 0,34 7,20 0,80 7,38 0,83 7,87 1,49
C.E. 1266,33 466,19 934,45 298,32 844,71 131,79 1226,33 194,72 1333,92 343,64 1436,50 314,94
Eh -76,15 109,83 192,34 42,35 143,71 108,16 -113,18 41,59 -27,44 133,30 -32,62 131,83
360,33 95,85 278,61 108,39 382,12 48,72 415,17 137,02 378,25 52,49 385,83 189,99
Ca2+
172,97 60,00 88,15 29,21 80,86 15,88 124,00 38,40 141,28 42,07 149,87 46,15
Na+ 78,88 36,76 94,32 53,33 58,69 24,38 108,15 21,72 123,58 62,02 118,87 68,66
K+ 5,70 4,70 10,08 7,12 3,70 5,60 27,35 29,56 33,54 34,13 8,27 9,40
Mg2+
28,63 23,61 25,15 11,90 53,63 10,04 21,20 12,76 27,48 18,71 45,67 29,20
0,32 0,16 0,18 0,09 0,11 0,08 0,31 0,13 0,31 0,30 0,39 ,33
105,13 61,65 93,77 38,08 61,16 22,58 87,90 18,12 103,98 38,40 103,57 70,93
0,85 1,23 0,18 0,12 0,05 0,05 0,14 0,17 0,66 1,06 0,82 1,23
49,02 43,92 79,72 68,93 18,90 20,50 30,43 14,48 46,76 41,81 5,67 7,90
171,15 95,55 81,53 24,97 71,73 26,02 116,57 30,58 180,53 152,99 223,70 160,79
-
45
3.1.2. Correlao linear de Pearson
Na amostra global as correlaes apresentam valores baixos, inferiores a 0.8 em
mdulo, veja-se o anexo 4.
As tabelas da matriz de correlaes entre as variveis, em cada um dos grupos de
formaes geolgicas, encontram-se em anexo (anexo 5 a 10).
Nas Aluvies, apenas 7 pares de variveis tm valores de correlao superiores a 0.8,
salientando a condutividade eltrica com o sdio e o sdio com o cloreto que
apresentam valores de correlaes muito elevados. Deste modo, pode afirmar-se que
amostras com menores concentraes de sdio tm menor condutividade eltrica e
menores concentraes de cloreto, assim como amostras com maiores concentraes de
sdio tm maior condutividade eltrica e maiores concentraes de cloreto.
Na Formao de Benfica, apenas 4 pares de variveis apresentam valores de correlao
linear superior a 0.8. Existem 10 pares de variveis cujos valores das correlaes so
inferiores a 0.8, em mdulo, porm, significantes2. O cloreto com o sdio, com a
condutividade eltrica e o com brometo e o magnsio com a condutividade eltrica.
Assim sendo, nestas amostras, quanto maior for a concentrao de cloreto, maior a
concentrao de sdio e de brometo, bem como os nveis de condutividade eltrica.
No Complexo Vulcnico de Lisboa existem 5 pares de variveis com valores de
correlao superiores a 0.8, em mdulo, dos quais dois pares tm valores de correlao
negativos. O Eh correlaciona-se negativamente com o clcio e com o magnsio, ou seja,
medida que os valores de Eh aumentam as concentraes de clcio e de magnsio
diminuem. O sdio correlaciona-se positivamente com o bicarbonato e com o nitrato.
Deste modo, amostras com pequenas (ou grandes) concentraes de sdio tm pequenas
(ou grandes) concentraes de bicarbonato e de nitrato. Existe um par de variveis com
valor de correlao abaixo de 0.8, mas significante.
Nos Calcrios de Entrecampos existem 8 pares de variveis com valores de correlao
superiores a 0.8, em mdulo. Desses valores, dois so negativos. O fluoreto
correlaciona-se negativamente com a condutividade eltrica e com o magnsio. A
2 Uma correlao diz-se significante, se ao nvel de significncia 0.05 se rejeitar a hiptese nula no teste
-
46
condutividade eltrica e o magnsio correlacionam-se positivamente, tal como o nitrato
com o sulfato, com o Eh, com o bicarbonato e com o clcio.
Nas Areolas da Estefnia e Areias do Vale de Chelas existem 4 pares de variveis com
valores de correlao maiores que 0.8. A condutividade eltrica correlaciona-se
positivamente com o sdio e com o sulfato. Tambm existem 8 pares de variveis com
valores de correlaes inferiores a 0.8, mas significantes.
Nas Argilas do Forno do Tijolo e Argilas e Calcrios dos Prazeres existem 8 pares de
variveis que tm valores de correlao superiores a 0.8, em mdulo. Desses valores,
quatro so negativos, nomeadamente, o pH e o bicarbonato, o bicarbonato com o
potssio e com o nitrato e este ltimo com o sdio, e quatro so positivos; o pH com o
potssio e com o nitrato, a condutividade eltrica com o magnsio e o nitrato com o
potssio.
Mais frente, na seco 3.1.3 (representaes grficas) ser efetuada uma anlise dos
diagramas de disperso para alguns pares de variveis.
-
47
3.1.3. Representaes grficas
Nas figuras que se seguem podem observar-se os diagramas em caixa de bigodes
paralelos e os diagramas de disperso. Na figura 4 encontram-se os diagramas em caixa
de bigodes paralelos para cada varivel (comparando por formao geolgica) e na
figura 5 encontram-se os diagramas em caixa de bigodes paralelos para cada formao
geolgica (comparando por variveis).
-
48
Figura 4: Diagramas em caixa de bigodes paralelos de cada varivel comparando cada formao geolgica
Para o pH, a amostra de gua Lis30 considerada outlier severo superior do CVL,
apesar de no ser o mximo da amostra global. Excluindo essa observao os valores do
pH no CVL so muito prximos, como visvel no respetivo diagrama em caixa de
bigodes. Em relao s Aluvies, Calcrios de Entrecampos e Areolas da Estefnia e
Areias do Vale de Chelas a variao dos valores do pH muito similar. Nas Argilas, se
excluir a amostra de gua Lis9, cujo valor de pH 10.45, tambm se encontra uma
distribuio idntica s anteriores.
Para a condutividade eltrica, a amostra de gua Lis21 outlier moderado superior das
Areolas da Estefnia e Areias do Vale de Chelas e tambm o maior valor da amostra
global. As amostras de gua do CVL so caracterizadas por apresentar baixa
condutividade eltrica.
-
49
Para o Eh, a amostra de gua Lis37 outlier moderado superior das Aluvies e a
amostra de gua Lis46 outlier severo inferior na Formao de Benfica, no sendo o
mximo nem o mnimo da amostra global, respetivamente. As amostras de gua
recolhidas nas Aluvies caracterizam-se pelos valores de Eh negativos, com exceo da
amostra de gua Lis37 que apresenta valor positivo. Nas amostras da Formao de
Benfica, se excluir o outlier, o Eh apresenta valores muito prximos e elevados, em
relao s outras formaes geolgicas. Nas amostras do CVL os valores de Eh so
maioritariamente positivos. Nas amostras dos Calcrios de Entrecampos os valores de
Eh so negativos. Nas amostras das Areolas e das Argilas o Eh apresenta valores, quer
positivos, quer negativos.
Quanto ao io bicarbonato, as amostras de gua Lis24 e Lis46 surgem como outliers da
Formao de Benfica, o primeiro severo superior e o segundo moderado inferior. As
amostras Lis44 e Lis47 aparecem como outliers do CVL, o primeiro severo inferior e
o segundo moderado superior. Nas amostras de gua do CVL, excluindo os outliers,
as concentraes deste io apresentam valores muito prximos. Nas amostras de gua
recolhidas nas outras formaes geolgicas a concentrao deste io apresenta uma
maior disparidade de valores, destacando as Argilas pela elevada variabilidade.
Quanto ao io de clcio, as amostras Lis24 e Lis47 so outliers moderados superiores da
Formao de Benfica e do CVL, respetivamente. As amostras de guas do CVL
caracterizam-se por baixas concentraes deste io e pela pequena variabilidade
relativamente s outras formaes geolgicas, enquanto as amostras das Aluvies
caracterizam-se por concentraes mais elevadas deste io.
Quanto ao io sdio, a amostra Lis31 representa um outlier moderado superior da
Formao de Benfica e a amostra Lis21 um outlier moderado superior das Argilas. As
amostras do CVL caracterizam-se por menores concentraes deste io, em relao s
outras formaes geolgicas.
Quanto ao io potssio, as amostras Lis32, Lis14 e Lis9 representam outliers para as
formaes CVL, Calcrios de Entrecampos e Argilas, respetivamente, sendo os dois
primeiros severos superiores e o ltimo moderado superior. Por observao do diagrama
em caixa de bigodes constata-se que nenhum destes outliers mximo na amostra
global. nas Areolas da Estefnia e Areias do Vale de Chelas que a concentrao e a
variabilidade so maiores. Sem considerar os outliers, as amostras do CVL e das
Argilas apresentam concentraes deste io muito baixas, bem como pequenas
variabilidades.
-
50
Quanto ao io magnsio, a amostra Lis16 outlier moderado superior das Aluvies. As
amostras de gua das Areolas e das Argilas apresentam grande variabilidade. As
amostras de gua provenientes do CVL caracterizam-se por valores mais altos do io
magnsio.
Quanto ao io fluoreto, as amostras do CVL apresentam baixas concentraes deste io,
relativamente s restantes formaes geolgicas. As amostras de gua das Areolas e das
Argilas apresentam uma grande variabilidade e diagramas em caixa de bigodes
idnticos.
Quanto ao io cloreto, a amostra Lis48 outlier severo superior do CVL. As amostras
do CVL caracterizam-se por baixas concentraes e pequena variabilidade. Nas
amostras das Aluvies e das Argil
top related