trabalho1 estatistica multivariada 2012-final

10
Índice Introdução................................................................................................................................. 1 Enquadramento geral ............................................................................................................ 1 Problema .................................................................................................................................. 2 Objetivo geral ........................................................................................................................... 2 Hipótese ................................................................................................................................... 2 Metodologia ............................................................................................................................. 2 Revisão da literatura ................................................................................................................. 4 Apresentação e discussão dos resultados .................................................................................. 4 Conclusão ................................................................................................................................. 7 Bibliografia ............................................................................................................................... 8 Anexos ..................................................................................................................................... 8

Upload: samuel-orlando-nhantumbo

Post on 09-Jul-2015

563 views

Category:

Education


1 download

DESCRIPTION

Estatistica multivarida

TRANSCRIPT

Page 1: Trabalho1 estatistica multivariada 2012-final

Índice Introdução................................................................................................................................. 1

Enquadramento geral ............................................................................................................ 1

Problema .................................................................................................................................. 2

Objetivo geral ........................................................................................................................... 2

Hipótese ................................................................................................................................... 2

Metodologia ............................................................................................................................. 2

Revisão da literatura ................................................................................................................. 4

Apresentação e discussão dos resultados .................................................................................. 4

Conclusão ................................................................................................................................. 7

Bibliografia ............................................................................................................................... 8

Anexos ..................................................................................................................................... 8

Page 2: Trabalho1 estatistica multivariada 2012-final

Samuel Nhantumbo Correio electrónico: [email protected]

1

Introdução

Enquadramento geral

Entende se por prestígio a opinião pública (avaliação social) sobre uma determinada

pessoa, grupo de pessoas, ou mesmo uma organização. Desde os tempos remotos da

humanidade, observa se quase sempre a tendência de uma sociedade valorizar ou

prestigiar certo grupo de pessoas pela sua função dentro da mesma. Além da profissão

exercida, variáveis como rendimento, nível de escolaridade tende a contribuir no que

concerne a definição do Status moral do individuo (prestigio). Umas das questões pode

estar ligada a superprestígio ou sub-prestígio é o suicídio dado que as pessoas

prestigiadas se sentem na posição de não cometer erros para não desiludir aqueles que

tanto lhe dão respeito e os outros pela sua exclusão no social.

Tentativas de se explicar o suicídio não são recentes. Nas teorias sociais, Emile

Durkheim foi um dos primeiros estudiosos a tentar procurar padrões para a taxa de

suicídio. Durkheim publicou em 1897 a obra intitulada "Le Suicide", na qual analisou

empiricamente os suicídios ocorridos no século XIX, na França. Subsequentemente,

diversos outros autores se propuseram a explicar os determinantes do suicídio.

Durkheim discute a definição de suicídio com base na intenção do indivíduo em

cometê-lo. Inicialmente, o define como:

Todo o caso de morte que resulta directa ou indirectamente de um acto positivo ou

negativo praticado pela própria vítima e a tentativa de suicídio é o acto assim definido,

mas interrompido antes que dele resulte a morte.

A teoria durkheimiana aponta uma relação positiva entre o aumento da idade e a taxa de

suicídio. Para o autor, a velhice se caracteriza por ter o índice mais elevado de suicídio

porque, nesse período, se vivem situações altamente desvitalizantes como: isolamento

social, desemprego, aflições econômicas e perda de entes queridos.

Durkheim (2003) argumenta que a educação, assim como a fraca religiosidade, está

associada a um nível mais elevado de suicídio por embutir no indivíduo um sentimento

maior de independência. Lin (2006) apresenta um estudo em dados em painel para

Taiwan e mostra que, para o sexo masculino, quanto maior for o grau de instrução,

maior será o risco de suicídio, argumentando que o trabalho de pessoas com alta

escolaridade pode ser mais estressante. Ao ser submetido a maior estresse mental, o

Page 3: Trabalho1 estatistica multivariada 2012-final

Samuel Nhantumbo Correio electrónico: [email protected]

2

indivíduo teria maior probabilidade de suicídio. Mitra e Shroff (2006) encontram

relação positiva, embora não significativa, entre taxa de alfabetismo e suicídio para a

Índia.

O facto dos homens, em geral, serem mais instruídos do que as mulheres faz com que

estas tenham taxas de suicídios mais baixas. Nas últimas décadas, essa diferença

educacional têm-se reduzido. No entanto, a menor ocorrência de suicídio entre as

mulheres tem sido atribuída à baixa prevalência de alcoolismo; à religiosidade; às

atitudes flexíveis em relação às aptidões sociais e ao desempenho de papéis durante a

vida. Além disso, as mulheres reconhecem precocemente sinais de risco para depressão,

buscando ajuda em momentos de crise e participando das redes de apoio social.

Problema Pretende-se saber se é possível sumarizar a informação em, por exemplo, uma ou duas

combinações lineares das variáveis.

Objetivo geral Reduzir a dimensão de dados (reduzir as variáveis) do estudo contando com a

minimização da informação perdida ao longo do processo.

Hipótese As variáveis níveis de prestígio, taxa de suicídio, rendimento mediano e o número

mediano de anos de instrução completa por educação podem ser resumidas no máximo

por duas combinações lineares, mantendo pelo menos 90% da informação das variáveis

originais.

Metodologia Para esta análise iremos usar a matriz de correlações pelo facto de que as variáveis

apresentam unidades de medidas diferentes uma da outra, já que esta se encontra

padronizada e não sofre efeitos de unidades de medida.

Usaremos o Software SPSS versão 13.0 para análise de dados.

Page 4: Trabalho1 estatistica multivariada 2012-final

Samuel Nhantumbo Correio electrónico: [email protected]

3

Seleção do critério de retenção de componentes principais.

Para testar a hipótese acima apresentada, para retenção de componentes principais

aplicar-se-á o Critério da percentagem da variância. A escolha desse critério tem em

vista testar a hipótese a presentada, no entanto irá reter se os primeiros componentes

principais consecutivos cuja percentagem da variância total acumulada seja pelo menos

90%.

A regra de decisão:

Para verificar a adequação da amostra usaremos o índice MSA ou KMO (significativo

quando for maior que 0,5) e o teste de esfericidade de Bartlett a nível de significância

5% para complementar a informação traduzida pelos índices.

No que concerne ao padrão de correlação entre as variáveis, a matriz de correlações

deve exibir a maior parte dos coeficientes com valor acima de ±0,30. O teste de Kaiser-

Meyer-Olklin (KMO) varia entre 0 e 1. Quanto mais perto de 1, tanto melhor. Para

interpretar o valor da estatística KMO: acima de 0,50 como aceitável (Hair et al), abaixo

deste inadequado o uso de componentes principais para a sumarização de dados. Por

fim, a estatística deve ser estatisticamente significante (p <0,05).

Quanto ao teste de hipótese, caso um ou dois componentes principais consiga reter pelo

menos 90% da informação das variáveis originais não ira se rejeitar a hipótese acima

apresentada (hipótese nula).

Descrição das variáveis

Este caso incide sobre um estudo adaptado de Labovitz (1970), incluem 31 observações

agrupadas em Profissões.

Das variáveis disponíveis profissão, níveis de prestígio, taxa de suicídio, rendimento

mediano e o número mediano de anos de instrução completa por educação, apenas

iremos usar as 4 últimas, por estas serem o resumo para cada profissão. Todas elas são

contínuas, assim não sendo necessário a codificação das mesmas.

Page 5: Trabalho1 estatistica multivariada 2012-final

Samuel Nhantumbo Correio electrónico: [email protected]

4

Revisão da literatura A análise de componentes principais é uma técnica da estatística multivariada que

consiste em transformar um conjunto de variáveis originais em outro conjunto de

variáveis de mesma dimensão denominadas de componentes principais. Os

componentes principais apresentam propriedades importantes: cada componente

principal é uma combinação linear de todas as variáveis originais, são independentes

entre si e estimados com o propósito de reter, em ordem de estimação, o máximo de

informação, em termos da variação total contida nos dados.

A análise de componentes principais é associada à ideia de redução de massa de dados,

com menor perda possível da informação. Procura-se redistribuir a variação observada

nos eixos originais de forma a se obter um conjunto de eixos ortogonais não

correlacionados. Esta técnica pode ser utilizada para geração de índices e agrupamento

de indivíduos. A análise agrupa os indivíduos de acordo com sua variação, isto é, os

indivíduos são agrupados segundo suas variâncias, ou seja, segundo seu comportamento

dentro da população, representado pela variação do conjunto de características que

define o indivíduo, ou seja, a técnica agrupa os indivíduos de uma população segundo a

variação de suas características.

Apresentação e discussão dos resultados Análise de componentes principais

Nesta secção é realizada uma análise de componentes principais sobre as 4 variáveis

sociais, definidos na secção metodológica. A análise de componentes principais tem o

objetivo de simplificar um conjunto de dados por meio de uma redução do número de

variáveis que passam a ser expressas por factores que são ortogonais entre si.

A maior parte das correlações verificadas estão acima de 0,3 uma indicio este da

existência da multicolinearidade. A matriz mostra existência de uma correlação positiva

Page 6: Trabalho1 estatistica multivariada 2012-final

Samuel Nhantumbo Correio electrónico: [email protected]

5

forte entre níveis de prestígio e as variáveis rendimento mediano e número mediano de

anos de educação completa, e tendo esta com a variável taxa de suicídio uma correlação

positiva moderada. A taxa de suicídio esta fortemente correlacionada negativamente

com o numero mediano de anos de educação completa, contrariando assim a

constatação de Durkheim, que esta diz haver uma correlação positiva entre o nível de

educação e a taxa de suicídio. O rendimento mediano e o nível de educação é

fortemente correlacionado positivamente

Tabela 2 KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy.

,600

Bartlett's Test of Sphericity Approx. Chi-Square 90,737

Df 6

Sig. ,000

A segunda etapa da análise de componentes principais é expressa pela Tabela1 que

contém a medida de adequação dos dados de Kaiser-Meyer-Olkin (KMO). É possível

notar que tal estatística possui valor de 0,6, indicando boa adequação dos dados à

análise factorial. O teste de esfericidade de Bartlett rejeita a hipótese nula de que a

matriz de correlação seja uma matriz identidade, isto é, existe uma correlação

significativa de pelo menos duas variáveis.

Tabela 3 Total Da Variância explicada

Component

Initial Eigenvalues Extraction Sums of Squared Loadings

Total % of Variance Cumulative % Total % of Variance Cumulative %

1 2,673 66,828 66,828 2,673 66,828 66,828

2 1,039 25,971 92,800 1,039 25,971 92,800

3 ,227 5,679 98,479 ,227 5,679 98,479

4 ,061 1,521 100,000 ,061 1,521 100,000

Extraction Method: Principal Component Analysis.

A importância de um componente principal é avaliada por meio de sua contribuição,

isto é, pela proporção de variância total explicada pelo componente, tendo em conta a

hipótese a ser testada, dos 4 componentes determinados apenas iremos reter os 2

primeiros Tabela 2, por estes explicar 92,8% da variância total, isto é, contem pelo

menos 90% da informação das variáveis principais.

Page 7: Trabalho1 estatistica multivariada 2012-final

Samuel Nhantumbo Correio electrónico: [email protected]

6

Comunalidades

Tabela 4

Initial Extraction

Níveis de prestigio 1,000 ,947

Taxa de suicídio 1,000 ,987

Rendimento mediano 1,000 ,849

Número mediano de anos de educação completa 1,000 ,929

Extraction Method: Principal Component Analysis.

Quando os factores são extraídos, novas comunalidades podem ser calculadas, as quais

representam a correlação múltipla entre cada variável e os factores extraídos. Portanto,

pode-se dizer que a comunalidade é uma medida da proporção da variância explicada

pelos factores extraídos. As comunalidades representam a proporção da variância para

cada variável incluída na análise que é explicada pelos componentes extraídos.

Os dois factores extraídos explicam 94,7% da variância de níveis de prestígio, 98,7% da

variância da taxa de suicídio, 84,9% da variância de rendimento mediano, 92,9% da

variância de número mediano de anos de educação completa. Usualmente o valor

mínimo aceitável é de 0,50. A baixa comunalidade entre um conjunto de variáveis é um

indício de que elas não estão linearmente correlacionadas e, por isso, não devem ser

incluídas na análise.

Component Matrix(a) Tabela 5

Component

1 2

Níveis de prestigio ,973 -,020

Rendimento mediano ,917 ,090

Número mediano de anos de educação completa ,913 -,309

Taxa de suicídio ,227 ,967

Extraction Method: Principal Component Analysis. a 2 components extracted.

A observação da matriz de componentes permite a visualização das cargas factoriais de

cada variável para os componentes extraídos antes da rotação. Em outras palavras, são

os coeficientes de correlação entre as variáveis e os componentes não rotados.

Observa-se que o primeiro componente principal esta positivamente correlacionado com

todas variáveis, com destaque variáveis níveis de prestigio, rendimento mediano e

numero de anos de educação completa. O segundo componente principal para sua

Page 8: Trabalho1 estatistica multivariada 2012-final

Samuel Nhantumbo Correio electrónico: [email protected]

7

formação contribuíram positivamente variáveis rendimento mediano e taxa de suicídio e

negativamente variáveis níveis de prestígio e número mediano de anos de educação

completa, mas estas de uma forma moderada.

Combinações lineares (componentes principais) retidas das variáveis

Conclusão

É possível sumarizar a informação em, por exemplo, uma ou duas combinações lineares

das variáveis? Essa foi a questão do trabalho que orientou nossos esforços. Partindo

desta pergunta de pesquisa foi possível elaborar uma hipótese, que esta foi testada e não

foi rejeitada, onde a não rejeição da mesma nos leva a responder positivamente a

pergunta acima apresentada.

De notar que os presentes dados levaram nos a verificar e a quantificar as correlações

existentes nas variáveis do estudo, vindo alguns destes resultados a repudiar algumas

teorias encontradas na literatura, como caso da existência de uma tendência de aqueles

que têm um nível alto de escolaridade cometerem suicídio segundo Durkheim. Essa

contrariedade, pode estar ligado a diferença da população em os dados dos dois estudos

foram recolhidos, devido ao hábitos e costumes de cada sociedade e também a factores

ligados a religiosidade também identificada pelo Durkheim.

Foram extraídos dois componentes principais, onde o primeiro pode ser descrito como

indivíduos com Status social elevado, que é a classe alta, pessoas que ocupam cargos de

maior destaque. O segundo componente principal a sua interpretação pode ser mais

complicada que o primeiro, mas este pode representar a população da classe média.

Page 9: Trabalho1 estatistica multivariada 2012-final

Samuel Nhantumbo Correio electrónico: [email protected]

8

Bibliografia Pestana, M.H. e Gageiro, J.N. (2008). Análise de dados para Ciências Sociais. 5ª

edição. Lisboa. Portugal

Hair e tal (2005). Análise Multivariada de dados. 5ª Edição, Porto Alegre. Brasil.

Maroco, J. (2007). Análise estatística com utilização do SPSS. 3ª Edição. Edições

sílabo.

Reis, E. (2001). Estatística Multivariada Aplicada. 2ª Edição. Lisboa, Edições Sílabo.

BRANDÃO, A. Psicopatologia: suicídio. Centro Federal de Educação Tecnológica de

São Paulo. Disponível em: <http://www.cefetsp.br/edu/sinergia/5p9c.html>.

ORGANIZAÇÃO MUNDIAL DE SAÚDE (OMS). Dados sobre suicídio para diversos

países. Disponível em: <http://www.who.int>

PEREIRA, J. Análise de dados qualitativos: estratégias metodológicas para as ciências

da saúde, humanas e sociais. São Paulo: EDUSP, 1999.

Anexos

Page 10: Trabalho1 estatistica multivariada 2012-final

Samuel Nhantumbo Correio electrónico: [email protected]

9

Gráfico de componentes antes de extração.

Comandos do SPSS versão13.0 usados na determinação do output

FACTOR /VARIABLES Prestig Suicidio Rendim Educ /ANALYSIS Prestig Suicidio Rendim Educ /PRINT UNIVARIATE INITIAL CORRELATION KMO EXTRACTION FSCORE /PLOT EIGEN ROTATION /CRITERIA MINEIGEN(0) ITERATE(25) /EXTRACTION PC /ROTATION NOROTATE /SAVE REG(ALL) /METHOD=CORRELATION.