métodos estatísticos aplicados em genética humana

192
 et odos Estat ´ ı sti cos Apli cados em Geeti ca Humana Mariza de Andrade Division of Biostatistics Mayo Clinic Rochester MN, U.S.A. Hildete Prisco Pinheiro Departa mento de Estatis tica UNICAMP SP, Brasil

Upload: david-arechaga

Post on 02-Nov-2015

267 views

Category:

Documents


0 download

DESCRIPTION

Genética

TRANSCRIPT

  • Metodos Estatsticos Aplicados em

    Genetica Humana

    Mariza de AndradeDivision of BiostatisticsMayo Clinic Rochester

    MN, U.S.A.

    Hildete Prisco PinheiroDepartamento de Estatistica

    UNICAMPSP, Brasil

  • DO N

    OT C

    OPY

    Prefacio

    Para Lydia e John.Para Tas, Joana e Alusio.

    Estas notas elaboradas para o mini-curso a ser ministrado no XV SI-NAPE pretendem servir a, basicamente, dois propositos:

    1. constituir-se num mini-texto de Estatstica Genetica para alunos deGraduacao e de Mestrado nas areas de Matematica, Estatstica, Bio-logia e etc.

    2. servir como referencia para aqueles indivduos interessados em fazertrabalhos na area de genetica humana.

    Com o desenvolvimento da tecnologia molecular, o mapa do genomahumano esta praticamente completo. Centenas de doencas Mendelianas jaforam mapeadas e, na maioria dos casos os genes responsaveis ja foramlocalizados e sequenciados, o que nao e o caso de doencas complexas comohipertensao. Este texto foi estruturado para descrever e delinear a areaemergente de Estatstica Genetica no contexto de localizacao de genes nogenoma, descrevendo a metodologia estatstica que pode ser utilizada nessaarea.

    Primeiramente, apresentamos conceitos basicos de genetica humana e degenetica populacional, indo do conceito de alelos ate o conceito de diversi-dade. No Captulo 2, introduzimos o conceito de correlacoes familiares, comocalcula-las e fazer testes de hipoteses a respeito. A ideia basica de analisede segregacao sera introduzida no Captulo 3. No Captulo 4, discutimos ametodologia estatstica usada em analise de ligacao. Finalmente, revisamosas medidas de distancia aplicadas em genetica populacional e molecular emostramos alguns novos metodos estatsticos que podem ser utilizados naanalise de sequencias genomicas no Captulo 5.

    O conteudo destas notas nao e uma enciclopedia, mas somente umaapresentacao de conceitos fundamentais para dar uma base de entendimento

    i

  • DO N

    OT C

    OPYiipara o problema. Outros topicos importantes e atuais sao modelos animais,envolvendo ratos e ratazanas, e analise de microarrays, mas neste texto naocobriremos tais areas de pesquisa. Pretendemos, no entanto, preparar uma

    continuacao desta monografia num futuro proximo.Gostaramos de agradecer a` FAPESP e a` Divisao de Bioestatstica da

    Mayo Clinic, pelo apoio financeiro e academico, aos alunos do programade mestrado em estatstica da UNICAMP, em particular, Benilton Car-valho, Roberta de Souza e Tatiana Benaglia, pela valiosa contribuicao naelaboracao deste texto e ao grande amigo Prof. Sergio dos Reis, do Institutode Biologia, pela ajuda e paciencia na explicacao dos conceitos biologicos.

    Mariza de Andrade e Hildete PinheiroCampinas, 2002.

  • Conteudo

    1 Conceitos Basicos de Genetica Humana 1

    1.1 Terminologia usada em geneticahumana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.1.1 As leis de Mendel . . . . . . . . . . . . . . . . . . . . . 6

    1.2 Estimacao de frequencias alelicas . . . . . . . . . . . . . . . . 6

    1.2.1 Frequencias alelicas multinomiais . . . . . . . . . . . . 7

    1.2.2 Estimacao por maxima verossimilhanca . . . . . . . . 16

    1.2.3 Metodo dos momentos . . . . . . . . . . . . . . . . . . 21

    1.2.4 Estimacao Bayesiana . . . . . . . . . . . . . . . . . . . 22

    1.3 Desequilbrio . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    1.3.1 Desequilbrio de Hardy-Weinberg . . . . . . . . . . . . 26

    1.3.2 Desequilbrio de ligacao . . . . . . . . . . . . . . . . . 37

    1.3.3 Desequilbrios genotpicos compostos . . . . . . . . . . 44

    1.3.4 Testes multiplos . . . . . . . . . . . . . . . . . . . . . 46

    1.3.5 Testes de homogeneidade . . . . . . . . . . . . . . . . 47

    1.4 Diversidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    1.4.1 Heterozigosidade . . . . . . . . . . . . . . . . . . . . . 49

    1.4.2 Diversidade genetica . . . . . . . . . . . . . . . . . . . 52

    2 Correlacao Familiar 59

    2.1 Matrizes estocasticas: ITU . . . . . . . . . . . . . . . . . . . . 59

    2.2 Conceito de correlacoes . . . . . . . . . . . . . . . . . . . . . 65

    2.3 Componentes de variancia . . . . . . . . . . . . . . . . . . . . 68

    2.4 Teste de associacao . . . . . . . . . . . . . . . . . . . . . . . . 70

    2.4.1 Estudo caso-controle . . . . . . . . . . . . . . . . . . . 72

    2.4.2 Estudo caso-genitores . . . . . . . . . . . . . . . . . . 72

    2.4.3 Associacao entre fenotipos quantitativos e marcadoresgeneticos . . . . . . . . . . . . . . . . . . . . . . . . . 74

    iii

  • iv CONTEUDO

    3 Analise de Segregacao 75

    3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    3.2 Analise de segregacao classica . . . . . . . . . . . . . . . . . . 75

    3.2.1 Modelo poligenico para fenotipos discretos . . . . . . . 79

    3.3 Analise de segregacao moderna . . . . . . . . . . . . . . . . . 80

    3.3.1 A distribuicao genotpica conjunta dos conjuges. . . . 81

    3.3.2 A distribuicao fenotpica condicionada no genotipo. . . 81

    3.3.3 Transmissao genetica do genotipo principal. . . . . . . 81

    3.3.4 Tipos de amostragem. . . . . . . . . . . . . . . . . . . 82

    3.3.5 Metodo de verossimilhanca . . . . . . . . . . . . . . . 83

    3.3.6 Selecionamento atraves do probando . . . . . . . . . . 83

    3.3.7 Testes de hipoteses geneticas . . . . . . . . . . . . . . 84

    3.4 Modelos regressivos . . . . . . . . . . . . . . . . . . . . . . . . 84

    3.4.1 Fenotipos binarios . . . . . . . . . . . . . . . . . . . . 88

    3.4.2 Idade do incio da doenca . . . . . . . . . . . . . . . . 89

    3.4.3 Analise condicional dependendo do selecionamento . . 90

    4 Analise de Ligacao 101

    4.1 Recombinacao genetica . . . . . . . . . . . . . . . . . . . . . . 103

    4.2 Analise pontual e multipontual . . . . . . . . . . . . . . . . . 104

    4.3 Modelo parametrico . . . . . . . . . . . . . . . . . . . . . . . 105

    4.4 Formas de heranca genetica . . . . . . . . . . . . . . . . . . . 108

    4.5 Analise de dados familiares . . . . . . . . . . . . . . . . . . . 109

    4.5.1 Exemplo de analise:doenca autossomica dominante - fase desconhecida . . 109

    4.6 Testes de homogeneidade . . . . . . . . . . . . . . . . . . . . 112

    4.7 Testes de heterogeneidade . . . . . . . . . . . . . . . . . . . . 113

    4.8 Funcoes de mapeamento . . . . . . . . . . . . . . . . . . . . . 114

    4.9 Analise nao-parametrica . . . . . . . . . . . . . . . . . . . . . 114

    4.9.1 Pares de irmaos afetados . . . . . . . . . . . . . . . . . 115

    4.10 Analise multipontuais . . . . . . . . . . . . . . . . . . . . . . 117

    4.11 Pacotes de computadores . . . . . . . . . . . . . . . . . . . . 119

    5 Analise de Dados Moleculares 121

    5.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

    5.2 Medidas de diversidade genetica . . . . . . . . . . . . . . . . 122

    5.2.1 Medidas intrapopulacionais . . . . . . . . . . . . . . . 122

    5.2.2 Medidas interpopulacionais . . . . . . . . . . . . . . . 125

    5.2.3 Testando hipoteses . . . . . . . . . . . . . . . . . . . . 128

    5.3 Distancias entre sequencias de DNA . . . . . . . . . . . . . . 129

  • CONTEUDO v

    5.3.1 Distancias baseadas em modelos . . . . . . . . . . . . 1295.3.2 Distancia log determinante . . . . . . . . . . . . . . . 1355.3.3 Distancia de Hamming . . . . . . . . . . . . . . . . . . 135

    5.4 Matrizes de distancia . . . . . . . . . . . . . . . . . . . . . . . 1365.4.1 Teste de correlacao de Mantel . . . . . . . . . . . . . . 1365.4.2 Analise de variancia molecular - AMOVA . . . . . . . 138

    5.5 CATANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . 1445.5.1 Motivacao estatstica . . . . . . . . . . . . . . . . . . . 1455.5.2 Variacao em dados categoricos e sequencias genomicas 1505.5.3 Particionando a medida de diversidade: uma unica

    posicao . . . . . . . . . . . . . . . . . . . . . . . . . . 1545.5.4 Particionando a medida de diversidade:

    multiplos stios . . . . . . . . . . . . . . . . . . . . . . 1555.5.5 O modelo probabilstico . . . . . . . . . . . . . . . . . 1575.5.6 Momentos das medidas de diversidade . . . . . . . . . 1595.5.7 A estatstica de teste . . . . . . . . . . . . . . . . . . . 1625.5.8 Analise de dados . . . . . . . . . . . . . . . . . . . . . 168

    Bibliografia 171

  • DO N

    OT C

    OPYvi CONTEUDO

  • DO N

    OT C

    OPY

    Lista de Tabelas

    1.1 Aminoacidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2 Frequencias dos tipos de acasalamento e prole de uma po-pulacao em equilbrio de Hardy-Weinberg com genotipos dosgenitores nas proporcoes p2: 2pq : q2. . . . . . . . . . . . . . 10

    1.3 Frequencias genotpicas para os grupos sanguneos MN entremaes e pais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    1.4 Frequencias Alelicas e genotpicas para o locus Pgm em dadosde mosquitos (Weir, 1996) . . . . . . . . . . . . . . . . . . . . 32

    1.5 Teste Exato para o EHW no locus Pgm para os dados databela 1.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    1.6 Teste de homogeneidade dos dados de Mendel sobre a formada semente (R: redonda, W: enrugada) em 10 plantas F2(Weir, 1996) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    2.1 Coeficientes de relacionamento e relacao para diversos tiposde parentesco. . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    3.1 Matriz de transmissao genetica para um locus autossomicocom dois alelos. Cada casela e uma distribuicao genotpica(puFuMAA puFuMAa puFuMaa) . . . . . . . . . . . . . . . . . . 82

    3.2 Probabilidades de Transmissao para modelos de um unicolocus com dois alelos (A1 e A2). . . . . . . . . . . . . . . . . . 92

    3.3 Calculo da funcao de verossimilhanca de um modelo autosso-mico com 50% de risco para o heterozigoto no heredogramada Figura 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    3.3 Continuacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

    3.3 Continuacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

    3.3 Continuacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    3.2 Continuacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

    vii

  • DO N

    OT C

    OPYviii LISTA DE TABELAS3.3 Continuacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 994.1 Resumo de Recombinacao . . . . . . . . . . . . . . . . . . . . 1044.2 Analise do Heredograma 1 . . . . . . . . . . . . . . . . . . . . 112

    4.3 Resultados da Analise de Ligacao . . . . . . . . . . . . . . . . 112

    5.1 Numero de Substituicoes de Nucleotdeos . . . . . . . . . . . 1325.2 Substituicoes de Nucleotdeos . . . . . . . . . . . . . . . . . . 1335.3 Delineamento para Analise de Variancia Molecular Hierarqui-

    ca (AMOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 1425.4 Tabela de Contingencia (K posicoes). . . . . . . . . . . . . . . 1475.5 Sumario dos Dados (Uma Posicao) . . . . . . . . . . . . . . . 1545.6 Comparacao da Variacao entre os Compartimentos. indica

    os dados cujas visitas estejam faltando. Estatsticas de testecom ? se encontram acima do percentil 99.5 da distribuicao dereferencia e aqueles com ?? se encontram acima do seu maximo.171

  • DO N

    OT C

    OPY

    Lista de Figuras

    2.1 Calculo da identidade por descendencia . . . . . . . . . . . . 602.2 Mecanismos de associacao . . . . . . . . . . . . . . . . . . . . 71

    3.1 Exemplo de Heredograma . . . . . . . . . . . . . . . . . . . . 91

    4.1 Recombinacao - Loci Proximos . . . . . . . . . . . . . . . . . 1044.2 Recombinacao - Loci Distantes . . . . . . . . . . . . . . . . . 1054.3 Heredograma 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 1104.4 Heredograma considerando duas fases . . . . . . . . . . . . . 110

    ix

  • DO N

    OT C

    OPY

  • Captulo 1

    Conceitos Basicos deGenetica Humana

    1.1 Terminologia usada em geneticahumana

    Atualmente, em biologia, as diferencas geneticas entre os organismossao, em geral, encontradas por analise molecular direta do DNA ou protenas.

    Analise genetica e possvel em qualquer organismo. Por esta razao, con-ceitos e enfoques experimentais de genetica populacional tem atrado quasetodas as areas da biologia moderna. Genetica populacional e o estudo dediferencas geneticas naturais entre organismos. Diferencas geneticas quesao comuns entre organismos da mesma especie sao chamadas polimorfismogenetico, enquanto que diferencas geneticas acumuladas entre especies cons-tituem divergencia genetica. Podemos entao definir genetica populacionalcomo o estudo de polimorfismo e divergencia.

    O que e genotipo e fenotipo?

    Gene e um termo geral que significa a entidade fsica transmitida depai para filho durante o processo de reproducao que influencia as carac-tersticas hereditarias. O conjunto de genes presentes num indivduo cons-titui o seu genotipo. A expressao fsica ou bioqumica do genotipo e deno-minada fenotipo. Os fenotipos podem ser quantitativos ou qualitativos. Umfenotipo e considerado quantitativo se ele e medido numa escala contnua,como a altura e o peso; e considerado qualitativo quando e medido de formacategorica, como nvel de gravidade de uma doenca (dicotomico ou po-litomico). Genes podem existir em diferentes formas ou estados. Estasformas alternativas de um gene sao chamadas alelos. Alelos podem ser do-

    1

  • 2 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    minantes, recessivos ou codominantes. Alelos dominantes sao aqueles emque somente uma copia alelica e suficiente para a expressao do fenotipo.Para os alelos recessivos e necessario duas copias alelicas para a expressaodo fenotipo e, para o alelo codominante nao ha dominancia completa sobrea outra forma alelica. Do ponto de vista bioqumico, um gene corresponde auma sequencia especfica de componentes (chamados nucleotdeos) ao longode uma molecula de DNA (acido desoxiribonucleico).

    Nucleotdeos sao as unidades fundamentais dos genomas e cada nucleot-deo consiste de um acucar, um fosfato e uma base. Numa macromolecula deacido nucleico, todos os acucares sao do mesmo tipo, ribose ou desoxiribose.Assim, acidos nucleicos vem em duas formas: Acido Ribonucleico (RNA)ou Acido Desoxirinucleico (DNA). O DNA tem quatro possveis bases denucleotdeo: Adenina (A), Citosina (C), Guanina (G) e Timina (T), ondeA pareia com T e G com C. RNA tambem tem quatro bases: A, C, G eUracila (U) no lugar de T. A e agora o complementar de U. Ao contrariodo DNA, o RNA e uma fita simples.

    Cada grupo adjacente de 3 nucleotdeos constitui um codon (Tabela 1.1),que especifica um aminoacido correspondente na cadeia polipeptdica (ouproteica). AUG codigo de incio para sntese polipeptdica. UAA, UAG e UGA especificam o termino da sntese polipeptdica.

    Uma protena e feita de uma sequencia de aminoacidos. Para transformaras palavrasde DNA em aminoacidos, uma maquinaria molecular sofisti-cada e necessaria. A Transcricao e o processo pelo qual as duas fitas de DNAsao abertas e uma molecula de RNA e construda ao longo de uma fita deDNA pela enzima RNA polimerase para iniciar a sntese de protena. Cadabase deste RNA mensageiro (mRNA) e complementar a` base de DNA cor-respondente. O mRNA entao carrega essa informacao genetica do DNA paraa fabrica de protenas, os ribossomos. No citoplasma, o mRNA e traduzidoem protena pela acao de varias moleculas de tRNA (RNA transportador),cada uma especfica para um aminoacido. O tRNA traduz o codigo geneticoem aminoacidos. De um lado da molecula de tRNA possui uma estruturadenominada anticodon que se liga ao codon complementar de mRNA e, ooutro lado carrega os aminoacidos. Como o ribossomo se move ao longo dasequencia de mRNA, os aminoacidos sao ligados e separados do tRNA. Oprocesso continua ate que o ribossomo alcance um codon de parada.

    Sequencias podem ser comparadas a nvel de nucleotdeo ou aminoacido.Substituicoes de nucleotdeos podem ser avaliadas se causam mudancas nosaminoacidos (nao sinonimas) vs. substituicoes que nao causam mudancas(silenciosas ou sinonimas). Ainda, substituicoes entre purinas (A e G)

  • 1.1. TERMINOLOGIA USADA EM GENETICA HUMANA 3

    Tabela 1.1: Aminoacidos.

    Aminoacidos Codons

    Glicina (GLY) GGT, GGC, GGA, GGGAlanina (ALA) GCT, GCC, GCA, GCGValina (VAL) GTT, GTC, GTA, GTG

    Leucina (LEU) TTA, TTG, CTT, CTC, CTA, CTGIsoleucina (ILE) ATT, ATC, ATA

    Serina (SER) TCT, TCC, TCA, TCG, AGT, AGCTreonina (THR) ACT, ACA, ACG, ACC

    Acido Aspartico (ASP) GAT, GACAcido Glutamico (GLU) GAA, GAG

    Lisina (LYS) AAA, AAGArginina (ARG) CGT, CGC, CGA, CGG, AGA, AGG

    Asparagina (ASN) AAT, AACGlutamina (GLN) CAA, CAG

    Cisteina (CYS) TGT, TGCMetionina (MET) ATG

    Fenilalanina (PHE) TTT, TTCTirosina (TYR) TAT, TAC

    Triptofano (TRP) TGGHistidina (HIS) CAT, CACProlina (PRO) CCT, CCC, CCA, CCG

  • 4 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    somente ou piramidinas (C e T) somente sao denominadas transicoes e,aquelas entre uma purina e uma piramidina (A C, A T, G C,G T) transversoes.

    O 1o Passo da expressao genica e transcricao: a sequencia de nucleotdeospresente em uma fita de DNA do gene e copiada fielmente para os nu-cleotdeos de uma molecula de RNA. Enquanto o RNA transcrito e sinte-tizado, cada base no DNA vai pareando com uma base no RNA. As regrasde pareamento sao as mesmas do DNA, sendo que a base U (Uracila) eencontrada no lugar de T (Timina).

    O 2o Passo e o processamento do RNA, em que certos segmentos doRNA transcrito sao removidos por splicing. Os segmentos que sao eli-minados sao conhecidos como introns. No splicingde RNA, cada introne clivado nas suas extremidades e descartado, enquanto que as extremida-des das sequencias de RNA sao ligadas. As regioes entre os introns quepermanecem no RNA totalmente processado sao chamadas de Exons. ORNA completamente processado constitui o RNA maduro. A traducao doRNA mensageiro ocorre no ribossomo dentro do citoplasma para produzira protena que e codificada na sequencia de nucleotdeos.

    Uma mutacao e definida como qualquer alteracao permanente do DNA,isto e, uma alteracao da sequencia de nucleotdeos ou arranjo do DNA nogenoma. Em termos geneticos, as mutacoes classificam-se em tres categorias:mutacoes do genoma (como e o caso da Sndrome de Down, em que ha trescopias do cromossomo 21), dos cromossomos (que e a troca de segmentos decromossomos nao homologos) e dos genes (como a doenca de Huntington,em que ha mutacao de pares de bases). Delecao e a perda de um segmentocromossomico.

    A totalidade de DNA numa celula e o genoma. Dentro de uma celula, osgenes sao dispostos em uma ordem linear ao longo de corpusculos filamen-tosos microscopicos chamados cromossomos. A celula humana reprodutivacontem 23 cromossomos e um genoma de tamanho aproximadamente 3109pares de bases. A posicao de um gene ao longo do cromossomo e chamadade locus do gene. Na maioria dos organismos, como nos seres humanos, cadacelula contem duas copias de cada tipo de cromossomo, um vindo da suamae, atraves do ovulo e o outro vindo do pai atraves do espermatozoide.A meiose e o processo de divisao celular pelo qual as celulas diploides delinhagem germinativa dao origem a gametas haploides. Celulas diploidesconsistem de 46 cromossomos (uma copia materna e outra paterna de 23cromossomos cada), e portanto os gametas (o ovulo ou o espermatozoide),que sao haploides, consistem de 23 cromossomos. A mitose e a divisao ha-bitual das celulas somaticas (nao germinativas), pelo qual o corpo cresce,

  • 1.1. TERMINOLOGIA USADA EM GENETICA HUMANA 5

    se diferencia e se reconstitui. A diferenca entre estes dois processos e que ameiose ocorre nas celulas germinativas (gametas) e a mitose nas celulas naogerminativas (somaticas).

    Recombinacao genetica e um fenomeno que esta intimamente ligado coma meiose celular. E devido a ocorrencia de recombinacao que existe um au-mento na variabilidade genetica, conferindo igual variacao aos descendentesde uma especie formados a partir dessas celulas.

    De forma resumida, pode-se dizer que a recombinacao baseia-se em que-bras que ocorrem enquanto os cromossomos homologos estao emparelhados,sendo que estas quebras sempre atingem duas cromatides irmas em pontoscorrespondentes e sao seguidas de soldadura. Sua localizacao e casual, vari-ando de celula para celula e o numero de recombinacoes e muito irregular.As cromatides que trocam pedacos, na sequencia da meiose, serao os no-vos cromossomos que se distribuirao entre as celulas filhas e, dessa forma, oconjunto genetico recebido pelos descendentes depende do resultado das tro-cas ocorridas durante o processo de divisao celular. Um conjunto de aleloslocalizados numa pequena secao da cromatide e denominado haplotipo.

    No calculo da distancia entre genes ao longo de um cromossomo, emprega-se a frequencia de recombinacao, pois esta depende da distancia entre ospontos nos quais ocorrem as quebras e permutas. Na recombinacao, os ale-los apenas trocam de posicao dentro do par de cromossomos homologos, demodo que a estrutura e a funcao cromossomica permanecem inalteradas.Esse processo nao deve ser confundido com mutacao.

    Na formacao de um gameta, os dois homologos sao copiados de cadapar de cromossomos. Na distribuicao de cromossomos homologos, a selecaode qualquer um deles proveniente do pai ou da mae para uma celula filhae aleatoria. Quando os pares de cromossomos homologos alinham-se, podeocorrer um processo chamado de crossing-over, o qual resulta na recom-binacao genetica.

    Recombinacoes ocorrem frequentemente e o numero de crossing-over de-pende do tamanho do cromossomo. Dessa forma, pode-se relacionar fracaode recombinacao com distancia genetica.

    O fundamento da Analise de Ligacao e que eventos de recombinacaoocorrem entre dois loci geneticos (genes, marcadores, aberracoes cromosso-micas, etc) segundo uma razao relacionada com a distancia entre eles em ummesmo cromossomo, isto e, loci que estao muito proximos tendem a seremherdados juntos, conforme a Figura 4.1.

    Em cada locus, todo indivduo contem 2 alelos: um a cada posicao(homologa) correspondente no cromossomo materno e paterno. Se 2 ale-los num locus nao sao distintos, o indivduo e dito ser homozigoto naquele

  • 6 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    locus. Se 2 alelos num locus sao distintos, o indivduo e dito ser heterozigoto.

    1.1.1 As leis de Mendel

    As doencas monogenicas sao tambem conhecidas como doencas Mende-lianas, devido a Gregor Mendel, um monge austraco do seculo XIX quededuziu importantes princpios geneticos baseados nos seus experimentoscom ervilhas. Mendel estudou sete fenotipos da ervilha, cada qual determi-nado por um unico gene. Duas leis fundamentais emergiram do trabalho deMendel, que sao:

    1. Primeira lei de Mendel: Lei da segregacao. Para cada locus,cada genitor transmite um alelo, materno ou paterno, independente-mente para cada indivduo na prole. O princpio basico desta lei afirmaque os genes permanecem intactos e distintos.

    2. Segunda lei de Mendel: Lei da distribuicao independente. Ge-nes localizados em diferentes loci sao transmitidos independentemente.

    1.2 Estimacao de frequencias alelicas

    Esta secao trata basicamente da obtencao dos estimadores das frequen-cias alelicas populacionais e do calculo das respectivas variancias.

    O criterio pelo qual uma estatstica e construda para dar uma estima-tiva e chamado de estimador. A media amostral e um estimador da mediapopulacional - um valor especfico da media amostral e uma estimativa. Es-timadores sao ditos serem consistentes se estes sao cada vez mais precisosa medida em que o tamanho da amostra aumenta. Um estimador nao vici-ado tem seu valor esperado igual ao parametro para qualquer tamanho deamostra. Estimadores consistentes serao sempre nao viciados para grandesamostras e podem ser nao viciados para qualquer tamanho de amostra.

    Um parametro genetico pode ter varios estimadores consistentes, ouainda nao viciados. Logo, alguns criterios sao necessarios para a escolhadestes estimadores. O primeiro criterio e o quanto eles variam entre asamostras. Uma pequena variacao e o desejavel e, a quantidade de variacao equantificada pela variancia do estimador, isto e, o valor esperado do desvioquadratico das estimativas em torno da media. Um estimador consistente,nao viciado, com uma pequena variancia vai se distanciar menos, em media,do verdadeiro valor do parametro do que um com uma grande variancia.

  • 1.2. ESTIMACAO DE FREQUENCIAS ALELICAS 7

    Posteriormente veremos que um limite inferior na variancia para um esti-mador nao viciado sera dado. Ha um valor abaixo do qual a variancia de umestimador nao viciado nao pode atingir e, este limite mnimo de varianciavem da funcao de verossimilhanca. Estimadores com variancia mnima saoditos serem eficientes.

    O ultimo conceito para avaliar um estimador e a suficiencia. Uma es-tatstica suficiente contem toda a informacao existente numa amostra sobreo parametro sendo estimado. Para estimar a frequencia de um alelo, e sufici-ente saber quantas copias deste alelo aparecem numa amostra, nao a ordemem que eles sao vistos, por exemplo. Ha um estimador com limite mnimode variancia somente se existir uma estatstica suficiente para tal parametro.

    1.2.1 Frequencias alelicas multinomiais

    O conjunto de dados geneticos populacionais consiste das frequencias dosgenotipos. O modelo de amostragem estatstica assume que todo indivduodentro da populacao tem a mesma probabilidade de ter um determinadogenotipo, isto na pratica nao e necessariamente verdade porque a amostra-gem de um indivduo reduz a frequencia daquele tipo dentro da populacaoe entao reduz a probabilidade de escolha daquele tipo para subsequentesmembros amostrados. A distribuicao multinomial e apropriada neste casopois, embora os indivduos sejam amostrados sem reposicao e portanto asfrequencias assumirem uma distribuicao hipergeometrica, em geral, assumi-mos que a populacao sendo amostrada e muito grande, de tal forma que aamostragem pode ser considerada como sendo com reposicao. Suponha queos genotipos definem um conjunto de k categorias indexadas por i. Cadaindivduo amostrado tem probabilidade Qi de estar na categoria i, ou seja,a proporcao populacional do genotipo i e Qi. Como cada indivduo e amos-trado independentemente, a probabilidade da amostra ter ni membros nacategoria i, i = 1, 2, ..., k numa amostra de tamanho n e:

    P (N1 = n1, N2 = n2, ..., Nk = nk) =n!ki=1 ni!

    ki=1

    Qnii (1.1)

    A equacao acima define a distribuicao multinomial.

    Momentos multinomiais

  • 8 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Em particular, a esperanca e a variancia do numero de indivduos paraa categoria i numa amostra de tamanho n e:

    E(Ni) = nQi e V ar(Ni) = nQi(1Qi)A proporcao amostral do numero de indivduos na categoria i numa

    amostra de tamanho n e portanto:

    Qi =Nin

    E(Qi) = Qi e V ar(Qi) =Qi(1Qi)

    n

    A covariancia entre as frequencias de duas categorias i e j, i 6= j e dadapor:

    Cov(Ni, Nj) = E(NiNj) E(Ni)E(Nj) (1.2)= n(n 1)QiQj n2QiQj= nQiQj

    pois, como Ni Bin(n,Qi) e Nj | Ni = ni Bin((n ni), Qj1Qi

    ), pode-

    mos escrever

    E(NiNj) = E[E(NiNj | Ni)] = E[Ni(nNi) Qj

    1Qi]

    =Qj

    1Qi(nE(Ni) E(N2i )

    )=

    Qj1Qi

    [n2Qi (nQi(1Qi) + n2Q2i )

    ]= n(n 1)QiQj

    Portanto

    Cov(Qi, Qj) = QiQjn

    Variancia das Frequencias Alelicas dentro da Populacao

    Suponhamos que temos uma amostra com Nuu homozigotos AuAu e Nuvheterozigotos AuAv, o numero Nu de alelos Au e :

    Nu = 2Nuu +v 6=u

    Nuv

  • 1.2. ESTIMACAO DE FREQUENCIAS ALELICAS 9

    Sejam Puu e Puv a proporcao populacional dos genotipos AuAu e AuAv,respectivamente, entao o valor esperado para o numero de alelos Au e:

    E(Nu) = 2nPuu +v 6=u

    nPuv = 2n

    Puu + 12

    v 6=u

    Puv

    = 2npue a variancia e:

    V ar(Nu) = V ar

    2Nuu + v 6=u

    Nuv

    = 2n(pu + Puu 2p2u) (1.3)A proporcao amostral do alelo Au e

    pu =Nu2n

    entao

    E(pu) = pu e V ar(pu) =pu + Puu 2p2u

    2n(1.4)

    Lei de Hardy-Weinberg

    Introduziremos agora o conceito de acasalamento (ou cruzamento) alea-torio e preferencial. Acasalamento aleatorio e a escolha de um companheiroaleatoriamente, i.e., um indviduo tem a mesma chance de cruzar com qual-quer outro indivduo do sexo oposto, de tal forma que os genotipos saoaleatoriamente pareados. Acasalamento preferencial e a escolha de um com-panheiro porque ele possui alguma caracterstica particular, por exemplo,pessoas altas casam com pessoas altas. Consequentemente os genotipos naosao aleatoriamente pareados. Isto induz um aumento na proporcao dosgenotipos homozigoticos em detrimento do genotipo heterozigoto.

    Consideramos um locus com dois alelos, A1 e A2, com as respectivasfrequencias, p e q = 1 p. A lei de Hardy-Weinberg diz que as frequenciasdas tres combinacoes genotpicas serao:

    Frequencias p2 2pq q2

    Genotipos A1A1 A1A2 A2A2

    Uma consequencia importante desta lei e que as proporcoes dos genotiposnao mudam de uma geracao para outra. Na geracao que suscede a populacao

  • 10 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Tabela 1.2: Frequencias dos tipos de acasalamento e prole de uma po-pulacao em equilbrio de Hardy-Weinberg com genotipos dos genitores nasproporcoes p2: 2pq : q2.

    Tipos deacasalamento ProleMae Pai Frequencias A1A1 A1A2 A2A2A1A1 A1A1 p

    2 p2 = p4 p4 0 0A1A1 A1A2 p

    2 2pq = 2p3q 1/2(2p3q) 1/2(2p3q) 0A1A2 A1A1 2pq p2 = 2p3q 1/2(2p3q) 1/2(2p3q) 0A1A1 A2A2 p

    2 q2 = p2q2 0 1(p2q2) 0A2A2 A1A1 p

    2 q2 = p2q2 0 1(p2q2) 0A1A2 A1A2 2pq 2pq = 4p2q2 1/4(4p2q2) 1/2(4p2q2) 1/4(4p2q2)A1A2 A2A2 2pq q2 = 2pq3 0 1/2(2pq3) 1/2(2pq3)A2A2 A1A2 2pq q2 = 2pq3 0 1/2(2pq3) 1/2(2pq3)A2A2 A2A2 q

    2 q2 = q4 0 0 1(q4)

    Soma da prole A1A1 = p4 + 2p3q + p2q2 = p2(p2 + 2pq + q2) = p2.

    Soma da prole A1A2 = 2p3q + 4p2q2 + 2pq3 = 2pq(p2 + 2pq + q2) = 2pq.

    Soma da prole A2A2 = q4 + 2q3p+ p2q2 = q2(p2 + 2pq + q2) = q2.

    A proporcao dos genotipos na prole e p2:2pq:q2, como na geracao dos geni-tores.

    cujos genotipos A1A1, A1A2, A2A2 estao presentes nas proporcoes p2 : 2pq

    : q2, os genotipos aparecerao nas mesmas proporcoes relativas (Tabela 1.2).O fato de os genotipos se distribuirem proporcionalmente a`s frequencias

    dos alelos numa populacao e permanecerem constantes de geracao para ge-racao e o princpio basico do fundamento da genetica populacional, que e alei de Hardy-Weinberg. Esta lei explica a base das frequencias constantesdos genes como uma aplicacao do binomio de Newton.

    Notas:

    1. As frequencias genotpicas de um locus autossomico atingem as pro-porcoes de H-W depois de uma unica geracao de acasalamento aleato-rio, independente das frequencias genotpicas iniciais.

    2. Quando as frequencias alelicas nao mudam de geracao para geracaodizemos que elas estao em equilbrio.

    3. Quando se combina a proporcao de H-W com o equilbrio dizemos que

  • 1.2. ESTIMACAO DE FREQUENCIAS ALELICAS 11

    ha equilbrio de Hardy-Weinberg (EHW).

    4. E possvel que as frequencias alelicas mudem de geracao para geracao,mas mesmo assim as frequencias genotpicas satisfacam a proporcaode HW em cada geracao.

    5. Satisfazer a proporcao de H-W nao implica estar em equilbrio.

    Dizemos que uma populacao se encontra em equilbrio de Hardy-Weinbergquando

    Puu = p2u Puv = 2pupv

    E a variancia se reduz a

    V ar(pu) =pu(1 pu)

    2n(1.5)

    (isto e, variancia da proporcao cuja frequencia tem distribuicao Bin(2n, pu))

    Portanto para populacoes de Hardy-Weinberg o numero de genes, assimcomo o numero de genotipos, sao distribudos multinomialmente.

    Suponha que dois alelos num locus dentro de um indivduo sao indexadospor j, j = 1, 2, e os indivduos amostrados sao indexados por i, i = 1, 2, ..., n.A variavel indicadora Xij e entao definida por

    Xij =

    {1 se o alelo j no indivduo i e do tipo Aj0 caso contrario

    A proporcao populacional do alelo A1 e representada por pA1 = p e do aleloA2 por (1 p) = q. A proporcao amostral para o alelo A1 pode ser expressapor

    pA1 = p =1

    2n

    ni=1

    2j=1

    Xij

    E(Xij) = 1P (Xij = 1) + 0P (Xij = 1) = p

    portanto

    E(p) = p

    Note que E(X2ij) = E(Xij) = p, E(XijXij) = PA1A1 e,

    para j 6= jE(XijXij) = E(Xij)E(Xij) = p

    2

  • 12 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    para i 6= i

    E(p2) = p2 +p+ PA1A1 2p2

    2n(1.6)

    V ar(p) =p+ PA1A1 2p2

    2n(1.7)

    Utilizando a parametrizacao f , onde f e uma medida de endocruzamentoque esta relacionada com o equilbrio de H-W, temos:

    PA1A1 = p2 + pqf

    PA1A2 = 2pq(1 f)PA2A2 = q

    2 + qpf

    Logo,

    V ar(p) =p(1 p)(1 + f)

    2n(1.8)

    Quando f = 0 a populacao esta em equilbrio de H-W.

    Covariancia das proporcoes alelicas dentro da populacao

    Sejam Xij e Yij variaveis indicadoras para os alelos A1 e A2 respectiva-mente.

    p1 =

    ni=1

    2j=1Xij

    2n(1.9)

    p2 =

    ni=1

    2j=1 Yij

    2n(1.10)

    Cov(p1, p2) = E(p1p2) E(p1)E(p2)Podemos escrever

    E(p1p2) =1

    4n2E

    (i

    j

    Xij)(i

    j

    Yij)

    =

    1

    4n2E

    i

    j

    XijYij +i

    j 6=j

    jXijYij

  • 1.2. ESTIMACAO DE FREQUENCIAS ALELICAS 13

    +i

    i 6=i

    j

    jXijYij

    =

    1

    4n2[2n 0 + nP12 + 4n(n 1)p1p2]

    = p1p2 +1

    4n(P12 4p1p2) (1.11)

    Note que o zero resulta do fato de que nao e possvel para o alelo j noindivduo i ser ambos do tipo A1 e A2. Subtraindo p1p2 temos a covariancia

    Cov(p1, p2) =1

    4n(P12 4p1p2) (1.12)

    Para populacoes sem endocruzamento, com P12 = 2p1p2, a covarianciareduz-se ao valor binomial

    Cov(p1, p2) =p1p2

    2n(1.13)

    Variancia total das frequencias alelicas

    A variancia de frequencias alelicas mostradas nas equacoes (1.4) ou (1.8)se referem a variacao de repetidas amostras da mesma populacao. Para fazerafirmacoes sobre frequencias alelicas que nao sao limitadas a uma particularreplica da populacao, a variancia total de uma frequencia alelica amostrale utilizada. A variancia total deve tambem levar em conta a amostragemgenetica que da origem a` variacao que existe entre todas as possveis amos-tras replicadas de todas as possveis populacoes replicadas mantidas sobas mesmas condicoes. Obviamente, a variancia total sera maior do que avariancia dentro da populacao, pois esta contem uma contribuicao para avariacao entre populacoes.

    Como na secao anterior, Xij se refere ao j-esimo alelo no i-esimo indi-vduo amostrado, com Xij = 1 se o alelo e do tipo A. Valores esperados deXij , X

    2ij , XijXij tem a mesma forma, mas o produto XijXij deve mudar.

    Neste caso, diferentes indivduos nao podem ser considerados amostradosindependentemente e o componente da variacao entre populacoes e dadopela covariancia entre os indivduos dentro das populacoes. Portanto, tra-balhando com variaveis indicadoras, temos para diferentes indivduos,

    E(XijXij) = PA/A (1.14)

    que e a proporcao com a qual dois indivduos numa populacao carregam oalelo A.

  • 14 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Seguindo os mesmos argumentos da secao anterior, a variancia total sera

    V ar(pA) = (PA/A p2A) +1

    2n(pA + PAA 2PA/A) (1.15)

    O primeiro termo na expressao representa a contribuicao da variabili-dade entre populacoes. As proporcoes pA, PAA, PA/A todas se referem aosvalores esperados sobre populacoes replicadas, o que e outra diferenca dasproporcoes dentro da populacao que se referem a uma populacao especfica.

    A equacao (1.15) pode ser expressa de uma maneira mais convenientecom a introducao do coeficiente de endocruzamento dentro da populacao.As quantidades FIT e FST sao o coeficiente total de endocruzamento e ocoeficiente de coancestralidade, respectivamente. Eles se referem a pares dealelos dentro e entre indivduos (Wright, 1951). Assim,

    PAA = p2A + pA(1 pA)FIT

    PA/A = p2A + pA(1 pA)FST

    Utilizando as expressoes acima, podemos reescrever a equacao (1.15) como

    V ar(pA) = pA(1 pA)(FST +

    FIT FSTn

    +1 FIT

    2n

    )(1.16)

    com tres componentes que podem ser identificados como a variacao entrepopulacoes, entre indivduos dentro de populacoes e entre alelos dentro deindivduos dentro de populacoes, respectivamente. O termo em parentesese o coeficiente do grupo coancestral, L. Note que o componente entre po-pulacoes depende da relacao entre alelos de diferentes indivduos dentro daspopulacoes e, este pode ser escrito com (FST 0), ao inves de somente FST ,onde 0 indica que a relacao entre alelos de diferentes populacoes e zero.

    Numa populacao de cruzamento aleatorio, pares de alelos tem a mesmarelacao sendo ou nao localizados no mesmo indivduo. Logo, FIT = FST e avariancia total da frequencia alelica torna-se

    V ar(pA) = pA(1 pA)FST + pA(1 pA)1 FIT2n

    Se a amostra e muito grande, nao ha necessidade do componente dentroda populacao e a variancia se refere a variacao, causada pela amostragemgenetica, entre populacoes:

    V ar(pA) = pA(1 pA)FST

  • 1.2. ESTIMACAO DE FREQUENCIAS ALELICAS 15

    A estimacao dos parametros FIT e FST sera tratada posteriormente, masnote que nao e possvel estima-los, ou a variancia total de uma frequenciaalelica, atraves de dados de uma unica populacao. As tres medidas de relaci-onamento que tem sido usadas para pares de alelos sao relacionadas atravesde f

    f =FIT FST

    1 FSTCom cruzamento aleatorio, FIT = FST e f = 0.

    Aproximacao de Fisher para a formula da variancia

    Atraves do metodo Delta uma aproximacao para a variancia de umaestatstica T e obtida:

    V ar(T ) i

    (T

    Ni

    )2V ar(Ni) +

    i

    j 6=i

    T

    Ni

    T

    NjCov(Ni, Nj)

    onde cada derivada e avaliada substituindo Ni por seu valor esperado.Considerando a distribuicao das frequencias multinomiais temos

    V ar(Ni) = nQi(1Qi)

    Cov(Ni, Nj) = nQiQje portanto

    V ar(T ) ni

    (T

    Ni

    )2Qi(1Qi) n

    i

    j

    T

    Ni

    T

    NjQiQj

    = ni

    (T

    Ni

    )2Qi n

    i

    (T

    Ni

    )2Q2i n

    i

    j

    T

    Ni

    T

    NjQiQj

    ni

    (T

    Ni

    )2Qi n

    (i

    T

    NiQi

    )2(1.17)

    Quando T e uma funcao homogenea de grau zero (isto e, e funcao dasfrequencias Ni divididas pelo total n) ,

    V ar(T ) ni

    (T

    Ni

    )2Qi n

    (T

    n

    )2

  • 16 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    1.2.2 Estimacao por maxima verossimilhanca

    O metodo de maxima verossimilhanca pode ser usado para estimar osparametros de uma distribuicao. Para analise dentro da populacao a distri-buicao multinomial e usada como base para estimacao da verossimilhanca.Neste caso a funcao de verossimilhanca sera

    L(1, ...s) =n!

    ki=1ni!ki=1 [Qi(1, ..., s)]

    ni

    e os estimadores de maxima verossimilhanca, EMVs, dos js sao aquelesvalores que maximizam esta funcao. Como maximizar L e equivalente amaximizar ln(L) entao neste caso, assim como em varios outros, e maisfacil trabalhar com a funcao de log-verossimilhanca. Para obter o EMV enecessario obter a derivada de ln(L) com respeito a cada parametro j eiguala-la a zero. Estas derivadas sao chamadas de Escores (Sj)

    Sj =lnL

    j

    Para verificar que o procedimento nos leva a bons resultados, iremosestimar as proporcoes alelicas num locus com dois alelos numa populacaoque se encontra em equilbrio de Hardy-Weinberg. Os genotipos AA, Aa,e aa tem proporcoes que podem ser expressas em termos de um simplesparametro pA

    PAA = p2A

    PAa = 2pA(1 pA)Paa = (1 pA)2

    e a verossimilhanca destes parametros e

    L(pA) =n!

    nAA!nAa!naa!

    (p2A

    )nAA[2pA(1 pA)]nAa

    [(1 pA)2

    ]naalnL(pA) = Cte+ (2nAA + nAa) ln pA + (2naa + nAa) ln(1 pA)

    Derivando com relacao a pA e igualando o Escore a zero temos,

    SpA =(2nAA + nAa)

    pA (nAa + 2naa)

    1 pA = 0

    pA = 12n

    (2nAA + nAa)

  • 1.2. ESTIMACAO DE FREQUENCIAS ALELICAS 17

    Deve-se verificar que a segunda derivada em relacao a pA e negativa quandopA = pA.

    Quando o equilbrio de H-W nao e assumido, usando pA e a parame-trizacao f para uma analise dentro da populacao, temos

    PAA = p2A + pA(1 pA)f

    PAa = 2pA(1 pA)(1 f)Paa = (1 pA)2 + pA(1 pA)f

    a funcao de verossimilhanca neste caso e:

    L(pA, f) =n!

    nAA!nAa!naa!{pA[pA + (1 pA)f ]}nAA

    [2pA(1 pA)(1 f)]nAa {(1 pA)[(1 pA) + pAf ]}naalnL(pA, f) (nAA + nAa) ln pA + nAA ln[pA + (1 pA)f ]

    +(nAa + naa) ln(1 pA) + nAa ln(1 f)+naa ln[(1 pA) + pAf ]

    Os Escores sao

    SpA =nAA + nAa

    pA nAa + naa

    1 pA +nAA(1 f)

    pA + (1 pA)f naa(1 f)

    (1 pA) + pAfSf =

    nAA(1 pA)pA + (1 pA)f

    nAa1 f +

    naapA(1 pA) + pAf

    Para obtencao dos EMVs neste caso sera necessario a utilizacao de al-gum metodo numerico pois, como podemos observar, a solucao se encontraimplcita na equacao. Alguns destes metodos serao vistos nas proximassecoes.

    Metodos numericos para a obtencao do EMV

    Metodo de Bailey

    Este metodo e utilizado quando o numero de parametros independentese igual ao de graus de liberdade, nos dados. Bailey mostrou que o EMV eobtido quando igualamos as observacoes aos seus valores esperados.

  • 18 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Suponhamos que existam s parametros a serem estimados e s graus deliberdade nos dados. O metodo de Bailey consiste em escrever

    E(Ni) = mi

    mi = ni

    para os s parametros j .Neste caso multinomial, para k categorias,

    ki=1mi =

    ki=1 nQi = n e

    portantoki=1

    mij

    = 0

    j = 1, 2, ..., sA log-verossimilhanca neste caso e:

    lnL = Cte+i

    ni lnmi

    que tem derivadas

    Sj = lnL

    j=i

    ni lnmij

    =i

    nimi

    mij

    =i

    mij

    e a solucao e obtida igualando os Sj s a zero. Comoimij

    = 0, Sj = 0 e

    a solucao e o EMV. Para que os dois conjuntos de equacoes tenha solucao,e necessario que s = k 1. O numero de parametros tem que ser igual aonumero de categorias independentes.

    Para ilustracao desse procedimento, retornaremos ao caso de estimar pAe o coeficiente de endocruzamento f para um locus com dois alelos. Temosduas categorias independentes (podemos tomar AA e Aa) e entao aplicamoso metodo de Bailey:

    E(NAA) = nAA n[pA2 + pA(1 pA)f ] = nAAE(NAa) = nAa n[2pA(1 pA)(1 f)] = nAa

    e obtem-se

    pA =1

    2n(2nAA + nAa)

    f = 1 nAa2npA(1 pa) (1.18)

  • 1.2. ESTIMACAO DE FREQUENCIAS ALELICAS 19

    Metodo Iterativo de Newton-RaphsonEste metodo se baseia na expansao em serie de Taylor ate 1a ordem.

    Para se obter o EMV de , o escore e expandido em serie de Taylor eigualado a zero em , com chute inicial (i). Assim, temos

    S = 0 = S(i) + ( (i))[S

    ]=(i)

    Rearranjando esta expressao obtem-se um valor aproximado (i+1) para

    (i+1) = (i) S(i)[S

    ]=(i)

    = (i) +S(i)

    I((i))

    Este novo valor entao serve como um valor inicial para a proxima iteracao:

    (i+2) = (i+1) +S(i+1)

    I((i+1))

    Em situacoes com mais de um parametro, a informacao I() e uma matriz,e o procedimento de iteracao necessita a inversao da matriz:

    (i+1) = (i) + I1((i))S(i)

    Obs:1) O metodo falha quando a informacao e zero ou a matriz de informacao

    e singular.2)E sempre viavel tentar varios chutes iniciais e comparar as verossimi-

    lhancas encontradas apos a convergencia.Uma maneira de verificar a convergencia e adotando um criterio de

    parada como, por exemplo, dado > 0 arbitrariamente pequeno, |(n) (n1)| < .

    Algoritmo EM

    Este metodo iterativo e utilizado quando os dados sao incompletos. Emcada iteracao obtem-se uma esperanca e uma maximizacao (EM).

    Uma situacao na qual este metodo pode ser utilizado e na estimacao daproporcao de genes num locus com dois alelos quando distingue-se somente

  • 20 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    duas classes de genotipos, uma dominante (AA + Aa) e a outra recessiva(aa), mas na realidade existem tres.

    Para encontrar o EMV da proporcao pa do alelo recessivo, o primeiropasso e estimar as duas proporcoes genotpicas PAA e PAa. Considerandoequilbrio de H-W a soma destas duas proporcoes e 1 p2a. Neste caso,

    NAa | (NAA +NAa) = (n naa) Bin(n naa, PAaPAA + PAa

    ) ou

    NAa | (NAA +NAa) = (n naa) Bin(n naa, 2pa(1 pa)1 p2a

    )

    (supondo equilbrio de H-W). Portanto,

    E(NAa | (NAA +NAa) = (n na)) = (n na)2pa(1 pa)1 p2a

    que consiste no passo da esperanca. O passo da maximizacao consiste emestimar pa atraves do EMV (proporcao observada), entao, usando n

    Aa =

    E(NAa | NAA +NAa = n na) e um chute inicial pa

    pa =1

    2n(nAa + 2naa)

    =1

    2n

    [2pa(1 pa)1 (pa)2

    (n naa) + 2naa]

    (1.19)

    Neste exemplo da estimacao da proporcao do alelo recesivo, uma solucaoanaltica pode ser encontrada pelo reconhecimento de que convergencia sig-nifica que o valor pa nao sera alterado pela equacao (1.19):

    pa =1

    n

    [pa(1 pa)

    1 p2a(n naa) + naa

    ]e solucionando esta equacao temos:

    pa =naa/n (1.20)

    Tendo em vista que assumimos equilbrio de H-W, note que temos duasclasses observaveis ou 1 grau de liberdade e um parametro a ser encontrado.Logo, poderamos usar o metodo de Bailey e encontraramos mais facilmenteo estimador dado na equacao (1.20). Note que o metodo se baseia numasuposicao sobre as observacoes faltantes: eles foram estimados assumindoequilbrio de H-W. Sem esta suposicao nao e possvel estimar frequenciasalelicas em loci que mostre dominancia.

  • 1.2. ESTIMACAO DE FREQUENCIAS ALELICAS 21

    Podemos usar o metodo de aproximacao de Fisher para encontrar avariancia do estimador dado em (1.20). Assim, temos

    V ar(pa) 14n

    (1 Paa)V ar(pa) = n naa

    4n2

    Para proporcoes de Hardy-Weinberg, Paa = p2a, esta variancia e maior do

    que o valor encontrado para alelos codominantes (dados completos):

    V ar(pa) =1

    2npa(1 pa)

    refletindo o fato de que temos menos informacao disponvel.

    1.2.3 Metodo dos momentos

    Como visto na secao anterior, os estimadores de maxima verossimilhancatem otimas propriedades para grandes amostras, mas em alguns casos elesnao sao muito bons para pequenas amostras. Os EMV podem ser viciadospara pequenas amostras, por exemplo. Ha situacoes em que o vcio e umgrande problema e outras, em que nao e possvel escrever a verossimilhancaexplicitamente porque a distribuicao amostral e desconhecida. Nessas si-tuacoes outras alternativas de estimacao sao necessarias e, uma das maissimples e o metodo dos momentos.

    O metodo dos momentos consiste na escolha de estatsticas em que seusvalores esperados sugiram uma forma funcional para um estimador. Comoexemplo, vejamos o caso da estimacao de um coeficiente de endocruzamentof para um locus com mais de dois alelos. Embora seja possvel encontraro EMV, e necessario uma solucao numerica de uma equacao de verossimi-lhanca nao linear. Apos expressar as frequencias de homozigotos em termosde pu e f , a equacao (1.6) nos da

    E(p2u) = p2u +

    1

    2npu(1 pu)(1 + f)

    Entao, somando para todos os alelos,

    E(u

    p2u) =u

    p2u +1

    2n(1

    u

    p2u)(1 + f)

    enquanto que somando para todos os genotipos homozigotos,

    E(u

    Puu) =u

    p2u + (1u

    p2u)f

  • 22 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Estas duas equacoes nos levam a duas expressoes em que os seus valoresesperados diferem somente por um fator f :

    Eu

    (Puu p2u) +1

    2nE(1

    u

    Puu) = (1 1n

    )f(1u

    p2u)

    E(1u

    p2u)1

    2nE(1

    u

    Puu) = (1 1n

    )(1u

    p2u)

    Tomando a razao dessas duas equacoes, temos

    f =

    u(Puu p2u) + 12n(1

    u Puu)

    (1u p2u) 12n(1u Puu) (1.21)Para dois alelos, o estimador reduz-se a

    f = 1 (n 1)nAa/n2npApa nAa/2n (1.22)

    que nao e o mesmo do EMV dado na equacao (1.18).O estimador de momentos tem um vcio menor do que o de MV, mas ele

    pode ter uma variancia maior.

    1.2.4 Estimacao Bayesiana

    Frequencias alelicas

    Suponha que uma populacao esta em equilbrio de Hardy-Weinberg e queo alelo A tem proporcao populacional pA e contagem nA numa amostra de2n alelos (n indivduos). A suposicao de H-W nos garante que a distribuicaode NA dado pA e:

    NA | pA Bin(2n, pA)Pr(NA = nA | pA) = (2n)!

    nA!(2n nA)!pnAA (1 pA)2nnA

    Uma analise Bayesiana requer uma distribuicao a priori para pA, e umaescolha conveniente e a distribuicao beta, que e a analogia contnua da bino-mial. Para a distribuicao beta com parametros e , a notacao e funcoesdensidade sao

    pA Be(, )pi(pA) =

    (+ )

    ()()p1A (1 pA)1

  • 1.2. ESTIMACAO DE FREQUENCIAS ALELICAS 23

    A funcao gamma (x) geralmente precisa ser avaliada numericamente. Noentanto, se x e um inteiro (x) = (x 1)! e a similaridade entre as distri-buicoes beta e binomial sao claras. A funcao integra no intervalo [0, 1] 1

    0pi(pA)dpA = 1

    e tem media igual a /(+ ). A distribuicao beta pode ter varias formas,variando desde de unimodal com um pico em pA = ( 1)/( + 2)quando , > 1, uniforme quando = = 1, ate em forma de U com amaioria da densidade perto dos limites pA = 0, 1 quando , < 1.

    Com esta priori, o teorema de Bayes nos da a seguinte distribuicao aposteriori

    (2n)!nA!(2nnA)!p

    nAA (1 pA)2nnA (+)()()p1A (1 pA)1 1

    0(2n)!

    nA!(2nnA)!pnAA (1 pA)2nnA (+)()()p1A (1 pA)1dpA

    Cancelando os termos que nao envolvem pA, temos

    pi(pA | nA) = p+nA1A (1 pA)+2nnA1 1

    0 p+nA1A (1 pA)+2nnA1dpA

    =(+ + 2n)

    (+ nA)( + 2n nA)p+nA1A (1 pA)+2nnA1

    Entao, a distribuicao a posteriori e tambem uma distribuicao beta, mas comparametros modificados pelos dados, isto e, Be(+nA, +2nnA). Em ou-tras palavras, a beta e uma distribuicao conjugada para a binomial. Apesarde toda a distribuicao a posteriori estar disponvel para a frequencia alelicapA, e conveniente tomar um unico ponto desta distribuicao como sendo umestimador Bayesiano de pA. Por exemplo, a media desta distribuicao e

    E(pA | NA = nA) = + nA+ + 2n

    = x

    + + (1 x)nA

    2n

    = xE(pA) + (1 x)pAque e uma soma ponderada da media a priori e do estimador de maxima ve-rossimilhanca de pA, onde o peso x e (+)/(++2n). Alternativamente,o maximo (se , > 1) da densidade a posteriori e

    max[pi(pA | nA)] = + nA 1+ + 2n 2

  • 24 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    = y 1

    + 2 + (1 y)nA2n

    = ymax[pi(pA)] + (1 y)pAque e a soma ponderada do maximo da priori e do estimador de maximaverossimilhanca de pA. O peso y e (+2)/(++2n2). Tanto a mediacomo a moda da distribuicao a posteriori podem servir como estimadores,mas cada um deles e um resumo da distribuicao a posteriori como um todo.

    Tabela 1.3: Frequencias genotpicas para os grupos sanguneos MN entremaes e pais.Genotipo Pai Mae Total

    MM 26 27 53MN 44 51 95NN 23 15 38

    Total 93 93 186

    Como exemplo, Gunel e Wearden (1995) tomaram uma Be(61, 44) comosendo a distribuicao a priori de pi(pM ) para o alelo M no sistema de grupossanguneo MN . Eles se basearam em informacoes de amostras anteriores.Da Tabela 1.3, nM = 201 e 2n = 372. Assumindo equilbrio de H-W, adistribuicao a posteriori pi(pM | nM ) e Be(61+201, 44+171) = Be(262, 215).A funcao de verossimilhanca de pM dado nM e

    L(pM ) = Pr(Nm = 201 | pM ) = 372!201!171!

    (pM )201(1 pM )171

    A densidade a posteriori pi(pM | nM ) e mais estreita do que a priori pi(pM ),indicando informacao mais precisa sobre o parametro pM . Isto e esperado,pois ha informacao proveniente dos dados. Neste exemplo, a media a priorifoi muito perto da media amostral, mas e a media amostral (o estimador demaxima verossimilhanca) que tem a maior influencia na estimativa Bayesi-ana (a media a posteriori ou a moda).

    Multiplos alelos

    Assim como a distribuicao multinomial e a extensao da binomial deduas para varias categorias, a distribuicao de Dirichlet e a extensao da beta.A distribuicao de Dirichlet e util para estimarmos frequencias alelicas para

  • 1.2. ESTIMACAO DE FREQUENCIAS ALELICAS 25

    locus com multiplos alelos. A essencia do metodo de estimacao sera mostradaa seguir.

    Suponha que os alelos Ai tem frequencias populacionais pi e contagensamostrais ni, onde

    i pi = 1,

    i ni = 2n. Para uma populacao em equilbrio

    de H-W, as contagens tem uma distribuicao multinomial.

    Pr({ni} | {pi}) = (i ni)!i(ni)!

    i

    (pi)ni

    Supondo que os pis tem distribuicao a priori Dirichlet com parametros i

    pi({pi}) = (i i)

    i (i)

    i

    (pi)i1

    entao a distribuicao a posteriori e tambem Dirichlet, mas com parametrosi + ni

    pi({pi} | {ni}) = [i(i + ni)]

    i (i + ni)

    i

    (pi)i+ni1

    mostrando que a Dirichlet e a conjugada da multinomial. A media da dis-tribuicao a posteriori e

    E(pi | {ni}) = i + nii(i + ni)

    = xii i

    + (1 x) nii ni

    = xE(pi) + (1 x)pionde o peso e x = (

    i i)/[

    i(i + ni)].

    A verossimilhanca Pr({ni} | {pi}) e a probabilidade das contagens amos-trais condicionado nos parametros. Integrando sobre todos os valores dosparametros temos a probabilidade marginal das contagens

    Pr({ni}) =

    Pr({ni} | {pi})pi({pi})

    dpi

    =(i ni)!(ni)!

    (i i)

    (i i +

    i ni)

    i

    (i + ni)

    (i)

    Esta distribuicao e chamada de Dirichlet-Multinomial. Para o caso dos doisalelos, com contagens amostrais nA, na, a distribuicao beta-binomial e

    Pr(nA, na) =(nA + na)!

    nA!na!

    (A + a)

    (A + a + nA + na)

    (A + nA)

    (A)

    (a + na)

    (a)

    Estimadores de maxima verossimilhanca dos parametros dessas distri-buicoes requerem metodos numericos (Lange 1995).

  • 26 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    1.3 Desequilbrio

    1.3.1 Desequilbrio de Hardy-Weinberg

    Uma vez que as frequencias alelicas e genotpicas foram estimadas, umadas primeiras analises feitas em dados de genetica populacional e verificar aassociacao entre dois alelos recebidos por um indivduo em um determinadolocus. Quando nao ha forcas que provocam disturbios, tais como, selecao,mutacao ou migracao, que poderiam mudar as frequencias alelicas ao longodo tempo e, quando ha cruzamento aleatorio em grandes populacoes, estespares de alelos nao sao associados. Uma consequencia desta independenciae que as proporcoes genotpicas sao iguais aos produtos das frequenciasalelicas:

    Puu = p2u para homozigotos AuAu

    Puv = 2pupv, u 6= v para heterozigotos AuAvO controle da obtencao destas proporcoes de Hardy-Weinberg pode ser

    caracterizado de varias maneiras, como por exemplo, incluindo o uso docoeficiente de endocruzamento f dentro da populacao. As frequencias degenotipos podem ser escritas como:

    Puu = p2u + pu(1 pu)f

    Puv = 2pupv(1 f),quando f = 0 tem-se o equilbrio de H-W e

    0 Puu pu0 Puv min(2pu, 2pv)

    desde que pu/(1 pu) f 1, u . Para um indivduo escolhido aleato-riamente, seja:

    Xj =

    {1 se o j-esimo alelo e A0 caso contrario

    Entao f pode tambem ser considerado como sendo a correlacao de Xj e Xj ,j 6= j, pois temos

    V ar(Xj) = E(X2j ) E2(Xj) = pA p2A = pA(1 pA)

    Cov(Xj , Xj) = E(XjXj) E(Xj)E(Xj) = PAA p2A= p2A + pA(1 pA)f p2A = pA(1 pA)f

    Corr(Xj , Xj) =Cov(Xj , Xj)V ar(Xj)V ar(Xj)

    =pA(1 pA)fpA(1 pA) = f

  • 1.3. DESEQUILIBRIO 27

    Coeficiente de desequilbrio

    Desequilbrios sao denotados por Ds e para proporcoes alelicas em umlocus eles sao definidos pela relacao:

    Puu = p2u +Duu

    Puv = 2(pupv Duv)Ha ainda uma dependencia entre coeficientes causada pelas proporcoes

    de genotipos que somam as proporcoes alelicas.

    Duv = pupv Puv2

    v 6=uDuv = pu

    v 6=u

    pv v 6=u Puv

    2

    = pu(1 pu)v 6=u Puv

    2

    = pu p2u v 6=u Puv

    2

    = Puu +

    v 6=u Puv

    2 p2u

    v 6=u Puv

    2= Puu p2u = Duu

    portanto

    Duu =v 6=u

    Duv

    Isto implica que existem tantos Ds independentes quantos sao os tiposde heterozigotos (k(k1)2 ). No caso de existirem somente dois alelos (A e a),exite apenas um tipo de heterozigoto (Aa) e portanto somente um coeficientede desequilbrio indepentente que chamaremos DA, ou seja

    DAA = DAa e Daa = DAa DAA = Daa

    Estimando o desequilbrio DA

    Pela propriedade de invariancia dos estimadores de maxima verossimi-lhanca, ou atraves do metodo de Bailey, podemos obter o EMV para DA:

    DA = PAA p2A

  • 28 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    A esperanca do estimador neste caso e:

    E(DA) = E(PAA p2A) = E(PAA) E(p2A)= PAA (V ar(pA) + E2(pA)) de (1.6) e (??)= PAA [p2A +

    1

    2n(pA + PAA 2p2A)]

    = DA 12n

    (pA +DA p2A)

    = DA 12n

    [DA + pA(1 pA)] (1.23)

    e portanto o EMV DA e um estimador viciado de DA. Podemos observarque este vcio diminui conforme aumenta o tamanho da amostra.

    Usando a aproximacao de Fisher para a formula da variancia, temos:

    V ar(DA) =1

    n[p2A(1 pA)2 + (1 2pA)2DA D2A]

    Testando o equilbrio de Hardy-Weinberg com DA

    Quando uma populacao tem proporcoes de Hardy-Weinberg, o coefici-ente de desequilbrio DA e esperado ser zero, o que sugere um teste dehipoteses H0 : DA = 0 vs Ha : DA 6= 0, que e equivalente a testar oequilbrio de H-W. Um estado de equilbrio e aquele no qual propriedadesda populacao nao sao mudadas em sucessivas geracoes. No caso de estarem equilbrio de H-W implica a falta contnua de forcas tais como selecao,migracao e mutacao assim como a sucessao de pares aleatorios. Por outrolado, este teste checa a consistencia das proporcoes amostrais dos genotiposcom aquelas esperadas pela lei de Hardy-Weinberg.

    Para grandes amostras o EMV DA e normalmente distribudo:

    Z =DA E(DA)V ar(DA)

    N(0, 1)

    O excesso ou a falta de homozigotos implica em valores positivos ou nega-tivos de desequilbrio, respectivamente. No caso de termos menos heterozi-gotos na populacao do que o previsto por H-W, a hipotese nula H0 : DA = 0podera ser testada contra a hipotese alternativa Ha : DA > 0. A hipotesenula seria rejeitada para um grande valor positivo de DA, ou um grande va-lor positivo de z. Para um teste com nvel de significancia de 5% a hipotesenula e rejeitada quando z > 1.64.

  • 1.3. DESEQUILIBRIO 29

    Um procedimento equivalente consiste em considerar X = Z2, ondeX 2 com 1 grau de liberdade, neste caso

    XA =nD2A

    pA2(1 pA)2

    Este resultado tambem pode ser aproximado atraves do teste 2 de bondadede ajuste, tambem para grandes amostras. O seguinte conjunto de valoresesperados valem para tres frequencias genotpicas quando H0 e verdade:

    Genotipo AA AA AA

    Numero observado nAA nAA nAANumero esperado npA

    2 2npA(1 pA) n(1 pA)2Observado - Esperado nDA 2nDA nDA

    A estatstica deste teste e:

    XA =

    genotipos

    (observado esperado)2esperado

    =(nAA npA2)2

    npA2 +

    (nAA 2npA(1 pA))22npA(1 pA) +

    (nAA n(1 pA)2)2n(1 pA)2

    =(nDA)

    2

    npA2 +

    (2nDA)22npA(1 pA) +

    (nDA)2

    n(1 pA)2

    =(nDA)

    2[2(1 pA)2 + 4pA(1 pA) + 2p2A]2npA

    2(1 pA)2

    =nD2A

    pA2(1 pA)2

    Exemplo: Para ilustrar o uso do teste descrito acima, suponha que naamostra, a frequencia de M e 0.57 e a de N e 0.43. Usando o metodo des-crito acima e comparando os valores observados e esperados, temos:

  • 30 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Classe Observado p Esperado (0E)2

    E

    MM 600 (0.57)2 461 41.9MN 419 2(0.57)(0.43) 696 110.2NN 400 (0.43)2 262 72.2

    Total 1419 1 1419 224.8

    O valor da estatstica qui-quadrado e 224.8. Como ha um grau deliberdade, estes dados sao significativamente diferentes dos preditos peloequilbrio de H-W, p valor

  • 1.3. DESEQUILIBRIO 31

    n, sob a hipotese de equilbrio de H-W, e

    P (NAA = nAA, NAa = nAa, Naa = naa)

    =n!

    nAA!nAa!naa!

    (p2A

    )nAA(2pApa)

    nAa(p2a

    )naaAs frequencias de genes NA e Na sao binomialmente distribudas quando

    o equilbrio de H-W e assumido:

    P (NA = nA, Na = na) =(2n)!

    nA!na!(pA)

    nA (pa)na

    Portanto a probabilidade das frequencias de genotipos observadas, assu-mindo equilbrio de H-W , condicionada a`s frequencias alelicas observadase:

    Pr = P [NAA = nAA, NAa = nAa, Naa = naa | (NA = nA, Na = na)]=

    P (NAA = nAA, NAa = nAa, Naa = naa, NA = nA, Na = na)

    P (NA = nA, Na = na)

    =P (NAA = nAA, NAa = nAa, Naa = naa)

    P (NA = nA, Na = na)

    =n!nA!na!2

    nAa

    (2n)!nAA!nAa!naa!

    Como podemos observar esta probabilidade depende somente das frequenciasobservadas e do tamanho da amostra. Esta probabilidade pode ser reescritacomo

    Pr(x | nA) = P (X = x/NA = nA)=

    n!nA!(2n nA)!2x(2n)!x!

    (nAx

    2

    )![

    2n(nA+x)2

    ]!

    Como exemplo utilizaremos os dados da tabela abaixo:Colapsando a tabela para alelos 1 e nao-1:

    n11 = 9, n11 = 1, n11 = 30; n1 = 19, n1 = 61

    Os possveis numeros de heterozigotos, x, quando ha n1 = 19 alelos do tipo1 numa amostra de tamanho n = 40, sao numeros mpares de 1 a 19 e asprobabilidades Pr(x | 19) sao dadas na Tabela 1.5. Note que o conjunto defrequencias genotpicas observadas tem a menor probabilidade dentre todasas amostras possveis e a hipotese de EHW seria rejeitada a um nvel de

  • 32 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Tabela 1.4: Frequencias Alelicas e genotpicas para o locus Pgm em dadosde mosquitos (Weir, 1996)Genotipo Frequencia Alelo Frequencia

    11 9 1 1912 1 2 2622 5 3 1713 0 4 1823 733 0 Total 8014 024 834 1044 0

    Total 40

    significancia bem pequeno. Note tambem que um numero grande e pequenode heterozigotos pode levar a probabilidades bem pequenas ou valores 2

    grandes e, consequentemente a rejeicao da hipotese nula. Neste exemplo, emparticular, o teste exato e bilateral e a regiao de rejeicao consiste somentede pequenos numeros de heterozigotos.

    Adicionando as probabilidades para 1, 3, 5, 7 e 9 heterozigotos encon-tramos uma regiao de rejeicao de tamanho 0.0229. Esta probabilidade eo nvel de significancia ou a probabilidade do erro do tipo I. Se adicionar-mos a proxima probabilidade, para 19 heterozigotos, teremos um teste detamanho 8.23%, o que geralmente e considerado como sendo muito grande.Estatsticas para testes 2 sao tambem mostradas na Tabela 1.5 e os resul-tados demonstram que os dois procedimentos diferem mesmo para amostrasde tamanho 40. O teste 2 rejeita para 19 heterozigotos enquanto que oteste exato nao rejeita. Aplicando a correcao de continuidade de Yates nosda um valor de X2 igual a 2.62 para x = 19, que e abaixo do valor crticode 3.84 e os dois testes coincidem.

    Teste da razao de verossimilhanca para o equilbrio de Hardy-Weinberg (EHW)

    Testes estatsticos podem ser obtidos como razoes de verossimilhancas.Suponha que denote o espaco parametrico, para testarmos as hipoteses

  • 1.3. DESEQUILIBRIO 33

    Tabela 1.5: Teste Exato para o EHW no locus Pgm para os dados da tabela1.4Amostras Possveis Probabilidade Desequi-11 11 11 Probabilidade Acumulada lbrio 2

    9 1 30? 0.0000 0.0000 0.1686 34.678 3 29 0.0000 0.0000 0.1436 25.157 5 28 0.0001 0.0001 0.1186 17.166 7 27 0.0023 0.0024 0.0936 10.695 9 26 0.0205 0.0229 0.0686 5.740 19 21 0.0594 0.0823 -0.0564 3.884 11 25 0.0970 0.1793 0.0436 2.321 17 22 0.2308 0.4101 -0.0314 1.203 13 24 0.2488 0.6589 0.0186 0.422 15 23 0.3411 1.0000 -0.0064 0.05

    ? Amostra observada.

    H0 : 0 vs Ha : , compara-se as duas funcoes de verossimilhanca,L0, que e a maxima verossimilhanca sob H0, e L1, a maxima verossimilhancasob o modelo irrestrito, atraves da razao entre elas:

    =sup0 L()

    sup L()

    =L0L1

    lembrando que Ls se referem a`s maximas verossimilhancas que sao calcu-ladas utilizando os EMVs dos parametros nos dois casos. Se existem sparametros independentes em e (s r) parametros independentes em 0entao sob H0 temos:

    2 ln = 2(lnL0 lnL1) 2(s(sr)) 2(r)Testes da razao de verossimilhanca para proporcoes multinomiais sao

    tambem chamados de testes-G, com a estatstica do teste G2 sendo definidacomo:

    G2 = 2 ln

    (L1L0

    )(1.24)

    Para testarmos a hipotese de que DA = 0 (EHW), temos que, sob o modelo

  • 34 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    irrestrito, os EMVs sao as proporcoes amostrais, como foi visto anterior-mente, entao a maxima verossimilhanca L1 e

    L1 =n!

    nAA!nAa!naa!( PAA)

    nAA( PAa)nAa(Paa)

    naa

    =n!

    nAA!nAa!naa!

    (nAA)nAA(nAa)

    nAa(naa)naa

    nn

    Sob a hipotese de equilbrio de H-W tem-se

    L0 =n!

    nAA!nAa!naa!

    (nA)nA(na)

    na

    (2n)2n

    Entao temos

    2 ln = 2 ln[

    2nAa(n)n(nA)nA(na)

    nA

    (2n)2n(nAA)nAA(nAa)nAa(naa)naa

    ] 2(21) 2(1)

    Note que esta estatstica envolve somente frequencias observadas de alelos egenotipos.

    Multiplos alelos

    O metodo da razao de verossimilhanca oferece um caminho sistematicode testar o EHW quando ha mais do que dois alelos em um locus. Cadaum dos genotipos pode ser diferente das proporcoes de Hardy-Weinberg, eportanto pode ser de interesse testar cada coeficiente de desequilbrio Duv,para os alelos Au e Av, separadamente.

    Quando ha k alelos codominantes, existem k(k+1)2 proporcoes de genotipos

    que nos dao(k(k+1)

    2 1)

    graus de liberdade e permitem que k1 proporcoesalelicas sejam estimadas e k(k1)2 coeficientes de desequilbrio sejam estima-dos e testados de que sao diferentes de zero.

    Para o modelo irrestrito, os EMVs, como visto anteriormente, sao

    pu = pu

    Duv = pupv Puv2

    com uma log-verossimilhanca

    lnL1 = Cte+u

    nuu ln

    (nuun

    )+u

    v>u

    nuv ln

    (nuvn

    )

  • 1.3. DESEQUILIBRIO 35

    Quando o modelo e restrito por ter as proporcoes de H-W para todosos genotipos, o que significa ter todos os desequilbrios iguais a zero, a log-verossimilhanca se reduz a

    lnL0 = Cte+u

    nu ln

    (nu2n

    )Atraves da razao de versosssimilhanca temos

    =L0L1

    2 ln = 2(lnL0 lnL1)

    esta quantidade, sob a hipotese de EHW tem distribuicao chi-quadrado com[k(k+1)

    2 1] [k 1] = k(k1)2 graus de liberdade.

    O mesmo tipo de teste e encontrado atraves do teste de bondade deajuste em todas as classes de genotipos. Sob H0

    X2T =u

    (nuu np2u)2np2u

    +u

    v

    (nuv 2npupv)22npupv

    Obs: Os valores esperados devem ser maiores que cinco.Este teste qui-quadrado tambem tem k(k1)2 graus de liberdade.Note que X2T tambem pode ser expresso em termos dos coeficientes de de-sequilbrio:

    X2T =u

    [n(Puu p2u)]2np2u

    +u

    v

    [n(Puv 2pupv)]22npupv

    =u

    nD2uup2u

    +u

    v

    2nD2uvpupv

    onde Duu e a soma dos desequilbrios para todos os heterozigotos queenvolvem o alelo u.

    No caso de tres alelos temos

    D11 = D12 +D13

    D22 = D12 +D23

    D33 = D13 +D23

  • 36 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Para testarmos a hipotese de que D12 = 0 atraves do metodo da razao deverossimilhanca, neste caso, sob a hipotese nula temos:

    D11 = D13

    D22 = D23

    D33 = D13 +D23

    e entaoL13,23 = max{L(p1, p2, p3, D13, D23)}

    para o modelo irrestrito

    L1 = max{L(p1, p2, p3, D12, D13, D23)}

    e a estatstica G212 :

    G212 = 2(lnL13,23 lnL1)

    esta estatstica tem distribuicao qui-quadrado com (65) graus de liberdade,ou seja, 1 grau de liberdade sob H0. Neste caso para obter os EMV o metodode Bailey nao pode ser usado, sendo entao necessarios metodos numericospara a obtencao dos estimadores.

    Um procedimento alternativo, quase tao bom quanto ao da razao deverossimilhanca, foi descrito por Herna`ndez e Weir (1989). Eles usarama normalidade assintotica do desequilbrio estimado. Atraves da formulada aproximacao de Fisher para a variancia obtem-se uma expressao para avariancia de Duv:

    2nV ar(Duv) = pupv[(1 pu)(1 pv) + pupv][(1 pu pv)2 2(pu pv)2]Duv+w 6=u,v

    (p2uDvw + p2vDuw)D2uv

    Para testar se Duv e zero, esta condicao e usada na formula da varianciae o teste estatstico se torna

    X2uv =D2uv

    V ar(Duv)

    =2nD2uv

    pupv[(1 pu)(1 pv) + pupv] +w 6=u,v(p2uDvw + p2vDuw)

  • 1.3. DESEQUILIBRIO 37

    no caso de tres alelos, por exemplo,

    X212 =2nD212

    p1p2[(1 p1)(1 p2) + p1p2] + (p21D23 + p22D13)

    X213 =2nD213

    p1p3[(1 p1)(1 p3) + p1p3] + (p21D23 + p23D12)

    X223 =2nD223

    p2p3[(1 p2)(1 p3) + p2p3] + (p22D13 + p23D12)

    1.3.2 Desequilbrio de ligacao

    O proximo passo no estudo da associacao entre genes e analisar as pro-porcoes alelicas em diferentes loci. Proporcoes de alelos em diferentes locimostram a associacao entre estes loci onde pode existir ou nao a ligacao .

    Desequilbrio de gametas em dois loci

    Neste caso nao e preciso se preocupar com associacoes de genotipos, poisos dados a serem considerados sao avaliados em gametas. Para pares de ale-los em dois loci, os procedimentos para definir, estimar e testar desequilbriosao totalmente analogos a`queles para pares de alelos num simples locus.

    O coeficiente de desequilbrio para os alelos A e B em dois loci comparaa proporcao de gametas com o produto das proporcoes alelicas.

    DAB = pAB pApBe inferencias sao baseadas na suposicao de distribuicao multinomial dos ga-metas. Sendo que A, B significam nao-A e nao-B podemos colocar as pro-porcoes gameticas numa tabela de contingencia 2 2:

    Locus BFrequencias B B Total

    Locus A A nAB nAB nAA nAB nAB nA

    Total nB nB n

  • 38 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    O EMV de DAB e encontrado diretamente das proporcoes observadas.

    DAB = pAB pApBComo as frequencias de gametas tem distribuicao multinomial,

    E(pAB) = pAB

    E(pApB) = E

    (NAn

    NBn

    )= E

    ((NAB +NAB)

    n

    (NAB +NAB)

    n

    )= E

    (N2AB +NABNAB +NABNAB +NABNAB

    n2

    )= E(p2AB + pAB pAB + pAB pAB + pAB pAB)

    = E(p2AB) + E(pAB pAB) + E(pAB pAB) + E(pAB pAB)

    = [V ar(pAB) + E2(pAB)] + [Cov(pAB, pAB) + E(pAB)E(pAB)] +

    +[Cov(pAB, pAB) + E(pAB)E(pAB)] +

    +[Cov(pAB, pAB) + E(pAB)E(pAB)]

    =

    (pAB(1 pAB)

    n+ p2AB

    )+

    (pABpAB

    n+ pABpAB

    )+

    +

    (pABpAB

    n+ pABpAB

    )+

    (pABpAB

    n+ pABpAB

    )apos algumas manipulacoes algebricas

    E(pApB) =pABn

    +(n 1)n

    pApB (1.25)

    e portanto

    E(DAB) = E(pAB pApB) = E(pAB) E(pApB)= pAB (pAB

    n+n 1n

    pApB)

    =(n 1)n

    (pAB pApB)

    =(n 1)n

    DAB

    e pela formula da aproximacao de Fisher para a variancia, para grandesamostras, temos:

    V ar(DAB) =1

    n[pA(1 pA)pB(1 pB) + (1 2pA)(1 2pB)DAB D2AB]

  • 1.3. DESEQUILIBRIO 39

    Uma estatstica qui-quadrado para a hipotese de nao existencia de dese-quilbrio, H0 : DAB = 0 pode ser obtida atraves do quadrado da variavel Zque tem, assintoticamente, distribuicao normal:

    Z =DAB E(DAB)

    V ar(DAB)

    portanto, sob H0,

    X2AB = Z2 =

    nD2ABpA(1 pA)pB(1 pB)

    A mesma estatstica e encontrada atraves do teste qui-quadrado de bon-dade de ajuste para as quatro classes de gametas:

    Gametas AB AB AB AB Total

    Frequencias Observadas nAB nAB nAB nAB nFrequencias Esperadas npApB npApB npApB npApB n

    Teste exato para o desequilbrio de gametas

    Este teste depende das probabilidades de todas as possveis amostras defrequencias de gametas para uma frequencia alelicas observada. Frequenciasde gametas assumem distribuicao multinomial, entao neste caso, as frequen-cias alelicas sao binomialmente distribudas, isto e:

    P (NAB = nAB, NAB = nAB, NAB = nAB, NAB = nAB) =n!pnABAB p

    nABAB

    pnABAB

    pnABAB

    nAB!nAB!nAB!nAB!

    P (NA = nA, NA = nA) =n!

    nA!nA!pnAA p

    nAA

    P (NB = nB, NB = nB) =n!

    nB!nB!pnBB p

    nBB

    e portanto, sob a hipotese H0 : DAB = 0

    P (NAB = nAB, NAB = nAB, NAB = nAB, NAB = nAB/NA = nA, NB = nB) =

    =n!(pApB)

    nAB (pApB)nAB (pApB)

    nAB (pApB)nAB

    nAB!nAB!nAB!nAB!

    nA!nA!nB!nB!

    n!n!pnAA pnAApnBB p

    nBB

  • 40 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    P (NAB = nAB, NAB = nAB, NAB = nAB, NAB = nAB/NA = nA, NB = nB) =

    =n!p

    nAB+nABA p

    nAB+nABB p

    nAB+nABA

    pnAB+nABB

    nAB!nAB!nAB!nAB!

    nA!nA!nB!nB!

    n!n!pnAA pnAApnBB p

    nBB

    P (NAB = nAB, NAB = nAB, NAB = nAB, NAB = nAB/NA = nA, NB = nB) =

    =nA!nA!nB!nB!

    n!nAB!nAB!nAB!nAB!

    Desequilbrio de gametas com multiplos alelos

    Neste caso, continuamos avaliando dois loci sendo que pode ocorrervarios alelos em cada locus, ou seja, um coeficiente Duv e definido paracada par de alelos Au e Bv

    Duv = puv pupv

    Estes coeficientes podem ser testados separadamente com as estatsticasqui-quadrado

    X2uv =nD2uv

    pu(1 pu)pv(1 pv)enquanto que a hipotese de que nenhum dos Duvs e diferente de zero podeser testada com a estatstica

    X2T =k

    u=1

    lv=1

    (nuv npupv)2npupv

    =k

    u=1

    lv=1

    n

    pupv[puv pupv]2

    =k

    u=1

    lv=1

    n

    pupvD2uv

    que tem distribuicao 2 com (k 1)(l 1) graus de liberdade.

  • 1.3. DESEQUILIBRIO 41

    Variancias e covariancias do desequilbrio de ligacao dos gametas

    O interesse inicial esta na associacao entre alelos em dois loci, mas amaioria dos conjuntos de dados contem proporcoes em mais de dois locie equilbrios de ordens superiores podem ser definidos. Se o desequilbriode ligacao dos gametas DAB e DBC sao estimados para os alelos A,B eC em tres loci, espera-se que seus valores estejam relacionados por causada dependencia em comum no alelo B. E possvel rearranjar a formula daaproximacao de Fisher para a variancia para obter as aproximacoes paraas covariancias das funcoes S e T de frequencias multinomiais Ni (estasfrequencias tem valores esperados nQi):

    1

    nCov(S, T ) =

    i

    S

    Ni

    T

    NiQi S

    n

    T

    n

    A aplicacao deste resultado permite que as covariancias entre os desequilbriosamostrais sejam encontradas:

    Cov(DAB, DBC) =1

    n[pB(1 pB)DAC + (1 2pB)DABC DABDBC ]

    Cov(DAB, DCD) =1

    n[DACDBD +DADDBC +DABCD]

    Note que desequilbrios entre gametas em tres e quatro loci, os quais seraoobtidos na proxima secao, estao envolvidos.Obs: Verifique que DAB = DAB = DAB = DAB.

    Desequilbrio de gametas em tres ou quatro loci

    Os desequilbrios serao obtidos atraves da formula aditiva de Bennett(1954), que subtrai os termos de desequilbrios de menores ordens. Para osalelos A, B e C em tres loci:

    DABC = pABC pADBC pBDAC pCDAB pApBpC (1.26)e para os alelos A, B, C e D em quatro loci:

    DABCD = pABCD pADBCD pBDACD pCDABD pDDABCpApBDCD pApCDBD pApDDBCpBpCDAD pBpDDAC pCpDDABDABDCD DACDBD DADDBC pApBpCpD (1.27)

  • 42 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Os EMV destes desequilbrios sao obtidos substituindo estas proporcoespelos seus valores observados, existe um vcio desprezvel nestes estimado-res que sera ignorado. As variancias dos estimadores sao obtidas atravesda formula de Fisher, no caso de quatro loci e necessario um tratamentocomputacional. Sejam as quantidades piA e A para o alelo A:

    piA = pA(1 pA), A = (1 2pA)

    entao

    V ar(DAB) =1

    n[piApiB + ABDAB D2AB]

    V ar(DABC) =1

    n[piApiBpiC + 6DABDBCDAC + piA(BCDBC D2BC)

    +piB(ACDAC D2AC) + piC(ABDAB D2AB)+DABC(ABC 2ADBC 2BDAC 2CDAB DABC)]

    Para testarmos a hipotese H0 : DABC = 0 atraves da estatstica qui-quadrado, temos:

    X2ABC =D2ABC

    V ar(DABC)

    onde, sobH0 o coeficienteDABC vale zero e os outros termos sao substitudospor seus valores observados.

    Desequilbrio de genotipos em dois loci

    Quando dados de populacoes geneticas sao coletados atraves dos genoti-pos, e possvel checar as associacoes entre alelos, ou atraves de um locus ouatraves de um gameta. Vamos lembrar que o equilbrio de H-W e testadoatraves de dois alelos num mesmo locus mas em diferentes gametas, e oequilbrio de ligacao e testado atraves de dois alelos num mesmo gametamas em diferentes loci. Existe uma terceira alternativa - dois genes emdiferentes gametas e em diferentes loci. Portanto a possibilidade deste novotipo de desequilbrio sera investigada.

    Neste caso podemos assumir que proporcoes gameticas podem ser obtidasdas proporcoes de genotipos, ou seja

    pAB = PABAB +

    1

    2

    (PABAB + P

    ABAB + P

    ABAB

    )

  • 1.3. DESEQUILIBRIO 43

    Chamaremos este novo desequilbrio de desequilbrio digenico, pois serefere a genes em diferentes loci e em diferentes gametas dentro de umindivduo e e definido como:

    DA/B = pA/B pApBonde a proporcao nao gametica

    pA/B = PABAB +

    1

    2

    (PABAB + P

    ABAB + P

    ABAB

    )

    Para os coeficientes trigenicos, proporcoes de triplas de alelos (proporcoesgenotpicas) sao comparadas com os produtos das proporcoes alelicas, aposremover algum desequilbrio digenico. As duas proporcoes trigenicas sao

    pAAB = PABAB +

    1

    2PABAB

    pABB = PABAB +

    1

    2PABAB

    e os desequilbrios sao definidos como

    DAAB = pAAB pADAB pADA/B pBDA p2ApBDABB = pABB pBDAB pBDA/B pADB pAp2B

    O coeficiente de desequilbrio quadrigenico, apos remover todos os desequi-lbrios digenicos e trigenicos:

    DABAB = PABAB 2pADABB 2pBDAAB 2pApBDAB 2pApBDA/Bp2ADB p2BDA D2AB D2A/B DADB p2Ap2B

    Agora as frequencias de genotipos e que sao multinomialmente distribu-das e isto deve ser refletido nas variancias amostrais, neste caso as varianciasde DA e DB continuam as mesmas, mas DAB se torna:

    V ar(DAB) =1

    2n

    (piApiB + ABDAB D2AB +DADB +D2A/B +DABAB

    )Atraves da aproximacao de Fisher:

    V ar(DA/B) =1

    2n

    (piApiB + ABDA/B D2A/B +DADB +D2AB +DABAB

    )

  • 44 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    As variancias dos EMV dos coeficientes trigenicos e quadrigenicos tambempodem ser obtidas atraves da formula da aproximacao de Fisher mas exi-gem que manipulacoes algebricas sejam feitas em computadores. Para ocoeficiente trigenico

    2nVar(DAAB) = (pi2A +

    2ADA D2A)(piB +DB) + piAAB(DAB +DA/B)

    2D2AAB + (1 5piA +DA)(DAB +DA/B)2 + 2piAADABB+[2AB 2DAB 4A(DAB +DA/B)]DAAB+(2A 2DA)(DABAB 2DABDA/B) (1.28)

    e para o coeficiente quadrigenico

    2nVar(DABAB) = (pi2A +

    2ADA D2A)(pi2B + 2BDB D2B) + . . . (DABAB)2

    Uma estrategia apropriada para testarmos o desequilbrio digenico e,inicialmente, testar os desequilbrios de maiores ordens, e portanto primeirotestamos a hipotese H0 : D

    ABAB = 0 atraves da estatstica

    X2AABB =

    (DABAB

    )2V ar

    (DABAB

    )comDABAB assumindo ser zero e todos os outros termos assumindo seus valoresobservados, na formula da variancia.

    Se a hipotese nao for rejeitada, o coeficiente quadrigenico pode assumiro valor zero no teste para o desequilbrio trigenico e digenico. Caso contra-rio, termos de ordens maiores devem ser includos no teste estatstico paradesequilbrio de menores ordens.

    Quando o desequilbrio quadrigenico puder ser ignorado, o teste estats-tico para o coeficiente digenico se reduz a

    X2AB =2nD2AB

    piApiB + DADB + D2A/B

    X2A/B =2nD2A/B

    piApiB + DADB + D2AB

    1.3.3 Desequilbrios genotpicos compostos

  • 1.3. DESEQUILIBRIO 45

    Muitas vezes nao e possvel distinguir entre os dois tipos de duplos hete-rozigotos AB/AB e AB/AB e dessa forma nao e possvel fazer inferenciassobre as frequencias gameticas. Sob a suposicao de cruzamento aleatorio, noqual frequencias genotpicas sao assumidas sendo o produto das frequenciasgameticas, e possvel estimar frequencias gameticas utilizando o algoritmoEM. Se quisermos evitar a suposicao de cruzamento aleatorio, e possveltrabalhar com um conjunto de coeficientes de desquilbrios compostos.

    Mesmo nao sendo possvel observar separadamente as proporcoes dige-nicas pAB e pA/B, a soma delas pode ser:

    pAB + pA/B = 2PABAB + P

    ABAB + P

    ABAB +

    1

    2

    (PABAB + P

    ABAB

    )O desequilbrio digenico e medido atraves de uma medida composta ABdefinida por

    AB = pAB + pA/B 2pApB = DAB +DA/B (1.29)que e a soma dos coeficientes gameticos e nao gameticos.

    Suponha que nove classes genotpicas sao numeradas de acordo com atabela abaixo:

    BB BB BBAA n1 n2 n3AA n4 n5 n6AA n7 n8 n9

    9i=1

    ni = n

    A frequencia digenica para AB +A/B e:

    n(AB+A/B) =

    (1

    2n1 +

    1

    2n1

    )+

    (1

    2n1 +

    1

    2n1

    )+

    1

    2n2 +

    1

    2n2 +

    1

    2n4 +

    1

    2n4 +

    1

    2n5

    AB AB A/B A/B AB A/B AB A/B AB

    = 2n1 + n2 + n4 +1

    2n5

    o EMV para o desequilbrio de ligacao composto e

    AB =1

    nn(AB+A/B) 2pApB

    Note que n e o numero de indivduos na amostra.Nao ha problemas com os desequilbrios trigenicos quando nao pode-

    mos distinguir entre os duplos heterozigotos, mas as definicoes podem sersimplificadas

    DAAB = pAAB pAAB pBA p2ApBDABB = pABB pBAB pAB pAp2B

  • 46 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Uma modificacao do coeficiente quadrigenico e necessaria por causa dafalta de conhecimento de DAB e DA/B. Um coeficiente composto AABB edefinido por

    AABB = DABAB 2DABDA/B

    = PABAB 2pADABB 2pBDAAB 2pApBAB 2ABp2ADB p2BDA DADB p2Ap2B

    Substituindo as frequencias observadas nas equacoes temos os EMVs e aformula de Fisher nos da as variancias aproximadas

    nV ar(AB) = (piA +DA)(piB +DB) +1

    2ABAB

    +ADABB + BDAAB + AABB

    onde o divisor e agora n (para n indivduos) ao inves de 2n. As varianciaspara os coeficientes trigenicos nao sao alteradas (equacao 1.28), mas elaspodem ser simplificadas utilizando-se os dois coeficientes compostos AB eAABB. Finalmente, a variancia quadrigenica e

    nV ar(AABB) = (pi2A +

    2ADA D2A)(pi2B + 2BDB D2B)

    + . . .2AABBDetalhes estao em Weir & Cockerham (1989).

    Se os coeficientes quadrigenicos e trigenicos puderem ser ignorados, aestatstica do teste para o desequilbrio de ligacao digenico composto e

    X2AB =n2AB

    (piA + DA)(piB + DB)

    1.3.4 Testes multiplos

    Se estamos interessados em saber se o EHW e satisfeito em cada um dosloci, em particular, entao os testes que foram apresentados sao apropriados.No entanto, se estamos interessados em saber se o EHW e satisfeito napopulacao, estes loci servem para dar testes multiplos da mesma hipotese.Atraves de um conjunto de L testes o valor qui-quadrado excedera 3.84mais do que 5% das vezes, simplesmente porque ele e maior. O nvel designificancia do conjunto de testes e a probabilidade de que um ou mais

  • 1.3. DESEQUILIBRIO 47

    deles causem a rejeicao da hipotese quando ela e verdadeira, ou seja

    = Pr(pelo menos um teste cause a rejeicao | H0 verdadeira)= 1 Pr(nenhum teste cause a rejeicao | H0 verdadeira)= 1 [Pr(um teste nao cause a rejeicao | H0 verdadeira)]L= 1 (1 )L L (1.30)

    onde e o nvel de significancia para um teste individual. Este argumento,chamado de procedimento de Bonferroni, assume que todos os testes saoindependentes, o que nao e necessariamente verdade, mas o erro em assumiresta suposicao nao e grande. Com um nvel de 5% usado para 10 testes, onvel real de significancia para o conjunto de 10 testes e

    = 1 0.9510= 0.40

    o que e bem maior. Para evitar este tipo de problema, cada teste individualnecessita ser mais conservador. Para um nvel total = 0.05, e necessarioque os valores individuais sejam = 0.005. Este valor individual e obtidode

    = 1 (1 )1/L /L

    1.3.5 Testes de homogeneidade

    A maioria dos dados serao avaliados de varias amostras e geralmentedeseja-se a combinacao de tais dados para que se possa produzir um teste deadequacao de ajuste onde todas as informacoes possam ser avaliadas. Antesde fazer isso, e necessario verificar que as amostras sao homogeneas e podementao ser combinadas. Um teste de homogeneidade e essencialmente umteste de independencia das linhas (amostras) numa tabela de contingencia.

    Para os dados da forma dos graos de Mendel, de 10 plantas (Weir, 1996),pode ser construda uma tabela de contingencia 2 10. As dez linhas saoas amostras e as duas colunas sao as formas dos graos. Se as dez amostrassao homogeneas, cada uma tem a mesma proporcao de graos redondos, euma proporcao comum e estimada atraves da proporcao total 336/437. Soba hipotese de homogeneidade, a frequencia esperada de graos redondos e57336/437 = 43.83. Estes calculos e o valor da estatstica de qui-quadrado

  • 48 CAPITULO 1. CONCEITOS BASICOS DE GENETICA HUMANA

    Tabela 1.6: Teste de homogeneidade dos dados de Mendel sobre a forma dasemente (R: redonda, W: enrugada) em 10 plantas F2 (Weir, 1996)

    Observ. Esperado Esperado

    Planta R W R W X2 G R W X2 G

    1 45 12 42.75 14.25 0.47 0.49 43.83 13.17 0.14 0.14

    2 27 8 26.25 8.75 0.09 0.09 26.92 8.08 0.00 0.00

    3 24 7 23.25 7.75 0.10 0.10 23.84 7.16 0.00 0.00

    4 19 10 21.75 7.25 1.39 1.30 22.30 6.70 2.11 1.92

    5 32 11 32.25 10.75 0.01 0.01 33.06 9.94 0.15 0.14

    6 26 6 24.00 8.00 0.67 0.71 24.60 7.40 0.34 0.36

    7 88 24 84.00 28.00 0.76 0.79 86.11 25.89 0.18 0.18

    8 22 10 24.00 8.00 0.67 0.63 24.60 7.40 1.19 1.11

    9 28 6 25.50 8.50 0.98 1.06 26.14 7.86 0.57 0.61

    10 25 7 24.00 8.00 0.17 0.17 24.60 7.40 0.03 0.03

    Total 336 101 327.75 109.25 5.31 5.34 336 101 4.71 4.49

    sao dados na Tabela 1.6. A estatstica tem valor 4.71 e tem distribuicao qui-quadrado com 9 graus de liberdade sob a hipotese de homogeneidade (nestecaso a hipotese nao e rejeitada). O teste G foi definido na equacao (1.24).

    Uma simples estatstica qui-quadrado com 1 grau de liberdade pode serobtida para testarmos a hipotese de que os dados suportam uma razao de3 : 1.

    X2 =(336 327.75)2

    327.75+

    (101 109.25)2109.25

    = 0.83

    Sob a teoria de Mendel, cada amostra deveria exibir uma razao de 3 :1 de graos redondos versus graos rugosos. Na Tabela 1.6 as frequenciasobservadas sao comparadas, uma a uma, com as frequencias esperadas sob arazao 3 : 1, e nenhum dos valores de qui-quadrado com 1 grau de liberdadedeu significante. A sua soma de 5.31, que tem distribuicao 2 com 10 grausde liberdade, tambem nao e significante.

    1.4 Diversidade

  • 1.4. DIVERSIDADE 49

    O estudo da evolucao e caracterizado pelas extensoes e causas de variacaogenetica. Na presente discussao, serao consideradas diferentes maneiras demedir variacao genetica. Uma simples medida seria simplesmente a fre-quencia de alelos ou genotipos, mas daremos enfase para heterozigosidade ediversidade genetica. A frequencia de heterozigotos e importante, pois cadaindivduo heterozigoto carrega alelos diferentes e representa a existencia devariacao. Ha situacoes, no entando, onde a variacao resulta da presencacontinuada de diferentes homozigotos e a diversidade genetica e entao umamedida mais apropriada.

    1.4.1 Heterozigosidade

    Uma simples medida de variabilidade genetica numa populacao e a he-terozigosidade observada. Seja nluv o numero observado de heterozigotosAuAv, u 6= v, num locus l numa amostra de tamanho n. Entao a proporcaoamostral de heterozigotos no locus l e

    Hl =u

    u6=v

    nluvn

    Se existem m loci, a heterozigosidade media e

    H =1

    m

    ml=1

    Hl

    Como Hl e a soma de frequencias de heterozigotos que sao multinomialmentedistribudas, cada Hl e binomialmente distribuda com

    E(Hl) = Hl e Var(Hl) =1

    nHl(1Hl)

    onde Hl e a proporcao de heterozigotos no locus l na populacao. Hl podetambem ser escrita como

    Hl =1

    n

    nj=1

    Xjl

    em que

    X