anÁlise em larga escala de expressÃo gÊnica diferencial entre diversas bibliotecas de soja...
TRANSCRIPT
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO
GÊNICA DIFERENCIAL ENTRE DIVERSAS
BIBLIOTECAS DE SOJA
Leandro Costa do Nascimento
OBJETIVOS• Construção de um banco de dados local de
ESTs de soja, separados por tecido e cultivar• Montagem dos ESTs• Interface web para análise de expressão
gênica (Eletronic Northern)• Anotação automática de genes• Banco de dados local de microarrays de soja• Integração entre os bancos de dados
RESUMO• Introdução• Projeto GENOSOJA• Banco local de ESTs de soja (baixados
do NCBI)• Montagem – contigs e singlets• Interface web para análise de
expressão gênica (Eletronic Northern)
A SOJA• Origem na China• Genoma com cerca de 1,1 Gbp • Genoma razoavelmente complexo –
ciclos de duplicações e sequências repetitivas (40 a 60%) - (Shoemaker et al, 1996)
• Considerada planta modelo para estudo genético do grupo dos Phaseoloids
A IMPORTÂNCIA DA SOJA
• Alto poder nutritivo – grande quantidade de proteínas
• Óleo de soja responde por 25% dos óleos consumidos no mundo
• Uso na prevenção de doenças
A SOJA NO BRASIL• Líder das exportações agropecuárias
brasileiras – cerca de 24%• O país é o 2º maior produtor mundial• Área plantada aumentou 57 vezes
desde 1961• Produção concentrada no Centro-Oeste • Mais viável para biodiesel – explosão do
cultivo
OS LÍDERES DA SOJA
* Números em milhões de toneladas
Fonte: Departamento de Agricultura dos EUA (USDA – http://www.usda.gov)
2003/04 2005/06 2006/07EUA 85 83,4 86,8Brasil 53 55 58Argentina 39 40,5 44China 17,4 16,4 16,2Mundo 215,7 215,7 229,4
PORQUE BIODIESEL DE SOJA??
• Óleo de girassol tem o maior potencial para a produção, porém demanda grandes investimentos (à longo prazo)
• Parque produtivo da soja já está instalado e voltado para o agronegócio
• Desvantagens: provável aumento do preço do óleo de soja e do desmatamento da floresta amazônica
O PROJETO GENOSOJA
• Consórcio nacional integrando diversos grupos de pesquisa
• Busca integrar informações da estrutura física do genoma com informações sobre a expressão dos genes e as proteínas codificadas por eles
• Ênfase em genes ligados com estresses que comprometem a cultura – secas, doenças e pragas
O PROJETO GENOSOJA• Disponibilizar informações referente a
funcionalidade dos genes, a fim de gerar conhecimento que leve a novas alternativas de controle aos principais entraves que comprometem a cultura
• Criar um banco de dados relacional entre as diferentes estratégias do projeto e de outros grupos de pesquisa de espécies próximas
BIOINFORMÁTICA - GENOSOJA
• Desenvolvimento de um serviço de submissão de sequências, análises computacionais e buscas comparativas nos bancos de dados gerados pelo consórcio e em bancos públicos
• Análises de expressão gênica através de tratamento de dados de microarray, SAGE e eletronic northern
http://www.lge.ibi.unicamp.br/soja
BANCO LOCAL DE ESTs• O banco de ESTs do NCBI contém quase
400.000 sequências de soja• Sequências não estão tratadas (sem
exclusão de vetor, cauda Poly-A etc)• Pertencem a diversos cultivares e
bibliotecas• Diversas são advindas de bibliotecas
subtrativas
PIPELINE – MONTAGEM DO BANCO DE DADOS
• As sequências foram filtradas por publicação
• Exclusão de sequências de publicações que usaram bibliotecas subtrativas
• Exclusão de sequências de publicações com menos de 1.000 sequências submetidas
• Sequências resultantes: 317.216
PIPELINE – MONTAGEM DO BANCO DE DADOS
• Junção de cultivares semelhantes – exemplo: Williams e Williams 82
• 17 cultivares, sendo que mais de 50% das sequências pertence a somente um deles
• 3696 sequências sem informação de cultivar
• 32212 sequências sem informação do tecido
DISTRIBUIÇÃO DAS SEQUÊNCIAS - CULTIVARES
54%
9%6%
5%
5%4%
4%3% 8% 2%
Williams e Williams 82 Kefeng Harosoy e Harosoy 63
Clark Jack Raiden
Bragg e Bragg NTS382 Supernod Outros
Corolla
DISTRIBUIÇÃO DAS SEQUÊNCIAS - TECIDOS
23%
15%
15%10%
9%
8%
7%5% 3% 5%
Seed Root Leaf Unknown
Flower Cotyledon Hypocotyl Shoot
Somatic Embryos Outros
PREPARAÇÃO PARA A MONTAGEM
• Quase 75 % das sequências tinham informações relativas à qualidade
• Bases consideradas de qualidade receberam nota 20, as outras nota 5
• Para as sequências sem informação de qualidade todas as bases receberam nota 20
• Montagem em conjunto ou separadamente???
BLAST CONTRA O GENOMA!!!
GENOMA DA SOJA• Montagem preliminar disponibilizada no
início do ano pelo JGI• Cultivares Williams e Williams 82• 13 milhões de reads de shotgun• 3317 contigs -> quase 1 bilhão de pares
de bases• Cobertura: 8x• Número de CDS: 62199• http://www.phytozome.net/soybean
Cultivar Total de ESTs Similaridade c/ o genoma Porcentagem Identidade (%) Bragg e Bragg NTS382 11491 11389 99,11 89,60
Clark 14946 14896 99,67 89,62Corolla 6578 6008 91,33 89,65
Delsoy 5710 1366 1358 99,41 89,75Harosoy 63 e Harosoy 19690 19622 99,65 90,26
Jack 14746 14682 99,57 90,32Kefeng 1 29540 29390 99,49 91,95L82 2024 3549 3541 99,77 89,93
Minsoy Noi RI progeny 3182 3178 99,87 90,02Ogden 1526 1519 99,54 91,52Peking 3433 3167 92,25 91,44
PI567374 3433 3167 92,25 90,20Raiden 11825 11170 94,46 89,92Shishi 1977 1703 86,14 89,35
Supernod 9102 9077 99,73 90,16T157 3678 3634 98,80 90,09
Williams e Williams 82 172207 169162 98,23 90,34312269 306663 97,02 90,24
TRIMAGEM DAS SEQUÊNCIAS
Remoção de sequências ribossomais
Remoção de sequênciasde vetorRemoção de Poly-A/T
Remoção de sequências Curtas
Remoção de regiõesde baixa qualidadeESTs
Montagem
TRIMAGEM DAS SEQUÊNCIAS
• Programa bdtrimmer (Baudet et al, 2005)
• Remoção de sequências menores que 100 bases
• Sequências resultantes: 307007
Número de sequênciasVetor 7606
Poly-A 25253Poly-T 30703
COMPARAÇÃO ENTRE AS MONTAGENS
• Programa CAP3 • Região de overlap = 100 bases
Identidade Contigs Singlets80% 24014 3841385% 24996 4197990% 27071 4828495% 30622 61580
COMPARAÇÃO ENTRE AS MONTAGENS
0
10000
20000
30000
40000
50000
60000
70000
80 85 90 95
Contigs
Singlets
COMPARAÇÃO ENTRE AS MONTAGENS
• Média de reads por contig11,185
10,6039,557
8,015
0,000
2,000
4,000
6,000
8,000
10,000
12,000
80 85 90 95
Porcentagem de overlap
Read
s/Co
ntig
COMPARAÇÃO ENTRE AS MONTAGENS
• Média de bases por contig
784,294
761,412
727,704
692,898
640,000
660,000
680,000
700,000
720,000
740,000
760,000
780,000
800,000
80 85 90 95
Porcentagem de overlap
Base
s/Co
ntig
COMPARAÇÃO ENTRE AS MONTAGENS
Como escolher a melhor montagem??
MONTAGENS X CDS DO GENOMA
> Identidade
> Contigs
< Bases / Contig
> Singlets
< Reads /Contig
MONTAGEM X CDS• Blastn dos reads (após trimagem) contra
o CDS do genoma (evalue de corte 1e-10)
• Objetivos: Buscar contigs com reads que
alinhavam com diferentes CDS Buscar reads pertencentes ao mesmo
do CDS, mas que entravam em contigs diferentes
ANÁLISE DA MONTAGEMTamanho Número de Contigs300 bp 1347600 bp 9927900 bp 92511200 bp 39031500 bp 17311800 bp 6112100 bp 2002400 bp 642700 bp 253000 bp 93300 bp 13600 bp 13900 bp 1
27071
CONTIGS DE BIBLIOTECAS ÚNICAS
0
200
400
600
800
1000
1200
1400
1600
Número de contigs
Seed
Leaf
Root
Flower
Hypocotyl
Cotyledon
Shoot
Bibliotecas
BLASTx DOS CONTIGS
BLASTx DOS CONTIGS – FIRST HIT
6%8%
44%
35%
1% 6%Medicago Trunc atula
A rabidops is Thaliana
V itis V inefera
Outros
P has eolus V ulgaris
P opulus Trichoc arpa
ELETRONIC NORTHERN• Inferência da expressão gênica à partir
de uma montagem de ESTs Contig
Tratado
Controle
ELETRONIC NORTHERN• Somente para bibliotecas não
subtrativas• Frequência de ESTs de cada
biblioteca em cada contig• As estatísticas devem levar em conta
o tamanho de cada biblioteca (normalização)
PORQUE UMA NOVA INTERFACE??
• Facilidade de visualização• Mais opções ao usuário• Busca por biblioteca, contigs ou
palavra-chave• Análise estatística entre duas
bibliotecas• Agrupamento de genes
diferencialmente expressos por G.O.