new generation sequencing and bioinformatics in the big data era daniel guariz pinheiro, phd....

89
New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo

Upload: internet

Post on 18-Apr-2015

108 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

New Generation Sequencing and Bioinformatics in the Big Data Era

Daniel Guariz Pinheiro, PhD.

Laboratório de Genética Molecular e BioinformáticaDepartamento de GenéticaFaculdade de Medicina de Ribeirão PretoUniversidade de São Paulo

Page 2: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

BIG DATA ERAIntrodução

D. ALLISONhttp://www.nature.com/nature/journal/v455/n7209/full/455028a.html

Em 2010, o universo digital somou 1,2 ZettaBytes. Em 2011 o número subiu para 1,8 ZettaBytes

Estudo da IDC sobre o Universo Digital patrocinado pela EMC, maio de 2010

1 ZettaByte (ZB) = 1 Trilhão 1,000,000,000,000 GigaBytes (GB)

1,2 ZB = 2 pilhas de DVDs da terra à lua (384.404 Km)

Page 3: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

“Big Data” Era• “…information in our world is exploding. There are expected to be 1 trillion new devices

connected to the Internet in the near future, which will help drive 44X digital data growth by the year 2020, 80 percent of which will be unstructured content and will require great effort to analyze.

By Steve MillsIBM’s Senior Vice President & Group Executive, Software & Systems

CISCO estimates that the monthly global internet traffic in the spring of 2010 was 21 exabytes.

1 ExaByte (EB) = 1,000,000,000 GigaBytes (GB)

Page 4: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

“Big Data Era” na Ciência

1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB)

Researchers need to adapt their institutions and practices in response to torrents of new data — and need to complement smart science with smart searching.

Setembro 2008

Editorial

Page 5: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Ciclo do Conhecimento

hypothesis-driven science

data-driven science“…computational methods of data analysis, which may be automated, provide the means of generating novel hypotheses, especially in the post-genomic era.”

(Kell DB et al., 2004)

(Kell DB et al., 2004)

Gene Knock-outsProtein AssaysPoint mutations…

MicroarraysGenomicsMeta-genomicsHT proteomics…

Page 6: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Inundação de Dados na Áreade Ciências Biológicas

• genomas completos sequenciados;• dados de variações genômicas;• projetos de Meta-Genômica;• dados de transcritomas;• dados de proteínas;• dados de interações entre proteínas;• …

Page 7: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Explosão de Sequências

Page 8: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Preparação

Page 9: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Desafios

• Pontos urgentes que devem ser enfrentados:– Transferência de dados, controle de acesso e gerenciamento;– Padronização dos formatos de dados;– Integração dos dados oriundos de múltiplas fontes.

• Dados com características Multi-dimensionais e em um volume imenso;

– Exemplo: Análise funcional de variações no DNA em múltiplas amostras em diferentes tipos de tumores utilizando dados de sequenciamento de nova geração;

– Modelos preditivos para fenótipos complexos demandam computação intensa (Problemas NP-difíceis – ex. Reconstrução de uma rede Bayesiana para representar um modelo de regulação gênica)

Page 10: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Integração dos Bancos de Dados Biológicos

• Características– Grande volume de dados;

• Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable );

– Não há padrão para os nomes dos objetos;• Ontologias (e.g. Gene Ontology) e organizações que regulam a

nomenclatura (e.g. HUGO)– Não há padrão para acesso aos dados, cuja natureza é distribuída;

• Utilização de formatação padrão para troca de informações (e.g. GFF) e web services;

– Definição variável para alguns conceitos;• e.g. gene

– Dados altamente heterogêneos mas inter-relacionados;– Informação dinâmica e em constante atualização;

Page 11: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Soluções computacionais

• Cloud-based computing;• Ambientes computacionais heterogêneos;

– Integração de aceleradores especializados (GPUs);• Aumento do número de computadores;• Otimização de algoritmos;

Page 12: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Primeiros passos...

• Compreensão da natureza dos dados, ou seja, da sua magnitude e complexidade, e dos recursos disponíveis (memória, espaço,...);

• Compreensão dos algoritmos;• Compreensão das vantagens e desvantagens

das arquiteturas disponíveis;– A decisão não é sempre óbvia e muitas vezes

consiste em uma combinação delas;

Page 13: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Soluções no Brasil

O EMU (Equipamento MultiUsuário) é uma plataforma de alta-performance para análises computacionais aplicadas à genômica e à transcriptômica.

Financiamento: Programa Multiusuário da FAPESP de 2010, com uma contra-partida do Instituto Ludwig de Pesquisa sobre o Câncer.

Page 14: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Sequenciamento

Por quê sequenciar ? • Motivação

– Aplicações diversas: identificar sequências funcionais e caracterizar genomas ou transcriptomas;

• Da Genômica Comparativa à Medicina Genômica;

– Propósitos gerais;• Análogo às aplicações de um Computador

Pessoal (PC)

Page 15: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

REVISÃO HISTÓRICAIntrodução

Page 16: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Marcos históricos

Darryl Leja , NHGRI

Experiments in Plant Hybridization

Leis da hereditariedade

1865

Gregor Johann MendelTermo Gene = unidade mendelianada hereditariedade

1909

Wilhelm Johannsen

DNA = caracter hereditário

1944

Oswald T. AveryColin M. MacLeod, Maclyn McCarty

Estrutura do DNA

1953

James Watson Francis Crick Maurice WilkinsRosalind Franklin Métodos para o

sequenciamento de DNA

1977

Walter GilbertFrederick Sanger

Banco de Dados de Sequências Biológicas

1982

NCBI GENBANK

Polymerase Chain Reaction

1985

Kary MullisSequenciador Semi-Automático e surgimento do primeiro sequenciador comercial (ABI)

1986

Leroy Hood

Page 17: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Início do PGH

• PGH - início em 1990• Mapeamento detalhado do genoma humano

– 5000 cientistas, de 250 diferentes laboratórios;– 15 anos.– 5 a 10 Bilhões de dólares (US$);– Otimismo exacerbado;– Para muitos pesquisadores um projeto irrealizável;– Para outros a oportunidade de transformar a Genética

em Big Science;

Page 18: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Projeto Genoma Humano

• The International Human Genome Sequencing Consortium • 13 anos (1990-2003)• U$3.000.000.000,00 (3 BILHÕES de DÓLARES!!!)• Avanços imediatos proporcionados

Identificação de ~25.000 genes (~20% material genético total); Possibilitou a descoberta de ~1.800 genes relacionados a doenças,

facilitando a identificação de outros genes; Permitiu o desenvolvimento de mais de 1.000 testes genéticos; Ao menos 350 produtos biotecnológicos resultantes deste conhecimento

já estão em testes clínicos; Desenvolvimentos de ferramentas para análise genômica, inclusive de

outras espécies de interesse biomédico e econômico; Promoveu discussões éticas, legais e implicações sociais em torno do

assunto; Consituição de uma base de conhecimento;

Page 19: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

...no Brasil

Iniciativa pública Projeto Genoma Humano

Publicação do rascunhodo Genoma Humano

1990 2001

2000

Sequenciamento do Genoma da bactéria Xylella fastidiosa

1997Organization for Nucleotide Sequencing and Analysis

1999

...

2003Conclusão do Projeto Genoma Humano

1ª experiênciabrasileira:

2002

Page 20: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Desenvolvimento dos Computadores

1946

ENIAC, o 1° computador eletrônico

John Presper Eckert e John W. Mauchly

Z1, o 1° computador eletro-mecânico

1936

Konrad Zuze

1965

Gordon E. MooreLei de Moore

IBM PC (Personal Computer) 1981

Page 21: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Lei de Moore

Page 22: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

...e dos Sistemas Computacionais

1991

GNU/Linux

1987

Linguagem de Programação Perl

http://www.bioperl.org/wiki/How_Perl_saved_human_genome

19721969

1971 UNIX – 1ª Versão

UNICS ,Ken Thompson, Dennis Ritchie e outros na Bell Labs.

Linguagem de Programação C Dennis Ritchie

1993

Linguagem Estatística R

Ross Ihaka eRobert Gentleman

Page 23: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Bioinformática• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas

computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados.

• Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais.

Biomedical Information Science and Technology Initiative Consortium (BISTI - NIH)

Page 24: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Repositórios de Dados Biológicos

• 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb

• 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information

• 1997 – EMBL – European Molecular Biology Laboratory

• 1986 – DDBJ – DNA Data Bank of Japan

Page 25: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

International Nucleotide Sequence Database Colaboration

200898.868.465 seqüências99.116.431.942 bases

1982606 seqüências2.427 bases

Page 26: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Era “Pós-Genoma”

"O PGH aumentou a capacidade de compreensão da complexidade que é a transmissão dos caracteres genéticos” (José Roberto Goldim, UFRGS)

• Genômica Estrutural– Construção de mapas genéticos, físicos e de transcrição de

um organismo.

• Genômica Funcional– Caracterização das propriedades funcionais dos genes e

determinação de Assinaturas Moleculares de Expressão Gênica.

Page 27: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Projetos “-omas”x

Pesquisa Clássica em Genética e Bioquímica

Science 291:1221. 2001

Genômica

Transcritômica

Proteômica

Epigenômica

Metabolômica

Page 28: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Genômica Funcional: Análise de Expressão Gênica

Genômica Funcional = Métodos de obtenção de dados em larga escala

+ Métodos de Bioinformática

(Genome-wide expression “profiling”)

Revolução dos projetos “-omas”

Mayo Clin Proc. 2004 May;79(5):651-8

Page 29: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Biologia Sistêmica

• Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema;

"Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms “

Leroy Hood

Page 30: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Últimos anos

2006

...

Next-Generation Sequencing Revollution

2003

Conclusão do Projeto Genoma Humano

2008

1000 GenomesProject

2005 2007

Sequenciamento do Genoma Diplóide de um único indivíduo (Craig Venter)

The diploid genome sequence of an individual human.(Levy, S. et al. 2007)

Legião de SequenciadoresABI 3730 no JCVI

Genoma James D. WatsonSequenciamento com 454

Page 31: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

NEW GENERATION SEQUENCINGAND APPLICATIONS

Introdução

Page 32: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Nova Geração de Sequenciadores de DNA

Roche/454 FLX Illumina/Solexa GA ABI SOLiDABI 3730xl

ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD

Método Sanger Pirosequenciamento Sequenciamento por Síntese

Sequenciamento por Ligação

• Aumento na quantidade de Dados • IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp)

• Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em questão de poucos dias);• Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);• Redução do custo por base sequenciada;

PLATÔTECNOLOGIA

Page 33: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Resumo das plataformas

• http://www.illumina.com/• http://www.my454.com/• http://www.appliedbiosystems.com.br/

Page 34: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Trade-offs in Next Generation Sequencing technologies

NHGRI Current Topics in Genome Analysis 2010Elliott Margulies, Ph.D

Page 35: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Revisão: Métodos de sequenciamento de nova geração

Page 36: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

NGS no mundo

http://pathogenomics.bham.ac.uk/hts/

Page 37: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

James Watson’s Genome

Page 38: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Genoma Neandertal

99,7% identidade humano modernoDe 1% a 4% do genoma humano (2% de seus genes) provêm do homem de Neandertal

Page 39: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Detecção de Variantes Genômicas• Detecção de Variações (Padrão normal de variações)

– Single Nucleotide Variants (SNVs)– Small Insertions/Deletions – Structural variants (Large Insertions/Deletions/Inversions)– Copy-Number Variants (CNVs)

Page 40: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Catálogo de Mutações Somáticas• Sequenciamento de diferentes tipos de câncer

– Cancer Driver mutations – mutações responsáveis pelo desenvolvimento do câncer (Cancer Genes);

Page 41: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

COSMIC

• Catálogo de Mutações Somáticas em Câncer, resultado também de sequenciamentos completos de diversos cânceres;

Page 42: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Novas promessas

• HeliScope– Helicos BioSciences

• ION Torrent– Applied Biosystems

• PacBio RS– Pacific Biosciences

2008

2010

2010

Page 43: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

$1000 genome• Re-sequenciamento genoma humano completo (3000 Mb)

– 454 sequencing (average read length=300-400 bases): 10-fold coverage– Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold coverage

• Valores nos últimos anos– Julho 2010 (~U$31.125,00)– Julho 2011 (~U$10.500,00)

National Human Genome Research Institute (NHGRI)

Page 44: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Produtividade

[Stratton MR, et al. 2009]

Page 45: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Gordon Moore´s Genome

Page 46: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Sequence Read Archive

“(…) In mid-September 2010, the

SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)”

[Leinonen R et. al., 2011]

“We’re currently at 8.5 Terabases (Tb) of biological sequence under management. We’re growing by about 1 Tb/month.”

NCBI’s staff scientist Martin Shumway in 2007

I nternationalN ucleotideS equenceD atabaseC ollaboration

• SRA (NCBI Sequence Read Archive): http://www.ncbi.nlm.nih.gov/sra• ENA (EBI European Nucleotide Archive): http://www.ebi.ac.uk/ena/• DRA (DDBJ Sequence Read Archive): http://trace.ddbj.nig.ac.jp/dra/index_e.shtml

Page 47: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

1000 Genomes• Consórcio Internacional (2008)

– Catálogo completo e detalhado de Variantes Genômicas Humanas (SNPs e variações estruturais)

• Projeto Genoma Humano• HapMap

– Catálogo das variações genéticas mais comuns (SNPs c/ freq. > 5%) em diferentes populações humanas;

• 2500 genomas de 25 populações– Mínimo de cobertura:

• 3x - Genoma completo;• 20x – exome capture;

• Suporte financeiro– Wellcome Trust Sanger Institute (Inglaterra);– Beijing Genomics Institute (China);– National Human Genome Research Institute (EUA);

Page 48: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Publicação Fase piloto

Page 49: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

UK10K Genomes

• Objetivo: identificação de variantes raras (freq. alélica abaixo de 0.1%)

• Associação com fenótipos extremos em condições específicas (ex.: doenças relacionadas ao desenvolvimento neurológico e obesidade)

• Sequenciamento– 4000 genomas (6x)– 6000 exomas

Page 50: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

…e outros

• i5K – 5000 genomas de insetos

• importância especialmente para a agricultura;

• Genome10K – 10000 genomas de vertebrados

• diversidade genética entre vertebrados;

• 1001 Genomes– 1001 cepas de Arabdopsis thaliana

• planta modelo, base de estudos;

• 1KP– 1000 genomas de plantas

• desenvolvimentos de produtos biotecnológicos;

Page 51: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Genome-Wide Association Studies

• Estudos que procuram identificar a associação entre genótipos e fenótipos (e.g. doenças, resposta a medicamentos, etc.);• Identificar a fatores genéticos de risco para o

desenvolvimento ou progressão de determinadas doenças;• Catálogo de associações

• dbGaP (http://www.ncbi.nlm.nih.gov/sites/entrez?db=gap)

Page 52: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

“Counting Experiments”

Page 53: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Análise RNA-SeqRNA-Seq“Whole Transcriptome Shotgun Sequencing”High-Throughput sequencing of cDNA

RNA-Seq – Quantificação da expresão dos genes no transcriptoma de camundongos

Myf6 - m

yogenic factor 6

Expressão específica em células m

usculares

Page 54: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Análise ChIP-SeqChIP-SeqChIP – Chromatin ImunoPreciptationHigh-Throughput sequencing

ChIP-Seq – Estudo da estrutura da cromatinaPadrão de metilação de histonas no genoma humano

Uma das primeiras publicações utilizando Illumina 1G Genome Analyzer

Reproducibilidade r = 0.906 (p-value < 2.2e-16).

ChIP

-Seq

X G

MAT

(Gen

ome-

wid

e M

appi

ng T

echn

ique

)

Page 55: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Análise Methyl-SeqMethyl-SeqDNA treatment with methyl-sensitive restriction enzymes (HpaII - não metilada, MspI - indiferente)High-Throughput sequencing

Methyl-Seq – Estudo de padrões de metilação do DNA em hESCs, células derivadas de hESCs e fígado fetal humano

methylation status: presence or absence of HpaII tags: average tag count > 1 unmethylated

AUC = 0.94Methyl-Seq x Illumina Infinium

Page 56: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Análise microRNA-SeqmicroRNA-Seqsmall RNA library (mirVana miRNA Isolation Kit) High-Throughput sequencing

microRNA-Seq – Caracterização dos miRNAs expressos em tecido gástrico humano (cardia - estômago)

Plataforma SOLiD

qRT-PCR2 -∆Ct

Pearson correlation (SOLiDxqRTPCR)r2 = 83.9 (p-value < 0.05)

Page 57: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Resumo de AplicaçõesCategory Examples of applications

Complete genome resequencing Comprehensive polymorphism and mutation discovery in individual human genomes

Reduced representation sequencing Large-scale polymorphism discovery

Targeted genomic resequencing Targeted polymorphism and mutation discovery

Paired end sequencing Discovery of inherited and acquired structural variation

Metagenomic sequencing Discovery of infectious and commensal flora

Transcriptome sequencingQuantification of gene expression and alternative splicing; transcript annotation; discovery of transcribed SNPs or somatic mutations

Small RNA sequencing microRNA profiling

Sequencing of bisulfite-treated DNA Determining patterns of cytosine methylation in genomic DNA

Chromatin immunoprecipitation– sequencing (ChIP-Seq) Genome-wide mapping of protein-DNA interactions

Nuclease fragmentation and sequencing Nucleosome positioning

Molecular barcoding Multiplex sequencing of samples from multiple individuals

[Shendure, J & Ji, H, 2008]

Page 58: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

EXEMPLO DE ABORDAGEMIntrodução

Page 59: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Breast Cancer Sequencing Project

• Objetivo: Catálogo completo de mutações somáticas na linhagem celular de tumor de mama (HCC1954) utilizando como base de comparação uma linhagem celular linfoblastóide obtidas de um mesmo paciente (HCC1954BL).

http://lgmb.fmrp.usp.br/bcsp/

Page 60: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Sequenciamento• gDNA

– Whole Genome Sequencing• Shotgun and paired-end sequencing

– Exome Capture• cDNA

– Whole Transcriptome Sequencing• Shotgun and paired-end sequencing

~ 350GB dados

Page 61: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Publicações

• Zhao Q et al., 2009. Transcriptome-guided characterization of genomic rearrangements in a breast cancer cell line. Proc Natl Acad Sci U S A. 2009 Feb 10;106(6):1886-91. Epub 2009 Jan 30. PubMed PMID: 19181860;

• Zhao Q et al., 2010. Systematic detection of putative tumor suppressor genes through the combined use of exome and transcriptome sequencing. Genome Biol. 2010;11(11):R114. Epub 2010 Nov 25. PubMed PMID: 21108794;

• Galante PA et al., 2011. Distinct patterns of somatic alterations in a lymphoblastoid and a tumor genome derived from the same individual. Nucleic Acids Res. 2011 Aug;39(14):6056-68. Epub 2011 Apr 14. PubMed PMID: 21493686;

Page 62: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

HCC1954Representative SKY Karyotypepseudotetraploid cell line

Linhagem celular derivada de carcinoma ductal de mama (estágio IIA, grau 3 invasivo, sem metástase nos linfonodos)extraído de uma paciente (Mulher, 61 anos, indiana)

[Gazdar AF , et al., 1998]

http://www.path.cam.ac.uk/~pawefish/BreastCellLineDescriptions/HCC1954.html

Page 63: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

HCC1954BL

• HCC1954BL is an Epstein-Barr virus (EBV)-transformed lymphoblastoid cell line derived from the same patient. – Both cell lines received similar treatments in terms

of the timing of establishment and in vitro propagation (36 passages);

Page 64: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Objetivo

• Catalogar as mutações somáticas encontradas nas linhagens HCC1954 e HCC1954BL em busca de padrões que possam caracterizar as alterações genéticas que ocorrem em um determinado tumor e que direcionam a tumorigênese (driver mutations) em relação às mutações passageiras (passenger mutations);– Motivação: Primeiro trabalho a caracterizar as mutações

somáticas presentes na linhagem não tumoral e tumoral de um mesmo paciente (outros estudos focados apenas nas mutações somáticas do tumor);

Page 65: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Dados• gDNA paired-end sequencing

– Illumina GAII• gDNA exome capture (Nimblegen Sequence Capture 2.1M Human Exome

array)– Roche 454 GS FLX

HCC1954 HCC1954BL

Capture sequencing Paired-end sequencing Capture sequencing Paired-end

sequencingTotal number of reads

5,996,389 381,274,888 6,265,250 347,891,568

Page 66: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Dados de Referências

• Genoma referência– NCBI build 36.1/hg18;

• Regiões com haplótipos alternativos e o loci de imunoglobulinas foram excluídos;

– UCSC Genome Browser • dbSNP version 130;• RefSeq (mRNAs e ncRNAs);

Page 67: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Alinhamento

• gDNA paired-end sequencing– Illumina GAII (Bowtie [Langmead B et al., 2009])

• gDNA exome capture– Roche 454 GS FLX Titanium (BLAT [Kent WJ, 2002])

HCC1954 HCC1954BL

Capture sequencing Paired-end sequencing Capture sequencing Paired-end

sequencingTotal number of reads

5,996,389 381,274,888 6,265,250 347,891,568

Mapped reads 5,212,428 254,326,859 5,106,763 237,886,727Percentage of mapped reads

86.9 66.7 81.5 68.4

Total number of nucleotides

3,143,589,263 19,392,752,128 3,252,428,887 15,693,171,704

Mapped nucleotides

2,257,027,363 13,432,965,012 2,175,120,803 11,166,288,816

Percentage of mapped nucleotides

71.8 69.3 66.7 71.1

Page 68: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Pré-processamento

• Leituras duplicadas mapeadas em coordenadas idênticas foram fundidas;

• Leituras com mapeamento ambíguo foram desconsideradas;

Page 69: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Estratégia para Detecção de Mutações

A zigosidade e as regiões com perda deheterozigozidade (LOH)foram estimadas por HMMusando dados públicos de microarranjos de SNPs(Affymetrix SNP array)e confirmadas com osdados de Exoma

Page 70: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Análise de SNVs

• Independentemente para cada linhagem em relação ao genoma referência;– 3 leituras com qualidade >= 20 suportando a variação;– Análise de mutações somáticas

• Profundidade na cobertura de ao menos 5 leituras em ambas as linhagens;

• Leituras suportando a variação devem constituir ao menos 20% do número total de leituras;

• Variações comuns ao dbSNP foram desconsideradas para a;• Variações comuns às duas linhagens foram excluídas;• Falsas chamadas de mutação residindo em regiões onde há

perda de heterozigose (LOH);

Page 71: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

SNVsHCC1954 HCC1954BLN (%) in dbSNP N (%) in dbSNP

Substitutions 82355 (92.68) 83474 (93.60) Coding 11717 (90.92) 12373 (93.84) Intronic 60314 (92.53) 61428 (93.77) UTR 3419 (92.57) 3570 (94.04) ncRNA 256 (96.87) 260 (96.92) Intergenic 6649 (91.84) 5843 (90.86)Indels 689 (52.10) 587 (52.81) Coding 38 (50.00) 31 (51.61) Intronic 595 (52.43) 506 (54.15) UTR 30 (46.66) 26 (42.30) ncRNA 1 (100.00) 1 (0.00) Intergenic 25 (52.00) 23 (39.13)

Single nucleotide variations identified in the HCC1954 and HCC1954BL genomes

three reads with base quality ≥20

Maioria delas comuns a ambas as linhagens

92% descritasno dbSNP

8% novos SNVs[Bentley, DR et al., 2008][Wheeler, DA et al., 2008]

Page 72: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Comparação com SNP Array

• Affymetrix Mapping 250K Sty2 SNP Array– GEO: GSE12019 and GSE13373

• Correspondência com as regiões de detecção (sequenciada ao menos 1 vez)

– 93.7% HCC1954 – 97.8% HCC1954BL

• Detecções corretamente identificadas– 80.8% HCC1954– 83.3% HCC1954BL

» Diferença de performance entre as linhagens não significante (p-value=0.69, χ2=0.16, df=1)

Page 73: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Análise de Variações Estruturais

• Dados desconsiderados– Leituras que mapearam em regiões altamente repetitivas

(1Mb);– Leituras onde os pares maperam dentro da distância

esperada porém, uma das leituras em orientação incorreta;• Requisitos

– 5 pares de leituras suportando a variação em HCC1954 e nenhuma em HCC1954BL;

• Rearranjos intercromossomos: leituras em pares mapeadas unicamente em cromossomos distintos;

• Rearranjos intracromossomos:– Deleções: distância maior do que a esperada (average+4*SD);– Duplicação in tandem: orientação e distância não esperada;

Page 74: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Sequenciamento em pares

• Sequenciamento em pares– mate-pair– paired-ends

(Kor

bel e

t al.

, 200

7)

>SOLEXA01:1:1:27:1992#0/1 >SOLEXA01:1:1:27:1992#0/2

Referência:~ 128 bp a ~428 bp

paired-ends

36 bp 36 bp

Referência:

36 bp 36 bp

Page 75: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Mutações somáticasSomatic variations HCC1954 HCC1954BL

N (%) N (%)Point mutations 274 (100) 173 (100) Coding 64 (23.36) 30 (17.3) Nonsense 2 (0.73) 3 (1.7) Missense 45 (16.42) 15 (8.7) Synonymous 17 (6.20) 12 (6.9) Non-coding 14 (5.11) 15 (8.7) UTR 13 (4.74) 13 (7.5) ncRNA 1 (0.36) 2 (1.2) miRNA 0 (0) 0 (0) Intronic 179 (65.33) 114 (65.9) Splice site 0 (0) 0 (0) Other intronic 179 (65.33) 114 (65.9) Intergenic 17 (6.20) 14 (8.1)Structural variations 94 (100) 4 (100) Interchromosomal 49 (52.1) 0 (0) Intrachromosomal 45 (47.9) 4 (100) Deletions 30 (31.9) 2 (50.0) Inversions 11 (11.7) 2 (50.0) Duplications 4 (4.3) 0 (0)

Somatic point mutations and structural variations in the HCC1954 and HCC1954BL genomes

HCC1954 dNs/dS = 2.8HCC1954BL dNs/dS = 1.5

Diferença significativaentre as taxas(p=0.031; χ2=4.68; df=1)

38 regiões gênicas22 já descritas[Stephens, PJ et al., 2009][Zhao, Q et al., 2009]

Page 76: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Mutações pontuais e variações estruturais

Circos plot representing somatic point mutations and structural variations in the (A) HCC1954 and (B) HCC1954BL genomes.

mutações somáticas pontuais: pontos (preto: NS; vermelho S);cobertura do genoma: região em verde;rearranjos cromossômicos: linhas conectando dois cromossomos;deleções: linhas azuis;inversões: linhas pretas;duplicações: linhas cinzas;

Page 77: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Frequência de substituições

• Espectro similar de substituições

Predominância de transições

Page 78: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Validação

• Mutações pontuais– PCR e Sequenciamento com o método de Sanger (ABI3130)

• HCC1954 (47 mutações Ns)– 33 (70.2%) já descritas na literatura;– 12/14 (85.7% ) foram validadas (Sanger);

– 45 mutações Ns válidas» 42 (93.3%) em resíduos de aminoácidos conservados evolutivamente

(10 espécies distintas);

• HCC1954BL (18 mutações Ns)– 12 (66.6%) foram validadas (Sanger);

– 12 mutações Ns válidas» 11 (91.6%) em resíduos de aminoácidos conservados evolutivamente

(10 espécies distintas);

Page 79: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Análise de Vias Biológicas

KEGG ID KEGG annotation Number of genes in the pathway Gene Name P-value

HCC1954    hsa05222 Small cell lung cancer 3 ITGA6 TP53 TRAF2 0.0003

    hsa05410 Hypertrophic cardiomyopathy 2 ITGA6 MYH7 0.0167

    hsa04210 Apoptosis 2 TP53 TRAF2 0.0169    hsa05414 Dilated cardiomyopathy 2 ITGA6 MYH7 0.0191    hsa04010 MAPK signaling pathway 3 ARRB1 TP53 TRAF2 0.0237

    hsa00770 Pantothenate and CoA biosynthesis 1 DPYD 0.0325

    hsa04360 Axon guidance 2 CFL2 SEMA3A 0.0335    hsa04614 Renin-angiotensin system 1 LNPEP 0.0372    hsa05200 Pathways in cancer 3 ITGA6 TP53 TRAF2 0.0375HCC1954BL

    hsa03440 Homologous recombination 1 EME1 0.0234

    hsa00310 Lysine degradation 1 SETD2 0.0382    hsa04740 Olfactory transduction 2 OR51E2 OR2D2 0.0421

Vias metabólicas/regulatórias relacionadas com a tumorigênese

Simulação de Monte Carlo (1000 conjuntos aleatórios 45 e 12 genes)Todos os genes conhecidos e 200 vias metabólicas/regulatórias do KEGG

Page 80: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Interações entre Proteínas

• PPI DBs– MINT, BIOGRID, INTACT, HPRD, BIND, DIP

• HCC1954

–25/45 (55.5%)

• HCC1954BL

–8/12 (66.7%)

• Não há diferença significativa em termos de representação– (p=0.729; χ2=0.12; df=1)

Page 81: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Análise de Interações entre Proteínas

proteínas com mutações NS validadasproteínas com interação com 3 proteínas mutadasporteínas com interação com 2 proteínas mutadas

Protein–protein interactions networks for mutated genes in

HCC1954 (A) and HCC1954BL (B).

Alto grau de interações em HCC1954 (33.2)(P=0.0017, Monte Carlo simulation)Baixo grau de interações em HCC1954BL (5.1)(P=0.875, Monte Carlo Simulation)

Tumorigenesis pathways:apoptosis (TP53, TRAF2, SLC25A5)MAPK signaling (TP53, ARRB1, TRAF2)cell adhesion (ITGA6)cytoskeleton organization (PCNT, CLIP1) cell cycle (RFC4, PCNT)

Key Cancer Genes: BRCA1, CDC42, CHECK1, MDM2, MAP3K1/3 SMAD2/3

Page 82: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Atuação Sinergística na Tumorigênese

• Proteínas mutadas com parceiros de interações em comum => atuação sinergística no desenvolvimento do tumor [Bredel M. et al., 2009];

• HCC1954– (17/25 – 68%) ao menos 1 parceiro em comum (64 parceiros)

• Diferente do esperado ser ao acaso (p < 0.0001, Monte Carlo simulation)

• HCC1954BL– (0/5 – 0%) nenhum

• Diferença do esperado ser ao acaso pouco significativa (p = 0.855, Monte Carlo simulation)

• Diferença na média de parceiros de interações em comum?– 1000 conjuntos aleatórios (5) em ambas as linhagens x PPI

• (3.3 versus 0) (P=0.0245, Monte Carlo simulation)

Page 83: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Redes funcionais em outros tipos de tumor

References Tumor type

Number of genes with non-synonymous mutations

Number of mutated genes with PPI information (%)

Average number of interactions for mutated genes (P-value)

Number of mutated genes with common partner (%) (P-value)

Number of common partners (P-value)

Pleasance et al. Lung 90 50 (56) 11.6 (0.2692) 33 (66) (0.0001)

42 (0.0870)

Pleasanceet al. Melanoma 188 100 (53) 8.3 (0.8344) 69 (69) (0.0001)

103 (0.3130)

Ding et al. Breast basal

29 17 (59) 8.1 (0.2210) 7 (41) (0.0001)

7 (0.0132)

Shah et al. Breast lobular

32 16 (50) 32.5 (0.0034) 7 (44) (0.0001)

28 (0.0011)

Clark et al. GBM 110 40 (36) 12.9 (0.7269) 18 (45) (0.0001)

13 (0.1896)

Galante et al. Breast HCC1954

45 25 (56) 33.2 (0.0017) 17 (68) (0.0001)

64 (0.0001)

Page 84: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Discussão (1)• Caracterização das mutações somáticas

– linhagens celulares (mesmo indivíduo)• tumor e de células linfoblastóides

• Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas;

– [Michor F et al., 2005]• O mesmo espectro de mutações encontrado nas duas linhagens;

– Ding L et al., 2010 – tumor de mama metastático fenótipo basal– Shah SP et al., 2009 – tumor lobular de mama

• Ação de agentes mutagênicos endógenos e erros na replicação– Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação

espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954;

• (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral;

– Evidências de tumores sem evidência de agentes mutagênicos externos;• Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL);

– 36 passagens;– Critérios estringentes;– Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008]

• Caracterização das mutações somáticas– linhagens celulares (mesmo indivíduo)

• tumor e de células linfoblastóides

• Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas;

– [Michor F et al., 2005]• O mesmo espectro de mutações encontrado nas duas linhagens;

– Ding L et al., 2010 – tumor de mama metastático fenótipo basal– Shah SP et al., 2009 – tumor lobular de mama

• Ação de agentes mutagênicos endógenos e erros na replicação– Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação

espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954;

• (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral;

– Evidências de tumores sem evidência de agentes mutagênicos externos;• Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL);

– 36 passagens;– Critérios estringentes;– Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008]

• Caracterização das mutações somáticas– linhagens celulares (mesmo indivíduo)

• tumor e de células linfoblastóides

• Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas;

– [Michor F et al., 2005]• O mesmo espectro de mutações encontrado nas duas linhagens;

– Ding L et al., 2010 – tumor de mama metastático fenótipo basal– Shah SP et al., 2009 – tumor lobular de mama

• Ação de agentes mutagênicos endógenos e erros na replicação– Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação

espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954;

• (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral;

– Evidências de tumores sem evidência de agentes mutagênicos externos;• Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL);

– 36 passagens;– Critérios estringentes;– Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008]

• Caracterização das mutações somáticas– linhagens celulares (mesmo indivíduo)

• tumor e de células linfoblastóides

• Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas;

– [Michor F et al., 2005]• O mesmo espectro de mutações encontrado nas duas linhagens;

– Ding L et al., 2010 – tumor de mama metastático fenótipo basal– Shah SP et al., 2009 – tumor lobular de mama

• Ação de agentes mutagênicos endógenos e erros na replicação– Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação

espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954;

• (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral;

– Evidências de tumores sem evidência de agentes mutagênicos externos;• Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL);

– 36 passagens;– Critérios estringentes;– Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008]

• Caracterização das mutações somáticas– linhagens celulares (mesmo indivíduo)

• tumor e de células linfoblastóides

• Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando regiões gênicas;

– [Michor F et al., 2005]• O mesmo espectro de mutações encontrado nas duas linhagens;

– Ding L et al., 2010 – tumor de mama metastático fenótipo basal– Shah SP et al., 2009 – tumor lobular de mama

• Ação de agentes mutagênicos endógenos e erros na replicação– Número de mutações identificadas em ambos os genomas é compatível com a taxa de mutação

espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954;

• (274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral;

– Evidências de tumores sem evidência de agentes mutagênicos externos;• Existência de mutações resultates da cultura in vitro e transformação EBV (HCC1954BL);

– 36 passagens;– Critérios estringentes;– Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008]

Page 85: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Discussão (2)

• Diferenças entre o conjunto de genes mutados em ambas as linhagens:– Mutações não-sinônimas mais frequentes HCC1954;– Mutações no genoma do tumor não estão distribuídas

aleatóriamente;• Afetam preferencialmente genes “HUB” nas interações com outros genes;• Afetam vias biológicas relacionadas com a tumorigênese;• Mutações no genoma do tumor são co-selecionadas;

– Ação sinergística de mutações na tumorigênese;» Observação em outros tumores;

• Observação: • Se a célula tumoral requer somente um número pequeno de

alterações genéticas “fortes” para a tumorigênese;• Não seria esperado uma associação funcional dos genes mutados

no tumor, pois a maioria das mutações seriam passageiras;

Page 86: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Discussão (3)

• Modelo sugerido: o genoma do tumor tem poucas mutações “fortes” e muitas mutações “fracas” que atuam em sinergia para desestabilizar as vias relacionadas à tumorigênese;– Associação funcional marcante entre os genes

mutados no tumor;– Modelo já proposto na literatura (e.g. [Bredel M et

al., 2009])

Page 87: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

CONCLUSÃOConclusão

Page 88: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Conclusão

• New-Generation Sequencing (NGS)– Avanços sem precedentes

• Obter informações genômicas em curto tempo a um custo razoável;– Flexibilidade para ser aplicada em uma série de estudos genômicos;

» Genômica de organismos não-modelos;» Regulação gênica em determinadas situações e condições biológicas;» Caracterização da relação evolutiva entre genomas ancestrais (Comparative and

Evolutionary Genomics);» Elucidação dos eventos moleculares que direcionam a tumorigênese (Cancer

Genomics);– Redução da distância em direção a uma medicina personalizada;

– Desafios• Infraestrutura de sistemas de informação tecnológica (TI)

– BIG Data» transferência de dados, armazenamento, controle de qualidade, sistemas

computacionais eficientes (algoritmos e hardware);

Page 89: New Generation Sequencing and Bioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento

Daniel Guariz Pinheiro

[email protected]

OBRIGADO !!!

Perguntas...