software per lo sviluppo di mappe fisiche simone scalabrin dimi studente di dottorato in informatica...
TRANSCRIPT
SOFTWARE PER LO SVILUPPO SOFTWARE PER LO SVILUPPO DI MAPPE FISICHEDI MAPPE FISICHE
Simone ScalabrinSimone Scalabrin
DiMI
Studente di dottorato in Informaticawww.dimi.uniud.it/scalabri
Università degli Studi di UdineIstituto agrario San Michele all’Adige
MAPPA FISICAMAPPA FISICA
• Insieme di contigInsieme di contig
• Ogni contig è un insieme ordinato di frammenti di DNA Ogni contig è un insieme ordinato di frammenti di DNA parzialmente sovrappostiparzialmente sovrapposti
•Minimal tiling pathMinimal tiling path
Librerie di cloni BAC, copertura del genoma pari a 7-30x, inserti sono prodotti con diversi insiemi di enzimi di restrizioneA
Clone BAC
Digestione
Separazione Rilevamento Dimensionam
20,000 bp
10,000 bp
4,000 bp
2,000 bp
1,200 bp800 bp
B
Comparazione a coppie Assemblaggio a
stringenza alta
C
Riassemblaggio manualecon stringenza bassa
DVerifica & AllineamentoE
Meyers, Scalabrin, Morgante 2004 Nature Reviews Genetics
COME SI COSTRUISCE UNA COME SI COSTRUISCE UNA MAPPA FISICAMAPPA FISICA
• Serie di cloni genomici parzialmente Serie di cloni genomici parzialmente sovrappostisovrapposti
• Identificazione delle sovrapposizioniIdentificazione delle sovrapposizioni
1043_A23
1096_G08
Digestione
Separazione Rilevamento Dimensionamento
20,000 bp
10,000 bp
4,000 bp
2,000 bp
1,200 bp
800 bp
B Clone BAC
IDENTIFICAZIONEIDENTIFICAZIONEDIDI
SOVRAPPOSIZIONISOVRAPPOSIZIONI
Fingerprinting
EcoRI
Fingerprinting
IDENTIFICAZIONEIDENTIFICAZIONEDIDI
SOVRAPPOSIZIONISOVRAPPOSIZIONI
Fingerprinting
IDENTIFICAZIONEIDENTIFICAZIONEDIDI
SOVRAPPOSIZIONISOVRAPPOSIZIONI
Fingerprinting
IDENTIFICAZIONEIDENTIFICAZIONEDIDI
SOVRAPPOSIZIONISOVRAPPOSIZIONI
Scelta degli enzimi
• Numero di frammenti prodotti
• Distribuzione delle bande prodotte
• Composizione del genoma
• Costo degli enzimi
ENZIMI A BLUNT ENDENZIMI A BLUNT END
5’AATGCATAGTACACATGTACTACAGATACGTACACAT 3’
3’TTACGTATCATGTGTACATGATGTCTATGCATGTGTA 5’
Estremità Estremità piattepiatte
TAGLIO BLUNT ENDTAGLIO BLUNT END
5’AATGCATAGT 3’ 5’ACACAT 3’
3’TTACGTATCA 5’ 3’TGTGTA 5’
5’ACACATGTACTACAGATACGT 3’
3’TGTGTACATGATGTCTATGCA 5’
ENZIMI A STICKY ENDENZIMI A STICKY END
5’ACTGAATGCATACTTAAGACATAGAGT 3’
3’TGACTTACGTATGAATTCTGTATCTCA 5’
Estremità Estremità
appiccicoseappiccicose
TAGLIO STICKY ENDTAGLIO STICKY END
5’ACTGAATGCATACT 3’ 5’TAAGACATAGAGT 3’
3’TGACTTACGTATGAAT 5’ 3’TCTGTATCTCA 5’
IL IL FINGERPRINTINGFINGERPRINTING FLUORESCENTEFLUORESCENTE
5’ACTGAATGCATACTTT 3’
3’TGACTTACGTATGAAT 5’
Marcatura fluorescenteMarcatura fluorescente
Colori differenti
Comparazione a coppie
Assemblaggio astringenza alta
C
LA LOGICA DEL LA LOGICA DEL FINGERPRINTINGFINGERPRINTING
Frammenti di uguale dimensione nelFrammenti di uguale dimensione nel pattern pattern di digestionedi digestione
PossibilePossibile sovrapposizione sovrapposizione
BBAA
PROBLEMI NEL CONFRONTO PROBLEMI NEL CONFRONTO TRA TRA FINGERPRINTFINGERPRINT
• DimensionamentoDimensionamento dei frammentidei frammenti• Falsi positivi (caso, bande doppie)Falsi positivi (caso, bande doppie)• Falsi negativi (eterozigosi, bande Falsi negativi (eterozigosi, bande
mancanti)mancanti)
TECNICHE DI TECNICHE DI FINGERPRINTINGFINGERPRINTING
1. 1. Digestione sempliceDigestione semplice
2. 2. Digestione e marca- Digestione e marca- tura radioattivatura radioattiva
Gel d’agarosioGel d’agarosio
Dimensionamento poco precisoDimensionamento poco preciso
Gel di poliacrilammideGel di poliacrilammide
Dimensionamento più precisoDimensionamento più preciso
3. 3. Digestione e marca- Digestione e marca- tura fluorescentetura fluorescente
Gel di poliacrilammideGel di poliacrilammide
Dimensionamento più precisoDimensionamento più preciso
Meno falsi positivi grazie ai coloriMeno falsi positivi grazie ai colori
AA BB
TECNICHE DI TECNICHE DI FINGERPRINTINGFINGERPRINTING
AA BB
Digestione semplice Digestione e marcatura fluorescente
FALSO POSITIVOFALSO POSITIVO
IL IL FINGERPRINTINGFINGERPRINTING FLUORESCENTEFLUORESCENTE
• Un enzima Un enzima frequent cutterfrequent cutter che produce che produce estremità piatteestremità piatte
• 4 enzimi che producono estremità 4 enzimi che producono estremità appiccicoseappiccicose
• Reazioni di estensione della singola Reazioni di estensione della singola basebase con ddNTP fluoresceinaticon ddNTP fluoresceinati
• Elettroforesi su poliacrilammideElettroforesi su poliacrilammide
L’ANALISI DEI DATIL’ANALISI DEI DATI
Individuazione dei picchiIndividuazione dei picchi
Rimozione background Rimozione background e bande vettoree bande vettore
ElettrocromatogrammiElettrocromatogrammi ABI Prism 3730ABI Prism 3730
GeneMapperGeneMapper
GenoprofilerGenoprofiler
Script in PERLScript in PERL
Costruzione contigCostruzione contig FPCFPC
ATTIVITA’ATTIVITA’ SOFTWARESOFTWARE
ELETTROCROMATOGRAMMI (fsa)ELETTROCROMATOGRAMMI (fsa)
Picco elettroforeticoPicco elettroforetico
ELETTROCROMATOGRAMMIELETTROCROMATOGRAMMI
INDIVIDUAZIONE DEI PICCHIINDIVIDUAZIONE DEI PICCHI
Tabella in formato testo (GeneMapper)Tabella in formato testo (GeneMapper)
ELETTROCROMATOGRAMMIELETTROCROMATOGRAMMI
Composizione per colore:• Almeno 200 picchi• 30 – 50 bande vere• Altezza minima (livello minimo di
background)
Eletrocromatogrammi → testo
• Dividere in colori• Massima sensibilità (FPC tratta 0-60000)• 4 colori → 4 zone
50 500 50 500 50 500 50 500
0 6000015000 30000 45000
Eletrocromatogrammi → testo
1028_B10 141526,71739,15867,46664,57170,67319,116500,018532,820370,920919,621139,522703,724783,350414,1
BLU
VERDE
ROSSO
LA RIMOZIONE DEL LA RIMOZIONE DEL BACKGROUNDBACKGROUND
Bande vere
Background
Rimozione del rumore
LA RIMOZIONE DEL LA RIMOZIONE DEL BACKGROUND 1BACKGROUND 1
f(avg)
Genoprofiler 1.10http://wheat.pw.usda.gov/PhysicalMapping/tools/genoprofiler/genoprofiler.html
LA RIMOZIONE DEL LA RIMOZIONE DEL BACKGROUND 2BACKGROUND 2
f(ratio)
Scalabrin e Morgante
LA RIMOZIONE DEL LA RIMOZIONE DEL BACKGROUND 3BACKGROUND 3
ULUA
LLLA
UL
UA
LLLA
fine
IG = UA1 – LA1IG = UA1 – LA1
UL = UA – 0,3 * IGUL = UA – 0,3 * IG
LL = LA + 0,15 * IGLL = LA + 0,15 * IGScalabrin e Morgante Script in Perl
LA COSTRUZIONE DEI LA COSTRUZIONE DEI CONTIGCONTIG
Due parametri chiave
Tolerance = scarto accettato
Cutoff: probabilità che il match tra due cloni sia dovuto puramente al
caso (e non sia una vera sovrapposizione)
Cutoff più basso → maggior stringenza
FPC 8.1
- FingerPrinted Contigs
- 2 passi per assemblare i cloni in contigs:
1) Clustering: basato sul numero delle bande condivise2) Ordinamento: trova la soluzione migliore che massimizzi le sovrapposizioni
http://www.agcol.arizona.edu/software/fpc/
Confronto tra due cloni
• Sulston cutoff score
mnL ((1 p)m pnL m )
mM
nL
where p = (1 – b)nH, b = 2t/gellen, t is the tolerance, gellen is the number of possible values for bands, nL and nH are the minimum and maximum number of bands for the two clones (nL<nH), and M is the number of shared bands.
Dove nL e nH sono il numero minimo e massimo di bande per i due cloni ed M è il numero minimo di bande condivise, p=(1-b)nH, b=2t/gellen, t è la tolleranza, gellen è la lunghezza del gel.
b rappresenta la probabilità che una banda di un clone faccia il match con una banda dell’altro clone.
t t0 gellen
p rappresenta la probabilità che nessuna delle nH bande del clone “più grande” facciano il match con una data banda del clone “più piccolo”.
Mapping BACs within contigs
CB MapsFPC prova a ordinare cloni basandosi su Consensus Bands
Extra bands
Clone name
Bands
+ = shared bando = missing bandx = 2 tolerance bin
Clone order
Cloni Q
• numero sufficiente di bande per entrare in un contig• molte bande extra• non bene nella mappa
4 Tipi di Qs
2) Clone in posizione errata - sequenza ripetuta
1) Fingerprint di scarsa qualità
3) Soluzione non ottimale
4) Diversità allelica
Riassemblaggio semi-manualea stringenza bassa
D
Verifica e allineamentoE
Collegamento fra mappa fisica e genetica, considerazioni
• Quanti contig ci aspettiamo di ottenere nella mappa fisica iniziale?– 1 per cromosoma!!!
– Dipende dal genoma in questione
• Ogni contig deve essere collegato alla mappa genetica– 1 marker per contig fornisce la posizione
– 2 marker per contig forniscono anche l’orientamento
RINGRAZIAMENTIRINGRAZIAMENTI• Prof. Michele MorganteProf. Michele Morgante• Dott. Riccardo VelascoDott. Riccardo Velasco• Dott. Marco MoroldoDott. Marco Moroldo• Prof. Alberto PolicritiProf. Alberto Policriti• Dott. Giacomo PreteDott. Giacomo Prete• Dott.sa Raffaella MarconiDott.sa Raffaella Marconi• P.Ch. Nicoletta FeliceP.Ch. Nicoletta Felice• Dott. Massimo PindoDott. Massimo Pindo• Dott.sa Michela TroggioDott.sa Michela Troggio• Dott.sa Cinzia SegalaDott.sa Cinzia Segala• Dott. Paolo FontanaDott. Paolo Fontana
APPENDICE
LETTERATURALETTERATURA• Mapping and sequencing complex genomes: Mapping and sequencing complex genomes:
Let’s get physical!, Let’s get physical!, Meyers, Scalabrin, Meyers, Scalabrin, MorganteMorgante, Nature Reviews Genetics, 2004, Nature Reviews Genetics, 2004
• FPC: a system for building contigs from FPC: a system for building contigs from restriction fingerprinted clones, restriction fingerprinted clones, Soderlund, Soderlund, Longden, MottLongden, Mott, , 19971997
• DNA markers in plant improvement: an DNA markers in plant improvement: an overview, overview, KumarKumar, , 19991999
• Nucleotide and aplotype diversity in wine Nucleotide and aplotype diversity in wine cultivars of Grape, cultivars of Grape, Prete, Cattonaro, Prete, Cattonaro, MorganteMorgante, , 20032003
L’IMPATTO DELL’ETEROZIGOSIL’IMPATTO DELL’ETEROZIGOSI
50% frammenti condivisi50% frammenti condivisi 50% frammenti condivisi e 4 50% frammenti condivisi e 4 cloni di tipo B mancanticloni di tipo B mancanti
1200 CBu1200 CBu 2200 CBu2200 CBu
Descrizione del processo
• Giorno 1: precoltura cellulare
• Giorno 2: coltura cellulare
• Giorno 3: isolamento DNA
• Giorno 4: frammentazione DNA
• Giorno 5: marcatura DNA e separazione su sequenziatore
N. campioni
1600
1600
1600
1600
1600
Tutte 5 fasi avvengono simultaneamente8000 campioni DNA diversi processati settimanalmente
3 persone
A
B
B
A
C
Informatica
Robotica
Ancora robotica
Automazione
48 campioni DNA ogni 35 minuti, 2000 al giornosenza intervento operatore
IDENTIFICARE LE IDENTIFICARE LE SOVRAPPOSIZIONISOVRAPPOSIZIONI
Marcatori
VV132
VV132
IDENTIFICARE LE IDENTIFICARE LE SOVRAPPOSIZIONISOVRAPPOSIZIONI
Marcatori
VV132
VV132
IDENTIFICARE LE IDENTIFICARE LE SOVRAPPOSIZIONISOVRAPPOSIZIONI
Marcatori
VV132
IDENTIFICARE LE IDENTIFICARE LE SOVRAPPOSIZIONISOVRAPPOSIZIONI
Marcatori
VV132
Fingerprinting
EcoRI
IDENTIFICARE LE IDENTIFICARE LE SOVRAPPOSIZIONISOVRAPPOSIZIONI
Marcatori
VV132
Fingerprinting
IDENTIFICARE LE IDENTIFICARE LE SOVRAPPOSIZIONISOVRAPPOSIZIONI
Marcatori
VV132
Fingerprinting
IDENTIFICARE LE IDENTIFICARE LE SOVRAPPOSIZIONISOVRAPPOSIZIONI
Marcatori
VV132
Fingerprinting
Codice rimozione Codice rimozione background(3)background(3)
upper_avgupper_avg = = avg of peaks 3-7avg of peaks 3-7
lower_avglower_avg = = avg of 60th peak onavg of 60th peak on
ratioratio = = upper_avg / lower_avgupper_avg / lower_avg
IFIF ( (ratio < 4,5ratio < 4,5) {) {throw awaythrow away}}
IFIF ( (#peaks < 60#peaks < 60) {) {thresholdthreshold = = 500500}}
ELSEELSE { {thresholdthreshold = = iteration()iteration()}}
CodiceCodice
ITERATION()ITERATION()initialGapinitialGap == upper_avg – lower_avgupper_avg – lower_avg
upper_limitupper_limit = = heigth[7]heigth[7]
lower_limitlower_limit = = heigth[60]heigth[60]
WHILEWHILE ((avg is changing AND ratio > 4,5avg is changing AND ratio > 4,5) {) {
upper_limitupper_limit = = upper_avg – (0,2 * initialGap + upper_avg – (0,2 * initialGap + (upper_avg - lower_avg) * (0,1 + ratio / 100))(upper_avg - lower_avg) * (0,1 + ratio / 100))
lower_limitlower_limit = = lower_avg + 0,1 * initialGap + lower_avg + 0,1 * initialGap + (upper_avg - lower_avg)*(ratio/100)(upper_avg - lower_avg)*(ratio/100)
COMPUTECOMPUTE upper_avg, lower_avg and ratioupper_avg, lower_avg and ratio
}}
INTEGRAZIONE TRA MAPPA INTEGRAZIONE TRA MAPPA FISICA E GENETICAFISICA E GENETICA
GR05680,0
GR01767,2
BA002517,6BA000321,1F20236b21,8IN012623,4GR040924,4GR028025,5F2068126,1E39/M49-11426,7E32/M62-28230,5F20236a33,7
Chr 10