assemblaggio e finishing dei frammenti sequenziati assemblaggio di contig e di … · 2019. 4....

ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI Assemblaggio di contig e di trascritti. Ruolo della ridondanza I concetti di contigui (contig), consenso (consensus), copertura (coverage) e sequenze gemelle (mate pairs) sono trattati più estesamente nei corsi di Genomica, ma sono sinteticamente riportate le informazioni fondamentali nella dispensa di supporto. Questa sezione illustra invece come i tool sviluppati dalla bioinformatica riescano a gestire e confrontare i dati di sequenza su larga scala, consentendo di assemblare genomi e trascrittomi. Un primo concetto da chiarire è il ruolo della ridondanza. Chi ha seguito corsi di bioinformatica di base sa già che nei database bibliografici e di sequenza a ridondanza ha un valore negativo, poichè rallenta le ricerche e ne confonde i risultati. Al contrario, nell’assemblaggio dei genomi e dei trascrittomi, la ridondanza ha un valore positivo in quanto fondamentale, sia per escludere gli errori, che per identificare polimorfismi. Le polimerasi, con frequenza variabile, possono introdurre errori nella sequenza. Altri errori possono derivare da problemi, di varia natura, di lettura del segnale nel sequenziatore. Questi tipi di errore di incorporazione non sono rilevabili nei cromatogrammi poiché possono essere presenti anche nelle parti di alta qualità. Tuttavia, poiché gli errori di sequenziamento sono casuali, la probabilità che lo stesso errore riguardi la stessa posizione è molto bassa. Invece, i polimorfismi allelici non sono casuali e si ripetono con una certa frequenza. Conseguentemente, nel caso una sequenza sia stata ottenuta più volte, gli errori non capiteranno nella stessa posizione e ciascun errore tenderà a risultare unico nella specifica posizione, mentre le altre sequenze mostreranno la base corretta; i polimorfismi allelici, invece, si ripeteranno con una certa regolarità. Si può facilmente comprendere che se una sequenza è stata ottenuta solo una volta, ciò non consente di identificare né gli errori né i polimorfismi, poiché non c’è ridondanza che faccia emergere posizioni in cui le sequenze hanno basi diverse. Regioni in cui la sequenza è ottenuta due volte permettono solo di rilevare la presenza di differenza, ma non di determinarne la natura perché, in caso di divergenza, il sostanziale “pareggio” non fornisce elementi per stabilire quale sia la base “corretta” o "più frequente" e quale sia l’errore di sequenziamento, o la variante polimorfica. Per stabilire se c’è un errore, è necessario avere almeno (ma è un requisito davvero minimo) 3 sequenze allineate: nel caso le differenze dipendano da errori, questi saranno rappresentati 1 sola volta, mentre nella stessa posizione la base corretta sarà rappresentata 2 volte.

Tuttavia, un livello di ridondanza decisamente maggiore è necessario per distinguere errori di sequenziamento da polimorfismi. Infatti, quando si sequenzia il DNA e si trova una differenza in una base, non si deve necessariamente pensare che la base "diversa" corrisponda ad un errore. Le mutazioni che causano gravi difetti molecolari e cellulari e quindi una patologia sono poco frequenti, ma variazioni della sequenza di uno stesso gene (varianti alleliche) possono essere presenti in molte posizioni e dar luogo a numerosi polimorfismi. In particolare, nelle regioni del DNA scarsamente soggette a pressione selettiva, in quanto non funzionalmente rilevanti se mutate, possono accumularsi molte mutazioni e basi differenti nella stessa posizione possono avere frequenze simili. Pertanto, solo confrontando un numero molto alto di sequenze è possibile escludere “falsi errori” che invece corrispondono a polimorfismi. Tornando all’esempio precedente, trovare che in una certa posizione due sequenze hanno una T e la terza una C può far pensare ad un errore. Ma potrebbe anche trattarsi di polimorfismo. Se le sequenze confrontate sono 30 ed il polimorfismo non è raro (in genere, si considerano polimorfismi o SNP le varianti con frequenza di almeno l'1%, ma il 95% degli SNP ha

frequenza > 5%) potremmo trovare che le sequenze con una C siano ancora minoritarie, ma più d’una (ad esempio, 4 o 5). In tal caso resta verosimile l'ipotesi che la sequenza con la C sia un allele meno rappresentato e diventa invece probabilisticamente inverosimile se non addirittura impossibile che un errore, casuale e con bassa frequenza, si sia verificato 4-5 volte sempre nella stessa posizione. Nel caso la sequenza con la C resti solo una anche su 30, l’ipotesi che sia un errore diventa più solida, ma non si può escludere che si tratti di un polimorfismo più raro, con frequenza < 5%. In caso di dubbio, solo la ripetizione del sequenziamento dello stesso clone permette di chiarire: essendo l’errore casuale, non sarà ripetuto sulla stessa base.

L’analisi degli elettroferogrammi ottenuti viene eseguita da programmi specificamente sviluppati per verificare la bontà del sequenziamento, quali ad esempio Phred, un programma in linguaggio C di base calling disponibile per differenti piattaforme (Linux, Unix, Mac OS X e Windows). Phred è in grado di leggere cromatogrammi nei formati SCF ("Standard Chromatogram Format", un formato universale adottato da numerosi software di elaborazione e visualizzazione dei cromatogrammi) ed ABI (il formato proprietario, ma diffusissimo della Applied Biosystems); in output produce file con formati adatti alla visualizzazione estesa, sintetica o all’elaborazione successiva da parte di altri programmi. In particolare, oltre a mantenere il formato SCF, può produrre output in formato FASTA o nel formato PHD utilizzabile da Consed. Phred applica metodi statistici per valutare la qualità di ogni base sequenziata. Sulla base della posizione teorica in cui dovrebbero essere localizzati i picchi nell’elettroferogramma, viene analizzata la posizione di ogni base e l’area di ogni picco. Dal confronto tra posizioni reali e calcolate si definisce un valore di affidabilità per ogni base. I quality score attribuiti da Phred sono associati logaritmicamente [Q = -10 log10( Pe )] alle probabilità d’errore, come mostrato dalla seguente tabella:

Phred quality score Probability that the base is called wrong Accuracy of the base call 10 1 in 10 90% 20 1 in 100 99% 30 1 in 1,000 99.9% 40 1 in 10,000 99.99% 50 1 in 100,000 99.999%

Per la produzione di contigui gli strumenti bioinformatici si basano essenzialmente sulla logica di blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura di assemblaggio deve tenere conto della polarità della sequenza e del fatto che il sequenziamento può avvenire in entrambe le direzioni. I programmi per l’assemblaggio dei frammenti devono pertanto (i) valutare tutte le possibili sovrapposizioni di sequenza in entrambe le direzioni, al fine di determinare la migliore soluzione di allineamento e (ii) generare una sequenza consenso per ogni contig e (iii) attribuire un valore di affidabilità ad ogni base della sequenza consenso.

Tra tali programmi Phrap, uno dei più usati sia nei progetti pubblici di sequenziamento genomico che da industrie biotech. Phrap è in grado di assemblare in pochi minuti 2-3000 sequence reads (ovviamente, il tempo varia al variare della potenza dei PC utilizzati). L’assemblaggio di genomi batterici sequenziati con approccio shotgun può essere realizzato in poche ore. Phrap usa i quality scores di Phred per valutare la qualità dei consensus; quando necessario, però, permette di assemblare le sequenze anche a partire dalla zona che Phred giudica di bassa qualità. Inoltre, Phrap tiene conto delle informazioni sul metodo di sequenziamento utilizzato e delle conferme/mismatch relative alle reads del filamento complementare. In tal modo, rispetto ad algoritmi più vecchi in cui per stabilire il consenso è semplicemente valutato un criterio di “maggioranza”, che non pesa differenzialmente sequenze di alta e bassa qualità, Phrap consente di definire consensus più affidabili, escludendo errori sistematici. In pratica, Phrap allinea le sequenze mediante ricerca di “parole” di lunghezza stabilita, come altri programmi di allineamento, ed attribuisce un punteggio sulla base della similarità delle basi e della affidabilità delle lettura. L’assemblaggio inizia a partire dagli allineamenti più significativi e

procede a mosaico costruendo tratti contigui composti da più letture, definiti contig. Si creano così isole non ordinate di sequenza, che nel complesso definiscono la completa regione di partenza della quale non se ne conosceva la sequenza. Phrap usa i quality scores anche per valutare se i mismatch tra due sequenze sovrapposte derivano verosimilmente da errori causali, o da copie differenti di una sequenza ripetuta. Nel caso di repeats con identità del 95-98% (come le sequenze Alu umane) e sequenze di alta qualità gli assemblaggi sono solitamente corretti.

Cross_match è un programma che utilizza gli stessi algoritmi di Phrap, ma è più veloce. E’ ben noto che la velocità si paga in termini di accuratezza (e viceversa), cosicchè Phrap continua ad essere utilizzato per l’assemblaggio mentre Cross_match è utilizzato per fasi, quali ad esempio quelle di vector screening, dove non è necessario discriminare tra sequenze molto simili bensi tra sequenze (in questo caso, del vettore e dell’inserto) chiaramente divergenti. CodonCode Aligner è un ulteriore programma di assemblaggio e identificazione di mutazioni, rilasciato per sistemi operativi più diffusi (e quindi per l’uso personale) quali Windows e Mac OS. CodonCode Aligner combina la compatibilità con i quality scores di Phred-Phrap con un ambiente grafico più “easy-to-learn”:

Una volta rifiniti, i contigui devono essere ordinati in modo corretto. A tale scopo è necessario disporre di una interfaccia capace di visualizzare i risultati delle fasi di sequenziamento e assemblaggio. Consed è un programma sviluppato per la fase di finishing, durante la quale l’operatore, visualizzando i risultati dell’assemblaggio, potrà eseguire modifiche all’allineamento automatico e valutare la qualità del sequenziamento ed eventualmente decidere la ripetizione di regioni mancanti o di bassa qualità. In pratica, Consed provvede all'analisi delle sequenze gemelle (mate pairs) provenienti dallo stesso clone. Clustering di EST Il sequenziamento delle EST (Expressed Sequence Tag) è trattato, per gli aspetti sperimentali, nel corso di Genomica e brevemente nella dispensa di supporto, che illustra la necessità di ricostruire i trascritti lunghi attraverso l’approccio del clustering. I progetti di analisi dei trascrittomi spesso riguardano migliaia di EST le cui sequenze devono essere confrontate e raggruppate:

Lo scopo finale è quello di ricostruire il complemento di tutti i trascritti di un genoma, sia per avere un profilo del trascrittoma e della sua variazione in risposta a stimoli di crescita, differenziativi, in risposta a stress fisici, chimici o biotici, farmaci, patogeni ecc., sia per favorire l’identificazione dei geni sul genoma e per comprenderne, nel caso degli eucarioti e quindi di geni interrotti, la struttura, ovvero il numero e la posizione di esoni ed introni.

Il compito di raggruppare insieme le sequenze riconducibili ad un unico trascritto e separare tutti i gruppi è reso complesso dal fatto che, soprattutto nei genomi complessi, vi sono numerose regioni di ambiguità, ovvero tratti di sequenza identici o altamente simili sebbene appartenenti a trascritti diversi. Ciò è causato dall’amplificazione genica, ovvero la moltiplicazione dei paraloghi (copie, all’interno dello stesso genoma, di geni derivanti per duplicazione e divergenza dallo stess gene ancestore) e delle isoforme di splicing alternativo, che sono moltissime nell’uomo e negli organismi superiori. Inoltre, è fondamentale che le sequenze da clusterizzare non contengano ulteriori tratti ambigui (omopolimeri, sequenze di vettore, sequenze ripetitive o a bassa complessità), altrimenti si generano cluster di frammenti provenienti da trascritti diversi, ossia dei veri e propri artefatti!

Il primo passaggio neessario per raggruppare correttamente EST e trascritti full-length consiste nel raccoglierli in insiemi ordinati ed indicizzati (fasi di storage ed indexing). Successivamente è opportuno “ripulire” le sequenze eliminando i tratti ambigui facilmente identificabili, quali ad es. le sequenze dei vettori. Si procede quindi ad un clustering preliminare (initial clustering), con criteri di stringenza elevati, in cui sono raggruppate sequenze identiche o molto simili ed è possibile eliminare inutile ridondanza. In particolare, nei cluster possono essere eliminate alcune sequenze più corte, se esse sono identiche a frammenti di altre sequenze più lunghe dello stesso cluster, o anche sequenze identiche e della stessa lunghezza. Dopo aver eliminato parte della ridondanza con criteri di alta stringenza si può passare ad una fase di assemblaggio e di studio degli alllineamenti (alignment processing) che consente il cluster joining, ovvero di raggruppare alcuni cluster inizialmente separati solo per mismatch che in realtà non erano significativi. Restano esclusi dalla fase di riunione quei cluster che invece appartengono effettivamente a trascritti diversi:

Anche nel caso del clustering si pone l’antitesi precisione-velocità. In realtà la scelta non è mai antitetica ed il buonsenso porta ad usare sia algoritmi veloci che lenti e precisi, poiché in alcune fasi del processo conta la velocità ed in altre la precisione. E’ intuibile che nelle fasi di “scrematura” iniziale delle sequenze contaminanti e ridondanti si possono usare processi stringenti e veloci; nelle fasi finali di assemblaggio dei cluster è importante essere precisi.

La precisione è particolarmente importante nelle fasi di analisi delle regioni a bassa divergenza. Infatti, differenze nella sequenza possono corrispondere ad errori, ma anche a polimorfismi allelici di uno stesso gene o a divergenza tra paraloghi di una stessa famiglia genica, o infine all’uso di esoni alternativi in varianti di splicing. Esistono differenti e numerosi algoritmi di clustering, ma in tutti i casi il processo prevede una serie di passaggi e condizioni alternative yes/no che portano a passaggi successivi diversi.

GENE PREDICTION NEI PROCARIOTI Com'è possibile individuare le regioni regolative e codificanti dei geni contenuti in un genoma? Il problema è (relativamente....) più semplice per i genomi procariotici. Infatti, i cromosomi batterici, oltre ad essere molto più piccoli di quelli degli eucarioti, contengono geni non interrotti e sono privi della gran quantità di sequenze ripetute che caratterizza il DNA degli eucarioti. Rispetto a questi ultimi, i procarioti hanno un minor numero di geni e la complessità delle regioni regolative è minore. Infine, proprio per le dimensioni ridotte, il numero di genomi procariotici sequenziati è più ampio, il che facilita le analisi di genomica comparata.

Poichè i geni dei procarioti non mostrano il ”problema” (da un punto di vista dell’analisi predittiva) dello splicing, ovvero non hanno sequenze codificanti interrotte, con una certa approssimazione si può dire che per identificare i geni dei batteri è necessario “tradurre” la sequenza del cromosoma nei sei possibili registri di lettura e focalizzare l’attenzione sulle regioni potenzialmente codificanti proteine (ORF, open reading frame) sufficientemente lunghe, accompagnate da promotori. La ricerca di ORF è un esempio di strategia intrinseca, poichè l'analisi riguarda solo le caratteristiche del genoma in esame, senza confrontarlo con entità esterne. La ricerca di ORF può essere complementata dallo studio del codon usage, ovvero l'utilizzo preferenziale ed organismo-specifico di alcuni codoni per specificare gli aminoacidi (si ricordi che il codice genetico è degenerato e quindi la maggior parte degli aminoacidi sono specificati da più codoni).

In realtà, anche i procarioti creano “problemi” all’identificazione dei geni. Infatti, non c’è corrispondenza univoca tra l’ORF di un gene ed il suo promotore, dal momento che un promotore può

controllare l’espressione di RNA policistronici, ovvero codificanti più proteine. Inoltre, il fenomeno di geni sovrapposti, estrememente diffuso nei genomi virali, è presente anche nei procarioti. Un altro problema è la determinazione della lunghezza significativa per un’ORF. Infatti, solo quando si conosce la natura del prodotto proteico di un gene, ovvero il numero dei suoi residui aminoacidici, è possibile selezionare a priori ORF sulla base della lunghezza. Quando si “esplora” un cromosoma per cercare potenziali geni, invece, la struttura di questi ultimi è ignota, cosicchè i relativi prodotti potrebbero essere imprevedibilmente corti. Pertanto, poichè il parametro lunghezza minima, critico per la selezione di ORF potenzialmente corrispondenti a geni, deve prudenzialmente essere impostato sui valori più bassi noti, il numero di ORF da analizzare è alto, anche in considerazione del fatto che i registri di lettura sono 6 e non è possibile operare una selezione a priori tra le ORF sovrapposte. In realtà, il processo di identificazione dei geni, soprattutto negli ultimi anni, si è allontanato dai processi computazionali basati su parametri semplici, poichè ormai le informazioni disponibili riguardano un numero elevato di geni e proteine. Pertanto, un gran numero di sequenze codificanti è identificato per omologia, da programmi che identificano per allineamento regioni con similarità più o meno alta. L'identificazione dei geni in un genoma attraverso il confronto con i geni omologhi di altri genomi (ortologhi) è un esempio di strategia estrinseca. Nei batteri i geni sono spesso organizzati in gene clusters, ovvero insiemi di geni che operano in una stessa via metabolica o di risposta (i singoli geni hanno lo stesso colore sulla base della funzione della proteina codificata, mentre le linee tra una specie e l'altra collegano gli ortologhi). L'organizzazione in cluster facilita l'identificazione dei geni nelle specie appena sequenziate, poichè oltre all'informazione derivante dall'omologia c'è anche una informazione basata sulla posizione:

Non può essere definita una regola per l'utilizzo preferenziale del metodo intrinseco o estrinseco. Anzi, in genere sono utilizzati in combinazione. Un esempio di programma che segue questo approccio è Orpheus, che inizialmente traduce il genoma nei sei registri di lettura, poi identifica un certo numero di sequenze per similarità, combinando l'analisi per omologia con la ricerca delle ORF. Poiché l’incremento nella potenza e velocità dei metodi di sequenziamento e nei mezzi informatici ha reso ormai il sequenziamento e l’analisi di un genoma procariotico un compito affrontabile con costi e tempi molto ridotti, nell’ultimo decennio gli sforzi si sono concentrati soprattutto sul miglioramento della qualità attraverso re-sequencing massivo (quasi sempre con next generation sequencing) e ricerca di escaped (o hidden) genes, ovvero di geni sfuggiti (e quindi nascosti) alle analisi precedenti. Il processo di recupero degli hidden genes spesso è favorito da analisi comparate, ovvero dal confronto tra interi genomi di ceppi o specie affini o anche molto differenti. Infatti, così come gli

errori casuali difficilmente si ripetono nello stesso punto di una sequenza, la mancata individuazione di un gene non è sistematica tra specie diverse e se un gene è conservato, lo si identifica sicuramente. In pratica, se un generico gene “X” è conservato nei batteri ed il gene hidden “XA” non è stato (ancora) individuato nel genoma del Batterio A, molto probabilmente non sarà sfuggito all’identificazione il suo ortologo “XB” nel genoma del Batterio B (oppure “XC” nel genoma del Batterio C ecc...). Il resequencing nei procarioti è fondamentale per realizzare analisi significative. Si deve, infatti, tenere conto della enorme differenza tra il numero di generazioni che intercorre tra il sequenziamento di un genoma e l'analisi quando si lavora con procarioti o eucarioti. Se trovo mutazioni in un paziente affetto da una patologia, il confronto del suo DNA con quello del genoma umano in database ha senso, poichè in Homo sapiens le generazioni si alternano ogni 20-25 anni circa. Consideriamo ora un genoma batterico sequenziato nel 2005. Dopo circa 15 anni, è da considerarsi "vintage", poichè quello dei batteri circolanti ha avuto la possibilità di accumulare un enorme numero di mutazioni dopo tantissime generazioni. Considerando un ciclo di poco meno di 30 minuti, dopo un giorno il batterio è alla 50a generazione (l'equivalente di un millennio per gli umani) e dopo una settimana tra batterio sequenziato e circolante sono passate tante generazioni quanto tra noi e gli antichi Egizi. Dopo anni, la differenza in generazioni per un batterio è comparabile a quella tra i primi ominidi e l'uomo moderno. E' quindi comprensibile quanto siano importanti per qualsiasi progetto le differenze genomiche (e quindi proteomiche) tra i vari "strains" (ceppi) batterici, che possono essere differenti quasi quanto specie.

GENE PREDICTION NEGLI EUCARIOTI Negli eucarioti non ha senso cercare lunghe ORF prive di interruzioni, poichè solo negli eucarioti inferiori (ad es. nel lievito) la maggioranza dei geni non è interrotta da introni; negli organismi superiori i geni con introni sono di gran lunga più numerosi. Inoltre, soprattutto negli organismi più complessi, alcuni esoni possono essere molto piccoli, ovvero codificare pochi aminoacidi, cosicchè una soglia di ORF significativa basata su una lunghezza minima non può essere fissata perchè in tal modo aumenterebbero sia i falsi positivi, consistenti in ORF casuali presenti negli introni (che possono essere molto lunghi) che i falsi negativi (ORF più corte ma corrispondenti ad esoni). Quindi, ove possibile, per gli eucarioti il confronto con altri genomi consente di identificare la maggior parte dei geni: anche nel caso di specie distanti, ove gli ortologhi possono divergere molto, la similarità consente almeno di identificare il locus. Nella caratterizzazione di genomi eucariotici il problema principale non consiste tanto nella "identificazione" dei geni quanto nel chiarirne la struttura genomica precisa. Come per altri approcci in bioinformatica (ad esempio la predizione delle regioni transmembrana in una proteina multipass), gli algoritmi cn alto indice di confidence (affidabilità) possono fallire sui dettagli. In pratica, è relativamente "facile" rendersi conto che una specifica regione contiene un gene, mentre è molto più dificile stabilire "esattamente" i confini tra esoni ed introni. Ad esempio, è noto che gli introni iniziano con GT e terminano con AG. Ovviamente però, una ricerca per GT e AG nel genoma identifica un numero enorme di tali dinucleotidi. Infatti, la presenza di tali nucleotidi è condizione non sufficiente per lo splicing, che richiede anche sequenze consensus prossimali. Ciò ha portato allo sviluppo di matrici di posizione che ponderano la frequenza per taxon per nucleotide in relazione alla posizione circostante il sito di splicing. Il problema è complicato dal fatto che si dispone di dati soprattutto di organismi in cui lo splicing è più studiato, che sono quelli con i genomi già sequenziati; inoltre esistono sequenze non canoniche e alternative di splicing. Errare "di poche basi" a livello di sequenza di DNA può tuttavia avere grosse ripercussioni sulla predizione della sequenza proteica, dal momento che lo slittamento di una o due basi del registro di lettura altera completamente la traduzione della sequenza a valle, cambiando profondamente la predizione della sequenza aminoacidica.

Il confronto tra trascrittoma e genoma di un organismo è fondamentale per identificare la divisione in esoni di molti geni: sia il cDNA completo di un gene che un trascritto parziale consentiranno di identificare tutti o alcuni esoni (Ex) per allineamento e, conseguentemente, le regioni intermedie che non mostrano allineamento sono identificate come introni (In):

Si deve però tenere conto del fatto che i trascritti sequenziati non necessariamente rappresentano tutti i trascritti, poichè in alcuni specifici stadi o tessuti alcuni geni non sono trascritti e quindi i relativi cDNA non sono ottenuti. Inoltre, per il fenomeno dello splicing alternativo, alcuni trascritti possono variare stadio- o tessuto-specificamente. E' per questo che i draft genomici sono continuamente aggiornati: le strutture dei geni vedono man mano comparire nuovi esoni, inizialmente non identificati e poi scoperti grazie all'allineamento con i contig di nuovi trascritti. Per ottenere il massimo potenziale predittivo, si preferisce utilizzare sia metodi intrinseci che estrinseci e confrontare la sequenza del genoma con il trascrittoma e con altri genomi, cercando allo stesso tempo promotori e - nelle traduzioni dinamiche nei sei registri di lettura - pattern e profili di proteine che possano rivelare putativi domini e siti sfuggiti agli altri step analitici. In pratica, il metodo migliore consiste nell'utilizzare molti sistemi di predizione. Poichè tale operazione può essere noiosa (e non è detto che tutti conoscano i metodi da utilizzare) sono stati sviluppati tool come Genotator, che utilizza un approccio integrativo ovvero "lancia" una dozzina di software di analisi e predizione: ORF finding, analisi di similarità, ricerca di consensus di splicing, promotori, pattern e profili di proteine ecc.

Negli ultimi anni si è compreso che è molto importante mettere a punto algoritmi molto precisi di first exon finding e di small exon finding. Gli esoni molto piccoli spesso sfuggono all’identificazione, ma essi possono cambiare drasticamente non solo piccole regioni locali di riconoscimento, ma anche intere regioni, mandandole ad esempio fuori registro. Ad esempio, un piccolo esone di 15 paia di basi, che codifica quindi 5 aminoacidi, può cambiare localmente la struttura di un sito di interazione e perfino influire sul fold; un altro piccolo esone che introduca un codone di stop cambia drasticamente la struttura proteica, così come la cambia un esone di 14 bp, che manda fuori registro tutta la sequenza a valle. Gli algoritmi per l’identificazione di questi piccoli esoni, quindi, non possono basarsi su soglie normali per il ”taglio” delle ORF significativamente lunghe e non devono annullare il rumore prodotto da variazioni minime considerandolo come rumore di fondo.

Vi sono geni in cui numerosi piccoli esoni sono alternativi, cosicchè la sequenza proteica delle varianti può mostrare anche un solo residuo di differenza. Questa variazione locale, se riguarda regioni regolative o siti d’interazione, può ad esempio modulare finemente l’affinità di recettori, canali, enzimi per il substrato ecc. Inoltre, è fondamentale individuare siti criptici di splicing e siti di inizio della trascrizione (TIS) alternativi. In pratica, molto spesso quello che viene considerato primo esone sulla base della presenza di una regione canonica 5’-UTR e/o della prima parte della sequenza codificante potrebbe presentare a monte un esone criptico alternativo. In altri casi, in aggiunta alla variazione per splicing dovuta a siti canonici di splicing, le varianti possono essere prodotte solo in alcuni tessuti, attraverso il riconoscimento di consensus subottimali da parte di subunità del macchinario di splicing espresse solo in tali tessuti. Infine, ulteriore variazione è prodotta per la capacità dei ribosomi di iniziare la traduzione sia dai TIS canonici che da TIS alternativi, nonché di reiniziare la traduzione* producendo più polipeptidi dallo stesso trascritto. (*nota di genetica/biologia molecolare: il reinizio della traduzione esiste in natura come "meccanismo di recupero": in caso di mutazioni che determinano il troncamento prematuro della traduzione, il reinizio consente di ottenere proteine tronche nella parte iniziale, talora completamente attive, o attive almeno in parte) Esistono software integrati e sempre più evoluti per definire correttamente la complessa struttura dei geni umani e degli organismi superiori. Ad esempio, ASPIC ottimizza la predizione delle varianti di splicing superando il tradizionale approccio basato solo su blast grazie all’integrazione di algoritmi di analisi dei consensus di splicing. Come sempre, i risultati migliori si ottengono attraverso approcci integrativi, ovvero i metodi che considerano sia le caratteristiche della sequenza che il confronto tra genoma, trascrittoma e con altre specie. Si può comprendere perchè il lavoro di identificazione dei geni in pratica non termina dopo il sequenziamento e le prime analisi e porta di conseguenza ad una serie di draft in cui le informazioni divengono man mano più precise e complete, accompagnate da una sempre maggiore completezza e qualità dell'annotazione, ovvero dell'insieme delle informazioni relative agli elementi del genoma. L’identificazione di geni che codificano proteine o portano alla sintesi di RNA ribosomiali e transfer, si accompagna alla ricerca degli elementi regolativi, quali promotori ed enhancer. La ricerca combinata favorisce l'identificazione, poichè ad esempio se si individuano tipiche regioni regolative al 5' di un gene è ragionevole attendersi che al 3' di tali regioni vi sia appunto un gene, e viceversa. Negli ultimi anni si è rafforzato l’interesse per gli elementi che specificano i miRNA, coinvolti nella regolazione dell'espressione genica, nonché per le sequenze ripetute e di origine trasposonica (delle quali è disponibile una trattazione breve nella dispensa di supporto). Il continuo aggiornamento dei draft è il frutto del contemporaneo lavoro di analisi bioinformatica e del flusso di informazioni che giungono dal mondo sperimentale (sequenziamento di nuovi cDNA, mutanti, varianti di splicing, caratterizzazione di geni, elementi regolativi, prodotti proteici ecc.). Inevitabilmente, quindi, l'annotazione mescola dati verificati sperimentalmente con predizioni più o meno valide. Ciò rappresenta una risorsa, poichè i dati sperimentali (cio che è) sono complementati con "ciò che potrebbe essere" e spesso proprio le predizioni sono utili per indirizzare le ricerche. Resta in ogni caso fondamentale indagare sulla natura di ciascuna definizione, di ciascun dato, poichè non sempre ciò è chiaramente indicato. Prendere per dato sperimentale una predizione può indirizzare scorrettamente una ricerca, poichè non si deve mai dimenticare che le predizioni, per quanto possano essere generate da un predittore molto affidabile, restano tali, in quanto predittori con affidabilità 100% non esistono. E' inoltre presente nei database una quantità crescente di dati ridondanti o errati, ovvero annotazione deduttiva derivante da deduzioni errate, spesso frutto di algoritmi definiti potenti poichè capaci di generare molti dati, ma non per questo validi (quantità non vuol dire qualità, anzi, spesso è vero il contrario...).

Molti errori di deduzione derivano dal confronto per omologia. Prendiamo ad esempio le definizioni "-like" che riguardano molti geni e proteine. Se diamo per scontato che un gene definito "kinase-like" codifichi una protein chinasi, siamo in errore. Tale "etichetta", infatti, potrebbe essere stata attribuita sulla base della similarità (magari alta) senza verificare quale fosse la regione omologa. Poichè molte chinasi hanno anche altre regioni, oltre al dominio catalitico, può accadere ad esempio che un recettore mostri similarità di sequenza con il dominio extracellulare di una chinasi recettoriale, venendo definito per questo "kinase-like" pur avendo similarità 0% con il dominio chinasico:

Casi del genere (per qualsiasi tipo di definizione, non solo per le chinasi) sono abbastanza diffusi, soprattutto quando l'annotazione è generata automaticamente o curata da informatici bravissimi, ma poco familiari con geni e proteine. Dunque, è sempre opportuno verificare (ad es. usando la sequenza "kinase-like" come sonda in blast per evidenziare quali siano le regioni di similarità) prima di utilizzare le informazioni derivanti dall'annotazione per indirizzare il proprio lavoro. Ovviamente il rischio di imbattersi in false informazioni riguarda anche blast, cosicchè è necessario accertarsi che le regioni di similarità riguardino un gene o una proteina di funzione verificata sperimentalmente.

© Francesco Filippini, 2011-2020

assemblaggio e finishing dei frammenti sequenziati assemblaggio di contig e di … · 2019. 4....

Documents