Vous êtes sur la page 1sur 44

ANALISI DI SEQUENZA

L'analisi di sequenza un modo di organizzare le sequenze primarie di DNA, RNA,


proteine per identificare regioni di similarit, conseguenti a relazioni funzionali, strutturali o
evoluzionistiche tra di esse. Le sequenze allineate sono rappresentate come righe in una
matrice. Sono inseriti dei gap tra i residui, cos da ottenere il pi alto numero possibile di
nucleotidi/amminoacidi identici o simili allineati in colonne successive.
ADC-NY-RQCLCR-PM
AYC--YNR-CKCRDP
AYCYN--R-CKCRDP
Dot plot
Il metodo pi semplice per allineare 2 sequenze di lunghezza n ed m, quello di costruire
una matrice di grandezza n per m, e di segnare con un simbolo tutte le posizioni della
matrice in cui c' identit tra i nucleotidi. In questo modo possibile, ad occhio, notare il
livello di similariet tra le sequenze, e in particolare i tratti completamente identici appaiono
come linee oblique di 45, spezzate in corrispondenza dei gaps.
Tuttavia, questo metodo chiamato dot plot, non un vero e proprio algoritmo capace di
darci un risultato, in quanto si limita soltanto a costruire, appunto, una matrice di punti, e
poi sta all'operatore identificare queste "linee", cosa che pu diventare molto complicata a
causa del grande rumore di fondo che pu crearsi in alcuni casi.
Needleman Wunsch
Questo algoritmo costruito come un dot plot, ma invece di segnare un simbolo in caso di
identit assegna un punteggio positivo +1, e in caso di mismatch 0. Il punteggio della
casella X dipende dalla riga e dalla colonna che convergono nella casella in basso a
destra rispetto ad X.
X
0120300
1
0
0
In questo caso la cella a punteggio pi alto quella con il 3. Se in X c' un match si
sommer 1 + 3 e scriveremo 4, se invece c' un mismatch sar 0 + 3 e quindi ancora 3.
Se il punteggio non proviene dalla casella direttamente in basso a destra rispetto ad X, e
quindi direttamente dalla diagonale, vuol dire che stato introdotto un gap. Poich
consideriamo l'intera riga e l'intera colonna, vuol dire che possiamo introdurre un gap di
qualsiasi dimensione, senza differenze.
Questo tipo di allineamento valido per quelli di tipo globale.

PROBLEMA
L'algoritmo Needleman Wunsch considera in ogni punto la possibilit di inserire un gap e
di estenderlo. L'introduzione di un gap per non sfavorita dal sistema di punteggio. Questo
significa che si possono inserire tutti i gap possibili al fine di ottenere il punteggio pi alto
possibile. Questo non biologicamente sensato, perch data la bassa frequenza di
mutazioni, e la necessit di mantenere una certa sequenza per conservare la funzionalit
della proteina, l'allineamento migliore dovrebbe essere quello con il pi basso numero di
gap, e in generale la presenza di un gap dovrebbe essere sfavorita.
Smith Watermann
Il punteggio della casella X dipende da quelle adiacenti ad essa, e cio da quelle a
sinistra, sopra e in alto a sinistra. Nel modello pi semplice all'identit viene assegnato il
punteggio +1, al mismatch, invece, +0.
1 0

0 0

0 1

0 X

1 X

0 X

Questi sono i 3 casi principali che possono capitare. Nel primo caso il punteggio pi alto
proviene dalla cella in alto a sinistra per cui nel caso in cui nella cella X sar presente
un'altra identit il suo punteggio sar 1+1 e cio 2. Inoltre le 2 celle sono allineate in
diagonale e ci significa che in quel tratto di 2 nucleotidi, questi sono presenti nello stesso
ordine su entrambe le sequenze, cio la diagonale ha lo stesso significato che nel dot plot.
Nel secondo caso il punteggio pi alto proviene da sinistra, e ci significa che nella
sequenza di sinistra presente un gap, e cio come nel caso in cui la diagonale si
spezzasse orizzontalmente. I gap sono penalizzati e perci si sottrae 1 al punteggio di X.
Nel terzo caso il gap, per lo stesso motivo, presente nella sequenza annotata sopra.
Man mano che si completa la matrice, le celle acquisiscono un punteggio via via pi alto
se l'identit viene mantenuta, mentre invece il punteggio scende con i gap e man mano
che questi vengono estesi. Alla fine si procede a ritroso, e cio partendo dalla casella a
punteggio pi alto (sempre in basso a sinistra della matrice) si ripercorre al contrario la
matrice fino al punteggio pi basso: dalla casella X ci si sposta a quella a adiacente a
punteggio = X o = X - 1. A mano a mano che si procede, si riscrivono le 2 sequenze
allineate: lo spostamento in diagonale significa che le sequenze sono gi allineate, con lo
spostamento verso sinistra si deve aggiungere un gap nella sequenza a sinistra, e nello
spostamento verso l'alto un gap nella sequenza in alto.
Questo tipo di algoritmo adatto ad un allineamento di tipo locale.
PROBLEMA
L'algoritmo Smith-Watermann risolve il problema dei gap assegnando ad essi una
penalit. In questo modo, per, se immaginiamo un tratto di similariet successivo ad una

zona di mismatch o a un gap molto esteso, questo sar penalizzato, in quanto la zona
precedente avr cos abbassato il punteggio, che i punti riacquistati non saranno sufficienti
a farla notare. Quindi un primo miglioramento introdotto in questo algoritmo stato quello
di impedire al punteggio di ottenere valori negativi, cos che non scenda mai al di sotto
dello zero, anche se la dissimilariet continua. In questo modo le zone simili emergono
come tratti a punteggio positivo.
Questo tipo di algoritmo che individua, appunto, piccole zone di similariet adatto ad
allineamenti di tipo locale.
PROBLEMA
Gli algoritmi descritti sono capaci di individuare le identit e di valutare i gaps. In realt
bisogna tener conto che non tutti i mismatch sono deleteri. Per prima cosa se si stanno
confrontando 2 sequenze nucleotidiche codificanti non detto che una sostituzione cambi
l'amminoacido codificato, inoltre le transizioni (sostituzioni purina-purina o pirimidinapirimidina) sono pi frequenti rispetto alle trasversioni (purina-pirimidina e viceversa). Se
invece si considerano sequenze di amminoacidi, bisogna tener conto del fatto che essi
hanno un certo grado di similariet tra loro polare o sterica. Ad esempio sostituire un acido
glutammico con un acido aspartico non la stessa cosa di sostituirlo con un triptofano, in
quanto nel primo caso l'Aa sostitutivo ha comunque carica negativa netta, mentre il
triptofano altamente idrofobico e a grande ingombro sterico, quindi funzionalmente ha un
ruolo totalmente diverso.
Matrici di comparazione
Le matrici di comparazione permettono di valutare meglio i match nella matrice, e di
sorpassare il concetto di identit/diversit, tenendo conto del fatto che gli amminoacidi tra
loro hanno una certa somiglianza e quindi possono essere intercambiati con una certa
probabilit senza stravolgere la funzione della proteina.
Le pi utilizzate sono le matrici PAM e le Blosum.
Le matrici PAM (percent accepted mutation) sono basate sulla frequenza con cui un
amminoacido viene sostituito con un qualsiasi altro in gruppi di proteine
evoluzionisticamente conservate. I punteggi pi alti sono ottenuti per gli amminoacidi
conservati, pi di tutti la cisteina, che coinvolta l'unico amminoacido che pu formare
ponti disolfuro, importantissimi per la struttura proteica. Da una matrice PAM se ne
possono estrapolare altre moltiplicando ogni valore per s stesso.
Le Blosum funzionano in modo simile, ma utilizzano gruppi di proteine pi "lontani", o
meglio che superano una certa percentuale di similariet.
PROBLEMA
I metodi precedenti mantengono il numero di confronti pi basso possibile e cio n per m.
Con questo sistema si consideravano tutti i confronti possibili, ma 1 sola volta e quidi non
si perdevano dati. Questo ottimo quando si confrontano tra loro numeri di sequenze

bassi o sequenze corte. Quando, invece, si ha a che fare con ricerche in database,
bisogna ottimizzare i tempi in cui si ottengono i risultati, perch anche se si restringe al
minimo il numero di confronti (n x m) dato che si confronta la stessa sequenza con diverse
migliaia, anche un tempo molto breve e accettabile per pochi allineamenti diventa
estremamente lungo per database.
Algoritmi euristici
L'algoritmo di tipo euristico un algoritmo la cui soluzione non quella ottima per un dato
problema, ma viene scelto come strada per affrontare problemi molto difficili, perch riesce
a ricavare una soluzione approssimativamente molto vicina a quella ottima. Il vantaggio
spesso sta nel fatto che offre una soluzione disponibile in tempi ragionevoli, mentre il
"metodo ottimo" impiegherebbe troppo tempo.
Tipicamente riguardo l'allineamento di sequenze, gli algoritmi euristici si basano sulla
word-size. Settare la word-size significa preindicizzare la sequenza, solitamente
settandola a 2 Aa o 6 paia di basi. In questo modo la sequenza amminoacidica non viene
confronta amminoacido per amminoacido, ma a gruppi di 2, dimezzando la lunghezza
delle sequenze e praticamente riducendo a 1/4 il numero di confronti (n/2 * m/2 = nm/4).
Gli algoritmi euristici pi utilizzati sono FASTA e BLAST.
FASTA individua zone di similariet, le "recinta", cio individua i limiti della zona e su
questa applica un algoritmo di allineamento tradizionale. Questo sistema adatto per
allineamenti locali.
BLAST ricerca high-score segments, cio segmenti con allineamenti molto buoni, e
partendo da questi prova ad estenderne le estremit per allargare la zona di similariet.
Questo approccio valido per allineamenti locali.
PROBLEMA
I precedenti metodi sono capaci di allineare 2 sequenze, mentre talvolta potrebbe essere
utile confrontare tra loro gruppi di queste.
Clustal
E' il programma di allineamento multiplo pi semplice. Questo allinea le sequenze a 2 a 2,
risolvendo tutti gli allineamenti doppi possibili, poi procede a una clusterizzazione, e cio
raggruppa, sempre a coppie, le sequenze tra loro pi vicine e questi cluster tra loro, fino a
costruire un albero.
PROBLEMA
Le matrici di comparazione non tengono conto della posizione di un dato amminoacido
all'interno di una sequenza. L'esempio pi facile quello dell'istidina legante l'02 nella
emoglobina. Se uno considera le matrici pam, l'istidina ha alcuni punteggi, relativamente
"flessibili", ma ovvio che nell'emoglobina, conservare l'istidina legante l'ossigeno di
importanza fondamentale altrimenti la molecola perde la sua funzione. Quindi sostituire

l'istidina in quel punto dovrebbe comportare una penalit di gran lunga pi grande che
sostituire una cisteina, che in genere l'Aa pi conservato, nella stessa proteina.
Matrici di pesi - Weight Matrix
Sono costruite analizzando tot casi di varianti allineate di una stessa proteina. Per ogni
posizione nella catena di analizza la frequenza con cui presente l un certo
amminoacido, la somma delle frequenze percentuali di tutti gli amminoacidi in quella
posizione da' sempre 100.
sequenza proteica
|----------------------20|
Aa|
| weight | matrix | |
Le frequenze relative sono sostituite in modo logaritmico. Questo sistema ottimo non
solo per siti conservati in proteine ma anche per i siti di splicing e in genere tutte le
strutture non definite.
Psi-blast utilizza un sistema simile cio le position-specific scoring matrix: a partire da una
query psi-blast, tramite blast, recupera da un database un set di risultati, servendosi
inizialmente di una matrice blosum. Sulla base di questi risultati costruisce le PSSM, e le
utilizza come matrici di comparazione per rifinire il set ottenuto, ripetendo l'operazione n
volte, fino a raggiungere un punto oltre il quale ottengo sempre lo stesso pool di risultati.
PROBLEMA
Anche questo tipo di matrici non sufficiente, perch tiene conto di gruppi ristretti di
proteine che sappiamo essere relazionati tra loro, mentre, in genere, in tutte le proteine
anche non correlazionate per funzione possiamo riconoscere dei PATTERN, dei motivi,
che sono comuni a tutte, come, ad esempio, le alfa eliche e i foglietti beta, oppure
combinazioni di questi, e domini. Oppure, semplicemente, possiamo non conoscere
proteine simili alla nostra e quindi essere sprovvisti del pool sul quale costruire le nostre
matrici di pesi.
Pscan
Pscan confronta la sequenza della propria proteina query alla ricerca di motifs, domini,
elementi, pattern presenti nel database PRINTS.
La proteina viene, quindi, descritta come una sequenza di motifs ed elementi, che nel loro
insieme costituiscono il loro finger print, la signature caratteristica.
Se i "match", cio i motif individuati, sono presenti tutti e nell'ordine corretto, allora la
proteina della query molto probabilmente ortologa o la stessa di quelle ritrovate nel set di
risultati.
Se i motifs sono presenti ma alcuni di questi sono nella posizione scorretta, possiamo

pensare che le 2 proteine siano originate per aggregazione di blocchi differenti.


Se il risultato misto, cio con solo alcuni motifs in comune, possiamo pensare che dato
che condividono strutture simili queste strutture avranno una funzione simile, ma, ad
esempio, difficile supporre l'appartenenza di queste proteine alla stessa famiglia.
PROBLEMA
Pscan confronta la sequenza con una serie di motivi, appartenenti a proteine. Il sistema
potrebbe essere migliorato se le informazioni di proteine appartenenti a una stessa
famiglia fossero unificate in un database, cos che una ricerca del genere ci possa dire a
quale di queste famiglie la nostra proteine assomiglia di pi.
Pfam (Protein families database of alignments and HMMs)
Pfam un database che nel suo servizio di ricerca permette di confrontare la nostra
sequenza non con altre singole proteine, ma con intere famiglie, cos le informazioni
ottenute sono molto pi snelle e si pu sapere subito se la proteina analizzata mostra
caratteristiche affini a gruppi gi definiti, inoltre, ovviamente riconosce le strutture
secondarie, domini, domini nidificati, regioni transmembrana, coiled coil, peptidi segnale.
Inoltre questo database fa utilizzo di schemi HMM per descrivere le proteine e
confrontarle.
PROBLEMA
Nelle matrici di pesi non si teneva conto della posizione degli amminoacidi in una certa
posizione, ma non quelli prima o dopo quella posizione, e nemmeno si considerava
limportanza di gap allinterno della sequenza.
Schema HMM
Lo schema HMM (hidden markov model) descrive la proteina come una successione di
eventi, le catene di markov, infatti, servono a dire con che probabilit si passa da uno stato
precedente a quello successivo. La propriet di markov prevede che dato lo stato
presente, tutti gli stati futuri sono indipendenti dagli stati passati. Questo significa che lo
stato presente contiene tutte le variabili necessarie a influenzare levoluzione del processo.
In questo modo si descrive la proteina rispetto ad unaltra come una successione di eventi,
o stadi, che sono del tipo amminoacido, inserzione, e delezione.
Levento amminoacido si verifica quando le 2 sequenze in quella posizione coincidono.
Linserzione c quando la nostra sequenza presenta un Aa aggiuntivo che non presente
in quella di confronto, e tale evento pu essere ovviamente iterato nel caso linserzione sia
pi lunga. La delezione c quando in quella posizione dovrebbe esserci un Aa che nella
nostra sequenza invece non c, levento in s non pu essere ovviamente iterato (non si
pu deletare 2 volte lo stesso amminoacido), ma la delezione pu essere allargata.
Un evento come la sostituzione amminoacidica descritta, ad esempio, cos: si parte
dallevento Aa1, poi segue una inserzione (evento I1), e poi la delezione dellamminoacido
successivo (D2), per poi ritornare di nuovo allidentit di sequenza Aa3.
MODELLING

Base del Modelling


Il modelling di proteine consiste nel ricostruire la presunta struttura terziaria di queste, sulla
base delle loro struttura primaria.
Una di queste tecniche lhomology modelling, che si basa sullomologia tra proteine: 2
proteine sono omologhe quando sono evoluzionisticamente correlate e quindi condividono
un antenato, e solitamente ci dimostrato dal fatto che hanno un alto grado di similarit
nella loro sequenza primaria. Poich si presume che la struttura terziaria di una proteina, e
quindi il suo organizzarsi nello spazio, dipende direttamente da quella primaria, si pu
pensare che proteine dalla sequenza amminoacidica simile abbiano una conformazione 3d
simile.
Struttura
Struttura
primaria = primaria
proteina 1
proteina 2
|
|
V
V
Struttura
Struttura
terziaria = terziaria
proteina 1
proteina 2
Quindi, per esempio, se volessimo creare un modello approssimativamente buono per la
struttura terziaria della proteina 2 di cui conosciamo la sequenza, lhomolgy modelling ci
permette fare questo nel momento in cui conosciamo la sequenza della proteina 1, simile
alla 2, e la sua struttura terziaria tramite cristallografia a raggi X.
PDB Protein data bank
PDB una banca dati di strutture 3D di proteine ed acidi nucleici, soprattutto RNA. Anche
gli acidi nucleici assumono una conformazione tridimensionale, si pensi, a proposito, alla
struttura dei tRNA o la struttura che assume il cromosoma ai telomeri.
I file di PDB sono del tutto analoghi a quelli di una banca dati di sequenze di acidi nucleici,
quindi sono dei testi con un tag iniziale che contraddistingue il tipo di informazione data,
un rigo, un altro tag e il n di riga.
Le informazioni reperibili a parte generalit come gli autori, specie e commenti sono la
sequenza, e su questa informazioni sulla struttura secondaria come tratti ad alfa-elica,
beta-sheet, turn (struttura a 4Aa che fa cambiare di 180 direzione alla catena) e poi il vero
e proprio punto centrale del database e cio lannotazione della posizione spaziale di tutti
gli atomi della proteina, con specificazione dellelemento atomico, Aa di appartenenza, e
ovviamente coordinate. Sono descritti anche eventuali eteroatomi, cio atomi che non
fanno parte della proteina in s ma si legano ad essa, come ad esempio il gruppo eme o
ioni; e molecole di H2O che sono essenziali nel mantenimento della struttura del cristallo.
Esistono poi del tools capaci di utilizzare questi dati per generare la struttura 3D come iMol

e Spdv. Questi forniscono vari modi di visualizzarla, tra cui il wireframe che evidenzia solo i
legami tra gli atomi, o il backbone che mostra solo lo scheletro dei legami peptidici.
Homology modelling e allineamento di sequenze
Lhomology modelling basato sul fatto che data la similarit di 2 strutture primarie, si
otterr similarit anche a livello delle strutture terziarie. Quindi per ottenere qualcosa di
significativo necessario che le 2 strutture primarie siano effettivamente simili, e ci
stabilito tramite lallineamento di sequenza. Quindi laccuratezza del modelling dipende
direttamente dallottimizzazione dellallineamento della proteina target con le altre
omologhe.
Alla fine le 2 proteine avranno un backbone in larga parte sovrapponibile.
Superposition vs alignment
Lhomology modelling non comunque un metodo infallibile. Possono esserci casi rari per
cui sequenze anche se molto diverse ripiegano nello spazio allo stesso modo. Ci significa
che poi lallineamento ottimale ottenuto dai software descritti precedentemente non poi
quello rispecchiato nel vero. Questo pu accadere per proteine omologhe ma molto
distanti evoluzionisticamente, per cui lallineamento di sequenza d un risultato scadente.
Casi come questo sembrano inficiare il presupposto per cui le strutture primarie siano
predittive di quelle terziarie.
Sono comunque casi rari, ma probabili. Dal punto di vista evolutivo, quellallineamento,
anche se scadente, fatto bene, nel senso che rispecchia effettivamente le mutazioni
accadute, ma dal punto di vista dellattivit proteica, non importante tanto la sequenza
ma piuttosto il folding generale, poich da quello che scaturisce la funzione.
Quindi poich il mantenimento della funzione di importanza primaria, non importa che un
determinato amminoacido abbia la stessa funzione in tutti gli step evolutivi, e quindi se per
esempio in una certa proteina antenato fa parte di un alfa-elica, non detto che in una sua
discendente debba comunque farne parte, limportante che quellalfa-elica sia
conservata: la conservazione della struttura pi importante della conservazione della
sequenza. In casi come questo opportuno ricorrere al metodo di sovrapposizione delle
strutture. In questo tipo di strategia si fanno coincidere spazialmente 2 amminoacidi di 2
proteine e si verifica il grado di overlap dei modelli 3d.
Position specific gap penalties
Sequence alignment Mostra ci che accaduto evoluzionisticamente
Gktlit-----nfsqehip
Gktlisflyeqnfsqehip
Structure alignment Mostra com che accomodato strutturalmente

G|ktlitnf|sq-----ehip
G|ktlisfl|yeqnfsqehip
|-helix|
Questo tipo di esempio permette di approfondire il concetto di prima che molto
importante. Come si pu notare le 2 sequenze differiscono per uninserzione (flyeq), e ci
ben evidente dallallineamento di sequenza. Ora noi ci aspetteremmo che
quellinserzione venga trattata come un loop, ossia come un tratto di catena addizionale
senza un preciso ripiegamento in mezzo a 2 tratti che invece conservano in entrambe le
sequenze la stessa struttura, ma non cos: se si va a verificare a livello di struttura come
quellinserzione stata accomodata, si pu notare che alcuni degli Aa della precedente
alfa-elica non ne fanno parte pi, e il loro posto stato sostituito da quelli dellinserzione.
Quindi a livello di struttura stato preferibile conservare la presenza di unalfa elica di una
determinata lunghezza indipendentemente dagli amminoacidi che la componevano.
Questo possibile perch come se esistesse un pool di Aa compatibili con la
formazione di unalfa elica e quindi, poich pi importante la struttura, non importa quali
Aa siano scelti per comporla, purch siano tra quelli facenti parte del pool.
Un discorso simile possibile farlo per i loops, che, dato che non hanno un ripiegamento
rigido da rispettare, possono accettare inserzioni e delezioni di vari amminoacidi senza
che poi il folding ne risenta particolarmente.
Ne consegue quindi che considerare una penalit generica per i gap non ha senso
biologico, ma si deve tener conto di informazioni sulla struttura, poich da questo punto di
vista inserzioni o delezioni (indels) nei loop hanno molto meno peso che nelle strutture
secondarie.
Diventa perci necessario introdurre penalit posizione-specifica per i gap, questo, qualora
si conoscesse i tratti con ripiegamenti particolari, pu essere fatto con la semplice
implementazione di mask di strutture secondarie in clustal, o spostando manualmente i
gap fuori da questi tratti. Laddove invece non si conoscano a priori queste informazioni, ci
sono programmi capaci automaticamente di stimare la probabilit di sequenze di ripiegarsi
in strutture secondarie in base alla loro composizione.
Ma comunque nella totalit dei casi, ormai, tutti gli ultimi software di allineamento multiplo
supportano queste cose.
Homology modelling process
Lhomology modelling passa per alcuni step, che sono molto simili tra software diversi:
Si parte ovviamente dalla sequenza target, che viene confrontata con quelle di una
genebank non ridondante con strutture annotate, questa procedura di search viene
effettuata da un programma come per esempio psi-blast. Dal search otteniamo 2 tipi di
dati: le sequenze omologhe e le sequenze omologhe di cui conosciamo la struttura. A
questo punto si procede allallineamento multiplo di queste per esempio tramite clustal, t-

coffee e il file ricavato viene elaborato dal modulo di modelling vero e proprio basandosi
anche su database di strutture. Essenzialmente il backbone della nostra proteina target
sar molto simile a quello delle sue omologhe, per cui il programma pu basarsi, magari,
sulla media di questi backbone e ottimizzare via via questa struttura di base. Questo
modello viene completato tramite laggiunta di ligandi, substrati e aggiustando le zone
dissimili con le proteine omologhe variando leggermente la struttura in maniera da ottenere
la maggiore sovrapposizione possibile. Tale operazione fatta trattando le strutture
secondarie come elementi stabili concatenati da loop flessibili, quindi spostando gli
amminoacidi alle estremit (tip) di alfa-eliche, ecc si pu variare il folding generale entro
certi limiti. In questo modo si cercano di evitare angoli di legame troppo stretti, defidendo al
meglio proprio i loop, che sono le strutture meno definite. In genere si cerca di fare
unoperazione di smoothing del backbone, e cio di accomodare al meglio la struttura,
evitando tutte le situazioni di costrizione della struttura.
Il modello completo viene sottoposto a una fase di analisi per valutarne lattendibilit. La
valutazione della qualit del modello si basa ovviamente sulle sorgenti di errore e di
inaccuratezza pi frequenti e queste sono la correttezza dellallineamento multiplo, che
lo step limitante per eccellenza dellhomology mod; il numero di strutture temprato gi
conosciute disponibili, e i loop non-conservati.
Tra i software specifici per lhomology mod ci sono swiss model, modeller ma anche molti
altri sia free che commerciali, tutti ugualmente validi nello svolgere questo lavoro.
Un programma come questi organizzato a moduli ognuno con un compito diverso, per
esempio Swiss model affida la procedura di search a blastp2, lalignment a sim, poi crea i
file per protmod e protmodll genera le strutture 3d, infine gromos96 fa un lavoro di
minimizzazione energetica della struttura, per cui modifica il folding in modo da ottenere la
conformazione energeticamente pi favorita.

Applicabilit
Il modello ricavato tramite homology modelling non equivale a quello ricavato per
cristallografia, quindi nulla ci assicura che esso sia il vero ripiegamento che la proteina
assume in vivo, ma piuttosto pu essere pi o meno vicino ad esso, e ci sono alcuni casi
in cui veramente molto affidabile. Ovviamente come se fosse un metodo euristico e
cio non ottimale ma ragionevolmente buono per ottenere con poche risorse e poco tempo
una soluzione al problema della determinazione delle strutture 3d.
Dato che non possiamo essere sicuri dellequivalenza del modello ricavato per hom mod
con quello vero, ne consegue che dobbiamo stare attenti a non abusare del sistema per
ricavare informazioni che non si possono ottenere da esso.
Lhomology modelling serve a mappare informazioni da una sequenza allineata nello
spazio, ma non pu essere utilizzato per predire la struttura di una proteina. In questo
senso possiamo ottenere 3 tipi principali di modello:
Modelli basati su allineamenti incorretti ma i cui errori non sono localizzati in aree di
interesse primario.

Modeli basati su allineamenti corretti ma con accuratezza bassa o media a causa di


templati scarsi o sequenze a basso livello di omologia tra loro.
Modelli con pi del 70% di identit, dimostratisi utili in applicazioni sperimentali come
design di farmaci.
Il fatto che si siano dimostrati pi o meno utili non vuol assolutamente escludere che si
tratti di strutture sbagliate, inoltre si pu facilmente notare, ancora una volta che
lallineamento di sequenze riveste un ruolo fondamentale nel processo.
Le strutture ricavate per hom mod non possono essere utilizzate per:
Modellare propriet non verificabili
Analisi di geometria di modelli
Interpretare loop vicini tra loro o gli indels
Infierire larrangiamento di domini
Infierire strutture di complessi proteici
Tutto ci non si pu fare sempre per lo stesso motivo e cio che lhom mod non capace
di fornire un risultato accurato, n predice con precisione sperimentale la struttura. Tali
studi possono essere fatti solo su modelli ricavati da cristallografia.
FMODELS
E un database che archivia anche strutture prodotte da homology modelling e non solo
quelle derivate da cristallografia. Questo vuol dire che la tecnica ritenuta abbastanza
affidabile da archiviarla e da utilizzare come modello di partenza sempre e comunque
consapevoli che si tratta di una probabile struttura e non di veri e propri modelli come
quelli di PDB che sono supersperimentali.
THREADING
In caso non sia disponibile nessuna proteina omologa, mancano i dati necessari per
sfruttare lhomology modelling, bisogna, quindi, utilizzare qualche altra strategia e una di
queste il threading o fold recognition.
Confrontando la nostra sequenza con altre non omologhe a fold conosciuto, calcola,
assegnando uno score, la probabilit con cui il nostro target pu ripiegarsi allo stesso
modo. Ovviamente tale sistema funzionale solo per parti piccole della proteina.
SECONDARY STRUCTURE PREDITION
Potrebbe capitare che anche il threading fallisca nel suo compito e che quindi non si
ottengano score decenti riguardo la nostra sequenza. In questi casi si pu ricorrere al
riconoscimento di pattern riguardo le strutture secondarie, basandosi su tutte le nozioni di
chimica organica e biochimica.
Il punto di partenza il backbone, che costituito dalla sequenze dei legami peptidici della
catena. Questi sono organizzati come 2 piani planari successivi orientati rispetto a 2 angoli
(phi e psi), in una proteina non possono assumere tutte le combinazioni possibili a causa
anche della presenza delle catene laterali caratteristiche dellamminoacido. Se infatti
analizziamo la frequenza di distribuzione degli angoli di legame nella proteina notiamo che
questi clusterizzano in 2 zone tipiche che corrispondono a quelli tipici delle strutture ad alfa

elica e beta sheet. Ovviamente il numero di alfa-eliche possibili limitato e quindi limitato
anche il numero di angoli compatibili con essa, quindi in generale il numero di strutture
grande ma finito e ogni struttura ha una sua frequenza. Grazie a ci possibile ottenere
una predizione di strutture secondarie (alfa-eliche, beta-sheet, turns, random coils, ecc.).
Altri parametri tenuti in conto nella SSP sono la frequenza di certi amminoacidi allinterno
di determinati fold, lidropatia e cio la preferenza di certi amminoacidi di trovarsi sulla
superficie o allinterno della struttura per la loro polarit e affinit con lacqua, la carica,
tratti transmembrana.
AB INITIO PREDICTION
Le tecniche qui descritte cercano di predire la conformazione della proteina a priori, cio
basandosi puramente su principi e dinamiche chimico-fisiche generali e conosciute, senza
ricorrere al confronto della sequenza con altre ad essa simili. Quindi come se le variabili
necessarie al folding della proteina siano gi contenute nella sua sequenza, e in effetti
proprio cos, ma queste sono molteplici e interagiscono cos complessamente tra loro che i
nostri tentativi di riprodurre tali meccanismi possono riuscire solo parzialmente. Pertanto
sono sicuramente meno efficaci di una strategia come lhomology modelling. In genere
quello che tentano di ottenere questi programmi ricercare, a mano a mano che si
procede con il calcolare il fold, la struttura a pi basso livello energetico. Quindi il
programma procede per step e a ogni bivio possibile si crea una ramificazione delle
possibilit di ripiegamento, costruendo man mano una struttura ad albero. Pu sembrare
dispersivo ma non cos, perch progressivamente con la definizione della struttura, ogni
scelta di fold ne impedisce alcune e apre la strada solo ad certe altre.
Tale metodo, , come gi detto, meno affidabile rispetto allhomology modelling ma pu
essere utilizzato molto validamente proprio per rifinire quelle strutture semi-definite che si
ottenevano da questo.
GENE MINING
SEQUENZIAMENTO
In genetica sequenziare significa ottenere la struttura primaria di un frammento di DNA.
Conoscere la sequenza in s non serve a nulla, per costituisce un ottimo punto di
partenza, perch questa costituisce la struttura di base su cui si trovano i geni, regioni di
regolazione, ecc. Tutte le informazioni sono codificate l, quindi partendo dalla sequenza si
pu poi cercare di trovarle.
Quindi il sequenziamento non ha senso se non affiancato dall'annotazione, ossia dallo
svelare sulla sequenza, di per s, codificata, tutte le informazioni che contiene come
posizione e struttura di promotri, enhancers, introni, esoni, ecc.
Le migliorie tecnologiche introdotte negli ultimi decenni ci hanno permesso di sequenziare
in maniera sempre pi rapida ed efficiente, per cui ora non si dispone pi di singoli
frammenti di DNA, ma si conosce la struttura primaria di interi genomi, di numerosissimi
organismi modello.
Le informazioni annotate sulla sequenza poi costituiscono un'importantissima risorsa

ancora pi preziosa perch sono il necessario supporto alla progettazione di esperimenti.


TECNICHE DI SEQUENZIAMENTO
La tecnica di sequenziamento essenzialmente 1, ossia il metodo Sanger e le sue
evoluzioni. Ad oggi si stanno progettando numerosi altri metodi capaci di velocizzare ed
economizzare il sequenziamento in maniera da rendere disponibile questa tecnica ai
singoli individui, ma in sostanza il metodo utilizzato a scopo di ricerca ancora quello della
terminazione di catena.
La versione classica prevede l'uso di single-strand DNA templato (solo quello codificante o
solo quello stampo), 1 solo DNA primer (si sequenzia in UNA SOLA direzione), nucleotidi
di cui 1 marcato radioattivamente, ovviamente DNA polimerasi, buffer, ecc ma soprattutto
dideossinucleotidi (deossinucleotidi senza il 3'-OH).
Nella mix di reazione sono presenti sia nucleotidi normali che 1 solo tipo di
dideossinucleotide, la probabilit che la DNA polimerasi incorpori l'uno o l'altro tipo la
stessa, per cui ad un qualsiasi ciclo ed a un qualsiasi punto della catena potr essere
incorporato un dideossint. Questo fa terminare la reazione di polimerizzazione perch
manca del 3'-OH a cui legare il nt successivo.
Data l'equiprobabilit di incorporare i 2 tipi di nucleotidi avremo che nella mix saranno
presenti tante copie parziali dello stampo, ognuna pi lunga dell'altra di 1 nucleotide, tutte
terminanti con quello dideossi.
Se si allestiscono 4 tipi di reazione, ognuna con un solo tipo di dideossinucleotide (una per
base), e facciamo poi correre il DNA su gel di acrilammide, cos da distinguere anche
frammenti che differiscono per 1 solo nucleotide, e poi visualizziamo il DNA per
autoradiografia, avremo una specie di tabella a 4 colonne, e tante righe quanto i nucleotidi
del frammento amplificato. Per ogni riga sar annerita una sola casella che corrisponde a
quella del dideossinucleotide che ha interrotto la reazione. Questo vorr dire che in quella
casella tutti i frammenti sono stati interrotti con lo stesso dideossint, e che logicamente
rappresenter la base di quella posizione nella sequenza.
Il metodo stato migliorato in seguito all'introduzione di fluorocromi specifici per ogni
dideossinucleotide, in maniera da allestire 1 sola reazione e di visualizzare la sequenza
invece che per autoradiografia, tramite laser fluorescenza ed elettroforesi capillare. Man
mano che i frammenti corrono nel capillare un laser ne rileva l'emissione di fluorescenza
che essendo specifica per ogni dideossint, sar rappresentativo della base azotata in
quella posizione. I risultati vengono mostrati su un elettroferogramma che sulle ascisse
enumera le posizioni della sequenza e sulle ordine mostra il picco di fluorescenza che avr
un colore diverso a seconda del dideossint che avr interrotto la reazione.
SEQUENZIAMENTO SU LARGA SCALA
I metodi di sequenziamento abbiamo visto che si basano essenzialmente sulla PCR. In
una singola corsa possono essere determinate da 300 fino a 1000bp ed proprio questo
che determina tutte le difficolt nel sequenziamento di genomi che sono molto pi grandi di

1kbp. Bisogna quindi sequenziare il genoma in pi round.


Il DNA viene estratto dalle cellule, frammentato per sonicazione in maniera da avere pezzi
della stessa dimensione e quindi viene isolato attraverso una corsa elettroforetica. Il DNA
viene poi clonato all'interno di un plasmide e ognuno di questi viene poi sequenziato.
Clonare il frammento, di cui non si conosce la sequenza, in un vettore significa avere il
pericolo di contaminare la sequenza con pezzi estranei provenienti dal vettore o DNA
estraneo. Questa contaminazione si avr necessariamente perch come abbiamo visto nel
sequenziamento comunque necessario un primer, ma poich noi non conosciamo la
nostra sequenza, questo sar un primer universale, presente sul plasmide, che verr
INTERAMENTE sequenziato. Quindi un passo fondamentale filtrare le sequenze
ottenute per eliminare quei pezzi provenienti dal plasmide (di cui conosciamo la sequenza)
o altri contaminanti.
Una volta ottenuti i frammenti della sequenza, bisogna ricostruila. Questo sar possibile
perch il DNA iniziale proveniva da PIU' cellule ognuna con il proprio corredo genetico.
Quindi, poich la sonicazione avr prodotto frammenti in maniera random, una stessa
sequenza proveniente da pi cellule sar stata tagliata in tanti modi diversi e i frammenti
sequenziati tutti.
__________________________________________ Struttura del cromosoma originario
_____
___
_
_______
____
___
__
____

______ _____
____
_ _ ____ _
____
_____

Frammenti sonicati

___________________

____________________

Contigs

Perci confrontandoli tra loro ci saranno tante regioni di sovrapposizione, che significher
che quei frammenti fanno parte dello stesso punto, e grazie alle quali potremo risalire alla
sequenza su larga scala ossia la consensus, assemblandoli insieme in tanti frammenti
contigui, chiamati, appunto, contigs. Questo lavoro di ricostruzione fatto tramite
software, in silico, con programmi come PHRED, PHRAP e CONSED, per cui non si deve
pensare a essi come a una molecola identificabile, ma a una sequenza pi grande
ricostruita per interpolazione delle sequenze dei singoli frammenti clonati.
CHIUDERE I GAPS
Statisticamente difficile ottenere un unico contig che copra l'intera molecola da
sequenziare per cui molto probabilmente si otterranno tanti Contigs non sovrapponibili tra
loro, si crea quindi il problema di chiudere questi gaps.
Avere un contig significa conoscerne esattamente la sequenza per cui si possono costruire
sonde che ibridino con le estremit di ciascun contig. Andando poi a screenare la nostra
libreria con queste sonde sar possibile individuare i cloni che portano il frammento della
sequenza capace di unire 2 conting tra loro. Per esempio:

contig 4
probe 7
_______
probe 7
_______

_______
_______

contig 1
probe 4
probe 4

frammento 43
Abbiamo 2 contig, il numero 4 e il numero 1 separati da un gap, costruiamo quindi delle
sonde per le loro estremit e screeniamo la nostra libreria di frammenti.
Vediamo che l'estremit 3' del contig 4 viene ibridata dal probe 7 e l'estremit 5' del contig
1 dal probe 4. Abbiamo poi un frammento, il numero 43, che ha l'estremit 5' che ibridizza
il probe7 e la 3' il probe 4. Questo significa che l'estremit 3' del contig 4 e quella 5' del
frammento 43 sono lo stesso pezzo di DNA, e un discorso simile si pu fare con l'altra
estremit. In conclusione il frammento 43 quello capace di unire i conting 1 e 4, e
abbiamo cos riempito un gap.
Questo metodo efficace per piccoli genomi, come quelli di batteri, virus, ecc, ma con
grossi genomi questo approccio praticamente impossibile.
CHROMOSOME WALKING
Il genoma umano grande circa 3 miliardi di nt, quindi per ottenere un numero sufficiente
di sovrapposizioni bisogna sequenziare qualcosa come 10^7 frammenti da 1000 bp, per
raggiungere una ridondanza sufficiente di sequenze. Ne consegue che il metodo
precedente cos com' non va bene, rende l'impresa quasi impossibile, ecco perch si
sono ideati altri metodi e uno di questi il Chromosome Walking.
Questo metodo concettualmente molto semplice: il DNA viene frammentato in pezzi
abbastanza grossi come 200 kbp, e clonato in YAC. Si parte poi da un primer plasmidico
vicino al sito di inserzione del frammento e si sequenzianole prime 1000 bp, conoscendo
la sequenza di queste, si costruisce un primer sull'estremit di questo frammento e si
sequenziano le successive 1000, e cos via, camminando lungo il cromosoma. Dei probe
al 3' di ogni frammento vengono utilizzati per identificare la successione dei frammenti per
overlap di ibridazione. Il sequenziamento procede da un lato all'altro del sito di inserzione
che sar identificabile grazie a un marker.
Questo metodo molto affidabile, ma ha grossi limiti legati al fatto che non si pu
procedere lungo il cromosoma senza conoscere prima la sequenza del frammento
precedente, pertanto un sistema molto lento.
Il chromosome walking, tuttavia, stato il sistema sfruttato per il progetto genoma umano.
SHOTGUN SEQUENCING
La metodica shotgun pu essere applicata in 2 modi diversi: un modo conservativo e uno
alternativo o whole genome shotgun. Entrambi si basano comunque sulla estrema
frammentazione del DNA e sul sequenziamento contemporaneo di tutti i frammenti per
poi assemblarli attraverso un'accurata e laborioso ricostruzione dei contig. Poich il
genoma viene direttamente frammentato, si perdono tutti i riferimenti al suo interno, per cui

necessario avere una struttura preesistente sulla quale posizionare i contig, uno scaffold,
costituito solitamente da una mappa genetica o fisica del genoma.
Il modo conservativo parte da una mappa genetica, per cui noi conosciamo marcatori,
riferimenti all'interno del genoma come STS, RFLP che servono per orientarci nel genoma.
Questo viene quindi frammentato e clonato in YAC. Tali frammenti posseggono a priori dei
marker che li assegnano a determinate posizioni sulla mappa genetica. Sono poi
ulteriormente scissi in pezzi pi piccoli, che vengono sequenziati tutti. Infine sono ricostruiti
i contig e si risale alla consensus del pezzo grosso.
Il whole genome shotgun bypassa la frammentazione del genoma in pezzi medio-grossi,
ma si ottengono direttamente piccoli frammenti subito sequenziati. In questo modo si
perde qualunque riferimento alla mappa genetica, per cui i markers andranno ricercati solo
dopo la ricostruzione dei contig.
Questo sistema molto pi veloce del chromosome walking perch il sequenziamento di
tutti i pezzi avviene contemporaneamente, e non bisogna aspettare quello dei frammenti
precedenti, per ha bisogno di una solita mappa genetica, in genere non riesce mai a
coprire l'intero genoma, e presenta inoltre alcuni problemi con le sequenze ripetitive.
SEQUENZE RIPETUTE E SHOTGUN SEQUENCING
La presenza di sequenze ripetute in un genoma un grosso problema nella metodica
shotgun e pi in generale nella ricostruzione dei contigs. Oltre tutto tali sequenze sono
particolarmente frequenti in alcuni genomi, e anche quello umano ne presenta molte.
Pensiamo ad esempio ad una tandem repeat, abbastanza lunga da non poter essere
coperta da 1 solo frammento. Avremo quindi molteplici frammenti che rappresentano vari
punti distanti nella repeat, ma essendo tutti uguali per sequenza sar per noi impossibile
capirlo, perch si sovrapporranno tutti tra loro. Quindi si corrono grandissimi rischi di
sovrastimare o sottostimare la lunghezza della regione ripetuta.
Se poi pensiamo che le stesse repeat possono essere presenti in punti diversi del
genoma, su cromosomi diversi, ecc facile immaginare che si possono collegare tra loro i
contig sbagliati. Oppure regioni comprese tra 2 uguali larghe repeat possono essere
escisse perch le 2 repeat essendo uguali overlappano.
IMPORTANZA DEI MARKERS
Abbiamo detto che lo shotgun approach ha bisogno di una mappa genetica su cui basarsi,
per ancorare i markers che sono sui contig che crea.
Le mappe genetiche sono annotazioni della posizione di markers sull'intero genoma. Un
marker qualsiasi cosa capace di rappresentare in maniera univoca una specifica
posizione lungo il genoma. Un marker pu essere quindi un gene, una sequenza specifica,
una mutazione puntiforme. In genere una sequenza ripetuta non pu essere un marker, in
quanto proprio perch presente pi volte perde di univocit.
Un gene-marker pu essere identificato per il fenotipo visibile ad occhio, per un fenotipo

biochimico come la capacit di crescere o meno in determinate condizioni, o altre


caratteristiche.
MAPPATURA DEL GENOMA
La mappa pu essere fisica o genetica.
La mappa fisica misura la distanza tra i markers in paia di basi.
La mappa genetica misura la distanza tra i markers in termini di frequenza di
ricombinazione (centiMorgan).
Mediamente 1cM corrisponde a 0.8 Mbp.
Le 2 mappe fanno utilizzo di markers diversi: il mapping genetico utilizza come markers i
geni stessi, RFLP, SSLP (polimorfismi di lunghezza di sequenze semplici), SNP, il mapping
fisico invece enzimi di restrizione, FISH e STS (questultima ha la maggior risoluzione).
La mappa fisica ottenuta dalle librerie genomiche di cui abbiamo parlato prima. Non
necessario sequenziarle, ma basta ad esempio digerirle con enzimi di restrizione e
analizzarne il pattern, ottenendo cos il fingerprint di quel frammento. Frammenti con un
pattern sovrapponibile potranno essere assemblate in contigs. Alla fine otterremo
l'annotazione sull'intero genoma delle posizioni dei nostri markers e la loro reciproca
distanza in paia di basi.
Altri metodi per ricostruire mappe fisiche sono basati sulla FISH che mostra visivamente la
posizione di un gene su un cromosoma e operando su cromosomi in profase pu
scendere a risoluzioni anche di 0.1 Mb; oppure su radiation hybrid cell lines, in cui
vengono introdotte in cellule murine alcuni cromosomi umani e poi screenate via pcr per la
presenza del gene in quella linea.
La mappa genetica si ottiene analizzando la frequenza di ricombinazione dei markers, si
basa quindi sull'analisi di linkage tra 2 loci che tanto pi segregheranno
indipendentemente, tanto pi saranno lontani. 1centiMorgan corrisponde a una frequenza
di ricombinazione dell'1%. Se l'indice di ricombinazione genica 50% allora i 2 geni sono
presenti su cromosomi distinti o sullo stesso cromosoma ma molto distanti.
La frequenza di ricombinazione per non la stessa su tutto il cromosoma, ma esistono
delle zone particolari che costituiscono degli hotspot i ricombinazione, ossia dei punti in cui
molto pi facile che avvenga un crossing-over. Pertanto i geni che si trovano a monte e a
valle di un hot-spot appariranno molto pi distanti di quanto non lo siano in realt
fisicamente, e questo il motivo per cui la mappa genetica e la mappa fisica sono simili
ma non completamente sovrapponibili.
PROGETTO GENOMA UMANO
Il progetto genoma umano un progetto di ricerca scientifica internazionale il cui scopo
principale quello di determinare la struttura primaria del genoma umano e identificare i
circa 25000 geni contenuti sia fisicamente che funzionalmente.
Il progetto iniziato nel 1990, anche se nel 1987 era gi disponibile una mappa fisica dei
RFLP umani (risoluzione di circa 10 Mb). Nel '94 si ottenuta la mappa delle SSLP (1,7

Mb) e nel 95 quella delle STS (1 Mb). Dopo aver ottenuto delle solide mappe fisiche del
genoma si potuto poi affrontare il sequenziamento vero e proprio e nel 1998 si ottenuta
la sequenza del primo cromosoma umano, il pi piccolo: il 22. Nel 99 arrivata quella del
cromsoma 21, poi nel 2001 si ottenuta la prima sequenza bozza dell'intero genoma che
comprendeva quasi il 90%. Nel 2003 si avuta ufficialmente la sequenza completa.
Parallelamente al progetto genoma umano la Celera Genomics capitanata da Craig Venter
propose nel 1998 un approccio shotgun al sequenziamento del genoma umano, e
utilizzando come basi le mappe fisiche del progetto genoma umano, in soli 2 anni
contemporaneamente al PGU riusc a pubblicare nel 2001 la sequenza draft e nel 2003
quella completa.
Tuttavia l'approccio shotgun ha numerosi difetti infatti la sequenza non era veramente
completa, erano presenti numerosi gap e il sequenziamento non era accurato.
L'inaccuratezza e la necessit di una mappatura precedente sono comunque difetti
intriseci a questa metodica cos come il grande numero di sequenze richieste e l'intesa
attivit di assemblaggio computazionale dei contigs.
ANNOTAZIONE
Annotare vuol dire identificare su una sequenza gli elementi di interesse scientfico,
decodificarla, svelare quello che nasconde e cio i suoi elementi funzionali:
l elementi trascritti tRNA mRNA rRNA snRNA, ecc
l elementi strutturali esoni introni 3' e 5'-UTR ORF mutazioni promotori enhancers
splicing poliadenilazione siti di legame a proteine
l regioni di similarit
l altre cose come elementi trasponibili
l markers tipo STR RFLP ecc
L'annotazione pu essere manuale o computazionale.
L'annotazione manuale ovviamente pi accurata, basata su evidenze sperimentali, ma
molto lenta: un gruppo di ricerca pu occuparsi al massimo di un gene, e proprio perch
affidata all'uomo soggetta ad errori, e inoltre non detto che sia posta la stessa cura ed
attenzione in tutti gli aspetti dell'annotazione: ad esempio qualche gene sar pi
approfondito dal punto di vista della struttura del promotore, ma pi carente sulle
informazioni riguardo le modificazioni post-traduzionali, ecc.
L'annotazione computazionale pi obiettiva, perch affidata alla macchina, veloce, ma
non altrettanto accurata perch la struttura di un gene eucariotico non affatto definita
come quella di un gene procarioti, non esistono leggi di codifica rigide, ma anzi c' ben
poco di deterministico. Ad esempio la tata box una generica sequenza ricca in adenine e
timine, che ha un ruolo importante nel promotore, ma di pi non sappiamo: non ne
conosciamo la sequenza precisa, ma proprio perch non ce l'ha, e una ripetizione simile
pu essere presente in qualsiasi altra parte del genoma, ma non per questo una tata
box.
Quello che in genere si fa iniziare con un'annotazione automatica e poi rifinire i dati con

un'annotazione manuale.
CERCARE GENI
I geni procariotici sono piuttosto facili da cercare perch hanno una struttura semplice e
inoltre hanno gli elementi funzionali abbastanza definiti, come per esempio il promotore.
Essenzialmente la ricerca si riduce nel trovare ORF abbasanza lunghe sulla sequenza,
ORF che iniziano con un codone ATG e finiscono con un codone di stop in frame.
Un'altra cosa da tener conto che i microorganismi a causa della diversa disposizione dei
tRNA hanno una certa predilezione per i codoni sinomini, per cui nel codificare un certo
amminoacido utilizzano sempre lo stesso codone anche se virtualmente pu essere
codificato da altri. E tale discorso vale anche per gli organismi eucarioti.
La probabilit di trovare in un procariota una ORF di N codoni pari a: (1/64) x (61/64)^N x
(3/64)
1/64 la probabilit di trovare un codone d'inizio, che unico ed ATG
61/64 la probabilit di trovare uno qualsiasi dei codoni che sono 64 ma bisogna
escludere i 3 di stop
3/64 la probabilit di trovare uno qualsiasi dei 3 codoni di stop
(In realt il calcolo sbagliato perch se N il numero di codoni codificanti quando si
calcola (61/64)^N si fa un errore perch si tiene conto un'altra volta del primo codone che
abbiamo gi contato che comunque codifica per una metionina; per cui sarebbe opportuno
elevare a N-1. Se poi si vuole contare anche il codone di stop bisogna elevare a N-2.)
Tale calcolo delle probabilit non comunque applicabile agli eucarioti a causa
dell'esistenza di esoni ed introni.
E proprio per le caratteristiche di un gene eucariotico la ricerca delle ORF
completamente inutile, se non per individuare la localizzazione del primo esone. Bisogna
quindi cercare metodi alternativi e pi adatti.
Il metodo migliore consiste nel ricercare similarit con altri geni noti (BLAST, FASTA),
credo che sia chiaro a questo punto, dato che ci hanno abbuffato la capa di allineamenti.
Dico solo che se si va ad allineare sequenze derivate da proteine si perdono le
informazioni riguardanti gli introni e gli UTR, cosa che si risolve andando a confrontare
cDNA derivati da mRNA non maturati che conservano ancora gli introni e tutto.
Esistono poi metodi basati sulla genomica comparativa (PIPMAKER, VISTA)che mettono
in evidenza le regioni maggiormente conservate tra organismi diversi, basandosi sull'idea
che sono conservate perch importanti. Si possono confrontare sia organismi vicini come
uomo e topo, ma anche lontani tipo uomo e takifugu (un pesce che stranamente non ha
introni nel suo genoma), noteremo che in ogni caso gli esoni sono l'elemento pi
conservato.
Esistono infine metodi statistici, supervisionati e non (li vedremo tra poco), che cercano di
modellizzare tutto quello che conosciamo riguardo i geni eucariotici e ricercano nella
sequenza non annotata quei segnali.

GENE MINING
Con gene mining si intende quellinsieme di procedure per scoprire geni eventualmente
presenti su sequenze sconosciute. Anche in questo caso si parla di probabilit di
presenza, quindi queste tecniche non sono totalmente affidabili, ma spesso i loro risultati
sono ampiamente confermati.
Il modo pi semplice per ricercare geni per similarit con proteine conosciute, cDNA,
RNA ed EST (le EST sono sequenze parziali di mRNA ottenute per retrotrascrizione di
questi sfruttando come primer le sequenze di polyA).
La ricerca di un gene solitamente si risolve nella ricerca di un ORF e quindi una
potenzialit di coding, la probabilit e non la certezza della presenza. Ci sono varie
caratteristiche tipiche delle ORF, e sono queste che si ricercano, tra esse troviamo la
periodicit delle basi, luso di codoni, la frequenza di esameri, si possono utilizzare poi
sistemi basati su reti neurali (grail) e catene di markov (glimmer).
I risultati sono poi integrati con analisi compiute da altri programmi come Genie (markov,
ricerca promotori, siti di splicing, codon usage) o GeneScan (markov, vari segnali, esoni
subottimali), che migliorano laffidabilit dei nostri risultati.
Tutte queste strategie di ricerca non sono sufficienti di per s, ma devono tutte collaborare
tra loro, far combaciare i loro risultati fino ad ottenere il risultato pi vicino possibile al vero.
Nonostante questo enorme sforzo analitico, per, bisogna sempre tener presente che
come per il modelling si ottengono sempre probabilit, molto alte, ma non tanto alte quanto
quelle ottenute da evidenze sperimentali.
PERIODICITA DELLE BASI
Molte delle tecniche di gene mining si basano sul concetto di periodicit delle basi, e cio
sul fatto che si nota una certa ripetizione nellutilizzo di certe basi in blocchi di 3 negli esoni
o di 2 negli introni. Il numero 3 negli esoni perfettamente giustificato dal fatto che il
codone composto di 3 basi, e queste tecniche ricercano proprio questa caratteristica a
triplette o esameri per individuarli.
Ad esempio misurando in una sequenza la distanza reciproca di una certa base come
ladenina da tutte le altre basi a lei identiche, ci accorgiamo che la frequenza di
distribuzione delle distanze presenta dei picchi in tutti i multipli di 3 negli esoni e in tutti i
multipli di 2 negli introni. Quindi si pu dire che tendenzialmente una base tende ad
assumere posizioni omologhe in tutte le triplette, per cui se troviamo unadenina in
seconda posizione, questa si trover molto frequentemente in seconda posizione in tutte le
triplette successive.
CODON USAGE
Il codice genetico universale, pertanto in linea di massima le tecniche che si basano
sulla sua analisi sono applicabili a tutti gli organismi. Il codice genetico anche
degenerato, questo significa che un Aa pu essere codificato da pi codoni. Ogni
organismo ha dei codoni di preferenza che costituiscono una sorta di signature, il

fingerprint della specie, questa scelta dipende dalla frequenza di tRNA. Infatti data la
presenza di pi tRNA leganti lo stesso Aa a causa della degenerazione del codice, e
poich questi sono disponibili a concentrazioni diverse, la traduzione di un gene sar pi o
meno efficiente e pi o meno veloce a seconda se sono utilizzati codoni che si appaiano
con tRNA ad alta o bassa disponibilit. Ovviamente le sequenze codificanti subiscono una
pressione evolutiva da questo punto di vista e mutano in modo da sfruttare i tRNA a
disponibilit pi alta per essere trascritti, in questo modo tutti i geni dello stesso organismo
tenderanno ad usare gli stessi codoni per gli stessi amminoacidi.
Per lo stesso motivo le sequenze non codificanti, inclusi gli introni, non mostreranno
questa conservazione del
codon usage perch non essendo trascritte non interagiscono con i tRNA.
In sintesi si pu affermare che il codon usage diverso fra esoni ed introni, e
precisamente molto pi rispettato nei primi che nei secondi, anche se, andando a vedere
fa rigidit con cui rispettato in entrambi, si pu notare che esiste una zona di
sovrapposizione, in cui non possiamo essere sicuri se quel tratto di sequenza appartiene
ad un esone o ad un introne.
Resta comunque una caratteristica ben sfruttabile grazie alla quale sono state costruite
tabelle di frequenza dellutilizzo dei codoni, cos da poter gi in un primo momento
individuare il frame di lettura della sequenza, che molto probabilmente sar quello in cui il
codon usage pi rispettato e la localizzazione generica di esoni ed introni.
SCANNING
Lo scanning una tecnica che analizza progressivamente sulla sequenza un tratto definito
di X basi e ne registra una caratteristica, come per esempio il codon usage. In questultimo
caso a mano a mano che la finestra di scan procede lungo la catena nucleotidica si ottiene
un grafico della variazione del codon usage, possiamo poi stabilire un cut off per cui tutti i
tratti al di sopra di questo sono considerati possibili esoni perch rispettano il codon
usage, e tutti quelli al di sotto possibili introni.
La stessa operazione si pu fare con la periodicit, che allo stesso modo inquadra in
maniera abbastanza generica la posizione di esoni ed introni in base alla frequenza di
ripetizione di una base in una certa posizione della tripletta.
SITI DI SPLICING
Le tecniche precedenti ci davano solo unidea della localizzazione di esoni ed introni, anzi
la questione era molto pi vaga in quanto forniscono solo dei candidati pi che la presenza
probabile.
Per si sa che su ogni giunzione esone/introne deve essere presente un sito di splicing,
che sebbene mostra una certa variabilit nella sua costituzione, possibile comunque
riconosce un pattern consensus, che indica allo spliceosoma come orientarsi.
A tale proposito si sono adattate tecniche gi descritte in precedenza come le matrici di
peso e in particolare le weight matrix for splice donor/acceptor. Queste matrici analizzano

la frequenza di presenza di una certa base in una determinata posizione del sito di splice,
per cui sullasse delle ordinate troviamo le 4 basi azotate, sulle ascisse le posizioni relative
al sito di splice e ovviamente nella matrice annotate le frequenze.
splice
... -3 -2 -1 | +1 +2 +3
A T freq delle basi intorno C

al sito di splicing G

In questo modo si ottiene una sorta di descrizione della sequenza consensus del sito di
splicing tramite le matrici di peso, quando poi si allinea la propria sequenza con questa
matrice, si ottiene la probabilit della presenza di un sito di splicing.
ESONI CANDIDATO
Effettuando uno scanning del gene con tutte le tecniche precedenti, e integrando i dati
ottenuti si ottengono i potenziali esoni candidato. Infatti se queste tecniche, utilizzando
ognuna un approccio diverso, sono tutte discretamente valide per individuare la
localizzazione di esoni ed introni, i loro risultati combaceranno in certi tratti, che saranno di
conseguenza quelli a pi alta probabilit di essere veramente esoni od introni.
RETI NEURALI (Grail II)
Le reti neurali cercano di riprodurre il funzionamento in piccolo di un sistema nervoso.
Quindi strutturato come varie unit organizzate in una rete di interconnessioni; ogni
elemento di calcolo riceve molteplici input ed emette un solo output verso un altro nodo
della rete. Ognuno dei collegamenti ha un certo peso sul risultato, non definito
dalloperatore. Questo set up , infatti, lasciato al sistema, che trova i pesi giusti in base ai
risultati che ottiene, o costruendoli su un training set.
Il sistema quindi capace di configurare in maniera autonoma le proprie connessioni in
modo da far assegnare lo score pi alto agli esoni.
La rete neurale sulla base della presenza del training set distinta in supervisionata o non
supervisionata. Quelle supervisionate hanno un training set, e cio un certo numero di
esempi, e nella fattispecie di sequenze certamente introniche e certamente esoniche, sulla
base delle quali si autoconfigura. E poi man mano aggiunge i propri risultati al set. Nelle
reti non supervisionate il training set assente e il sistema impara solo sulla base dei
propri risultati.
Si possono riconoscere nella rete neurale pi livelli: un input layer, dal quale noi
introduciamo i dati iniziali, loutput layer che ci fornisce il risultato e un certo numero di altri
livelli interposti che elaborano i dati. Questo livello di mezzo chiamato hidden layer, e
cio livello nascosto, poich non si interagisce con esso; non n visibile n
comprensibile. Infatti poich il sistema si autoconfigura, non si pu trovare una
corrispondenza tra quei determinati pesi delle connessioni e una qualsiasi regola biologica
che spieghi perch si debbano assegnare in quel modo.

Quindi paradossalmente la rete neurale funziona anche molto bene, ma non potremo mai
sapere come e perch ottiene questi risultati.
GENIE / GENESCAN
Sono programmi capaci di integrare tutti i singoli dati ottenuti precedentemente fino ad
ottenere predizioni di geni. I risultati ottenuti da questo programma hanno comunque meno
affidabilit delle evidenze sperimentali, ma questi si rivelano il pi delle volte molto vicini al
vero al punto che i database genetici archiviano anche i geni predetti da questi software, in
attesa che i risultati siano confermati poi sperimentalmente.
STUDIO DI GENOMI
GENOMICA FUNZIONALE
Esistono vari aspetti della gnomica, finora si parlato di gnomica strutturale, che si
occupa di determinare la sequenza del genoma e del mappaggio fisico dei geni.
Esiste poi una genomica funzionale si occupa dellanalisi del ruolo dei singoli geni o di
gruppi di questi, studiandone anche la loro reciproca interazione e come lavorano
allinterno di un organismo.
Infine la genomica comparativa esegue il confronto tra genomi di diversi organismi, sia
nella sua organizzazione che nella sequenza per determinarne la funzione (non della
proteina, ma del perch il genoma in s ha quellorganizzazione).
La genomica funzionale largomento che si affronter in questa parte. Essenzialmente
cerca di rispondere a 3 quesiti fondamentali, e nello specifico si interroga su quale sia il
ruolo del gene, ossia in quale processo cellulare coinvolto (o meglio coinvolta la
proteina che codifica), a quale tipo di regolazione e in che rete di regolazione sottoposto,
e in che modo i suoi livelli di espressione variano in differenti tipi cellulari e in differenti
condizioni fisiologiche, di sviluppo, patologiche o in risposta ai farmaci.
Si pu facilmente notare che questi target passano tutti per lo studio dei livelli di
espressione genica.

STUDIO DELLESPRESSIONE GENICA


Sono disponibili numerose tecniche per lo studio di espressione genica, si possono
classificare molto semplicemente tra tecniche che analizzano 1 solo gene per volta, e
tecniche capaci di analizzare gruppi anche molto estesi di geni. Nella prima categoria
troviamo:
ISH
Northern blot
RNase protecion
Dot-plot
Immunoistochimica (proteine)
Western blot (proteine)

Del secondo tipo sono:


SAGE
cDNA microarray
Oligont microarray
GeneChips
MICROARRAY
E la tecnica che prenderemo pi in considerazione. In questa metodica lRNA viene
estratto dal campione in esame e da uno di controllo, e marcato con diversi fluorocromi per
generare i target. Questi vengono poi ibridati su sonde legate ad un supporto in vetro.
Queste sonde sono rappresentative di specifici geni, le varie tecniche di microarray
differiscono per queste, infatti il cDNA microarray utilizza come sonde cDNA o EST, quindi
sequenze lunghe 100-200 bp, loligont microarray fa uso di sonde di 40-80bp sintetizzate
artificialmente sulla base di informazioni ottenute da banche dati, genechips una
particolare tecnologia sviluppata da Affimetrix in cui le sonde sono sintetizzate
direttamente sul supporto.
Ovviamente libridazione tra target e sonda fornisce una misura quantitativa
dellabbondanza di una particolare sequenza nella popolazione dei target rispetto al
controllo. Queste informazioni vengono catturate digitalmente e poi sottoposte a vari tipi di
analisi per lestrapolazione di dati biologici.
E proprio in questo ultimo passaggio in cui interviene la bioinformatica funzionale, ed
quindi largomento che si affronter.
E facile immaginare lenorme campo applicativo di questo tipo di tecnologia che capace
di analizzare la variazione dei messaggeri totali nella cellula dato che sui chips possibile
mettere sonde per lintero genoma.
Si possono identificare geni sulla base dei processi in cui sono potenzialmente coinvolti.
Si possono studiare i meccanismi di regolazione genica su larga scala, basandosi
sullassunto che geni regolati in parallelo e che subiscono variazioni significative nello
stesso arco di tempo sono probabilmente sottoposti allo stesso meccanismo di controllo.
Si pu fare diagnosi identificando i pattern di espressione genica conosciuti, caratteristici
degli stati patologici.
Si possono identificare nuove molecole drugable sulla base degli effetti causati e quindi
ottenere farmaci candidato.
La tecnica non assolutamente perfetta, molto costosa e soprattutto bisogna tenere
presente di numerosissime variabili che possono ostacolare il risultato. Un esempio fra tutti
e costituito dallinterazione tra target e sonda, in cui bisogna tenere conto che le sonde,
cos vicine tra loro, possono ostacolare stericamente libridazione a vicenda, quindi si
devono utilizzare escamotage tipo molecole linker in maniera da dare spazio a ogni sonda;
anche sui target bisogna porre attenzione in quanto molecole troppo grandi possono
ripiegarsi e dare ibridazione aspecifica.

ACQUISIZIONE DEI DATI


I dati sono acquisiti mediante microscopia confocale, che misura lintensit di segnate
generata dai target sottoforma di scala di grigi, poi per rendere i risultati pi user-friendly, di
immediata comprensione, subiscono una pseudo-colorazione per cui il software ci fa
apparire rossi gli spot in cui vi sovrabbondanza di target, verdi quelli in cui si ibridato
soprattutto il controllo e con gradazioni intermedie e quindi gialli tutti quelli con livelli di
espressione intermedi.
In realt questo tipo di visualizzazione solo un modo carino per far capire cosa accade
sul chip, ma in realt visivamente con quei colori non possiamo capire veramente quale
sia il livello di espressione del gene. Quindi molto pi sensato organizzarli in una tabella
in cui ad ogni riga ci sono i dati di espressione di ogni singolo gene analizzato.
Osservando una tabella del genere emergono subito i 2 problemi fondamentali del
microarray ossia il rumore di fondo e lelevato numero di geni.
Il rumore di fondo consiste in un certo livello di fluorescenza aspecifico che si genera
intrinsecamente alle fasi di processazione e analisi del campione, fa parte di quella
variabilit che non possibile eliminare in modo assoluto, per cui eseguendo lo stesso
esperimento pi volte si ottengono risultati sovrapponibili ma non identici.
Lelevato numero di geni pu sembrare un vantaggio, ma analizzando tutti questi
contemporaneamente, diventa difficile distinguere quali sono i geni che veramente hanno
subito un processo regolativo e quali invece hanno variato la propria espressione in modo
non significativo.
ANALISI DEI DATI
Lanalisi dei dati di un esperimento di microarray si articola in 3 step fondamentali: Image
processing ossia lacquisizione dei dati con tutti i problemi che abbiamo gi descritto
Data preprocessing and normalization ha lo scopo di evidenziare le differenze
significative in un esperimento e dare la possibilit di confrontarlo con esperimenti diversi
Data mining le misure ottenute sono confrontante al fine di individuare relazioni al loro
interno come geni differentemente espressi nel campione.
I primi 2 step fanno uso di analisi di basso livello, il cui scopo quello di eliminare le
variazioni sistematiche esistenti tra i diversi microarray, e cio il rumore di fondo e gli
artefatti, in modo da permetterne la comparazione. Quindi consiste in analisi dellimmagine
con la digitalizzazione dei segnali luminosi, eliminazione del rumore di fondo, filtraggio e
normalizzazione dei dati.
Lultimo step fa uso di analisi ad alto livello, che consiste proprio nel data minino e come
si detto nellindividuare pattern e relazioni tra geni che possono suggerire regole
biologiche.
ANALISI A BASSO LIVELLO
Eliminazione del Background
Detto a parole molto semplice: consiste nel sottrarre lintensit di background da quella

rilevata, proprio perch la luminosit di uno spot dovrebbe risultare dalla somma
dellintensit del segnale pi il rumore. Il problema sta nel determinare quale sia il livello di
rumore di fondo: questo viene ottenuto rilevando la fluorescenza in spot vuoti o in cui la
sonda e il target sono esogeni, ossia provenienti da organismi diversi. Ovviamente la
luminosit proveniente da questi 2 tipi non pu essere quella dovuta ai nostri target ed
quindi rappresentativa di ibridazioni aspecifiche, che sono poi quelle che determinano il
rumore.
Normalizzazione
La normalizzazione in matematica consiste nel dividere tutti i termini di unespressione per
uno stesso fattore. Questo significa che elaboriamo ogni singola intensit luminosa rilevata
attraverso una stessa funzione, in modo da ottenere dei dati pi normali, o meglio pi
regolari, in modo che siano pi vicini a quelle che si riscontrano mediamente. In questo
modo diventa possibile confrontare le intensit fra loro allinterno di uno stesso chip e fra
esperimenti diversi.
Cruciale diventa lidentificazione di questo fattore, sulla base del quale normalizziamo i
dati.
La necessit di normalizzazione scaturisce dal fatto che esiste una grande variabilit tra gli
esperimenti, le cui sorgenti sono:
Diversa efficienza dei markers
Differenti protocolli sperimentali
Diversi parametri usati in fase di scansione
Differenze nei substrati appartenenti a lotti di produzione diversi
Per ovviare a questo problema dobbiamo usare come riferimento un gruppo di geni che
non variano tra gli esperimenti e che quindi si comportano allo stesso modo.
E possibile utilizzare tutti i geni, assumendo che quelli che subiscono una variazione
sono una parte molto piccola rispetto alla totalit, ma questo assunto non valido in caso
di campioni molto eterogenei come quelli provenienti da tessuti diversi; un gruppo di geni
housekeeping, la cui espressione si considera costante, ma solitamente hanno livelli di
espressioni molto alti, quindi non sono adatti alla normalizzazione di geni ad espressione
bassa; target speciali di cui si conosce a priori la quantit totale, per cui possiamo
regolarla in base al tipo di geni che vogliamo normalizzare, ma dato che sono aggiunti
dopo la preparazione del campione, non possibile compensare le differenze generate in
questa fase, che la causa pi comune di errore.
Una volta scelto il pool di geni su cui costruire lo schema di normalizzazione, si devono
effettivamente normalizzare i dati. Gli algoritmi pi utilizzati sono la Global Normalization e
il LOcally WEighted Scatter plot Smooth (LOWESS).
Global Normalization
La global normalization il tipo pi semplice e riprende esattamente il concetto di
normalizzazione, infatti prevede che tutti i dati vengano moltiplicati per una costante. Tale
costante K ottenuta dal rapporto tra i libelli medi di espressione nei 2 campioni, dei geni

su cui si basa lo schema di normalizzazione.


Tale sistema pu essere usato solo se la differenza tra i campioni costante a prescindere
dal livello di espressione. In pratica se io baso la mia costante su un pool di geni molto
espressi le cui differenze significative sono tipo 11 - 6 (circa 2 volte), mi perdo dati
riguardo geni poco espressi ma che presentano differenze significative pi ampie tipo 0.01
e 0.3 (circa 30 volte).
Lowess
Questo metodo cerca di ovviare ai limiti della Global Normalization, basandosi
sullassunzione che le differenze tra i due campioni non sono costanti ma dipendono dai
livelli di espressione. Quindi la costante K di volta in volta diversa e adatta al livello di
espressione che stiamo confrontando.
Il metodo prevede la costruzione di un grafico cartesiano in cui sulle ascisse troviamo
lintensit media di ciascun gene nei 2 campioni indicata con A = log(E1*E2) / 2, e
sullasse delle ordinate il logaritmo del rapporto delle intensit di ciascun gene nei 2
campioni M = log(E1/E2).
M dovrebbe essere restare costante tra i campioni, in quanto i geni su cui si basa la
normalizzazione sono costanti, ma in realt allaumentare dei livelli medi di espressione
(A), il livello di artefatti cambia (e quindi varia anche M).
Si ottiene quindi un grafico in cui i geni analizzati sono distribuiti su una curva.
Tramite regressione lineare si trova la funzione matematica che descrive la curva, e per
ogni punto di essa, e quindi per ogni livello medio di espressione (A) diventa possibile
individuare la costante K adatta per normalizzare i dati.
ANALISI AD ALTO LIVELLO
Lanalisi ad alto livello consiste in una serie di approcci statistici che servono per
evidenziare le differenze significative tra i livelli di espressione, in maniera da ottenere
informazioni biologiche da una quantit di dati inizialmente molto grande e variabile.
Fold change
Il modo pi intuitivo per distinguere una differenza significativa quello di vedere di quante
volte un gene pi espresso di un altro. Il Fold change fa proprio questo: si stabilisce una
soglia arbitraria oltre la quale la differenza considerata significativa, ad esempio se si
sceglie 2, saranno significativi tutti i geni che raddoppiano o dimezzano la propria
espressione.
Il vantaggio di questo metodo che facile e veloce, ma il fatto di imporre una soglia
arbitraria espone facilmente a falsi negativi in caso sia troppo alta, o falsi positivi se troppo
bassa.
Inoltre la presenza di molti geni a bassissima espressione comporta molto rumore in
questo tipo di analisi perch mostreranno sempre e comunque un enorme fold change.
Soprattutto il metodo non tiene conto della varianza dei dati del microarray, che si

dimostrata essere solitamente elevata per basse intensit e ridotta per alte intensit.
Unusual ratio
Questo sistema individua la soglia in modo statistico, rendendola pari alla media dei
rapporti dei livelli di espressione tra esperimento e controllo. Vengono considerati sovraespressi o sotto espressi i geni che hanno un rapporto di intensit che va oltre le 2
deviazioni standard rispetto alla media dei rapporti.
Questo sistema risolve il problema della soglia arbitraria ma come il fold change ignora il
problema riguardante la varianza dei valori di intensit.
Univariate statistics
Il metodo presuppone che i logaritmi dei rapporti dei livelli di espressione seguano una
distribuzione normale, e tramite il test t di Student assegna la probabilit che un gene
venga riportato erroneamente come differentemente espresso. Il test t si basa sullipotesi
zero secondo la quale le differenze dei livelli di espressione sono dovute al caso. I nostri
dati dovrebbero assumere rispetto a questa ipotesi una distribuzione normale ossia a
campana, con la maggior parte dei dati che variano rispetto al caso e una piccola parte
alle estremit della campana che sono quelle non dovute al caso ossia quelle significative.
Il test calcola quindi la probabilit che la differenza calcolata sia dovuta al caso, se questa
molto quei 2 geni oggetto del confronto hanno un livello di espressione
significativamente diverso.
Analysis of variance ANOVA
Il metodo si basa sullanalisi della varianza (ANOVA), una estensione del test-t e pu
essere utilizzata quando si confrontano le medie di pi di 2 gruppi (il test-t confrontava solo
2 esperimenti tra loro) sotto la stessa ipotesi nulla e con lo stesso livello di significativit.
In questo caso lipotesi zero consiste nellassunzione che la variabilit allinterno di un
gruppo pi elevata rispetto alla variabilit tra i gruppi, e di conseguenza la variabilit tra
questi probabilmente frutto solo della variabilit interna.
DATA MINING
Con data minino si intende lestrazione di informazioni significative dai dati attraverso
lindividuazione di associazioni pattern, sequenze ripetute che si trovano nascoste tra i
dati, a causa della loro variabilit e mole.
Proprio a causa di questi 2 motivi lanalisi tradizionale dei dati come il data retrieval
inadatta. Questultimo infatti cerca allinterno dei dati quelli che soddisfano le condizioni
poste nella query. Quindi presuppone lesistenza di domande precise e quindi la
conoscenza a priori delle relazioni tra i dati.
Il data mining ha il grande vantaggio di far emergere dai dati associazioni esistenti senza
la formulazione di ipotesi a priori e quindi senza query.
Le tecniche pi utilizzate sono:

Clustering
Reti neurali
Alberi di decisione
Individuazione di associazioni
Il clustering e le reti neurali non supervisionate sono tecniche capaci di segmentare i dati,
cio di invididuare gruppi omogenei di dati presentanti le stesse caratteristiche.
Gli alberi di decisione e le reti neurali supervisionate fanno utilizzo di un training set per
classificare nuovi oggetti.
Lanalisi di associazioni invece individuano regole nelle occorrenze concomitanti di pi
eventi.
Clustering
Clustering significa classificare e cio separare ci che appare diverso e unire in gruppi
omogenei ci che simile.
Gli algoritmi di clustering separano i dati in sotto-insiemi costituenti, rivelando gruppi
naturali (preesistenti). Quindi si presuppone che i dati analizzati posseggano gi una
propria distinzione in classi a noi sconosciuta, che le tecniche di clustering mettono in
evidenza.
Il clustering differisce dalla classificazione, perch in questa la struttura dei dati nota, per
cui si conosce gi il criterio in base al quale classificare.
La cluster analysis pu essere utilizzata per dedurre la funzione di geni ignoti basandosi
sulla funzione di geni noti con pattern di espressione simile (i geni coinvolti nello stesso
processo vengono attivati nello stesso momento); per identificazione di profili di
espressione associati a condizioni patologiche; per decifrare meccanismi di espressione
genica (i geni co-espressi sono anche co-regolati).
Gli algoritmi di clustering possono essere
Gerarchici
agglomerativi / divisivi
Non-gerarchici
a cluster sovrapposti / non sovrapposti
Clustering gerarchico
Il clustering gerarchico produce delle strutture ad albero, in cui i cluster dei livelli pi alti
sono aggregazioni di altri cluster, di livello pi basso. Quelli che procedono dai livelli pi alti
a quelli pi bassi eseguono un processo divisivo, viceversa si segue un processo
agglomerativo.
Tra i programmi che facevano uso di questo tipo di procedimento cera lalgoritmo UPGMA,
che creava strutture ad albero, dendrogrammi, utilizzando un clustering gerarchico
agglomerativo.
Il dendrogramma quindi la signature di questo metodo, perch rappresenta sia
operativamente che visivamente gli eventi di scissione o unione effettuati a ogni iterazione.
In particolare si notano le diverse lunghezze dei rami dellalbero, tali lunghezze riflettono le
distanze tra gli elementi del cluster e cio il loro livello di similarit/diversit.

E necessario quindi costruire matrici di distanza, aggiornate ad ogni unione iterativa di


elementi simili a 2 alla volta.
Esempio
%Aa diversi
Sqz1 sqz2 sqz3 sqz4
Sqz1 0 5 11 4
In questo caso le sequenze 1 e 2 sono quelle pi
Sqz2
0 9 10
simili (5% di diversit) e perci verranno
Sqz3
0 7
aggregate in un unico cluster e la matrice verr
Sqz4
0
aggiornata.
Cl1,2 sqz3 sqz4
Cl1,2 0 10 12
A questa seconda iterazione saranno aggregate
Sqz3
0 7
le sequenze 3 e 4 nel cluster Cl3,4. Ovviamente
Sqz4
0
risulta facile immaginare che i 2 cluster
Rimanenti saranno aggregati in uno unico.

1----Le distanze vengono calcolate cos:


|--------- la distanza (Cl1,2 Sqz3) =[distanza(1,3) + distanza(2,3)]/2
2----| il dendrogramma costruito in modo che la lunghezza di ogni ramo
| sia pari a met della distanza tra i 2 elementi del cluster
3---------- |
|---4---------I vantaggi di questo metodo sono il fatto che non necessario conoscere a priori il numero
di cluster e non ce bisogno di altri parametri se non il metodo di misura delle distanze.
Inoltre il dendrogramma fornisce una buona visualizzazione dei dati. Gli svantaggi
consistono nel fatto che il metodo non facilmente scalabile, cio allaumentare dei dati
diventa difficile la gestione infatti per grossi moli di informazioni diventa difficile
comprendere i dendrogrammi.
Clustering non gerarchico
Il clustering non-gerarchico definito anche metodo partitivo perch divide linsieme di dati
iniziale in partizioni, cio non ci sono gruppi che contengono sottogruppi, non esistono
cio cluster annidati, bens pi raggruppamenti senza suddivisioni interne; al massimo tali
partizioni possono presentare zone sovrapposte.
Il clustering non-gerarchico pu essere a cluster sovrapposti o non sovrapposti (fuzzy
cluster). Nel primo caso ogni elemento appartiene ad 1 ed 1 solo cluster, nel secondo
invece ogni elemento appartiene ad 1 o pi cluster con un certo grado di appartenenza,
per esempio in percentuale da 1 a 100.

Il metodo di clustering non-gerarchico utilizza procedure iterative, in particolare c una


fase di inizializzazione in cui viene definita, in modo generale e provvisorio, una struttura
iniziale costituita da un certo numero di cluster, a cui gli elementi sono associati in maniera
random. Tale struttura viene successivamente aggiornata ciclo dopo ciclo fin quando non
pu essere pi migliorata e quindi si assume di essere arrivati alla struttura definitiva,
stabile.
Ne consegue che limpostazione della fase di inizializzazione cruciale sia per la qualit
della struttura finale sia per il tempo di elaborazione dei dati. Inoltre si pu notare che
bisogna definire a priori il numero di cluster massimi.
A differenza del clustering gerarchico che fa uso di matrici di distanze, gli algoritmi di
clustering non gerarchico misurano la distanza degli elementi da classificare dai centroidi,
cio dal centro di agglomerazione, di gravit, del cluster, e ad ogni ciclo si riassegnano
gli elementi al centroide pi vicino ridefinendo i confini del cluster.
Uno degli algoritmi che fa uso del clustering K-means e ne possiamo descrivere il
funzionamento con un esempio.
Si immagini un sistema di dati basato su 2 variabili, e quindi rappresentabile su un sistema
cartesiano a 2 assi. Gli elementi sono quindi distribuiti su un piano, come chicchi di caff
fatti cadere su una tavola. Per pochi elementi definiti e quindi pochi chicchi di caff, sar
molto facile individuare ad occhio i cluster: questi saranno costituiti dai mucchietti di chicchi
pi vicini, probabilmente fatti cadere nella stessa zona e poi rotolati intorno, e per
trasposizione dai dati con caratteristiche vicine.
In A si possono vedere i nostri dati nel grafico o i chicchi di caff sul tavolo. Ad occhio
intuitivamente ci viene normale clusterizzare nel modo in cui fatto in B, con 2 centri di
agglomerazione o mucchietti di chicchi ben visibili, con quelli centrali di dubbia
appartenenza e che quindi fanno parte della zona di sovrapposizione tra i clusters.
I centroidi dei nostri cluster saranno presumibilmente i centri dei mucchietti di caff.
K-means adotta un meccanismo simile. Come possiamo vedere in C, per prima cosa
dobbiamo scegliere il numero di cluster massimi, nel nostro caso 2, per cui avremo 2
centroidi, messi in maniera random nel grafico (le 2 X rosse). Gli elementi, o i chicchi,
verranno assegnati in maniera random a uno qualsiasi dei centroidi. Alla fine avremo 2
forme libere che raggruppano un determinato numero di elementi intorno al centroide,
come si vede in C. Questa descritta la fase di inizializzazione.
A questo punto le distanze degli elementi dai centroidi viene ricalcolata e ogni elemento
viene riassegnato al centroide pi vicino, migliorando la forma intorno al centroide, e quindi
il cluster. Il miglioramento della struttura viene definito in maniera matematica da una
funzione costo, se questa diminuisce la struttura avr evoluto verso uno stadio pi
stabile, mentre se non diminuisce pi vuol dire che si arrivati a quella finale. Il loop
iterativo consiste quindi in questo processo di progressivo calcolo delle distanze e
riassegnazione degli elementi ai centroidi per diminuire la funzione costo. Si otterr una
struttura stabile come quella in D, dove sono presenti 2 cluster ben definiti. Come si vede
essi non presentano sovrapposizione, infatti K-means un algoritmo che definisce cluster

non sovrapposti, in quanto ogni elemento viene assegnato ad un solo centroide, per cui i
chicchi, o elementi, dubbi che si trovavano nella precedente zona di sovrapposizione
vengono assegnati in maniera distinta ad un cluster preciso.
Il vantaggio di questo algoritmo che efficiente e facile da implementare, ma bisogna
stabilire a priori il numero di cluster che non possiamo conoscere, la qualit dei risultati
dipende molto dalla scelta della posizione iniziale dei centroidi, inoltre i geni devono per
forza appartenere ad un solo cluster.
Il concetto di centroide. il centroide il punto di accumulazione intorno al quale si
costruisce il cluster. In unanalisi a 2 dimensioni i cluster possono essere rappresentati
come forme libere, poligoni irregolari, il cui centroide costituito dal centro di gravit della
figura. Per individuare il centro di gravit di una forma libera, in modo pratico, molto
semplice: si immagini un pezzo di carta tagliato in modo irregolare (la nostra forma libera),
e di appenderla per un punto qualsiasi, il vincolo. La carta pender in virt della forza di
gravit, si pu disegnare quindi una linea che passa per il vincolo (il punto per cui
appesa) con la stessa direzione e orientamento della forza di gravit, e quindi una linea
dritta verso il basso. Se si ripete la stessa operazione per un qualsiasi altro punto del
foglietto, e si tira unaltra linea, le 2 linee tracciate si incontreranno in un punto. Quel punto
il centro di gravit della figura e per qualsiasi altro punto appenderemo la figura tutte le
linee passeranno sempre per quel punto.
Lo stesso vale per una figura dal peso non omogeneo in tutti i suoi punti, si pu
immaginare ad esempio che ogni punto del cluster abbia un peso e quindi se pi elementi
sono accumulati nella stessa zona, quella avr pi peso di un'altra zona del cluster con
meno elementi. Questo non cambia il modo di individuare il centroide, perch il foglietto di
carta, nel momento in cui appeso, si orienter nel modo giusto grazie alla forza di
gravit.
Altri metodi
Altri metodi di clustering possono essere distinti in supervisionati e non supervisionati.
Come le reti neurali, quelli supervisionati fanno uso di un training set, ossia un pool di
esempi guida, campioni, in base ai quali costruire i cluster, i metodi di associazione e
successivamente assegnare i nuovi elementi. Quelli non supervisionati non fanno uso del
training set.
Metodi non supervisionati
SOM (self organizing map) loperatore stabilisce i centroidi, o meglio i valori di
riferimento, rispetto ai quali i geni vengono assegnati sulla base della loro somiglianza a
tali valori.
PCA (principal component analysis) estrae dai dati i temi ricorrenti e non c necessit
di definire il numero iniziale di clusters.

Metodi supervisionati
LDA (linear discriminant analysis) usa markov chains e training set costituiti da una serie
di classi di geni di interesse. A partire da queste crea un modello per assegnare nuovi geni
alla classe appropriata.
Banche dati di profili di espressione
I risultati di esperimenti di microarrays sono archiviati in banche dati. Le pi importanti
sono GEO (ncbi), Array Express e KEGG Expression, come al solito americana, europea e
giapponese. Ogni dato suddiviso in 2 componenti principali, larray e cio le informazioni
riguardo il design e la costruzione dellarray in s, e i vari esperimenti che hanno fatto
utilizzo di quellarray, con i relativi dati ottenuti. Poi in aggiunta a questi c una terza
componente il protocollo che d informazioni su come eseguire lesperimento.
DATABASE
Il database una collezione strutturata di dati o records, per esempio un'agenda telefonica
o un libro di ricette.
Il computer-database si basa su un software per organizzare l'immagazzinamento dei dati.
Il modo in cui il software organizza la struttura del database chiamato data model.
Un data model quindi descrive in modo astratto come si accede ai dati e come si
rappresentano, uno dei tanti modi disponibili il Flat file.
GERGO DEI DATABASE
Tipo di dato = un nome che indica l'insieme dei valori che una variabile pu assumere.
(int = numero intero; char = carattere) Riga/Record/Row/Tuple = un oggeto di un
database che contiene campi o elementi ciascuno dei quali con un nome e un tipo proprio.
Tuple indica infatti una sequenza di valori, chiamati componenti del tuple.
Colonna/attributo/coloumn/Attribute = un oggetto di un database e indica il tipo di dato,
quindi una collezione di elementi di uno stesso tipo (numeri di telefono, nomi di persona,
ecc)
Campo/Field = l'elemento che compone il record, e pu contenere un dato classificato
con un determinato attributo.
Query = significa chiedere al software di recuperare dei dati dal database. La query
infatti la domanda, che ha come risposta ci che abbiamo chiesto di cercare nel
database.
FLAT FILE
Il flat file un file contenente i records, ognuno di questi descritto in una riga, per cui
rappresentato da una tabella. L'attributo flat significa piatto, come un foglio di carta, ad
esempio di un'agenda telefonica, in cui i dati sono semplicemente elencati. Infatti il tipo di
flat file pi semplice rappresentato da tabella in cui i dati sono organizzati in righe e
colonne.
A livello informatico, quindi, il flat file non altro che un insieme di dati e separatori. Il dato
costituito da ci che c' scritto, dal campo, il separatore una sequenza di uno o pi

caratteri che viene usata per specificare il confine tra i campi del record e tra i record
diversi. Un database flat un tipo di database il cui data model codificato in un flat file,
quindi l'intera collezione di dati archiviata in un solo file e non ci sono relazioni strutturali
tra i dati.
(vedi tsabella)
Questo un esempio di database flat. Bisogna tenere conto che questa per ne la
rappresentazione, e non il modo in cui sono scritti nel file. Un esempio di come possono
essere codificati usando come separatore di campo la virgola, e come separatore di
record l'indicatore di fine-linea (andare a capo), questo modo chiamato formato CSV.
Mario,Rossi,12345678,Via Roma 21,Disneyland
Antonio,Verdi,54872532,Via Torino 37,Disneyland
Anna,Bianchi,123456789, eccetera
Il software interpreta questo formato cos: Il separatore virgola interpretato dal software
come una distinzione tra i campi, per cui i dati separati da questa vengono rappresentati in
colonne successive. Il separatore end-of-line viene interpretato come fine di un record e
inizio di un altro, per cui si passa alla riga successiva. Logicamente alla fine il database
sar rappresentato dalla tabella precedente.
DATABASE RELAZIONALE
Un database relazionale utilizza un data model di tipo relazionale, formato da una parte
di dati e da schemi, che indicano la struttura del database, ossia le relazioni attraverso le
quali esso organizzato.
Quindi una collezione di relazioni, chiamate tabelle (tabella e relazione sono sinonimi).
Ogni tabella come un flat file, organizzata in righe e colonne. Le righe costituiscono i
records, e ognuno di essi ha la stessa struttura; le colonne forniscono gli attributi in base ai
quali sono organizzati i records.
Il concetto molto pi semplice ed intuitivo di quanto sembri, prendiamo, ad esempio, la
tabella precendente:
Le righe sono i records, hanno tutti la stessa struttura, ossia hanno 5 campi.
Le colonne sono gli attributi in base ai quali i records sono organizzati: l'attributo della
prima colonna nome, quello della seconda cognome, la terza numero di telefono e
poi indirizzo e citt.
DBMS
Il database management system DBMS un software creato per gestire i database sulla
base di vari data models. Il relational database management system RDBMS si riferisce a
uno software capace di gestire solo database relazionali, e non va confuso erroneamente
con un database relazionale stesso.
Solitamente questi programmi si basano su linguaggi creati apposta per la gestione e il
recupero di dati dai database, il pi famoso di questi SQL (structured query language),
utilizzato da molti management system, che infatti portano la sigla SQL nel nome: MySQL,
PostgreSQL, Oracle, FileMaker, Microsoft Access, Microsoft SQL Server.
KEYS CHIAVI

Le chiavi sono un elemento fondamentale di un database relazionale.


La chiave unica, primaria identifica in maniera univoca tutte le righe in una tabella. Poich
la relazione univoca, questo tipo di chiave non presenta ripetizioni del valore che
assume.
Una chiave secondaria, foreign (estranea), costituisce il riferimento alla chiave primaria di
un'altra tabella. Questo significa che si pu trovare in un campo di un record il riferimento
(chiave secondaria) a una chiave (primaria) di un'altra tabella.
Questa la versione relazionale del database iniziale.
I numeri costituiscono le keys, infatti un numero crescente il modo pi semplice per far
assumere alla chiave un valore unico che non si ripete mai.
Prendiamo ad esempio la tabella Indirizzi, questa ha la chiave primaria nella prima
colonna: ogni numero identifica in maniera univoca un indirizzo, infatti assume valori
sempre diversi, unici. Poi nell'ultima colonna presente una chiave secondaria, infatti
assume valori ripetuti. Questa, si detto, una reference, quindi punta a un'altra chiave: la
chiave primaria della tabella citt.
Allo stesso modo i numeri nell'ultima colonna della tabella Persone rappresentano una
chiave secondaria che punta alla chiave primaria della tabella indirizzi.
SCHEMA DEL DATABASE
Le frecce nell'esempio precedente mostravano dove la chiave puntava, sottintendono,
quindi la relazione tra le tabelle:
Qui indicato lo schema del data base in cui sono elencati i nomi dei campi delle tabelle,
e la freccia indica la relazione tra esse. La colonna Ref_Citt della tabella Indirizzi punta
alle chiavi primarie della colonna Pkey_Citt della tabella Citt.
In rosso sono indicati i tipi di file relativi ad ogni campo. Il tipo di file fa parte degli attributi,
alle chiavi primarie assegnato in fatti un numero non-nullo. Al campo nome associata
una stringa ossia un insieme di caratteri e numeri, ed vi associato anche un limite
massimo di 20 caratteri, perch difficile trovare un nome pi lungo di 20 lettere.
Nel campo Ref_Citt vediamo presente un numero, questo numero dallo schema di
prima sappiamo che punta a una chiave primaria, una Pkey, e vediamo, infatti, che come
attrivuto hanno numero-non-nullo.
VANTAGGI DEL DATABASE RELAZIONALE
Per prima cosa il database relazionale grazie all'utilizzo delle relazioni snellisce molto la
gestione dei dati perch elimina le ridondanze e le possibilit di errore in quanto elementi
che si ripetono pi volte si segnano 1 sola volta devono essere immessi effettivamente 1
sola volta, poi grazie al sistema delle chiavi vengono associati a tutti i record che
posseggono quel dato.
Inoltre anche la ricerca dei dati viene molto velocizzata, perch grazie all'utilizzo delle
chiavi il software pu fare un retrieval molto semplice, basandosi direttamente sulle chiavi,
a differenza del database flat in cui per recuperare qualsiasi dato bisogna confrontare riga

per riga con la query.


Per esempio, se in un database flat volessimo trovare tutte le persone che abitano in Via
Roma 21, significa che il software dovrebbe cercare nel campo indirizzi tutti quelli che
presentano la stringa Via Roma 21, per un computer significa confrontare carattere per
carattere tutta la stringa con la query.
In un database relazionale invece di cercare la stringa, si cercano tutti i record che
presentano la Ref_key che punta a quell'indirizzo. Nella fattispecie Via Roma 21 ha come
chiave primaria 1, per cui dobbiamo trovare tutti i record che nella tabella Nomi hanno nel
campo Ref_Indirizzi il numero 1 (che infatti punta al record Via Roma 21 nella tabella
Indirizzi). Questo tipo di confronto molto pi semplice per il software, perch deve
confrontare un unico numero. Il risultato di questa ricerca sar: Mario Rossi, Anna Bianchi,
Luigi Rossi.
DATABASE BIOLOGICI
Inizialmente a causa della complessit dei database, e per il fatto che la sequenza di un
gene o di una proteina era praticamente l'unica informazione veramente rilevante, i
database biologici erano organizzati in flat files.
Oggi i dati sono archiviati e gestiti in RDBMS, ma sono tutt'ora scambiati e distribuiti come
flat files, sebbene con una struttura complessa.
EMBL record
Un record di EMBL praticamente un file di testo, organizzato in righe.
Ogni riga ha un identificativo, chiamato tag, composto da 2 lettere che descrive il
contenuto della stessa.
Per esempio ID sta per identification number, AC access number, DE description, OS
organism source, OC organism classification, DT data, XX riga vuota, // fine del file.
KW contiene le keyword ossia le parole chiave da supporto al motore di ricerca delle
sequenze.
Esistono blocchi di tag come quelli di reference in cui si trovano sempre nello stesso rigido
ordine i seguenti tag: RN, RP, RA, RT e RL. RN indica il reference number, RP la data di
pubblicazione, poi RA con gli autori, RT il nome della pubblicazione e RL il giornale in cui
stata pubblicata.
Solo alla fine compare il tag SQ che contiene la sequenza nucleotidica vera e propria, che
quindi costituisce solo una piccola parte di tutte le informazioni contenute nell'entry.
Questo tipo di record nasce, essenzialmente, da un adattamento dei vecchi database flat,
infatti presenta numerosi difetti.
Per prima cosa l'attributo dichiarato all'interno stesso di ogni file, invece di essere parte
del data model.
L'ordine dei tag ben definito, rigido, questo perch ad esempio esistono record
multilinea, o gruppi di tag che vanno intesi come facenti parte di un blocco o come
sottorecords, come succede per le reference.

Alcune parti sono gerarchiche, ossia esistono tag che devono essere posti
necessariamente prima di altri per avere senso, questo succede nelle feature table: la
feature table nient'altro che una tabella, o meglio, la descrizione di questa in modo da
adattarla dentro la struttura del file flat dell'embl record.
Per fare ci, ovviamente, bisogna utilizzare un linguaggio standard, nella fattispecie in
EMBL esiste un tag iniziale chiamato FH che sta per feature table header, in cui vengono
dichiarate le colonne della tabella, per esempio key e location/qualifier, e poi una
sequenza di tag FT, che descrivono ognuno un rigo della tabella e che fa uso di segnali
particolari per esempio con /codon start=1 si indica che il primo nucleotide della sequenza
successiva proprio quello codificante la metionina di inzio della ORF, oppure
/organism='Homo sapiens', indica che la sequenza stata isolata dal genoma umano. Altri
esempi sono /translation='...' con la traduzione della ORF, /cell_type, /tissue_type...
Questo ovviamente un metodo abbastanza macchinoso, proprio per la sua struttura
intrinsecamente complessa e la necessit di utilizzare un linguaggio standard.
Infine questo tipo di record presenta anche una certa quantit di ridondanza, infatti tutte le
sequenze di un determinato organismo avranno sempre ripetuti i blocchi di reference
relativi a fonte di provenienza e tassonomia, o tutte le sequenze inviate da uno stesso
gruppo presenteranno il medesimo blocco di reference.
Logicamente noi non visualizziamo il record tal quale come descritto, ma un programma
elabora il file e ce lo presenta in maniera pi user-friendly e quindi pi comprensibile.
EMBL DB
Ad oggi il database EMBL contiene quasi 205 miliardi di nucleotidi in circa 128 milioni di
entries. Se osserviamo com' evoluta la quantit di dati archiviati, possiamo notare che
questa cresciuta in maniera esponenziale dal 94, e la curva molto rapida e non
accenna ad arrestarsi. Inoltre oggi la maggior parte delle sequenze non di provenienza
umana, ma homo sapiens solo uno dei molti organismi di cui si completato e si sta
completando il progetto genoma.
Si guardano sempre entries e nucleotidi per un fatto molto semplice. Se guardiamo, ad
esempio, alle classi di dati archiviati, vediamo per esempio che la quantit di nucleotidi
provenienti da Whole Genome Shotgun sono quasi il doppio rispetto alle entries, questo
perch i frammenti sequenziati per WGS sono pochi, ma molto lunghi; se invece
osserviamo il rapporto entries/nucleotides per le sequenze EST vediamo che
completamente l'opposto, e cio il numero di entries un quarto rispetto al numero di
nucleotidi, infatti le EST che essendo sequenze parziali di mRNA sono molto corte, ma
possono essere ottenute molto facilmente.
Questo costituisce un problema critico dal punto di vista informatico perch si chiede di
archiviare una quantit crescente di dati, relazionarli tra loro, e soprattutto velocizzare i
processi di ricerca all'interno del database, che come sappiamo si basano sul confronto
della nostra query con TUTTI i record del DB, il ch un problema ancora pi grande
essendo i DB biologici tutt'ora basati su file flat.

ALTRI DATABASE
Per prima cosa definiamo la differenza tra banche dati primarie e secondarie. Le banche
dati primarie sono quelle che contengono direttamente la sequenza nucleotidica o
amminoacidica, come EMBL, DDBJ, Genebank per gli acidi nucleici e SwissProt, TrEMBL
per le proteine; le banche dati secondarie sono quelle che basano le loro informazioni
recuperandole da quelle primarie come PFAM, Ensembl. La differenza non cos netta,
esistono infatti DB non facilmente classificabili come PDB che archivia strutture
tridimensionali di proteine o anche acidi nucleici: l'informazione di struttura non
direttamente evincibile dalla sequenza, per cui, se vogliamo, questa banca dati fornisce
un'informazione primaria, ma non si tratta di una sequenza, quindi dovrebbe essere
secondaria. Altri esempi sono Rebase che un DB degli enzimi di restrizione, LocusLink
un DB di loci genici.
Tra il 1965 e il 1978 nasce il primo database storico Atlas of Protein Sequences and
Structures che nell'81 diventato PIR, nel 1982 nasce Genebank. Esistono oggi circa
1000 databases. La rivista NAR nucleic acid research si specializzata nei database
biologici e nel 2008 ha rilevato 1078 DB funzionanti. Ha creato la Molecular Biology
Database Collection che praticamente una banca dati di banche dati.
SWISSPROT RECORD
E' organizzato in modo molto simile a un record di EMBL, cio un file di testo, organizzato
in righe con un tag iniziale di 2 lettere. Anche questo contiene record multilinea come OC,
organism classification, e sottorecord o gruppi di record come il blocco reference, contiene
inoltre reference incrociate e link con altri DB.
Ovviamente contiene informazioni sulla proteina, oltre la sequenza, domini
transmembrana, folding conosciuti, mutazioni conosciute; anche qui sono organizzati nella
feature table. Esiste anche un tag CC, commenti, che contiene invece informazioni
abbastanza generiche, ma, se vogliamo, utili come la funzione, localizzazione cellulare,
tessuto specificit e anche informazioni sul copyright.
TrEMBL RECORD
I record di TrEMBL derivano tutti direttamente da record EMBL. TrEMBL significa, infatti,
translated EMBL (ossia EMBL tradotto): i file invece di tenere sequenze di nucleotidi
contengono sequenze ipotetiche di amminoacidi. Queste sono in un certo senso primarie
perch sono costruite de novo, ma si tratta di un DB secondario perch queste sono
attinte da EMBL.
Se la sequenza ipotetica confermata, il recordo viene trasferito, tal quale, in SwissProt.
In un certo senso a ogni ondata di genomi sequenziati il database di TrEMBL si
ingrandisce, poi man mano che le proteine vengono studiate e ne viene confermata la
sequenza TrEMBL si accorcia.
PDB RECORD

E' stato gi descritto quando si parlato dell'homology modelling, comuque vale la pena
ricordare che anche questo tipo di record strutturato similmente a quelli gi descritti, solo
che qui i tag sono a pi caratteri.
La parte essenziale del record l'annotazione spaziale di tutti gli atomi della proteina.
CONSORZI
Le varie banche dati incominciano ad associarsi per mettere insieme le conosce, i dati e
fornire un DB unico e comprensivo di tutto. Un esempio di questi UniProt, costituito
dall'unione di SwissProt, TrEMBL e Pir. Da questa unione nato un DB con pi
componenti tra cui UniProt Knowledgebase che il central access point, per cercare
informazioni su funzione, classificazione e cross-reference, poi ci sono UniProt Nonredundant Reference (UniRef) che accelera le ricerche combinando sequenze
strettamente correlate in un singolo record, e infine UniProt Archive (UniParc) che
raccoglie la storia di tutte le sequenze proteiche.
ALTRI DB DI INTERESSE
REF SEQ
DB di sequenze ma non ridondante
LOCUSLINK
DB di loci genici
OMIM
DB di malattie genetiche a trasmissione mendeliana
SNPs
DB di polimorfismi
PUBMED
DB di reference bibliografiche
TAXONOMY
DB di tassonomia degli organismi
REBASE
DB di sequenze riconosciute da enzimi di restrizione
GENEONTOLOGY
E' un DB di definizioni di biologia ed uno dei pochissimi esempi
di DB relazionale
RELAZIONI TRA I DATABASE
Il problema principale dei flat database la ridondanza di informazioni, e quindi la mole di
queste che deve essere archiviata. Questo un problema che tutt'ora affligge molti DB,
come per esempio PIR che diviso in 2 sezioni Domini e Superfamily map che in larga
parte condividono i dati forniti come la sequenza, e spesso capita che le sequenze
annotate nelle 2 non coincidano.
Se poi ci mettiamo nei panni del ricercatore che vuole sfruttare questi DB la situazione
sconfortante. Abbiamo visto che le banche dati esistenti sono moltissime, e ognuna ha il
suo formato, quindi per prima cosa bisognerebbe prendere confidenza con ognuno di
questi.
Poi ogni database ha un suo strumento di query, che adattato sul suo formato, sul suo
data model. Questo significherebbe che se uno volesse sfuttare tot DB dovrebbe imparare
tot query tools.
Si cercato di ovviare a questi problemi integrando tra loro i dati delle differenti DB tramite

un unico tool.
Si sono tentati 3 approcci:
l View integration (K2)
l Data warehouse (Entrez)
l Link integration (SRS)
VIEW INTEGRATION (K2)
La View integration lascia le informazioni nei DB sorgente, cio non copia le informazioni,
ma costruisce attorno ad essi un ambiente che fa sembrare all'utente come facenti parte di
un unico sistema, quello che in realt l'integrazione di molteplici formati. EMBL e
GeneBank giustamente hanno formati diversi, mostrano informazioni leggermente diverse,
nell'ordine diverso, nonch con un formato diverso, ma attraverso la View integration le
informazioni diverse vengono integrate tra loro e mostrate in un'unica interfaccia, che
risulta all'utente molto pi comprensibile.
Il sistema si basa su un language processor che analizza la query, sceglie i database
necessari a soddisfare la richiesta di search, e genera tante subqueries che sono adattate
ad estrarre informazioni dai database scelti.
Recuperate le informazioni, queste vengono integrate e mostrate all'utente come un tutto
unico.
Un esempio di questo sistema K2 che era un linguaggio che permetteva di fare questo
lavoro di connettersi alle sorgenti, recuperare dati e mostrarli. La query si faceva in un sito
internet.
Non ha avuto successo per diversi motivi: per prima cosa per il fatto che non copiando i
dati dai database, ma accendendo a loro ad ogni query, nel momento in cui la rete down
(cio non funziona), non era possibile recuperare informazioni. Inoltre era un sistema
intrisencamente lento, per il modo in cui funzionava.
DATA WAREHOUSE (ENTREZ)
Questo sistema recupera tutti i dati dai DB, quindi copia la roba (ware) e la conserva in
loco (house). Questi dati sono poi accomodati in un proprio data model. Alla base ci sono
una serie di software che prendono i dati dalle banche sorgente, trasforma questi dati
adattandoli nel proprio data model e poi li caricano nella warehouse.
Questo tipo di sistema adottato da Entrez: questo integra dati di letteratura, database di
sequenze di DNA e proteine, strutture 3D, dati sui domini, studi di popolazione, studi di
espressione, informazioni tassonomiche e numerosi crosslink. Entrez scarica intere
banche dati e ne riorganizza i dati in nodi di una rete, per esempio DB come Pir,
SWISSPROT e PDB andrebbero a far parte del nodo Protein, EMBL e GenBank di quello
Nucleotide.
In quanto facenti parte di una rete, i nodi sono ovviamente interconnessi tra loro, e dato
l'alto numero di DB sorgente e di nodi, il sistema diventa talmente complesso che Entrez
non viene distribuito, non si pu downloadare interamente.

LINK INTEGRATION (SRS)


In questo sistema non si crea un nuovo data-model, non si trasformano i dati, ma si
sfruttano semplicemente i crosslink gi segnati nei data model di ogni banca.
Ogni DB ha pi o meno provveduto a relazionarsi alle altre tramite i cross-link, ossia i
collegamenti ad altre banche, ognuna ha link solo verso certe altre, per presi in toto
possibile raggiungerle tutte.
Un sistema di questo genere SRS (Sequence Retrieval System).
SRS un tool che permette l'accesso rapido ad un grande numero di database biologici,
che possono essere querati per stringhe o numeri. Il sistema lavora su flat-file database,
ma oggi anche su DB relazionali.
SRS si basa su un sistema di indicizzazione per cui tutti i flat-file vengono letti e le
informazioni utili vengono filtrate, queste poi vengono indicizzate, ossia viene annotata la
posizione di una certa parola, informazione, all'interno del file. SRS poi ad ogni query
consulta gli indici per recuperare i dati che la soddisfano.
Il sistema degli indici permette di eliminare l'eterogeneit dei file dei singoli DB consultabili,
perch ognuno di questi indici consultabile dallo strumento di search allo stesso modo, e
quindi li si possono interrogare sempre attraverso la stessa query form.
Lo strumento che si occupa dell'indicizzazione il parser, questo, in un certo senso,
individua la struttura grammaticale del flat-file e lo suddivide in elementi singoli chiamati
token, che sono dei blocchetti di testo. Di questi token, ossia queste parole rilevanti, ne
archiviata la posizione in un indice, che ha sempre la stessa struttura e si gestisce sempre
allo stesso modo.
Il parsing permette per prima cosa di uniformare il formato degli indici per tutti i DB, e
permette di presentare i dati in maniera leggibile. Facciamo un esempio pratico: nei record
delle sequenze segnata la data, ora ogni DB ha scelto un suo modo di scriverla, alcuni
esempi possono essere 09-oct-1975 09/10/75 10/09/1975 19751009 e cos via.
Ovviamente il programmatore sa come sono scritte le date nei singoli data-model e ha
creato il parser in modo da saperle interpretare e riscriverle tutte allo stesso modo, cos da
presentarle all'utente scritte sempre in un solo e unico modo, senza che debba impararsi
anche lui tutti i modi di scrivere una data.
Quindi partendo da una query (cerca la sequenza del gene p53), che sostanzialmente
chiede di cercare una parola o una serie di parole (sequenza, gene, p53), si compie una
ricerca di questa all'interno degli indici. Se la parola trovata, l'indice punter a una certa
posizione, ossia a un certo record che conterr molto probabilmente l'oggetto della nostra
ricerca.
Il funzionamento sembra analogo a quello di un engine di ricerca sul web come Google,
ma in realt non cos, perch la query presa alla lettera quindi si recuperano risultati
identici e non simili ad essa, inoltre i risultati non sono ranked ossia non hanno attribuiti
uno score di similariet, mentre invece Google non solo cerca tutto ci che assomiglia
vagamente a quello che stai cercando, ma te lo ordina anche per grado di similarit.

Questo significa che i risultati dipendono molto dalla qualit dei database, ma soprattutto
dalla qualit degli indici e della query, perch sapere cosa viene indicizzato dei DB e cosa
no, ti permette di fare una query intelligente chiedendo cose che sai di poter trovare negli
indici.
SUBENTRIES
Uno dei problemi che ha dovuto affrontare SRS sono le SubEntries, ossia quello che
succedeva in EMBL con i blocchi di reference. All'interno dei DB originali questo problema
non esiste, perch ognuno conosceva il proprio data-model e organizzava il blocco
reference con l'ordine prefissato.
I blocchi di reference hanno tag ripetuti tutti uguali, ma contengono informazioni
sostanzialmente diverse, per esempio se nel primo blocco reference c' l'autrice Rose che
ha scritto su Nature, e nel secondo l'autore Peppe che ha scritto su PNAS, queste sono
informazioni diverse, ma se noi facciamo una ricerca Rose&PNAS, il search ci ritorna
quelle 2 pubblicazioni perch Rose e PNAS fanno parte dello stesso record, ma il risultato
sbagliato perch in realt a noi interessava una certa Rose che ha scritto su PNAS, che
non presente nel risultato del search.
Lo stesso problema si crea nelle feature table, in cui con uno stesso Tag (FT)
immagazzinata una quantit molto varia di informazioni, come domini, tessuti di
espressione, ecc.
Il parser risolve questo problema perch conosce la struttura di questi blocchi, li legge
nel modo opportuno, li isola uno dall'altro e lo associa ad un ID artificiale, cos ogni
blocchetto di reference ha un proprio ID e ogni pubblicazione viene considerata a s.
LINK IN SRS
I links in SRS possono essere di 2 tipi:
l Hypertext links
l Indexed links (index-links & read links)
L'hypertext link il tipo collegamento internet, un link di connessione anonimo che non
lascia traccia, non si conosce n da dove viene, n dove va. Gli indexed links invece
tengono traccia di origine e destinazione, il sottotipo indexed indicizzato sia in origine
che in destinazione, il read-link indicizzato solo da una parte.
Nel lato sinistro di questa figura si pu notare un elenco di record A e B. Alcuni record A
sono relazionati con B, per esempio A1 relazionato con B3.
Inizialmente in alto a sinistra vediamo che l'ID collegato ad A1, e il DR a B3. Dopo che le
relazioni vengono indicizzate e il risultato che l'ID B3, e DR A1 e A2, infatti si vede
che A1 inziale relazionato con B3, mentre B3 relazionato con A1 e A2.
Quando facciamo una ricerca e vogliamo sapere tutti i record di B che sono relazionati ad
A (A>B o B
Se invece vogliamo sapere tutti i link di A relazionati con B (AA), otteniamo A1, A2, A3 e
A4, che sono i record da cui partono le frecce verso B.
L'indexed link creato confrontando 2 indici per esempio vengono linkati EMBL e

GenBank perch utilizzano entrambi un access number.


Il read link creato estraendo i token da un DB e confrontandoli con l'indice di altri DB. Per
esempio si estrae dai cross link di SwissProt l'access number della rispettiva entry di
EMBL e la si va a cercare nell'indice degli access number di EMBL. Il risultato sar un link
SwissProt EMBL. Gli indexed link sono bidirezionali, difiniti una sola volta,
indipendentemente dai link HTML e possono essere definiti all'interno di un DB.
Proprio a causa dell'esistenza di questa rete di crosslink, si vengono a creare alcuni
problemi, uno di questi sta nella scelta del path, del percorso da seguire per raggiungere
database non connessi direttamente, ossia i nodi, i DB, da attraversare per collegare 2
database senza un link diretto.
Per esempio se io volessi conoscere a partire dalla sequenza nucleotidica la struttura 3D
di una proteina codificata dal mio gene. Questo significa procedere da EMBL (sequenza) a
PDB (struttura 3D). Ovviamente una sequenza nucleotidica ha ben poco a che fare con
una struttura 3D di una catena amminoacidica, per cui facile immaginare che EMBL e
PDB sono siano direttamente connessi tra loro. Per andare da un database all'altro
bisogna in teoria passare attraverso una banca dati di sequenze proteiche, ma queste
sono molte, per esempio c' SwissProt, ma anche SwissNew. In linea di massima i 2 path
sono equivalenti, ma come si fa a scegliere tra loro? SRS attribuisce ai collegamenti un
certo peso, per cui andare da EMBL a SwissProt pesa 5, poi andare da SwissProt a PDB
pesa altri 5, il peso totale di questo path 5 + 5, cio 10. Passare per SwissNew invece
pesa 15 + 15, cio 30. SRS sceglie il path con il peso totale minore, quindi in questo caso
passer per SwissProt invece che per SwissNew.
ENSEMBL
Fin'ora si parlato di annotazioni di singoli geni o proteine, ma oggigiorno si sequenziano
interi genomi, per cui si pone il problema dell'annotazione genomica, ossia di quali modi,
segnali, utilizzare per descrivere un genoma.
Una delle banche dati che ha affrontato questo problema Ensembl, che un progetto
congiunto tra EMBL EBI (European Bioinformatics Institute) e WTSI (Wellcome Trust
Sanger Institute), che ha sviluppato un software che produce e mantiene un'annotazione
accurata e automatica di alcuni genomi eucariotici.
L'annotazione di base del genoma comprende:
Geni
l Locazione genomica
l Struttura del gene (esoni, introni, UTR)
l Trascritti (pseudogeni e RNA non-codificante)
l Proteine
l Link per altre sorgenti di informazione
L'annotazione avanzata include per:
l bande citogenetiche

l
l
l
l
l
l

markers polimorfici (STS sequence tagged sites)


variazione genica (SNPs, DIPs, STRs)
sequenze ripetute
expressed sequence tags (ESTs)
cDNA e mRNA da specie correlate
regioni di omologia di sequenza

Il sistema ENSEMBL parte dalle sequenze genomiche, che vengono elaborate da CPU nel
database di analisi, quando poi la sequenza pronta viene caricata nel database finale,
affiancato da altri DB di supporto. Sono questi che poi l'utente consulta attraverso
l'interfaccia web chiamata MartView.
L'analisi della sequenza genomica molto accurata e richiede molto tempo, infatti per
vedere una propria sequenza inclusa nel DB di ENSEMBL sono necessari 3-6 mesi.
ENSEMBL basato su un server-database che fa uso di mySQL, e il l'ensembl databaseserver direttamente disponibile on-line.
L'interfaccia web abbastanza intuitiva si parte dalla scelta dell'organismo, poi se ne
visualizzano i cromosomi, se ne sceglie uno, e via via si pu scendere man mano a livelli
di zoom sempre pi alti fino a raggiungere la sequenza genetica interessata.
BIOMART (www.biomart.org/martview)
BioMart un search engine specializzato nel data mining. E' capace di gestire ricerche
con moltissimi parametri e porre i risultati in una tabella. Non sono richieste competenze di
programmazione e l'interfaccia abbastanza user-friendly.
Si possono scegliere il database o il gruppo di DB in cui effettuare la ricerca per esempio
ENSEMBL, chiamato data set e poi impostare numerosissimi attributi, per esempio in quali
organismi ricercare, se la sequenza conosciuta o meno, in quali cromosomi, ma ad
esempio interagisce anche con GeneOntology, per cui possibile ricercare tutti i geni
associati a una certa definizione di GeneOntology, per esempio tutti gli oncogeni, tutti i
geni coinvolti nel metabolismo di una sostanza, tutti i geni espressi in un certo tipo di
tessuto o in una certa patologia.
Si possono infine applicare filtri sul geneset ricercato.
Quindi un potentissimo strumento di ricerca che permette di decidere:
l specie di interesse (Dataset)
l cosa conoscere di un gene, tipo sequenza, ID, descrizione (Attributes)
l decidere su un geneset pi piccolo (Filters)
Il risultato finale, abbiamo detto, una tabella, in cui si possono settare gli attributi da
mostrare, tipo il nome del gene, la regione genica, ecc oltre ovviamente all'ID del gene o
del trascritto di ENSEMBL, che un vero e proprio hypertext-link cos si pu raggiungere il
direttamente il nostro target.

Vous aimerez peut-être aussi