Académique Documents
Professionnel Documents
Culture Documents
Fontana Paolo
Fondazione Edmund Mach
- Se un frammento completamente contenuto allinterno di un repeat ci possono essere pi posizioni dove piazzarlo e se le copie non sono esttamente uguali pu causare errori nel consenso finale. - I repeat possono essere posizionati in modo tale da causare ambiguit, quindi due o pi layout sono compatibili con i frammenti in input.
Per ordinare i contigs e quindi creare uno scaffold si fa ricorso alle BAC ends (reads poste allestremit di un BAC).
We do know that organisms such worms and flies appear to have about 13 000 to 20 000 protein-coding genes, while plants, mice, and humans have only lightly more (about 20 thousand to 40 thousand genes). Why do organisms such as humans, having so much greater biological complexity than insects and nematodes, have not even twice as many genes? The genes of higher eukaryotes employ more complex forms of gene regulation, such as alternative splicing. Also architecture of individual genes tends to be more complex, for example with more domains present in an average human protein relative to insects.
Landmarks? Signals?
(hard to see)
5 Intergenic Exon
Intron
Exon
Intron
Exon Intergenic
5 UTR
3 UTR
ATG . . . GT
start codon
exon
intron
AG
...
exon
intron
GT
AG . . . TGA
exon
Regions of the gene outside of the CDS are called UTRs (untranslated regions), and are mostly ignored by gene finders, though they are important for regulatory functions.
Types of Exons
Three types of exons are defined, for convenience: initial exons extend from a start codon to the first donor site; internal exons extend from one acceptor site to the next donor site; final exons extend from the last acceptor site to the stop codon; single exons (which occur only in intronless genes) extend from the start codon to the stop codon:
ggtgag caggcc
Extrinsic (similarity-based)
Spliced alignment: GenomeScan, EuGene, FGENESH+, FGENESH_C, GeneId+, AUGUSTUS, etc; Genomic comparison: TwinScan, TWAIN, SLAM, SGP, FGENESH_2, etc;
Genscan
Generalized Hidden Markov Model (GHMM) loutput di uno stato pu essere una stringa di lunghezza finita. Inoltre la distribuzione di probabilit pu non essere la stessa per tutti gli stati: per esempio uno stato pu utilizzare una matrice di pesi per generare la sequenza di output, mentre un altro stato potrebbe usare un HMM. Gli stati corrispondono alle unit funzionali di un gene (promotore, esoni, introni, ) e le transizioni tra uno stato e laltro devono essere biologicamente consistenti.
Omologia: due geni o proteine si dicono omologhi se derivano da un progenitore comune Lomologia un carattere qualitativo a cui non pu essere attribuito un valore percentuale Similarit una funzione che associa un valore numerico a un paio di stringhe Ci sono due diversi tipi di omologia:
1. Due sequenze omologhe si definiscono ortologhe se appartengono a due specie diverse e il loro processo di divergenza ha avuto origine in seguito al processo di speciazione da cui le due specie in questione hanno avuto origine. Due sequenze omologhe si definiscono paraloghe se il loro processo di divergenza ha avuto origine in seguito a un processo di duplicazione genica
2.
AGSGYWKATGTDKVITTEGRKVGIKKALVFYIGKAPKGTKTNWIMHEYRLLENSRKNGSSKVD
ALLINEARE
AGSGYWKATGADKPIGLPKPVGIKKALVFYAGKAPKGEKTNWIMHEYRLADVDRSVRKKKNSLRLD
ALGORITMO
1. Il primo passo per procedere allallinemento di due sequenze decidere lo score o punteggio da assegnare ai match, mismatch e gap
2. Costruzione di una matrice nxm (n la lunghezza di S 1 e m di S2) dove ogni lettera di S1 confrontata con ogni lettera di S2 e per ogni confronto effettuato assegnato un punteggio in base agli score decisi in precedenza. 3. Dalla matrice si ricava la sequenza con score globale maggiore
A 0 A G C A C A C A 1 2 3 4 5 6 7 8 1 0 1 2 3 4 5 6 7
C 2 1 1 1 2 3 4 5 6
A 3 2 2 2 1 2 3 4 5
C 4 3 3 2 2 1 2 3 4
A 5 4 4 3 2 2 1 2 3
C 6 5 5 4 3 2 2 1 2
T 7 6 6 5 4 3 3 2 2
T 8 7 7 6 5 4 4 3 3
Algoritmi troppo lenti per poterli applicare nella ricerca di similarit contro gli attuali database biologici
BLAST
Il BLAST si basa su un algoritmo euristico, ci significa che l'allineamento prodotto non esatto. Lalgoritmo del BLAST pu essere diviso in tre parti. 1) 2) Leggere tutte le parole di lunghezza W contenute nella sequenza query; per ognuna di queste generata una lista di parole affini che producono uno score maggiore a una soglia T quando allineate con la parola della query. Analizza tutte le sequenze della banca dati ricercando la presenza di W-mers corrispondenti esattamente alla lista delle parole precedentemente prodotte. 3) Verifica se e quanto sia possibile estendere ogni hit. Questo processo svolto cercando di estendere lallineamento in entrambe le direzioni senza inserire gap. In questo modo si ottiene un HSP (High-scoring Segment Pair) non ulteriormente estendibile. Il parametro S definisce una soglia di score sopra la quale un HSP ritenuto degno di attenzione.
Oltre a W, T e S c un altro parametro importante X che determina quanto il programma deve insistere su un hit di W-mer prima di fermarsi La statistica che sta alla base del BLAST consente inoltre di mettere in relazione il valore di S con il numero atteso di HSP che raggiungono tale soglia in una banca di sequenze casuali della stessa S grandezza di quella considerata. E=kmne
FUNZIONE?
With BLAST's seed model if a hit at position i is identified, the chance to have a second hit at position i+1 is very high because it requires only one extra base match. The dependency between the hits makes the detection of homologs less efficient: many regions will have more than one hit, which is unhelpful, while many other regions will be missed.
number of TP
Sopra il 30% di identit il 90% delle sequenze risultano essere omologhe alla query, sotto il 25% meno del 10% lo sono.
AGSGYWKATGTDKVITTEGRKVGIKKALVFYIGKAPKGTKTNWIMHEYRLLENSRKNGSSKVD
ALLINEARE
AGSGYWKATGADKPIGLPKPVGIKKALVFYAGKAPKGEKTNWIMHEYRLADVDRSVRKKKNSLRLD
ALGORITMO
Esistono metodi pi fini per la ricerca di sequenze proteiche correlate funzionalmente o strutturalmente? Lidea consiste nellindividuare quei domini o posizioni conservate e quindi sottoposte a un vincolo strutturale o funzionale allinterno di proteine appartenenti alla stessa famiglia
Allineamento multiplo
Lallineamento multiplo di tre o pi sequenze pu essere definito come unipotesi di omologia posizionale tra basi o aminoacidi
1YEA 1YCC 2PCBB 5CYTR 1CCR 1CRY 1HROA 1CXC 1C2RA 155C 2C2C 2mtac AKESTGFKPGSAKKGATLFKTRCQQCHTIEE-------GGPNKVGPNLHGIFGRHSGQVK ----TEFKAGSAKKGATLFKTRCLQCHTVEK-------GGPHKVGPNLHGIFGRHSGQAE ---------GDVEKGKKIFVQKCAQCHTVEK-------GGKHKTGPNLHGLFGRKTGQAP ---------GDVAKGKKTFVQKCAQCHTVEN-------GGKHKVGPNLWGLFGRKTGQAE -ASFSEAPPGNPKAGEKIFKTKCAQCHTVDK-------GAGHKQGPNLNGLFGRQSGTTP ---------QDAASGEQVFK-QCLVCHSIGP-------GAKNKVGPVLNGLFGRHSGTIE -----SAPPGDPVEGKHLFHTICITCHTDIK-------G-ANKVGPSLYGVVGRHSGIEP -------QEGDPEAGAKAFN-QCQTCHVIVDDSGTTIAGRNAKTGPNLYGVVGRTAGTQA ---------GDAAKGEKEFN-KCKTCHSIIAPDGTEIVKG-AKTGPNLYGVVGRTAGTYP -------NEGDAAKGEKEFN-KCKACHMIQAPD-GTDIKG-GKTGPNLYGVVGRKIASEE --------EGDAAAGEKVSK-KCLACHTFDQ-------GGANKVGPNLFGVFENTAAHKD -----APQFFNIIDGSPLNFDD-----AMEEGRDTEAVKHFLETGENVYNEDPEILPEAE . * : * : . .
Osservando un allineamento multiplo di sequenze proteiche correlate tra di loro si possono notare delle regioni conservate tipicamente di 20-30 aminoacidi.
Lidea di base consiste nel classificare sequenze diverse come appartenenti alla stessa famiglia se in possesso degli stessi motivi. Per raggiungere tale scopo un metodo consiste nel definire dei profili: cio quali residui sono permessi in una certa posizione, quali sono altamente conservati o degenerati e quali posizioni o regioni possono tollerare inserzioni o delezioni.
N sequenze omologhe
Determinare un albero guida basato sui punteggi di similarit tra tutte le coppie
Scegliere la coppia di sequenze con il pi alto grado di similarit e ragrupparle in un cluster fissandone lallineamento Il multi allineamento comprende tutte le sequenze
Allineamento multiplo
Dato un allineamento multiplo di un set di sequenze, un profilo per quel allineamento indica la frequenza con cui ogni carattere appare in una determinata colonna. C1 C2 C3 C4 C5 A .75 T .75 .25 .75 .25 .50
Spesso i valori di un profilo sono convertiti in rapporto logaritmico. Se p(y,j) rappresenta la frequenza del carattere y nella posizione j e se p(y) indica la frequenza con la quale il carattere y appare ovunque nellallineamento multiplo, allora il valore log p(y,j)/p(y) usato come entry nella matrice del profilo. Per un carattere y e una colonna j, sia p(y,j) la frequenza con cui il carattere y appare [ s ( x,y ) p ( y,j ) ] nella colonna j del profilo e inoltre S(x,j) indichi lo score per allineare x con la colonna j
Questo concetto pu essere applicato in biologia per lidentificazione di proteine appartenenti ad una stessa famiglia: infatti posso definire un set di posizioni che in una sequenza sono pi o meno conservate. Per raggiungere questo scopo definisco una catena lineare di stati di match, di inserzioni e delezioni che si riferiscono ad un allineamento multiplo di proteine ( profilo).
Lo scopo di tutto questo lavoro trovare un modello che assegni unalta probabilit a quelle sequenze proteiche che appartengono alla stessa famiglia; cos facendo otteniamo un set di stati e transizioni con i quali possiamo valutare la probabilit di una sequenza ignota di appartenere ad una determinata famiglia proteica. Naturalmente ci sono pi cammini possibili che possono generare la stessa sequenza: bisogna trovare quello giusto ovvero che massimizza il punteggio.
Vantaggi
Solida base statistica Possono essere utilizzate in un numero notevole di task come il data mining con lo scopo di classificare dati biologici, analisi di struttura di proteine, pattern discovery, ecc.
Svantaggi
Overfitting: a causa dei dati di partenza in una famiglia proteica alcuni membri potrebbero essere sovrarappresentati pesando cos troppo nella costruzione del modello e rendendolo troppo stringente. Ottengo un modello lineare che non in grado di descrivere correlazioni superiori allinterno di una proteina: come per esempio legami a ponte di idrogeno, ponti disolfuro ecc. che possono avvenire tra aminoacidi distanti tra loro, ma vicini a causa del fold della proteina.
Mediante le tecniche viste ci si deve confrontare con lenorme quantit di dati disponibili nei database biologici pubblici La Figura illustra la crescita dei dati relativi alle sequenze di DNA, dallavvento delle tecniche di sequenziamento nel 1975 ai giorni nostri. Aumento cumulativo di articoli di biologia molecolare e di genetica (linea tratteggiata) e dei record di sequenze di DNA in GenBank (linea continua). Si noti come laumento esponenziale dei dati di sequenza abbia portato, intorno alla met degli anni 90, ad uninversione delle posizioni. Oggi, lenorme quantit di dati non consente di tenere il passo con le pubblicazioni scientifiche che dovrebbero descriverli. (Adattato da M.S. Boguski, Science 286, 453-455, 1999).
Uno dei principali task della bioinformatica ordinare i dati e ricavarne informazioni utili e fruibili per la comunit scientifica
data-mining
ed il processo attraverso il quale si raggiunge la conoscenza dallanalisi dei dati presenti, ad esempio, nelle banche dati primarie e che in grado di generare le banche dati secondarie o specializzate va sotto il nome di:
Selezione Tresformazione
Data Mining
Valutazione Visualizzazione
Patterns
Knowledge Knowledge Base Base
Knowledge
Knowledge Application
Data
ONTOLOGY is a way to capture knowledge in a written and computable form. This means that the computer finds patterns so we dont have to. IN PHILOSOPHY Ontology (from Greek) is the philosophical study of the nature of being, existence or reality in general, as well as of the basic categories of being and their relations. IN COMPUTER SCIENCE Ontology is a formal representation of a set of concepts within a domain and the relationships between those concepts
Gene Ontology
mRNA synthesis DNA directed rna synthesis
Transcription
Gene expression
id: GO:0006352
The Gene Ontology is like a dictionary term: transcription initiation Each concept has: a name a definition an ID number id: GO:0006352 definition: Processes involved in the assembly of the RNA polymerase complex at the promoter region of a DNA template resulting in the subsequent synthesis of RNA from that promoter.
There are also relationships between them. Gene Ontology is a DAG Directed Acyclic Graph Nucleic acid binding is a type of binding. DNA binding is a type of nucleic acid binding.
CAR
Ferrari is a CAR FIAT 500 is a CAR
CAR
The wheel is a part of a CAR
nucleus
Part_of relationship
chromosome
chromosome
Is_a relationship
Mitochondri al chromosome
Part_of relationship
nucleus
chromosome
mitochondrion
Part_of relationship
Nuclear chromosome
Is_a relationships
Part_of relationship
Mitochondrial chromosome
Has_part relationship
To overcome this problem a new relationship has been recently added: has_part. Previously we have been used to propagating gene products up the graph. With the addition of has_part this is no longer so simple.
nucleus
ABF1 MGM101 ABF1
mitochondrion
MGM101
Has_part relationship
chromosome
ABF1
Has_part relationship
MGM101
AMINOACID SEQUENCE Similarity searches HMM, profiles, HMM-HMM etc. Is there anything really similar out there ? NO YES
ARGOT
It is a knowledge based and integrated approach which combines: 1.clustering of GO terms, based on their semantic similarities 1.weighting scheme which assesses retrieved hits sharing a certain number of biological features with the sequence to be annotated
A is similar to B
NO
YES
A IC=2.9
B IC=1.8
IC=3.1
C IC=4.2
D IC=5.8
A is NOT similar to B
YES
and
C is similar to D
YES
Step I
Trimming the GO graph Keeping the nodes of BLAST hits only (black circles) and their parents (white circles)
Step II
the absolute value of the sum of the log of the child nodes BLAST e-values.
Step III
1) Discarding nodes with Z-score < 0
Where S is the average calculated as the score of the root node divided by the total number of the nodes that compose the initial trimmed GO graph, Si is the score of node i and is the standard deviation assuming a Gaussian distribution of the weights
In (a) the results of InC, AC and TS scores are reported for hits under 100% sequence identity (ROC 100 plots). In (b) the performances of the three indexes are reported for low sequence similarity hits below 40% identity (ROC 40 plots). In (c), (d), and (e) the AC, TS, and InC scores are shown respectively, with comparisons of their trends at low (ROC 40 plots) and high (ROC 100 plots) sequence similarity. In (f) the annotations of up to the first top five BLAST hits are evaluated (TOPBLAST).
http://www.medcomp.medicina.unipd.it/Argot2/