Vous êtes sur la page 1sur 77

Bioinformatique et donnes biologiques

Cours dintroduction la bioinformatique et de prsentation des banques de squences. 1re partie

Equipe Bonsai (2012)

QUELQUES MOTS SUR LA BIOINFO

Connaissances

Dfinition de la bioinformatique

Un domaine de recherche qui analyse et interprte des donnes biologiques, au moyen de mthodes informatiques, afin de crer de nouvelles connaissances en biologie.

Source : article prsentant la bioinformatique, sur le site dInterstices Auteur(s) : Isabelle Quinkal (Journaliste) Franois Rechenmann (Chercheur)
3

Dfinition de la bioinformatique
anglais : distinction entre Bioinformatics et Computational Biology Bioinformatics
applique des algorithmes, modles statistiques dans lobjectif d'interprter, classer et comprendre des donnes biologiques.

Computational Biology
dvelopper des modles mathmatiques et outils associs pour rsoudre des problmes biologiques.

Quest-ce que la bioinformatique ?

Lapproche in silico de la biologie Trois activits principales :

Acquisition et organisation des donnes biologiques Conception de logiciels pour lanalyse, la comparaison et la modlisation des donnes Analyse des rsultats produits par les logiciels

Quelques conseils

Mfiez-vous des rsultats donns par les logiciels :


La qualit des rsultats est parfois diminue au profit de la rapidit Certains problmes admettent un ensemble infini de possibilits Ce nest pas toujours la solution la meilleure qui est trouve Beaucoup de logiciels ne font que de la prdiction Prdiction : dire ce quon prvoit, par raisonnement, devoir arriver. (wiktionnaire) Les donnes se sont pas toujours fiables La mise jour nest pas toujours rcente

Mfiez-vous des banques de donnes :


La ralit mathmatique nest pas la ralit biologique :


Les ordinateurs ne font pas de biologie, ils calculent vite !

Quelques liens utiles en bioinformatique


La Socit Franaise de Bio-Informatique (SFBI)
http://sfbi.impg.prd.fr/

Logiciels pour la biologie de lInstitut Pasteur


http://bioweb.pasteur.fr/

Le Ple Bioinformatique Lyonnais (PBIL)


http://pbil.univ-lyon1.fr/pbil.html http://npsa-pbil.ibcp.fr/

LInstitut Europen de Bioinformatique (EBI)


http://www.ebi.ac.uk/

Les outils de protomique dExPASy


http://www.expasy.org/tools/

Le centre national de bioinformatique (NCBI, USA)


http://www.ncbi.nlm.nih.gov/
7

En Europe : EBI

European Bioinformatics Institute


http://www.ebi.ac.uk/

Organisation acadmique but non lucratif fonde en 92 Centre de recherche et services en bioinformatique qui gre des banques de donnes biologiques (ADN-ARN, protines, structures 3D) Met dans le domaine publique et rend accessible gratuitement les informations issues de la recherche en biologie molculaire et gnomique afin de promouvoir le progrs scientifique

Aux tats-Unis dAmrique : NCBI

National Center for Biotechnology Information


http://www.ncbi.nlm.nih.gov/

Ressource nationale pour linformation en biologie molculaire fonde en 1988 Cration de banques publiques et recherche en bioinformatique Dveloppe des outils informatiques pour analyser les donnes de gnome et diffuser linformation mdicale pour mieux comprendre les processus molculaires touchant la sant humaine et la maladie

Mes principales sources dinspiration

Sites gnralistes

Un dictionnaire : http://fr.wiktionary.org/ Une encyclopdie : http://fr.wikipedia.org/ Infobiogen (ferm maintenant) : http://www.infobiogen.fr/ Autoformation (Paris V) : http://www.dsi.univ-paris5.fr/bio2/autof2/ Interstices (culture scientifique) : http://interstices.info/ 2can (tutoriels de lEBI) : http://www.ebi.ac.uk/2can/tutorials/ Les aides fournis par les logiciels Les articles scientifiques Jean-Stphane Varre, Hlne Touzet, Maude Pupin
10

Sites franais sur la Bioinformatique


Sites en anglais sur la bioinformatique


Les cours de mes collgues du LIFL

Comment sassurer de la qualit de linformation ?

Autorit :

Source de linformation, auteurs, statut, Date de cration, de mise jour, Attention, ce qui est valid un jour peut tre dmenti par la suite ! Documentation disponible

Premption :

Transparence :

Rgles valables aussi bien pour une banque de donnes, que pour un logiciel, un site web,

11

GNOMIQUE ET BIOINFORMATIQUE

12

La gnomique

Etude des gnomes et de lensemble de leurs gnes


La structure Le fonctionnement Lvolution Le polymorphisme,

Ncessite des outils bioinformatiques

Plusieurs tapes :

13

Chronologie sur le squenage de lADN


1er gne ARN par W. Fiers et al. Technique de Maxam-Gilbert pour lADN 1er squenceur Applied Biosystems

1972

1975
Technique de F. Sanger et al. pour lADN

1977

1977
1er virus phi X174 par Sanger et al.

1987

1re bactrie H. influenzae 1,83 Mb

1er pluricellulaire C. elegans 100 Mb

Squenage massif et parallle

1995

1996
1er eucaryote S. cerevisiae 12 Mb

1998

2001
Homo sapiens

2008

14

Bilan des projets gnomes en 2012 (2010)

Genome Online Database http://www.genomesonline.org 2224 (1364) gnomes complets


1945 (1139) eubactries 128 (92) archaebactries 151 (133) eucaryotes

14600 (6621) gnomes en cours de squenage


11831 (4882) eubactries 218 (190) archaebactries 2551(1549) eucaryotes

2048 (240) mtagnomes


15

Les diffrents contextes de squenage

Squences produites par des laboratoires pour tudier un gne, un groupe de gnes, une squence intergnique,

Rgions dintrts dont le gnome complet nest (ntait) pas connu Etude des variations allliques, Gnomes complets (HTG, WGS) ou partiels (GSS) STS EST Mtagnomes

Squences produites par des centres de squenage


16

Pourquoi squencer les gnomes ?

Intrt conomique

Mdecine Biotechnologies Environnement Evolution des espces Fonctionnement des cellules Etude des tres vivants Nutrition Propagation des maladies Environnement
17

Intrt scientifique

Utilit publique

Les mthodes de squencage


Mthode Sanger (1975) Mthode MaxamGilbert (1977) Automatisation de Sanger (de ~1980 2005)

Commercialise en 1987 : premier squenceur Applied Biosystems 370A NGS : Next Generation Sequencing (dsormais largement utiliss) ou plutt HTS : High-Throughput Sequencing

Nouvelles Gnrations de Squenceurs (depuis 2005)

NNGS : Next-Next Generation Sequencing (en cours):

en particulier technologie SMS (Single Molecule Sequencing)

18

Squenage : mthode Sanger (1975)

Ide
Amorcer une polymrisation de lADN

3 5

Elongation

faite laide de 4 dsoxyribonuclotides (dATP, dCTP, dGTP, dTTP) majoritaires + faible concentration de l'un des quatre didsoxyribonuclotides (ddATP, ddCTP, ddGTP ou ddTTP) qui arrtent llongation.

Note : il y a 4 expriences

Source: wikipedia.org

19

Squenage : mthode Sanger (1975)


Exemple: exprience ddGTP

Elongation statistique

Continue tant que des dNTP sont incorpors N ={A,C,G,T} Arrt si incorporation (par hasard ) dun ddGTP Le hasard dpend ici de la concentration respective des dNTP et de ddGTP

produits possibles

Tous les produits normaux terminent forcment par un G

Source: wikipedia.org

20

Squenage : mthode Sanger (1975)

Electrophorse sur gel


lecture des bases ajoutes
21

et lecture (manuelle) des bases ajoutes

Source: wikipedia.org

brin construit : 5 vers 3

Ralis sur les quatre expriences en mme temps. Migration en fonction du poids des produits des 4 expriences

sens de lelectrophorse

Squenage : mthode Sanger (1975)

En rsum :

Source: scq.ubc.ca

22

Squenage : mthode Sanger (1975)

Source: flickr.com Richard Wintle

23

Squenage : extension de la mthode Sanger

Mthode Sanger avec Dye terminator sequencing An alternative to the labelling of the primer is to label the terminators instead, commonly called 'dye terminator sequencing'. The major advantage of this approach is the complete sequencing set can be performed in a single reaction, rather than the four needed with the labeledprimer approach. This is accomplished by labelling each of the dideoxynucleotide chain-terminators with a separate fluorescent dye, which fluoresces at a different wavelength.

Source: wikipedia.org

24

Squenage : et automatisation

Electrophorse Capillaire Excitation laide dun laser, et lecture automatique des 4 longueurs donde possibles (associs au 4 ddNTP)

Source: wikipedia.org

25

Squenage : et automatisation

Exemple de lecture Sanger Automatise (dbut de lecture)

Source: wikipedia.org

26

Squenage : 1er squenceur automatique (1987)

dsormais collector (1987)


27

Squenage : volution des modles (1990-2000)


Voir : http://www.biology.iupui.edu/biocourses/biol540/14genome2k6.html

28

Squenage : exemple de lecture actuelle (2004)

29

NGS : Next Generation Sequencing (>2005)

30

NGS : Next Generation Sequencing


ou high-throughput sequencing Nouvelles technologies de squencage Haut Dbit

Rcentes: 1ere commercialis en 2005 (actuellement Roche 454), depuis 2 autres ont suivi (Illumina Solexa, Applied Biosystems SOLiD) Rapides: ~ 3 jours au lieu de 3 mois Cot initial assez lev, cot en production en baisse rgulire ex: 1000 gnomes humains 1000$ Reads (Lectures) plus courts (pour le moment) : taux derreur actuellement plus lev => reads plus courts

NGS : Next Generation Sequencing

Haut Dbit : squenage de milliers millions de reads en parallle


Read = lecture de lordre de ~100 ~400 bases. Reads = comment sont-ils obtenus ?? principe gnral simplifi : chaque lecture dune lettre gnre un point de couleur une position donne sur une image une suite dimages lue donne une suite de couleurs, et (selon un code) une suite de nuclotides [voir exemple sur slide suivant]

Avantage :

Gnre des centaines de milliers millions de lectures en parallle (dpend de la densit en points colors)

NGS : principe (exemple sur Illumina-Solexa)

NGS : principe (exemple: Illumina-Solexa)

NGS : principe (exemple: Illumina-Solexa GA2)

NGS : reads (remapps sur gnome connu)

NGS : reads (remapps sur gnome connu)


(des erreurs de lecture + 1SNP)

38

NNGS : Next Next Generation Sequencing

SMS : Single Molecule Sequencing

viter ltape damplification (squenage dune seule molcule, ou dun seul fragment non amplifi de la molcule)

Modles commercialiss (Helicos & Pacific Biosciences)

39

40

Au final les non NGS

Et pourtant
41

WGS : Whole Genome ShotGun


Construction dune librairie de fragments de gnome

rptition

Assemblage des squences lues en contigs Finition (remplissage des trous) scaffolds

PCR longue Squenage

Vrification de la structure et de la squence

http://www.ncbi.nlm.nih.gov/genbank/wgs

42

GSS : Genome Survey Sequence

Squences gnomiques courtes et contenant des erreurs


Lecture alatoire de fragments, un seul passage Squences des extrmits de cosmides, BAC ou YAC Capture dexons sur le gnome Squences dALU (squences rptes prsente chez lHomme) Squences de transposons

43

STS : Sequence Tagged Site

Court (200 500 nt) fragment dADN dont


La squence est unique sur un gnome La localisation sur le gnome est connue Marqueur gntique Point de repre pour construire les cartes physiques ou pour assembler les squences gnomiques

Utilis comme

44

EST : Expressed Sequence Tag


Court fragment de squence transcrite et pisse Une seule lecture (single-pass) des ADNc dun tissu,

Contient beaucoup derreurs, taille comprise entre 200 et 800 nt

Localisation des squences transcrites sur les gnomes Assemblage des EST pour reconstruire les ARN complets Information sur les conditions dexpression des transcrits

45

La mtagnomique

Etude du matriel gntique provenant de communauts entires de micro-organismes

Extraites de diffrents environnements (ocan, terre, flore intestinale, ) Accs des organismes non cultivables et non connus Ensemble des fragments dADN issus dun chantillon
Metagenome Project Categories September 2009: 200 Projects SYNTHETIC
5%

Mtagnome

ENDOBIOTIC 26% ENVIRONMENTAL 69%

46

Et la bioinformatique ?
Programmes de bioinformatique : Utiliss diffrentes tapes du squenage des gnomes

Lecture des squences la sortie des squenceurs Assemblage des gnomes partir des fragments squencs Recherche des rptitions pour corriger les mauvais assemblages Regroupement des squences appartenant un mme gne Localisation des EST sur les gnomes Comparaison 2 2, multiple, une squence contre une banque

Utiliss pour lexploitation des squences dEST


Utiliss pour comparer les squences obtenues

Banques de donnes : Collecte puis stockage des squences et bien plus

47

Quest-ce quune banque de donnes ?

Ensemble de donnes relatives un domaine, organises par traitement informatique, accessibles en ligne et distance Souvent, les donnes sont stockes sous la forme dun fichier texte format (respectant une disposition particulire) Besoin de dvelopper des logiciels spcifiques pour interroger les donnes contenues dans ces banques

48

Les banques de squences nucliques

Origine des donnes

Squenage de molcules dADN ou dARN 1 squence + ses annotations = 1 entre Fragments de gnomes Un ou plusieurs gnes, un bout de gne, squence intergnique, Gnomes complets ARNm, ARNt, ARNr, (fragments ou entiers)

Les donnes stockes :


Note 1 : toutes les squences (ADN ou ARN) sont crites avec des T Note 2 : le brin donn dans la banque est appel brin + ou brin direct, pas de rapport avec le brin codant
49

Banques nucliques, les dbuts

Augmentation du nombre de squences 1 squence = 1 article Les banques extraient les squences des publications Fin de la publication systmatique

Gestion des donnes par des organismes spcialiss Squences et annotations sont soumises aux banques

50

Banques nucliques, collaboration


International Nucleotide Sequence Database Collaboration Association des 3 banques nucliques :

ENA (European Nucleotide Archive) EMBL-EBI

http://www.ebi.ac.uk/embl/

GenBank (banque des Etats-Unis dAmrique) NCBI

http://www.ncbi.nlm.nih.gov/Genbank/

DDBJ (DNA DataBank of Japon) CIB

http://www.ddbj.nig.ac.jp/ Echange quotidien des donnes Rpartition de la collecte des donnes

Chaque banque collecte les donnes de son continent

51

Banques nucliques, mises jour de la banque

Une nouvelle version est disponible plusieurs fois par an


Date et numro de version (release) Donnes figes une date fixe (toutes les squences collectes jusque l) Mise jour quotidienne des donnes Toutes les nouvelles squences depuis la dernire version Pas besoin de tlcharger la banque entire tous les jours Possibilit de faire des calculs longs

Mise disposition des UpDates


Facilite le traitement des donnes


52

Banques nucliques, lexplosion des donnes


Taille de Genbank : GenBank/gbrel.txt! 1,6E+11 1,4E+11 1,2E+11 1E+11 8E+10 6E+10 4E+10 2E+10 0 180000000 160000000 140000000 120000000 100000000 80000000 60000000 40000000 20000000 0

Taille (lettres)

Nb Entres

53

Banques nucliques, format dune entre

3 parties : Description gnrale de la squence Features Description des objets biologiques prsents sur la squence La squence

Chaque ligne commence par un mot-cl


Deux lettres pour EMBL Maximum 12 lettres pour Genbank et DDBJ

Fin dune entre : //

ctccggcagc ccgaggtcat cctgctagac tcagacctgg atgaacccat agacttgcgc tcggtcaaga gccgcagcga ggccggggag ccgcccagct ccctccaggt gaagcccgag acaccggcgt cggcggcggt ggcggtggcg gcggcagcgg cacccaccac gacggcggag

60 120 180

54

EMBL, description gnrale de la squence

ID : toujours la 1re ligne dune entre


Version SV 1 Topologie linear Molcule genomic DNA Classe STD Taxonomie BCT Taille seq 1322 BP

Accession M71283

AC : numros daccession

Un nacc principal pour chaque entre, unique Une liste de nacc secondaires (historique de lentre)

DT : dates de cration et de dernire version DE : description du contenu de lentre KW : mots-cls ; peu renseign OS, OC : organisme contenant la sq. et sa taxonomie RN, RC, RX, RP, RA, RT, RL : rf. bibliographiques

Uniquement les rfrences donnes par les auteurs de lentre


55

GenBank et DDBJ, description gnrale

LOCUS : toujours la premire ligne dune entre


Locus name BACCOMQP Taille seq 1322 bp Molcule DNA Topologie linear Division BCT Date 26-APR-1993

DEFINITION = DE ACCESSION = AC VERSION ~ DT KEYWORDS = KW SOURCE, ORGANISM = OS, OC REFERENCE, AUTHORS, TITLE, JOURNAL, = R

56

Banques nucliques, lignes FT (Features)


Format (partag par toutes les banques) : Key : un seul mot indiquant un groupe fonctionnel

Vocabulaire contrl, hirarchique gene : squence complte du gne (y compris les introns) CDS : squence codante (sans les introns, entre ATG et Stop)

Location : instructions pour trouver lobjet sur la squence de lentre

Voir description du format plus loin Format : /qualifier=commentaires libres /gene="comQ" : nom du gne concern /note="competence regulation" : information concernant la fonction
57

Qualifiers : description prcise du groupe fonctionnel

Banques nucliques, exemples de Key (1/2)


Mot-cl le plus gnral : misc_feature Changements dans la squence : misc_difference, ... Rgions rptes : repeat_region, ... Rgions des Ig : immunoglobulin_related, ... Structures secondaires : misc_structure

stem_loop D-loop

Rgions impliques dans la recombinaison : misc_recomb, ...

58

Banques nucliques, exemples de Key (2/2)


gene misc_signal promoter CAAT_signal TATA_signal -35_signal -10_signal GC_signal RBS polyA_signal enhancer attenuator terminator
59

misc_RNA prim_transcript precursor_RNA mRNA 5'clip 3'clip 5'UTR 3'UTR exon CDS intron polyA_site

Banques nucliques, localisation des objets bio


467 : lannotation ne concerne quune seule base 109..1105 : entre les positions 109 et 1105 (incluse)

Toujours la position la plus petite en premier Commence avant le premier nt de l'entre Se termine aprs le dernier nt de lentre (taille seq = 1322)

<1..21 ou 1275..>1322 : Keys tronqus


<234..888 : dbut rel inconnu, mais avant 234 234..>888 : fin relle inconnue, mais aprs 888 complement(340..565) : squence complmentaire inverse celle de l'entre (brin -) join(12..78,134..202) : fragments indiqus mis bout bout (concatns) ; nombre de fragments illimit
60

Banques nucliques, Qualifiers

Vocabulaire contrl entre / et = puis texte libre

Le vocabulaire dpend du Key au quel le Qualifier se rfre /gene= ou /name= /product= /translation= /evidence= /note=
61

Nom de gne

Fonction de la protine code par le gne

Traduction de la squence codante

Origine de lannotation

Texte libre

Un exemple de Feature dune squence ADN


FT FT FT FT FT FT FT FT FT FT FT FT FT FT CDS <1..21 /codon_start=1 /db_xref="SWISS-PROT:Q99039" /transl_table=11 /gene="degQ" /protein_id="AAA22322.1" /translation="YAMKIS" 21..47 /gene="degQ" 109..140 /gene="comQ" 146..1105 /partial /gene="comQ" squence de lentre comQ
62

terminator promoter mRNA

degQ

Banques nucliques, mise jour des donnes

Evolution possibles des entres


Changements dans la squence, dans les annotations Ajout dune squence, dune annotation, dune publication

Les entres sont mises jour par leurs auteurs Limites de ce processus

Seuls les auteurs dune entre peuvent la corriger Seules les donnes issues de squenage sont admises TPA experimental : la squence et ses annotations doivent avoir t vrifies par des expriences en laboratoire humide TPA inferential : squence et/ou annotations proviennent de prdictions base sur des tudes de familles de gnes, par exemple

Cration de TPA : Third Party Annotation

63

Banques nucliques, inconvnients

Difficult de mise jour des donnes

Version plus rcente dune squence ou dune annotation dans dautres banques (ex : banques ddies un gnome complet) Un mme fragment de squence prsent dans plusieurs entres Difficult de recherche dune information particulire Peu de descriptions sur les gnes et leurs produits

Forte redondance

Annotations peu normalises

Annotations peu prcises

Erreurs dans les annotations

64

RefSeq (NCBI) = Reference Sequence collection

The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated, non-redundant set of sequences, including genomic DNA, transcript (RNA), and protein products, for major research organisms. Curated collections from a number of biologically significant organisms Avantages :

Non redondante Liens explicites entre les squences nucliques et protiques Mise jour rgulire par le personnel du NCBI avec indication du statut de lentre Validation des donnes et consistance des formats Synthse des informations issues de plusieurs entres nucliques ou protiques
65

Diffrents niveaux de correction des donnes


Indiques dans le champ COMMENT Reviewed

Revu par un membre du NCBI qui a ajout des informations provenant de publications scientifiques et de diffrentes entres de squences Une premire rvision a t effectue par un membre du NCBI, mais lannotation est en cours Entre non lue par un annotateur, mais qui contient surement un vrai transcrit ou une vrai protine Transcrit ou protine issu dune prdiction laide dun programme informatique
66

Validated

Provisional

Predicted

Quelques numros daccession de RefSeq


NR_123456 autres ARN transcription NC_123456 chromosomes transcription NM_123456 ARNm traduction NP_123456 protines

67

Autres banques du NCBI

Gene :

Banque centre sur les gnes Source : RefSeq ou centres reconnus dannotation des gnomes Localisation sur le gnome, variants dpissage, protines codes par le gne, bibliographie, gnes homologues, Regroupement de squences nucliques dict par les gnes Un groupe contient toutes les squences qui reprsentent un gne unique (ARNm et EST) Donnes mises jour rgulirement Problme : gestion des familles de gnes rpts

UniGene :

68

Banques gnralistes de gnomes

3 banques : Ensembl (EBI), UCSC Genome (USA), NCBI genome (USA) Les mme squences brutes 3 mthodes diffrentes pour annoter les squences

Principe de base : localiser sur la squence des informations provenant de diffrentes sources Gnes connus (annotations provenant dautres banques) ARNm et EST localiss sur le gnome (variants dpissage) Protines localises sur le gnome (traduction du gnome) Prdictions statistiques

Donnes de comparaison entre gnomes

69

Quelques formats de donnes biologiques

Format des banques, exemples :


Squences ADN/ARN : EMBL ; GenBank et DDBJ Squences protiques : SwissProt et TrEMBL ; PIR ; FASTA Squence brute ( raw sequence ) Lors de la consultation des banques Le programme ReadSeq (nimporte quel format en entre, choix du format de sortie)

Formats lus par la plupart des outils en bioinformatique


Conversion de formats

70

Le format FASTA

Utilis par les logiciels danalyse de squence Une ligne de commentaires prcde de > La squence brute (pas despace, ni de nombre)

>Human Polycomb 2 homolog (hPc2) mRNA, partial cds ctccggcagcccgaggtcatcctgctagactcagacctggatgaacccat agacttgcgctcggtcaagagccgcagcgaggccggggagccgcccagct ccctccaggtgaagcccgagacaccggcgtcggcggcggtggcggtggcg Gcggcagcggcacccaccacgacggcggagaagcct >hPc2 gene ggacgaacctgcagagtcgctgagcgagttcaagcccttctttgggaata taattatcaccgacgtcaccgcgaactgcctcaccgttactttcaaggag tacgtgacggtg
71

La gnomique

Etude des gnomes et de lensemble de leurs gnes


La structure Le fonctionnement Lvolution Le polymorphisme,

Plusieurs tapes :

72

Ce que souhaiterait connatre chaque biologiste :

Le jeu complet et prcis des gnes ainsi que leur position sur le gnome, L'ensemble des transcrits d'un gnome, Le lieu et le moment de l'expression de chaque transcrit, La protine produite par chaque transcrit, Le lieu et le moment de l'expression de chaque protine, La structure complte de chaque protine, La fonction de chaque protine, Les mcanismes cellulaires auxquels participent les protines.

73

Annotation des squences nucliques

Petites squences : annotation manuelle

Prdiction des gnes ARN ou protine prsents sur la squence laide de programmes Localisation, fonction des produits, Permet dorienter les exprimentations Les techniques seront prsentes dans un prochain cours Annotation ralise entirement (ou presque) par des programmes informatiques Risque important derreurs

Gnomes complets

Ce ne sont que des prdictions, une vrification exprimentale est indispensable


74

La gnomique

Etude des gnomes et de lensemble de leurs gnes


La structure Le fonctionnement Lvolution Le polymorphisme,

Plusieurs tapes :

75

Gnomique comparative

Objectifs :

Etudier lvolution entre espces lchelle du gnome Identifier des gnes spcifiques une espce (pathognicit, ) Retrouver des rgions de syntnie (conservation de l'ordre de gnes homologues dans le gnome d'espces diffrentes) tude du polymorphisme au sein dune mme espce Comparaison de cartes gntiques Alignement de gnomes Alignement de toutes les protines de plusieurs gnomes Etude de lordre des gnes

Mthodes

76

Phylognie

Objectifs des tudes phylogntiques :

Mieux comprendre les mcanismes de l'volution et les mcanismes molculaires associs. Connatre l'arbre de la vie (taxonomie). Etudier la biodiversit, l'origine gographique des espces, Dtermination de l'arbre phylogntique d'un ensemble de squences Configuration la plus probable pour rendre compte du degr de parent existant entre des squences.

Phylognie molculaire :

Arbre phylogntique :

77

Vous aimerez peut-être aussi