Vous êtes sur la page 1sur 53

Atelier

Bioinformatique

Pr. Melloul Marouane

2022 - 2023
1
Les acides nucléiques
Types d’acides nucléiques
Acide désoxyribonucléique Acide ribonucléique

ADN ARN
ADN : acide désoxyribonucléique

• Molécule présente dans tous les noyaux des cellules


vivantes

• Il porte l'information génétique et constitue le


génome des êtres vivants

• Toutes les cellules de l'organisme ont le même ADN


donc la même information génétique
ADN : acide désoxyribonucléique

• C’est le principal constituant des chromosomes,

• Sa fonction principale est de stocker l’information


génétique, information qui détermine le développement
et le fonctionnement d'un organisme

• Autre fonction essentielle : la transmission de cette


information de génération en génération. C’est l'hérédité.
Structure de l’ADN

• L’ADN est une très grande molécule composée


de sous-unités s’appellent «nucléotides»
• Un nucléotide est une molécule formée de
trois parties:
Un base azotée Un sucre à cinq carbones Un groupement
s’appelle désoxyribose phosphate
Structure de l’ADN

Un nucléotide
Il y a donc 4 types de nucléotides:
Les nucléotides se lient ensemble au
groupes phosphates

- L'extrémité de la chaîne avec un phosphate libre (à gauche sur l'image) est


appelée l’extrémité 5' (le phosphate est relié au carbone 5' du sucre).
- L'autre extrémité de la chaîne est appelée l’extrémité 3' (le carbone 3' du
désoxyribose est libre).
Les nucléotides se lient ensemble au
groupes phosphates – deux brins
Deux chaînes de nucléotides peuvent s'unir l'une à l'autre si
leurs bases sont complémentaires:

Bases complémentaires: A  T et C  G
Les deux brins de l’ADN se lie ensemble pour
former une double hélice :
Comment un gène s'exprime t-il pour
aboutir à la formation d'une protéine ?
Différences entre l’ADN et l’ARN
Caractéristique ADN ARN
Structure générale Deux brins tordus en Un brin droit
forme d’une double
hélice
Sucre Désoxyribose Ribose

Bases azotées Adénine, thymine, Adénine, uracile,


guanine et cytosine guanine et cytosine
Fonction Le matériel génétique Aide à fabriquer les
qui forme les gènes protéines
Location dans la cellule Dan le noyau Commence dans le
noyau et se déplace
dans le cytoplasme
Rôle de l’ADN

• L’ADN est le constituant principale des gènes


• Les gènes donnent les instructions nécessaires
à la fabrication des protéines

ADN Gènes Protéines

• Gènes : C’est l’ordre d’enchainement d’un grand nombre de


nucléotides.
Les gènes

• Parties codantes de l’ADN

• Unités de base de l’hérédité.


• Une fois les gènes identifiés, ils doivent être
annotés pour leur fonction.
SYNTHESE DES PROTEINES
Elle se déroule en deux étapes :

– la transcription de l'ADN en ARN messager

– La traduction de l'ARN messager


en une protéine.
TRANSCRIPTION
• La transcription se déroule dans le noyau cellulaire

• C’est un processus biologique ubiquitaire

• La molécule d’ADN va servir de modèle

• Consiste en la copie des régions dites codantes de l’ADN


en molécules d’ARN

• L'enzyme qui catalyse cette réaction de transcription est


appelée ARN polymérase
TRANSCRIPTION
• L’information contenu dans le gène donné est TRANSCRITE en
ARN
• C’est l’ARN qui porte maintenant l’information génétique :
ARN messager
TRADUCTION
Généralités – acides aminés
• Un acide aminé est codé par 3 nucléotides consécutifs dans l’ARNm

• Chaque nucléotide peut avoir une des quatre bases possibles (A, U, G et C),
ce qui permet d’obtenir 43=64 codons possibles (trois de ces codons sont des codons
d’arrêt)

• Le code génétique est dégénéré (61 codons et seulement 20 acides aminés)

• La dégénérescence du code génétique signifie que les acides aminés peuvent être
spécifiés par plus d’un codon

Ex : Leucine (six codons)

• Le code génétique est universel (en général)

• Le code génétique n’est pas chevauchant


Généralités – table du code génétique
Protéine

• Succession spécifique de plusieurs AA

• Pour connaître les AA qui entrent dans la


composition de la protéine que la cellule veut
fabriquer, il faut connaître l’enchainement des
codons au niveau de l’ADN.
Mutation
1 erreur sur l’ADN (génome)
= 1 défaut de fonctionnement d’un gène
= 1 erreur de codage de la protéine
= Maladie génétique
Les génomes évoluent par:

– Mutations locales: Au niveau de la séquence;


substitutions, insertions, suppressions de nuc.

– Mutations globales: Au niveau du génome;


insertions, suppressions, duplications,
déplacements de gènes ou de fragments de
chromosomes
Caryotype
Les événements génétiques

Substitution, c’est à dire remplacement d’un nucléotide par un autre

Délétion, c’est à dire suppression d’un ou de plusieurs nucleotides

Insertion, c’est à dire addition d’un ou de plusieurs nucléotides.

Les substitutions de purine à purine ou de pyrimidine à pyrimidine (transitions) sont


les plus fréquentes :

A → G, C → T, G → A et T → C

Les autres substitutions sont des transversions :

A → C, A → T, C → A, C → G, G → C, G → T, T → A et T → G
Une substitution peut aboutir à des résultats très différents après la traduction. Cela
dépend de sa position par rapport au cadre de lecture. Les transversions font plus de
mutations que les transitions.

Une substitution dans un codon peut se traduire par le même acide aminé : on dit
qu’elle est synonyme.

Une substitution dans un codon peut se traduire par un acide aminé différent : on dit
qu’elle est faux-sens.

Une substitution dans un codon peut se traduire par un codon de terminaison : on dit
qu’elle est non-sens.
Insertion

Délétion
Séquençage de l’ADN

Séquenceur capillaire
Séquençage de l’ADN

Séquence du gène HBB


ATGTTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGAACTCAAT
TACCCCCTGCATACACTAATTCTTTCACACGTGGTGTTTATTACCCTGACAAAGTTTTCAGATCCTCAG
TTTTACATTCAACTCAGGACTTGTTCTTACCTTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTC
TCTGGGACCAATGGTACTAAGAGGTTTGATAACCCTGTCCTACCATTTAATGATGGTGTTTATTTTGCTT
CCACTGAGAAGTCTAACATAATAAGAGGCTGGATTTTTGGTACTACTTTAGATTCGAAGACCCAGTCCC
TACTTATTGTTAATAACGCTACTAATGTTGTTATTAAAGTCTGTGAATTTCAATTTTGTAATGATCCATTT
TTGGGTGTTTATTACCACAAAAACAACAAAAGTTGGATGGAAAGTGAGTTCAGAGTTTATTCTAGTGC
GAATAATTGCACTTTTGAATATGTCTCTCAGCCTTTTCTTATGGACCTTGAAGGAAAACAGGGTAATTTC
AAAAATCTTAGGGAATTTGTGTTTAAGAATATTGATGGTTATTTTAAAATATATTCTAAGCACACGCCTATT
AATTTAGTGCGTGATCTCCCTCAGGGTTTTTCGGCTTTAGAACCATTGGTAGATTTGCCAATAGGTATTA
ACATCACTAGGTTTCAAACTTTACTTGCTTTACATAGAAGTTATTTGACTCCTGGTGATTCTTCTTCAGG
TTGGACAGCTGGTGCTGCAGCTTATTATGTGGGTTATCTTCAACCTAGGACTTTTCTATTAAAATATAAT
GAAAATGGAACCATTACAGATGCTGTAGACTGTGCACTTGACCCTCTCTCAGAAACAAAGTGTACGTTG
AAATCCTTCACTGTAGAAAAAGGAATCTATCAAACTTCTAACTTTAGAGTCCAACCAACAGAATCTATTGT
TAGATTTCCTAATATTACAAACTTGTGCCCTTTTGGTGAAGTTTTTAACGCCACCAGATTTGCATCTGTT
TATGCTTGGAACAGGAAGAGAATCAGCAACTGTGTTGCTGATTATTCTGTCCTATATAATTCCGCATCAT
TTTCCACTTTTAAGTGTTATGGAGTGTCTCCTACTAAATTAAATGATCTCTGCTTTACTAATGTCTATGC
AGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCTCCAGGGCAAACTGGAAAGATTGCTG
ATTATAATTATAAATTACCAGATGATTTTACAGGCTGCGTTATAGCTTGGAATTCTAACAATCTTGATTCTA
AGGTTGGTGGTAATTATAATTACCTGTATAGATTGTTTAGGAAGTCTAATCTCAAACCTTTTGAGAGAGA
TATTTCAACTGAAATCTATCAGGCCGGTAGCACACCTTGTAATGGTGTTGAAGGTTTTAATTGTTACTTT
CCTTTACAATCATATGGTTTCCAACCCACTAATGGTGTTGGTTACCAACCATACAGAGTAGTAGTACTTT
CTTTTGAACTTCTACATGCACCAGCAACTGTTTGTGGACCTAAAAAGTCTACTAATTTGGTTAAAAACAA
Séquenceur haut débit (nouvelle génération)
L'analyse de séquences est une mission centrale de
la bioinformatique
ATGTTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTATGTCAGTGTGTTAATCTTACAACCAGAACTCAAT
TACCCCCTGCATACACTAATTCTTTCACACGTGGTGTTTATTACCCTGACAAAGTTTTCAGATCCTCAGT
TTTACATTCAACTCAGGACTTGTTCTTACCTTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTC
TCTGGGACCAATGGTACTAAGAGGTTTGATAACCCTGTCCTACCATTTAATGATGGTGTTTATTTTGCTT
CCACTGAGAAGTCTAACATAATAAGAGGCTGGATTTTTGGTACTACTTTAGATTCGAAGACCCAGTCCCT
ACTTATTGTTAATAACGCTACTAATGTTGTTATTAAAGTCTGTGAATTTCAATTTTGTAATGATCCATTT
TTGGGTGTTTATTACCACAAAAACAACAAAAGTTGGATGGAAAGTGAGTTCAGAGTTTATTCTAGTGCGA
ATAATTGCACTTTTGAATATGTCTCTCAGCCTTTTCTTATGGACCTTGAAGGAAAACAGGGTAATTTCAA
AAATCTTAGGGAATTTGTGTTTAAGAATATTGATGGTTATTTTAAAATATATTCTAAGCACACGCCTATT
AATTTAGTGCGTGATCTCCCTCAGGGTTTTTCGGCTTTAGAACCATTGGTAGATTTGCCAATAGGTATTA
ACATCACTAGGTTTCAAACTTTACTTGCTTTACATAGAAGTTATTTGACTCCTGGTGATTCTTCTTCAGG
TTGGACAGCTGGTGCTGCAGCTTATTATGTGGGTTATCTTCAACCTAGGACTTTTCTATTAAAATATAAT
GAAAATGGAACCATTACAGATGCTGTAGACTGTGCACTTGACCCTCTCTCAGAAACAAAGTGTACGTTGA
AATCCTTCACTGTAGAAAAAGGAATCTATCAAACTTCTAACTTTAGAGTCCAACCAACAGAATCTATTGT
TAGATTTCCTAATATTACAAACTTGTGCCCTTTTGGTGAAGTTTTTAACGCCACCAGATTTGCATCTGTT
TATGCTTGGAACAGGAAGAGAATCAGCAACTGTGTTGCTGATTATTCTGTCCTATATAATTCCGCATCAT
TTTCCACTTTTAAGTGTTATGGAGTGTCTCCTACTAAATTAAATGATCTCTGCTTTACTAATGTCTATGC
AGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCTCCAGGGCAAACTGGAAAGATTGCTGAT
TATAATTATAAATTACCAGATGATTTTACAGGCTGCGTTATAGCTTGGAATTCTAACAATCTTGATTCTA
AGGTTGGTGGTAATTATAATTACCTGTATAGATTGTTTAGGAAGTCTAATCTCAAACCTTTTGAGAGAGA
TATTTCAACTGAAATCTATCAGGCCGGTAGCACACCTTGTAATGGTGTTGAAGGTTTTAATTGTTACTTT
CCTTTACAATCATATGGTTTCCAACCCACTAATGGTGTTGGTTACCAACCATACAGAGTAGTAGTACTTT
CTTTTGAACTTCTACATGCACCAGCAACTGTTTGTGGACCTAAAAAGTCTACTAATTTGGTTAAAAACAA
SARS-CoV-2
Séquence du SARS-CoV-2
ATGTTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGAACTCAAT
TACCCCCTGCATACACTAATTCTTTCACACGTGGTGTTTATTACCCTGACAAAGTTTTCAGATCCTCAGT
TTTACATTCAACTCAGGACTTGTTCTTACCTTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTC
TCTGGGACCAATGGTACTAAGAGGTTTGATAACCCTGTCCTACCATTTAATGATGGTGTTTATTTTGCTT
CCACTGAGAAGTCTAACATAATAAGAGGCTGGATTTTTGGTACTACTTTAGATTCGAAGACCCAGTCCCT
ACTTATTGTTAATAACGCTACTAATGTTGTTATTAAAGTCTGTGAATTTCAATTTTGTAATGATCCATTT
TTGGGTGTTTATTACCACAAAAACAACAAAAGTTGGATGGAAAGTGAGTTCAGAGTTTATTCTAGTGCGA
ATAATTGCACTTTTGAATATGTCTCTCAGCCTTTTCTTATGGACCTTGAAGGAAAACAGGGTAATTTCAA
AAATCTTAGGGAATTTGTGTTTAAGAATATTGATGGTTATTTTAAAATATATTCTAAGCACACGCCTATT
AATTTAGTGCGTGATCTCCCTCAGGGTTTTTCGGCTTTAGAACCATTGGTAGATTTGCCAATAGGTATTA
ACATCACTAGGTTTCAAACTTTACTTGCTTTACATAGAAGTTATTTGACTCCTGGTGATTCTTCTTCAGG
TTGGACAGCTGGTGCTGCAGCTTATTATGTGGGTTATCTTCAACCTAGGACTTTTCTATTAAAATATAAT
GAAAATGGAACCATTACAGATGCTGTAGACTGTGCACTTGACCCTCTCTCAGAAACAAAGTGTACGTTGA
AATCCTTCACTGTAGAAAAAGGAATCTATCAAACTTCTAACTTTAGAGTCCAACCAACAGAATCTATTGT
TAGATTTCCTAATATTACAAACTTGTGCCCTTTTGGTGAAGTTTTTAACGCCACCAGATTTGCATCTGTT
TATGCTTGGAACAGGAAGAGAATCAGCAACTGTGTTGCTGATTATTCTGTCCTATATAATTCCGCATCAT
TTTCCACTTTTAAGTGTTATGGAGTGTCTCCTACTAAATTAAATGATCTCTGCTTTACTAATGTCTATGC
AGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCTCCAGGGCAAACTGGAAAGATTGCTGAT
TATAATTATAAATTACCAGATGATTTTACAGGCTGCGTTATAGCTTGGAATTCTAACAATCTTGATTCTA
AGGTTGGTGGTAATTATAATTACCTGTATAGATTGTTTAGGAAGTCTAATCTCAAACCTTTTGAGAGAGA
TATTTCAACTGAAATCTATCAGGCCGGTAGCACACCTTGTAATGGTGTTGAAGGTTTTAATTGTTACTTT
CCTTTACAATCATATGGTTTCCAACCCACTAATGGTGTTGGTTACCAACCATACAGAGTAGTAGTACTTT
CTTTTGAACTTCTACATGCACCAGCAACTGTTTGTGGACCTAAAAAGTCTACTAATTTGGTTAAAAACAA
SARS-CoV-2 genome

Diagnostic
Traitement
Vaccin......
Kits de diagnostic (PCR)

Recherche de mutations (variants)


Qu’est-ce que la Bioinformatique?

• Discipline relativement nouvelle, qui évolue en fonction des nouveaux


problèmes posés par la biologie moléculaire.

• Discipline fondée sur les acquis de la biologie, des mathématiques et


de l'informatique.

• L'utilisation des ordinateurs pour recueillir, analyser et interpréter les


données biologiques au niveau moléculaire.

• Un ensemble d'outils logiciels pour l'analyse de séquences


moléculaires.

• Elle propose des méthodes et des logiciels qui permettent de gérer,


d'organiser, de comparer, d'analyser, d'explorer l'information
génétique et génomique stockée dans les bases de données
Bases de données

• Nombreuses bases de données en bioinformatique

• Données issues d'expériences, de publications, d'analyses


faites à la main par des chercheurs

• La plupart de ces bases sont accessibles librement sur


Internet

• Chaque base propose un accès simplifié via un site web


spécifique qui propose des fonctions de :
Recherche
Visualisation des données
Lien vers d'autres bases.....
Objectifs et défis
1- Décoder l’information contenue dans les séquences d’ADN, i.e.

> Trouver les gènes


> Prédire la séquence d’AA produite par un gène
> Identifier les régions régulatrices du génome
> Étudier l’évolution des génomes …

2- Génomique structurale:
> Prédire les structures 2D et 3D des protéines et des ARN structurels…

3- Génomique fonctionnelle
> Étudier la régulation des gènes
> Étudier le niveau d’expression des gènes (microarrays)
> Déterminer les réseaux d’interaction entre les protéines…
Objectifs spécifiques

• Se familiariser avec quelques-unes des principales bases


de données biomoléculaires.

• Apprendre à formuler des requêtes structurées, en


imposant des contraintes sur des paramètres multiples.

• Rechercher des séquences nucléotidiques et protéiques

• Interpréter les annotations,


Le National Center for
Biotechnology Information
(NCBI)

Organisation américaine qui gère des ressources bioinformatiques représentant une


grande diversité de données biologiques.

NCBI maintient un certain nombre de bases de données,

PubMed pour la littérature scientifique,

MeSH pour le domaine médical et des sciences biomédicales

OMIM pour les maladies génétiques.

GenBank pour les séquences nucléiques

Ces différentes bases de données sont consultables au moyen d'une interface


appelée Entrez. (https://www.ncbi.nlm.nih.gov/search/)
PubMed

PubMed est une base de données bibliographique spécialisée en sciences


médicales et biomédicales. Sa consultation est libre et gratuite.

C’est la base de données de référence pour effectuer des recherches en


médecine et sciences de la santé.

PubMed ou Medline ?

Medline est le nom de la base de données produite et gérée par la NLM


(National Library of Medicine's).

PubMed (Public Access to Medline) est le nom de l’interface qui permet


de consulter Medline sur le Web. Par extension, le nom sert à désigner
la base de données elle-même.
Construire une équation de recherche

Dans PubMed, il est possible d’associer plusieurs descripteurs MeSH à l’aide des operateurs booléens.

L’opérateur AND (ET) permet de réaliser l’intersection de deux ou plusieurs


éléments qui doivent figurer dans les articles recherchés. Il est utile pour
restreindre la recherche.
Exemple : tabagisme ET cancer du poumon
La recherche portera sur les articles traitant à la fois du tabagisme ET du
cancer du poumon.

L’opérateur OR (OU) permet de réaliser la réunion de deux ou


plusieurs éléments. Il est utile pour élargir les recherches. OU
est une addition.
Exemple : tabagisme OU consommation de marijuana
La recherche portera sur les notices mentionnant SOIT le
tabagisme SOIT la consommation de marijuana SOIT les deux
notions à la fois.

L’opérateur NOT (SAUF) permet d’exclure les résultats liés au terme


introduit.
Exemple : addiction SAUF alcoolisme
La recherche portera sur l’ensemble des notices qui traitent des
addictions SANS mentionner l’alcoolisme.
Détails d’une référence

DOI (Digital Object Identifier) ou identifiant d’objet numérique.


Il permet d’identifier une ressource électronique (article en ligne).
Il peut être utile pour rechercher un article dans une base de données
en texte intégral ou un Titre, auteurs portail de revues.

Titre, auteurs

Titre de la revue,
en abrégé

Références de l’article : date, numéro de


volume, numéro de fascicule, pages

PMID (PubMed IDentifier) : numéro unique attribué par PubMed à


chacune des références indexées dans la base. Il peut être très utile
pourretrouver rapidement une référence.
PubMed ne fonctionne pas comme un moteur de recherche (de type
Google). Il est préférable de ne pas lancer une recherche directement
depuis la page d’accueil

Les inconvénients de cette recherche, dite "en langage libre", sont les suivants :

 obtenir un nombre trop élevé de résultats ("bruit") : la liste des références


obtenues est alors inexploitable.
 obtenir des résultats non pertinents, trop larges ou imprécis par rapport au
sujet recherché.
MeSH (Medical Subject Headings)
PubMed s’appuie sur un vocabulaire contrôlé (ou thésaurus), le MeSH,
liste structurée de mots-clés avec lesquels ont été indexées les
références contenues dans la base et qu’il convient d’utiliser pour interroger
celle-ci.

L’utilisation du MeSH est donc indispensable pour :

1) Obtenir une liste de résultats exploitable.

2) Interroger la base de façon fine afin d’obtenir des références correspondant


au sujet recherché.
MeSH (Medical Subject Headings)

L'organisation hiérarchique

Les descripteurs du MeSH sont regroupés en 16 catégories :


A - Anatomie
B - Organismes
C - Maladies
D - Produits chimiques et pharmaceutiques
E - Équipements et techniques analytiques, diagnostiques et thérapeutiques
F - Psychiatrie et psychologie
G - Sciences biologiques
H - Sciences naturelles
I - Anthropologie, enseignement, sociologie et phénomènes sociaux
J - Technologie, industrie et agriculture
K - Sciences humaines
L - Sciences de l'information
M - Individus
N - Santé
V - type de publication
Z - Lieux géographiques
MeSH (Medical Subject Headings)
Chaque descripteur MeSH est
accompagné d'une définition

Liste des qualificatifs


(Subheadings) qu’il est
possible d’associer au
descripteur, permettant
d'orienter la recherche
selon un axe précis

Les qualificatifs

Les qualificatifs, au nombre de 76, sont des concepts généraux qui servent à préciser le sens d’un descripteur.
Exemple : Maladie d’Alzheimer / diagnostic

Les qualificatifs constituent une richesse du MeSH. Ils dispensent l’utilisateur de PubMed de rechercher
un deuxième descripteur pour effectuer une recherche pertinente sur un sujet.
L’explosion

Lors d’une recherche dans PubMed à partir d’un mot-clé MeSH, la base recherche par
défaut les références indexées avec ce descripteur, ainsi que celles indexées avec les
descripteurs plus précis (termes spécifiques) de ce mot-clé : c’est ce qu’on appelle
l’explosion.
L’explosion

Lors d’une recherche dans PubMed à partir d’un mot-clé MeSH, la base recherche par
défaut les références indexées avec ce descripteur, ainsi que celles indexées avec les
descripteurs plus précis (termes spécifiques) de ce mot-clé : c’est ce qu’on appelle
l’explosion.

Explosion Termes spécifiques


MeSH (Medical Subject Headings)
Liste des synonymes (Entry terms), qui sont récupérés
lors d’une interrogation avec le descripteur principal

Positions du descripteur dans l’arborescence

Vous aimerez peut-être aussi