Atelier Bioinfo S1

Atelier
Bioinformatique
Pr. Melloul Marouane
2022 - 2023
1
Les acides nucléiques
Types d’acides nucléiques
Acide désoxyribonucléique Acide ribonucléique
ADN ARN
ADN : acide désoxyribonucléique
• Molécule présente dans tous les noyaux des cellules

vivantes
• Il porte l'information génétique et constitue le

génome des êtres vivants
• Toutes les cellules de l'organisme ont le même ADN

donc la même information génétique
ADN : acide désoxyribonucléique
• C’est le principal constituant des chromosomes,
• Sa fonction principale est de stocker l’information

génétique, information qui détermine le développement
et le fonctionnement d'un organisme
• Autre fonction essentielle : la transmission de cette

information de génération en génération. C’est l'hérédité.
Structure de l’ADN
• L’ADN est une très grande molécule composée

de sous-unités s’appellent «nucléotides»
• Un nucléotide est une molécule formée de
trois parties:
Un base azotée Un sucre à cinq carbones Un groupement
s’appelle désoxyribose phosphate
Structure de l’ADN
Un nucléotide
Il y a donc 4 types de nucléotides:
Les nucléotides se lient ensemble au
groupes phosphates
- L'extrémité de la chaîne avec un phosphate libre (à gauche sur l'image) est

appelée l’extrémité 5' (le phosphate est relié au carbone 5' du sucre).
- L'autre extrémité de la chaîne est appelée l’extrémité 3' (le carbone 3' du
désoxyribose est libre).
Les nucléotides se lient ensemble au
groupes phosphates – deux brins
Deux chaînes de nucléotides peuvent s'unir l'une à l'autre si
leurs bases sont complémentaires:
Bases complémentaires: A  T et C  G
Les deux brins de l’ADN se lie ensemble pour
former une double hélice :
Comment un gène s'exprime t-il pour
aboutir à la formation d'une protéine ?
Différences entre l’ADN et l’ARN
Caractéristique ADN ARN
Structure générale Deux brins tordus en Un brin droit
forme d’une double
hélice
Sucre Désoxyribose Ribose
Bases azotées Adénine, thymine, Adénine, uracile,

guanine et cytosine guanine et cytosine
Fonction Le matériel génétique Aide à fabriquer les
qui forme les gènes protéines
Location dans la cellule Dan le noyau Commence dans le
noyau et se déplace
dans le cytoplasme
Rôle de l’ADN
• L’ADN est le constituant principale des gènes

• Les gènes donnent les instructions nécessaires
à la fabrication des protéines
ADN Gènes Protéines
• Gènes : C’est l’ordre d’enchainement d’un grand nombre de

nucléotides.
Les gènes
• Parties codantes de l’ADN
• Unités de base de l’hérédité.

• Une fois les gènes identifiés, ils doivent être
annotés pour leur fonction.
SYNTHESE DES PROTEINES
Elle se déroule en deux étapes :
– la transcription de l'ADN en ARN messager
– La traduction de l'ARN messager

en une protéine.
TRANSCRIPTION
• La transcription se déroule dans le noyau cellulaire
• C’est un processus biologique ubiquitaire
• La molécule d’ADN va servir de modèle
• Consiste en la copie des régions dites codantes de l’ADN

en molécules d’ARN
• L'enzyme qui catalyse cette réaction de transcription est

appelée ARN polymérase
TRANSCRIPTION
• L’information contenu dans le gène donné est TRANSCRITE en
ARN
• C’est l’ARN qui porte maintenant l’information génétique :
ARN messager
TRADUCTION
Généralités – acides aminés
• Un acide aminé est codé par 3 nucléotides consécutifs dans l’ARNm
• Chaque nucléotide peut avoir une des quatre bases possibles (A, U, G et C),
ce qui permet d’obtenir 43=64 codons possibles (trois de ces codons sont des codons
d’arrêt)
• Le code génétique est dégénéré (61 codons et seulement 20 acides aminés)
• La dégénérescence du code génétique signifie que les acides aminés peuvent être
spécifiés par plus d’un codon
Ex : Leucine (six codons)
• Le code génétique est universel (en général)
• Le code génétique n’est pas chevauchant

Généralités – table du code génétique
Protéine
• Succession spécifique de plusieurs AA
• Pour connaître les AA qui entrent dans la

composition de la protéine que la cellule veut
fabriquer, il faut connaître l’enchainement des
codons au niveau de l’ADN.
Mutation
1 erreur sur l’ADN (génome)
= 1 défaut de fonctionnement d’un gène
= 1 erreur de codage de la protéine
= Maladie génétique
Les génomes évoluent par:
– Mutations locales: Au niveau de la séquence;

substitutions, insertions, suppressions de nuc.
– Mutations globales: Au niveau du génome;

insertions, suppressions, duplications,
déplacements de gènes ou de fragments de
chromosomes
Caryotype
Les événements génétiques
Substitution, c’est à dire remplacement d’un nucléotide par un autre
Délétion, c’est à dire suppression d’un ou de plusieurs nucleotides
Insertion, c’est à dire addition d’un ou de plusieurs nucléotides.
Les substitutions de purine à purine ou de pyrimidine à pyrimidine (transitions) sont

les plus fréquentes :
A → G, C → T, G → A et T → C
Les autres substitutions sont des transversions :
A → C, A → T, C → A, C → G, G → C, G → T, T → A et T → G
Une substitution peut aboutir à des résultats très différents après la traduction. Cela
dépend de sa position par rapport au cadre de lecture. Les transversions font plus de
mutations que les transitions.
Une substitution dans un codon peut se traduire par le même acide aminé : on dit
qu’elle est synonyme.
Une substitution dans un codon peut se traduire par un acide aminé différent : on dit
qu’elle est faux-sens.
Une substitution dans un codon peut se traduire par un codon de terminaison : on dit
qu’elle est non-sens.
Insertion
Délétion
Séquençage de l’ADN
Séquenceur capillaire
Séquençage de l’ADN
Séquence du gène HBB

ATGTTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGAACTCAAT
TACCCCCTGCATACACTAATTCTTTCACACGTGGTGTTTATTACCCTGACAAAGTTTTCAGATCCTCAG
TTTTACATTCAACTCAGGACTTGTTCTTACCTTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTC
TCTGGGACCAATGGTACTAAGAGGTTTGATAACCCTGTCCTACCATTTAATGATGGTGTTTATTTTGCTT
CCACTGAGAAGTCTAACATAATAAGAGGCTGGATTTTTGGTACTACTTTAGATTCGAAGACCCAGTCCC
TACTTATTGTTAATAACGCTACTAATGTTGTTATTAAAGTCTGTGAATTTCAATTTTGTAATGATCCATTT
TTGGGTGTTTATTACCACAAAAACAACAAAAGTTGGATGGAAAGTGAGTTCAGAGTTTATTCTAGTGC
GAATAATTGCACTTTTGAATATGTCTCTCAGCCTTTTCTTATGGACCTTGAAGGAAAACAGGGTAATTTC
AAAAATCTTAGGGAATTTGTGTTTAAGAATATTGATGGTTATTTTAAAATATATTCTAAGCACACGCCTATT
AATTTAGTGCGTGATCTCCCTCAGGGTTTTTCGGCTTTAGAACCATTGGTAGATTTGCCAATAGGTATTA
ACATCACTAGGTTTCAAACTTTACTTGCTTTACATAGAAGTTATTTGACTCCTGGTGATTCTTCTTCAGG
TTGGACAGCTGGTGCTGCAGCTTATTATGTGGGTTATCTTCAACCTAGGACTTTTCTATTAAAATATAAT
GAAAATGGAACCATTACAGATGCTGTAGACTGTGCACTTGACCCTCTCTCAGAAACAAAGTGTACGTTG
AAATCCTTCACTGTAGAAAAAGGAATCTATCAAACTTCTAACTTTAGAGTCCAACCAACAGAATCTATTGT
TAGATTTCCTAATATTACAAACTTGTGCCCTTTTGGTGAAGTTTTTAACGCCACCAGATTTGCATCTGTT
TATGCTTGGAACAGGAAGAGAATCAGCAACTGTGTTGCTGATTATTCTGTCCTATATAATTCCGCATCAT
TTTCCACTTTTAAGTGTTATGGAGTGTCTCCTACTAAATTAAATGATCTCTGCTTTACTAATGTCTATGC
AGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCTCCAGGGCAAACTGGAAAGATTGCTG
ATTATAATTATAAATTACCAGATGATTTTACAGGCTGCGTTATAGCTTGGAATTCTAACAATCTTGATTCTA
AGGTTGGTGGTAATTATAATTACCTGTATAGATTGTTTAGGAAGTCTAATCTCAAACCTTTTGAGAGAGA
TATTTCAACTGAAATCTATCAGGCCGGTAGCACACCTTGTAATGGTGTTGAAGGTTTTAATTGTTACTTT
CCTTTACAATCATATGGTTTCCAACCCACTAATGGTGTTGGTTACCAACCATACAGAGTAGTAGTACTTT
CTTTTGAACTTCTACATGCACCAGCAACTGTTTGTGGACCTAAAAAGTCTACTAATTTGGTTAAAAACAA
Séquenceur haut débit (nouvelle génération)
L'analyse de séquences est une mission centrale de
la bioinformatique
ATGTTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTATGTCAGTGTGTTAATCTTACAACCAGAACTCAAT
TACCCCCTGCATACACTAATTCTTTCACACGTGGTGTTTATTACCCTGACAAAGTTTTCAGATCCTCAGT
TTTACATTCAACTCAGGACTTGTTCTTACCTTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTC
CCACTGAGAAGTCTAACATAATAAGAGGCTGGATTTTTGGTACTACTTTAGATTCGAAGACCCAGTCCCT
ACTTATTGTTAATAACGCTACTAATGTTGTTATTAAAGTCTGTGAATTTCAATTTTGTAATGATCCATTT
TTGGGTGTTTATTACCACAAAAACAACAAAAGTTGGATGGAAAGTGAGTTCAGAGTTTATTCTAGTGCGA
ATAATTGCACTTTTGAATATGTCTCTCAGCCTTTTCTTATGGACCTTGAAGGAAAACAGGGTAATTTCAA
AAATCTTAGGGAATTTGTGTTTAAGAATATTGATGGTTATTTTAAAATATATTCTAAGCACACGCCTATT
GAAAATGGAACCATTACAGATGCTGTAGACTGTGCACTTGACCCTCTCTCAGAAACAAAGTGTACGTTGA
AATCCTTCACTGTAGAAAAAGGAATCTATCAAACTTCTAACTTTAGAGTCCAACCAACAGAATCTATTGT
AGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCTCCAGGGCAAACTGGAAAGATTGCTGAT
TATAATTATAAATTACCAGATGATTTTACAGGCTGCGTTATAGCTTGGAATTCTAACAATCTTGATTCTA
SARS-CoV-2
Séquence du SARS-CoV-2
ATGTTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGAACTCAAT
TACCCCCTGCATACACTAATTCTTTCACACGTGGTGTTTATTACCCTGACAAAGTTTTCAGATCCTCAGT
TTTACATTCAACTCAGGACTTGTTCTTACCTTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTC
CCACTGAGAAGTCTAACATAATAAGAGGCTGGATTTTTGGTACTACTTTAGATTCGAAGACCCAGTCCCT
ACTTATTGTTAATAACGCTACTAATGTTGTTATTAAAGTCTGTGAATTTCAATTTTGTAATGATCCATTT
TTGGGTGTTTATTACCACAAAAACAACAAAAGTTGGATGGAAAGTGAGTTCAGAGTTTATTCTAGTGCGA
ATAATTGCACTTTTGAATATGTCTCTCAGCCTTTTCTTATGGACCTTGAAGGAAAACAGGGTAATTTCAA
AAATCTTAGGGAATTTGTGTTTAAGAATATTGATGGTTATTTTAAAATATATTCTAAGCACACGCCTATT
GAAAATGGAACCATTACAGATGCTGTAGACTGTGCACTTGACCCTCTCTCAGAAACAAAGTGTACGTTGA
AATCCTTCACTGTAGAAAAAGGAATCTATCAAACTTCTAACTTTAGAGTCCAACCAACAGAATCTATTGT
AGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCTCCAGGGCAAACTGGAAAGATTGCTGAT
TATAATTATAAATTACCAGATGATTTTACAGGCTGCGTTATAGCTTGGAATTCTAACAATCTTGATTCTA
SARS-CoV-2 genome
Diagnostic
Traitement
Vaccin......
Kits de diagnostic (PCR)
Recherche de mutations (variants)

Qu’est-ce que la Bioinformatique?
• Discipline relativement nouvelle, qui évolue en fonction des nouveaux

problèmes posés par la biologie moléculaire.
• Discipline fondée sur les acquis de la biologie, des mathématiques et

de l'informatique.
• L'utilisation des ordinateurs pour recueillir, analyser et interpréter les

données biologiques au niveau moléculaire.
• Un ensemble d'outils logiciels pour l'analyse de séquences

moléculaires.
• Elle propose des méthodes et des logiciels qui permettent de gérer,

d'organiser, de comparer, d'analyser, d'explorer l'information
génétique et génomique stockée dans les bases de données
Bases de données
• Nombreuses bases de données en bioinformatique
• Données issues d'expériences, de publications, d'analyses

faites à la main par des chercheurs
• La plupart de ces bases sont accessibles librement sur

Internet
• Chaque base propose un accès simplifié via un site web

spécifique qui propose des fonctions de :
Recherche
Visualisation des données
Lien vers d'autres bases.....
Objectifs et défis
1- Décoder l’information contenue dans les séquences d’ADN, i.e.
> Trouver les gènes

> Prédire la séquence d’AA produite par un gène
> Identifier les régions régulatrices du génome
> Étudier l’évolution des génomes …
2- Génomique structurale:
> Prédire les structures 2D et 3D des protéines et des ARN structurels…
3- Génomique fonctionnelle
> Étudier la régulation des gènes
> Étudier le niveau d’expression des gènes (microarrays)
> Déterminer les réseaux d’interaction entre les protéines…
Objectifs spécifiques
• Se familiariser avec quelques-unes des principales bases

de données biomoléculaires.
• Apprendre à formuler des requêtes structurées, en

imposant des contraintes sur des paramètres multiples.
• Rechercher des séquences nucléotidiques et protéiques
• Interpréter les annotations,

Le National Center for
Biotechnology Information
(NCBI)
Organisation américaine qui gère des ressources bioinformatiques représentant une

grande diversité de données biologiques.
NCBI maintient un certain nombre de bases de données,
PubMed pour la littérature scientifique,
MeSH pour le domaine médical et des sciences biomédicales
OMIM pour les maladies génétiques.
GenBank pour les séquences nucléiques
Ces différentes bases de données sont consultables au moyen d'une interface

appelée Entrez. (https://www.ncbi.nlm.nih.gov/search/)
PubMed
PubMed est une base de données bibliographique spécialisée en sciences

médicales et biomédicales. Sa consultation est libre et gratuite.
C’est la base de données de référence pour effectuer des recherches en

médecine et sciences de la santé.
PubMed ou Medline ?
Medline est le nom de la base de données produite et gérée par la NLM

(National Library of Medicine's).
PubMed (Public Access to Medline) est le nom de l’interface qui permet

de consulter Medline sur le Web. Par extension, le nom sert à désigner
la base de données elle-même.
Construire une équation de recherche
Dans PubMed, il est possible d’associer plusieurs descripteurs MeSH à l’aide des operateurs booléens.
L’opérateur AND (ET) permet de réaliser l’intersection de deux ou plusieurs

éléments qui doivent figurer dans les articles recherchés. Il est utile pour
restreindre la recherche.
Exemple : tabagisme ET cancer du poumon
La recherche portera sur les articles traitant à la fois du tabagisme ET du
cancer du poumon.
L’opérateur OR (OU) permet de réaliser la réunion de deux ou

plusieurs éléments. Il est utile pour élargir les recherches. OU
est une addition.
Exemple : tabagisme OU consommation de marijuana
La recherche portera sur les notices mentionnant SOIT le
tabagisme SOIT la consommation de marijuana SOIT les deux
notions à la fois.
L’opérateur NOT (SAUF) permet d’exclure les résultats liés au terme

introduit.
Exemple : addiction SAUF alcoolisme
La recherche portera sur l’ensemble des notices qui traitent des
addictions SANS mentionner l’alcoolisme.
Détails d’une référence
DOI (Digital Object Identifier) ou identifiant d’objet numérique.

Il permet d’identifier une ressource électronique (article en ligne).
Il peut être utile pour rechercher un article dans une base de données
en texte intégral ou un Titre, auteurs portail de revues.
Titre, auteurs
Titre de la revue,
en abrégé
Références de l’article : date, numéro de

volume, numéro de fascicule, pages
PMID (PubMed IDentifier) : numéro unique attribué par PubMed à

chacune des références indexées dans la base. Il peut être très utile
pourretrouver rapidement une référence.
PubMed ne fonctionne pas comme un moteur de recherche (de type
Google). Il est préférable de ne pas lancer une recherche directement
depuis la page d’accueil
Les inconvénients de cette recherche, dite "en langage libre", sont les suivants :
 obtenir un nombre trop élevé de résultats ("bruit") : la liste des références

obtenues est alors inexploitable.
 obtenir des résultats non pertinents, trop larges ou imprécis par rapport au
sujet recherché.
MeSH (Medical Subject Headings)
PubMed s’appuie sur un vocabulaire contrôlé (ou thésaurus), le MeSH,
liste structurée de mots-clés avec lesquels ont été indexées les
références contenues dans la base et qu’il convient d’utiliser pour interroger
celle-ci.
L’utilisation du MeSH est donc indispensable pour :
1) Obtenir une liste de résultats exploitable.
2) Interroger la base de façon fine afin d’obtenir des références correspondant

au sujet recherché.
L'organisation hiérarchique
Les descripteurs du MeSH sont regroupés en 16 catégories :

A - Anatomie
B - Organismes
C - Maladies
D - Produits chimiques et pharmaceutiques
E - Équipements et techniques analytiques, diagnostiques et thérapeutiques
F - Psychiatrie et psychologie
G - Sciences biologiques
H - Sciences naturelles
I - Anthropologie, enseignement, sociologie et phénomènes sociaux
J - Technologie, industrie et agriculture
K - Sciences humaines
L - Sciences de l'information
M - Individus
N - Santé
V - type de publication
Z - Lieux géographiques
Chaque descripteur MeSH est
accompagné d'une définition
Liste des qualificatifs

(Subheadings) qu’il est
possible d’associer au
descripteur, permettant
d'orienter la recherche
selon un axe précis
Les qualificatifs
Les qualificatifs, au nombre de 76, sont des concepts généraux qui servent à préciser le sens d’un descripteur.
Exemple : Maladie d’Alzheimer / diagnostic
Les qualificatifs constituent une richesse du MeSH. Ils dispensent l’utilisateur de PubMed de rechercher
un deuxième descripteur pour effectuer une recherche pertinente sur un sujet.
L’explosion
Lors d’une recherche dans PubMed à partir d’un mot-clé MeSH, la base recherche par
défaut les références indexées avec ce descripteur, ainsi que celles indexées avec les
descripteurs plus précis (termes spécifiques) de ce mot-clé : c’est ce qu’on appelle
l’explosion.
L’explosion
Lors d’une recherche dans PubMed à partir d’un mot-clé MeSH, la base recherche par
défaut les références indexées avec ce descripteur, ainsi que celles indexées avec les
descripteurs plus précis (termes spécifiques) de ce mot-clé : c’est ce qu’on appelle
l’explosion.
Explosion Termes spécifiques

Liste des synonymes (Entry terms), qui sont récupérés
lors d’une interrogation avec le descripteur principal
Positions du descripteur dans l’arborescence

Atelier Bioinfo S1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Atelier Bioinfo S1

Transféré par

Droits d'auteur :

Formats disponibles

Atelier

Pr. Melloul Marouane

• Molécule présente dans tous les noyaux des cellules

• Il porte l'information génétique et constitue le

• Toutes les cellules de l'organisme ont le même ADN

• C’est le principal constituant des chromosomes,

• Sa fonction principale est de stocker l’information

• Autre fonction essentielle : la transmission de cette

• L’ADN est une très grande molécule composée

- L'extrémité de la chaîne avec un phosphate libre (à gauche sur l'image) est

Bases azotées Adénine, thymine, Adénine, uracile,

• L’ADN est le constituant principale des gènes

ADN Gènes Protéines

• Gènes : C’est l’ordre d’enchainement d’un grand nombre de

• Parties codantes de l’ADN

• Unités de base de l’hérédité.

– la transcription de l'ADN en ARN messager

– La traduction de l'ARN messager

• C’est un processus biologique ubiquitaire

• La molécule d’ADN va servir de modèle

• Consiste en la copie des régions dites codantes de l’ADN

• L'enzyme qui catalyse cette réaction de transcription est

• Le code génétique est dégénéré (61 codons et seulement 20 acides aminés)

Ex : Leucine (six codons)

• Le code génétique est universel (en général)

• Le code génétique n’est pas chevauchant

• Succession spécifique de plusieurs AA

• Pour connaître les AA qui entrent dans la

– Mutations locales: Au niveau de la séquence;

– Mutations globales: Au niveau du génome;

Substitution, c’est à dire remplacement d’un nucléotide par un autre

Délétion, c’est à dire suppression d’un ou de plusieurs nucleotides

Insertion, c’est à dire addition d’un ou de plusieurs nucléotides.

Les substitutions de purine à purine ou de pyrimidine à pyrimidine (transitions) sont

Les autres substitutions sont des transversions :

Séquence du gène HBB

Recherche de mutations (variants)

• Discipline relativement nouvelle, qui évolue en fonction des nouveaux

• Discipline fondée sur les acquis de la biologie, des mathématiques et

• L'utilisation des ordinateurs pour recueillir, analyser et interpréter les

• Un ensemble d'outils logiciels pour l'analyse de séquences

• Elle propose des méthodes et des logiciels qui permettent de gérer,

• Nombreuses bases de données en bioinformatique

• Données issues d'expériences, de publications, d'analyses

• La plupart de ces bases sont accessibles librement sur

• Chaque base propose un accès simplifié via un site web

> Trouver les gènes

• Se familiariser avec quelques-unes des principales bases

• Apprendre à formuler des requêtes structurées, en

• Rechercher des séquences nucléotidiques et protéiques

• Interpréter les annotations,

Organisation américaine qui gère des ressources bioinformatiques représentant une

NCBI maintient un certain nombre de bases de données,

PubMed pour la littérature scientifique,

MeSH pour le domaine médical et des sciences biomédicales

OMIM pour les maladies génétiques.

GenBank pour les séquences nucléiques

Ces différentes bases de données sont consultables au moyen d'une interface

PubMed est une base de données bibliographique spécialisée en sciences

C’est la base de données de référence pour effectuer des recherches en

Medline est le nom de la base de données produite et gérée par la NLM

PubMed (Public Access to Medline) est le nom de l’interface qui permet

L’opérateur AND (ET) permet de réaliser l’intersection de deux ou plusieurs

L’opérateur OR (OU) permet de réaliser la réunion de deux ou