Vous êtes sur la page 1sur 12

Microb Ecol

DOI 10.1007 / s00248-013-0230-3

MÉTHODES

Un nouveau cadre pour quantifier avec précision la diversité des


communautés bactériennes du sol de la DGGE

Jonathan Lalande et Richard Villemur et Louise Deschênes

Reçu: 19 décembre 2012 / Accepté: 11 avril 2013


# Springer Science + Business Media New York 2013

Abstrait L'électrophorèse sur gel en gradient dénaturant (DGGE) a à partir de la quantification de bande. L'allongement de ces RAD
été et reste largement utilisée pour évaluer et surveiller les effets partiels à l'aide des PSR extraits des profils de la DGGE a
de divers traitements sur les communautés bactériennes du sol. En principalement permis d'estimer avec précision la vraie diversité
ne considérant que les phylotypes abondants, les estimations de des communautés. Pour tous les échantillons analysés, l'estimation
diversité produites par cette technique se sont avérées non de Shannon et Simpson ' s 1 / ré étaient précis à ± 10%. Les
corrélées à la vraie diversité communautaire. Le but de cet article estimations de richesse étaient moins précises, allant de - 11 à 31%
était de développer un cadre pour estimer une communauté ' s vraie des valeurs attendues. Le cadre a montré un grand potentiel pour
diversité de DGGE. Développé à l'aide de profils DGGE in silico étudier la structure et la diversité des communautés bactériennes
générés à partir d'ensembles de données de pyroséquençage du sol.
publiés, ce cadre allonge les distributions de rang-abondance (RAD)
tirées par quantification de bande en utilisant le paramètre de
rapport pic-signal (PSR), qui s'est avéré être lié à la richesse
introduction
bactérienne. La capacité de comparer les estimations de la diversité
basées sur la DGGE à la vraie diversité des communautés a conduit
Compte tenu de l'importance de la diversité en ce qui concerne le
à une occasion unique d'identifier les pièges potentiels lors de
fonctionnement des écosystèmes [ 1 ] et sa résistance et sa résilience
l'analyse des gels DGGE avec des logiciels d'analyse commerciaux et
aux perturbations [ 2 ], il est très important de pouvoir évaluer et
de mieux comprendre le processus de regroupement des bandes
comparer régulièrement la diversité des communautés
d'ADN dans les profils. La diversité bactérienne a été comparée à
microbiennes du sol sur une grande échelle de pratiques de gestion
travers la richesse, Shannon et Simpson ' s 1 / ré indices. Les résultats
et de traitements.
intermédiaires ont démontré que, même si les logiciels
En effet, les communautés microbiennes du sol sont parmi les plus
commerciaux d'analyse de gel n'étaient pas en mesure de produire
diversifiées et les plus abondantes sur Terre [ 3 ] et jouent un rôle clé dans les
des résultats cohérents dans tous les échantillons, un nouveau
écosystèmes terrestres [ 4 ]. Même si ces communautés peuvent être étudiées
cadre basé sur Matlab a démêlé les profils de dominance des
en profondeur grâce à la métagénomique moderne [ 5 ], les chercheurs ont
communautés.
toujours besoin de méthodes rentables pour estimer de manière fiable la
diversité de plusieurs échantillons. Des techniques d'empreintes digitales
Matériel supplémentaire électronique La version en ligne de cet article (doi: 10.1007 telles que l'électrophorèse sur gel à gradient dénaturant (DGGE) ont été
/ s00248-013-0230-3) contient des informations supplémentaires, qui sont à la
utilisées avec succès dans de nombreuses études sur la diversité [ 6 ].
disposition des utilisateurs autorisés.

J. Lalande (*): L. Deschênes Pour des communautés aussi complexes, interpréter les résultats des
École Polytechnique de Montréal, Département de génie
enquêtes sur la diversité basées sur la DGGE - même s'ils sont largement
chimique, CIRAIG, 2500 chemin de Polytechnique,
Montréal, QC, Canada H3T 1J4 utilisés - n'est pas une tâche facile. Initialement développé comme un
courriel: jonathan.lalande@polymtl.ca outil de détection de mutation, le DGGE peut théoriquement séparer les
séquences d'ADN qui diffèrent d'une seule paire de bases [ 7 , 8 ]. Par
R. Villemur
conséquent, dans l'estimation de la diversité communautaire à partir des
Groupe de recherche en microbiologie environnementale, INRS - Centre de
recherche de l'Institut Armand-Frappier, 531 boul. des Prairies, Laval, QC, profils DGGE, les bandes visibles sont implicitement associées à des
Canada H7V 1B7 phylotypes uniques. Puisque des auteurs dont Schmalenberger
J. Lalande et coll.

et Tebbe [ 9 ] ont clairement démontré que les bandes DGGE peuvent décrire les communautés bactériennes du sol sont le log-normal [ 13 ,
contenir de nombreuses unités taxonomiques opérationnelles (OTU) 15 - 18 ], la loi de puissance [ 19 , 20 ], et le géométrique [ 13 , 15 ], et ces
différentes, cette considération générale est connue pour être fausse. modèles d'abondance pourraient être utilisés pour allonger les RAD
D'une manière générale, le niveau de similitude entre les marqueurs partielles basées sur la DGGE à " ajouter " les OTU qui ne sont pas
génétiques de différents organismes constitue la base de la définition de suffisamment abondantes pour produire une bande visible sur le
l'OTU dans la taxonomie microbienne moderne. Il a été déclaré que la gel. Le SBP fournirait un critère d'arrêt pour le processus
valeur minimale de 97% de similitude entre les séquences génétiques de d'allongement, indiquant la longueur à laquelle la distribution est
l'ARNr 16S proposée par Stackebrandt et Goebel [ dix ] peut ne pas avoir terminée. Si une telle méthodologie pouvait être développée, elle
le pouvoir de résolution de relier les bactéries au niveau de l'espèce [ 11 ], permettrait la caractérisation précise de la diversité des
en particulier pour les courtes séquences partielles. Si le niveau de communautés bactériennes du sol à partir des empreintes digitales
similitude à utiliser est discutable, le concept fournit toujours une base DGGE.
utile et scientifiquement fondée pour estimer et comparer la diversité Le principal objectif de ce document était de développer un tel cadre.
des communautés bactériennes. Même s'il a été démontré que la Dans le processus d'élaboration de ce cadre, l'influence de certains
superposition de bandes d'ADN sur les profils DGGE se produit, on ne paramètres analytiques (soustraction du bruit de fond et quantification
sait pas si ce processus peut être lié au regroupement de séquences des pics DGGE) et l'étendue du processus de regroupement des bandes
d'ADN à un niveau de similitude ou si les deux processus donneront ont été évaluées. Pour ce faire, des ensembles de données de
systématiquement une représentation comparable des profils de pyroséquençage accessibles au public des communautés bactériennes
dominance des communautés bactériennes du sol. du sol [ 21 ] ont été utilisés pour générer des profils DGGE in silico. La
connaissance de la composition de la communauté a permis d'évaluer si
Un autre aspect mal compris et apparemment négligé de la les estimations de la diversité basées sur la DGGE peuvent
DGGE est l'étape d'analyse de profil elle-même. Dans la littérature théoriquement conduire à des conclusions similaires que des méthodes
scientifique, les modèles d'empreintes digitales ont été analysés à plus robustes basées sur le séquençage et le regroupement de l'ADN.
l'aide de nombreux logiciels différents. Bien que pratiques, il faut
reconnaître que la plupart n'ont pas été spécifiquement développés
pour analyser des empreintes digitales aussi complexes que celles
produites par les communautés bactériennes du sol Méthodes
(communications personnelles). Il semble que les différences entre
les logiciels et plus généralement leur capacité à démêler Construction de profils In Silico DGGE
quantitativement les communautés ' le véritable profil de
dominance des schémas de baguage n'a jamais été évalué. Les profils DGGE in silico ont été construits en utilisant des
De plus, des simulations numériques ont démontré qu'en ne permettant de ensembles de données de pyroséquençage des communautés
considérer que les phylotypes les plus abondants, les techniques de prise bactériennes du sol téléchargés à partir des archives de lecture de
d'empreintes fournissent une estimation inexacte de la vraie diversité des séquence NCBI [ 22 ]. Cette méthodologie a été choisie pour éviter la
communautés microbiennes [ 12 , 13 ]. Les indices de diversité couramment utilisés nécessité de choisir un modèle théorique approprié pour dériver les
pour quantifier la diversité sont influencés à la fois par la richesse (longueur) et le RAD utilisés pour créer les profils. Les ensembles de données ont
modèle de dominance véhiculé par l'ensemble de données utilisé pour tracer la été générés à l'aide d'ADN extrait de six sols différents et ciblant le
distribution rang-abondance (RAD) de la communauté étudiée [ 12 , 14 ]. L'analyse V2 - Région V3 du gène de l'ARNr 16S bactérien (environ 400 nt) [ 21 ].
traditionnelle des schémas de bandes DGGE fournit théoriquement des informations Les séquences ont été traitées par les auteurs pour éliminer les
sur les profils de dominance communautaire mais pas sur la richesse. Cependant, amorces et les régions présentant des scores de faible qualité et
sur la base de communautés bactériennes simulées, Loisel et al. [ 15 ] a montré que le variaient en longueur entre 200 et 300 nt.
pourcentage de fond de sous-unité (SBP), un indicateur extractible à partir des Présentant différents modèles de richesse et de dominance initiaux,
profils DGGE, était lié à la richesse de la communauté. Le SBP peut être considéré trois de ces ensembles de données ont été sélectionnés pour une
comme une mesure de la proportion de la communauté étudiée qui n'est pas prise analyse plus approfondie: FUG3 (prairies intensément fertilisées), BF2
en compte lorsque seuls les pics visibles sont considérés. Malheureusement, la (forêt de hêtres non gérée) et SAF1 (forêt d'épinettes). Chaque ensemble
relation entre le SBP et la richesse n'est pas simple et il a été démontré qu'elle de données a été aligné et regroupé en utilisant trois niveaux de
dépendait du modèle d'abondance pour générer les communautés bactériennes similitude (100, 97 et 95%) avec le pipeline de pyroséquençage RDP [ 23 ].
simulées. Utilisé en conjonction avec des modèles d'abondance théoriques, le SBP Les ensembles de données ont été encore simplifiés en associant
pourrait permettre d'inférer des RADs de toute la communauté à partir des schémas l'abondance relative de chaque OTU à une séquence représentative
de bandes DGGE. Les modèles les plus couramment utilisés pour unique, garantissant que chaque cluster génère une bande DGGE
unique dans le in silico profils. Au total, neuf communautés ont été
produites, d'une richesse variant entre 1895 et 17552 OTU et présentant
une abondance relative d'OTU la plus dominante entre
1,5 et 5,4%.
Quantification de la diversité des communautés bactériennes du sol à partir de la DGGE

Les OTU ont été positionnées dans les profils à l'aide d'ADN se- algorithmes de soustraction de fond ou de délimitation des pics.
quence températures de fusion théoriques ( T m) calculé avec Ces paramètres ont donc été étudiés plus avant.
Khandelwal et Bhyravabhotla ' modèle prédictif
[ 24 ]. Ce modèle a été choisi car il a donné de bons résultats sur une Soustraction d'arrière-plan
large gamme de longueurs de séquence (15 mers à génomique). Les
conditions de gel (gradient de dénaturation) ont été ajustées en Les algorithmes de soustraction de fond évalués dans cet article se
considérant que l'urée et le formamide réduisent les températures de sont limités aux approches populaires de la boule roulante incluses
fusion des séquences d'ADN de 2,25 ° C / M et 0,6 ° C /% [ 25 ], dans TotalLab, GelCompar II et BIO-1D, et à l'approche développée
respectivement, en veillant à ce que toutes les séquences soient incluses pour le programme basé sur Matlab. TotalLab Quant et GelCompar
dans les profils. Les pics de DGGE ont été représentés dans les profils in II intègrent pratiquement le même algorithme: une balle virtuelle
silico par des fonctions de densité de probabilité gaussiennes (PDF) (Eq. 1 ). dont le diamètre est choisi par l'utilisateur roule sous les profils et
soustrait le signal situé sous le haut de la balle. BIO-1D ' L'algorithme
de s est légèrement différent puisqu'il soustrait d'abord le signal du

xx 0 E 2

je ré X Þ ¼ p 2 σe2
UNEffiffiffiffiffiffiffi ré 1 E centre de la bille et demande ensuite à l'utilisateur de définir un
2 p2 niveau de seuil pour ajuster les intensités de la ligne de base du
Le pic correspondant à chaque OTU était donc complètement profil à zéro.
représenté par trois paramètres: position centrale GelCompar II et BIO-1D proposent tous deux un " optimal "
sur le gel ( X 0 en pixels, déterminé à partir de T m), amplitude ( UNE en la taille de la boule pour un gel donné (respectivement 41 et 72
intensité en niveaux de gris proportionnelle au relatif OTU pixels pour l'image synthétisée). Chaque profil a donc été analysé
abondance dans son jeu de données RAD) et la largeur du pic ( σ avec chaque logiciel en utilisant des rayons de balle de 20, 41,
en pixels, écart type). Sur la base des observations de gels 72 et 144 (94 pour BIO-1D car il s'agissait de la taille maximale
DGGE expérimentaux, l'écart type a été fixé à une valeur autorisée par le logiciel). TotalLab Quant et BIO-1D ne nécessitent
moyenne de 2,0 pixels et forcé de varier au hasard pour chaque pas la redéfinition des pics lors de la modification de la taille de la
OTU entre ± 10% de la valeur moyenne. Intensité de pointe Je (x) balle, et des rayons supplémentaires de 5 et 10 ont été ajoutés pour
a été évalué pour tous les pixels ( X valeurs) sur toute la ces logiciels.
longueur verticale du gel (fixée à 1 024 pixels). Les profils in La soustraction de fond avec le programme basé sur Matlab
silico ont été obtenus en additionnant l'intensité correspondant fonctionnait différemment. Après avoir essayé de développer
à chaque OTU contenue dans un jeu de données donné pour une procédure de calcul automatisée pour dériver des profils
chaque pixel. de bruit de fond à partir de gels DGGE, il a été observé qu'un
L'image représentant le gel DGGE in silico a été créée au format ajustement manuel était le meilleur et, peut-être, le seul moyen
TIFF non compressé 16 bits (valeur maximale en niveaux de gris de de tracer correctement une ligne entre la zone des pics et
65 535). Les intensités de tous les profils verticaux ont d'abord été l'arrière-plan. Cet ajustement manuel était basé sur
normalisées de sorte que la valeur maximale des niveaux de gris l'observation attentive de l'image du gel. Les profils de fond ont
pour chaque échantillon soit égale à 50 000. Cette étape a été été obtenus en classant qualitativement les pics voisins de très
considérée comme analogue à l'ajustement du temps d'exposition faible à très brillant. Il a été observé qu'un profil de fond très
lors de la photographie de gels DGGE. Les profils bidimensionnels proche des pics ' root donne plus de poids aux pics les plus
ont été considérés comme ayant une largeur de 175 pixels, tous brillants et vice versa. Réglage du niveau de fond plus proche
remplis des profils unidimensionnels générés précédemment. Afin ou plus éloigné des pics ' root a permis de dessiner l'image la
de reproduire certaines des difficultés liées à l'analyse de vrais gels plus représentative de ce qui est visuellement véhiculé par
DGGE, un bruit de fond supplémentaire calculé à partir du niveau l'image. Il faut mentionner que ce processus est itératif.
d'intensité moyen des profils et ajusté aléatoirement a été ajouté. Pendant le processus de quantification, si un pic est
disproportionné par rapport à ses voisins ou si son écart-type
optimisé est significativement différent de tous les autres pics,
Analyse des profils il peut être nécessaire d'ajuster le profil de fond en
conséquence.
Les profils DGGE in silico ont été analysés à l'aide de quatre
logiciels différents: TotalLab Quant (TotalLab Ltd., Délimitation et quantification des pics
Newcastle upon Tyne, UK), GelCompar II (Applied Maths,
Inc., Austin, TX, USA), BIO-1D advanced (Vilber Lourmat, Dans les quatre logiciels considérés, les pics ont été
Marne-la-Vallée, France) et un programme basé sur Matlab quantifiés à l'aide de deux approches générales différentes.
(The MathWorks Inc., Natick, MA, USA) spécialement L'approche partagée par TotalLab Quant et BIO-1D consiste
développé pour cet article. Les principales différences entre à délimiter les pics par deux droites. Les pics sont ensuite
les logiciels étaient principalement liées à leur quantifiés en additionnant l'intensité du fond.
J. Lalande et coll.

profil soustrait entre ces lignes. En revanche, GelCompar II et le bande visible sur le gel. Ces OTU ne sont d'ailleurs pas
framework basé sur Matlab ajustent les PDF gaussiens sous les pics prises en compte dans les estimations de diversité
(Eq. 1 ). Cet ajustement est effectué manuellement dans GelCompar produites par la DGGE et seront traitées par le cadre
II, tandis que le framework basé sur Matlab optimise d'élongation (présenté ci-dessous).
automatiquement et simultanément de nombreux pics. Pour le Enfin, étant donné que les petits pics peuvent ne pas être très
cadre basé sur Matlab, les analyses de profil sont effectuées dans représentatifs des véritables profils de dominance communautaire,
de nombreux cycles d'optimisation. Dans une boîte de dialogue les RAD basés sur la DGGE ont été tronqués en soustrayant tous les
interactive, l'analyste saisit des informations sur la position centrale pics avec des abondances relatives inférieures à un certain seuil.
des pics à quantifier (moins de 10 pics pour chaque tour). Les Puisqu'il était impossible de choisir objectivement un seuil
positions centrales sont déterminées directement à partir de approprié, des pourcentages entre 0 et 3,0% (par incréments de
l'image du gel DGGE visualisé avec n'importe quel logiciel d'édition 0,2%) ont été successivement utilisés afin d'identifier la valeur
d'image. Après la convergence de l'algorithme, les pics optimisés optimale pour les analyses ultérieures. Cette troncature a été jugée
sont tracés par rapport au profil analysé. L'analyste peut accepter nécessaire car il a été observé que les radios réelles et basées sur la
ou rejeter les résultats. Si elle est rejetée, la routine d'optimisation DGGE s'écartaient à une certaine valeur d'abondance relative. Les
peut être exécutée à nouveau avec différentes positions centrales valeurs PSR ont été modifiées pour prendre en compte les pics qui
initiales ou avec moins ou plus de pics. Le programme est exécuté à ont été supprimés des RAD basés sur la DGGE.
plusieurs reprises jusqu'à ce que les pics soient acceptés. Les
paramètres PDF résultants sont ensuite enregistrés et Pour comparer les profils de dominance communautaire basés sur le
l'optimisation passe à d'autres pics, jusqu'à ce que le profil entier DGGE et les véritables profils de dominance communautaire, les
soit analysé. Les pics d'abondance sont finalement déterminés à véritables RAD ont dû être modifiés. Pour tous les échantillons, les vraies
partir des amplitudes PDF. distributions ont été tronquées en conservant le même nombre d'OTU
que le nombre de pics au-dessus du pourcentage de coupure. Les vrais
Représentativité des profils de dominance basés sur le DGGE PSR ont ensuite été calculés comme le nombre de séquences dans les
RAD tronquées divisé par le nombre de séquences dans les distributions
Bien qu'un niveau de similitude de 97% soit choisi dans presque toutes complètes. Enfin, comme la quantification de la bande DGGE donne des
les enquêtes sur la diversité des communautés bactériennes basées sur résultats en abondance relative, les vrais RAD ont été transformés en
le séquençage, il est douteux que la valeur ait une signification lors de conséquence. Cette troncature a conduit au calcul d'indices de diversité
l'analyse des modèles de bandes DGGE. Si toutes les bandes DGGE biaisés et n'a été utilisée qu'à des fins de comparaison. La
étaient générées par une seule OTU, les RAD tirés de la quantification représentativité des profils de dominance basés sur la DGGE a été
des pics seraient très similaires aux RAD produits par séquençage d'un évaluée à l'aide de quatre indicateurs. Le premier indicateur a été utilisé
ensemble de données regroupées au niveau de similitude de 100%. pour vérifier si les PSR peuvent être extraits avec précision des profils
Étant donné que les bandes DGGE sont connues pour se superposer DGGE:
dans une certaine mesure, les ensembles de données utilisés pour
1. Δ PSR: pourcentage d'écart des PSR basés sur la DGGE
générer des profils in silico ont été ensuite regroupés à l'aide du pipeline
par rapport aux vrais PSR calculés à partir du regroupement des ensembles de
RDP [ 23 ], avec des niveaux de similitude allant de 96 à 100%. Cette étape
données de séquençage;
vise à déterminer si le processus de superposition de bandes d'ADN est
numériquement similaire au regroupement de séquences d'ADN à un Étant donné que l'objectif principal de cet article était de
niveau de similitude spécifique. Par souci de simplicité, dans le contexte déterminer si le DGGE pouvait être utilisé en toute confiance pour
particulier de cette publication, les RAD et les indices de diversité évaluer la diversité des communautés bactériennes du sol, deux
calculés à partir des ensembles de données de pyroséquençage utilisés indices de diversité omniprésents ont été calculés pour caractériser
pour générer les profils DGGE in silico seront appelés les vrais RAD et vraie les RAD représentant les communautés. ' profils de dominance. Ces
diversité pour un certain niveau de similitude. indices ont été calculés à l'aide du logiciel PAST [ 26 ].
Le rapport crête / signal (PSR = 1 - SBP), un paramètre
2. Δ H ′: Pourcentage d'écart de Shannon basé sur DGGE
analogue au SBP introduit par Loisel et al. [ 15 ], a été extrait
indices des valeurs attendues correspondantes;
de tous les profils DGGE in silico. Pour chaque échantillon,
3. Δ 1/ RÉ: Pourcentage d'écart de Simpson basé sur DGGE ' s
le PSR a été calculé comme la surface sous tous les pics
1/ ré indices à partir des valeurs attendues correspondantes.
divisée par la surface sous l'ensemble du profil. Le bruit de
fond ajouté sous les profils DGGE lors de la synthèse de Afin de caractériser davantage la similitude entre les profils de
l'image a été soustrait avant le calcul des PSR. Ce paramètre dominance DGGE et basés sur le clustering, la distance euclidienne [ 27 ] a
représente le pourcentage de toutes les séquences d'ADN été calculé. Contrairement aux deux indices de diversité précédents,
chargées dans un profil DGGE contenues dans les OTU les cette mesure associa chaque pic DGGE à son OTU sous-jacent principal.
plus abondantes (les pics). Le reste appartient aux OTU pas Pour ce faire, les postes migratoires théoriques OTU ont été associés à
assez abondantes pour produire un
Quantification de la diversité des communautés bactériennes du sol à partir de la DGGE

emplacements réels des pics dans les profils in silico. Puisque la valeur en Eq. 3 ) produisant une abondance juste en dessous de celle du
mesure a été calculée en utilisant les RAD tronqués produits par dernier pic retenu a été sélectionné comme point de départ X valeur de
les deux approches, certains pics ne correspondaient à aucune l'allongement. Cette abscisse initiale était distincte pour tous les
position théorique OTU et vice versa. Dans ces cas, l'abondance échantillons et une fois déterminée, elle était augmentée de un à chaque
relative du pic / OTU correspondant a été fixée à 0%. fois qu'une espèce était ajoutée au RAD. L'autre paramètre
de l'Eq. 3 , X min, variait entre 500 et 3000 et a été optimisé pour
4. ré EUCLIDEAN: Calculé à l'aide de l'Eq. 2 , où UNE DGGE
chaque échantillon afin d'assurer la continuité dans le
correspond aux intensités relatives de crête, UNE OTU représente
les valeurs d'abondance à la jonction des deux étapes d'élongation.
les abondances relatives OTU, et n correspond à RAD
La deuxième étape d'élongation a produit des valeurs d'abondance
longueurs.
pour les espèces de rang 700 et plus. Dans cette deuxième étape, le
rang d'espèce correspondait aux valeurs d'abscisses. Le PLD
q ffi X paramètres α et X min sont des fonctions des valeurs PSR et ont
ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi
n ré
ré EUCLIDÉAN ¼ UNE je DGGE UNE je OTU E 2 ré 2 E été déterminées à l'aide de relations dérivées du vrai
je ¼ 1
RAD communautaires (Eqs. 4 et 5 ). Pour les deux étapes
d'élongation, les valeurs d'abondance prévues ont été arrondies à
Utilisation des PSR pour améliorer les estimations de la diversité basées sur le DGGE l'entier le plus proche. Considérant que le cadre d'élongation était
conçu pour fonctionner en abondance absolue, lorsqu'une valeur
En utilisant les valeurs de PSR extraites des profils, un cadre empirique de 1 était atteinte, des singletons étaient ajoutés jusqu'à ce que la
pour estimer la vraie diversité communautaire de DGGE a été développé. somme de l'abondance de toutes les espèces soit égale à 35 000.
Étant donné que les profils de dominance basés sur le DGGE et le Chiffre 1 présente une représentation schématique du cadre
pyroséquençage étaient très similaires lors du regroupement des d'allongement.
ensembles de données au niveau de 98%, le cadre a été développé pour
estimer la vraie diversité communautaire à ce niveau de similitude
une ¼ 0: 267 PSR 0: 935 ré 4 E
particulier.
Tout d'abord, les RAD produits par le cadre basé sur Matlab
X min ¼ 5; 034 PSR e 3; 656 ré 5 E
ont été tronqués en utilisant la valeur seuil optimale (1,0%).
Après la troncature, les RAD ont été normalisés (somme = 1), Il faut souligner que le cadre d'élongation produit des
multipliés par les PSR correspondants, puis multipliés par distributions qui ne suivent pas un modèle d'abondance particulier.
35 000. Cette dernière étape visait à permettre de travailler en En effet, les têtes RAD sont tirées de la quantification des pics et
termes d'abondance absolue plutôt que relative. La valeur sont sans distribution. Les valeurs d'abondance moyenne et faible
35 000 a été choisi parce qu'il était proche du nombre de lectures par sont toutes prédites à l'aide du PLD, mais avec un paramétrage
échantillon dans les ensembles de données de pyroséquençage utilisés dans différent du modèle. Par conséquent, les RAD résultantes ne suivent
cette publication. généralement pas une loi de puissance.
Les distributions ont ensuite été allongées pour " ajouter " les espèces À l'aide de ces RAD allongées, la diversité de la communauté
qui n'ont pas été prises en compte dans le processus de quantification bactérienne a été caractérisée par trois indicateurs: la richesse de la
des pics. Ce cadre d'élongation a été conçu et calibré en utilisant communauté (nombre d'espèces), Shannon et Simpson ' s 1 / ré
uniquement les véritables RAD communautaires. La méthode a ensuite indices. Les diversités estimées ont été comparées à la vraie
été appliquée sans autre modification sur les résultats du DGGE. Bien diversité communautaire au niveau de similitude de 98% (RAD non
que la log-normale, la loi de puissance et les distributions géométriques tronquées). Tous les indices ont été calculés à l'aide du logiciel PAST
soient les modèles d'abondance les plus couramment utilisés pour [ 26 ].
décrire les communautés bactériennes du sol, elles n'ont pas été en
mesure d'ajuster correctement les véritables RAD. La distribution de la
loi de puissance (PLD, Eq. 3 ) a fourni un ajustement acceptable si un
paramétrage distinct du modèle est utilisé pour prédire les valeurs Résultats
d'abondance moyenne et faible. En commençant juste après le dernier
pic DGGE au-dessus de la valeur de coupure optimale, le cadre Représentativité des profils de dominance basés sur le DGGE
d'élongation a donc été divisé en deux étapes distinctes, toutes deux
basées sur l'Eq. 3 . Des ensembles de données de pyroséquençage de séquences génétiques
d'ARNr 16S provenant de trois environnements différents ont été regroupés à
PLD ré X Þ ¼ X min X une ré 3 E
un niveau de similarité de 95, 97 et 100%, générant neuf bactes «théoriques».

La première étape a allongé les RADs basés sur DGGE tronqués communautés riales. Basé sur la théorie T m d'une séquence
jusqu'à ce qu'une richesse de 699 soit atteinte en utilisant un représentative unique sélectionnée pour chaque OTU, in silico
exposant PLD ( α) de 0,875 pour tous les échantillons. L'abscisse ( X Les profils DGGE ont été dérivés (Fig. 2 ).
J. Lalande et coll.

Fig. 1 Représentation schématique du cadre d'élongation. Le cadre a été BF 100%, et les résultats du processus d'élongation peuvent être comparés avec
développé avec des ensembles de données de pyroséquençage contenant le vrai RAD. Les résultats ne sont présentés que pour le rang d'espèce sous
environ 35 000 séquences par échantillon. Les RAD allongées étaient donc 1200 pour la lisibilité, mais la richesse réelle de cet échantillon était d'environ
considérées comme complètes lorsque l'abondance de toutes les espèces 9 500
était additionnée à cette valeur. L'exemple est donné à titre d'exemple

Chaque profil in silico a été analysé de 17 manières (programmes indicateurs sur l'ensemble de la plage de coupure rapportée, est
logiciels et tailles de billes), et les RAD résultants ont été tronqués à présentée sous forme de ressources en ligne (ESM 2 .pdf). Tableau 2 présente
l'aide de diverses valeurs de coupure et comparés aux ensembles de également les paramètres jugés optimaux pour chaque logiciel.
données de pyroséquençage correspondants regroupés en utilisant cinq Cependant, comme l'analyse de profil DGGE implique
niveaux de similitude différents (de 96 à 100%). Cette méthodologie a traditionnellement l'utilisation d'une seule taille de boule pour tous les
généré une quantité importante de données, et les résultats complets échantillons chargés sur un gel donné, les paramètres présentés dans le
sont présentés sous forme de ressources en ligne (ESM 1 .xlsx). Pour tableau 2 ont été sélectionnés en considérant les neuf échantillons
synthétiser les résultats, les paramètres jugés optimaux pour tout simultanément. Le pourcentage de coupure optimal était également
l'échantillon - les paires de logiciels sont présentées dans le tableau 1 . Les limité à une seule valeur. Chiffre 3 présente le
paramètres optimaux correspondent à la taille de la balle et au niveau moyenne Δ PSR, Δ H ′, Δ 1/ RÉ, et ré EUCLIDÉAN valeurs produites par
de similitude qui ont permis de répondre à des critères prédéfinis ( Δ PSR, Δ chaque logiciel lorsque les paramètres présentés dans
H ′, et Δ 1/ ré ≤ ± 10%) sur la plus large plage de valeurs de coupure. La Tableau 2 sont utilisés.

stabilité des indicateurs pour différentes valeurs seuils a été considérée Les différences dans les résultats présentés dans les tableaux 1 et 2
comme un aspect très important à prendre en compte car le hasard seul pour les trois logiciels commerciaux sont remarquables. En prenant
peut donner de bons résultats pour un pourcentage seuil spécifique. TotalLab Quant comme exemple, un rayon de balle de 20 n'a jamais été
Une version plus complète de Table 1 , qui présente également les jugé optimal lorsque l'on considère les échantillons individuellement.
valeurs moyennes du Pourtant, cette taille de balle a été sélectionnée comme la meilleure

Fig. 2 Image du gel synthétisée à


partir des ensembles de données
publiés par Nacke et al. [ 21 ]
Quantification de la diversité des communautés bactériennes du sol à partir de la DGGE

Tableau 1 Paramètres optimaux


obtenus pour tout l'échantillon - Programme informatique Goûter Taille de balle optimale Niveau de similitude le plus proche Plage de coupure

paires de logiciels
Cadre basé sur Matlab FUG 100% - 98% 0,4 - 3.0
BF 100% - 98% 0,4 - 3.0
SAF 100% - 98% 0,4 - 1,8
FUG 97% - 98% 0,6 - 3.0
BF 97% - 97% 1.2 - 3.0
SAF 97% - 98% 0,6 - 3.0
FUG 95% - 98% 0,4 - 3.0
BF 95% - 98% 0,4 - 3.0
SAF 95% - 98% 0,2 - 3.0
TotalLab Quant FUG 100% dix 96% 2.2 - 3.0
BF 100% 5 100% 0,8 - 3.0
SAF 100% dix 98% 0,8 - 2.2
FUG 97% 5 100% 2,8 - 3.0
BF 97% 5 96% 2,0 - 3.0
SAF 97% 5 97% 2,8 - 3.0
FUG 95% Rien - -
BF 95% dix 98% 1.0 - 3.0
SAF 95% dix 97% 1.0 - 3.0
GelCompar II FUG 100% 41 96% 0,6 - 1,8
BF 100% 72 96% 1.0 - 3.0
SAF 100% 72 97% 0,4 - 1,6
FUG 97% 20 96% 0,6 - 3.0
BF 97% 20 96% 0,6 - 0,8
SAF 97% 72 96% 1.0 - 3.0
FUG 95% 20 96% 0,2 - 3.0
BF 95% 20 100% 0,4 - 3.0
SAF 95% 20 98% 0,6 - 3.0
BIO-1D FUG 100% Rien - -
BF 100% 5 99% 0,4 - 3.0
SAF 100% dix 100% 0,8 - 3.0
FUG 97% Rien - -
BF 97% 41 97% 0,0 - 3.0
Les valeurs de taille de balle et de niveau
SAF 97% 41 99% 0,8 - 3.0
de similarité ont été sélectionnées comme
celles générant simultanément Δ PSR,
FUG 95% 20 97% 0,0 - 0,2
Δ H ′, et Δ 1/ ré valeurs inférieures BF 95% Rien - -
à ± 10% sur la plus large plage SAF 95% 41 100% 0,6 - 3.0
de valeurs de coupure

compromis lors de l'examen simultané de tous les échantillons. Le cadre basé sur Matlab s'est avéré donner des résultats très stables
Cette observation est également vraie pour le niveau de sur tous les échantillons. En effet, les RAD basés sur la DGGE et les vrais
similitude qui a permis de minimiser les différences entre DGGE RAD étaient très proches lorsqu'un niveau de similitude de 98%
et RAD à base de pyroséquençage. a été choisi - la seule exception étant BF 97% pour lequel le

Tableau 2 Paramètres permettant de


minimiser les valeurs des indicateurs Programme informatique Taille de balle optimale Valeur limite optimale Niveau de similitude le plus proche

lorsqu'ils sont simultanément


considérant tous les échantillons Cadre basé sur Matlab - 1,0% 98%
TotalLab Quant 20 1,6% 96%
GelCompar II 41 1,0% 96%
BIO-1D 41 0,4% 98%
J. Lalande et coll.

Fig. 3 Valeurs de l'indicateur


obtenu en utilisant les paramètres
présentés dans le tableau 2 , rapportée
comme la moyenne des neuf échantillons.
Barres d'erreur correspondent au
maximum et au minimum
valeurs. Toutes les mesures de diversité
ont été calculées à l'aide de RAD
tronquées

Le niveau de 97% a donné de meilleurs résultats. Ce cadre a permis une profils utilisant le cadre basé sur Matlab et une véritable richesse
extraction précise des échantillons de PSR à partir des profils. communautaire à un niveau de similitude de 98%. Ce niveau de
Parmi les indices testés, H ′ a présenté une très bonne correspondance entre les similitude a été choisi car il s'est avéré être celui qui correspondait
RAD basés sur DGGE et les vrais RAD. Cependant, il a été constaté que cet indice était le mieux à l'étendue de l'agrégation des pics de DGGE. Considérant
davantage influencé par la longueur des RAD que par les profils de dominance qu'une relation entre le RPS et la richesse est clairement visible, ce
communautaire. Étant donné que, à des fins de comparaison, les longueurs de paramètre peut être considéré comme utile pour estimer la
distribution ont été forcées d'être égales pour les deux approches, il n'est pas diversité communautaire à partir de RAD partiels basés sur la
surprenant que H ′ DGGE.
présentait une très faible variabilité pour tous les échantillons et Calculés uniquement à partir du profil de dominance de la
programmes logiciels. En tant qu'indice de dominance, Simpson ' s 1 / ré était communauté, les indices de diversité présentés jusqu'à présent ne sont
beaucoup plus dynamique et est donc un meilleur indicateur que pas corrélés à la diversité de l'ensemble de la communauté [ 16 ]. Tableau 3
H ′ pour comparer des logiciels. En moyenne, le framework basé illustre la comparaison entre la richesse, Shannon H ′,
sur Matlab a mieux performé que les autres logiciels avec Δ 1/ ré proche
et Simpson ' s 1 / ré indices calculés à partir des profils de dominance
de ± 5% pour tous les échantillons, sauf basés sur la DGGE ou allongés à l'aide des PSR avec les indices réels
BF 97%. Les quatre logiciels ont donné une valeur de distance correspondants (RAD non tronqués) à un niveau de similitude de
euclidienne moyenne similaire autour de 10 - 12%. 98%.

Utilisation des PSR pour améliorer les enquêtes sur la diversité basées sur la DGGE

Discussion
Sur la base de communautés simulées, Loisel et al. [ 15 ] a montré
que le pourcentage de fond de sous-unité, un indicateur analogue Représentativité des profils de dominance basés sur le DGGE
au PSR, était lié à la richesse de la communauté. Chiffre 4
montre la relation entre les PSR extraits de la DGGE À la lumière des résultats complets produits pour cet article (ressources
en ligne ESM 1 .xlsx), on peut conclure que les paramètres analytiques
influencent fortement les enquêtes de diversité basées sur la DGGE des
communautés bactériennes complexes. L'algorithme utilisé pour mettre
en œuvre la méthode de soustraction de fond de boule roulante, le
rayon de boule choisi et la façon dont les pics sont délimités et quantifiés
influencent tous les résultats dans une certaine mesure. L'étape la plus
influente est sans aucun doute la soustraction du bruit de fond. En effet,
en partageant le même algorithme de balle roulante, TotalLab Quant et
GelCompar II se sont comportés de manière similaire alors que BIO-1D
était complètement différent. En outre, les valeurs des indicateurs
étaient très dynamiques pour les modifications de la taille de la balle
pour tous les logiciels. Il faut souligner qu'aucune taille de boule ne
convient également à tous les échantillons.
Comme présenté dans le tableau 1 , la similitude correspondante la plus proche

le niveau n'était pas le même pour tous les échantillons lorsque le bruit
Fig. 4 PSR extraits des profils DGGE in silico à l'aide du cadre basé sur
Matlab par rapport à la véritable richesse communautaire à un niveau de de fond du profil DGGE était soustrait à l'aide d'approches à billes
similitude de 98% roulantes. Cette observation implique principalement qu'il est
Quantification de la diversité des communautés bactériennes du sol à partir de la DGGE

Tableau 3 Écart des estimations de diversité basées sur la DGGE par rapport aux indices calculés à l'aide des RDA réels non tronqués

Indice de diversité Méthodologie analytique Écart relatif par rapport à l'indice réel Régression linéaire

Moyenne Min Max Pente R2

Richesse Quantification des pics - 99,3% - 99,7% - 98,3% - 4.5E - 05 0,006


Cadre d'allongement 4,5% - 10,8% 30,5% 0,93 0,969
Shannon Quantification des pics - 52,6% - 59,2% - 41,5% - 3.7E - 02 0,075
Cadre d'allongement 2,9% 0,4% 7,1% 1,16 0,992
Simpson 1 / ré Quantification des pics - 88,6% - 95,7% - 74,2% 3.1E - 03 0,009
Cadre d'allongement 3,7% - 3,2% 9,3% 0,94 0,996

Les indices basés sur la DGGE ont été calculés uniquement à partir des pics quantifiés (avec un seuil de 1,0%) ou en utilisant les RAD allongés. Les résultats sont présentés
comme la moyenne, le minimum et le maximum des neuf échantillons, ainsi que la pente et le coefficient de détermination générés par l'analyse de régression linéaire

impossible de savoir sur quelle base les échantillons sont comparés la moitié des pics quantifiés sont soustraits lors de l'utilisation d'une telle
lorsque les profils DGGE sont analysés à l'aide d'algorithmes valeur de coupure élevée. En fait, on a trouvé que la superposition des
automatisés de soustraction de fond. Les conclusions qui peuvent bandes se produisait assez localement et que les profils d'arrière-plan
être tirées des études de diversité basées sur la DGGE des variaient de manière irrégulière sur les longueurs de profil. Pour les
communautés bactériennes du sol - au moins lorsque les profils sont ensembles de données utilisés pour cette publication, le contexte était
analysés à l'aide des trois logiciels commerciaux testés dans cette élevé au niveau des profils ' centre mais bas à leurs débuts et fins. Par
publication - sont donc très limités. Il n'a pas été possible d'identifier conséquent, les OTU plutôt rares généreront des pics distincts dans les
une relation entre la véritable diversité de la communauté et le régions où le bruit de fond est faible, tandis que les OTU plus
rayon de balle optimal. abondantes migrant dans les régions de fond élevé ne le seront pas. Ces
Les résultats produits par le cadre basé sur Matlab qui a été développé bandes faibles ont donc généré des divergences entre les RAD basés sur
étaient complètement différents. En effet, les valeurs moyennes des la DGGE et les véritables RAD et ont dû être soustraites.
indicateurs associés à cette méthodologie étaient toutes très proches de zéro
(sauf pour les distances euclidiennes, discutées plus loin) et ont généré des Un objectif important de cet article était d'évaluer l'étendue du
barres d'erreur plutôt étroites. De plus, les résultats étaient stables sur une regroupement des bandes DGGE. À partir des profils DGGE in silico
large gamme de valeurs seuils et cohérents dans tous les échantillons. Plus produits ici, lors de l'étude de communautés bactériennes complexes du
important encore, c'est la seule méthodologie qui a permis d'extraire des PSR sol, les événements de co-migration peuvent être considérés comme la
précis des profils DGGE. La capacité de ce cadre à correspondre de manière norme plutôt que comme l'exception. Comme l'ont démontré sans
cohérente aux échantillons ' le véritable profil de dominance à un niveau de ambiguïté d'autres auteurs [ 9 ], on peut s'attendre à ce que toutes les
similitude de 98% ne doit pas être considéré comme une coïncidence. bandes DGGE contiennent de nombreux OTU différents. Travailler avec
L'utilisation de PDF gaussiens optimisés pour délimiter et quantifier les pics des profils in silico a conduit à l'observation que les pics sont
était une fonctionnalité intéressante car elle permettait de déterminer les effectivement formés par l'ajout d'un phylotype dominant et de
bandes générées par deux OTU presque en cours de migration. Cependant, la nombreux phylotypes rares. Même si un grand nombre d'OTU avaient le
cohérence du cadre était principalement associée à l'ajustement manuel des exactement le même calculé T m et donc co-migré sur les profils
profils d'arrière-plan qui permettait de traiter chaque échantillon de manière in silico (les positions OTU ont été prédites à partir du
égale, tandis que les approches à billes roulantes se sont avérées fortement séquences calculées T m), cas dans lesquels deux dominants
dépendantes de la façon dont les pics se superposaient dans les profils. Il faut Les OTU partageaient le même T m n'ont été observés dans aucun échantillon. Il est

reconnaître que cette approche a été longue et difficile au début et a donc important de garder à l'esprit que cette situation pourrait

nécessité une certaine formation. Travailler avec des gels DGGE in silico s'est se produisent dans d'autres échantillons. Pour tous les échantillons, il
avéré être un très bon moyen de produire de tels ensembles de formation. En était encore possible d'identifier certains pics formés par la co-migration
effet, les vrais gels DGGE partageaient beaucoup de similitudes avec les profils exacte de nombreux phylotypes mi-dominants, conduisant à l'apparition
in silico, d'une bande DGGE dominante. Les valeurs de distance euclidienne
présentées à la Fig. 3 étaient principalement attribuables à la présence
de certains pics importants sans OTU dominantes correspondantes.
Pour certains échantillons, la présence d'une OTU très abondante dans
La valeur seuil qui devait être appliquée aux RAD basés sur DGGE afin de les vrais RAD associés à une bande DGGE ayant une abondance relative
correspondre aux vrais RAD était étonnamment élevée: beaucoup plus faible a également eu un impact significatif sur les
1,0% pour le framework basé sur Matlab. En effet, plus de distances euclidiennes résultantes. Cette
J. Lalande et coll.

s'est produit lorsque deux OTU, toutes deux dominantes à 100% de Pour certains échantillons, la divergence de la richesse
similitude, se sont regroupées lors du choix d'un niveau inférieur. Les communautaire était supérieure à ± 10%. Pour certains
bandes DGGE correspondant à ces OTU ne se sont pas regroupées sur le échantillons, la divergence de la richesse communautaire était
gel. Compte tenu du manque de pouvoir de résolution des séquences supérieure à ± 10%. Ces différences en soi n'ont pas été considérées
génétiques de l'ARNr 16S pour identifier les bactéries au niveau de comme une lacune importante puisque le cadre d'élongation ne
l'espèce [ 11 ], il est impossible de déclarer sans ambiguïté que ces OTU visait pas spécifiquement à prédire avec précision la richesse de la
doivent être regroupées. Pourtant, les distances euclidiennes, des communauté. L'utilité du cadre réside dans sa capacité à considérer
valeurs relativement faibles indiquent clairement que la plupart des pics la véritable domination de la communauté et à apporter H ′ et 1/ ré
de DGGE étaient associés à une OTU dominante ayant une abondance calcul des indices à des valeurs de richesse plus élevées et plus
relative quantitativement comparable. réalistes. Les résultats de Narang et Dunbar, entre autres, ont
On peut donc en conclure que les pics DGGE et les séquences d'ADN montré que les indices de diversité sont moins sensibles à la
se regroupent de deux manières différentes. Les pics se regroupent sur richesse à ces valeurs élevées [ 13 ]. Pour 1/ RÉ, le cadre d'élongation
la base de leurs propriétés de fusion plus que sur la base de la similitude présenté ici est quelque peu similaire à la méthodologie publiée par
des séquences base à base. Bien entendu, les propriétés de fusion sont Loisel et al. [ 29 ]. Ces auteurs ont proposé l'utilisation d'un facteur
liées à la composition des séquences mais une forte similitude base à de correction, également basé sur le niveau de bruit de fond, pour
base ne garantit pas que deux séquences migreront à une position estimer avec précision 1 / ré valeurs des empreintes digitales. En
similaire, au moins dans les profils DGGE in silico. Bien que de nature tant qu'indice de dominance, 1 / ré s'est avérée très sensible aux
différente, les deux processus ont systématiquement donné des profils OTU ayant les plus fortes abondances. Son calcul peut donc être
de dominance comparables à un niveau de similitude de 98%, une valeur considéré comme assez robuste au cadre d'allongement mais doit
qui pourrait légèrement changer pour les gels DGGE expérimentaux. s'appuyer sur une étape précise de quantification des pics.

Comme indiqué par Hill et al. [ 12 ], H ′ donne plus de poids


Utilisation des PSR pour améliorer les enquêtes sur la diversité basées sur la DGGE que 1 / ré à des espèces rares et constitue essentiellement un
intermédiaire entre la richesse de la communauté et l'indice de
Sur la base de simulations numériques ou d'études de pyroséquençage, Simpson. Cet indice est donc moins affecté par le pas de
une RAD d'une communauté bactérienne du sol typique peut être quantification des pics que 1 / ré mais nécessite une estimation
décrite avec certitude comme longue [ 3 , 19 , 28 ], plutôt raide pour les acceptable de la richesse de la communauté pour être précise.
phylotypes les plus abondants, puis décroissant lentement vers une Au cours de l'élaboration du cadre d'allongement, il a été
valeur d'abondance relative asymptotique (doubletons et singletons) [ 13 , observé que la précision de H ′ dépendait davantage du nombre
17 , 20 ]. Le cadre d'élongation développé pour cet article visait à d'espèces rares que de la trajectoire des RAD. Par conséquent,
reproduire ces caractéristiques. Comme présenté sur la Fig. 4 , la capacité tant que la richesse prédite était assez précise, l'utilisation de
à extraire avec précision les PSR des profils est une condition préalable telle ou telle distribution d'abondance pour l'étape d'élongation
importante pour estimer la véritable diversité communautaire à partir RAD n'a pas changé. H ′ de plus de ± 10%, même si la
de la DGGE. correspondance entre les RAD allongé et vrai n'était pas très
Le cadre d'élongation présenté ici a été développé en utilisant neuf bonne. Il sera donc important de valider que le cadre
échantillons provenant de seulement trois ensembles de données de d'allongement proposé est capable de produire des prédictions
pyroséquençage distincts. Les nombreuses étapes de regroupement de richesse communautaire acceptables sur des - et plus difficile - échantillon
impliquées peuvent avoir modifié la forme des RAD résultants. En avant d'utiliser ces valeurs. Cependant, il sera toujours possible
utilisant plus d'ensembles de données, couvrant de nombreux d'adapter le paramétrage du modèle à différentes situations
environnements différents et contenant suffisamment de lectures par (paires d'amorces, environnements étudiés, etc.) chaque fois
échantillon pour atteindre le plateau des courbes de raréfaction, il serait que nécessaire.
possible de développer un cadre plus robuste ajustable aux nombreux Une question qui demeure est l'utilité des enquêtes de diversité
types de sols / environnements différents que les chercheurs peuvent traditionnelles basées sur la DGGE qui reposent uniquement sur les pics
étudier. Bien que très empirique, ce cadre plutôt simple s'est avéré très quantifiés. Tableau 3 montre clairement que ces enquêtes sous-estiment
efficace pour prédire la véritable diversité communautaire en utilisant à fortement la diversité des communautés bactériennes du sol. Plus
la fois les modèles Shannon et Simpson. ' s 1 / ré indices. Comme présenté important encore, à partir des indices de diversité présentés sous forme
dans le tableau 3 , toutes les estimations de diversité étaient exactes à ± de ressources en ligne (ESM 3 .pdf), il a été observé que ces études sont
10% et fortement corrélées avec les vrais indices à 98% de similitude. susceptibles de conduire à des conclusions écologiques erronées, ne
Ces valeurs sont bien meilleures que celles produites avant l'élongation montrant souvent aucune différence entre les échantillons lorsque des
RAD, même si ces distributions partielles se sont révélées être échantillons importants existent ou prédisant parfois le contraire.
hautement représentatives des véritables profils de dominance
communautaire à 98% de similitude. En conclusion, le cadre présenté dans cet article s'est
avéré très efficace pour estimer la vraie communauté
Quantification de la diversité des communautés bactériennes du sol à partir de la DGGE

diversité des neuf profils DGGE in silico analysés. Bien que seulement Académique, San Diego, pp 501 - 527. doi: 10.1016 / 0076-6879 (87)
55033-9
Shannon et Simpson ' s 1 / ré les indices ont été évalués, la très bonne
8. Sheffield VC, Cox DR, Lerman LS, Myers RM (1989) La fixation d'une
correspondance entre tous les RAD basés sur la DGGE et les vraies séquence riche en G + C de 40 paires de bases (GC-clamp) à des
communautés RAD à 98% de similitude conduit à l'hypothèse que le fragments d'ADN génomique par la réaction en chaîne par polymérase
cadre estimera avec précision tout indice de diversité influencé par la permet d'améliorer la détection des -base change. Proc Natl Acad Sci 86
(1): 232 - 236
structure communautaire plus que la richesse. De nature imparfaite, les
9. Schmalenberger A, Tebbe CC (2003) Diversité bactérienne dans les
gels DGGE expérimentaux sont beaucoup plus difficiles à analyser que rhizosphères de maïs: conclusions sur l'utilisation de profils génétiques
l'image synthétisée ici. Par conséquent, lorsqu'on travaille avec des basés sur des gènes d'ARNr partiels de petites sous-unités amplifiés par
résultats expérimentaux, on peut s'attendre à ce que les écarts par PCR dans les études écologiques. Mol Ecol 12 (1): 251 - 262. doi: 10.1046 / j
.1365294X.2003.01716.x
rapport à la vraie diversité communautaire soient plus élevés. Pour le
10. Stackebrandt E, Goebel BM (1994) Note taxonomique: une place pour
moment, il n'est pas possible de fournir une estimation quantitative de l'ADN - Réassociation de l'ADN et analyse de la séquence de l'ARNr 16S
l'écart attendu. Des biais potentiellement importants dans les ensembles dans la présente définition d'espèce en bactériologie. Int J Syst Bacteriol
de données de séquençage, souvent liés au contenu de la séquence GC, 44 (4): 846 - 849. doi: 10.1099 / 00207713-44-4-846
11. Rosselló-Mora R, Amann R (2001) Le concept d'espèce pour les
ont été signalés [ 30 - 33 ]. Tant que ces problèmes ne seront pas résolus,
procaryotes. FEMS Microbiol Rev 25 (1): 39 - 67. doi: 10.1111 / j.1574-
la question de savoir si les plates-formes de séquençage de nouvelle 6976.2001.tb00571.x
génération offrent ou non une base plus solide que la DGGE pour 12. Hill TCJ, Walsh KA, Harris JA, Moffett BF (2003) Utilisation de mesures
estimer quantitativement la diversité de la communauté bactérienne du de diversité écologique avec des communautés bactériennes. FEMS
Microbiol Ecol 43: 1 - 11
sol reste une question ouverte qui mérite une plus grande attention.
13. Narang R, Dunbar J (2004) Modélisation de l'abondance des espèces bactériennes
à partir d'enquêtes sur de petites communautés. Microb Ecol 47 (4): 396 - 406.
doi: 10.1007 / s00248-003-1026-7
14. Magurran AE (2004) Mesure de la diversité biologique. Blackwell
Remerciements Les auteurs reconnaissent le soutien financier du
Science, Oxford
Conseil de recherches en sciences naturelles et en génie du Canada. Le
15. Loisel P, Harmand J, Zemb O, Latrille E, Lobry C, Delgenès JP, Godon JJ
CIRAIG tient également à remercier ses partenaires industriels pour leur
(2006) Denaturing gradient electrophoresis (DGE) and single-brand
soutien financier: ArcelorMittal, Bell Canada, Bombardier, Cascades,
conformation polymorphism (SSCP) Molecular fingerprintings
Mouvement des caisses Desjardins, Groupe Électricité de France / Gaz de
revisited by simulation and used as a tool pour mesurer la diversité
France, Eco Entreprises Québec, Hydro-Québec, Johnson & Johnson,
microbienne. Environ Microbiol 8 (4): 720 - 731. doi: 10.1111 /
Groupe Louis Vuitton Moët Hennessy, Michelin, Nestlé, Recyc-Québec,
j.1462-2920.2005.00950.x
Rio Tinto Alcan, RONA, Société des alcools du Québec, Solvay, Total,
16. Blackwood CB, Hudleston D, Zak DR, Buyer JS (2007) Interprétation des indices de
Umicore et Veolia Environnement.
diversité écologique appliqués aux données de polymorphisme de longueur des
fragments de restriction terminale: aperçus de communautés microbiennes simulées.
Appl Environ Microbiol 73 (16): 5276 -

Les références 5283. doi: 10.1128 / aem.00514-07


17. Doroghazi JR, Buckley DH (2008) Preuve de GC-TRFLP que les communautés
bactériennes dans le sol sont distribuées de façon log-normale. PLoS One 3 (8):
1. Hooper DU, Chapin FS, Ewel JJ, Hector A, Inchausti P, Lavorel S, Lawton JH, e2910. est ce que je: 10.1371 / journal.pone.0002910
Lodge DM, Loreau M, Naeem S, Schmid B, Setälä H, Symstad AJ, 18. Dunbar J, Barns SM, Ticknor LO, Kuske CR (2002) Diversité bactérienne
Vandermeer J, Wardle DA (2005) Effects de la biodiversité sur le empirique et théorique dans quatre sols de l'Arizona. Appl Environ
fonctionnement des écosystèmes: un consensus des connaissances Microbiol 68 (6): 3035 - 3045. doi: 10.1128 / aem.68.6.3035-3045.2002
actuelles. Ecol Monogr 75 (1): 3 - 35. doi: 10.1890 / 04-0922 19. Gans J, Wolinsky M, Dunbar J (2005) Les améliorations informatiques révèlent une grande
2. Girvan MS, Campbell CD, Killham K, Prosser JI, Glover LA (2005) La diversité diversité bactérienne et une forte toxicité des métaux dans le sol. Science 309 (5739):
bactérienne favorise la stabilité de la communauté et la résilience 1387 - 1390. doi: 10.1126 / science.1112665
fonctionnelle après une perturbation. Environ Microbiol 7 (3): 301 - 20. JE nceo g lu Ö, Al-Soud WA, Salles JF, Semenov AV, van Elsas JD
313 (2011) Analyse comparative des communautés bactériennes dans un champ de
3. Roesch LFW, Fulthorpe RR, Riva A, Casella G, Hadwin AKM, Kent AD, pommes de terre telles que déterminées par pyroséquençage. PLoS One 6 (8): e23321.
Daroub AH, Camargo FAO, Farmerie WG, Triplett EW (2007) Le est ce que je: 10.1371 / journal.pone.0023321
pyroséquençage énumère et met en contraste la diversité 21. Nacke H, Thürmer A, Wollherr A, Will C, Hodac L, Herold N, Schöning I,
microbienne du sol. ISME J 1: 283 - 290 Schrumpf M, Daniel R (2011) Évaluation basée sur le pyroséquençage de
4. Van der Heijden MGA, Bardgett RD, Van Straalen NM (2008) La majorité la structure des communautés bactériennes le long de différents types de
invisible: les microbes du sol comme moteurs de la diversité végétale et gestion dans les sols forestiers et de prairies allemands. PLoS One 6 (2):
de la productivité dans les écosystèmes terrestres. Ecol Lett 11 (3): 296 - 310. e17000. est ce que je: 10.1371 / journal.pone.0017000
doi: 10.1111 / j.1461-0248.2007.01139.x 22. The NCBI Sequence Read Archive (SRA) (2012) Consulté le 1er
5. Simon C, Daniel R (2011) Analyses métagénomiques: tendances passées et août 2012
futures. Appl Environ Microbiol 77 (4): 1153 - 1161. doi: 10.1128 / 23. Cole JR, Wang Q, Cardenas E, Fish J, Chai B, Farris RJ, KulamSyed-Mohideen AS, McGarrell
aem.02345-10 DM, Marsh T, Garrity GM, Tiedje JM (2009) The Ribosomal Database Project: des
6. Nakatsu CH (2007) Analyse de la communauté microbienne du sol alignements améliorés et de nouveaux outils pour Analyse d'ARNr. Acides nucléiques
par électrophorèse sur gel à gradient dénaturant. Soil Sci Soc Am J Res 37 (1): 141 -
71: 562 - 571. doi: 10.2136 / sssaj2006.0080 145. doi: 10.1093 / nar / gkn879
7. Myers RM, Maniatis T, Lerman LS (1987) Détection et localisation des 24. Khandelwal G, Bhyravabhotla J (2010) Un modèle phénoménologique pour
changements de base unique par électrophorèse sur gel en gradient prédire les températures de fusion des séquences d'ADN. PLoS One 5 (8):
dénaturant. Dans: Ray W (ed) Methods in enzymology, vol 155. e12433. est ce que je: 10.1371 / journal.pone.0012433
J. Lalande et coll.

25. Hutton JR (1977) Cinétique de renaturation et stabilité thermique de l'ADN 30. Dohm JC, Lottaz C, Borodina T, Himmelbauer H (2008) Des biais substantiels dans
dans des solutions aqueuses de formamide et d'urée. Acides nucléiques des ensembles de données de lecture ultra-courtes provenant du séquençage
Res 4 (10): 3537 - 3555. doi: 10.1093 / nar / 4.10.3537 d'ADN à haut débit. Acides nucléiques Res 36 (16): e105. est ce que je: 10.1093 /
26. Hammer O, Ryan P, Harper D (2001) PAST: progiciel de statistiques nar / gkn425
paléontologiques pour l'éducation et l'analyse des données. 31. Jaenicke S, Ander C, Bekel T, Bisdorf R, Dröge M, Gartemann K-
Paléontol Electron 4 (1): 9 H, Jünemann S, Kaiser O, Krause L, Tille F, Zakrzewski M, Pühler
27. Legendre P, Legendre L (1998) Écologie numérique. Deuxième édition A, Schlüter A, Goesmann A (2011) Analyse comparative et conjointe de deux
anglaise. Développements dans la modélisation environnementale 20. ensembles de données métagénomiques d'un fermenteur de biogaz obtenu
Elsevier, Amsterdam par pyroséquençage au 454. PLoS One 6 (1): e14519. est ce que je: 10.1371 /
28. Fierer N, Breitbart M, Nulton J, Salamon P, Lozupone C, Jones R, journal.pone.0014519
Robeson M, Edwards RA, Felts B, Rayhawk S, Knight R, Rohwer 32. Pinard R, de Winter A, Sarkis G, Gerstein M, Tartaro K, Plant R,
F, Jackson RB (2007) Les analyses d'ARNr métagénomiques et de petites Egholm M, Rothberg J, Leamon J (2006) Evaluation du biais induit par
sous-unités révèlent la diversité génétique des bactéries, des archées, des l'amplification du génome entier par séquençage massivement
champignons et des virus dans le sol. Appl Environ Microbiol 73 (21): 7059 - 7066 parallèle du génome entier à haut débit . BMC Genomics 7 (1): 216
29. Loisel P, Hamelin J, Godon JJ, Haegeman B, Harmand J (2009) Une 33. Pinto AJ, Raskin L (2012) Les biais de PCR déforment la structure des communautés
méthode pour mesurer la diversité biologique d'un échantillon. bactériennes et archéennes dans les ensembles de données de pyroséquençage. PLoS
Brevet européen EP20553401 One 7 (8): e43093. est ce que je: 10.1371 / journal.pone.0043093

Vous aimerez peut-être aussi