Séquençage de l'ADN
Le séquençage de l'ADN consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné.
La séquence d’ADN contient l’information nécessaire aux êtres vivants pour survivre et se reproduire. Déterminer cette séquence est donc utile aussi bien pour les recherches visant à savoir comment vivent les organismes que pour des sujets appliqués. En médecine, elle peut être utilisée pour identifier, diagnostiquer et potentiellement trouver des traitements à des maladies génétiques et à la virologie. En biologie, l'étude des séquences d'ADN est devenue un outil important pour la classification des espèces.
Historique
Le séquençage de l'ADN a été inventé dans la deuxième moitié des années 1970. Deux méthodes ont été développées indépendamment, l'une par l'équipe de Walter Gilbert, aux États-Unis, et l'autre par celle de Frederick Sanger (en 1977), au Royaume-Uni. Ces deux méthodes sont fondées sur des principes diamétralement opposés : l'approche de Sanger est une méthode par synthèse enzymatique sélective, tandis que celle de Maxam et Gilbert est une méthode par dégradation chimique sélective. Pour cette découverte, Gilbert et Sanger ont été récompensés par le prix Nobel de chimie en 1980.
Initialement, la méthode de Sanger nécessitait de disposer d'un ADN simple brin qui servait de matrice pour la synthèse enzymatique du brin complémentaire. Pour cette raison, le premier organisme biologique dont le génome a été séquencé en 1977 est le virus bactériophage φX174[1]. Ce virus a la propriété d'avoir un génome constitué d'ADN simple brin qui est encapsulé dans la particule virale.
Au cours des 25 dernières années, la méthode de Sanger a été largement développée grâce à plusieurs avancées technologiques importantes :
- la mise au point de vecteurs de séquençage adaptés, comme le phage M13 développé par Joachim Messing au début des années 1980 [2];
- le développement de la synthèse chimique automatisée des oligonucléotides qui sont utilisés comme amorces dans la synthèse ;
- l'introduction de traceurs fluorescents à la place des marqueurs radioactifs utilisés initialement. Ce progrès a permis de sortir le séquençage des pièces confinées nécessaires à l'usage de radio-isotopes [3];
- l'adaptation de la technique PCR pour le séquençage ;
- l'utilisation de séquenceurs automatiques de gènes [3];
- l'utilisation de l'électrophorèse capillaire pour la séparation et l'analyse[4].
La méthode de Maxam et Gilbert nécessite des réactifs chimiques toxiques et reste limitée quant à la taille des fragments d'ADN qu'elle permet d'analyser (< 250 nucléotides). Moins facile à robotiser, son usage est devenu aujourd'hui confidentiel.
Méthodes
Méthode de Sanger
Le principe de cette méthode consiste à initier la polymérisation de l’ADN à l'aide d'un petit oligonucléotide (amorce) complémentaire à une partie du fragment d’ADN à séquencer. L’élongation de l’amorce est réalisée par le fragment de Klenow (une ADN polymérase I dépourvue d’activité exonucléase 5’→3’) et maintenue par des ADN polymérases thermostables, celles qui sont utilisées pour la PCR. Les quatre désoxyribonucléotides (dATP, dCTP, dGTP, dTTP) sont ajoutés, ainsi qu’une faible concentration de l'un des quatre didésoxyribonucléotides (ddATP, ddCTP, ddGTP ou ddTTP)[5].
Ces didésoxyribonucléotides agissent comme des « poisons » terminateurs de chaîne : une fois incorporés dans le nouveau brin synthétisé, ils empêchent la poursuite de l’élongation. Cette terminaison se fait spécifiquement au niveau des nucléotides correspondant au didésoxyribonucléotide incorporé dans la réaction. Pour le séquençage complet d'un même fragment d'ADN, on répète cette réaction quatre fois en parallèle, avec les quatre didésoxyribonucléotides différents.
Par exemple, dans la réaction où on a ajouté du ddGTP, la synthèse s'arrête au niveau des G. Le mélange réactionnel contenant, à la fois du dGTP et un peu de ddGTP, la terminaison se fait de manière statistique suivant que l'ADN polymérase utilise l'un ou l'autre de ces nucléotides. Il en résulte un mélange de fragments d’ADN de tailles croissantes, qui se terminent tous au niveau d'un des G dans la séquence. Ces fragments sont ensuite séparés par électrophorèse sur un gel de polyacrylamide[6], ce qui permet ainsi de repérer la position des G dans la séquence.
La détection des fragments ainsi synthétisés se fait en incorporant un traceur dans l'ADN synthétisé. Initialement ce traceur était radioactif ; aujourd'hui, on utilise des traceurs fluorescents, attachés soit à l'oligonucléotide, soit au didésoxyribonucléotide.
Méthode de Maxam et Gilbert
Cette méthode est basée sur une dégradation chimique de l'ADN et utilise les réactivités différentes des quatre bases A, T, G et C, pour réaliser des coupures sélectives[7]. En reconstituant l'ordre des coupures, on peut remonter à la séquence des nucléotides de l'ADN correspondant. On peut décomposer ce séquençage chimique en six étapes successives :
- Marquage : Les extrémités des deux brins d'ADN à séquencer sont marquées par un traceur radioactif (32P). Cette réaction se fait en général au moyen d'ATP radioactif et de polynucléotide kinase.
- Isolement du fragment d'ADN à séquencer. Celui-ci est séparé au moyen d'une électrophorèse sur un gel de polyacrylamide. Le fragment d'ADN est découpé du gel et récupéré par diffusion.
- Séparation de brins. Les deux brins de chaque fragment d'ADN sont séparés par dénaturation thermique, puis purifiés par une nouvelle électrophorèse.
- Modifications chimiques spécifiques. Les ADN simple-brin sont soumis à des réactions chimiques spécifiques des différents types de base. Walter Gilbert a mis au point plusieurs types de réactions spécifiques, effectuées en parallèle sur une fraction de chaque brin d'ADN marqué : par exemple, une réaction pour les G (alkylation par le sulfate de diméthyle), une réaction pour les G et les A (dépurination), une réaction pour les C, ainsi qu'une réaction pour les C et les T (hydrolyse alcaline). Ces différentes réactions sont effectuées dans des conditions très ménagées, de sorte qu'en moyenne chaque molécule d'ADN ne porte que zéro ou une modification.
- Coupure. Après ces réactions, l'ADN est clivé au niveau de la modification par réaction avec une base, la pipéridine.
- Analyse. Pour chaque fragment, les produits des différentes réactions sont séparés par électrophorèse en conditions dénaturantes et analysés pour reconstituer la séquence de l'ADN. Cette analyse est analogue à celle que l'on effectue pour la méthode de Sanger.
Séquençage de génome entier
La connaissance de la structure d'un génome dans son entièreté peut passer par son séquençage. Cependant, la taille des génomes étant de plusieurs millions de bases (ou mégabases), il est nécessaire de coupler les approches de biologie moléculaire avec celle de l'informatique pour pouvoir traiter un nombre aussi important de données.
Deux grands principes de séquençage de génome entier sont utilisés. Dans les deux cas, l'ADN génomique est préalablement fragmenté par des méthodes enzymatiques (enzymes de restriction) ou physiques (ultrasons) :
- la méthode de séquençage par ordonnancement hiérarchique consiste à classer les fragments génomiques obtenus avant de les séquencer ;
- la méthode globale (ou whole-genome shotgun) ne fait pas de classement des fragments génomiques obtenus mais les séquence dans un ordre aléatoire. Une analyse bio-informatique permet ensuite de réordonner les fragments génomiques par chevauchement des séquences communes.
La principale différence entre ces deux principes est que l'ordonnancement hiérarchique essaie d'aligner un jeu de clones de grande taille (~ 100 kb) alors que dans la méthode globale le génome entier est réduit en fragments de petite taille qui sont séquencés puis alignés.
Ordonnancement hiérarchique
Après extraction, l'ADN génomique est découpé par sonication en fragments de 50 à 200 kb puis cloné dans un vecteur adapté comme les chromosomes artificiels bactériens ou BAC. Le nombre de clones doit permettre une couverture de 5 à 10 fois la longueur totale du génome étudié. Le chevauchement et l'ordonnancement des clones est réalisé soit par hybridation de sondes spécifiques, soit par analyse des profils de restriction, soit plus fréquemment par un ordonnancement après séquençage et hybridation des extrémités des BAC. Après ordonnancement des clones, ils sont fragmentés et séquencés individuellement, puis assemblés par alignement bio-informatique.
Les avantages de cette méthode sont une plus grande facilité d'assemblage des fragments grâce aux chevauchement des BAC, la possibilité de comparer les fragments aux banques de données disponibles, et la possibilité de partager le travail de séquençage entre plusieurs laboratoires, chacun ayant en charge une région chromosomique.
L'inconvénient majeur est la difficulté de cloner des fragments contenant des séquences répétées très fréquentes dans certains génomes, comme ceux des mammifères, ce qui rend difficile l'analyse bio-informatique finale.
Méthode globale ou Shotgun
Il s'agit d'une méthode de séquençage d'ADN génomique initialement imaginée dans le laboratoire de Frederick Sanger à Cambridge à la fin des années 1970 pour séquencer les premiers génomes de virus[8].
Cette méthode a été popularisée par Craig Venter pour le séquençage des grands génomes, en particulier au sein de la société Celera Genomics. La première application fut le séquençage de génomes bactériens, puis du génome de la drosophile et enfin du génome humain et murin. Pour réaliser un séquençage de génome complet à l'aide de cette technique, deux à trois banques composées de fragments aléatoires d'ADN génomique sont réalisées. Entre les banques, les fragments divergent aussi bien en taille qu'en localisation sur le génome. À partir de ces banques, de nombreux clones sont séquencés puis assemblés. La séquence totale est obtenue en traitant l'ensemble des banques à l'aide d'outils bio-informatiques, en alignant les fragments à l'aide des séquences chevauchantes.
Les avantages par rapport au séquençage par ordonnancement hiérarchique sont la rapidité de la technique et un coût plus faible. L'inconvénient est que le traitement informatique ne permet pas d'aligner des fragments comportant des séquences répétées de grande taille qui sont fréquemment présentes dans les génomes des mammifères.
Cette méthode est couramment désignée sous le nom de shotgun (fusil à canon scié), ou encore Whole Genome Shotgun (WGS). Cette métaphore illustre le caractère aléatoire de la fragmentation initiale de l'ADN génomique : on arrose tout le génome, un peu comme se dispersent les plombs de ce type d'arme à feu.
Autres méthodes
Séquençage par hybridation
Le séquençage par hybridation repose sur l’utilisation de puces à ADN contenant de plusieurs centaines (pour les puces de première génération) à plusieurs milliers d’oligonucléotides. L’ADN à analyser est coupé en de multiples fragments qui sont ensuite incubés sur la puce où ils vont s’hybrider avec les oligonucléotides dont ils sont complémentaires. La lecture de la puce (la détection des oligonucléotides hybridés), permet d’obtenir le spectre de la séquence d’ADN, c’est-à-dire sa composition en sous-séquences de n nucléotides, où n est la taille des sondes sur la puce utilisée. Le traitement informatique du spectre permet ensuite de reconstituer la séquence entière[9].
Séquençage haut débit (HTS)
On désigne par séquençage haut débit (HTS pour high-throughput sequencing) aussi appelé NGS pour next-generation sequencing un ensemble de méthodes apparues à partir de 2005 produisant des millions de séquences en un run et à faibles coût. Le pyroséquençage appartient à ces nouvelles techniques. Elles se caractérisent par l'utilisation d'approches massivement parallèles, permettant de séquencer des centaines de milliers de fragments simultanément. Elles s'affranchissent des étapes de clonage et de constitution de banques génomiques. Elles permettent de séquencer à partir de molécules uniques d'ADN.
Notes et références
- ↑ (en) F. Sanger, G.M. Air, B.G. Barrell, N.L. Brown, A.R. Coulson, C.A. Fiddes, C.A. Hutchison, P.M. Slocombe et M. Smith, « Nucleotide sequence of bacteriophage phi X174 DNA », Nature, vol. 265, , p. 687-695 (PMID 870828)
- ↑ (en) Joachim Messing, « New M13 vectors for cloning », Methods Enzymol., vol. 101, , p. 20-78 (PMID 6310323)
- 1 2 (en) L.M. Smith, J.Z. Sanders, R.J. Kaiser, P. Hughes, C. Dodd, C.R. Connell, C. Heiner, S.B. Kent et L.E. Hood, « Fluorescence detection in automated DNA sequence analysis », Nature, vol. 321, , p. 674-679 (PMID 3713851)
- ↑ (en) H. Swerdlow, J.Z. Zhang, D.Y. Chen, H.R. Harke, R. Grey, S.L. Wu, N.J. Dovichi et C. Fuller, « Three DNA sequencing methods using capillary gel electrophoresis and laser-induced fluorescence », Anal. Chem., vol. 63, , p. 2835-2841 (PMID 1789449)
- ↑ (en) F. Sanger, S. Nicklen et A.R. Coulson, « DNA sequencing with chain-terminating inhibitors », Proc. Natl. Acad. Sci. USA, vol. 74, , p. 5463-5467 (PMID 271968)
- ↑ (en) F. Sanger et A.R. Coulson, « The use of thin acrylamide gels for DNA sequencing », FEBS Lett., vol. 87, , p. 107-110 (PMID 631324)
- ↑ (en) Allan M. Maxam et Walter Gilbert, « A new method for sequencing DNA », Proc. Natl. Acad. Sci. USA, vol. 74, , p. 560-564 (PMID 265521)
- ↑ (en) Roger Staden, « A strategy of DNA sequencing employing computer programs. », Nucleic Acids Res., vol. 6', , p. 2601-2610 (PMID 461197)
- ↑ (en) Ji-Hong Zhang, Ling-Yun Wu et Xiang-Sun Zhang, « Reconstruction of DNA sequencing by hybridization », Bioinformatics, vol. 19, no 1, , p. 14–21 (PMID 12499288, lire en ligne [PDF])
Voir aussi
Articles connexes
- Arpentage chromosomique
- Ordinateur à ADN
- Séquenceur d'ADN
- Séquençage
- Liste d'espèces dont le génome est séquencé
Lien externe
- Questions à propos du séquençage du génome humain
- Portail de la biochimie
- Portail de la biologie cellulaire et moléculaire