Voyons maintenant le polymorphisme d’état reposant sur les SNP, pour ‘Single Nucleotide Polymorphism‘ en anglais.
Le polymorphisme de type SNP correspond à la variabilité qui est entretenue dans l’ADN-Y par les SNP, des mutations ponctuelles, c’est-à-dire présentes à des endroits ou loci bien précis sur la molécule d’ADN du chromosome Y et n’impliquant le plus souvent qu’un seul nucléobase. Rappelons que le polymorphisme de répétition STR que nous avons vu plus haut implique plusieurs loci consécutifs sur la molécule. Dans le cas du SNP, un seul locus est généralement impliqué. Un locus (au pluriel loci) est une paire de bases bien précise sur le filament d’ADN. Les généalogistes utilisent souvent le terme de ‘position’ au lieu de locus. Malheureusement ils utilisent aussi le terme de SNP pour référer à tous les nucléotides, ce qui est vraiment un abus de langage. Le chromosome Y comprend plus de 58 millions de paires de bases ou nucléotides. Chacune des paires possède en principe une adresse appelée locus et lorsqu’on examine la base qui compose un membre de la paire, l’autre membre est toujours composé de la base complémentaire. La molécule d’ADN est comme une échelle spiralée. Si la base du montant de la molécule d’ADN que nous examinons est un C, alors la base complémentaire sera un G; si elle est un A, alors la base complémentaire sera un T; ou vice versa.
Figure 1. Court segment sur le filament d’ADN comprenant 11 nucléotides. Si le segment du haut est pris comme référence ancestrale, le segment du bas présente une mutation SNP au nucléotide 5 alors que la paire TA s’est substituée à la paire CG.
Les segments d’ADN qu’illustre la Figure 1 comprennent 11 loci ou nucléobases chacun. Une mutation est détectée à un locus particulier si la paire de bases qui y est rencontrée est différente de celle qui devrait s’y trouver selon un système étalon ou de référence ancestrale. Dans le cas de l’ADN-mt nous avons vu que l’étalon de référence était soit le rCRS ou le RSRS. Dans le cas de l’ADN-Y, le référent est obtenu statistiquement par l’examen la compilation à ce même locus des valeurs prises à ce locus par une population comprenant des milliers de chromosomes Y. Cet examen permet d’inférer un état considéré ancestral, c’est-à-dire la paire de bases formant ce nucléobase à ce locus en l’absence de mutation. Sur la Figure 1, le segment 2 présente au 5ième nucléobase la paire A-T au lieu de G-C comme au segment 1. Si le segment 1 était pris comme référent représentant la valeur ancestrale à ce nucléobase pour un SNP, le segment 2 au locus homologue (5ième ou vis-à-vis) serait alors considéré comme dérivé ou muté. Le SNP est alors déclaré présent.
Rappelons qu’au niveau moléculaire du filament d’ADN, une mutation peut être consécutive à une transition — une substitution de base ou un transversion–, ou encore à une insertion ou à une délétion (un INDEL). Dans l’exemple de la Figure 1, nous sommes en présence d’une transition par substitution, la base T s’étant substituée à la base ancestrale C. Le côté opposé du filament a reçu un A, la base complémentaire. Lors de l’analyse des bases formant une molécule d’ADN, les séquences de bases sont lues sur un seul côté ou ‘sens’ du filament, l’autre ‘sens’ étant complémentaire.
Une fois qu’un SNP s’est inscrit par mutation dans l’ADN d’un chromosome Y, il est transmis héréditairement aux descendants masculins lors des générations suivantes, qui le transmettent à leur tour à leurs fils.
Cette trace laissée dans l’ADN du chromosome Y pourra être utilisée par le scientifique pour en établir une taxonomie, et la mutation qui lui correspond servira de SNP pour autant qu’elle s’inscrive dans une séquence phylogénétique reconstituée par le taxonomiste, en cohérence avec d’autres SNP qui se sont produits avant ou après cette mutation.
Un SNP permet donc au taxonomiste de distinguer entre les hommes qui présentent une valeur ancestrale à un locus donné, des autres qui possèdent une valeur dérivée au même locus. En assemblant de manière cohérente de nombreux SNP qui se sont produits en succession dans le temps, la taxonomie reconstitue une version de l’histoire phylogénétique de cet ADN-Y. Une taxonomie phylogénétique peut être vue comme une représentation hypothétique qui décrit l’histoire ou les séquences avec lesquelles les mutations SNP se sont produites dans les diverses lignées d’hommes observées jusqu’à ce jour.
Comme déjà mentionné, les généalogistes généralisent le concept de SNP à tous les nucléobases de l’ADN. C’est un abus. Le chromosome Y est constitué d’environ 58 millions de paires de bases. Elles ne servent pas toutes de SNP. Uniquement environ 50,000 paires de ces bases peuvent potentiellement servir de SNP. Servir de SNP est une fonction qui est attribuée à l’allèle trouvé à un locus sur le filament d’ADN et le terme de SNP devrait être réservé uniquement à ces loci.
Le site de l’ISOGG maintient une liste des SNP utilisés dans sa taxonomie de l’ADN-Y à http://www.isogg.org/tree/ISOGG_YDNA_SNP_Index.html
La BDD http://www.semanticgen.net/ydhs/ reprend les SNP de l’ISOGG dans sa base et est très utile pour localiser un SNP, savoir à quelle mutation de base il correspond, à quelle position (locus) il se produit sur le chromosome Y, pour connaître ses équivalences et synonymes, de même que pour savoir sa fonction nodale, c’est à dire à haplogroupe dans la taxonomie il correspond.
Voici reprises au Tableau 2 les informations fournies lors de l’interrogation de Semanticgen à propos du SNP U152.
Tableau 2.
Explications sur U152:
- U152 sert de SNP critère d’entrée dans l’haplogroupe R1b1a2a1a2b de la taxonomie courante (10 April 2015) de l’ISOGG; j’explique la notation nodale dans la section sur les taxonomies.
- PF6570 et S28 sont des labels alternatifs pour ce même SNP U152. Ce SNP a été découvert indépendamment à peu près en même temps par trois laboratoires indépendants. S28 a été découvert en premier par James WILSON de EthnoAncestry, U152 par l’équipe de FTDNA et PF6570, par BritainsDNA. Ce sont donc des synonymes sémantiques qui correspondent au même SNP pour des compagnies qui sont rivales;
- S28/PF6570/U152 porte le numéro d’identification de recherche (rsid) rs1236440. Le chercheur qui a reconnu la fonction du SNP S28 en premier l’a inscrit dans la BDD des SNP sous le label rs1236440. Les autres découvertes du même SNP ont été consolidées sous le même rsid. Le renvoi à http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=1236440 fournit toutes sortes d’information au sujet de ce SNP;
- Le SNP S28/PF6570/U152 se trouve sur l’allèle 15333149 du chromosome Y et renvoie à http://bit.ly/1SfH6iE dans la BDD de http://genome.ucsc.edu/ qui présente des informations génétiques diverses surtout pertinentes pour le généticien;
- S28/PF6570/U152 est une mutation de type C–>T, c’est à dire une base Cytosine (valeur ancestrale) qui a été remplacée par une base (ayant une valeur dérivée) Tyrosine au locus 15333149;
- VEP pour Variant Effect Predictor (googler ce terme) montre une partie des résultats que le programme VEP fournit à propos de S28/PF6570/U152, à savoir qu’il s’agit d’une variante générique, d’un simple SNP C/T à la position 15333149 et non d’un gène.
- Papers liste une série d’articles scientifiques portant sur l’haplogroupe concerné, ici R.
L’haplogroupe d’appartenance a été estimé lors d’un premier test de type STR auprès de FTDNA. Un estimé à partir des STR place votre ADN-Y à l’entrée de la classification de votre haplogroupe. Ainsi, par ex., votre ADN-Y pourra être estimé R-M269, c’est à dire appartenant à l’haplogroupe R et possédant le SNP M269.
Nous pouvons localiser le SNP M269 dans la classification de l’ADN-Y de l’ISOGG à http://www.isogg.org/tree/ISOGG_HapgrpR.html
M269 est un SNP critère pour l’haplogroupe R1b1a2 (notation nodale utilisée par l’ISOGG) dont la notation courte à FTDNA est R-M269. M269 se situe donc à l’entrée de la classification.
Augmenter le nombre de marqueurs de votre signature STR n’améliorera pas la capacité de prédire votre haplogroupe avec précision. Il faut déterminer cvotre haplogroupe par les SNP.
Bien que votre ADN-Y appartienne à l’haplogroupe R-M269, il est probable qu’il possède d’autres SNP qui pourraient le faire classer dans des sousclades plus en aval. Une classification taxonomique est une structure arborescente, dont les haplogroupes se subdivisent en sousclades qui servent d’haplogroupe à leur tour pour d’autres sousclades. Un examen approfondi des SNP que contient votre ADN-Y permettra de déterminer à quel haplogroupe et sousclade il appartient.
L’haplogroupe d’appartenance est déterminé par des tests qui interrogent le polymorphisme profond, c’est-à-dire l’état des SNP de l’ADN-Y soumis pour analyse. Les SNP trouvés dérivés servent alors de critères d’inclusion dans un haplogroupe et dans des sousclades plus en aval.
Les tests suivants peuvent servir à connaître le polymorphisme profond par l’état des SNP d’un ADN-Y:
- le Geno2/3 du projet Génographic de la National Geographic Society à http://bit.ly/143lmi8 ($159.95 US)
- le Big-Y de FTDNA ($700 US); hautement recommandé si vous en avez les moyens;
- le Chromo2/3 de BritainsDNA http://bit.ly/1wykiO1 (129 livres anglaises);
- le Y Elite Sequencing https://www.fullgenomes.com/ (1,000$ CAN); hautement recommandé si vous en avez les moyens;
- le 23andMe http://bit.ly/1uohNkC identifiera les SNP ADN-Y les plus importants et indiquera l’haplogroupe d’appartenance.
- FTDNA offre des « SNP Packs » pour certains haplogroupes. Il faut d’abord démontrer être dérivé pour le SNP de tête pour commander le pack. YSeq possède aussi l’équivalent.
- Il est aussi possible de commander des SNP individuellement, à la carte, auprès de FTDNA ou de YSeq.org La rubrique « SNP extrême » explique comment déterminer son haplogroupe sans se ruiner et comment suivre la croissance de la taxonomie qui concerne notre propre ADN-Y.