Ancestry-DNA: Livre blanc sur le partage génétique

Traduit par Jacques BEAUGRAND

2017-MARS-26

Original en anglais à http://ancstry.me/2n14JAQ

Livre blanc sur les communautés génétiques de AncestryDNA ™

Prédire les origines ancestrales à une échelle précise à partir des patrons de partage génétique chez des millions d’individus

Catherine A. Ball, Erin Battat, Jake K. Byrnes, Pierre Carbonetto, Kenneth G. Chahine, Ross E Curtis, Eyal Elyashiv, Ahna Girshick, Julie M. Granka, Harendra Guturu, Eunjung Han, Ariel Hippen Anderson, Eurie Hong, Amir Kermany, Natalie M. Myres, Keith Noto, Kristin A. Rand, Shiya Song, Yong Wang
par ordre alphabétique

IBD Identical By Descent |  Identité par descendance

 

1. Introduction

AncestryDNA ™ propose plusieurs analyses génétiques pour aider les clients à découvrir, préserver et partager leurs antécédents familiaux. Certaines des caractéristiques offertes à ce jour sont exclusivement basées sur l’information génétique. Il s’agit notamment de leur origine ethnique génétique ou de leur ascendance (décrite dans le Livre blanc sur l’estimation de l’ethnicité) et d’une analyse de l’identité par la descendance (IBD) ou par l’analyse des concordances de segments ou d’appariement d’ADN (Matching White Paper). D’autres caractéristiques, comme les cercles ADN, reposent sur l’intégration de données généalogiques et de données IBD sur l’ensemble de la base de données AncestryDNA (livre blanc sur les Cercles d’ADN). Chacune de ces caractéristiques fournit des informations complémentaires à un client: (1) L’estimation de l’ethnicité fournit une image distante des origines génétiques d’un client, peut-être il y a des centaines ou des milliers d’années; (2) Les allumettes d’ADN fournissent à un client une liste de ses homologues AncestryDNA qui sont des parents et avec lesquels il partage un ancêtre commun qui a vécu au cours des 10 dernières générations; (3) Les cercles d’ADN intègrent les données d’IBD et de pedigree (généalogie documentaire)  et fournissent à un client des groupes de parents qui semblent partager de l’ADN les uns avec les autres en raison d’un ancêtre partagé spécifique. Ceci permet de renforcer leurs liens avec cet ancêtre.  Une fois combinées entre elles, ces caractéristiques fournissent un portrait détaillé de l’ascendance génétique d’un individu.

Dans la présente étude, nous augmentons encore davantage les connaissances fondées sur l’ADN et les pedigrees grâce à notre nouvelle fonctionnalité de communautés génétiques (Figure 1.1).  Au lieu d’examiner la connexion IBD entre chaque paire de clients isolément, nous analysons simultanément plus de 20 milliards de connexions identifiées parmi plus de 2 millions de clients en tant que grand réseau génétique (décrit ci-dessous à la section 3). Intuitivement, parce que les connexions estimées IBD entre les individus sont probablement dues à de l’ascendance partagée récente (au cours des 10 dernières générations), les modèles plus larges dans ce grand réseau vont aussi probablement représenter l’histoire partagée récente. Le résultat est que nous pouvons identifier des grappes d’individus vivants qui partagent de grandes quantités d’ADN en raison d’une histoire récente commune spécifique. Par exemple, nous identifions des groupes de clients qui descendent probablement des immigrants qui participèrent à une vague particulière de migration (e.g., les Irlandais fuyant la grande famine) ou des clients qui descendent des populations ancestrales qui sont demeurées dans la même région depuis plusieurs générations (e.g., les premiers colons des Appalaches). Après l’identification de ces grappes d’individus dans l’ensemble du réseau, nous pouvons alors affecter n’importe quel client à un ou plusieurs de ces clusters basés sur son IBD avec d’autres membres. Une telle affectation peut fournir à un client un aperçu de son histoire ancestrale récente, dans certains cas reliée à un événement historique particulier.

Dans les sections qui suivent, nous décrivons les principes scientifiques qui sous-tendent le réseau génétique (sections 2 et 3), la façon dont nous identifions les grappes à l’interne (sections 4 et 6), notre utilisation des données d’ADN et de généalogie pour annoter ces grappes (section 5),  et enfin comment nous procédons pour attribuer des échantillons de clients à ces grappes (Section 7).

 

 

F1.1

 

Figure 1.1: Vue d’ensemble de la façon dont nous identifions et attribuons les clients aux communautés génétiques.

 

2. Application de la génétique des populations aux communautés génétiques

Dans cette section, nous discuterons de quelques concepts fondamentaux de génétique des populations qui peuvent être appliqués à l’identification des communautés génétiques et concluons avec un exemple d’une telle communauté génétique.

Premièrement, introduisons de la terminologie. Un réseau IBD est une représentation des connexions génétiques entre une collection d’échantillons AncestryDNA. Les noeuds dans un tel réseau sont les échantillons, et les arêtes reliant  les noeuds sont les connexions IBD entre les échantillons. Nous décrivons en détail le concept de réseau IBD à  la section 3. Une communauté peut être considérée comme une partie du réseau qui a un haut degré de connectivité – les nœuds ont un taux plus élevé d’IBD (et les segments IBD sont plus longs)  avec d’autres noeuds à l’intérieur de la communauté qu’avec des noeuds en dehors de la communauté. Voir la section 4 pour une discussion plus large sur les communautés.

Pour comprendre pourquoi nous nous attendons à trouver des structures communautaires dans un réseau d’IBD, nous examinerons quelques principes de base génétique de population.

 

F2.1

Figure 2.1: (a) Dans ce réseau IBD, les cercles sont des noeuds et représentent des échantillons AncestryDNA. Les lignes entre les échantillons représentent les connexions IBD, pondérées par la quantité d’ADN partagé. (B) Il y a trois communautés présentes dans ce réseau, de couleur orange, vert et bleu. Alors que les échantillons de ces communautés ont un lien avec des noeuds dans d’autres communautés, ils ont un taux élevé de connectivité à des échantillons au sein de leur propre communauté.

 

2.1 Population génétique

Nous commençons par une discussion du concept de population génétique. De nombreuses définitions de ce qui constitue une population existent dans la littérature génétique. Pour plus de clarté, nous définissons une population comme un groupe de personnes qui vivent généralement à proximité et qui produisent des enfants entre eux pendant plusieurs générations. Cette définition est intentionnellement vague en ce qui concerne la taille et l’échelle. Une population peut être un grand groupe peu lié, comme tous les Européens, ou un groupe plus petit, plus étroitement lié, comme les Irlandais. Bien que vague en termes d’échelle, notre définition d’une population est spécifique en ce qui concerne le temps et le lieu. Par exemple, une population pourrait inclure les ancêtres d’Europe qui vivaient il y a dix mille ans, alors qu’une autre population pourrait inclure des personnes vivant dans le Connecticut il y a 200 ans.

Chaque population a un degré d’isolement génétique différent. Quand une population a un degré élevé d’isolement génétique, cela implique que les membres de la population ont rarement ou même  jamais choisis d’avoir des enfants avec des individus en dehors de leur population. D’autre part, une population à faible degré d’isolement présente des niveaux élevés de migration et de mélange avec les populations environnantes. Au fil du temps, les populations isolées développent des patrons distinctifs de variation génétique.

De nouvelles populations peuvent être créées de plusieurs façons. Par exemple, un petit sous-ensemble d’individus d’une population historique peut migrer vers un nouvel emplacement et créer une nouvelle population qui ne produit plus de progéniture avec la population source. Il est également possible pour cette nouvelle population de se séparer de la population historique sans quitter l’emplacement source. Une autre possibilité est que les populations de sources multiples se rassemblent et se mélangent, produisant une progéniture avec un mélange de matériel génétique provenant de populations autrefois séparées. Dans tous ces exemples, la caractéristique unificatrice est la création d’une barrière au flux génétique qui conduit au développement de patrons distinctifs de variations génétiques. À l’échelle la plus petite, il existe de nombreuses forces dont la géographie, la guerre, la religion, la culture, la politique et l’économie qui peuvent influencer la façon avec laquelle chacun d’entre nous choisit un partenaire reproducteur. Ce qui est surprenant, c’est que ces décisions individuelles ont un impact important sur la façon dont le matériel génétique circule dans le temps et dans l’espace. Cela soulève la question suivante: Pouvons-nous observer l’impact des choix de partenaires faits par nos ancêtres en examinant notre propre ADN? Comme nous le verrons plus loin, nous pouvons certainement le faire.

2.2 Exemple illustratif

Considérons un exemple simple qui illustre comment l’isolement génétique dans une population peut conduire à la structure de la communauté dans un réseau IBD.

À la figure 2.2, nous représentons une population fondatrice avec 10 individus non apparentés de 10 populations différentes. Il est à noter que les 10 individus fondateurs ne partagent pas de longs segments d’ADN IBD puisqu’ils proviennent de populations différentes. Dans cet exemple, ces 10 individus s’accouplent au hasard et chacun de ces cinq couples a deux enfants, créant une deuxième génération de 10 individus. Dans cette deuxième génération, certains individus sont maintenant lâchement reliés par IBD au niveau familial proche.

Nous répétons cette expérience pour deux générations de plus; 10 individus non apparentés dans la deuxième génération sont choisis au hasard des partenaires et chaque couple a deux enfants, ce qui conduit à la création d’une troisième génération de 10 individus. Enfin, 10 individus de la troisième génération s’accouplent au hasard et chaque couple a un seul enfant, créant une quatrième génération de cinq individus.

Fait intéressant, après ces trois générations d’accouplement aléatoire, les cinq descendants de la quatrième génération ont au moins une partie de leur constitution ancestrale qui est partagée avec chacun des quatre autres cousins. Ces cinq individus ont également un taux plus élevé de IBD avec des individus dans cette nouvelle population qu’avec des personnes des 10 populations ancestrales originales. Dans le cadre d’un réseau IBD constitué de personnes provenant de nombreuses autres populations, cette population en particulier formerait vraisemblablement une communauté.

F2.2

Figure 2.2: Illustration du développement d’une structure communautaire dans un réseau IBD. Chaque individu est représenté par une seule barre (allumette) qui est colorée selon la constitution ancestrale de l’individu. Notez que pour les générations un et deux, il y a cinq couples qui ont chacun deux enfants. À la troisième génération, chaque couple n’a qu’un seul enfant. En raison de l’histoire commune de ces cinq personnes, ces individus ont tous une relation IBD avec tous les autres individus dans la population, formant un réseau complètement connecté avec des relations représentées par des doubles flèches. Voir le texte pour une discussion plus détaillée.

Bien que cet exemple soit sur-simplifié, il aide à illustrer l’intuition sousjacente aux populations et comment l’isolement génétique peut créer la structure de la communauté dans un grand réseau IBD. Bien entendu, les populations réelles ont généralement des centaines ou des milliers de fondateurs et ne sont généralement pas complètement isolées. Le degré de mélange (par la sélection de partenaire provenant de l’extérieur de la population) et la migration dans une population influeront sur la solidité de sa structure communautaire dans le réseau des IBD. Il est également important de noter que si le réseau IBD dans notre exemple est complètement connecté à la quatrième génération. Dans de grandes populations, nous trouverons que rarement un réseau complètement connecté. Il s’agit plutôt de la présence de taux plus élevés de IBD parmi les individus de la même population, en raison de l’inter-mariage de centaines ou de milliers de familles au cours de nombreuses générations qui crée une structure modulaire dans le réseau. Lorsque cela se produit, les individus ont davantage de connexions IBD avec d’autres individus dans la même communauté (ou population) qu’avec les individus d’autres communautés.

2.3 Exemple d’une population récente en Virginie-Occidentale

Nous concluons la section 2 en discutant de la création d’une population qui s’est installée dans l’ouest de la Virginie au cours du 18ème siècle et l’utilisons pour fournir l’intuition qui est à la base de notre caractéristique de communautés génétiques (Figure 2.3).

 

F2.3

Figure 2.3: Les cercles blancs sur la carte se réfèrent à une population qui vivait dans la région des Appalaches de la Virginie Occidentale et la Virginie occidentale dans les années 1800, comme indiqué dans cette section.
2.3.1 L’histoire de la colonie de Virginie-Occidentale
Les colonies de Virginie occidentale et de Virginie-Occidentale commencèrent dans les années 1730, lorsque la colonie de Virginie fit progresser la colonisation de ses montagnes occidentales pour fournir un tampon entre les villes établies et les peuples indigènes (Rice, 1993). Entre 1750 et 1780, la population fondatrice dans cette région a grandi. Ce fut une période de paix, de prospérité et de colonisation agressive dans la vallée de Shenandoah après la fin de la guerre du roi George en 1748 et un traité avec les peuples autochtones en 1752. Alors que les Britanniques interdisaient la colonisation avec la Proclamation de 1763, les Américains envahirent le territoire après la guerre révolutionnaire. La construction de routes entre 1818 et 1846 a favorisé la colonisation et l’isolement des zones rurales (Rice, 1993). Ainsi, jusqu’au milieu du 19e siècle, cette région était en grande partie une population rurale, croissante avec des colons qui provenaient de milieux britanniques, allemands ou écossais-irlandais.

Entre 1850 et 1890, cette région a connu une période d’industrialisation et un boom démographique correspondant à la naissance de l’industrie du charbon en Virginie-Occidentale et au développement des villes ferroviaires et charbonnières C&O qui sont apparues sur son parcours. Par exemple, le comté de Kanawha a connu une croissance démographique de 700% entre 1890 et 1910 (Laidley 1911 [310]). L’aube du 20ème siècle a vu un changement dans le modèle avec une émigration massive après la Première Guerre mondiale vers les villes industrielles du Midwest et de l’Ouest.

2.3.2 Discussion sur le règlement de la Virginie-Occidentale
Dans cet exemple, nous voyons une nouvelle population créée dans la seconde moitié du 1700e siècle, constituée de personnes fondatrices de l’héritage écossais-irlandais, allemand et britannique.

Alors que les descendants de cette population porteront sûrement de l’ADN indiquant un lien vers leurs lointaines origines écossaises-irlandaises, allemandes et britanniques, l’accouplement entre les fondateurs de cette nouvelle population, et par la suite celui de leurs descendants sur plusieurs générations, a abouti à la formation d’une nouvelle population possédant des patrons de variation génétique qui sont liés à leurs populations ou sources historiques, mais distinctes de celles-ci. Les descendants de cette nouvelle population sont des personnes qui partagent une grande quantité de matériel génétique avec de nombreux autres descendants dans cette population. Cependant, même pour les descendants de familles qui ont quitté la Virginie occidentale il y a quelque temps, la signature génétique persiste sous la forme de longs segments d’IBD partagés entre les descendants, peu importe leur origine plus récente au niveau de leur histoire familiale. Ainsi, nous nous attendons à découvrir ce groupe de descendants dans notre base de données AncestryDNA en utilisant les connexions IBD entre ces individus. Dans les sections qui suivent, nous montrerons comment nous découvrons l’existence d’un tel réseau IBD dans les populations descendantes.

Il est important de noter que les exemples présentés dans cette section ont pour but d’illustrer les principes généraux qui motivent notre approche de l’utilisation de la détection communautaire pour découvrir les communautés d’un grand réseau de IBD. Ces deux exemples ne représentent pas l’histoire unique de toutes les populations à travers le monde. Chaque communauté génétique que nous découvrons possède sa propre histoire et son degré d’isolement génétique et de migration. Cela étant dit, certains des principes dont nous avons discuté s’appliqueront à de nombreuses populations.

3. Construction d’un réseau IBD à partir de connexions IBD

Dans cette section et dans les sections suivantes, nous présentons les méthodes que nous utilisons pour découvrir et annoter des communautés génétiques.

Nous commençons par la collecte de toutes les connexions IBD par paires identifiées entre les clients AncestryDNA. Une paire de clients est dit avoir une connexion IBD s’ils partagent un ou plusieurs segments longs d’ADN identique. L’explication la plus vraisemblable pour un long segment d’ADN identique présent chez deux individus est que ce segment a été héritée par les deux individus d’un seul ancêtre commun et donc indique une relation IBD entre les deux descendants.

F3.1

Figure 3.1: Sur cette figure, les correspondances d’ADN entre les clients A, B, C, D, E, F, G et H sont représentées sous forme de lignes. Notez que dans ce cas, les clients B et C correspondent à A et peuvent aussi partager de l’ADN avec l’autre.

En utilisant le client A par exemple, nous avons identifié, en comparant son ADN avec tous les autres clients de notre base de données, sept autres clients qui ont une connexion IBD (clients B, C, D, E, F, G et H) . Les connexions génétiques dans ce petit exemple peuvent être résumées visuellement en dessinant les arêtes entre les paires de personnes que nous avons identifiées comme étant liées en fonction de l’ADN (Figure 3.1). Dans cet exemple particulier, A, B et C sont des cousins germains, de sorte que les trois sont reliés par des arêtes.

F3.2

Figure 3.2: Cette figure illustre la rapidité d’expansion d’un réseau et montre que, dans certains cas, ces nouveaux échantillons sont liés les uns aux autres.

 

Ensuite, nous développons cet exemple en incluant les connexions IBD trouvées pour chacune des sept connexions du client A (Figure 3.2). Les échantillons ajoutés dans cette étape sont dessinés sous forme de cercles verts. La taille du réseau se développe rapidement en ajoutant davantage de personnes qui présentent des liens génétiques entre elles. Dans certains cas, ces nouveaux échantillons sont également liés les uns aux autres et dans d’autres cas, ces nouveaux échantillons sont reliés à d’autres qui sont déjà inclus dans le réseau (les cercles bleus et blancs). Dans les deux cas, nous dessinons des arêtes reflétant les connexions IBD identifiées entre ces individus.

 

F3.3
Figure 3.3: Connexions IBD entre 75 clients sélectionnés à partir du réseau IBD à AncestryDNA.

 

Si nous poussons cette logique plus loin, nous formons un réseau IBD à partir des connexions IBD détectées parmi les millions de personnes qui ont pris un test AncestryDNA. De toute évidence, la visualisation de ce réseau en une seule figure, comme nous l’avons fait ci-dessus, serait difficile. Pour illustrer ce qu’une petite partie de ce réseau pourrait ressembler, nous montrons les connexions IBD détecté entre un ensemble de 75 échantillons AncestryDNA que nous avons sélectionnés  (Figure 3.3). Il s’agit d’un exemple d’un groupe d’échantillons particulièrement bien connectés  dans le réseau IBD AncestryDNA. Il existe néanmoins encore des couples de personnes dans ce groupe pour lesquels nous n’avons pas trouvé de connexion IBD.

 

4. Clustering de réseaux par détection communautaire

Étant donné un réseau IBD, nous pouvons subdiviser le réseau en communautés densément connectées en utilisant la méthode de Louvain – un algorithme de détection communautaire populaire. Les algorithmes de détection de la communauté sont des algorithmes de regroupement en réseau qui identifient des sous-ensembles fortement connectés d’un réseau (Blondel et al., 2008, Csardi et al., 2008). Dans le cas de notre réseau IBD, ces communautés représentent des groupes d’individus plus proches les uns des autres que les autres membres du réseau.

F4.1

Figure 4.1: Cette figure montre les 75 individus représentés à la figure 3.3 disposés en trois communautés, mettant en évidence la structure du réseau. Ces communautés sont étiquetées comme la Communauté A (24 individus, montrés comme des cercles verts), la Communauté B (30 individus, orange) et la Communauté C (21 personnes, bleu). Les flèches mettent en évidence deux individus avec différents types de connexions IBD: (1) l’individu au bas de la figure a des connexions qui sont contenues dans une seule communauté, et (2) l’individu au milieu de la figure a des connexions réparties sur plusieurs communautés.
Pour en revenir à notre représentation visuelle du réseau IBD de 75 échantillons de la figure 3.3, il n’existe aucun modèle évident dans ce réseau IBD. Dans la figure 4.1, nous présentons le même réseau avec les nœuds réarrangés pour mettre en évidence la structure dans le réseau. En particulier, les 75 individus ont été subdivisés en trois groupes ou communautés, que nous avons identifiés comme étant la Communauté A (24 individus, montrés en cercles verts), Communauté B (30 individus, orange) et Communauté C (21 individus, bleu) . Notez que ces communautés n’ont pas été détectées par inspection visuelle, mais plutôt en exécutant un algorithme de détection communautaire qui affecte chaque noeud à une communauté dans ce petit réseau IBD.

T4.1

Tableau 4.1: Nombre d’arêtes intra-communautaires et extra-communautaires dans le réseau IBD exemple. Puisque cette matrice est symétrique, nous avons mis en gris les cellules qui sont redondantes.
Intuitivement, l’algorithme de détection communautaire subdivise le réseau en sous-ensembles qui sont plus densément connectés que le réseau complet d’origine. Nous pouvons mesurer la façon dont un réseau (ou un sous-ensemble de la communauté) est connecté par une mesure appelée ‘densité de réseau’. La densité est le nombre d’arêtes présentes dans le réseau divisé par le nombre d’arêtes possibles dans le réseau. Dans le cas du réseau IBD, le réseau est dit maximalement connecté s’il existe une arête entre chaque paire d’individus. Suite à la détection de la communauté dans notre exemple ci-dessus, des couples d’individus au sein d’une même communauté sont plus densément connectés les uns aux autres que des couples d’individus entre les communautés. Par exemple, 185 arêtes sont contenues dans la Communauté C, pour une densité de 185 × 2 / (20 × 21) = 88%, alors que seulement 163 arêtes rejoignent les membres dans les communautés B et C, pour une densité de 163 / (21 × 30 ) = 26%.

La subdivision de ce réseau en trois communautés illustre un autre concept important à considérer lors de l’étude de modèles de connexions IBD chez de nombreux individus: certains individus ont la plupart ou la totalité de leurs connexions IBD contenues dans l’un des groupes, tandis que d’autres individus ont des connexions IBD qui se répartissent dans plusieurs groupes. Un exemple de la première est un nœud dans le coin inférieur gauche de la figure 4.1 noté par une flèche bleue. Les arêtes émanant de ce nœud se connectent tous à d’autres nœuds dans la même communauté (Communauté B). En revanche, au milieu de la figure, la flèche met en évidence un individu affecté à la communauté B, même si cette personne présente des connexions IBD avec de nombreux membres des deux communautés A et B, ainsi que quelques-uns avec la communauté C. Par conséquent, le degré ou la force d’appartenance à un groupe particulier est plus grande pour certains individus que pour d’autres.

Nous divisons le réseau AncestryDNA IBD en sous-ensembles densément connectés (c’est-à-dire les communautés génétiques) en utilisant une approche de détection communautaire. En appliquant des algorithmes rapides de détection des communautés de réseau au réseau IBD, nous sommes en mesure de détecter la structure de la population au sein du réseau. Dans la section 6, nous discuterons de la façon récursive d’exécuter la détection communautaire pour découvrir une structure de population à échelle précise.

5. Interprétation des caractéristiques historiques et géographiques des communautés

Les communautés génétiques sont découvertes uniquement en utilisant les connexions IBD entre les individus. Comme nous l’avons décrit à la section 2, nous nous attendons à ce que ces communautés connectées représentent chacune un groupe de descendants d’une population donnée. Mais comment identifier la population historique responsable d’un ensemble particulier de connexions? Pour cela, nous nous appuyons à la fois sur les données génétiques et les informations présentes dans les pedigrees des descendants communautaires.

En particulier, étant donné que ces liens reflètent l’ascendance commune récente, nous pouvons rechercher des caractéristiques communes qui sont partagées par les individus dans chaque communauté génétique pour corréler les modèles génétiques à l’histoire récente. Ces caractéristiques communes aident à identifier un moment, un lieu ou une population de source commune à partir duquel les descendants ont une ascendance. Par exemple, les gens d’une communauté génétique pourraient être les descendants des immigrants irlandais qui sont venus aux États-Unis pendant la grande famine au 19ième siècle.

Pour cette analyse, nous nous appuyons sur deux séries de données: (1) les proportions d’adjuvants ethniques dans 26 populations globales estimées à partir des génotypes (voir le Livre blanc sur l’estimation de l’ethnicité), et (2) les pedigrees administrés par les utilisateurs qui ont subi un test AncestryDNA. L’ampleur et la diversité de ces données nous permettent d’inférer des portraits historiques et géographiques détaillés des communautés détectées dans le réseau IBD.

Avant de décrire notre processus d’annotation communautaire, il est intéressant de noter que notre capacité à annoter une communauté particulière dépend fortement des données disponibles. Par exemple, si aucun membre de la communauté n’a créé des pedigrees, nous avons une capacité limitée à identifier un emplacement source pour la communauté. Il est également important de garder à l’esprit qu’un individu ne peut être lié à une communauté donnée que s’il partage une quantité importante de matériel génétique avec d’autres personnes issues de la communauté. Sans lien génétique, nous ne sommes pas en mesure de lier des individus à une communauté particulière. Cependant, la croissance continue de la base de données AncestryDNA est susceptible d’avoir un impact positif sur ces deux limitations.

5.1. Moyen Ethnicité

La première caractéristique que nous examinons pour chaque communauté génétique est constitué des proportions ethniques génétiques estimées à partir de l’ADN. Ces annotations basées sur l’ethnicité peuvent être utilisées pour estimer quelles populations ancestrales sont surreprésentées ou sous-représentées chez les individus d’une communauté donnée. Dans certains cas, les communautés avec des populations ancestrales fortement surreprésentées peuvent être liées à des populations connues. Par exemple, les communautés correspondant à des groupes d’immigrants américains relativement récents comme les Finlandais, les Juifs et les Irlandais peuvent être identifiées à partir des annotations basées sur l’ethnicité. D’autre part, les communautés correspondant à des groupes de l’État de New York, la Pennsylvanie et l’Ohio auront similaires, non-distinctifs profils ethniques génétiques.

La figure 5.1 examine le profil ethnique génétique des membres d’une communauté génétique spécifique découverte à travers le réseau IBD. L’ethnicité moyenne de ces individus est principalement d’Irlande, ce qui suggère que ces individus ont partagé ascendance irlandaise.

F5.1

 

Figure 5.1: Ce diagramme montre les proportions ethniques pour les membres d’une communauté spécifique. L’appartenance ethnique médiane des individus dans cette communauté génétique est plus de 40% irlandais, suggérant que ce groupe a partagé l’ascendance irlandaise.
5.2. Noms de famille enrichis

Ensuite, nous considérons les noms des ancêtres des membres de la communauté en utilisant des données agrégées de généalogie. Pour résumer les noms ancestraux d’une communauté donnée, nous recueillons tous les noms des ancêtres récents associés aux individus affectés à cette communauté. Pour mettre en évidence les noms de famille qui sont plus susceptibles d’être caractéristiques de la communauté et donc plus susceptibles de fournir des indices informatifs sur la signification historique ou démographique de la communauté, nous quantifions la preuve statistique (p-valeur) que chaque surnom est surreprésenté dans une Communauté donnée par rapport à la répartition des noms de famille de fond sur tous les individus dans le réseau complet IBD. Ensuite, nous classons les noms en fonction de la preuve statistique (c’est-à-dire des valeurs p plus petites), et choisissons les 10 surnoms les mieux classés comme les noms qui sont caractéristiques de la communauté donnée. Par exemple, les noms de famille les mieux classés parmi les annotations de noms de famille associées aux individus affectés à la communauté irlandaise de la figure 5.1 comprennent «McCarthy», «Sullivan», «Murphy», «O’Brien» et «O’Connor» Figure 5.2).

F5.2

 

Figure 5.2: Les noms de famille les plus enrichis pour une communauté génétique irlandaise comprennent des noms irlandais communs comme Sullivan, McCarthy et Murphy.

 

5.3. Lieux de naissance enrichis

Un autre type d’annotation que nous utilisons pour caractériser les communautés génétiques est le lieu de naissance des ancêtres associés aux individus affectés à une communauté. Ces endroits fournissent des indices géographiques utiles qui peuvent souvent relier une communauté à des populations historiques. Pour cette analyse, nous compilons des statistiques sur les lieux de naissance des ancêtres spécifiques à chaque communauté tout au long du temps et résumons les données de lieu de naissance afin de les visualiser géographiquement. Ceci est réalisé en convertissant chaque lieu de naissance, dans une plage spécifiée de générations, à la coordonnée la plus proche sur une grille bidimensionnelle (2D). Pour chaque point de grille de la grille 2D, nous calculons un rapport de vraisemblance (OR, pour odds ratio en anglais). Cet OR est défini comme la probabilité qu’un point de grille donné de la grille 2-D est associé aux membres de la communauté divisé par la probabilité que le même point de grille soit associé à des utilisateurs qui ne sont pas membres de la Communauté. En utilisant cette mesure OR, nous générons une carte qui représente visuellement des points de grille dans lesquels les  OR les plus importants sont indiqués visuellement par des étiquettes ou des couleurs distinctes. De cette façon, les emplacements de cartes graphiques mis en relief correspondent à des emplacements géographiques qui sont enrichis de manière disproportionnée dans une communauté donnée.

Par exemple, la figure 5.3 montre les lieux de naissance enrichis des ancêtres nés entre 1850 et 1910 associés à une communauté génétique appartenant à l’ethnie irlandaise. Cette carte montre que les lieux de naissance présentant un OR élevé (donc plus enrichi) sont plus fortement concentrés dans le sud de l’Irlande (Munster).

F5.3

Figure 5.3: Les lieux de naissance présentant un rapport de OR élevé sont colorés en rouge (le plus significativement enrichi) et en jaune (moins significativement enrichi). Les emplacements enrichis sont principalement dans le sud de l’Irlande (Munster), ainsi que dans les grandes villes de la Nouvelle-Angleterre.
En plus de considérer le OR, nous considérons également la proportion des échantillons dans une communauté qui a des lieux de naissance ancestrale dans la région identifiée pour la communauté. Pour ce faire, nous utilisons d’abord les parcelles d’enrichissement des lieux de naissance pour construire des polygones autour d’endroits importants spécifiques à chaque communauté. (Ces polygones sont également utilisés dans l’expérience du produit). Sur la base de ces lieux précis, nous pouvons déterminer, pour chaque individu affecté à la communauté, quels ancêtres sont nés dans cette région. Par exemple, à la figure 5.4, nous montrons la proportion d’ancêtres nés à l’intérieur du polygone de Munster, en Irlande, par génération. Pour les personnes qui sont affectées à cette communauté, 26,2% de leurs arrière-grands-parents sont nés à l’intérieur du polygone. Pour les personnes qui ne sont pas affectées à cette communauté, seulement 2% de leurs arrière-grands-parents naissent au même endroit. Cette analyse appuie notre interprétation de cette communauté en tant que descendants de personnes qui vivaient à Munster, en Irlande.

F5.4

Figure 5.4: Cette figure compare le pourcentage d’emplacements ancestraux de naissance dans une communauté à la base de données. Les barres représentent le pourcentage d’ancêtres nés à Munster, en Irlande, par génération. Les barres vertes représentent la proportion pour les personnes affectées à la communauté irlandaise de Munster alors que les barres bleues représentent la proportion pour les personnes dans la base de données entière.
Comme nous l’avons mentionné précédemment, notre confiance dans notre interprétation de chaque communauté génétique dépendra des données recueillies par les membres de la communauté. Pour évaluer notre interprétation de chaque communauté génétique, nous considérons le nombre d’annotations que les gens ont dans leurs pedigrees. Par exemple, les membres de certaines communautés génétiques ont moins d’ancêtres annotés aux niveaux plus profonds de leurs pedigrees que d’autres. Deux exemples illustratifs sont présentés à la figure 5.5: les habitants de la Virginie occidentale ont tendance à avoir beaucoup plus d’ancêtres annotés à des générations plus profondes que la moyenne de la base de données, tandis que les Irlandais Munster ont tendance à avoir moins d’ancêtres annotés à des générations plus profondes. De ce fait, nous pouvons être plus confiants dans notre interprétation de la communauté génétique de l’ouest de la Virginie, alors que nous nous appuyons sur d’autres données d’annotation lors de l’interprétation de la communauté génétique irlandaise de Munster. Parce qu’il peut y avoir de nombreuses personnes qui n’ont pas construit leur pedigree jusqu’à  Munster en Irlande, nous regardons l’origine ethnique génétique. Nous constatons que 98% des individus affectés à la communauté ont  > 5% d’appartenance ethnique irlandaise, soutenant ainsi notre hypothèse que ces membres de la communauté sont de l’Irlande.

F5.5

Figure 5.5: Cette figure présente un exemple du nombre moyen d’annotations de généalogie dans différentes communautés génétiques. Les barres bleu foncé représentent le nombre moyen d’ancêtres annotés dans les pedigrees dans toute la base de données. Les barres bleu clair représentent la moyenne pour les gens dans la communauté irlandaise de Munster. Ce groupe a généralement beaucoup moins annoté ancêtres dans leurs arbres généalogiques, par rapport à la base de données moyenne. Les barres vertes représentent la moyenne pour les gens de la communauté de Virginie occidentale. En moyenne, ces individus ont beaucoup plus d’ancêtres annotés à des générations plus profondes que d’autres individus dans la base de données.

 

5.4. Modèles de migration

Enfin, nous étudions également les modèles de migration des ancêtres des membres de la communauté dans le temps, comme le montrent les données agrégées de la généalogie. Nous examinons comment les ancêtres des personnes dans cette communauté ont déménagé d’un endroit à un autre en regardant les lieux de naissance des parents et des enfants pour chaque génération dans chaque pedigree. Ainsi, nous définissons un chemin de migration comme un chemin à partir d’un lieu de naissance d’un parent à un lieu de naissance d’un enfant.

En examinant les changements dans ces trajectoires de migration, nous avons souvent plus de perspicacité dans la dynamique de population des ancêtres des personnes dans cette communauté génétique, et comment ces dynamiques ont changé avec le temps.

Par exemple, lorsque nous examinons la communauté irlandaise de Munster, en Irlande, nous voyons une très forte fréquence des trajets de migration de Munster vers les États-Unis de 1825 à 1875. Ce calendrier correspond à la migration de 6 millions d’Irlandais vers les États-Unis Au 19ème siècle, qui a culminé en 1852 pendant la famine irlandaise (Fitzgerald et Lambkin 2008 [8, 181]).

F5.6

 

Figure 5.6: Migration de Munster, Irlande vers les États-Unis.
5.5 Interprétation de la communauté génétique

Sur la base de ces quatre éléments d’information – l’ethnicité, les noms de famille, les lieux de naissance et les voies de migration – nous sommes souvent en mesure de déduire certains des contextes historiques conduisant à des liens génétiques solides entre individus dans la même communauté génétique. Ces interprétations sont utilisées pour guider les noms des communautés génétiques dans l’expérience de l’utilisateur, ainsi que les informations historiques associées et autres présentées.

 

6. Découvertes récursives des communautés génétiques à grande échelle

Avec des millions d’échantillons dans la base de données AncestryDNA, l’exécution récursive de la détection communautaire permet d’identifier la structure à échelle précise dans le réseau IBD. Nous avons d’abord identifié seulement une poignée de communautés génétiques, représentant généralement soit des barrières de flux génétiques subtiles affectant des centaines de milliers d’échantillons, soit des barrières de flux de gènes plus fortes séparant des sous-ensembles beaucoup plus petits du réseau IBD. Certains exemples de barrières de flux de gènes plus subtiles comprennent une communauté génétique représentant des personnes ayant des ancêtres dans le nord des États-Unis ou en Europe (Figure 6.1A) et une communauté génétique représentant des individus d’ascendance européenne avec des ancêtres dans le sud des États-Unis. Des exemples de communautés génétiques en raison de barrières de flux de gènes plus forts comprennent une communauté génétique représentant des individus ayant une ascendance juive européenne et une autre composée d’individus ayant des origines du Mexique et d’Amérique latine (Figure 6.1B).

F6.1A

Figure 6.1 (a): Ces chiffres montrent les communautés découvertes à partir de l’ensemble du réseau IBD. Les lieux enrichis de naissance des ancêtres de cette communauté sont principalement aux États-Unis et en Europe du Nord, ce qui représente des barrières aux flux de gènes qui affectent des centaines de milliers de personnes.

F6.1B

Figure 6.1 (B): Une communauté plus petite en raison de barrières de flux de gènes plus fortes a ancêtres principalement au Mexique et en Amérique latine.
Une découverte clé de ce travail est qu’il est possible de découvrir de plus petites communautés de résolution plus élevée grâce à l’application récursive de l’algorithme de détection communautaire. Puisque chaque communauté observée est elle-même un réseau de connexions IBD sur lequel nous pouvons appliquer le même algorithme de détection communautaire pour découvrir des sous-communautés, nous avons effectué une détection communautaire récursive. Les sous-réseaux ou les communautés génétiques de chaque cycle ont été soumis de manière récurrente à des cycles supplémentaires de détection communautaire jusqu’à ce que des structures de population plus fines ne puissent plus être détectées de manière stable (figure 6.2).

F6.2a

 

Figure 6.2: L’exécution récursive de l’algorithme de détection communautaire sur les sous-réseaux révèle une structure de population à plus grande échelle au sein du réseau IBD plus important.
Par exemple, le premier tour de détection communautaire découvre une grande communauté génétique composée de centaines de milliers de personnes ayant des ancêtres dans le nord des États-Unis ou en Europe (figure 6.1A). La détection de la communauté uniquement dans ce sous-réseau révèle plusieurs petites communautés génétiques qui correspondent à des groupes de population plus petits avec des histoires plus spécifiques, lorsque les données d’annotation sont considérées. Nous trouvons des communautés génétiques représentant des personnes d’ascendance en Italie, en Pennsylvanie, à New York ou au Royaume-Uni et en Irlande (figure 6.3).

F6.3

Figure 6.3: Communauté du Royaume-Uni et de l’Irlande. Cette figure représente une communauté composée d’individus dont les ancêtres sont nés principalement au Royaume-Uni et en Irlande, qui est l’une de plusieurs petites communautés identifiées grâce à la détection communautaire sur le sous-réseau Europe / nord des États-Unis.
La communauté génétique visualisée dans la figure 6.3, découverte avec le même algorithme que précédemment, représente une structure de population plus fine que les communautés que nous découvrons à partir de l’ensemble du réseau IBD. Nous pouvons de nouveau détecter les communautés sur ce petit ensemble d’individus. Comme auparavant, nous trouvons un certain nombre de communautés, chacune correspondant à une structure de population encore plus fine. Nous trouvons trois communautés qui ont des ancêtres d’Irlande (Munster-voir Figure 6.4, Ulster et Connacht), ainsi que des communautés de Terre-Neuve, de la Nouvelle-Écosse et du Royaume-Uni.

 

F6.4

Figure 6.4: La détection communautaire sur le sous-réseau du Royaume-Uni et de l’Irlande identifie plusieurs communautés plus petites, dont une composée d’individus dont les ancêtres sont nés principalement dans la partie méridionale de l’Irlande, la communauté irlandaise de Munster.
Une fois de plus, nous pouvons considérer chacune de ces communautés individuellement et effectuer une nouvelle détection communautaire. En exécutant la détection communautaire sur la communauté correspondant à Munster, en Irlande, nous trouvons six communautés génétiques correspondant à plusieurs régions (se chevauchant) à Munster (Figure 6.5).

F6.5

Figure 6.5: En effectuant une détection communautaire sur la communauté génétique correspondant à Munster, en Irlande, nous découvrons 6 sous-communautés, illustrées par les polygones blancs.

 

7. Assignation de personnes aux communautés génétiques

Alors que les résultats de l’application récursive de l’algorithme de détection communautaire sur le réseau IBD révèlent des communautés génétiques à l’échelle fine intrigantes, nous avons encore besoin d’une façon de livrer ces perspicacités aux clients. Une possibilité est que nous sélectionnions la communauté unique à laquelle chaque échantillon est affecté suite à l’algorithme de détection de la communauté et que nous livrions cela comme une affectation de la communauté génétique. Cependant, cette approche aurait deux limites fondamentales. Tout d’abord, n’importe quel échantillon AncestryDNA peut avoir de fortes connexions à de multiples communautés génétiques. Par exemple, une personne ayant partagé une ascendance avec une communauté génétique irlandaise et une communauté génétique italienne peut avoir un lien étroit avec les deux, mais en raison de la nature de l’algorithme de détection communautaire que nous utilisons, le résultat final ne fournirait qu’une communauté affectation. Deuxièmement, l’exécution quotidienne de la communauté de détection pour un grand réseau avec des millions d’échantillons et des milliards de connexions est informatiquement impossible. Au lieu de cela, nous avons choisi d’utiliser des algorithmes d’apprentissage machine, qui surmontent ces deux limitations (Figure 7.1).

F7.1

Figure 7.1: Pour chaque communauté génétique, nous construisons un classificateur binaire qui décidera si un client doit être affecté à cette communauté ou non. Ceci est représenté comme «oui, assigné à la communauté génétique», ou «non, non attribué à la communauté génétique» sur la figure.
Pour assigner des échantillons aux communautés génétiques, nous créons un groupe d’échantillons de référence pour chaque communauté génétique découverte lors de la détection récursive de la communauté. Chaque groupe de référence est raffiné afin de retirer des individus moins représentatifs de la communauté et de tenir compte des relations familiales étroites. Pour chaque panel de référence (représentant une communauté génétique) qui transmet certaines métriques de qualité, nous construisons un classificateur binaire. La classification binaire est une méthode d’apprentissage automatique qui attribue un échantillon à l’un des deux résultats, compte tenu d’un ensemble de caractéristiques. Par exemple, les caractéristiques données décrivant la connexion IBD d’un échantillon au réseau, un classificateur décidera «oui, assigné à la communauté génétique» ou «non, non affecté à la communauté génétique». Puisqu’un classificateur binaire séparé est construit pour chaque Communauté génétique, un individu a le potentiel d’être classé «oui, affecté à la communauté génétique» pour de multiples communautés – s’ils ont des caractéristiques représentatives de ces communautés. Par exemple, une personne ayant une ascendance partagée de deux communautés peut être affectée aux deux communautés. Cette approche de l’attribution d’une communauté génétique peut être décrite comme un problème de classification multidimensionnelle, dans lequel chaque échantillon peut être classé en zéro, une ou plusieurs communautés génétiques (figure 7.2). Grâce à ce schéma de classification multidirectionnel, nous sommes en mesure d’assigner des individus à de nombreuses communautés génétiques et de contourner l’impossibilité d’exécuter la détection communautaire sur la base de données AncestryDNA entière avec chaque nouvel échantillon.

F7.2

Figure 7.2: Cette figure montre une vue d’ensemble du schéma de classification multi-voies. (1) Pour chaque communauté découverte, nous créons un classificateur. (2) Pour ce faire, une arête est créée représentant certains attributs des connexions IBD d’un individu dans le grand réseau IBD de tous les clients AncestryDNA. (3) Sur la base de ces caractéristiques, le classificateur prend une décision oui / non pour attribuer le client à la communauté. (4) Un jeu de validation est utilisé pour estimer la précision de chaque classificateur.
Les caractéristiques qui sont utilisées dans ces classificateurs sont trouvées en résumant les connexions IBD de chaque échantillon dans le réseau IBD et ses communautés génétiques découvertes. Comme chaque fonctionnalité générée n’est pas utile pour chaque classificateur, nous utilisons des techniques de sélection de fonctionnalités standard pour sélectionner uniquement les fonctionnalités les plus informatives pour chaque modèle. Le nombre de fonctions sélectionnées varie pour chaque modèle de classification.

Pour chaque communauté génétique, nous utilisons les caractéristiques sélectionnées pour former un classificateur binaire qui peut être sauvegardé et utilisé pour attribuer un échantillon AncestryDNA à zéro, une ou plusieurs communautés génétiques pertinentes. Nous utilisons un ensemble de validation (un ensemble d’échantillons qui ont été regroupés dans une communauté, mais aucun des mêmes échantillons qui ont été utilisés pour la formation) pour estimer la précision de chaque classificateur et peuvent donc qualifier chaque «oui, affecté à la communauté génétique», classement de confiance, que nous divisons en catégories comme indiqué dans le tableau 7.1.

T7.1

Tableau 7.1: Catégories de fiabilité de la classification et la précision d’ensemble de validation correspondante.

Pour faciliter la communication, ces niveaux de confiance sont condensés et affichés aux clients dans les trois groupes suivants:

Très haute connexion: très probable
Connexion élevée et modérée: Probable
Faible et très faible Connexion: Possible
Nous présentons les résultats au client dans l’expérience du produit que vous voyez aujourd’hui (Figure 7.3).

F7.3

Figure 7.3: L’estimation de la précision est transmise aux clients en utilisant un niveau de confiance, décrit ici comme «très probable», montrant la confiance attribuée à un client de West Kerry connexion.

 

8. Conclusion

Dans ce livre blanc, nous définissons ce que nous entendons par communauté génétique et comment s’effectue l’affectation des individus aux communautés génétiques. Ces communautés correspondent à une structure fine de population en raison de modèles historiques très récents et parfois documentés.

Tout d’abord, nous identifions les connexions génétiques définies par le partage d’un ancêtre commun récent, ou IBD, parmi des millions d’échantillons à AncestryDNA. Lorsque ces connexions sont agrégées en un réseau, nos méthodes de calcul révèlent des grappes densément liées (communautés génétiques) dans lesquelles les membres de chaque grappe sont davantage liés les uns aux autres qu’avec les membres d’autres communautés. Ensuite, à l’aide d’ethnies génétiques et de généalogies générées par les utilisateurs, nous annotons ces communautés génétiques afin d’identifier les origines historiques présumées de ces sous-structures de population et d’inférer les modèles temporels et géographiques de migration et de peuplement. Enfin, en appliquant des techniques d’apprentissage informatique, nous inférons l’appartenance à des échantillons à ces communautés génétiques, fournissant ainsi un examen détaillé de leur histoire familiale contemporaine en Amérique du Nord, en Europe et ailleurs.

Comme la base de données AncestryDNA continue de croître, nous espérons que notre capacité à découvrir des structures supplémentaires dans le réseau IBD s’améliorera. Cela conduira probablement à des découvertes de communautés génétiques dans de nouvelles régions du monde et avec plus de granularité, conduisant à une expérience d’histoire familiale plus riche pour les clients AncestryDNA.

9. Références

Blondel, Vincent D., Jean-Loup Guillaume, Renaud Lambiotte, and Etienne Lefebvre. « Fast Unfolding of Communities in Large Networks. » Journal of Statistical Mechanics 2008, no. 10 (2008). doi:10.1088/1742-5468/2008/10/p10008.

Csárdi, Gábor, and Tamás Nepusz. « The Igraph Software Package for Complex Network Research. » InterJournal Complex Systems 1695 (2006).

Fitzgerald, Patrick, and Brian Lambkin. Migration in Irish History, 1607–2007. Basingstoke: Palgrave Macmillan, 2008.

Laidley, W. S. History of Charleston and Kanawha County, West Virginia and Representative Citizens. Chicago: Richmond-Arnold Publishing, 1911.

Rice, Otis K. West Virginia: A History. Lexington, KY: University of Kentucky, 1985. Accessed May 13, 2015. https://muse.jhu.edu/.