How local reference panels improve imputation in French populations
Anthony Herzig
(1, 2, 3, 4, 5)
,
Lourdes Velo‐suárez
(1)
,
Dominique Campion
(1, 2, 3, 4, 5)
,
Jean-François Dartigues
(6)
,
Jean-Charles Lambert
(7, 8, 9)
,
Thomas Ludwig
(1, 2, 3, 4, 5, 10)
,
Benjamin Grenier-Boley
(7, 8, 9)
,
Sébastien Letort
(1, 2, 3, 4, 5, 10)
,
Pierre Lindenbaum
(11)
,
Vincent Meyer
(12)
,
Olivier Quenez
(13, 14)
,
Céline Bellenguez
(9)
,
Camille Charbonnier-Le Clézio
,
Joanna Giemza
(11)
,
Stéphanie Chatel
(11)
,
Claude Férec
(1)
,
Hervé Le Marec
(11)
,
Luc Letenneur
(6)
,
Gaël Nicolas
(15, 16, 17)
,
Karen Rouault
(18, 1)
,
Delphine Bacq
(12)
,
Anne Boland
(12)
,
Doris Lechner
(12)
,
Chantal Adjou
,
Stéphanie Chatel
(11)
,
Marcel Goldberg
(19)
,
Philippe-Antoine Halbout
,
Hervé Le Marec
(11)
,
David L’helgouach
,
Karen Rouault
(18, 1)
,
Jean-Jacques Schott
(20)
,
Anne Vogelsperger
,
Marie Zins
(19)
,
Delphine Bacq
(12)
,
Hélène Blanché
(21)
,
Anne Boland
(12)
,
Robert Olaso
(12)
,
Pierre Lindenbaum
,
Thomas Ludwig
(1)
,
Vincent Meyer
,
Florian Sandron
,
Damien Delafoy
,
Lourdes Velo-Suárez
(1)
,
Isabel Alves
,
Ozvan Bocher
(1)
,
Anthony F Herzig
(1)
,
Matilde Karakachoff
,
Gaëlle Marenne
(1)
,
Aude Saint-Pierre
(1)
,
Véronique Geoffroy
(1)
,
Christian Dina
,
Richard Redon
,
Jean-François Deleuze
,
Emmanuelle Génin
(1)
1
GGB -
Génétique, génomique fonctionnelle et biotechnologies (UMR 1078)
2 EFS
3 GPMCND - Génomique et Médecine Personnalisée du Cancer et des Maladies Neuropsychiatriques
4 CNRMAJ - Centre national de référence pour les malades Alzheimer jeunes
5 Institut für Geowissenschaften [Heidelberg]
6 BPH - Bordeaux population health
7 Université de Lille
8 CHRU Lille - Centre Hospitalier Régional Universitaire [CHU Lille]
9 RID-AGE - Facteurs de Risque et Déterminants Moléculaires des Maladies liées au Vieillissement - U 1167
10 IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires
11 ITX-lab - ITX-lab unité de recherche de l'institut du thorax UMR1087 UMR6291
12 CNRGH - Centre National de Recherche en Génomique Humaine
13 Service de Génétique [CHU Rouen]
14 CBG - Cancer and Brain Genomics
15 Labex Gr-Ex - Laboratoire d'Excellence : Biogenèse et pathologies du globule rouge
16 INSERM - Institut National de la Santé et de la Recherche Médicale
17 CRI (UMR_S_1149 / ERL_8252 / U1149) - Centre de recherche sur l'Inflammation
18 CHRU Brest - Centre Hospitalier Régional Universitaire de Brest
19 CONSTANCES - Cohortes épidémiologiques en population
20 Institut du Thorax [Nantes]
21 Fondation Jean Dausset CEPH
2 EFS
3 GPMCND - Génomique et Médecine Personnalisée du Cancer et des Maladies Neuropsychiatriques
4 CNRMAJ - Centre national de référence pour les malades Alzheimer jeunes
5 Institut für Geowissenschaften [Heidelberg]
6 BPH - Bordeaux population health
7 Université de Lille
8 CHRU Lille - Centre Hospitalier Régional Universitaire [CHU Lille]
9 RID-AGE - Facteurs de Risque et Déterminants Moléculaires des Maladies liées au Vieillissement - U 1167
10 IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires
11 ITX-lab - ITX-lab unité de recherche de l'institut du thorax UMR1087 UMR6291
12 CNRGH - Centre National de Recherche en Génomique Humaine
13 Service de Génétique [CHU Rouen]
14 CBG - Cancer and Brain Genomics
15 Labex Gr-Ex - Laboratoire d'Excellence : Biogenèse et pathologies du globule rouge
16 INSERM - Institut National de la Santé et de la Recherche Médicale
17 CRI (UMR_S_1149 / ERL_8252 / U1149) - Centre de recherche sur l'Inflammation
18 CHRU Brest - Centre Hospitalier Régional Universitaire de Brest
19 CONSTANCES - Cohortes épidémiologiques en population
20 Institut du Thorax [Nantes]
21 Fondation Jean Dausset CEPH
Anthony Herzig
- Fonction : Auteur
- PersonId : 1143904
- ORCID : 0000-0001-9392-9924
- IdRef : 254067239
Thomas Ludwig
- Fonction : Auteur
- PersonId : 754585
- IdHAL : thomas-e-ludwig
- ORCID : 0000-0002-9996-1084
- IdRef : 132042843
Sébastien Letort
- Fonction : Auteur
Camille Charbonnier-Le Clézio
- Fonction : Auteur
Claude Férec
- Fonction : Auteur
- PersonId : 1028449
- ORCID : 0000-0002-2325-0710
Karen Rouault
- Fonction : Auteur
- PersonId : 1211478
- ORCID : 0000-0001-7586-3212
Chantal Adjou
- Fonction : Auteur
Philippe-Antoine Halbout
- Fonction : Auteur
David L’helgouach
- Fonction : Auteur
Anne Vogelsperger
- Fonction : Auteur
Pierre Lindenbaum
- Fonction : Auteur
Vincent Meyer
- Fonction : Auteur
Florian Sandron
- Fonction : Auteur
Damien Delafoy
- Fonction : Auteur
Isabel Alves
- Fonction : Auteur
Matilde Karakachoff
- Fonction : Auteur
Gaëlle Marenne
- Fonction : Auteur
- PersonId : 752532
- IdHAL : gaelle-marenne
- ORCID : 0000-0002-4363-7170
- IdRef : 182041603
Véronique Geoffroy
- Fonction : Auteur
- PersonId : 1055359
- IdHAL : veronique-geoffroy
- ORCID : 0000-0002-4149-0857
Christian Dina
- Fonction : Auteur
Richard Redon
- Fonction : Auteur
Jean-François Deleuze
- Fonction : Auteur
Emmanuelle Génin
- Fonction : Auteur
- PersonId : 181372
- IdHAL : emmanuelle-genin
- ORCID : 0000-0003-4117-2813
- IdRef : 114211302
Résumé
Imputation servers offer the exclusive possibility to harness the largest public reference panels
which have been shown to deliver very high precision in the imputation of European genomes. Many
studies have nonetheless stressed the importance of ‘study specific panels’ (SSPs) as an alternative
and have shown the benefits of combining public reference panels with SSPs. But such combined
approaches are not attainable when using external imputation servers. To investigate how to
confront this challenge, we imputed 550 French individuals using either the University of Michigan
imputation server with the Haplotype Reference Consortium (HRC) panel or an in‑house SSP of 850
whole‑genome sequenced French individuals. With approximate geo‑localization of both our target
and SSP individuals we are able to pinpoint different scenarios where SSP‑based imputation would
be preferred over server‑based imputation or vice‑versa. This is achieved by showing to a high degree
of resolution the importance of the proximity of the reference panel to target individuals; with a
focus on the clear added value of SSPs for estimating haplotype phase and for the imputation of rare
variants (minor allele‑frequency below 0.01). Such benefits were most evident for individuals from
the same geographical regions in France as the SSP individuals. Overall, only 42.3% of all 125,442
variants evaluated were better imputed with an SSP from France compared to an external reference
panel, however this rises to 58.1% for individuals from geographic regions well covered by the SSP.
By investigating haplotype sharing and population fine‑structure in France, we show the importance
of including SSP haplotypes for imputation but also that they should ideally be combined with large
public panels. In the absence of the unattainable results from a combined panel of the HRC and our
French SSP, we put forward a pragmatic solution where server‑based and SSP‑based imputation
outcomes can be combined based on comparing posterior genotype probabilities. We show that such
an approach can give a level of imputation accuracy in excess of what could be achieved with either
strategy alone. The results presented provide detailed insights into the accuracy of imputation that
should be expected from different strategies for European populations.
Domaines
Sciences du Vivant [q-bio]
Origine : Fichiers éditeurs autorisés sur une archive ouverte
licence : CC BY NC ND - Paternité - Pas d'utilisation commerciale - Pas de modification
licence : CC BY NC ND - Paternité - Pas d'utilisation commerciale - Pas de modification