Human Pangenome Reference Consortium veröffentlicht Daten von 30 Genomen

3. März 2021

Human Pangenome Reference Consortium Releases Data from 30 Genomes

NEW YORK – Das Human Pangenome Reference Consortium (HPRC) feiert ein Jahr Fortschritte, indem es Daten von bisher 30 zusammengetragenen Genomen veröffentlicht.

Die Genome, die über Repositories in den USA, Europa und Japan verfügbar sind, umfassen Daten von den HiFi-Lesungen von Pacific Biosciences, den ultralangen Lesungen von Oxford Nanopore Technologies und der optischen Kartierung von Bionano Genomics. Hi-C-Daten für alle 30 Proben, die mit den Omni-C-Kits von Dovetail Genomics erstellt wurden, werden in diesem Monat veröffentlicht. Darüber hinaus sind Einzelzell-Template-Strang-Sequenzierungsdaten für die Haplotyp-Phasierung für sieben Proben verfügbar, ebenso wie Illumina-NGS-Daten von 60 Eltern, die in der Trio-Phasierung verwendet wurden. Die Gruppe plant auch, 12 weitere Genome von Partnern der Washington University in St. Louis, des National Human Genome Research Institute und der University of California Santa Cruz einzubeziehen.

Auf dem diesjährigen virtuellen Treffen zu Fortschritten in der Genombiologie und -technologie sagte Karen Miga, eine Forschungswissenschaftlerin an der UCSC, dass das Konsortium diese Daten nutzt, um "unglaublich hochwertige phasierte Assemblierungen" zu erstellen, indem Hifiasm verwendet wird, ein neuer de novo Assemblierungsalgorithmus, der letzten Monat in Nature Methods von Forschern unter der Leitung von Heng Li von der Harvard University veröffentlicht wurde. "Wir haben enormen Erfolg nicht nur in Bezug auf Kontinuität oder N50 und Phasenblöcke, sondern auch in der Qualität dieser Assemblierungen selbst festgestellt", sagte Miga.

Ein Benchmark-Genom hatte 519 Contigs mit einem NG50 von 43 Mb, einem Phase-Block NG50 von 18 Mb, einem Q54-Score und einer heterozygoten SNP-Empfindlichkeit von 99,3 Prozent. Insgesamt hatten die diploiden Assemblierungen der 30 Genome ein N50 zwischen 18 und 59 Mb und Q-Werte zwischen 50 und 56, sagte sie.

Mit diesen Baugruppen entwickelt das Konsortium neue Methoden zur Automatisierung von Qualitätskontrollprotokollen und Gerüsten, fügte Miga hinzu. Sie gab auch einen Ausblick auf Methoden, die im Rahmen des Pan-Genom-Projekts entwickelt werden und Teil des Telomere-to-Telomere (T2T) Konsortiums sind.

2019 mit 29,5 Millionen Dollar an Fördermitteln vom Nationalen Institut für Humangenomforschung (NHGRI) ins Leben gerufen, zielt das Pan-Genom-Projekt darauf ab, eine vollständigere Darstellung der menschlichen Genome zu präsentieren und die Vielfalt der Varianten, die in der Bevölkerung existieren, zu erfassen. Zu seinen Zielen gehört es, Hunderte von hochwertigen menschlichen Genomassemblierungen zu produzieren, die jedes Chromosom von Telomer zu Telomer abdecken.

Die Ziele und Teilnehmer überschneiden sich oft mit dem T2T-Konsortium, das Miga gemeinsam mit dem Bioinformatiker Adam Phillippy vom NHGRI leitet.

Die Suche nach Möglichkeiten, bisher schwer zugängliche Regionen des Genoms, wie Zentromere und hochrepetitive Regionen, zu kartieren und zusammenzustellen, war ein zentrales Ziel dieser Projekte. Miga wies darauf hin, dass das HPRC auf die jüngsten Fortschritte in der Langzeit-Sequenzierungstechnologie angewiesen ist, namentlich auf die HiFi-Lesungen von PacBio und die ultralangen Lesungen von Oxford Nanopore Technologies.

„Unser Team erreicht eine Abdeckung von 35X bis 40X mit mehr als Q20 HiFi-Lesungen im Bereich von 18 bis 20 kb für dieses spezielle Projekt“, sagte sie. Die HiFi-Ausgabe überstieg bei allen bis auf eine Probe 100 Gb.

Das Konsortium erhält auch Lesevorgänge von 100 kb oder mehr mit einer Abdeckung von etwa 6X aus den ultra-langen Reads von Oxford Nanopore — etwa 10 Prozent aller Nanopore-Reads; Hi-C-Abdeckung von 60X und BioNano-Optik-Karten mit einem N50 von etwa 250 kb bei etwa 100X Abdeckung.

Die Datenveröffentlichung umfasst 60 Illumina NGS-Elterndatensätze, die in der Trio-Phasierung verwendet wurden, mit einer Abdeckung von 30X unter Verwendung von 150 bp Paar-End-Sequenzierung.

Die Daten können über Repositories des Nationalen Zentrums für Biotechnologie-Informationen, des Europäischen Bioinformatik-Instituts' Europäischen Nukleotidarchivs (ENA) und der DNA-Datenbank von Japan (DDBJ) abgerufen werden.

Miga teilte auch Fortschritte des T2T-Konsortiums mit. "Viele der Technologien, die wir entwickelt haben, werden in die Arbeit am menschlichen Pan-Genom einfließen", sagte sie. Im September 2020 veröffentlichte die Gruppe die vollständige Sequenz eines hydatidiformen Molen-Genoms, das keine unlokalisierten oder nicht platzierten Contigs aufwies. Es hatte einen Q70-Score und führte im Vergleich zum GRCh38-Referenzgenom zwischen 100 Mb und 190 Mb neuer Sequenz ein.

Neben den Chromosomenassemblierungen mit HiFi-Daten und ultra-langen Oxford Nanopore-Reads produziert das Konsortium die ersten hochauflösenden Karten aller akrozentrischen Chromosomenkurzarmen sowie jeder perizentrischen und zentromerischen Region im Genom. Die Fluoreszenz-in-situ-Hybridisierung wird als "eine schöne ergänzende orthogonale Methode zur Anzeige der Kopienzahl" integriert, sagte Miga. Die Gruppenmitglieder machen auch Fortschritte bei der Kartierung genomischer Umstellungen und segmentaler Duplikationen, identifizieren neue Wiederholungen und finden sogar Gene, die in zentromerischen Regionen verborgen sind. 

„Wir sind noch nicht am Ziel angekommen“, warnte Miga. Das kürzlich veröffentlichte T2T-Genom ist im Wesentlichen haploid, und es gibt eine „echte technologische Barriere, um den nächsten Meilenstein eines diploiden T2T-Genoms zu erreichen“, sagte sie, ganz zu schweigen von der Schwierigkeit, Hunderte davon für das menschliche Pan-Genom-Projekt zu erstellen.

Mehr Informationen unter: https://www.genomeweb.com/sequencing/human-pangenome-reference-consortium-releases-data-30-genomes#.YEr_Jp0zY2w

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben