Ein Überblick über die Genomassemblierung

In der Bioinformatik stellt die Genomassemblierung den Prozess dar, eine große Anzahl kurzer DNA-Sequenzen wieder zusammenzufügen, um die ursprünglichen Chromosomen, aus denen die DNA stammt, zu rekonstruieren. Die Sequenzassemblierung ist einer der grundlegenden Schritte nach der Durchführung Next-Generation-Sequenzierung, PacBio SMRT-Sequenzierungoder Nanoporen-SequenzierungDie erstellte Genomassemblierung kann in Datenbanken wie dem European Nucleotide Archive, NCBI Assembly und Ensembl Genomes eingereicht werden. Sie können auch diese Datenbanken nach genomischen Sequenzen durchsuchen, die von anderen Forschern erstellt wurden.

Zwei Arten der Genomassemblierung

Es gibt zwei verschiedene Arten der Genomassemblierung: von Neuem Versammlung und die Zuordnung zu einem Referenzgenom (auch bekannt als referenzbasierte Ausrichtung). De novo Assembly bezieht sich auf die Genomassemblierung eines neuartigen Genoms von Grund auf ohne die Hilfe von Referenzgenomdaten. Ein Referenzgenom oder eine Referenzassemblierung ist eine digitale Nukleinsäuresequenzdatenbank, die als repräsentatives Beispiel für den Genpool einer Art dient. Sobald das Referenzgenom verfügbar ist, wird die Genomassemblierung mit seiner Hilfe viel einfacher, schneller und sogar genauer. Daher wählen Forscher, sofern nicht notwendig, die Methode der referenzbasierten Ausrichtung. Die referenzbasierte Ausrichtung ist zum aktuellen Standard in der Diagnostik geworden.

Tabelle 1. Referenzbasierte Ausrichtung vs. von Neuem Versammlung.

	Referenzbasierte Ausrichtung	De novo Versammlung
Vorteile	Gut für SNVs und kleine Indels) Funktioniert für Löschungen und Duplikationen unter Verwendung von Abdeckungsinformationen Eine schnelle Methode zur Assemblierung des Genoms Einschränkungen bei der Verbergung von Rohdaten Mehr Werkzeuge zur Bearbeitung der Ergebnisse Einfachere Annotation und Vergleich	Verlässt sich nicht auf ein Referenzgenom. Verwendet, um unbekannte Gene/Transkripte zu suchen (wie Transkripte mit neuen Introns, geänderten Spleißstellen) Gut für strukturelle Variationen
Nachteile	Benötigt ein Referenzgenom Begrenzt durch die Leselänge für die Merkmalsdetektion	Erfordert sehr hochwertige Rohdaten. Eine langsame Methode, die eine hohe Infrastruktur erfordert.

Bewertung einer Versammlung

Nach der Genomassemblierung ist es wichtig, die Qualität einer Assemblierung zu bewerten. Die folgende Tabelle listet einige der wichtigen und häufig verwendeten Metriken zur Assemblierung auf. N50 ist die am häufigsten verwendete Metrik, die die kleinste Scaffold- oder Contig-Länge darstellt, über der 50 % einer Assemblierung liegen. Sie beschreibt die „Vollständigkeit“ einer Assemblierung.

An Overview of Genome Assembly Abbildung 1. Das Berechnungsbeispiel für N50.

Tabelle 2. Einige gängige Statistiken zur Bewertung der Qualität einer Montage

Metriken	Beschreibung
N50	N50 bedeutet, dass die Hälfte der Genomsequenz größer oder gleich der N50-Contig-Größe ist (↑).
NG50	Die Länge des Gerüsts, bei der 50 % der Genomlänge abgedeckt sind (↑).
Abdeckung	Wenn 90 % der Basen mindestens 5-fache Lesedichte aufweisen, gilt das Genom als genau (↑).
N90	Eine Baugruppe gilt als kontinuierlich, sofern ihr N 90 > 5 Kb (↑) beträgt.
Durchschnittliche Contig-Länge	Die durchschnittliche Contig-Länge sollte länger als 5000 Basen (5 Kb) sein (↑).
Anzahl der Gene	Wenn ein Assembly, das die meisten der bekannten Gene identifiziert, als das bessere Assembly betrachtet wird (↑).
Anzahl der Lücken	Die Lücken in einer Montage verringern die Qualität (↓).
Gültigkeit	Eine Assemblierung kann durch die Referenzsequenz (↑) validiert werden.

Beachten Sie, dass ein ↑ anzeigt, dass höher besser ist, und ein ↓ impliziert, dass weniger besser ist.

Faktoren, die die Ergebnisse der Genomassemblierung beeinflussen

Neben dem Prozess der Genomassemblierung können die folgenden Aspekte die Qualität der Genomassemblierung stark beeinflussen. Paarend-Sequenzierung und Langlesetechnologie sind zwei Strategien zur Verbesserung der Qualität der Genomassemblierung.

Eigenschaften des Genoms

Die Eigenschaften des Genoms können die Genomassemblierung beeinflussen.

Genomgröße. Je größer das Genom ist, desto mehr Daten werden benötigt. Daher müssen Sie vor der Bestellung von Sequenzdaten die Genomgröße schätzen, die durch die Untersuchung der Genomgröße eng verwandter Arten abgeleitet werden kann.
Wiederholungen. Die Menge und Verteilung von wiederholten Sequenzen in einem Genom beeinflussen maßgeblich die Ergebnisse der Genomassemblierung. Dies kann zu Fehlassemblierungen und einer falschen Schätzung der Größe der Wiederholungen führen.
Heterozygotie. Wenn das Genom hoch heterozygot ist, können Sequenzlesungen von homologen Allelen zu unterschiedlich sein, um zusammengefügt zu werden, was wahrscheinlich zu fragmentierteren Assemblierungen führt oder Zweifel an der Homologie der Contigs aufwirft.
Ploidiestufe. Wenn möglich, ist es besser, haploides Gewebe zu sequenzieren, um Probleme zu vermeiden, die durch Heterozygotie verursacht werden.
GC-Gehalt. Inhomogener GC-Gehalt kann ein Problem für die Illumina-Sequenzierung verursachen, was zu einer geringen Abdeckung in diesen Regionen führt.

2. Nukleinsäureextraktion

Für die DNA-Isolation oder RNA-IsolierungHier sind ein paar Dinge, die man beachten sollte: DNA/RNA-Integrität, DNA/RNA-Reinigung, ausreichende DNA/RNA-Menge. usw.Im Vergleich zur Neusequenzierung, von neuem Die Sequenzierung erfordert überlegene Nukleinsäuren. Die wichtigsten Qualitätsparameter für Nukleinsäuren bei NGS sind chemische Reinheit und strukturelle Integrität.

3. Sequenzierungsmethoden

Die Wahl der Sequenzierungsmethoden ist ein wichtiger Faktor, der die Kosten und den Erfolg einer Genomassemblierung beeinflusst. NGS wurde in vielen bemerkenswerten Projekten wie dem 1.000-Genome-Projekt und dem Human-Mikrobiom-Projekt angewendet. Allerdings können einige wichtige Gene von Interesse nicht korrekt assembliert werden, hauptsächlich aufgrund der Unterbrechung durch sich wiederholende Elemente. Die Sequenzierung der dritten Generation ist eine vielversprechende Lösung für dieses Problem, basierend auf langen Reads, die die repetitiven Regionen überbrücken.

4. Rohdatenverarbeitung

Obwohl es Assemblierungswerkzeuge gibt, die es bevorzugen, mit den Rohdaten, einschließlich potenzieller Adaptersequenzen, zu arbeiten, empfehlen wir den Forschern dringend, das Handbuch zu studieren, um festzustellen, ob das Programm qualitätsgetrimmte Daten benötigt oder nicht. Wenn eine Datenbereinigung erforderlich ist, wäre es notwendig, Daten von schlechter Qualität auszuschließen, indem die Enden von niedrigqualitativen Reads getrimmt und niedrigqualitative Reads gefiltert werden. Mehrere Werkzeuge stehen für diesen Zweck zur Verfügung, wie PRINSEQ32 und Trimmomatic33.

Referenzen:

Wajid B, Serpedin E. Selbstgemachte Anleitung zur Genomassemblierung. Briefings in funktioneller Genomik, 2014, 15(1): 1-9.
Victoria D D A, Erik H, Lieven S, et al. Zehn Schritte, um mit der Genomassemblierung und -annotation zu beginnen. F1000Research, 2018, 7.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.

Verwandte Dienstleistungen