In der Bioinformatik stellt die Genomassemblierung den Prozess dar, eine große Anzahl kurzer DNA-Sequenzen wieder zusammenzufügen, um die ursprünglichen Chromosomen, aus denen die DNA stammt, zu rekonstruieren. Die Sequenzassemblierung ist einer der grundlegenden Schritte nach der Durchführung Next-Generation-Sequenzierung, PacBio SMRT-Sequenzierungoder Nanoporen-SequenzierungDie erstellte Genomassemblierung kann in Datenbanken wie dem European Nucleotide Archive, NCBI Assembly und Ensembl Genomes eingereicht werden. Sie können auch diese Datenbanken nach genomischen Sequenzen durchsuchen, die von anderen Forschern erstellt wurden.
Zwei Arten der Genomassemblierung
Es gibt zwei verschiedene Arten der Genomassemblierung: von Neuem Versammlung und die Zuordnung zu einem Referenzgenom (auch bekannt als referenzbasierte Ausrichtung). De novo Assembly bezieht sich auf die Genomassemblierung eines neuartigen Genoms von Grund auf ohne die Hilfe von Referenzgenomdaten. Ein Referenzgenom oder eine Referenzassemblierung ist eine digitale Nukleinsäuresequenzdatenbank, die als repräsentatives Beispiel für den Genpool einer Art dient. Sobald das Referenzgenom verfügbar ist, wird die Genomassemblierung mit seiner Hilfe viel einfacher, schneller und sogar genauer. Daher wählen Forscher, sofern nicht notwendig, die Methode der referenzbasierten Ausrichtung. Die referenzbasierte Ausrichtung ist zum aktuellen Standard in der Diagnostik geworden.
Tabelle 1. Referenzbasierte Ausrichtung vs. von Neuem Versammlung.
| Referenzbasierte Ausrichtung | De novo Versammlung | |
| Vorteile |
|
|
| Nachteile |
|
|
Bewertung einer Versammlung
Nach der Genomassemblierung ist es wichtig, die Qualität einer Assemblierung zu bewerten. Die folgende Tabelle listet einige der wichtigen und häufig verwendeten Metriken zur Assemblierung auf. N50 ist die am häufigsten verwendete Metrik, die die kleinste Scaffold- oder Contig-Länge darstellt, über der 50 % einer Assemblierung liegen. Sie beschreibt die „Vollständigkeit“ einer Assemblierung.
Abbildung 1. Das Berechnungsbeispiel für N50.
Tabelle 2. Einige gängige Statistiken zur Bewertung der Qualität einer Montage
| Metriken | Beschreibung |
| N50 | N50 bedeutet, dass die Hälfte der Genomsequenz größer oder gleich der N50-Contig-Größe ist (↑). |
| NG50 | Die Länge des Gerüsts, bei der 50 % der Genomlänge abgedeckt sind (↑). |
| Abdeckung | Wenn 90 % der Basen mindestens 5-fache Lesedichte aufweisen, gilt das Genom als genau (↑). |
| N90 | Eine Baugruppe gilt als kontinuierlich, sofern ihr N 90 > 5 Kb (↑) beträgt. |
| Durchschnittliche Contig-Länge | Die durchschnittliche Contig-Länge sollte länger als 5000 Basen (5 Kb) sein (↑). |
| Anzahl der Gene | Wenn ein Assembly, das die meisten der bekannten Gene identifiziert, als das bessere Assembly betrachtet wird (↑). |
| Anzahl der Lücken | Die Lücken in einer Montage verringern die Qualität (↓). |
| Gültigkeit | Eine Assemblierung kann durch die Referenzsequenz (↑) validiert werden. |
Beachten Sie, dass ein ↑ anzeigt, dass höher besser ist, und ein ↓ impliziert, dass weniger besser ist.
Faktoren, die die Ergebnisse der Genomassemblierung beeinflussen
Neben dem Prozess der Genomassemblierung können die folgenden Aspekte die Qualität der Genomassemblierung stark beeinflussen. Paarend-Sequenzierung und Langlesetechnologie sind zwei Strategien zur Verbesserung der Qualität der Genomassemblierung.
Eigenschaften des Genoms
Die Eigenschaften des Genoms können die Genomassemblierung beeinflussen.
2. Nukleinsäureextraktion
Für die DNA-Isolation oder RNA-IsolierungHier sind ein paar Dinge, die man beachten sollte: DNA/RNA-Integrität, DNA/RNA-Reinigung, ausreichende DNA/RNA-Menge. usw.Im Vergleich zur Neusequenzierung, von neuem Die Sequenzierung erfordert überlegene Nukleinsäuren. Die wichtigsten Qualitätsparameter für Nukleinsäuren bei NGS sind chemische Reinheit und strukturelle Integrität.
3. Sequenzierungsmethoden
Die Wahl der Sequenzierungsmethoden ist ein wichtiger Faktor, der die Kosten und den Erfolg einer Genomassemblierung beeinflusst. NGS wurde in vielen bemerkenswerten Projekten wie dem 1.000-Genome-Projekt und dem Human-Mikrobiom-Projekt angewendet. Allerdings können einige wichtige Gene von Interesse nicht korrekt assembliert werden, hauptsächlich aufgrund der Unterbrechung durch sich wiederholende Elemente. Die Sequenzierung der dritten Generation ist eine vielversprechende Lösung für dieses Problem, basierend auf langen Reads, die die repetitiven Regionen überbrücken.
4. Rohdatenverarbeitung
Obwohl es Assemblierungswerkzeuge gibt, die es bevorzugen, mit den Rohdaten, einschließlich potenzieller Adaptersequenzen, zu arbeiten, empfehlen wir den Forschern dringend, das Handbuch zu studieren, um festzustellen, ob das Programm qualitätsgetrimmte Daten benötigt oder nicht. Wenn eine Datenbereinigung erforderlich ist, wäre es notwendig, Daten von schlechter Qualität auszuschließen, indem die Enden von niedrigqualitativen Reads getrimmt und niedrigqualitative Reads gefiltert werden. Mehrere Werkzeuge stehen für diesen Zweck zur Verfügung, wie PRINSEQ32 und Trimmomatic33.
Referenzen: