Genomassemblierung ist eines der Hauptziele der Sequenzierung. De novo Die Genomassemblierung ist eine Strategie zur Genomassemblierung, die die Genomassemblierung eines neuartigen Genoms von Grund auf ohne die Hilfe von Referenzgenomdaten darstellt. De novo Genomassemblierungen setzen kein Vorwissen über die Länge, Anordnung oder Zusammensetzung der Quell-DNA-Sequenz voraus.
Abbildung 1. Allgemeine Schritte in einem Genomassemblierungs-Workflow (Angel) u. a.. 2018).
Um ein Genom mit den Plattformen der nächsten Generation von Sequenzierungen zusammenzustellen, verwenden Computerprogramme typischerweise Einzel- und Paarreads. Diese „Reads“ variieren in der Länge von 20 bis 1000 bp, abhängig von der verwendeten Sequenzierungsplattform. Einzelreads sind die kurzen sequenzierten Fragmente, die anhand überlappender Regionen zu einer kontinuierlichen Sequenz, bekannt als „Contig“, zusammengefügt werden können. Paarreads sind etwa gleich lang wie Einzelreads, stammen jedoch von beiden Enden der DNA-Fragmente. Im Vergleich zu Einzelreads werden Paarreads bevorzugt, da sie helfen, Contigs zu „Gerüsten“ zu verknüpfen und die Größe von repetitiven Regionen anzuzeigen.
Dennoch begrenzen sich die Effizienz und Genauigkeit der Genomassemblierung manchmal durch repetitive Sequenzen, Varianten, fehlende Daten und Fehler. Technologien mit langen Reads kommen genau zur richtigen Zeit auf, da sie sich über Abschnitte repetitiver Regionen erstrecken und somit eine zusammenhängende Rekonstruktion des Genoms ermöglichen. Derzeit wird diese neue Generation von zwei Methoden dominiert, Einzelmolekül-Echtzeit (SMRT) Sequenzierung und Nanoporen-Sequenzierung, unterstützt von Pacific Biosciences (PacBio) und Oxford Nanopore Technologies. SMARTdenovo ist eine OLC-Assembly-Pipeline für lange Reads, die gezeigt hat, dass sie Assemblierungen mit einer vernünftigen Kontinuität sowohl aus MinION- als auch aus SMRT-Reads erzeugen kann.
Wir werden die Illumina-Genomassemblierung als Beispiel verwenden, um den Workflow der Genomassemblierung mit NGS-Daten vorzustellen, da das Illumina-Sequencing eine der häufigsten Methoden für genomische Studien ist.
Abbildung 2. Flussdiagramm von von Neuem Versammlungsprotokoll.
Vor der Genomassemblierung ist es wichtig, die Qualität der Sequenzdaten zu bewerten, da dies zu fehlerhaften Schlussfolgerungen führen kann. Die Reads können in den Formaten Fasta, FastQ, SAM und BAM gespeichert werden. Das FastQ-Format ist die gängigste Read-Datei, da es von der Illumina-Sequenzierungspipeline erzeugt wird. Neben den Read-Typen müssen auch andere Aspekte wie die Anzahl der Reads, der GC-Gehalt und Kontamination berücksichtigt werden.
Die Genauigkeit der Basenaufrufe bewertet die Wahrscheinlichkeit, dass eine gegebene Base falsch aufgerufen wird, und wird häufig durch die Phred-Qualitätswerte (Q-Score) bestimmt. FastQC ist das gängigste Werkzeug zur Qualitätskontrolle von Rohdaten. Die Hauptausgaben von FastQC umfassen die Leselänge, den Typ der Qualitätskodierung, %GC, die Gesamtanzahl der Reads, das Vorhandensein von stark wiederkehrenden k-Mers, das Vorhandensein großer Mengen von N's in Reads und Abfälle in der Qualität zu Beginn, in der Mitte oder am Ende der Reads.
Sobald die Qualität der Sequenzdaten bestimmt ist, stehen viele Werkzeuge zur Qualitätsbearbeitung in Galaxy oder über die Befehlszeile zur Verfügung, wie z.B. Trimmomatic. Es kann das Pairing von Reads verarbeiten, wenn Sie gepaarte Reads haben. Trimmomatic kann mehrere Funktionen zur Bearbeitung von Reads nacheinander ausführen, einschließlich:
PRINSEQ ist ein ähnliches Werkzeug zur Qualitätsbearbeitung von Rohdaten.
Der nächste Schritt besteht darin, die qualitätsgeprüften Reads zu Entwurfskontigs zusammenzufügen. Die empfohlene Software für diesen Schritt ist der Velvet Optimiser, der den Velvet Assembler umschließt. Der Velvet Assembler ist speziell für Illumina-ähnliche Kurzreads geschrieben und verwendet den de Bruijn-Graph-Ansatz. Velvet Assembler und Velvet Optimiser können mehrere Read-Dateien (wie SAM, BAM, FastQ und Fasta) und Typen (wie Einzelend, Paarend und Mate-Paar) verarbeiten. Die Qualität der von Velvet zusammengefügten Kontigs hängt hauptsächlich von den eingestellten Parametern ab. Die kritischsten Parameter sind die Hash-Größe, die erwartete Abdeckung und der Abdeckungsgrenzwert. Alternative von Neuem Assembler umfassen Spades, SOAP-denovo, MIRA und ALLPATHS.
Nach all den oben genannten Schritten erhalten Sie Entwurfskontigs, die einige Lücken oder Bereiche mit 'N's enthalten. Und einige davon könnten Fehlassemblierungen sein. Als Nächstes müssen Sie Ihre Assemblierung mithilfe von Werkzeugen zur Überprüfung von Fehlassemblierungen und zur Messung der Assemblierung, wie QUAST, InGAP-SV und Mauve-Assemblierungsmetriken, verbessern.
Wenn Sie Ihr Genom vervollständigen möchten, müssen Sie vielfältigere Daten verwenden oder andere Werkzeuge mit Ihren aktuellen Daten einsetzen. Zu den alternativen Werkzeugen zur Vervollständigung von Genomen gehören halbautomatische Lückenfüller (z. B. Gap Filler), Genomvisualisierer und -editoren (Artemis, IGV, Geneious, CLC BioWorkbench) sowie Annotationswerkzeuge (z. B. Prokka, RAST und JCVI Annotation Service).
Referenzen: