Ein Leitfaden zu De Novo Genomassemblierung

Genomassemblierung ist eines der Hauptziele der Sequenzierung. De novo Die Genomassemblierung ist eine Strategie zur Genomassemblierung, die die Genomassemblierung eines neuartigen Genoms von Grund auf ohne die Hilfe von Referenzgenomdaten darstellt. De novo Genomassemblierungen setzen kein Vorwissen über die Länge, Anordnung oder Zusammensetzung der Quell-DNA-Sequenz voraus.

General steps in a genome assembly workflowAbbildung 1. Allgemeine Schritte in einem Genomassemblierungs-Workflow (Angel) u. a.. 2018).

Lesearten

Um ein Genom mit den Plattformen der nächsten Generation von Sequenzierungen zusammenzustellen, verwenden Computerprogramme typischerweise Einzel- und Paarreads. Diese „Reads“ variieren in der Länge von 20 bis 1000 bp, abhängig von der verwendeten Sequenzierungsplattform. Einzelreads sind die kurzen sequenzierten Fragmente, die anhand überlappender Regionen zu einer kontinuierlichen Sequenz, bekannt als „Contig“, zusammengefügt werden können. Paarreads sind etwa gleich lang wie Einzelreads, stammen jedoch von beiden Enden der DNA-Fragmente. Im Vergleich zu Einzelreads werden Paarreads bevorzugt, da sie helfen, Contigs zu „Gerüsten“ zu verknüpfen und die Größe von repetitiven Regionen anzuzeigen.

Dennoch begrenzen sich die Effizienz und Genauigkeit der Genomassemblierung manchmal durch repetitive Sequenzen, Varianten, fehlende Daten und Fehler. Technologien mit langen Reads kommen genau zur richtigen Zeit auf, da sie sich über Abschnitte repetitiver Regionen erstrecken und somit eine zusammenhängende Rekonstruktion des Genoms ermöglichen. Derzeit wird diese neue Generation von zwei Methoden dominiert, Einzelmolekül-Echtzeit (SMRT) Sequenzierung und Nanoporen-Sequenzierung, unterstützt von Pacific Biosciences (PacBio) und Oxford Nanopore Technologies. SMARTdenovo ist eine OLC-Assembly-Pipeline für lange Reads, die gezeigt hat, dass sie Assemblierungen mit einer vernünftigen Kontinuität sowohl aus MinION- als auch aus SMRT-Reads erzeugen kann.

Illumina Genomassemblierung

Wir werden die Illumina-Genomassemblierung als Beispiel verwenden, um den Workflow der Genomassemblierung mit NGS-Daten vorzustellen, da das Illumina-Sequencing eine der häufigsten Methoden für genomische Studien ist.

Flowchart of de novo assembly protocol.Abbildung 2. Flussdiagramm von von Neuem Versammlungsprotokoll.

  • Bewertung der Qualität von Reads

Vor der Genomassemblierung ist es wichtig, die Qualität der Sequenzdaten zu bewerten, da dies zu fehlerhaften Schlussfolgerungen führen kann. Die Reads können in den Formaten Fasta, FastQ, SAM und BAM gespeichert werden. Das FastQ-Format ist die gängigste Read-Datei, da es von der Illumina-Sequenzierungspipeline erzeugt wird. Neben den Read-Typen müssen auch andere Aspekte wie die Anzahl der Reads, der GC-Gehalt und Kontamination berücksichtigt werden.

Die Genauigkeit der Basenaufrufe bewertet die Wahrscheinlichkeit, dass eine gegebene Base falsch aufgerufen wird, und wird häufig durch die Phred-Qualitätswerte (Q-Score) bestimmt. FastQC ist das gängigste Werkzeug zur Qualitätskontrolle von Rohdaten. Die Hauptausgaben von FastQC umfassen die Leselänge, den Typ der Qualitätskodierung, %GC, die Gesamtanzahl der Reads, das Vorhandensein von stark wiederkehrenden k-Mers, das Vorhandensein großer Mengen von N's in Reads und Abfälle in der Qualität zu Beginn, in der Mitte oder am Ende der Reads.

  • Vorverarbeitung von Rohdaten

Sobald die Qualität der Sequenzdaten bestimmt ist, stehen viele Werkzeuge zur Qualitätsbearbeitung in Galaxy oder über die Befehlszeile zur Verfügung, wie z.B. Trimmomatic. Es kann das Pairing von Reads verarbeiten, wenn Sie gepaarte Reads haben. Trimmomatic kann mehrere Funktionen zur Bearbeitung von Reads nacheinander ausführen, einschließlich:

  1. Adapter-Trimmung. Diese Funktion trimmt Adapter, Barcodes und andere Verunreinigungen.
  2. Gleitfenster-Beschneidung. Diese Funktion dient dazu, die durchschnittliche Qualität zu messen und entsprechend zu beschneiden.
  3. Qualitätsbeschnitt der Basen. Diese Funktion schneidet die führenden und nachfolgenden Basen von schlechter Qualität ab.
  4. Mindestleselänge. Diese Funktion stellt sicher, dass die Reads nach allen Trimm-Schritten länger sind als die Mindestleselänge. Andernfalls werden die Reads entfernt.

PRINSEQ ist ein ähnliches Werkzeug zur Qualitätsbearbeitung von Rohdaten.

  • De novo Genomassemblierung

Der nächste Schritt besteht darin, die qualitätsgeprüften Reads zu Entwurfskontigs zusammenzufügen. Die empfohlene Software für diesen Schritt ist der Velvet Optimiser, der den Velvet Assembler umschließt. Der Velvet Assembler ist speziell für Illumina-ähnliche Kurzreads geschrieben und verwendet den de Bruijn-Graph-Ansatz. Velvet Assembler und Velvet Optimiser können mehrere Read-Dateien (wie SAM, BAM, FastQ und Fasta) und Typen (wie Einzelend, Paarend und Mate-Paar) verarbeiten. Die Qualität der von Velvet zusammengefügten Kontigs hängt hauptsächlich von den eingestellten Parametern ab. Die kritischsten Parameter sind die Hash-Größe, die erwartete Abdeckung und der Abdeckungsgrenzwert. Alternative von Neuem Assembler umfassen Spades, SOAP-denovo, MIRA und ALLPATHS.

  • Montagepolitur

Nach all den oben genannten Schritten erhalten Sie Entwurfskontigs, die einige Lücken oder Bereiche mit 'N's enthalten. Und einige davon könnten Fehlassemblierungen sein. Als Nächstes müssen Sie Ihre Assemblierung mithilfe von Werkzeugen zur Überprüfung von Fehlassemblierungen und zur Messung der Assemblierung, wie QUAST, InGAP-SV und Mauve-Assemblierungsmetriken, verbessern.

Wenn Sie Ihr Genom vervollständigen möchten, müssen Sie vielfältigere Daten verwenden oder andere Werkzeuge mit Ihren aktuellen Daten einsetzen. Zu den alternativen Werkzeugen zur Vervollständigung von Genomen gehören halbautomatische Lückenfüller (z. B. Gap Filler), Genomvisualisierer und -editoren (Artemis, IGV, Geneious, CLC BioWorkbench) sowie Annotationswerkzeuge (z. B. Prokka, RAST und JCVI Annotation Service).

Referenzen:

  1. Lannoy C D, Ridder D D, Risse J. Die langen Lesungen voraus: von Neuem Genomassemblierung mit dem MinION. F1000Research, 2017, 6.
  2. Bäcker M. De novo Genomassemblierung: Was jeder Biologe wissen sollte. Nature Methods, 2012, 9: 333-337
  3. Del Angel V D, Hjerde E, Sterck L, u. a.Zehn Schritte, um mit der Genomassemblierung und -annotation zu beginnen. F1000Research, 2018, 7.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
Sprechen Sie mit unseren Wissenschaftlern
Was möchten Sie besprechen?
Mit wem werden wir sprechen?

* ist ein erforderlicher Artikel.

Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben