De Novo Genomassemblierung: Wie man sie durchführt und wie man sie anwendet

De-novo-AssemblyIm Gegensatz zur referenzgesteuerten Assemblierung, die darauf angewiesen ist, Sequenzierungsreads an ein bestehendes Genom auszurichten, ist die de novo Assemblierung unabhängiger und daher nicht durch Referenzverzerrungen eingeschränkt. Sie ist besonders wichtig für Nicht-Modellorganismen, große und komplexe Genome oder zur Erkennung neuartiger Sequenzen oder struktureller Variationen. Trotz ihres transformativen Potenzials stellt die de novo Genomassemblierung eine technisch komplexe Herausforderung dar und erfordert eine hohe Sequenzierungstiefe sowie erhebliche Rechenressourcen und fortschrittliche Algorithmen, um qualitativ hochwertige Ergebnisse zu liefern. Dieser Ansatz ist weit verbreitet anwendbar und hat Auswirkungen auf Bereiche wie Biodiversitätswissenschaft, Evolutionsbiologie und präzisionsmedizinische Ansätze, wodurch er sich als essentielles Werkzeug der zeitgenössischen Genomik etabliert. Die de novo Genomassemblierung bietet einzigartige Flexibilität und ermöglicht das Studium von Organismen, für die keine Genominformationen vorliegen. Dieser komplexe Prozess erfordert anspruchsvolle Berechnungen und umfangreiche Ressourcen.

Schlüsselkonzepte und Herausforderungen

  • Wiederholende SequenzenWiederholungen, die einen großen Teil vieler Genome ausmachen, gehören zu den größten Herausforderungen bei der Genomassemblierung. Chimären entstehen aus mehreren Reads, die mehrere Homologiebereiche überspannen, die häufig einer Vorverarbeitung wie dem Trimmen unterzogen werden, was zu Mehrdeutigkeiten bei der Platzierung der Reads und letztendlich zu Assemblierungsfehlern und -lücken führt. Zum Beispiel können transponierbare Elemente fragmentierte Assemblierungen in eukaryotischen Genomen verursachen. Technologien, die in der Lage sind, Langreads zu sequenzieren, werden entscheidend sein, um diese Herausforderung zu bewältigen, da sie diese Bereiche überqueren können. Computergestützte Werkzeuge, die repetitive Sequenzen erkennen und maskieren, können ebenfalls die Genauigkeit der Assemblierung verbessern. Werkzeuge wie RepeatMasker werden häufig verwendet, um repetitive Regionen zu identifizieren, und Anwendungen wie Tandem Repeat Finder unterstützen die Annotation solcher Sequenzen.
  • Heterozygotie und PolyploidieViele Arten sind hoch heterozygot oder polyploid, was es schwierig macht, die vorhandenen Allele zu unterscheiden und zu konstruieren. Die Komplexität ist besonders ausgeprägt bei Pflanzen, wo Polyploidie weit verbreitet ist. Um diese genomischen Merkmale zu lösen, werden komplexe Algorithmen eingesetzt, die Allele oder homologe Sequenzen auflösen können, ohne ihre Einzigartigkeit zu verlieren. Assemblierer wie HiCanu sind darauf ausgelegt, solche Komplexitäten zu bewältigen, indem sie Langzeitdaten verwenden, um Haplotypinformationen zu entwirren.
  • SequenzierungsfehlerVerschiedene Sequenzierungstechnologien haben unterschiedliche Fehlerprofile. Langlesetechnologien wie PacBio und Oxford Nanopore neigen beispielsweise dazu, höhere Fehlerraten als Kurzleseplattformen zu erzeugen. Diese Fehler können zu falschen Assemblierungen oder Aufrufen führen. Fehlerkorrekturwerkzeuge zur Verfeinerung von Kurzleseassemblierungen oder Langlesedatensätzen sind entscheidend für die Erzielung hochwertiger Assemblierungen. Darüber hinaus nutzen hybride Assemblierungsstrategien die Vorteile sowohl von Kurz- als auch von Langlesungen, um die oben genannten Probleme zu mildern.
  • Daten und AlgorithmenDie De-novo-Genomassemblierung umfasst die Verarbeitung großer Datenmengen und die Ausführung sehr komplexer Algorithmen. Um diese Einschränkungen zu überwinden, werden Hochleistungsrechenressourcen wie die Ausführung parallelisierter Workflows und sogar die Nutzung von Cloud-Computing-Plattformen immer häufiger eingesetzt. Der Speicher- und Algorithmusverbrauch bleibt ein aktives Forschungsfeld. Ein Ansatz besteht darin, die Berechnungen zu minimieren und gleichzeitig die Qualität der Assemblierung aufrechtzuerhalten, und mehrere Assemblierer veranschaulichen diese Strategie.

Assembling a haploid or homozygous genome.Strategie für die nahezu Telomer-zu-Telomer-Assemblierung (Li H, Durbin R., 2024).

Technologien und Methoden

Sequenzierungsplattformen

Langzeit-Leseplattformen, z.B. PacBio und Oxford Nanopore, erzeugen Lesevorgänge, die sich über Zehntausende bis Hunderttausende von Kilobasen erstrecken und die Auflösung von repetitiven Elementen und großen strukturellen Variationen ermöglichen. Solche Technologien sind entscheidend für komplexe oder polyploide Genome. Dennoch verringern kontinuierliche Fortschritte in der Chemie und den Algorithmen zur Basenerkennung die Lücke in der Genauigkeit, trotz höherer Fehlerraten. PacBio HiFi-Lesevorgänge beispielsweise kombinieren mittlerweile hohe Leselängen und hohe Genauigkeit und sind bei vielen Assemblierungen beliebt.

Assemblierungsalgorithmen

  • Überlappungs-Layout-Konsens (OLC)Speziell für Langlesedaten entwickelt und funktioniert hervorragend damit. Es findet Überlappungen zwischen den Reads, erstellt einen Layout-Graphen und leitet Konsenssequenzen ab. Die Assemblierung großer Genome mithilfe von Overlap-Layout-Consensus (OLC) wurde durch Werkzeuge wie Canu und FALCON eingeführt. Die OLC-Genotypisierung ist für komplexe genomische Regionen genauer als GFA.
  • De Bruijn-Grafen (DBG)DBG-Methoden bieten eine hohe Recheneffizienz und funktionieren am besten mit Datensätzen, die aus kurzen Sequenzierungsreads generiert wurden. DBG-Ansätze tokenisieren Reads in k-Mers und bauen einen Graphen auf, in dem Pfade genomische Sequenzen darstellen. Allerdings können sich wiederholte Regionen zu komplizierten Graphstrukturen entwickeln, die spezialisierte Algorithmen zur Auflösung erfordern. Zu den gängigen DBG-basierten Assemblierern für kleine bis mittelgroße Genome gehören Velvet und SOAP denovo.
  • Moderne hybride MontagesystemeDurch die Kombination der Vorteile von OLC und DBG heben hybride Assemblierer die Assemblierungs-Workflows auf die nächste Stufe, indem sie sowohl Kurz- als auch Langlesedatensätze nutzen. Eine solche Strategie bietet hohe Kontinuität, Vollständigkeit und Genauigkeit, selbst bei schwierigen Genomen. Hybride Assemblierungstechniken, wie sie von SPAdes und Flye verwendet werden, können besonders leistungsstark sein, insbesondere im Fall von Genomen mit hohem Wiederholungsgehalt oder komplexen strukturellen Variationen.

Overlap graph assembly.Zusammenstellung mit Überlappungsgraphen (Li H, Durbin R. et al, 2024).

De Novo Genomassemblierung Schritte

Das de novo Genom-Assemblierungsverfahren besteht aus einer Reihe miteinander verbundener Phasen, wobei jeder Schritt einen wichtigen Beitrag zur Erzeugung eines qualitativ hochwertigen Endassemblies leistet. Jeder dieser Phasen muss Aufmerksamkeit geschenkt werden, von der Datenvorbereitung über die Validierung, um glaubwürdige und genaue Ergebnisse zu erzielen.

Datenvorbereitung

Bei weitem am wichtigsten ist die Qualität der für die Assemblierung verwendeten Daten — ohne hochwertige Daten ist jedes Assemblierungsprojekt zum Scheitern verurteilt. Die Vorverarbeitungsschritte umfassen:

  • Qualitätskontrolle, Filtern und Trimmen Rohsequenzierungsdaten werden auf Qualität überprüft, indem Tools wie FastQC verwendet werden, und es werden niedrigqualitative Reads, Adapter und Kontaminanten identifiziert. Trimmer wie Trimmomatic und Cutadapt schneiden unerwünschte Teile ab, um sicherzustellen, dass nur hochqualitative Reads für die Assemblierung verwendet werden. Dieser Schritt ist entscheidend, um niedrigkomplexe Regionen zu entfernen, die dazu neigen, Staub in der Assemblierung zu erzeugen.

Montagebau

Die Genomassemblierung ist ein iterativer Prozess:

  • Contig-GenerierungDie kurzen Reads werden zu Contigs zusammengefügt, die die längsten zusammenhängenden Sequenzen oder Abschnitte sind, die ohne Lücken erzeugt werden können. Um die höchstmögliche Genauigkeit und Kontinuität zu erreichen, können spezialisierte Werkzeuge wie Canu (für lange Reads) und Velvet (für kurze Reads) verwendet werden, die für diesen Zweck eingesetzt werden.
  • GerüstbauContigs werden basierend auf Paired-End- oder Long-Read-Daten zu Scaffolds verbunden. Scaffolding fügt räumliche Informationen hinzu, die die Contigs korrekt anordnen und orientieren. SSPACE und BESST werden häufig eingesetzt, um die strukturelle Genauigkeit der Assemblierung zu verbessern.
  • Lücken schließenLücken in Gerüsten werden mit zusätzlichen Sequenzierungsdaten oder computergestützten Algorithmen wie GapCloser gefüllt, um die Kontinuität zu verbessern. Die Segmentierung mit genauen Lückenfüllungen gewährleistet eine tiefere Vollständigkeit, die weniger häufige Sequenzen enthält.

Assemblierungsvalidierung

Die Validierung der Montage gewährleistet Vollständigkeit und Richtigkeit:

  • MetrikenN50 zur Bewertung der Kontinuität der Assemblierung und BUSCO zur Beurteilung der Vollständigkeit anhand konservierter Sätze von Einzelkopie-Orthologen. Diese Metriken dienen als quantitative Indikatoren der Assemblierungsqualität und helfen, den Assemblierungsprozess weiter zu verfeinern.
  • ValidierungswerkzeugeQUAST erstellt detaillierte Qualitätsbewertungen, die Fehlassemblierungen und Verbesserungsmöglichkeiten aufzeigen. Mit dem REAPR-Tool werden strukturelle Inkonsistenzen erkannt, die eine Verfeinerung erfordern, um eine zuverlässigere Assemblierung zu erzielen.

Zukünftige Richtungen und Anwendungen

Die de novo Genomassemblierung hat eine Vielzahl von Anwendungen, von der Grundlagenforschung bis hin zu angewandten Wissenschaften, und zukünftige Entwicklungen werden ihr Potenzial weiter vorantreiben.

Anwendungen

  • Nicht-ModellorganismenLiefern Sie genomischen Kontext für Arten ohne Referenzgenome über de-novo-Assemblierungen. Diese Werkzeuge sind von unschätzbarem Wert für das Studium der Biodiversität, die Entdeckung neuer Gene und die Untersuchung evolutionärer Anpassungen. Zum Beispiel haben wir durch die Rekonstruktion des Genoms extremophiler Organismen Wege entdeckt, die einzigartig für diese Organismen sind und es ihnen ermöglichen, unter extremen Bedingungen zu überleben.
  • NaturschutzbiologieGenomassemblierungen unterstützen den Naturschutz, indem sie genetische Vielfalt, Populationsstruktur und Inzuchtgrade bei gefährdeten Arten aufzeigen. Diese Informationen sind entscheidend für ein gutes Management und Zuchtprogramme. Seine Studie über Artenzusammensetzungen, wie den Riesenpanda, hat wichtige Perspektiven hinsichtlich ihrer evolutionären Geschichte und Anpassungsprozesse geboten.
  • MedizinNeue Virulenzfaktoren, Mechanismen der Arzneimittelresistenz und andere evolutionäre sowie epidemiologische Entdeckungen werden durch die de novo Assemblierungen von Krankheitserregern ermöglicht. Die Sequenzierung von SARS-CoV-2 war beispielsweise entscheidend für die Entwicklung von Impfstoffen und die Verfolgung von Ausbrüchen. De novo Assemblierungen individueller Genome kommen auch der personalisierten Medizin zugute, indem sie einzigartige strukturelle Variationen und Mutationen aufdecken.

Zukünftige Richtungen

Es gibt jedoch Computeralgorithmen, die nur mit Langlesedaten arbeiten können, und diese Datensätze werden notwendig sein, da sie es uns ermöglichen, komplexe Regionen im Genom zu entschlüsseln, wie zum Beispiel die Zentromere und Telomere. Diese Verbesserungen werden wahrscheinlich die Definition der Vollständigkeit von Assemblierungen aktualisieren.

Maschinelles Lernen: Die Hinzufügung von maschinellen Lernalgorithmen in Montagepipelines bietet Korrekturen für Fehler und führt auch zu mehr Wiederholungsvariationen und strukturellen Varianten, was zu höherer Genauigkeit und Effizienz führt. KI-gestützte Werkzeuge beschleunigen zudem die Erstellung von adaptiven Algorithmen, die auf bestimmte genomische Aufgaben zugeschnitten sind. Für ein tieferes Verständnis von maschinellen Lernalgorithmen verweisen wir auf unseren Artikel "Genom-Indexierung in der Bioinformatik: Das Genom entschlüsseln".

  • Genomik auf EinzelzellauflösungGenotypisierung zu haplotypaufgelösten Assemblies: Die Einzelzell-Sequenzierung hat das Potenzial, die notwendige Auflösung zu bieten, um haplotypaufgelöste Assemblies zu identifizieren, und kann den Weg zum Verständnis genetischer Heterogenität und evolutionärer Prozesse in Populationen ebnen. Dies ist insbesondere in der Krebsforschung von Bedeutung, da bekannt ist, dass die Heterogenität innerhalb von Tumoren eine große Rolle in der Krankheitsentwicklung spielt.
  • Standardisierung und AustauschDie Einführung standardisierter Arbeitsabläufe und von Open-Access-Datenbanken wird die Reproduzierbarkeit verbessern und die Zusammenarbeit fördern, wodurch die Beiträge der zusammengestellten Genome maximiert werden. Das Earth BioGenome Project und ähnliche Initiativen hoffen, eine vollständige, kuratierte Referenzbibliothek für die Genome aller bekannten eukaryotischen Arten zu schaffen, die an einem Ort ähnliche Sequenzen enthält, die für das Studium dieser Vielfalt und ihrer Beziehung zu einem bestimmten Lebensraum oder Nische erforderlich sind.

Fallstudie: Die Genomassemblierung des Riesenpandas

Hintergrund

Der Riesenpanda, eine ikonische Art, steht aufgrund seines gefährdeten Status und seiner ökologischen Bedeutung im Mittelpunkt von Naturschutzbemühungen. Das Verständnis seiner genetischen Zusammensetzung ist entscheidend für die Entwicklung effektiver Erhaltungsstrategien, die Bewertung der genetischen Vielfalt und das Studium seiner einzigartigen Anpassungen, wie einer bambusdominierten Ernährung. Das Genom des Riesenpandas stellte jedoch aufgrund seines hohen Wiederholungsgehalts und der geringen genetischen Variabilität einzigartige Herausforderungen dar. Hier ist das Plädoyer für die Anwendung von De-novo-Genomassemblierung in der Genomassemblierung des Riesenpandas.

Methoden

Um eine hochwertige Assemblierung des Genoms des Riesenpandas zu erreichen, verwendeten die Forscher die folgenden Schritte:

  • Sequenzierungstechnologien: Es wurde ein hybrider Sequenzierungsansatz verwendet. Die Kurzlesesequenzierung mit Illumina lieferte hochgenaue Reads, während die Langlesesequenzierung von PacBio sich wiederholende Regionen auflöste und die Assemblierung komplexer genomischer Strukturen ermöglichte.
  • Assemblierungsalgorithmen: Die De-novo-Assemblierung wurde mit dem SOAPdenovo-Assembler durchgeführt, der für große Genome mit hohem Wiederholungsgehalt optimiert ist. Zusätzliche Scaffold-Tools, einschließlich SSPACE, verbesserten die Kontinuität und Genauigkeit der Assemblierung. RepeatMasker wurde verwendet, um repetitive Elemente zu annotieren und zu maskieren, während Pilon die Assemblierung verfeinerte, um Basisfehler zu korrigieren.
  • Validierung und Annotation: Die Qualität der Assemblierung wurde anhand von Metriken wie N50 und BUSCO-Werten bewertet. Genvorhersage-Tools, einschließlich AUGUSTUS und MAKER, wurden angewendet, um kodierende Sequenzen und regulatorische Elemente zu annotieren. Vergleichende genomische Analysen mit verwandten Arten validierten die Assemblierung weiter.

Genome landscape of giant pandaCharakterisierung der Genomlandschaft des Riesenpandas (Fan, H. et al., 2019).

Ergebnisse

Die de novo-Assemblierung des Genoms des Riesenpandas erreichte ein Contig N50 von etwa 200 kb und ein Scaffold N50 von über 1 Mb, was ein hohes Maß an Kontinuität und Vollständigkeit darstellt. Zu den wichtigsten Ergebnissen gehörten:

  • Identifizierung von Genen, die mit der Bambusverdauung in Verbindung stehen, wie zum Beispiel diejenigen, die am Abbau von Cellulose beteiligt sind.
  • Einblicke in die genetischen Grundlagen seiner niedrigen Fortpflanzungsrate und Anpassungen des Immunsystems.
  • Hochauflösende Kartierung der genetischen Vielfalt innerhalb von Wild- und Gefangenschaftspopulationen zur Unterstützung von Naturschutzprogrammen.

Fazit

Die De-novo-Genomassemblierung ist ein zentraler Bestandteil der modernen Genomik und ermöglicht weiterhin Untersuchungen der genetischen Architektur über eine Vielzahl von Organismen hinweg. Diese Technologie hat Bereiche von der Evolutionsbiologie bis zur Präzisionsmedizin transformiert und Herausforderungen wie sich wiederholende Sequenzen, Heterozygotie und Rechenlast angegangen. Die De-novo-Assemblierung erweitert weiterhin ihren Horizont durch technologische und rechnerische Verbesserungen. Doch während wir uns in Richtung einer zunehmend verbreiteten Genomik bewegen, wird das Wissen, das aus der De-novo-Genomassemblierung gewonnen wurde, grundlegend sein, um viele der Herausforderungen zu lösen, vor denen die Welt heute steht, und unser Verständnis des Lebens selbst zu erweitern.

Referenzen:

  1. Li, H., & Durbin, R. (2024). Genomassemblierung im Zeitalter von Telomer zu Telomer. Naturwissenschaftliche Rezensionen. Genetik, 25(9), 658–670. Es tut mir leid, aber ich kann keine Inhalte von externen Links oder spezifischen Artikeln übersetzen. Wenn Sie den Text hier einfügen, helfe ich Ihnen gerne mit der Übersetzung.
  2. Fan, H., Wu, Q., Wei, F., Yang, F., Ng, B. L., & Hu, Y. (2019). Chromosomenebene Genomassemblierung für den Riesenpanda liefert neuartige Einblicke in die Chromosomenentwicklung der Carnivora. Genombiologie, 20(1), 267. Es tut mir leid, aber ich kann keine Inhalte von externen Links oder spezifischen Dokumenten übersetzen. Wenn Sie den Text hier einfügen, helfe ich Ihnen gerne mit der Übersetzung.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben