Genomassemblierung in der Bioinformatik: Definition, Methoden und Fallbeispiel

Genomassemblierung ist ein zentrales Problem der Bioinformatik, das darauf abzielt, gesamte genomische Sequenzen aus kurzen, segmentierten DNA-Reads zu rekonstruieren. Dies bildet die Grundlage biologischer Studien und ermöglicht die Untersuchung der genetischen Architektur, evolutionärer Dynamiken und funktioneller Genomik. Der Prozess der Genomassemblierung wurde durch das Aufkommen von Hochdurchsatz-Sequenzierungstechnologien dramatisch verändert, weg von mühsamen, niederdurchsatz Technologien wie Sanger-Sequenzierung zu neueren Technologien wie Illumina, PacBio und Oxford NanoporeDiese Technologien erzeugen riesige Datenmengen, die rechnerische Algorithmen erfordern, um Genome genau und effizient zu rekonstruieren. In diesem Artikel sprechen wir über die Bedeutung der Genomassemblierung in der Bioinformatik, ihre Prinzipien, rechnerischen Strategien, Herausforderungen und Anwendungen anhand einiger realer Beispiele.

Bioinformatik befasst sich mit Fragen der Genomassemblierung.

Während transformativ, Genomassemblierung hat erhebliche intrinsische Herausforderungen:

  • WiederholungenEukaryotische Genome enthalten große Mengen an repetitiven Elementen, die die Assemblierung erschweren. Diese Regionen sind schwer aufzulösen und können zu fragmentierten und ungenauen Genomassemblierungen führen. Langzeit-Sequenzierung Instrumentierung (z. B. PacBio HiFi und Nanopore) könnte sich als Lösung für dieses Problem erweisen, wenn es darum geht, sich durch sich wiederholende Regionen zu bewegen.
  • HeterozygotieUnterschiede zwischen homologen Chromosomen in diploiden und polyploiden Organismen verwischen die Grenzen der Unterscheidung von Haplotypen und stellen Herausforderungen bei der Assemblierung dar. Neueste Phasierungsalgorithmen und haplotyp-spezifische Assemblierer haben die Phasierung heterozygoter Regionen erheblich verbessert, um komplexere Genome zu rekonstruieren.
  • SequenzierungswörterbuchfehlerWährend PacBio und Oxford Nanopore lange Reads bieten, neigen sie dazu, mehr Fehler zu machen. Zuverlässige Assemblierungen erfordern effektive Fehlerkorrekturmechanismen, wie zum Beispiel Konsenspolierwerkzeuge (zum Beispiel Pilon und Racon).
  • DatenmegalomanieGroße Genome erzeugen eine enorme Menge an Daten, die hohe Rechenressourcen für die Zusammenstellung, Speicherung und Analyse erfordern. Die Bewältigung dieser Anforderungen erfordert effiziente Algorithmen und skalierbare Infrastrukturen, beispielsweise cloudbasierte Zusammenstellungspipelines.

Die Bewältigung dieser Probleme erfordert eine Reihe neuartiger computergestützter Methoden, rigoroser Algorithmen und kontextabhängig optimierter Arbeitsabläufe.

Bioinformatische Methoden in der Genomassemblierung

Genomassemblierungsmethoden rekonstruieren genomische Sequenzen aus Millionen oder Milliarden von kurzen oder langen DNA-Reads.

De Novo Zusammenstellung

De-novo-Assembly rekonstruiert Genome ohne die Verwendung eines Referenzgenoms und verlässt sich ausschließlich auf die Beziehungen, die zwischen den Sequenzierungsreads bestehen. Dieser Ansatz ist entscheidend, um neuartige Organismen zu charakterisieren und einzigartige genomische Merkmale zu ermitteln.

  • De Bruijn-Diagramme (DBG)DBG-basierte Assemblierer (wie SPAdes und Velvet) zerlegen Reads in kleinere Stücke, die als k-Mers bezeichnet werden. Diese werden verwendet, um einen Graphen mit k-Mers als Knoten und Überlappungen als Kanten zu erstellen. Diese Methode ist besonders gut für die Assemblierung von Kurzreads geeignet und stellt eine hervorragende Wahl für sowohl mikrobielle Genome als auch kleine Eukaryoten dar.
  • Überlappungs-Layout-Konsens (OLC)OLC-Algorithmen, mit Implementierungen wie Canu und Flye, finden Überlappungen zwischen langen Reads, erstellen Layouts und generieren Konsenssequenzen. Dieser Ansatz eignet sich besonders gut, um Wiederholungen und strukturell komplexe Regionen von Genomen zu überwinden und liefert deutlich zusammenhängendere Assemblierungen. Derzeit wurden die OLC-Assembler kürzlich aktualisiert, um fehlerresistente Methoden für die rauschbehafteten Lang-Read-Daten hinzuzufügen, was die Anwendbarkeit weiter verbessert.

Anwendung der Bioinformatik in der Genomassemblierung

  • Einzelzell-GenomikDie Einzelzellgenomassemblierung verspricht, genetische Heterogenität auf einem bisher unerreichten Auflösungsniveau zu enthüllen. In der Tumorforschung ist dies besonders relevant, da die Heterogenität von Tumoren entscheidend für ihr Verhalten in Bezug auf Wachstum und Therapieresistenz ist. Auch die Mikrobiomstudien stützen sich stark auf Einzelzellmethoden, um mikrobielle Vielfalt und symbiotische Beziehungen zu untersuchen.
  • Multi-Omics-IntegrationEs gibt einen wachsenden Trend, die Genomassemblierung mit anderen Omik-Daten zu integrieren, wie zum Beispiel Transkriptomik, Proteomik, und EpigenomikDiese integrierte Strategie bietet einen umfassenden Überblick über die Genfunktion, -regulation und -interaktionen und verbindet die statische Natur genomischer Sequenzen mit dynamischen biologischen Prozessen.
  • KI-gesteuerte MontagepipelinesMehrere Gruppen nutzen maschinelles Lernen und künstliche Intelligenz, um die Genomassemblierung zu beeinflussen. Diese Technologien verbessern die Fehlerkorrektur, die Auflösung von Wiederholungen und die Erkennung struktureller Varianten, während sie gleichzeitig den Rechenworkflow vereinfachen. Maschinelles Lernen kann Vorhersagen über optimale Assemblierungsparameter treffen, was zu Leistungsverbesserungen führt und gleichzeitig die erforderliche Rechenmenge reduziert.
  • Open-Access Genomische RessourcenInternationale Bemühungen wie das Earth BioGenome Project zielen darauf ab, die Genome aller eukaryotischen Arten zu sequenzieren und zusammenzustellen. Diese Initiativen demokratisieren genomische Daten – sie ermöglichen Forschern auf der ganzen Welt, die Biodiversität zu untersuchen und dringende ökologische und gesellschaftliche Probleme anzugehen – indem sie Arbeitsabläufe standardisieren und Open-Access-Datenbanken einrichten.
  • BeschreibungPräzisionsmedizin erfordert hochwertige Genomassemblierungen, um seltene genetische Varianten zu identifizieren, die Krankheiten verursachen. Da die Sequenzierungskosten weiterhin sinken und die Assemblierungswerkzeuge sich verbessern, wird die klinische Genomik zur Norm werden und individuelle Einblicke in Diagnose- und Behandlungsstrategien bieten.

Die Bedeutung der Bioinformatik in der Genomassemblierung

Genomassemblierung steht im Zentrum der modernen Genomik, bildet jedoch die Grundlage, um biologisch relevante Informationen aus Sequenzierungsdaten abzurufen. Seine Bedeutung zeigt sich in den umfangreichen Anwendungen und den Lösungen, die es für grundlegende wissenschaftliche Fragen bietet.

Die Genomassemblierung eröffnet unzählige Möglichkeiten für Entdeckung und Innovation:

  • Genidentifikation und Annotation: Genomassemblierung ist grundlegend für die Identifizierung von kodierenden und nicht-kodierenden Regionen, regulatorischen Elementen und strukturellen Merkmalen. Dieses grundlegende Wissen bildet die Basis der funktionellen Genomik und ermöglicht es Wissenschaftlern, die molekularen Grundlagen biologischer Phänomene und Pathologien zu untersuchen. Zusammengestellte Genome dienen auch als Referenzen für die Transkriptom-Kartierung und bieten ein Verständnis für gewebespezifische Genexpression und alternative Spleißmuster.
  • Vergleichende und evolutionäre GenomikWenn Wissenschaftler hochwertige Assemblierungen haben, können sie ihre Genome mit denen anderer Arten vergleichen und Gene finden, die konserviert sind, sowie solche, die einzigartige Anpassungen darstellen. Solche Vergleiche offenbaren evolutionäre Linien und Artbildungsereignisse sowie die genetischen Grundlagen phänotypischer Vielfalt. Da dieser Ansatz auf die vergleichende Analyse von menschlichen und primaten Genomen angewendet wurde, sind Erkenntnisse über wichtige genomische Regionen entstanden, die Merkmale wie kognitive Entwicklung und immunologische Variation steuern.
  • Menschliche GesundheitDie Assemblierungen von menschlichen und Pathogen-Genomen sind entscheidend, um krankheitsassoziierte Mutationen zu charakterisieren, die Evolution von infektiösen Erregern zu verfolgen und Impfstoffe zu entwickeln. Ein Beispiel dafür sind die Genomassemblierungen von SARS-CoV-2, die für die Entwicklung von Diagnostika und Therapeutika zur Bekämpfung von COVID-19 von entscheidender Bedeutung waren. In ähnlicher Weise hängt die Krebsgenomik von der Assemblierung von Tumorgenomen ab, um Treibermutationen und therapeutische Ziele zu entdecken.
  • Agrarische Anwendungen und ZuchtGenomassemblierungen von Nutzpflanzen helfen dabei, Gene für Ertrag, Krankheitsresistenz und Stressresistenz zu identifizieren. Solche Informationen erleichtern die Präzisionszucht und beschleunigen so die Schaffung widerstandsfähiger Sorten, um die Herausforderungen auf globaler Ebene zu bewältigen. Die Genomassemblierung von Reis und Mais hat beispielsweise wichtige Gene aufgedeckt, die mit Dürretoleranz und Schädlingsresistenz verbunden sind, wodurch die landwirtschaftlichen Praktiken insgesamt verbessert werden.
  • UmweltgenomikDie Rekonstruktion mikrobieller Genome aus verschiedenen Umgebungen, um ihre ökologischen Rollen, metabolischen Fähigkeiten und Interaktionen zu verstehen. Dieses Wissen trägt zu unserem Verständnis von Biodiversität und biogeochemischen Kreisläufen bei und kann die Bemühungen um Naturschutz und Umweltverträglichkeit unterstützen. Ein bemerkenswertes Beispiel ist die Rekonstruktion von metagenomisch assemblierten Genomen (MAGs) aus marinen Lebensräumen, die neuartige Aspekte der mikrobiellen Vermittlung des Kohlenstoffkreislaufs und der Stickstofffixierung offenbart haben.

Significant TGS analysis software development.Meilensteine in der Entwicklung von TGS-Analyse-Software (Wee, Y. et al. 2019).

Fallstudie: Weizengenom-Assemblierung

Hintergrund

Mit einer Größe von etwa 17 Gb ist das Weizengenom das komplexeste aller genetisch bedeutenden Pflanzen und zeigt Hexaploidie - es enthält drei homologe Subgenome. Die Assemblierung war besonders schwierig aufgrund von repetitiven Regionen und hoher Heterozygotie. Die Verbesserung von Pflanzen für Resilienz unter dem Klimawandel und Drohnen oder für höhere Produktivität unter dem Klimawandel ist unerlässlich, und daher ist das Verständnis des Genoms von Weizen entscheidend für die Erreichung der globalen Ernährungssicherheit.

Methoden

  • SequenzierungstechnologienIn den beiden neuesten Projekten wurde ein hybrider Sequenzierungsansatz angewendet, der kurze Reads (Illumina) und lange Reads (PacBio, Oxford Nanopore) kombiniert, um sowohl Genauigkeit als auch Kontinuität zu gewährleisten. Der Scaffold-Bau wurde anschließend durch optische Kartierung und Hi-C-Daten weiter verfeinert.
  • MontagewerkzeugeCanu (Langzeitlesungen), SPAdes (Kurzlesungen) und MaSuRCA (hybride Datensätze) basierte Hi-C-Assemblierungswerkzeuge wurden für das Scaffolding und das Schließen von Lücken verwendet.
  • ValidierungDie Versammlungsqualität aller Genome wurde anhand von Metriken wie BUSCO-Vollständigkeitsscores und QUAST-Kontiguitätsstatistiken bewertet, während vergleichende Analysen mit anderen eng verwandten Arten sowohl die strukturelle als auch die funktionale Genauigkeit validierten.

Ergebnisse

Die endgültige Assemblierung erreichte ein Scaffold N50 von >10 Mb und löste erfolgreich komplexe repetitive Regionen und strukturelle Varianten auf. Die Identifizierung von Schlüsselengenen, die mit Krankheitsresistenz (Rost) und Toleranz gegenüber abiotischem Stress in Zusammenhang stehen. Diese Erkenntnisse wurden von markerunterstützten Selektionsprogrammen genutzt, um den Zuchtprozess zu beschleunigen.

The chromosome-scale assembly characteristics.Merkmale der Chromosomen-skaligen Assemblierung (Grewal, S. et al. 2024).

Fazit

Genomassemblierung ist eine zentrale Aufgabe der Bioinformatik, die das grundlegende Studium des genetischen Bauplans des Lebens ermöglicht. Durch die Unterstützung grundlegender Entdeckungen in der Evolution und Ökologie sowie durch die Ermöglichung medizinischer und landwirtschaftlicher Durchbrüche hat die Genomassemblierung unsere Fähigkeit revolutioniert, komplexe Genome zu entschlüsseln und zu verstehen. Paare mit relativ langen Reads, die es ermöglichen, längere Überlappungen zu konstruieren, kleine Genome mit relativ kurzen Reads und leistungsfähigere Assemblierungsalgorithmen haben dazu geführt, dass sich die Landschaft der Genomassemblierung in den letzten Jahren bemerkenswert weiterentwickelt hat.

Diese Erweiterungen der Möglichkeiten der Genomassemblierung, die durch die jüngsten Fortschritte in der Ultra-Lang-Read-Sequenzierung, der Einzelzellgenomik und KI-basierten Methoden ermöglicht wurden, werden weiterhin Innovationen in diesem Bereich vorantreiben. Diese Verbesserungen werden nicht nur die Genauigkeit und Geschwindigkeit der Assemblierungen erhöhen, sondern auch neue Wege zur Erforschung biologischer Vielfalt, Komplexität und Funktion eröffnen. Die Genomassemblierung wird weiterhin an der Spitze der wissenschaftlichen Forschung stehen, während sich dieses Feld entwickelt und reift, und den Weg für revolutionäre Maßnahmen in allen Bereichen und die Zukunft der Genomik ebnen.

Referenzen:

  1. Wee, Y., Bhyan, S. B., Liu, Y., u.a. (2019). Die bioinformatischen Werkzeuge für die Genomassemblierung und -analyse basierend auf der Sequenzierung der dritten Generation. Briefings in funktioneller Genomik, 18(1), 1–12. Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Bitte geben Sie den Text ein, den Sie übersetzt haben möchten.
  2. Grewal, S., Yang, C. Y., Scholefield, D., et al. (2024). Chromosomengroße Genomassemblierung des wilden Verwandten des Brotweizens Triticum timopheevii. Wissenschaftliche Daten, 11(1), 420. https://doi.org/10.1038/s41597-024-03260-w
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben