Genomassemblierungsschritte: Von Reads zum vollständigen Genom

Da Sequenzierungstechnologien DNA-Sequenzen in Stücken erzeugen, Genomassemblierung Der Prozess der Rekonstruktion eines vollständigen Genoms aus kleineren Sequenzen. Dies ist prinzipiell ein einfaches Problem, aber eines, das entscheidend ist, um genetische Informationen von den primitivsten mikrobiellen Genomen bis hin zu sehr komplexen Pflanzen- und Tiergenomen wiederherzustellen. Moderne Assemblierungs-Workflows basieren auf der Annahme, dass sie mit hochpräzisen Datensätzen arbeiten müssen, um z. B. mit repetitiven Sequenzen, Sequenzierungsfehlern oder Variabilität im Genom umzugehen.

Gesamter Prozess der Genomassemblierungsschritte

Dies ist ein iterativer Prozess, bei dem die Schritte auf dem Weg zu einem verbesserten Genom in Bezug auf Qualität und Genauigkeit führen. Sie bestehen aus Datenvorverarbeitung, Assemblierung, Scaffold-Erstellung, Politur und Validierung. Es ist nicht trivial, das Genom aus diesen Fragmenten zu rekonstruieren, aufgrund von Faktoren wie unterschiedlicher Expression, Fehlern und repetitiven Elementen - all dies ist in den genomischen Daten häufig, und daher garantieren die oben genannten Prozesse, dass das Genom, das wir konstruieren, korrekt und vollständig ist. Die Phasen zeigen einen signifikanten Aspekt der Kontiguität von nicht zusammenhängenden Assemblierungen zu einem einzigen biologisch sinnvollen Genom.

Datenvorverarbeitung

Vor der detaillierten Analyse muss die Rohsequenzierungsdatenaufbereitung erfolgen für GenomassemblierungDieser Schritt entfernt niedrigqualitative Reads, Kontaminanten und Sequenzierungsartefakte, um die Genauigkeit der Assemblierung zu gewährleisten. Es wird empfohlen, Ihre Daten ordnungsgemäß vorzubereiten, da Sie sonst auf Fehler oder Verzerrungen stoßen könnten, die sich durch die gesamte Assemblierungs-Pipeline ziehen und die endgültigen Ergebnisse erheblich beeinflussen können.

QC QualitätskontrolleQCDie Qualitätskontrolle erfolgt mithilfe von FastQC auf den Sequenzierungsdaten. Zu den Ergebnissen gehören Adapterkontamination, Verzerrungen in der Basenzusammensetzung und Bereiche mit niedriger Qualität. Die FastQC-Berichte liefern die Details, die es ermöglichen, iterative Datenbereinigungsmaßnahmen anzuwenden, um hochwertige Reads für die Assemblierung zu erhalten. FastQC bietet grafische Zusammenfassungen Ihrer Daten, die Ihnen auf einen Blick zeigen, ob es ein Problem mit Ihren Daten gibt.

Reinigung und VorfilterungDie Verwendung von Werkzeugen (Trimmomatic oder Cutadapt), um Reads zu bereinigen, indem Adapter, niedrigqualitative Basen und zu kurze Reads entfernt werden. Wenn Sie Kontaminationen durch den Adapter haben, würde dies keine genaue Rekonstruktion der Contigs ermöglichen, und niedrigqualitative Basen könnten sogar zu Fehlern bei der Assemblierung führen. Aber im Nachhinein ist genau dort, wo kürzlich getrimmte, hochwertige Daten einen ausgezeichneten Ausgangspunkt für eine präzise Assemblierung bieten. Darüber hinaus enthalten diese Werkzeuge eine Option zur Definition von Trimmgrenzen, die es Forschern ermöglicht, die Trimmfunktionen auf eine Weise zu nutzen, die der Spezifität ihrer Preprocessing-Pipelines entspricht.

Fehlerkorrektur Langzeit-Sequenzierung Plattformen (PacBio, Nanopore) erzeugen in der Regel größere fehlerhafte Reads aufgrund von Einschränkungen der zugrunde liegenden Sequenzierungstechnologie. Werkzeuge zur Korrektur von Read-Fehlern (z. B. Racon und Canu) korrigieren die Reads durch lange Selbstanpassung (die Reads passen sich gegenseitig an) oder durch die Anpassung der Reads an hochwertige kurze Reads, was die Read-Qualität für die Assemblierung erheblich verbessert. Am kritischsten ist dieser Prozess bei Organismen mit größeren Genomen, da unkorrektierte Fehler in langen Reads zu groben Fehlern führen, die die Reads während der Zuordnung mehrfach verzerren.

Versammlung

Während der Assemblierungsphase werden Reads zu längeren zusammenhängenden Sequenzen oder Contigs zusammengesetzt. Dies ist der entscheidendste Schritt in der Genomassemblierung und erfordert Algorithmen, die in der Lage sind, mit diesem komplizierten Datensatz umzugehen und gleichzeitig die strukturelle Integrität des Genoms zu bewahren. Die Wahl der Assemblierungsstrategie ist eine der entscheidenden Entscheidungen in jeder Genomassemblierungs-Pipeline, da sie von der Sequenzierungsplattform, der Genomgröße und den Zielen des Projekts abhängt.

De Novo Assembly (Referenzfrei)Bauen Sie Genome von Grund auf ohne Referenz. De-novo-Assembly ist erforderlich für neuartige Organismen oder Organismen, die ausreichend von den verfügbaren Referenzgenomen entfernt sind. Einige Beispiele sind SPAdes (für kurze Reads) und Flye (für lange Reads) für de novo Assemblierung. Diese ermöglichen die Rekonstruktion von zusammenhängenden Sequenzen mithilfe graphbasierter Algorithmen, um Fallstricke von repetitiven Regionen und Sequenzierungsfehlern zu vermeiden. De-novo-Assembly ist oft die bevorzugte Methode zur Charakterisierung der mikrobiellen Vielfalt oder zur Entdeckung neuer Arten.

WerkzeuggestütztDas vorhandene Referenzgenom bietet ein Gerüst. Die Referenz unterstützt die Assemblierung basierend auf: Reads, die auf die Referenz abgebildet sind. Dieses Schema ist rechnerisch weniger anspruchsvoll und präzise für eng verwandte Arten. Die Daten werden dann mit Werkzeugen wie BWA und Bowtie2 für die Ausrichtung verarbeitet, gefolgt von SAMtools zur Bereinigung vor der Assemblierung. Studien, die auf Resequenzierung ausgerichtet sind, können eine referenzgestützte Assemblierung verwenden, um schnell Unterschiede im Vergleich zu einer Referenz zu bestimmen. Obwohl dies ein relativ schneller Ansatz ist und einen guten Kompromiss zwischen Geschwindigkeit und Genauigkeit bietet, kann es Schwierigkeiten haben, mit neuartigen Sequenzen umzugehen, die in der Referenz nicht gefunden werden.

Hybride MontageDie Kurz- und Langlesungen können kombiniert werden, um die Genauigkeit der Kurzlesungen und die strukturelle Auflösung der Langlesungen zu erhalten. Wir möchten speziell Programme wie MaSuRCA und Unicycler erwähnen, die für die hybride Assemblierung verwendet werden und eine bessere Assemblierung komplexer Regionen von Genomen bieten. Die hybride Assemblierung basiert auf Daten von mehreren Plattformen, um hochkontinuierliche Assemblierungen zu erzeugen, die der Organisation des Genoms entsprechen. Dies ist besonders wertvoll, um auch Wiederholungen und strukturelle Varianten zu lösen, die mit einem einzelnen Datentyp schwer zu assemblieren sind.

Gerüstbau und wechselndes Lückenschließen

Scaffolding verbindet Contigs zu größeren Strukturen unter Verwendung zusätzlicher Informationen, z. B. Mate-Paar-Lesungen, langen Lesungen oder Hi-C-Daten. Dies ist ein entscheidender Schritt bei der Zusammenstellung chromosomaler Anordnungen und größerer Genome. Scaffolding-Designs berücksichtigen das Zusammenfügen der Assemblierungen, indem sie innerhalb der Nachbarkontigs nach Informationen suchen, was schrittweise die Genomdarstellung aufbaut. Eine ordnungsgemäße Scaffolding ist notwendig für biologisch sinnvolle Assemblierungen, die die Genomarchitektur widerspiegeln.

GerüstbauwerkzeugeGerüstwerkzeuge sind beispielsweise LINKS und SSPACE, die Contigs mithilfe von Informationen aus Paar-End- und Mate-Pair-Reads anordnen und orientieren. Hi-C-abgeleitete Methoden wie 3D-DNA erzeugen Gerüste auf Chromosomenebene, abhängig von der Fähigkeit, räumliche Interaktionen zwischen genomischen Loci zu erfassen. Diese Methoden haben die Assemblierung großer Genome revolutioniert und es Forschern ermöglicht, Assemblierungen zu erstellen, die gesamte Chromosomen abdecken. Kürzlich wurden auf maschinellem Lernen basierende Gerüstalgorithmen entwickelt, um die Platzierung und Orientierung von Contigs zu verbessern.

AnalysetoolsHardware und Software Bioinformatik-Tools wurde verwendet, um zu bewerten, ob Contigs korrekt assembliert wurden. Diese Werkzeuge sind in der Lage, die Vollständigkeit der Assemblierung zu erhöhen, indem sie zusätzliche Sequenzierungsdaten nutzen, um die Sequenzlücken zu füllen und ihre Nützlichkeit weiter zu erweitern. Zum Beispiel verwendet der Algorithmus PBJelly lange Reads, um die Lücken zu füllen, indem er sich wiederholende oder strukturell komplexe Regionen korrekt in die Assemblierung einfügt. Im Kern des Assemblierungsprozesses ist das Füllen von Lücken wichtig, um hochwertige Genome für genomische Analysen zu produzieren, die auf hoher Auflösung basieren.

Polieren

Das Polieren sorgt für eine hohe Basisgenauigkeit des zusammengesetzten Genoms. Diese Phase spielt eine viel prominentere Rolle bei Assemblierungen, die von Long-Read-Plattformen mit relativ hohen Rohfehlern erzeugt werden, als bei anderen Plattformen. Die Verfeinerung von Basenaufrufen und die Korrektur verbleibender Fehler während dieses Polierschrittes können die Nutzbarkeit von Genomen und deren anschließende Anwendungen, z.B. für Genvorhersagen und Variantenaufrufe, erheblich verbessern.

PolierwerkzeugeNanopolish und Medaka für Oxford Nanopore-Daten, Arrow und Racon für PacBio-Assemblierungen. Anomalien werden mit Hilfe von Werkzeugen zur Behebung von Restfehlern behoben, und die Ausrichtungs Kriterien erhöhen die Übereinstimmung, indem sie die Reads zurück zur Assemblierung neu ausrichten und auf Unterschiede überprüfen. Polieralgorithmen entwickeln sich zu ausgefeilteren Varianten, die Modelle verwenden, die in der Lage sind, kleinere Fehler zu erfassen, die bei der Standardkorrektur normalerweise übersehen werden.

Iterative PoliturFür sehr große oder fehleranfällige Datensätze kann es erforderlich sein, mehrere Runden der Politur durchzuführen, um ein hoch vollständiges Genom zu erhalten. Dies ermöglicht eine iterative Politur, die alle bis auf die subtilsten Fehler korrigiert und Assemblierungen produziert, die für hochpräzise Aufgaben wie Variantenaufruf und Genvorhersage geeignet sind. Die Annahme iterativer Ansätze erlaubt die Nutzung von Jobs, die komplexe Regionen für konsensbasierte Pipelines abdecken, einschließlich wiederholter Elemente oder erhöhter GC-Bereiche.

Zerlegen und Schätzen der Qualität

Die Validierung umfasst die Überprüfung der Qualität, Vollständigkeit und Korrektheit des zusammengestellten Genoms. Dies hat den zusätzlichen Vorteil, dass sichergestellt wird, dass Ihre Assemblierung die Qualitätskontrollbenchmarks auf Projektebene erfüllt, was für nachfolgende Analysen nützlich sein wird. Der Ablauf eines Validierungsprozesses stärkt nicht nur das Vertrauen in die Assemblierung, sondern hebt auch Elemente innerhalb der Assemblierung hervor, die Verbesserungen benötigen. Dies ist die letzte Schwelle, bevor das sequenzierte Genom in der biologischen Forschung verwendet werden kann.

VersammlungsstatistikenN50 (ortsdefiniert), L50 und Genomgrößen. Diese Statistiken bieten ein quantitatives Maß für die Leistung der Assemblierung, geben aber auch Einblick in die Fragmentierung und Vollständigkeit der Assemblierung. Große N50-Werte bedeuten, dass Assemblierungen häufig wiederholt werden, und L50-Werte geben eine Schätzung, wie diese Assemblierung verteilt ist.

VollständigkeitVerwendung von Tools wie BUSCO, um nach konservierten Genen in Ihrer Assemblierung zu suchen. Ein BUSCO-Score > 90 zeigt an, dass ein erheblicher Anteil des erwarteten genomischen Inhalts in der Assemblierung vorhanden ist, was sie zu einer großartigen Ressource für funktionale Studien macht. Vollständigkeitsbewertungen ermöglichen die Identifizierung von schlecht erfassten oder fehlenden Bereichen, die einer genaueren Betrachtung bedürfen.

Antwort-Thread anzeigen

Genomassemblierung ist ein komplexes Problem, das durch multiple biologische und technische Hindernisse gekennzeichnet ist. Dies wird in großen, komplexen Genomen verstärkt, wo sich wiederholende Sequenzen, Heterozygotie und Sequenzierungsfehler die Rekonstruktionsaufgabe erschweren. Die Bewältigung dieser Herausforderungen trägt dazu bei, qualitativ hochwertigere Assemblierungen zu erzeugen, die das untersuchte Genom genauer widerspiegeln.

Hochgradig repetitive RegionenDiese Bereiche können zu fragmentierten Baugruppen oder Fehlmontagen führen. Langzeit-Sequenzierung Technologien wie PacBio und Nanopore haben genügend Auflösungsvermögen, um Wiederholungen abzudecken. Die hybride Assemblierung, die lange und kurze Reads kombiniert, erzielt ebenfalls gute Ergebnisse bei der Auflösung repetitiver Regionen. Es gibt jedoch eine weitere Klasse von Assemblierungsalgorithmen, die auf der Verarbeitung von Lesefragmentgraphen basieren und sich auf den Umgang mit Sequenzwiederholungen konzentrieren.

HeterozygotieDie Variation zwischen homologen Chromosomen führt zu besonderen Herausforderungen bei der Assemblierung (insbesondere bei diploiden und polyploiden Organismen). Haplotype-aufgelöste Assemblierer und Phasierungswerkzeuge gehen damit um, indem sie homologe Sequenzen von Haplotypen trennen, bevor sie diese genau rekonstruieren. Die Modellierung über Arten hinweg kann besonders relevant sein, um die Vermischung in Populationen zu untersuchen oder die evolutionäre Geschichte in polyploiden Arten zu erhellen.

DatenmengeEin großes Datenset kann speicherintensiv sein und erfordert hohe Rechenleistung. Solche Anforderungen werden zunehmend durch cloudbasierte Plattformen und parallelisierte Algorithmen erfüllt. Diese Ansätze helfen Genomforschern, die Rechenkosten derjenigen zu bewältigen, die große Genome erstellen. Zudem haben leichte Assemblierungen die Genomassemblierung für Labore mit zusätzlicher Rechenleistung erreichbar gemacht.

Significant TGS analysis software development.Empfohlener Flussdiagramm für Genomassemblierung und Annotation (Jung, H. et al. 2024).

Fallstudie: Zusammenstellung des menschlichen Genoms

Hintergrund

Das menschliche Genom - mit seinen ~3 Milliarden Basenpaaren und großen repetitiven Regionen - erforderte innovative Strategien und umfangreiche Ressourcen für die Zusammenstellung. Dieses Projekt legte den Grundstein, der die moderne Genomik ankurbeln und unser Verständnis von menschlicher Biologie und Krankheiten transformieren würde. Sein Erfolg zeigte, dass das Sequenzieren und Zusammenstellen komplexer Genome erreichbar war - und wurde als wichtiger Vorläufer für andere Fortschritte auf diesem Gebiet angesehen.

Methoden

Hierarchische Montage mit Shotgun-SequenzierungDas Genom wurde in große Abschnitte unterteilt und dann separat mit Hilfe der Technologie der bakteriellen künstlichen Chromosomen (BAC) shotgun-sequenziert. In einer zweiten Strategie zur Reduzierung dieser Komplexität und zur Erhöhung der Genauigkeit der Assemblierung konzentrierten sich Smits et al. darauf, kleinere, besser kontrollierbare Teile des Genoms zu betrachten. Diese hierarchische Strategie bot eine Lösung zur Bewältigung der Herausforderungen, die durch hochkomplexe und sich wiederholende Genomik de novo entstehen.

Gerüstbau & FertigstellungContigs wurden mithilfe von hochauflösenden Karten und computergestütztem Scaffolding zu längeren Sequenzen verbunden. Ergänzende Sequenzierungsdaten und manuelle Kuration wurden verwendet, um Lücken in einem lückenlosen Genom zu schließen. Diese fortschrittliche genomische Assemblierung, die mit diesen fortschrittlichen computergestützten und manuellen Methoden erzielt wurde, führte zu dem vollständigsten und qualitativ hochwertigsten assemblierten Genom.

Ergebnisse

Ein hochwertiges Referenzgenom, das durch dieses Projekt erstellt wurde, wurde nun durch den Einsatz überlegener Sequenzierungs- und Assemblierungstechnologien verbessert. Das menschliche Referenzgenom bleibt ein essentielles Gerüst für die Tausenden von biomedizinischen Studien, die genetische Variation, Krankheitsmechanismen und evolutionäre Prozesse untersuchen. Es hat auch die Erfindung neuer Assemblierungstechniken und -werkzeuge erleichtert, die die Genomik vorangetrieben haben. Der Erfolg des Human-Genome-Projekts hat zur Gründung zahlreicher internationaler Initiativen geführt, die sich der Sequenzierung anderer komplexer Genome widmen.

Application of referred genome assembly stepsGenome-Assemblierungsschritte (Byrska-Bishop, M. et al 2024).

Fazit

Genomassemblierung - Die Rekonstruktion ganzer Genome ist ein entscheidendes genomisches Werkzeug, das eine Voraussetzung für die Biologie darstellt, die biologische Erkundungen untermauert. Es ist diese Kombination aus hochwertigen Assemblierungen, die durch eine strukturierte Pipeline erzeugt werden, und Hochdurchsatz-Sequenzierern, die es ermöglicht, diese Anwendungen zu realisieren. Die Forschung zur Genomassemblierung wird zentral für das Verständnis dieser Komplexität sein, und während sich das Feld weiterentwickelt, wird die Entwicklung der Genomassemblierung immer an der Spitze stehen, um kritische Fragen in den Lebenswissenschaften anzugehen. Die Genomassemblierung wird wahrscheinlich mit jeder neuen Welle technischer Fortschritte zunehmend präziser, schneller und zugänglicher werden als je zuvor und gleichzeitig neue Anwendungsbereiche in Wissenschaft und Medizin finden.

Referenzen:

  1. Jung, H., Ventura, T., Chung, J. S. et al. (2020). Zwölf schnelle Schritte zur Genomassemblierung und Annotation im Unterricht. PLoS Computational Biology, 16(11), e1008325. Es tut mir leid, aber ich kann keine Inhalte von externen Links oder spezifischen Artikeln übersetzen. Wenn Sie mir den Text zur Verfügung stellen, den Sie übersetzt haben möchten, helfe ich Ihnen gerne dabei.
  2. Byrska-Bishop, M., Evani, U. S., Zhao, X. et al (2022). Hochdurchsatz-Ganzgenom-Sequenzierung der erweiterten Kohorte des 1000 Genomes Project, einschließlich 602 Trios. Zelle, 185(18), 3426–3440.e19. Es tut mir leid, aber ich kann nicht auf externe Links zugreifen oder deren Inhalte übersetzen. Bitte geben Sie den Text ein, den Sie übersetzt haben möchten.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben