Die Genomassemblierung und -annotation sind wesentliche Komponenten zum Verständnis des genetischen Bauplans des Lebens. Genomassemblierung Die Rekonstruktion der vollständigen DNA-Sequenz eines Organismus in einen kontinuierlichen und kohärenten Strang, während die Annotation der Prozess ist, funktionale Rollen diesen Sequenzen zuzuweisen, indem Gene, regulatorische Elemente und andere wichtige Merkmale identifiziert werden. Diese Sequenzen durchlaufen dann verschiedene Prozesse, um Bedeutung und Erkenntnisse aus den Daten abzuleiten, die Muster in der menschlichen Evolution, Medizin und Biotechnologie beleuchten.
Neue Sequenzierungstechnologien haben die Abläufe für die Genomassemblierung und -annotation schnell vereinfacht und ermöglichen es Wissenschaftlern, Genome von beispielloser Komplexität zu untersuchen. Der umfangreiche Einsatz neuer computergestützter Werkzeuge und Algorithmen hat es Wissenschaftlern ermöglicht, selbst schwierige Genome zusammenzustellen, wie solche mit hohem Wiederholungsgehalt oder Polyploidie. Dieser Fortschritt hat die Genomassemblierung und -annotation als wesentliche Mittel zur Untersuchung einer Vielzahl genetischer Architekturen etabliert, von mikrobiellen Gemeinschaften und menschlichen Genomen bis hin zu Pflanzenzuchtprojekten. In diesem Artikel untersuchen wir die Grundsätze, Methoden und Anwendungen dieser miteinander verbundenen Prozesse, die enormes Potenzial für das Fachgebiet der Genomik bieten.
Zur Hintergrundinformation, Genomassemblierung Der Prozess, bei dem das Genom eines Organismus aus kurzen DNA-Sequenzen, den sogenannten Reads, zu seiner vollständigen Sequenz zusammengesetzt wird, wird als Genomassemblierung bezeichnet. Dies beinhaltet das Ausrichten von Millionen bis Milliarden von Sequenzierungs-Reads in kontinuierliche Sequenzen (Contigs) und das Anordnen von Contigs in Gerüste, die Chromosomen repräsentieren. Die Behandlung ist keine einfache rechnerische Aufgabe und erfordert fortgeschrittene Algorithmen, um Sequenzierungsfehler, sich wiederholende Regionen und genomische Variationen zu bewältigen.
Die Genomannotation ist der Prozess der Identifizierung und Kennzeichnung der funktionalen Elemente eines Genoms. Sie umfasst typischerweise die Sequenzierung der Genome, die Vorhersage von Genen und nicht-kodierenden Elementen sowie das Studium von regulatorischen Elementen, nicht-kodierenden RNAs und repetitiven Elementen. Durch die Annotation verwandelt sich eine ansonsten inanimate Sequenz in eine bedarfsgerechte Annotationsressource für Biologen, die daran interessiert sind, funktionale Informationen über Gene, regulatorische Netzwerke und evolutionäre Beziehungen zu erhalten und zusammenzufassen.
Dienstleistungen, die Sie interessieren könnten
Ressource
Strukturelle AnnotationIdentifiziert Gene, Exons, Introns, regulatorische Sequenzen und Wiederholungselemente. Vorhersage von kodierenden Regionen und Annotation von genomischen Elementen.
Funktionale AnnotationBiologische Rollenvergabe für identifizierte Merkmale durch Ähnlichkeit zu bekannten Genen, Proteindomänen und Signalwegen. Funktionale Annotation bietet zusätzliche Einblicke in die Genfunktionalität und biologische Systeme.
Strukturelle AnnotationswerkzeugeAUGUSTUS, GeneMark usw. Diese Werkzeuge verwenden probabilistische Modelle, um Gene aus Ausrichtungen von genomischen Sequenzen zu erkennen.
Funktionale AnnotationswerkzeugeVermeiden Sie das Filtern kritischer Loci, Datenbanken wie UniProt und GO (Gene Ontologie) bieten funktionale Einblicke, während Werkzeuge wie BLAST Sequenzen mit bekannten Genen zur vergleichenden Annotation ausrichten. Die funktionale Annotation wird weiter verbessert durch eine Verknüpfung zu metabolischen und regulatorischen Netzwerken über Pfad-Datenbanken wie KEGG.
Automatisierte PipelinesWerkzeuge wie MAKER und Prokka sind darauf ausgelegt, verschiedene Vorhersage- und Alignierungswerkzeuge zu kombinieren, um einen umfassenden Annotierungsworkflow bereitzustellen. Solche automatisierten Pipelines haben die Annotierungszeit großer Genome erheblich verkürzt, sodass Forscher sich auf nachgelagerte Analysen und Anwendungen konzentrieren können.
Beschreibung des BUSCO-Workflows (Seppey, M. et al. 2019).
DatenvorverarbeitungQualitätskontrolle, Trimmen und Fehlerkorrektur werden durchgeführt, um sicherzustellen, dass nur hochwertige Reads für die Assemblierung verwendet werden. FastQC, Trimmomatic und Racon sind einige der anderen Werkzeuge, die häufig verwendet werden, um Sequenzierungsdaten zu bereinigen und zu verfeinern sowie häufige Fehler wie Sequenzierungsfehler und Adapterkontaminationen zu korrigieren.
VersammlungContigs und Scaffolds werden aus Reads zusammengestellt, indem man von Neuem, referenzgeführte oder hybride Ansätze. SPAdes, Flye und Canu sind Beispiele für Assemblierer, die ausgeklügelte Algorithmen verwenden, um genauere und zusammenhängende Sequenzen zu erzeugen. Contigs werden in Gerüste geordnet und ausgerichtet, und verbleibende Fehler werden korrigiert, um die Genauigkeit auf Basisebene zu verbessern. Diese Softwaretools, wie LINKS, SSPACE und Pilon, füllen Lücken in der Sequenz und verbessern die Qualität der Assemblierung.
Alle Ansätze deuten darauf hin, dass die Qualität der Assemblierung anhand von Metriken wie N50, BUSCO-Vollständigkeitswerten und Alignierungsgenauigkeit bewertet wird. Diese Statistiken liefern Informationen über die Qualität und Vollständigkeit der Genomassemblierung.
WiederholungsmaskeEs maskiert alle repetitiven Sequenzen, die falsche positive Vorhersagen erzeugen können. Repetitive Elemente können mit bekannten Werkzeugen wie RepeatMasker und Tandem Repeats Finder annotiert und verwaltet werden.
GenvorhersageWerkzeuge, die kodierende und nicht-kodierende Gene aus Sequenzmustern, Homologie oder statistischen Modellen vorhersagen. Ab-initio-Tools wie AUGUSTUS sagen Gene aus Sequenzeigenschaften (wie kodierenden und nicht-kodierenden Sequenzen) voraus, während evidenzbasierte Tools transcriptomische oder proteomische Daten verwenden.
Funktionale AnnotationWir haben die vorhergesagten Gene mit bekannten Datenbanken abgeglichen, um Funktionen den Merkmalen zuzuordnen. Funktionale Annotationswerkzeuge helfen dabei, Gene und ihre Rollen zu verstehen und geben dem genomischen Daten Kontext in Bezug auf biologische Wege und Systeme.
Hochwertige manuelle ÜberprüfungHandkurierung durch Qualitätsprüfer für alle Regionen oder Gene von hoher Bedeutung. Dies ist besonders wichtig für Gene von medizinischem oder landwirtschaftlichem Interesse.
Die genomische Assemblierung und Annotation sind entscheidend für die Lokalisierung von krankheitsbezogenen Genen, das Entschlüsseln von Krankheitsmechanismen und die Entwicklung personalisierter Therapien. Zum Beispiel unterstützt die Genomsequenzierung und Annotation pathogener Mikroben schnelle Diagnosen und die Entwicklung von Impfstoffen. Die annotierten Genome dienen als Grundlage für die Identifizierung von Gen-Krankheits-Assoziationen, diagnostischen Biomarkern und therapeutischen Zielen.
Charakterisierte Pflanzengenomen haben die präzise Zucht angeregt, indem Gene, die mit Ertrag, Krankheitsresistenz und Stressresistenz assoziiert sind, kartiert wurden. Eine hochkonfidente Genomassemblierung und -annotation des Weizengenoms hat wichtige Gene für Eigenschaften wie Trockenresistenz und Schädlingsresistenz aufgedeckt. Solche Erkenntnisse haben die Anbaumethoden revolutioniert und es Wissenschaftlern ermöglicht, widerstandsfähige Sorten von Pflanzen zu züchten.
Genomassemblierung und -annotation ermöglichen vergleichende Analysen, die es erlauben, evolutionäre Beziehungen, Artbildungsereignisse und adaptive Merkmale aufzudecken. Annotierte Genome bedrohter Arten informieren über Erhaltungsstrategien, indem sie spezifischen Genen Eigenschaften zuweisen, die genetische Vielfalt und Resilienz fördern. Das Studium der adaptiven Evolution und das Verständnis der genetischen Grundlagen von Anpassungen ermöglichen es Forschern, spezifischere Erhaltungs- und Managementansätze zu entwickeln.
Arabidopsis thaliana ist eines der am häufigsten verwendeten Modellorganismen in der Pflanzenbiologie und eines der ersten Pflanzengenomen, das sequenziert und annotiert wurde. Sein relativ kleines Genom (∼135 Mb) und die einfache Struktur machten es zu einem Modellziel für frühe Genomprojekte. Die Zusammenstellung und Annotation von Arabidopsis legte die Grundlage für die Pflanzen-Genomik und förderte Fortschritte sowohl in der funktionalen Genomik als auch in der Verbesserung von Nutzpflanzen.
SequenzierungDas Genom wurde sequenziert mit Sanger-Technologieund wurde dann mit Hochdurchsatz verfeinert. Eine Kombination von Sequenzierungsstrategien wurde verwendet, um Abdeckung und Genauigkeit zu maximieren.
VersammlungEin anfängliches Genom wurde erstellt unter Verwendung von de novo Zusammenstellung und dann durch mehrere Überarbeitungsrunden verbessert. Pflanzengenome werden durch auf sie zugeschnittene Werkzeuge strukturiert, um sich wiederholende Regionen und strukturelle Komplexitäten zu lösen.
AnnotationDie strukturelle Annotation ergab etwa 27.000 protein-kodierende Gene. Funktionale Annotation Die meisten Gene wurden durch homologiebasierte Methoden einer Funktion zugeordnet, wobei Daten aus mehreren funktionalen Datenbanken integriert wurden.
Das annotierte Arabidopsis-Genom hat einen enormen Einfluss auf die Pflanzen-Genomik gehabt und die Forschung zu Genfunktionen, regulatorischen Netzwerken und Pflanzen-Umwelt-Interaktionen informiert. Seine hochwertige Annotation hat auch vergleichende Studien mit Kulturpflanzen ermöglicht, die landwirtschaftliche Innovationen fördern. Die detaillierte Annotation von Arabidopsis verkörpert einen Referenzpunkt für die einzigartige Erforschung grundlegender biologischer Fragen in der Pflanzenwissenschaft.
Übersicht über die Col-PEK-Assemblierung (Hou, X. et al., 2022).
Ultra-lange Reads und Einzelzell-Sequenzierung ermöglichen Chromosomen-niveau Assemblierungen und hochauflösende Annotation komplexer Genome. Diese Entwicklungen können potenziell Genomregionen lösen, die zuvor unzugänglich waren, wie Zentromere und Telomere. Die Kombination neuer Sequenzierungstechnologien ermöglicht es Forschern, traditionelle Barrieren bei der Genomassemblierung und -annotation zu überwinden.
Integrierte Ansätze, die Genomannotationen mit Transkriptomik, Proteomik und Epigenomik kann zu einer ganzheitlicheren Sicht auf die Funktion und Regulation von Genen führen. Diese integrative Strategie ist besonders aufschlussreich für die Untersuchung dynamischer biologischer Prozesse und komplexer Merkmale. Durch die Verknüpfung der Sequenz mit dem Phänotyp ermöglicht die Integration von Multi-Omics-Daten die funktionale Interpretation von genomischen Daten.
Dienstleistungen, an denen Sie interessiert sein könnten
Diese Fortschritte in der künstlichen Intelligenz revolutionieren die Annotation, indem sie die Genvorhersage, funktionale Zuordnung und Fehlerkorrektur unterstützen. KI-gestützte Werkzeuge können auch enorme Datensätze in einem unübertroffenen Maßstab und Tempo verarbeiten – eine Fähigkeit, die die Effizienz der Genomannotation erheblich beschleunigen kann. Eine Vielzahl von genomischen Datensätzen wurde genutzt, um maschinelle Lernmodelle zu trainieren, die als prädiktive Werkzeuge zur Erleichterung der Annotationen derzeit sequenzierter Genome dienen können.
Initiativen wie das Earth BioGenome Project zielen darauf ab, die Genome aller eukaryotischen Arten zu sequenzieren und zu phänotypisieren. Diese Bemühungen fördern die Zusammenarbeit, standardisieren Arbeitsabläufe und demokratisieren den Zugang zu genomischen Daten. Das Entstehen gemeinsamer genomischer Datenbanken beschleunigt die Entdeckung und ermöglicht die Erforschung der Biodiversität und der Funktionen von Ökosystemen.
Die Genomassemblierung und -annotation ist eines der wichtigsten Bereiche für viele moderne Genomik-Anwendungen, da sie es Forschern ermöglicht, das funktionale Potenzial innerhalb des Genoms aus DNA-Sequenzen zu verstehen. Ermöglicht durch die Kombination neuer Sequenzierungsmethoden mit Hochleistungsrechneranwendungen haben sich diese Prozesse drastisch verbessert, um unsere Fähigkeit zu erweitern, die genetische Struktur und ihre Implikationen aus biologischer, medizinischer und landwirtschaftlicher Sicht zu verstehen. Die Genomassemblierung und -annotation sind entscheidende Schritte, die der genomischen Forschung zugrunde liegen und sich im Bereich weiterentwickeln werden, sodass wissenschaftliche Entdeckungen zentral für unseren Fortschritt in der Biologie und bei der Bewältigung globaler Probleme bleiben. Globale Initiativen und aufkommende Technologien werden voraussichtlich bald den Umfang und die Nützlichkeit dieser kritischen genomischen Ressourcen erweitern.
Referenzen: