Mit der kontinuierlichen Entwicklung von GenomsequenzierungstechnologieImmer mehr Arten haben die Entschlüsselung des gesamten Genomcodes abgeschlossen, was für die eingehende Forschung zur funktionalen Genlokalisierung und Domestikation einer Art auf der Grundlage der umfassenden Analyse von Genominformationen wichtig ist. Während des langen evolutionären Prozesses der Arten hat jedoch jeder Einzelne aufgrund des Einflusses von natürlicher und menschlicher Selektion extrem einzigartige genetische Merkmale entwickelt, und das Referenzgenom eines einzelnen Individuums kann nicht mehr alle genetischen Informationen der Art abdecken. Mit anderen Worten, wenn nur ein einzelnes Referenzgenom für die Studie genetischer Variationen verwendet wird, können viele gezielte genetische Codeinformationen verloren gehen, da viele einzigartige Sequenzen nicht im Referenzgenom enthalten sind. Da die Kosten für die Gen-Sequenzierung gesunken sind, hat dies die Möglichkeit von Pan-Genom-Studien eröffnet, insbesondere in der Pflanzenforschung wie bei Reis, Mais, Sojabohnen, Tomaten, Baumwolle, Raps, Arabidopsis usw. Es hat sich allmählich als universell etabliert.
Das Konzept des Pangenoms und des Super-Pangenoms und deren Nutzung zur Verbesserung von Nutzpflanzen. (Khan et al., 2020)
Das Pan-Genom ist ein allgemeiner Begriff für alle Gene einer Art, der sich von den Genen individueller Genome unterscheidet. Im Jahr 2005 schlugen Tettelin H et al. erstmals das Konzept des mikrobiellen Pan-Genoms vor (pan aus dem Griechischen 'παν', was 'alle' bedeutet), das ein allgemeiner Begriff für alle Gene einer Art ist. Im Jahr 2009 verwendeten Li et al. erstmals die neue Methode der Ganzgenomassemblierung, um mehrere menschliche Genome zu splicen, und entdeckten die einzigartigen DNA-Sequenzen und funktionalen Gene von Individuen und schlugen erstmals das Konzept des "menschlichen Pan-Genoms" vor, d.h. die Summe der genetischen Sequenzen menschlicher Populationen. Im Jahr 2013 wurde die Pan-Genom-Sequenzierung auf die Forschung zu Pflanzen und Tieren angewendet; im Jahr 2014 wurde die Pan-Genom-Forschung von Nutzpflanzen wie Sojabohnen, Reis, Mais, Raps, Baumwolle usw. begonnen.
Der Hauptforschungsinhalt von Pan-Genom-Studien umfasst die Analyse und Charakterisierung des Kern- und des dispensierbaren Genoms von Pflanzen- und Tierstämmen. Das Kern-Genom besteht aus Genen, die in allen Stämmen vorhanden sind, und sie steuern typischerweise grundlegende Stoffwechselfunktionen in Organismen. Das dispensierbare oder variable Genom hingegen umfasst Gene, die in einem oder mehreren Stämmen vorhanden sind, und sie können zu unterschiedlichen Eigenschaften wie Krankheitsresistenz oder Kältebeständigkeit beitragen.
Pan-Genom-Forschung konzentriert sich auf das Verständnis der strukturellen Variation innerhalb des dispensablen Genoms. Strukturelle Variationen beziehen sich auf Unterschiede in der Anordnung, Größe oder dem Vorhandensein/Nichtvorhandensein von genetischem Material, wie z. B. Duplikationen, Deletionen, Inversionen oder Insertionen. Diese strukturellen Variationen können erhebliche Auswirkungen auf die phänotypische Vielfalt haben, die bei Individuen beobachtet wird.
Um strukturelle Variationen innerhalb des Pan-Genoms zu untersuchen, verwenden Forscher häufig Langzeit-Sequenzierungstechnologien wie PacBio SMRT oder Nanopore-Technologie. Diese Technologien bieten Vorteile in Bezug auf die Genomassemblierung und die Erkennung struktureller Variationen. Sie können lange Reads bereitstellen, die die Assemblierung komplexer genomischer Regionen ermöglichen, die mit Technologien zur Sequenzierung kurzer Reads schwer zu lösen sind. Darüber hinaus erleichtern sie die Identifizierung von strukturellen Variationen in hoher Auflösung, um Forschern zu helfen, ihren Einfluss auf die genetische Vielfalt und phänotypische Merkmale zu verstehen.
Durch die Untersuchung des Pan-Genoms und seiner strukturellen Variationen zielen Forscher darauf ab, die genetischen Grundlagen verschiedener Merkmale zu entschlüsseln und die Mechanismen zu verstehen, die der Anpassung, Evolution und Krankheitsanfälligkeit in Pflanzen- und Tierpopulationen zugrunde liegen. Dieses Wissen kann praktische Anwendungen in Bereichen wie der Verbesserung von Nutzpflanzen, Zuchtprogrammen und personalisierter Medizin haben.
Anzahl der Materialien
Einer der entscheidenden Faktoren für die Größe des Pan-Genoms ist der Prozentsatz der Nicht-Kern-Gene, der in Studien zum Pan-Genom von Nutzpflanzen zwischen 8 % und 61 % liegen kann. Die Stichprobengröße spielt eine entscheidende Rolle in solchen Studien. Zunächst, wenn die Anzahl der Individuen mit neu identifizierten Genen zunimmt, erweitert sich das Pan-Genom. Diese Erweiterung geht jedoch mit einem Rückgang des Anteils der Kern-Gene einher.
Eigenschaften von Materialien
Die Auswahl der Materialien hat einen tiefgreifenden Einfluss auf die Effizienz und Integrität von Pan-Genom-Studien. Zwei entscheidende Merkmale verdienen Beachtung: (1) Verwandtschaftsgrad: Die Wahl eng verwandter Materialien neigt dazu, die Größe des Pan-Genoms zu unterschätzen. Daher ist es wichtig, eine vielfältige Auswahl an Individuen einzubeziehen, um ein umfassendes Verständnis der genetischen Landschaft der Kulturpflanze zu erhalten. (2) Kombination von Wild- und Kulturgermplasma: Die Kombination von wildem und kultiviertem Germplasma führt zu einem größeren Arten-Pan-Genom, mit einem signifikant höheren Anteil an Nicht-Kern-Genen im Vergleich zur Verwendung von ausschließlich kultiviertem Germplasma. Die Einbeziehung wilder Materialien erhöht die Vielfalt und Inklusivität des Pan-Genoms.
In der Pflanzenforschung nimmt die Identifizierung neuer Gene tendenziell ab, je mehr sequenzierte Studienmaterialien vorhanden sind. Dies deutet darauf hin, dass es eine endliche Anzahl von Genomen gibt, über die hinaus eine zusätzliche Einbeziehung nicht zu einer weiteren Erweiterung des Pan-Genoms führt. Darüber hinaus wirkt sich während der Pflanzen domestikation der Mangel an genetischer Vielfalt negativ auf die Größe des Pan-Genoms und den Anteil der Nicht-Kern-Gene aus. Eine erhöhte Einbeziehung von Wildmaterialien kann helfen, dieses Problem zu mildern, indem der Prozentsatz der Kern-Gene im Pan-Genom erhöht wird. Pflanzen, die während der Domestikation eine begrenzte Reduktion der Vielfalt aufweisen, tendieren dazu, einen höheren Anteil an Nicht-Kern-Genen zu zeigen. Der Anteil der Nicht-Kern-Gene ist ein Indikator für die Artenvielfalt und kann von Faktoren wie Ploidiegrad, Fortpflanzungsmethode und Flaschenhalsperioden während der Domestikation beeinflusst werden. Höhere Ploidiegrade und heterozygote Hybridisierungsraten tragen zu einer erhöhten Vielfalt und Toleranz gegenüber schädlichen Mutationen bei, was zu einem Pan-Genom mit einem höheren Prozentsatz an Nicht-Kern-Genen führt.
Der Bau eines Pan-Genom drehen sich um die Identifizierung der Variationen in der Genpräsenz oder -abwesenheit zwischen Individuen. Dies umfasst die Trennung ähnlicher Sequenzen in unterschiedliche Allele, zusätzliche Kopien oder nicht essentielle Gene. Die Herausforderung besteht darin, interindividuelle Variationen aufgrund der Sequenzähnlichkeiten zu erkennen. Daher wird es entscheidend, Informationen über die physische Lage und die Genordnung im assemblierten Genom zu sammeln. Es gibt drei Hauptmethoden, die für den Aufbau eines Pan-Genoms verwendet werden: Iterativ, map-to-pan und De-novo-Assemblierung.
Die iterativen und map-to-pan Methoden beinhalten die Identifizierung von Variationen in der Präsenz/Abwesenheit (PAVs) von Genen, indem kurze Reads mit dem annotierten Genom verglichen werden. Im Gegensatz dazu wird die De-novo-Assemblierungsmethode verwendet, um weitere PAVs von Genen abzuleiten, indem die assemblierten Gene mit den annotierten verglichen werden. Infolgedessen bietet diese Methode genauere Informationen über das Pan-Genom. Allerdings erfordert die Erreichung von Genomen mit hoher Assemblierungsqualität durch De-novo-Assemblierung eine hohe Sequenzierungstiefe, was mit erheblichen Kosten verbunden ist.
Andererseits ermöglichen iterative Assemblierung und Map-to-Pan-Techniken die Durchführung von Pan-Genom-Studien bei relativ geringen Sequenzierungstiefen, wodurch die Kosten gesenkt und ein größerer Pool individueller Proben für die Auswahl ermöglicht wird. Neben der Assemblierungsmethode spielen die Anzahl der Individuen und die genetischen Beziehungen zwischen ihnen eine entscheidende Rolle für die Vollständigkeit der Pan-Genom-Studien. Sie bestimmen auch die Genauigkeit der Schätzung der Größe des Pan-Genoms.
Fortschritte in der Sequenzierungstechnologie, insbesondere bei Langlese-Sequenzierungstechniken und Assemblierungsmethoden, haben die Kosten für die Erreichung einer hochwertigen de-novo-Assemblierung erheblich gesenkt. Dies wird wiederum zukünftige Studien erleichtern, die de-novo-Assemblierungsmethoden anwenden.
Referenz: