Bioinformatische Analyse des Chloroplastengenoms

Chloroplastengenom

Chloroplasten sind ein allgegenwärtiges Merkmal in Pflanzen und beherbergen das Chloroplastengenom, ein doppelsträngiges zirkuläres DNA-Molekül. Eine einzelne Pflanze enthält mehrere Chloroplasten, von denen jeder 12 cpDNA-Moleküle enthält.

Die typische Größe eines Chloroplastgenom der Pflanze reicht von 150 bis 160 kb, während Algen tendenziell etwas kleinere Genome von etwa 80 bis 100 kb haben. Diese Genome sind in vier verschiedene Regionen organisiert: die Large Single Copy (LSC), die Small Single Copy (SSC) und zwei Inverted Repeat (IR) Regionen, die zwischen der LSC und der SSC liegen. Mit dem rasanten Fortschritt der Hochdurchsatz-Sequenzierungstechnologie gewinnt die Nutzung von Chloroplasten als Mittel zur Untersuchung des Ursprungs, der Struktur und der Evolution von Organellen zunehmend an Aufmerksamkeit und Interesse.

Representative chloroplast genome map of Chrysosplenium. Vertretende Chloroplastengenomkarte von Chrysosplenium. (Yang et al., 2023)

Kovarianzanalyse in der Genetik

Kovarianz bezieht sich im Kontext der Genetik auf das Phänomen der Genverknüpfung. Es tritt auf, wenn homologe Gene in derselben Reihenfolge auf den Chromosomen verschiedener Arten angeordnet sind. Das Ausmaß der Kovarianz zwischen zwei Arten dient als wertvolles Maß zur Beurteilung ihrer evolutionären Divergenz und zur Einschätzung ihrer genetischen Verwandtschaft.

Durchführung eines Kovarianzanalyse beinhaltet das Studium spezifischer, lokalisierter Blöcke von Kovarianz innerhalb von Genomen. Diese Analyse kann Aufschluss über verschiedene evolutionäre Ereignisse geben, einschließlich Ähnlichkeiten, Umstellungen, Inversionen und andere genetische Veränderungen, die im Verlauf der Evolution von Arten stattgefunden haben.

Phylogenetische Baum-Analyse

Ein phylogenetischer Baum, auch bekannt als Phylogenie, ist ein verzweigtes Diagramm, das die Beziehungen zwischen Arten visuell darstellt und es uns ermöglicht, ihre evolutionäre Geschichte zu verstehen. Die Analyse phylogenetischer Bäume dient mehreren wichtigen Zwecken, darunter die Identifizierung der evolutionären Verbindungen zwischen Arten, das Aufdecken der Verbindungen zwischen Vorfahren- und Nachfahren-Sequenzen sowie die Schätzung der Divergenzzeit innerhalb einer Gruppe von Arten, die einen gemeinsamen Vorfahren teilen.

Organelle-Genome, aufgrund ihrer hohen Konservierung, werden häufig verwendet, um phylogenetische Bäume zur Klassifikation und Bewertung des evolutionären Status von Pflanzen und Tieren zu erstellen. Zwei Methoden stehen zur Verfügung für Konstruktion von phylogenetischen Bäumen für Organellen

Bevölkerungs-SNP-Matrix-basierte Baumkonstruktion: Dieser Ansatz umfasst die Erstellung eines evolutionären Baums unter Verwendung der Bevölkerungs-SNP-Matrix, die aus Proben und Referenzgenomen abgeleitet ist. Für jede Probe werden alle Einzelne Nukleotid-Polymorphismen (SNPs) in derselben Reihenfolge ausgerichtet, wodurch Sequenzen derselben Länge im Fasta-Format erzeugt werden, einschließlich einer Referenzsequenz. Diese ausgerichteten Sequenzen werden dann als Eingabedaten für die Konstruktion des phylogenetischen Baums verwendet.
Kern-Gen-basierte Baumkonstruktion: Bei dieser Methode werden phylogenetische Bäume basierend auf Kern-Genen konstruiert, die als Einzelkopien innerhalb des Organellengenoms vorhanden sind. Die mehrfachen Sequenzen dieser Kern-Gene werden mit der Software MUSCLE v3.8.31 ausgerichtet, und die resultierenden Alignierungsdaten werden verwendet, um den evolutionären Baum zu erstellen, der die genetischen Beziehungen zwischen den Arten aufzeigt.

Erkennung von strukturellen Variationen in Chloroplastengenomen

Der Prozess der Erkennung struktureller Variationen in Organellengenomen umfasst hauptsächlich drei Typen: Einzelne Nukleotidpolymorphismen (SNP), Insertionen/Löschungen (InDel) und strukturelle Variationen (SV). Der Vergleich von Organellengenomen eng verwandter Arten mit Referenzgenomen ist ein entscheidender Schritt, um die Variationen zu verstehen und zu analysieren, die innerhalb von Individuen oder Populationen vorhanden sind.

SNP (Einzelnukleotid-Polymorphismus)

SNPs sind Variationen in DNA-Sequenzen, die aus einer einzelnen Nukleotidänderung resultieren. Diese Änderungen können innerhalb von kodierenden Genen oder nicht-kodierenden Sequenzen auftreten. SNPs innerhalb von kodierenden Regionen, bekannt als kodierende SNPs (cSNPs), sind besonders wichtig, da sie das Potenzial haben, die funktionalen Eigenschaften eines Individuums zu beeinflussen.

InDel (Insertion/Löschung)

InDel dient als Sammelbegriff für die Einfügung und Löschung von DNA-Sequenzen. In einem spezifischeren Kontext bezieht sich der Begriff enge InDel auf relativ kurze Einfügungen oder Löschungen, die typischerweise von 1 bis 10 Basenpaaren reichen. In den kodierenden Regionen des Genoms können InDel-Ereignisse zu Leserastermutationen, Veränderungen in den Aminosäuresequenzen und sogar zur Bildung von Pseudogenen führen. Der Schwerpunkt liegt hier auf der Analyse dieser engen InDel-Variationen.

Strukturelle Variation (SV)

Strukturelle Variationen umfasst eine Reihe von genomischen Veränderungen wie Deletionen, Insertionen, Duplikationen, Inversionen und ektope Relokationen von DNA-Fragmenten innerhalb des Genoms. Um SVs zu identifizieren, wird die MUMmer-Software eingesetzt, um das Zielorganelle-Genom mit einem Referenzgenom zu vergleichen. Anschließend wird LASTZ verwendet, um Region-zu-Region-Vergleiche durchzuführen, wodurch SVs im Organellen-Genom durch die Analyse der Vergleichsergebnisse lokalisiert werden.

Analyse von gemeinsamen und spezifischen Genen

Innerhalb einer Gruppe genetischer Proben werden Gene, die in allen Proben homolog sind, als 'Kern-Gene' bezeichnet. Im Gegensatz dazu werden Gene, die nach der Entfernung der Kern-Gene nicht mehr häufig vorkommen, als 'verzichtbare Gene' kategorisiert. 'Spezifische Gene' bezeichnen Gene, die einzigartig für eine bestimmte Probe sind. Diese gemeinsamen und spezifischen Gene entsprechen oft den gemeinsamen Merkmalen und charakteristischen Eigenschaften der jeweiligen Proben. Sie dienen als grundlegende Basis für die Erforschung funktionaler Unterschiede zwischen den Proben.

Codon-Präferenzanalyse

Die Codonpräferenz, auch bekannt als Codon-Nutzungsbias, quantifiziert die relative Wahrscheinlichkeit, dass ein spezifisches Codon unter den synonymen Codons, die dieselbe Aminosäure kodieren, erscheint. Der Wert für die Codonpräferenz wird typischerweise durch die Berechnung der relativen synonymen Codon-Nutzung (RSCU) bestimmt. Die Untersuchung von Codon-Nutzungsmustern hat eine erhebliche Bedeutung, da sie Einblicke in die evolutionären Drücke auf Arten bietet und eine entscheidende Rolle bei der Förderung genetischer Untersuchungen spielt.

Analyse von einfachen Sequenzwiederholungen (SSR)

Einfache Sequenzwiederholungen (SSR), auch bekannt als Mikrosatelliten (MS)DNA-Fragmente, die durch die Wiederholung kurzer Sequenzen von 1-6 Nukleotiden charakterisiert sind. Diese SSRs sind reichlich vorhanden, hoch polymorph, gleichmäßig im gesamten Genom verteilt, kodominant und relativ einfach nachzuweisen. Infolgedessen haben sie umfangreiche Anwendungen als molekulare Marker der zweiten Generation in verschiedenen Bereichen der genetischen Forschung gefunden, einschließlich genetischer Kartierung, der Lokalisierung von Zielgenen, Untersuchungen zur genetischen Vielfalt, der Identifizierung von Genressourcen und molekular unterstütztem Pflanzenzucht. SSRs sind ein Grundpfeiler in der genetischen Forschung und tragen erheblich zur Konstruktion genetischer Karten und zur Identifizierung von Ressourcen bei.

Referenz:

Yang, Tiange, et al. "Eine umfassende Analyse des Chloroplastengenoms bietet neue Einblicke in die Evolution der Gattung Chrysosplenium." Internationale Zeitschrift für Molekulare Wissenschaften 24,19 (2023): 14735.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.

Verwandte Dienstleistungen