Während erhebliche genomische Fortschritte die Landschaft der wissenschaftlichen Erkundung verändert haben, bleibt unser Wissen über cis-regulatorische Elemente im Schweinegenom bemerkenswert begrenzt. Diese Wissenslücke behindert erheblich die genetische Verbesserung und Produktivität von Schweinen, sowohl als Fleischquelle als auch als biomedizinische Forschungsmodelle. In dieser Untersuchung führten die Autoren eine umfassende Analyse der Genome von vier verschiedenen Schweinerassen durch und verwendeten dabei eine Vielzahl modernster histologischer Techniken, einschließlich RNA-Seq, ATAC-seq, ChIP-seqund Hi-C. Die Strategie der Studie erinnert an großangelegte epigenetische Initiativen wie ENCODE (Enzyklopädie der DNA-Elemente) und die Roadmap-Epigenomics-Projekte.
Cis-regulatorische Elemente und ihre Funktionen wurden systematisch in einem Dutzend verschiedener Gewebe über diese vier Schweinerassen hinweg abgegrenzt. Diese Forschung erzeugte einen erheblichen Datensatz von 199 epigenetischen Regulierungsprofilen, was zur Identifizierung von über 220.000 cis-regulatorischen Elementen im Schweinegenom führte. Interessanterweise offenbarte diese Untersuchung ein unerwartetes Maß an Erhaltung der cis-regulatorischen Elemente zwischen dem menschlichen und dem Schweinegenom, das die Erhaltung zwischen dem menschlichen und dem Mausgenom übertraf.
Darüber hinaus deckte die Forschung Variationen in den strukturellen Domänen auf, die mit topologischen Merkmalen innerhalb der Schweine- und menschlichen Genome verbunden sind, und beleuchtet die evolutionären Veränderungen, die die kraniofaziale Morphologie beeinflussen. Neben ihrer Bedeutung für die funktionelle Genomik von Schweinen und die Regulierung von Merkmalen liefert diese Studie wesentliche vergleichende epigenetische Daten, die den Nutzen von Schweinen als Modelle in der biomedizinischen Forschung am Menschen erhöhen.
Sie fanden insgesamt 220.723 nicht-redundante cis-regulatorische Sequenzen, darunter 37.838 putative Promotoren, 146.399 potenzielle Enhancer und 137.838 offene Chromatinregionen, die an das susScr11-Genom ausgerichtet sind. Sie untersuchten die Verteilung von ChIP-seq und ATAC-seq-Signale um ihre TSSs herum analysiert und ihre Transkriptionsniveaus bewertet. Als Beispiele zeigen sie die Gene AGL und FRRS1 auf dem Schweine-Chromosom 4 sowie das MYOG-Gen auf Chromosom 9.
Die Gesamtlänge dieser nicht-redundanten cis-regulatorischen Sequenzen beträgt etwa 434,92 Millionen Basenpaare, was etwa 17,38 % des susScr11 Genoms entspricht. Um die Lokalisierungsgenauigkeit der oben identifizierten cis-regulatorischen Sequenzen zu bewerten, verglichen sie die Enhancer und Promotoren mit dem TSS, das von der University of California, Santa Cruz (UCSC) Swine Project annotiert wurde, und mit zuvor veröffentlichten ChIP-seq Daten von porzinen pluripotenten Stammzellen und Lebergeweben. Die Ergebnisse zeigen, dass etwa 50 % der vermeintlichen Promotoren mit Promotorüberlappungen oder TSSs übereinstimmen, die in den veröffentlichten Daten identifiziert wurden, während die anderen etwa 50 % im porzinen Genom nicht berichtet sind. Mehr als 86 % der Enhancer wurden ebenfalls nicht im Schweinegenom berichtet.
Die 3D-Struktur des Schweinegenoms wurde mithilfe von in situ Hi-C-Daten bewertet, wobei Skelettmuskel aus einer repräsentativen Gewebeprobe eines LW-Schweins verwendet wurde. Insgesamt wurden 1.189.583.975 gepaarte Endlesungen sequenziert, was mehr als 21-fache Genomabdeckung erreichte, und es wurden 408.546.465 eindeutig gültige Kontakte erhalten, von denen 290.325.259 Cis-Kontakte waren, nachdem die Daten mit Hi-C-Pro auf Gültigkeit gefiltert wurden. Aus diesen Kontakten wurden Chromatin-Konformationen als Chromatin-Interaktionsfrequenzen kartiert, und die Modellierung der 3D-Genomstruktur zeigte deutlich die räumlichen Beziehungen zwischen den genomischen Regionen des Schweins.
Cis-regulatorisches Element-Landschaft des Schweinegenoms. (Zhao et al., 2021)
In ihrer Studie führten sie durch RNA-Seq Analyse von 52 Proben, die aus 11 verschiedenen Schweinegeweben von vier unterschiedlichen Schweinerassen stammen. Sie zeigten vielfältige Muster der RNA-Expression in jedem Gewebe, die sie anschließend mit der K-means-Funktion in der Programmiersprache R in 20 verschiedene Cluster klassifizierten.
Cluster p20 stach hervor als ein Cluster mit Genen, die in allen Proben hoch exprimiert sind. Weitere Analysen unter Verwendung der DAVID Gene Ontology (GO) Anreicherung zeigten, dass die Gene in diesem Cluster hauptsächlich wesentliche Rollen in grundlegenden biologischen Prozessen spielen, was darauf hindeutet, dass sie als Hauskeeping-Gene betrachtet werden können. Bemerkenswerterweise wiesen mehr als die Hälfte der Cluster einen klaren Trend zur gewebespezifischen Expression auf.
Sie identifizierten 4.510 gewebespezifische Gene, definiert als solche, die in einem bestimmten Gewebe eine mindestens dreifache höhere Expression im Vergleich zu anderen über alle Schweinerassen aufwiesen. Nachfolgende DAVID GO-Anreicherungsanalysen zeigten, dass sie signifikant für spezifische Funktionen in einer Vielzahl von Geweben angereichert waren. Sie validierten ihre Ergebnisse, indem sie typische Beispiele untersuchten, und die Ergebnisse zeigten ein hohes Maß an Übereinstimmung zwischen RNA-Seq Daten und RT-PCR-Ergebnisse, die die Genauigkeit ihrer Analyse untermauern.
Darüber hinaus identifizierten sie 3.316 neuartige Transkripte, darunter 1.713 lange nicht-kodierende RNAs (lncRNAs), die zuvor im Schweinetranskriptom nicht dokumentiert waren. Auffällig ist, dass in allen untersuchten Geweben ähnliche Zahlen neuartiger Transkripte festgestellt wurden, was darauf hindeutet, dass frühere Studien diese spezifischen Transkripte möglicherweise übersehen haben. Bemerkenswerterweise fanden sie reichlich H3K4me3-Signalisierung in der Nähe der Transkriptionsstartstelle (TSS) dieser neu identifizierten Transkripte, was starke Beweise für ihre aktive Transkription liefert. Dieser robuste Identifikationsprozess unterstreicht die Vorteile des Aufbaus von strangspezifischen Bibliotheken nach der Entfernung von ribosomaler RNA (rRNA), einer Technik, die in früheren Schweine-Studien selten angewendet wurde. Darüber hinaus zeigen ihre Ergebnisse, dass diese neu identifizierten Transkripte einen höheren gewebespezifischen Index aufweisen im Vergleich zu bereits im Genom annotierten Genen.
Transkriptionsprofilierung und Analyse von cis-regulatorischen Elementen. (Zhao et al., 2021)
Enhancer-Sequenzen dienen als entscheidende regulatorische Elemente, die die gewebespezifische Genexpression steuern und tiefgreifende funktionale Auswirkungen auf die Etablierung unterschiedlicher Genexpressionsmuster haben. In dieser Studie kategorisierten die Autoren sorgfältig gewebespezifische Muster, die mit potenziellen Enhancern in verschiedenen Schweinegeweben assoziiert sind, und identifizierten erfolgreich 15.753 gewebespezifische Enhancer mit einem hohen Maß an Zuversicht. Darüber hinaus entdeckten sie unter Verwendung des ROSE-Algorithmus in jedem Gewebe für jede Rasse 414-1.306 Super-Enhancer. Wie erwartet wiesen die mit diesen Super-Enhancern assoziierten Gene im Vergleich zu den mit typischen Enhancern verbundenen Genen deutlich erhöhte Expressionsniveaus auf.
Weit verbreitete H3K4me3-Spitzen, in Verbindung mit aktiven Promotoren, die reich an H3K27ac sind, wurden zuvor dokumentiert, um die transkriptionale Aktivierung von Genen erheblich zu fördern. Die Ergebnisse dieser Untersuchung zeigten das Vorhandensein von 418-1899 breiten H3K4me3-Spitzen in jedem Gewebe über verschiedene Rassen hinweg. Ähnlich wie die Daten zu Super-Enhancern wiesen Gene, die in der Nähe dieser breiten H3K4me3-Spitzen lagen, im Vergleich zu zufällig ausgewählten Genen deutlich erhöhte Expressionsniveaus auf.
Um die Robustheit und Präzision ihrer Methodik zu validieren, führten die Forscher einen dualen Luciferase-Reporter-Gen-Assay in porzinen 3D4/21-Zellen durch, wobei 15 vorhergesagte nicht-gewebespezifische Enhancer und 18 zufällig ausgewählte Promotorsequenzen gezielt wurden. Die Ergebnisse unterstrichen einen erheblichen Anstieg der transkriptionalen Aktivität für die getesteten Enhancer und Promotoren im Vergleich zu randomisierten genomischen Regionen. Es ist auch erwähnenswert, dass unter den identifizierten Enhancern 1216 Sequenzen eine Konservierung mit bekannten menschlichen VISTA-Enhancern aufwiesen.
3D-Struktur und Regulation von cis-regulatorischen Elementen. (Zhao et al., 2021)
Die Identifizierung von Chromatin-Schleifen wurde durch die Hi-C-Matrixanalyse erleichtert. Mit dem verbesserten HiCCUPS-Algorithmus entdeckten wir 15.485 Schleifen bei einer Auflösung von 25 kb und 11.838 Schleifen bei einer Auflösung von 40 kb. Eine umfassende Zusammenführung von Hi-C- und cis-regulatorischen Elementdaten hob hervor, dass bei der 25-kb-Auflösung 79,74 % (12.347) dieser Schleifen mit cis-regulatorischen Elementen assoziiert waren, wobei 44,47 % signifikante Assoziationen aufwiesen. Nachfolgende Analysen, die Schleifendaten mit offenen Chromatinregionen, die durch ATAC-seq identifiziert wurden, integrierten, zeigten eine erhebliche Anreicherung von CTCF-Bindungsmotiven innerhalb der Schleifenanker. Diese Ergebnisse unterstreichen die konservierte Rolle von CTCF-Bindungsdomänen bei der Formung der 3D-Struktur von Säugetiergenomen.
Um die globale Auswirkung von Enhancern auf die Regulation komplexer Merkmale bei Schweinen zu untersuchen, sammelten die Autoren SNPs, die signifikante Assoziationen mit veröffentlichten genomweite Assoziationsstudien (GWAS) und untersuchten ihre Nähe zu Enhancern. Insgesamt wurden 7.238 mit GWAS assoziierte SNPs gesammelt, von denen 3.445 nicht redundant waren. Die Analyse zeigte eine bemerkenswerte Anreicherung von Enhancern um SNPs, die signifikant mit GWAS assoziiert sind, im Vergleich zu zufälligen genomischen Regionen in unterschiedlichen Abständen. Bemerkenswerterweise hatte frühere Forschung das PLCB4-Gen als Kandidatengen für Wachstum und durchschnittliche tägliche Zunahme bei Schweinen identifiziert, und unsere Studie bestätigte, dass der SNP, der signifikant mit der täglichen Zunahme von Schweinen verbunden ist, in der Nähe eines Enhancers liegt, der signifikant mit dem PLCB4-Gen assoziiert ist.
Referenz: