Die Gen-Satz-Anreicherungsanalyse (GSEA) dient als ein fortschrittliches rechnergestütztes Werkzeug, das häufig für die Analyse von genomische Daten und transkriptomische DatenDieses Verfahren bestimmt, ob bestimmte Sammlungen von Genen, die als Gen-Sets bezeichnet werden, statistisch signifikante Variationen in den Expressionsniveaus aufweisen, wenn zwei unterschiedliche biologische Zustände verglichen werden. Durch die Konzentration auf das kollektive Verhalten von Genen anstatt sie isoliert zu analysieren, ermöglicht GSEA ein tieferes Verständnis der übergeordneten biologischen Prozesse. Folglich sind Forscher besser in der Lage, die Implikationen umfangreicher Gene-Expressions-Datensätze zu entschlüsseln.
GSEA ist ein Verfahren, das verwendet wird, um den Anreicherungstrend eines bestimmten Satzes von Genen innerhalb einer Genrangliste zu bewerten, die mit einem bestimmten Phänotyp korreliert, und damit die Rolle des Gen-Sets bei der Manifestation dieses Phänotyps zu etablieren. Die Analyse erfordert zwei Hauptinputs: eine Sammlung von Genen, die durch ihre bekannten Funktionen charakterisiert sind, und eine Matrix, die die Genexpressionsniveaus detailliert. Der GSEA-Algorithmus ordnet die Gene nach ihrem Grad der Assoziation mit dem Phänotyp, wie er sich in den Variationen der Expression widerspiegelt, von der höchsten bis zur niedrigsten Korrelation. Anschließend untersucht die Software, ob die Gene innerhalb jeder Kategorie des Gen-Sets zu Beginn oder am Ende der rangierten Liste gruppiert sind. Dieser Prozess zeigt den Einfluss der kollektiven Ausdrucksänderungen innerhalb des Gen-Sets auf die beobachteten phänotypischen Unterschiede.
GSEA wurde erstmals von Forschern des Broad Institute (Subramanian A. et al., 2005) eingeführt. Diese neuartige Strategie verlagert den analytischen Fokus von einzelnen Genen auf die kollektiven Aktionen vordefinierter Gen-Sets und legt damit grundlegend die Basis für pathway-zentrierte Ansätze im Bereich der Bioinformatik. Vor dem Aufkommen von GSEA konzentrierte sich die Untersuchung von Genexpressionsdatensätzen weitgehend auf die Erkennung von differentiell exprimierten Genen (DEGs) in verschiedenen biologischen Kontexten, wie zum Beispiel dem Vergleich von gesunden mit pathologischen Bedingungen. Obwohl informativ, berücksichtigte dieser Ansatz häufig nicht das Netzwerk von Genen innerhalb biologischer Wege. Da Krankheiten oft synchronisierte Modifikationen in der Expression zahlreicher Gene mit sich bringen, anstatt nur Änderungen in einzelnen Genen, hatten die Forscher Schwierigkeiten, die komplexen Daten zu verstehen, die aus Technologien wie DNA-Mikroarrays und RNA-Seq.
Dienste, an denen Sie interessiert sein könnten
Gen-Sets sind vordefinierte Sammlungen von Genen, die basierend auf ihrer Assoziation mit spezifischen biologischen Wegen, Prozessen oder molekularen Funktionen zusammengefasst sind.
Gen-Sets werden typischerweise aus verschiedenen biologischen Datenbanken abgeleitet, die Gene basierend auf ihren funktionalen Rollen kuratieren und annotieren. Eine der bekanntesten Ressourcen für Gen-Sets ist die Molecular Signatures Database (MSigDB), die Tausende von annotierten Gen-Sets für die Verwendung in GSEA (Liberzon, A. et al.) enthält. Die MSigDB kategorisiert Gen-Sets in mehrere Sammlungen, darunter:
Im Gegensatz zu traditionellen Einzelgenanalysen bewertet GSEA Gen-Sets als Ganzes, was das Rauschen reduziert und biologisch relevante Muster hervorhebt. Dies bietet eine ganzheitlichere Sicht auf Veränderungen der Genexpression.
Abbildung 1. Aktuelle Methoden zur Genanreicherung Analyse (Abbildung stammt von GitHub).
Im Kontext einer Genliste L, die sequenziert wurde, und eines vorab festgelegten Gen-Sets S (das Gene umfassen kann, die mit einem spezifischen Stoffwechselweg assoziiert sind, Gene in enger genomischer Nähe oder Gene, die eine gemeinsame Gene Ontology-Anmerkung teilen), besteht das Ziel der GSEA darin, festzustellen, ob die Gene innerhalb von S zufällig über L verteilt sind oder überwiegend am Anfang oder Ende von L gruppiert sind. Diese Sequenzierung spiegelt die unterschiedlichen Expressionsniveaus der Gene unter verschiedenen phänotypischen Bedingungen wider. Sollten die Gene innerhalb des untersuchten Gen-Sets S signifikant an den Extremen von L aggregiert sein, deutet dies darauf hin, dass diese Gene eine Rolle bei den beobachteten phänotypischen Variationen spielen und somit den Schwerpunkt unserer Analyse bilden.
Abbildung 2. Eine GSEA-Übersicht, die die Methode veranschaulicht (Subramanian A. et al., 2005).
Forscher, die GSEA nutzen, können Daten aus der Einzelzell-RNA-Sequenzierung besser interpretieren und transkriptomische Datenanalyse um kritische Einblicke in zelluläre Wege zu enthüllen.
Krebsforschung: GSEA hilft dabei, Signalwege zu identifizieren, die an der Tumorentstehung beteiligt sind, und bietet Einblicke in potenzielle therapeutische Ziele.
Arzneimittelentdeckung: Sie erläutert die molekularen Mechanismen, die den Arzneimittelreaktionen zugrunde liegen, und erleichtert die Identifizierung neuer Arzneimittelziele.
Funktionelle Genomik: GSEA deckt die Rollen spezifischer Gencluster in biologischen Prozessen auf und verbessert unser Verständnis der Genfunktionen.
Mehrere Werkzeuge wurden entwickelt, um GSEA zu erleichtern, jedes mit seinen einzigartigen Funktionen und Fähigkeiten. Unten steht eine Tabelle, die einige der beliebtesten Werkzeuge zur Durchführung von GSEA zusammenfasst und ihre wichtigsten Merkmale hervorhebt.
| Werkzeugname | Beschreibung | Plattform | Verfügbarkeit |
|---|---|---|---|
| GSEA | Die ursprüngliche Software, die vom Broad Institute für GSEA-Analysen entwickelt wurde. | Java-basiert | Open Source, kostenlos |
| Enrichr | Eine intuitive webbasierte Plattform, die GSEA neben anderen Methoden zur Anreicherungsanalyse umfasst. | Webbasiert | Frei |
| WebGestalt | Ein webbasiertes Tool zur Gen-Set-Analyse, das GSEA und andere Anreicherungsmethoden umfasst. | Webbasiert | Kostenlos |
| MSigDB | Eine Sammlung annotierter Gen-Sets zur Verwendung mit GSEA und anderer Software. | Datenbank | Kostenlos für akademische Zwecke |
| ClusterProfiler | Ein R-Paket, das verschiedene Funktionen für die Gen-Set-Anreicherungsanalyse bereitstellt, einschließlich GSEA. | R-Paket | Open Source, kostenlos |
| fgsea | Ein R-Paket für schnelle GSEA-Analysen, das für die Leistung mit großen Datensätzen optimiert ist. | R-Paket | Open Source, kostenlos |
| GSEA-MSigDB | Eine Desktop-Anwendung, die MSigDB mit GSEA-Analysen integriert. | Java-basiert | Kostenlos für akademische Zwecke |
| GenePattern | Eine integrierte Plattform, die GSEA und andere bioinformatische Werkzeuge umfasst. | Webbasiert | Kostenlos für akademische Zwecke |
| DAVID | Ein webbasiertes Tool zur funktionalen Annotation und Analyse der Genanreicherung. | Webbasiert | Kostenlos für akademische Zwecke |
Der Anreicherungswert (ES) misst das Ausmaß der Überrepräsentation eines Gen-Sets. Weitere wichtige Kennzahlen sind der normalisierte Anreicherungswert (NES) und angepasste p-Werte, um statistische Strenge zu gewährleisten.
Abbildung 3. Heatmap, die die 30 am stärksten veränderten Gen-Sets darstellt (Lin, W., et al., 2022).
Abbildung 4. GSEA-Anreicherungsanalyse von Genen, die mit dem Signaltransduktionsweg von Pflanzenhormonen in Verbindung stehen (Wang, Y. et al., 2021).
Die Gen-Set-Anreicherungsanalyse ist ein Grundpfeiler der modernen Bioinformatik, Forscher zu befähigen, bedeutungsvolle Erkenntnisse zu gewinnen aus Hochdurchsatz-Genomik Daten. Durch die Nutzung robuster Werkzeuge und Dienstleistungen, wie sie von CD Genomics angeboten werden, können Forscher ihr Verständnis von Genexpression und Signalweg-Dynamik verbessern.
Referenzen: