DEG zu funktionalen Einblicken: Ein praktischer clusterProfiler-Workflow (mit R-Skript-Skelett)

Eine Tabelle mit differentiellen Ausdrücken (DEG) ist ein nützlicher Ausgangspunkt – aber sie ist selten das Ende der Geschichte. Die meisten Menschen stoßen auf die gleiche nächste Frage: Was bedeuten diese genebenen Veränderungen auf der Ebene von Signalwegen und biologischen Funktionen? Hier kommt die funktionelle Anreicherungsanalyse ins Spiel.

Dieser ressourcenorientierte Leitfaden zeigt einen vollständigen, wiederholbaren Workflow in R: QC → Normalisierung → differentielle Expression → Anreicherung (ORA und GSEA) → Visualisierung, unter Verwendung von clusterProfiler (einem Bioconductor R-Paket) für Anreicherung und anreicherungsfreundliche Plots. Er ist so geschrieben, dass Sie die Struktur in Ihr eigenes Analyse-Notizbuch kopieren oder in ein kleines Skript anpassen können. Nahe dem Ende finden Sie auch ein kompaktes R-Skript-Skelett.

Unterwegs werden wir uns auf die praktischen Details konzentrieren, die in realen Projekten am wichtigsten sind: Eingabeformate, Gen-IDs, das Hintergrund-Genuniversum, wie man zwischen ORA und GSEA wählt und wie man die drei Diagramme erstellt, die die Leute tatsächlich verwenden (Volcano + Bar + Dot).

Wenn Sie noch entscheiden, wie Sie Schwellenwerte definieren, log2FC und FDR interpretieren oder Ihre DEG-Tabelle für die nachgelagerte Analyse strukturieren, könnte Ihnen dieser Überblick über die differentielle Expression hilfreich sein: Differenzielle Genexpressionsanalyse.

End-to-end steps from QC and normalization through differential expression, enrichment (ORA/GSEA), and visualization.Workflow-Übersicht des auf clusterProfiler basierenden DEG-zu-Anreicherungs-Pipelines.

Was Sie produzieren werden (Ergebnisse)

Bis Sie diesen Workflow abgeschlossen haben, sollten Sie eine kleine Menge an Ausgaben haben, die leicht wiederverwendbar und teilbar sind:

  • Ein DEG-Tisch mit mindestens:
    • Gen-ID (Ihre ursprüngliche ID und eine zugeordnete ID)
    • log2Faltungsänderung
    • p-Wert
    • padj (FDR-korrigierter p-Wert)
    • optional stat (nützlich für das Ranking in GSEA)
  • Anreicherungsergebnistabellen (CSV-freundlich) für:
    • GO-Anreicherung (z.B. Biologischer Prozess)
    • KEGG-Anreicherung (optional, abhängig von Organismus und IDs)
    • GSEA-Ergebnisse (optional, aber empfohlen, wenn Sie eine rangbasierte Analyse bevorzugen)
  • Drei Kernfiguren:
    1. Vulkan-Plot (DE Übersicht)
    2. Anreicherungs-Balkendiagramm (Top-Begriffe, Schnellübersicht)
    3. Anreicherungs-Dot-/Blasendiagramm (kompakte Zusammenfassung von Begriffen)
  • Ein wiederverwendbares "Skriptgerüst" das:
    • liest Eingaben
    • führt DE aus (oder lädt DEG-Ergebnisse)
    • führt Bereicherungen durch
    • Exportiert Tabellen und Diagramme in vorhersehbare Ordner.

Wenn Sie einen Blogbeitrag im Methodenstil oder ein internes SOP schreiben, lassen sich diese Ergebnisse gut in einer einfachen Ordnerstruktur abbilden:

  • Tabellen/ (DEG + Anreicherung)
  • plots/ (Vulkan + Balken + Punkt)
  • logs/ (optionale Sitzungsinformationen, Laufnotizen)

Eingaben & Einrichtung (Daten, IDs, Pakete)

Zwei gängige Ausgangspunkte

Option A: Von Zählungen aus starten (empfohlen)

Du hast:

  • eine rohe Zählmatrix (Gene × Proben, ganzzahlige Zählungen)
  • eine Beispiel-Metadatentabelle (Proben-IDs + Bedingung + optionale Kovariaten)

Dies ist die sauberste Route, da Sie die gesamte Kette kontrollieren.

Option B: Beginnen Sie mit einer DEG-Tabelle (am schnellsten)

Sie haben bereits Ergebnisse von DESeq2/edgeR/limma:

  • Gen-ID
  • log2FC
  • p-Wert und/oder FDR

Das ist in Ordnung für die Anreicherung, solange die DEG-Tabelle gut strukturiert ist und Sie eine Rangfolge für GSEA rekonstruieren können, wenn Sie das möchten.

Gen-IDs: Früh entscheiden, später Zeit sparen

In Anreicherungs-Workflows ist der häufigste Grund für das "Warum ist das leer?" ein ID-Mismatch.

Typische Ausweise, die Sie sehen werden:

  • SYMBOL (z.B., TP53)
  • ENSEMBL (z.B., ENSG00000141510)
  • ENTREZID (z.B., 7157)

clusterProfiler kann mit mehreren Typen arbeiten, aber viele GO/KEGG-Workflows sind am einfachsten, wenn Sie in ENTREZID für die Anreicherung umwandeln. Der praktische Ansatz ist:

  1. Behalten Sie Ihren ursprünglichen Gen-Identifikator in der DEG-Tabelle (zur Rückverfolgbarkeit).
  2. Erstellen Sie eine Zuordnungstabelle (Original → ENTREZID).
  3. Führen Sie eine Anreicherung mit ENTREZID durch.
  4. Exportieren Sie sowohl die Anreicherungsresultate als auch die Zuordnungstabelle.

Diese Zuordnungstabelle wird zu Ihrem "Kleber", wenn Sie Treffer interpretieren oder Genlisten für nachfolgende Analysen erstellen müssen.

Minimale Pakete, die Sie wahrscheinlich benötigen werden

Ein stabiler, gängiger Stapel sieht folgendermaßen aus:

  • Differenzielle ExpressionDESeq2 (oder edgeR/limma-voom)
  • Bereicherung: clusterProfiler
  • Annotation: org.Hs.eg.db / org.Mm.eg.db / usw. + AnnotationDbi
  • Visualisierung: ggplot2
  • Anreicherungsdiagramme: enrichplot (funktioniert reibungslos mit clusterProfiler-Ergebnissen)

Hinweis: Die Verfügbarkeit und das Verhalten von KEGG können je nach Organismus und der Handhabung von IDs variieren. Wenn Sie mit einer weniger verbreiteten Art arbeiten, kann GO einfacher sein als KEGG, es sei denn, Sie haben eine starke Unterstützungsannotation.

Schritt 1 — QC (Bevor Sie DEG vertrauen)

QC muss nicht kompliziert sein, aber es sollte absichtlich sein. Das Ziel ist einfach: Stellen Sie sicher, dass Ihre Proben sich so verhalten, wie es Ihr Studiendesign erwartet..

Drei Prüfungen decken viel ab:

1) Stichprobenclustering / Korrelation

  • Berechnen Sie die Stichproben-zu-Stichproben-Korrelation auf einer stabilisierten Expressionsmatrix (z. B. VST von DESeq2).
  • Suchen nach:
    • Replikate gruppieren sich zusammen
    • unerwartete Paare
    • eine Probe, die sich weigert, der Gruppe beizutreten

2) PCA (oder MDS)

PCA ist schnell, visuell und in der Regel informativ.

  • Färben Sie die Punkte nach Bedingung, Charge, Spender, Bibliotheksvorbereitungsdatum – was auch immer Sie haben.
  • Wenn ein unerwünschter Faktor die ersten Komponenten dominiert, ignorieren Sie ihn nicht. Oft besteht die Lösung darin, eine Kovariate zur DE-Designformel hinzuzufügen, anstatt Proben wegzulassen.

Sample clustering pattern showing separation by condition and overall similarity among replicates.PCA-basierte Stichproben-QC-Visualisierung.

3) Überprüfungen der Bibliotheksgröße / Verteilung

  • Gesamtanzahl pro Probe
  • Verteilung der Zählungen / Anzahl der detektierten Gene

Kleine Unterschiede sind normal. Große Unterschiede können ein Zeichen für technische Probleme sein.

Eine praktische Anmerkung zu Ausreißern:

Wenn Sie eine Probe entnehmen, notieren Sie sich bitte. warum Halten Sie alles in einem Satz fest und führen Sie ein Protokoll. Selbst für interne Arbeiten wird Ihr zukünftiges Ich dankbar sein.

Schritt 2 — Normalisierung (Für differentielle Expression)

Normalisierung ist eines dieser Wörter, die in verschiedenen Kontexten unterschiedliche Bedeutungen haben.

Für die differentielle Expression erwarten die meisten etablierten Methoden Rohzählungen und führen die Normalisierung als Teil des Modells durch:

  • DESeq2 verwendet Größenfaktoren.
  • edgeR verwendet TMM
  • limma-voom verwendet Präzisionsgewichte (nach der Transformation der Zählungen).

Ein häufiger Umweg besteht darin, TPM/FPKM für die differentiellen Expressionen (DE) zu verwenden. TPM ist für bestimmte Arten von Vergleichen nützlich, aber bei zählbasierten DE wirft es normalerweise mehr Fragen auf, als es beantwortet. Wenn Ihr Ziel zuverlässige differenzielle Tests ist, bleiben Sie im zählbasierten Bereich.

Filtern von Genen mit niedriger Häufigkeit

Einige Filterung ist hilfreich:

  • Entfernen Sie Gene, die in allen Proben im Wesentlichen abwesend sind.
  • Verwenden Sie eine Regel, die unabhängig von Bedingungsbezeichnungen ist (z. B. "mindestens X Zählungen in mindestens Y Proben").

Die Filterung verbessert die Leistung und reduziert das Rauschen, insbesondere in kleinen Studien.

Schritt 3 — Differenzielle Expression (Erstellen einer DEG-Tabelle)

Ihr DEG-Tabelle ist der Dreh- und Angelpunkt zwischen genebezogenen Statistiken und Anreicherung. Eine "gute" DEG-Tabelle für die nachgelagerte Anreicherung umfasst:

  • eine stabile Gen-ID-Spalte (Gen, SYMBOL oder ENSEMBL)
  • log2Faltänderung
  • p-Wert
  • padj (FDR)
  • optional: eine Teststatistik (stat) zur Rangordnung

Schwellenwerte: Halte sie benutzbar, nicht dogmatisch.

Ein häufiger Ausgangspunkt ist:

  • padj < 0,05
  • optional |log2FC| >= 1

Aber viele Analysen profitieren davon, etwas flexibler zu sein:

  • Für ORA sind Schwellenwerte wichtig, da Sie eine Teilmenge von Genen auswählen.
  • Für GSEA sind Schwellenwerte weniger wichtig, da Sie eine rangierte Liste aller Gene verwenden.

Wenn Sie wissen, dass Ihr Signal subtil ist (oder Ihre Stichprobengröße bescheiden), ziehen Sie in Betracht, sich eher auf rangbasierte GSEA zu stützen, anstatt zu versuchen, eine große DEG-Liste "zu erzwingen".

Geteilt nach oben und unten?

Für ORA ist es oft informativ, die Anreicherung separat für Folgendes durchzuführen:

  • hochregulierte Gene
  • herunterregulierte Gene

Das hält die Richtung klar. Andernfalls kann es passieren, dass Sie einen gemischten Gen-Satz haben, bei dem ein Begriff "angereichert" ist, aber die Gene darin in beide Richtungen bewegen.

Schritt 4 — Anreicherung mit clusterProfiler (ORA & GSEA)

Dies ist der Kern des Leitfadens. clusterProfiler unterstützt mehrere Anreicherungsansätze, aber zwei sind besonders häufig für RNA-Seq Interpretation:

  • ORA (Überrepräsentationsanalyse): Was ist unter den signifikanten Genen überrepräsentiert?
  • GSEA (Gen-Set-Anreicherungsanalyse): Welche Wege verschieben sich über die gesamte Rangliste?

ORA: enrichGO / enrichKEGG

Eingaben, die Sie benötigen

  • Eine Genliste (in der Regel signifikante DEGs, optional unterteilt in hoch/niedrig)
  • Ein Hintergrunduniversum (stark empfohlen)

Über das Universum (Hintergrund-Genset)

Wenn Sie kein Universum festlegen, wird Ihre Anreicherung oft mit einem breiten Standardhintergrund aus der Annotationsdatenbank verglichen. In vielen Fällen ist ein praktischer und besser verteidigbarer Rahmen:

  • Universum = alle Gene, die in der differentiellen Expression getestet wurden.
    (d.h., nach Filterung und Modellerstellung)

Dies stimmt den Anreicherungs-Hintergrund mit dem ab, was Ihr Experiment realistisch erkennen könnte.

GO-Anreicherung (empfohlener Ausgangspunkt)

  • GO hat drei gängige Ontologien: BP, MF, CC.
  • Biologischer Prozess (BP) ist oft die intuitivste für die erste Interpretation.

KEGG-Anreicherung (optional)

KEGG kann sehr nützlich sein, aber hier treten auch häufiger ID- und Organismusprobleme auf. Wenn KEGG leere Ergebnisse zurückgibt:

  • Bestätigen Sie Ihre IDs (ENTREZID wird normalerweise erwartet)
  • Bestätigen Sie die Unterstützung für Organismen.
  • Versuche zuerst GO, um zu überprüfen, ob die Pipeline funktioniert.

GSEA: gseGO / gseKEGG

GSEA verändert die Fragestellung. Anstatt einen "signifikanten Genuntergruppe" auszuwählen, werden alle Gene nach einer Statistik eingestuft und es wird gefragt, ob Gene aus einem Weg tendenziell oben oder unten erscheinen.

Was Sie für GSEA benötigen

  • ein benannter numerischer Vektor:
    • Namen sind Gen-IDs (häufig ENTREZID)
    • Werte sind Rangstatistiken (höher = stärker mit Bedingung A assoziiert, zum Beispiel)
  • in absteigender Reihenfolge sortiert

Rangfolge von Optionen, die leicht zu erklären sind

  • DESeq2 Wald-Statistik (stat), falls verfügbar
  • signiert -log10(p-Wert) skaliert nach Richtung:
    • sign(log2FC) * -log10(pvalue)

Wenn Sie den Ansatz mit dem signierten Log-p-Wert wählen, schützen Sie sich vor Nullen und NAs (z. B. indem Sie p-Werte auf ein Minimum wie 1e-300 beschränken).

Schritt 5 — Visualisierung (Vulkan / Balken / Punkt)

Dieser Workflow konzentriert sich absichtlich auf drei Diagramme, da sie die meisten Bedürfnisse abdecken, ohne Ihre Ausarbeitung in ein Figurenmuseum zu verwandeln.

Vulkan-Diagramm (DE Übersicht)

Ein Vulkanplot zeigt:

  • Magnitude (log2FC)
  • Bedeutung (häufig -log10(padj))

Gute Gewohnheiten:

  • nur eine Handvoll Gene kennzeichnen (Top-Treffer oder bekannte Marker)
  • Halte die Schwellenwerte sichtbar, aber nicht überwältigend.

Volcano plot summarizing differential expression results.Vulkanplot, der die Ergebnisse der differentiellen Expression zusammenfasst.

Anreicherungsbalkendiagramm (Top-Begriffe)

Verwenden Sie Balkendiagramme, um eine kurze Liste der am stärksten angereicherten Begriffe anzuzeigen. Halten Sie es prägnant:

  • 10–20 Begriffe sind normalerweise ausreichend.
  • Sortiere nach p.adjust, es sei denn, du hast einen klaren Grund, es nicht zu tun.

Anreicherungs-Dot-/Blasen-Diagramm (kompakte Zusammenfassung)

Punktdiagramme sind eine großartige "Ein-Panel"-Zusammenfassung:

  • Farbe: Bedeutung (p.adjust)
  • Größe: Anzahl oder Genverhältnis

Wenn Sie Punktdiagramme veröffentlichen, halten Sie die Legende leserlich und vermeiden Sie es, zu viele Begriffe anzuzeigen.

Functional categories compared by enrichment magnitude and statistical significance using dot size and color. Punktdiagramm zur Zusammenfassung angereicherter funktioneller Begriffe mit Größen- und Farbcodierung.

Wichtige Entscheidungen & Häufige Fallstricke (Checkliste)

Dieser Abschnitt soll eine schnelle "Checkliste vor dem Export der Ergebnisse" sein.

1) ID-Zuordnungsqualität

  • Wie viele Gene wurden erfolgreich kartiert?
  • Gibt es Duplikate (viele-zu-eins-Abbildung)?
  • Hast du versehentlich einen großen Bruchteil fallen lassen?

Tipp: Exportieren Sie eine Mapping-Tabelle und bewahren Sie sie mit Ihren Ergebnissen auf. Das verhindert später Verwirrung.

2) Hintergrunduniversum in ORA

Wenn die ORA-Ergebnisse seltsam aussehen (zu breit, zu leer, zu allgemein), überprüfen Sie das Universum erneut.

Ein praktischer Standard:

  • Universum = getestete Gene in DE

3) ORA vs GSEA Wahl

  • ORA ist empfindlich gegenüber Schwellenwerten.
  • GSEA ist empfindlich gegenüber der Definition der Rangfolge.

Wenn Sie mit den ORA-Ergebnissen nicht zufrieden sind, versuchen Sie GSEA, bevor Sie Ihre Schwellenwerte fünfmal neu schreiben.

4) Zu viele ähnliche GO-Begriffe

GO ist von Natur aus hierarchisch und redundant. Wenn Ihre besten Ergebnisse wie Wiederholungen aussehen:

  • die Anzahl der angezeigten Kategorien reduzieren
  • Berücksichtigen Sie die Redundanzreduzierung (z. B. vereinfachte semantische Ähnlichkeit).
  • Gruppiere die Ergebnisse nach Themen, anstatt 40 nahezu identische Einträge aufzulisten.

"Leere KEGG-Ergebnisse"

Häufige Gründe:

  • falscher ID-Typ
  • Organismusunterstützungsprobleme
  • zu wenige Gene (ORA)
    Versuch:
  • Bestätigung der ENTREZID-Zuordnung
  • Zuerst GO-Anreicherung durchführen
  • Verwendung von GSEA mit einer rangierten Liste

6) Lesbarkeit der Handlung

Ein technisch korrekter Plot kann dennoch schwer zu lesen sein.

  • Begrenzte Bedingungen
  • verwenden Sie eine konsistente Sortierung
  • Halte Legenden und Beschriftungen kurz.
  • Schreibe Bildunterschriften, die erklären, was Größe/Farbe repräsentiert.

Herunterladen: R-Skript-Gerüst

Unten finden Sie ein kompaktes Skriptgerüst, das Sie anpassen können. Es geht davon aus:

  • Zählmatrix + Metadaten
  • DESeq2 für DE
  • clusterProfiler für GO-Anreicherung (ORA) und optional GSEA
  • Exportiert Tabellen + Diagramme

Es ist absichtlich minimal gehalten, damit du es in einen Blog-Ressourcendownload einfügen und den Lesern erlauben kannst, ein paar Zeilen zu ändern.

UnterdrückePaketStartNachrichten({

Bibliothek(DESeq2)

Bibliothek(clusterProfiler)

Bibliothek(enrichplot)

Bibliothek(AnnotationDbi)

library(org.Hs.eg.db) # tauschen Sie es gegen Ihr Organismus aus

Bibliothek(ggplot2)

Bibliothek(dplyr)

}

# ---- Eingaben (bearbeiten) ----

counts_datei <- "counts.csv" # Gene x Proben, rohe Zählungen

meta_datei <- "meta.csv" # Probe, Bedingung (und optionaler Batch)

id_type_in <- "SYMBOL" # SYMBOL oder ENSEMBL

cond_a <- "behandelt"

cond_b <- "Kontrolle"

dir.create("tabellen", showWarnings = FALSE)

dir.create("plots", showWarnings = FALSE)

# ---- Laden ----

counts <- read.csv(counts_datei, row.names = 1, check.names = FALSE)

meta <- read.csv(meta_datei, stringsAsFactors = FALSE)

counts <- counts[, meta$probe]

# ---- DE ----

dds <- DESeqDataSetFromMatrix(

countData = round(as.matrix(counts)),

colData = data.frame(meta, row.names = meta$sample),

design = ~ Bedingung

)

# Einfache Filterung

dds <- dds[rowSums(counts(dds) >= 10) >= 2, ]

dds <- DESeq(dds)

res <- Ergebnisse(dds, Kontrast = c("Bedingung", cond_a, cond_b))

res <- as.data.frame(res) %>%

mutate(gene = rownames(.)) %>%

filter(!is.na(padj))

write.csv(res, "tables/DEG_results.csv", row.names = FALSE)

# ---- Vulkan ----

vol <- res %>% mutate(sig = padj < 0,05 & abs(log2FoldChange) >= 1)

p_vol <- ggplot(vol, aes(log2FoldChange, -log10(padj))) +

geom_point(aes(alpha = sig), size = 1) +

scale_alpha_manual(values = c(`TRUE` = 0.8, `FALSE` = 0.2), guide = "none") +

theme_bw() +

labs(x = "log2 Faltungsänderung", y = "-log10(FDR)", title = "Volcano-Diagramm")

ggsave("plots/volcano.pdf", p_vol, width = 6.5, height = 5)

# ---- ID-Zuordnung ----

mapped <- bitr(res$gene,

fromType = id_typ_in,

toType = "ENTREZID",

OrgDb = org.Hs.eg.db)

res_entrez <- res %>%

inner_join(mapped, by = c("gene" = id_type_in)) %>%

distinct(ENTREZID, .keep_all = TRUE)

write.csv(res_entrez, "tables/DEG_mit_ENTREZID.csv", row.names = FALSE)

write.csv(mapped, "tables/ID_mapping.csv", row.names = FALSE)

# ---- ORA (GO BP) ----

deg_up <- res_entrez %>% filtern(padj < 0.05, log2FoldChange >= 1) %>% ziehen(ENTREZID)

deg_dn <- res_entrez %>% filter(padj < 0.05, log2FoldChange <= -1) %>% pull(ENTREZID)

universum <- res_entrez$ENTREZID

ego_up <- enrichGO(gene = deg_up, universum = universum,

OrgDb = org.Hs.eg.db, keyType = "ENTREZID",

ont = "BP", pAnpassungsMethode = "BH", qwertCutoff = 0.05)

ego_dn <- enrichGO(gene = deg_dn, universum = universum,

OrgDb = org.Hs.eg.db, keyType = "ENTREZID",

ont = "BP", pAdjustMethod = "BH", qvalueCutoff = 0,05)

write.csv(as.data.frame(ego_up), "tables/GO_ORA_up.csv", row.names = FALSE)

write.csv(as.data.frame(ego_dn), "tables/GO_ORA_down.csv", row.names = FALSE)

# ---- Plots: Balken + Punkte ----

ggsave("plots/GO_ORA_up_bar.pdf", barplot(ego_up, showCategory = 15), width = 7, height = 5)

ggsave("plots/GO_ORA_up_dot.pdf", dotplot(ego_up, showCategory = 15), width = 7, height = 5)

# ---- Optional: GSEA ----

rank_vec <- res_entrez$stat

wenn (alle(is.na(rank_vec))) {

p <- pmax(res_entrez$pvalue, 1e-300)

rank_vec <- sign(res_entrez$log2FoldChange) * -log10(p)

}

names(rank_vec) <- res_entrez$ENTREZID

rank_vec <- sort(rank_vec, decreasing = TRUE)

gse_bp <- gseGO(geneList = rang_vec,

OrgDb = org.Hs.eg.db, Schlüsseltyp = "ENTREZID",

ont = "BP", pAnpassungsMethode = "BH", ausführlich = FALSE)

write.csv(as.data.frame(gse_bp), "tables/GO_GSEA_BP.csv", row.names = FALSE)

ggsave("plots/GO_GSEA_dot.pdf", dotplot(gse_bp, showCategory = 15), width = 7, height = 5)

Wie man dies in eine herunterladbare Ressource umwandelt

  • Alle bearbeitbaren Eingaben nach oben setzen (Pfade, Organismus-Datenbank, ID-Typ, Bedingungen).
  • Immer exportieren:
    • DEG-Tabelle
    • ID-Zuordnungstabelle
    • Anreicherungstabellen
    • Plots
  • Halten Sie die Ordnernamen konsistent, damit die Ausgabe vorhersehbar ist.

Häufig gestellte Fragen

Muss ich DESeq2 ausführen, um clusterProfiler zu verwenden?

Nein. Sie können clusterProfiler mit Ergebnissen aus jeder DE-Methode verwenden, solange Sie eine Genliste für ORA oder einen rangierten Genvektor für GSEA haben.

Sollte ich ORA oder GSEA für die Pfadanreicherung verwenden?

Verwenden Sie ORA, wenn Sie eine Anreicherung in einem ausgewählten DEG-Set wünschen. Verwenden Sie GSEA, wenn Sie lieber die Anreicherung über eine rangierte Liste testen möchten, ohne sich auf einen strengen Cutoff zu verlassen.

Warum liefert die Anreicherung keine Ergebnisse?

Am häufigsten handelt es sich um eine ID/Organismus-Unstimmigkeit (insbesondere bei KEGG) oder die Eingabeliste ist zu klein. Die Überprüfung der ID-Konvertierung und der Wechsel zu GSEA sind gängige Lösungen.

Was sollte ich als Hintergrund-Gen-Set (Universum) für ORA verwenden?

Ein praktischer Standard ist die Menge der Gene, die in Ihrer DE-Analyse getestet wurden (nach der Filterung), nicht das gesamte Genom.

Wie viele Terme sollte ich darstellen?

In der Regel sind 10–20 Begriffe ausreichend für eine klare Darstellung; mehr wird tendenziell repetitiv und schwer lesbar.

Referenzen:

  1. Yu, Guangchuang, et al. "clusterProfiler: Ein R-Paket zum Vergleichen biologischer Themen zwischen Gen-Clustern." OMICS: Eine Zeitschrift für integrative Biologie, Bd. 16, Nr. 5, 2012, S. 284–287.
  2. Liebe, Michael I., Wolfgang Huber und Simon Anders. "Moderierte Schätzung von Fold Change und Dispersion für RNA-seq-Daten mit DESeq2." Genomik Biologie, Bd. 15, 2014, S. 550.
  3. Robinson, Mark D., Davis J. McCarthy und Gordon K. Smyth. "edgeR: ein Bioconductor-Paket zur Analyse der differentiellen Expression von digitalen Genexpressionsdaten" Bioinformatik, Bd. 26, Nr. 1, 2010, S. 139–140.
  4. Gesetz, Charity W., et al. "voom: Präzisionsgewichte aktivieren lineare Modellanalysetools für RNA-seq-Lesezahlen." Genomik Biologie, Bd. 15, 2014, S. R29.
  5. Der Gene Ontology Konsortium. "Die Gene Ontologie Ressource: Eine Goldmine bereichern." Nukleinsäurenforschung, Bd. 49, Nr. D1, 2021, S. D325–D334.
  6. Kanehisa, Minoru, und Susumu Goto. "KEGG: Kyoto-Enzyklopädie der Gene und Genome." Nukleinsäurenforschung, Bd. 28, Nr. 1, 2000, S. 27–30.
  7. Subramanian, Aravind, et al. "Gene-Set-Anreicherungsanalyse: Ein wissensbasierter Ansatz zur Interpretation genomweiter Expressionsprofile." Sitzungsberichte der Nationalen Akademie der Wissenschaften, 2005.
  8. Benjamini, Yoav, und Yosef Hochberg. "Kontrolle der Fehlerrate bei Entdeckungen: Ein praktischer und leistungsstarker Ansatz für multiple Tests." Journal der Royal Statistical Society: Serie B (Methodologie), Bd. 57, Nr. 1, 1995, S. 289–300.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben