Die präzise Annotation von Clustern in Seurat spielt eine entscheidende Rolle bei der Gewinnung wertvoller Erkenntnisse aus Einzelzell-RNA-Sequenzierungs (scRNA-seq) Datensätzen. Durch die Zuordnung von rechnerisch ermittelten Clustern zu biologischer Relevanz können Forscher die zelluläre Heterogenität und Funktionalität besser verstehen. Dieser Leitfaden bietet einen umfassenden Schritt-für-Schritt-Überblick über Methoden, Werkzeuge und Strategien für eine effektive Clusterannotation, mit dem Ziel, zuverlässige und qualitativ hochwertige Ergebnisse in scRNA-seq-Analysen zu erzielen.
Seurat bietet eine vielseitige Suite von Werkzeugen, die häufig für die Analyse von scRNA-seq-Daten verwendet werden. Durch die Möglichkeit, Zellen basierend auf Genexpressionsprofilen zu gruppieren, hat es die Untersuchung von Zellpopulationen erheblich vorangetrieben. Dennoch ist Clustering allein nicht ausreichend; eine präzise Annotation ist entscheidend, um die computergestützten Ergebnisse biologisch sinnvoll zu interpretieren. Dieser Prozess verbindet mathematische Rahmenbedingungen mit biologischen Kontexten und hilft Forschern, tiefere Einblicke in die zelluläre Vielfalt und die Rollen zu gewinnen.
Was ist Clustering in Seurat?
Das Clustering in Seurat beinhaltet das Gruppieren von Zellen in verschiedene Populationen basierend auf ihren Transkriptionsprofilen. Diese Gruppierung wird typischerweise mithilfe von Techniken zur Dimensionsreduktion wie UMAP oder t-SNE visualisiert, die hochdimensionale Daten in einem zweidimensionalen Raum darstellen. Cluster repräsentieren diskrete Gruppen von Zellen, die oft bestimmten Zelltypen oder funktionalen Zuständen entsprechen.
Warum ist Annotation wichtig?
Die Annotation verleiht diesen rechnerischen Clustern biologische Bedeutung und stellt sicher, dass Forscher umsetzbare Erkenntnisse aus ihren Daten gewinnen können.
Ohne genaue Annotation wird der biologische Nutzen der scRNA-seq-Analyse verringert.
Ressource
Seurat bietet Flexibilität bei der Clusterannotation durch manuelle, automatisierte und integrierte Ansätze.
Die manuelle Annotation basiert auf dem Vorwissen über Marker-Gene. Durch den Vergleich der unterschiedlich exprimierten Gene (DEGs) innerhalb jedes Clusters mit etablierten Markern können Forscher Zelltypbezeichnungen zuweisen.
Zum Beispiel kann ein Cluster mit hoher Expression von CD3D und CD8A als zytotoxische T-Zellen annotiert werden. Dieser Ansatz wird häufig in Studien verwendet, in denen Forscher spezifische Hypothesen über die vorhandenen Zelltypen haben. In einer Studie haben Forscher Cluster aus einem scRNA-seq-Datensatz menschlicher peripherer Blutmononuklearzellen (PBMCs) manuell annotiert, indem sie Cluster identifizierten, die bekannte Lymphozytenmarker wie CD19 für B-Zellen und CD3D für T-Zellen exprimieren, und somit ihre Identitäten durch literaturgestützte Marker-Gen-Expressionsprofile bestätigten (Zhao, J, et al., 2020).
Abbildung 1. UMAP-Diagramm der Immunzellen (Zhao, J, et al., 2020).
Es gibt viele Software und Methoden zur Annotation von Einzelzellen, und bereits im Jahr 2021 erschien ein Artikel, der die Vor- und Nachteile verschiedener Software zur Annotation von Einzelzellen zusammenfasste und verglich (Xie, B, et al., 2021).
Prinzip der automatisierten Annotation
Das Prinzip der automatischen Zelltypannotation nutzt öffentliche Ressourcen für Einzelzell-RNA-Sequenzierung (scRNA-seq) und Algorithmen, um Zelltypen direkt vorherzusagen, ohne manuelle Annotation zu erfordern. Es umfasst hauptsächlich drei Ansätze: Eager Learning, das auf Klassifikatoren basiert; Lazy Learning, das auf der Ähnlichkeit zu benachbarten Zellen beruht; und Marker Learning, das Marker-Gene und Bewertungsfunktionen verwendet. Diese Methoden werden an großangelegten Datensätzen trainiert und verwenden spezifische Algorithmen oder Bewertungsmechanismen, um Zelltypen in unbekannten Daten schnell und genau zuzuweisen. Dies verbessert die analytische Effizienz erheblich, macht es geeignet für große Datensätze und wiederholte Analysen und reduziert die Abhängigkeit von Fachwissen.
Abbildung 2. Workflow der traditionellen und automatischen Methoden zur Identifizierung von Zelltypen. (Xie, B, et al., 2021).
Seurat automatisierte Annotationsmethode
Diese Methode wurde erstmals in Nature Biotechnology veröffentlicht (Butler, A., et al., 2018). Die Forscher verwendeten zunächst die kanonische Korrelationsanalyse (CCA), um Batch-Effekte, die durch nicht-biologische Faktoren zwischen verschiedenen Proben verursacht wurden, zu korrigieren. Da die Studie relativ früh veröffentlicht wurde, birgt CCA das Risiko einer Überkorrektur und kann zeitaufwendig sein, wenn große Datensätze integriert werden. Daher können in praktischen Anwendungen fortschrittlichere Werkzeuge wie Harmony oder andere Integrationsmethoden in Betracht gezogen werden, um Referenzdatensätze zu erstellen. Anschließend identifizierten die Forscher Zelltypen und deren UMAP (Uniform Manifold Approximation and Projection) Koordinaten im Validierungsdatensatz durch den Vergleich von Zelltypbezeichnungen und Projektion. Im Wesentlichen liegt der Kern dieser Methode darin, bekannte Datensätze zu nutzen, um unbekannte Datensätze zu annotieren und die UMAP-Informationen von Zellen aus dem unbekannten Datensatz auf den bekannten Datensatz zu übertragen, wobei sichergestellt wird, dass die gleichen Zelltypen aus beiden Datensätzen ungefähr die gleichen Positionen im UMAP-Diagramm einnehmen.
Der Referenzdatensatz auf der linken Seite hat im Wesentlichen den Batch-Effekt verschiedener Sequenzierungsmethoden nach der CCA-Vereinigung eliminiert, und die verschiedenen Zelltypen auf der rechten Seite sind deutlich zu unterscheiden.
Abbildung 3. CCA für integrierte Daten und Zelltypvorhersage.
Marker-Gene sind entscheidend für die Clusterannotation und dienen als Identifikatoren für spezifische Zelltypen.
Die Funktion FindAllMarkers() von Seurat identifiziert differentielle exprimierte Gene (DEGs) für jeden Cluster. Diese Gene werden mit bekannten Markern verglichen, um biologische Identitäten zuzuweisen. Zum Beispiel:
Diese Funktion gibt eine rangierte Liste von Genen aus, die mit jedem Cluster assoziiert sind.
| Zelltyp | Marker-Gene |
|---|---|
| T-Zellen | CD3D, CD4, CD8A |
| B-Zellen | MS4A1 |
| Monozyten | LYZ |
| NK-Zellen | GNLY, NKG7 |
| Dendritische Zellen | FCER1A, CLEC10A |
Die Visualisierung ist entscheidend für die Interpretation und Kommunikation von Ergebnissen der Einzelzell-RNA-Sequenzierung (scRNA-seq). Seurat unterstützt verschiedene Visualisierungstechniken, um annotierte Cluster effektiv darzustellen, sodass Forscher Einblicke in komplexe Datensätze gewinnen können.
Abbildung 4. UMAP für Referenzannotationen und übertragene Abfragenbeschriftungen.
Abbildung 5. t-SNE für Clusterzuweisungen (Kobak et al., 2019).
Die Clusterannotation in Seurat ist ein Grundpfeiler der Forschung zur Einzelzell-RNA-Sequenzierung, der die Entdeckung von zellulärer Vielfalt und Funktion ermöglicht. Durch die Nutzung von Marker-Genen, fortschrittlichen Werkzeugen und Visualisierungstechniken können Forscher tiefgreifende biologische Erkenntnisse gewinnen.
Referenzen: