Die Einzelzell-RNA-Sequenzierung (scRNA-seq) ist eine Technik zur Sequenzierung der RNA einer einzelnen Zelle und hat sich in den letzten Jahren schnell entwickelt. Sie bietet Vorteile bei der Identifizierung von Zellen auf molekularer Ebene und der Interpretation zellulärer Heterogenität und wird mittlerweile breit in der medizinischen und biologischen Forschung angewendet.
Anfang der 1990er Jahre erschien die Echtzeit-Fluoreszenz-quantitative Polymerase-Kettenreaktion (PCR) Technologie für eine kleine Anzahl von Genen in einer einzelnen Zelle. [1]Die echte scRNA-seq wurde 2009 von Tang et al. vorgeschlagen, die das Transkriptom einer kleinen Anzahl von Maus-primordialen Keimzellen sequenzierten.[2]Seitdem wurden eine Vielzahl von scRNA-seq-Technologien entwickelt, einschließlich STRT-seq.[3], CEL-seq[4], SMART-seq[5]und nachfolgende Nanotropfen, Picowell-Technologien und In-situ-Barcoding-Technologien für Hochdurchsatz-Sequenzierung. Vor 2014 waren die meisten scRNA-seq-Plattformen darauf beschränkt, weniger als 100 Zellen zu analysieren, und die Sequenzierungskosten waren hoch. Das Auftreten nachfolgender Technologien, wie Drop-Seq[6] und inDrop[7] haben Hochdurchsatz-Sequenzierung ermöglicht. Im Jahr 2017 haben das Auftreten von zwei kommerziellen Hochdurchsatz-scRNA-seq-Plattformen, 10X Genomics und BD Rhapsody, scRNA-seq weit verbreitet, die bis heute die am häufigsten verwendeten Plattformen sind. Seitdem haben scRNA-seq-Technologien wie Microwell-seq[8] und DNBelab C4[9] Die Sequenzierungskosten wurden weiter gesenkt und der Zelldurchsatz erhöht. Ich habe verschiedene Technologien in zwei Kategorien unterteilt, nämlich Tag-Sequenzierungstechnologie und Full-Length-Sequenzierungstechnologie. Aufgrund der Iteration von Technologien müssen die zu verschiedenen Zeitpunkten vorgeschlagenen Sequenzierungsmethoden ihre Vor- und Nachteile haben (Abb. 1).
Abb. 1 Entwicklungszeitlinie der Einzelzell-Transkriptom-Technologien[10]
Sowohl scRNA-seq als auch Bulk-RNA-Seq Sequenzieren Sie das Transkriptom einer Probe und teilen Sie die vorgelagerten Prozesse wie RNA-Extraktion, Reverse Transkription zu cDNA und Bibliotheksvorbereitung für das Sequenzieren.[11]Ihr grundlegender Unterschied liegt in der Probe: scRNA-seq behandelt jede einzelne Zelle als separate Probe, während Bulk RNA-seq eine Gruppe von Zellen als eine Probe verwendet. Um die Einzelzellisolierung und die Vorbereitung der Transkriptom-Bibliothek zu erreichen, benötigt scRNA-seq fortschrittlichere Instrumente und erzeugt ein erheblich größeres Datenvolumen, was es teurer macht. Aufgrund seiner hochauflösenden Daten kann scRNA-seq seltene Zelltypen erkennen, die Bulk RNA-seq möglicherweise übersehen könnte, was es besonders vorteilhaft in Studien mit komplexen Zelltypen, wie dem Tumormikroumfeld (TME), macht (Abb. 2). Jede Technik hat ihre Stärken, und die geeignete Methode sollte basierend auf der spezifischen Forschungsfrage ausgewählt werden.
Abb. 2 scRNA-seq versus Bulk-RNA-seq zur Profilerstellung des TME[12].
Eine genaue und effektive Analyse von scRNA-seq-Daten ist entscheidend für die wissenschaftliche Forschung. Daher werden Methoden zur Analyse von scRNA-seq-Daten kontinuierlich entwickelt und verfeinert. Hier skizzieren wir die typischen Schritte in der Einzelzell-Datenanalyse (Abb. 3).
Abb. 3 Schematische Darstellung eines typischen Workflows zur Einzelzell-RNA-Sequenzierung.[13].
Nach dem Erhalt von scRNA-seq-Daten besteht die erste Aufgabe darin, eine Qualitätskontrolle durchzuführen. Dieser Schritt umfasst die Bewertung der Qualität der Sequenzierungsreads, das Filtern von Zellen mit niedriger Qualität und das Entfernen von Umgebungs-RNA-Kontaminationen. Qualitätskontrollwerkzeuge, die für Bulk-RNA-seq-Daten entwickelt wurden, wie Trimmomatic[14], Fastp[15]und Cutadapt[16], sind auch für die Vorverarbeitung von Rohdaten aus scRNA-seq geeignet. Typischerweise verwende ich beim Verarbeiten von scRNA-seq-Daten, die ich aus dem Internet heruntergeladen habe, TrimGalore, ein Tool, das Cutadapt und FastQC integriert (https://github.com/FelixKrueger/TrimGalore). FastQC ist ein weiteres Tool, das auf GitHub veröffentlicht wurde und die Qualität von Sequenzierungsreads bewerten kann (https://github.com/s-andrews/FastQC). Im spezifischen Analyseprozess werde ich zunächst FastQC verwenden, um zu beurteilen, ob die Rohsequenzierungsdaten eine weitere Qualitätskontrolle benötigen. Wenn die Bewertung Anomalien wie das Vorhandensein von Adaptern, von niedrigqualitativen Reads oder eine übermäßige Anzahl von duplizierten Fragmenten zeigt, verwende ich TrimGalore zur Datenbereinigung. Nach der Qualitätskontrolle der Reads besteht der nächste Schritt darin, die Sequenzierungsreads an das Referenzgenom auszurichten und eine quantitative Datenmatrix zu erstellen. Für diesen Prozess verwende ich integrierte Ausrichtungs- und Quantifizierungstools wie CellRanger, das von 10X Genomics entwickelt wurde.[17]Es bietet eine umfassende Lösung zur Generierung von Einzelzell-Transkriptomdatenmatrizen aus Rohsequenzierungsdaten und bietet eine zuverlässige Datenverarbeitungsmethode für die Einzelzellforschung.
Nachdem wir die Datenmatrix erhalten haben, müssen wir typischerweise Doppelzellen und leere Zellen identifizieren. Abnorm hoch Zahlen von Reads und Genen können auf das Vorhandensein von Doppelzellen hinweisen. Ich verwende häufig Werkzeuge zur Doppelzellerkennung wie DoubletDecon.[18] und DoubletFinder[19] um Doppelgänger auszuschließen. Darüber hinaus deutet ein hoher Anteil an mitochondrialen Genen und eine geringe Anzahl von Genen normalerweise auf eine schlechte Zellqualität hin. Ambient-RNA-Kontamination bezieht sich auf RNA, die in der Einzelzell-Suspension vorhanden ist und während der Tropfenbildung zusammen mit der internen RNA der Zelle nachgewiesen wird, obwohl sie tatsächlich nicht in der Zelle vorhanden ist. Um diese Kontamination zu entfernen, verwende ich DecontX.[20] um schnell RNA-Kontamination aus der Umgebung vorherzusagen und zu korrigieren, und dann mit der nachfolgenden Analyse unter Verwendung der korrigierten Datenmatrix fortzufahren.
Die Normalisierung ist der erste Schritt in der Verarbeitung von scRNA-seq-Matrixdaten und hat direkte Auswirkungen auf die Genauigkeit der Ergebnisse nachgelagerter Analysen. Eine häufig verwendete Normalisierungsmethode geht davon aus, dass jede Zelle die gleiche anfängliche Anzahl von Transkripten hat und normalisiert die Daten einfach auf Zählungen pro Million (CPM). Die Log-Normalisierung von auf molekularen Barcodes basierenden Daten, wie sie in Seurat implementiert ist, gehört zu den am häufigsten verwendeten Methoden. [21]. Andere Methoden, wie sctransform[22], BayNorm[23]und SCnorm[24]kann auch zur Normalisierung von scRNA-seq-Daten verwendet werden. Bei Voll-Längen-Sequenzierungsmethoden wie SMART-seq wird die Transkriptlänge in der Regel während der Datenverarbeitung berücksichtigt.
Derzeit sind scRNA-seq-Daten äußerst zahlreich geworden, und die effektive Integration von Daten aus verschiedenen Chargen ist zu einer neuen Herausforderung geworden. Batch-Effekte implizieren technische Unterschiede, die auftreten, wenn Proben aus verschiedenen Chargen stammen, was auf Faktoren wie unterschiedliche Zeitpunkte, verschiedene Bediener, variierende scRNA-seq-Protokolle oder Inkonsistenzen in den Sequenzierungsproben zurückzuführen sein kann. Daher wurden mehrere Methoden entwickelt, die speziell darauf abzielen, Batch-Effekte in scRNA-seq-Daten zu beseitigen. Zu den häufig verwendeten Methoden zur Datenintegration gehört Seurat.[21], MNN[25], Harmonie[26]und Conos[27]Ich verwende am häufigsten den CCA-Algorithmus, der in Seurat und Harmony enthalten ist. Harmony beseitigt Batch-Effekte, während die biologischen Unterschiede zwischen den beiden Proben erhalten bleiben, während CCA eine stärkere Korrektur anwendet, die möglicherweise biologische Unterschiede zwischen den Proben auslöschen kann.
In der Analyse von Einzelzell-Daten ist die genaue Identifizierung und Annotation von Zelltypen ein kritischer Schritt für alle nachgelagerten Analysen. Dieser Prozess umfasst Schritte wie Merkmalsauswahl, Dimensionsreduktion, Clusterbildung und Annotation. Der erste Schritt in der Dimensionsreduktion für scRNA-seq-Daten ist die Merkmalsauswahl, bei der der Datensatz gefiltert wird, um nur die Gene beizubehalten, die erheblich zur Variabilität der Daten beitragen. Diese beibehaltenen Gene werden als hochvariable Gene bezeichnet.[28] (HVGs). Die Anzahl der HVGs liegt typischerweise zwischen 1.000 und 5.000 und muss basierend auf der Komplexität des Datensatzes angepasst werden. Nach der Auswahl der HVGs muss die Dimensionalität der scRNA-seq-Expressionsmatrix weiter reduziert werden, indem die Daten mit deutlich weniger Dimensionen als der Anzahl der Gene beschrieben werden, normalerweise in zwei oder drei Dimensionen. Zu den gängigen Methoden zur Dimensionsreduktion gehören sowohl lineare als auch nichtlineare Ansätze, wobei die Hauptkomponentenanalyse[29] (PCA) ist die beliebteste lineare Methode. Die PCA-Analyse wird typischerweise als Vorverarbeitungsschritt für nichtlineare Dimensionsreduktion verwendet, und die Anzahl der für den nächsten Schritt ausgewählten Hauptkomponenten (PCs) kann die Interpretation der nachfolgenden Ergebnisse beeinflussen. Nichtlineare Dimensionsreduktionsmethoden ermöglichen die Visualisierung von Daten in zwei oder drei Dimensionen. Die am häufigsten verwendeten Methoden umfassen die t-verteilte stochastische Nachbareinbettung.[30] (t-SNE) und uniforme Mannigfaltigkeitsapproximation und -projektion[31] (UMAP). Der Zweck der Zellclusterung besteht darin, Zellen basierend auf der Ähnlichkeit ihrer Genexpressionsmuster zu gruppieren, um biologisch bedeutungsvolle Subpopulationen zu erhalten. Die Clusterung, die direkt auf Matrixdistanzen basiert, ist ein unüberwachter maschineller Lernprozess, wobei das k-Means-Clustering eine weit verbreitete Methode ist.[25]Die genaue Annotation der aus der Clusteranalyse gewonnenen Cluster ist ein entscheidender Schritt in der Analyse von scRNA-seq-Daten. Derzeit wird dieser Prozess typischerweise sowohl durch manuelle Annotation als auch durch automatische Annotationsmethoden erreicht. Die manuelle Annotation umfasst das Abgleichen der charakteristischen Gene jedes Clusters mit veröffentlichter Literatur und Datenbanken, gefolgt von der Zuordnung biologisch sinnvoller Zellidentitäten zu den Clustern. Zum Beispiel fasst die folgende Tabelle einige charakteristische Gene für verschiedene Zelltypen zusammen (Tabelle 1).
| Annotation | Gen-Signatur | Referenzen |
| Naive T-Zellen | CD45RA, IL7R, CD27, CCR7, CXCR5 | [32] |
| zytotoxische T-Zellen | GZMA, NKG7, GZMB, GZMK, FASLG, ITGA1, CXCR6 | [33] |
| Proliferation T | RRM2, TK1, CENPF, CENPM, MKI67, MCM4 | [34] |
| Frühe T-Stadium | CCR7, IL7R, TCF7, CD28 | [35] |
| Zentrale Gedächtniszellen | CCR7, SELL, GPR183, GZMK | [36] |
| CCR7, IL7R, SELL, TCF7 | [37] | |
| Erschöpft T | CTLA4, LAG3, HAVCR2, TRPS1, PDCD1, FABP5, TRPS1, CREM, CEBPD | [35] |
Tabelle 1: Markergen für häufige T-Zell-Typen
Die vielschichtige Interpretation annotierter Zellen ist Teil der nachgelagerten Analyse von scRNA-seq-Daten. Zu den gängigen Analysen gehören Veränderungen in der Zellzusammensetzung, differenzielle Analysen auf Genebene, Trajektorieninferenz und die Analyse der Zell-zu-Zell-Kommunikation.
Änderungen in der Zellzusammensetzung beziehen sich auf die Variation der Anteile verschiedener Zelltypen zwischen unterschiedlichen Gruppen (z. B. Kontroll- und Experimentalgruppen). Zum Beispiel kann es einen Anstieg des Anteils von Neutrophilen-Vorläuferzellen im Knochenmark von tumortragenden Wildtyp-Mäusen geben.[38]Typischerweise werden Visualisierungen wie Balkendiagramme, Flächendiagramme oder Kreisdiagramme verwendet, um die Veränderungen der Zellanteile zwischen verschiedenen Gruppen darzustellen.
Die differentielle Analyse auf Genebene umfasst mehrere Aspekte, einschließlich der Berechnung von differentiell exprimierten Genen zwischen Gruppen, der Gen-Set-Anreicherung und der Ableitung von regulatorischen Netzwerken von Transkriptionsfaktoren. Durch diese Analysen können Unterschiede in der Genexpression unter verschiedenen Bedingungen charakterisiert werden, was Veränderungen auf Genebene offenbart. Um die biologische Bedeutung dieser Gene besser zu interpretieren, gruppieren Forscher sie basierend auf gemeinsamen biologischen Prozessen. Diese Gen-Sets stammen typischerweise aus Datenbanken wie MSigDB.[39] und Genontologie[40], sowie Datenbanken für Signalwege wie KEGG[41] und Reactome[42]Die Genfunktion wird nicht unabhängig ausgeführt; Transkriptionsfaktoren spielen eine entscheidende Rolle bei der Regulierung der Genexpression. Durch die Analyse von regulatorischen Netzwerken von Transkriptionsfaktoren können Wechselwirkungen zwischen Transkriptionsfaktoren und anderen Genen aufgedeckt werden. Derzeit gibt es spezialisierte Werkzeuge für diese Analyse, die auf scRNA-seq basieren, wie SCENIC.[43].
Um die kontinuierlichen Veränderungen zwischen Zellen zu charakterisieren, müssen dynamische Modelle der Genexpression erstellt werden, und diese Methoden werden als Trajektorieninferenz (TI) bezeichnet. TI ordnet Zellen basierend auf transkriptionalen Veränderungen, und dieser Weg wird als Pseudotime in der Zellentwicklung betrachtet.[44]Seit der Gründung von Monocle[45] Für TI wurden verschiedene Algorithmen schnell entwickelt.
Die Zell-zu-Zell-Kommunikation bezieht sich auf Interaktionen, die durch Rezeptor-Ligand- oder andere Hilfsfaktoren vermittelt werden und entscheidend für biologische Prozesse wie Zellentwicklung und Krankheitsverlauf sind. Die Vorhersage der Zellkommunikation erfordert die scRNA-seq-Expressionsmatrix und bekannte Rezeptor-Ligand-Paarungsbeziehungen. Derzeit gehören zu den gängig verwendeten Werkzeugen für diesen Zweck CellphoneDB.[46], CellChat[47]und NicheNet[48].
Die Anwendungen von scRNA-seq sind umfangreich und decken mehrere Bereiche der Biologie und Medizin ab. Hier fasse ich seine Anwendungen in der Onkologie, Immunologie, Entwicklungsbiologie und Neurowissenschaften zusammen.
scRNA-seq wurde umfassend in der Tumorforschung beim Menschen eingesetzt, einschließlich Studien zur Tumorheterogenität, TME und Zellinteraktionen. Tumorheterogenität umfasst Unterschiede zwischen Tumoren sowie Variationen innerhalb eines einzelnen Tumors. Die genaue Identifizierung der Tumorheterogenität spielt eine entscheidende Rolle bei der Diagnose und Behandlung von Krankheiten.[49]Durante et al. entdeckten zuvor nicht erkannte subklonale genomische Komplexität und transkriptionale Zustände bei Melanomen.[50]Das TME ist ein komplexes Ökosystem, das aus Krebszellen, verschiedenen nicht-malignen Zellen, extrazellulärer Matrix, sekretorischen Faktoren und Tumorvasculatur besteht. Zheng et al. zeigten, dass erschöpfte T- und NK-Zellen, Treg-Zellen, selektiv aktivierte Makrophagen und tolerogene dendritische Zellen das TME beim Speiseröhrenkrebs dominieren.[51]Der Austausch zwischen Makrophagen und Tregs trägt zur potenziellen Immunsuppression im TME bei. Zell-zu-Zell-Interaktionen konzentrieren sich hauptsächlich auf die Wechselwirkungen zwischen malignen Zellen und dem TME oder Zellen, die aus dem TME stammen. Wei Zhuo et al. entdeckten einen Mechanismus, bei dem die Cadherin-11-vermittelte Signalübertragung zwischen Magenkrebszellen und Fibroblasten die Metastasierung von Magenkrebs fördert.[52].
scRNA-seq kann verwendet werden, um verschiedene Zelltypen im Immunsystem umfassend zu analysieren und funktionale Unterschiede zwischen verschiedenen Immunzellen in Gesundheits- und Krankheitszuständen aufzudecken. Unter allen Immunzellen sind die scRNA-seq-Studien zu T-Zellen die zahlreichsten, da Krankheiten oft mit Veränderungen im T-Zell-Status verbunden sind. Durch konventionelle Methoden wurden klassische T-Zell-Subtypen identifiziert, darunter naive, Gedächtnis- und Effektorzellen. Allerdings hat scRNA-seq dieser klassischen Subtypen neue Erkenntnisse über erschöpfte[53]zytotoxische und immunsuppressive T-Zellen[54]Neben der Identifizierung neuer Zelltypen kann die scRNA-seq auch die Auswirkungen von Krankheiten auf Immunzellen analysieren und helfen, die Krankheitsmechanismen zu verstehen. Zum Beispiel akkumulieren myeloid-abgeleitete Suppressorzellen, die sich aus Granulozyten-Monozyten-Vorläufern differenzieren, in großen Zahlen im TME.[55]Diese Zellen infiltrieren Tumore und fördern direkt die Angiogenese und Metastase, während sie gleichzeitig Immunantworten unterdrücken und die Wirksamkeit der Immuntherapie verringern.
scRNA-seq kann die Genexpressionsprofile von Zellen in verschiedenen Entwicklungsstadien erfassen, was hilft, Entwicklungsverläufe von Stammzellen zu spezialisierten Zellen zu konstruieren und genetische Regulationsnetzwerke während des Entwicklungsprozesses offenzulegen. Lars M. Steinmetz et al. führten eine Einzelzellanalyse menschlicher hämatopoetischer Stamm- und Vorläuferzellen (HSPCs) aus dem Knochenmark durch und zeigten, dass der Erwerb von linien-spezifischen Schicksalen ein kontinuierlicher Prozess ist.[56]Während der embryonalen Entwicklung kann scRNA-seq verwendet werden, um Zellschicksale nachzuvollziehen und zu untersuchen, wie sich verschiedene Gewebe und Organe während der frühen Entwicklung allmählich bilden. Das Team am Sanger Institute nutzte scRNA-seq von Thymusgewebe während der embryonalen Phase, um die Entwicklung des menschlichen Thymus und den Reifungsprozess von T-Zellen zu enthüllen. Ihre Forschung ergab, dass die entsprechenden Veränderungen in den thymischen Stromazellen Trends in der T-Zell-Entwicklung widerspiegeln.[57].
Das Gehirn enthält verschiedene Typen von Neuronen, die sich in Morphologie, Funktion und Genexpression unterscheiden. scRNA-seq kann diese Neuronen identifizieren und klassifizieren und dabei ihre unterschiedlichen Genexpressionsmuster aufdecken.[58]Neben Neuronen enthält das Gehirn auch eine große Anzahl von Gliazellen (wie Astrozyten, Oligodendrozyten und Mikroglia). scRNA-seq kann die Genexpressionsmerkmale dieser nicht-neuronalen Zellen aufdecken und helfen, ihre Rollen in der neuronalen Unterstützung, dem Schutz und der Reparatur zu verstehen. Elizabeth et al. führten eine Analyse menschlicher kortikaler Proben basierend auf der Einzelzell-RNA-Sequenzierung durch und isolierten lebensfähige Mikroglia-Zellunterpopulationen aus diesen Proben. Sie entdeckten, dass einige Zellunterpopulationen mit Genen und RNA-Markern angereichert waren, die mit neurodegenerativen Erkrankungen assoziiert sind.[59].
Im Jahr 2013 wurde scRNA-seq von Nature Methods zur Technologie des Jahres gekürt.[60]und 2018 benannte Science scRNA-seq zur Durchbruchstechnologie des Jahres.[61], dessen schnelle Entwicklung unser Verständnis von Zellheterogenität und Zellfunktion erheblich erweitert hat. Die rasante Entwicklung dieser Technologie hat unser Verständnis von Zellheterogenität und -funktion erheblich erweitert. Die Instrumente für die Einzelzellsequenzierung werden kontinuierlich überarbeitet und verbessert, während sich auch die Entwicklung von Datenverarbeitungswerkzeugen schnell voranschreitet, was die weitverbreitete Anwendung dieser Technologie in der Biologie und Medizin erleichtert. scRNA-seq entwickelt sich in Richtung geringerer Kosten, höherer Durchsatz und Multi-Omics-Fähigkeiten, und es wird erwartet, dass es in Zukunft noch breiter in den Bereichen Biologie und Pharmazie eingesetzt wird.
Referenzen: