Einzelzell-RNA-Sequenzierung: Qualitätskontrolle

Kurze Übersicht

01 Wichtige Überlegungen zur Zelltrennung in der Einzelzell-Sequenzierung 02 Zellsortierung 03 Zelllyse 04 Reverse Transkription 05 Verstärkungsprozess 06 Bibliotheksvorbereitung und Sequenzierung 07 Qualitätskontrollpunkte von Einzelzell-RNA-Seq 08 Wie man Zellen filtert 09 Wie man Gene filtert 10 Wie man Batch-Effekte anspricht

Derzeit hat sich die Einzelzell-RNA-Sequenzierung als ein herausragendes und aktuelles Thema etabliert. Sie bietet unschätzbare Einblicke, die durch traditionelle Bulk-RNA-Sequenzierung nicht erreichbar sind, insbesondere wenn es darum geht, Entwicklungsbiologie, Tumorbiologie, Immunologie und verwandte Bereiche zu untersuchen. Im Zentrum der Einzelzell-Sequenzierung stehen T-SNE-Dimensionalitätsreduktion und Clustertechniken, die die Erkundung und Analyse von Daten erleichtern. Es ist jedoch entscheidend zu betonen, dass der Erfolg oder Misserfolg der gesamten Analyse stark von sorgfältigen Qualitätskontrollmaßnahmen abhängt, die vor diesen Schritten durchgeführt werden. In diesem Artikel bieten wir einen umfassenden Überblick über die Qualitätskontrolle von Einzelzellen.

Verschiedene Faktoren beeinflussen die Präferenzen bei der Einzelzell-RNA-Sequenzierung, einschließlich:

Amplifikationspräferenzen: Bestimmte hoch exprimierte mRNAs können während des Amplifikationsprozesses auf Einschränkungen stoßen.
Ausscheidungsraten: Einige mRNAs können möglicherweise nicht amplifiziert werden, was zu ihrem Ausschluss aus der Analyse führt.
Transkriptionelles Platzen: Die sporadische Natur der transkriptionellen Aktivität kann die Genauigkeit der Messungen beeinflussen.
Hintergrundgeräusche: Unerwünschte Signale und technisches Rauschen können die gewünschten biologischen Signale überdecken.
Präferenzen, die durch den Zellzyklus und die Zellgröße beeinflusst werden: Variationen in den Stadien des Zellzyklus und in der Zellgröße können die Sequenzierungsergebnisse beeinflussen.
Batch-Effekt: Diskrepanzen, die aus verschiedenen experimentellen Chargen entstehen, können Verzerrungen einführen und genaue Vergleiche erschweren.
Korrelationsanalyse nach technischer Replikation derselben Probe: Die Replikation technischer Verfahren ermöglicht die Bewertung der Zuverlässigkeit und Reproduzierbarkeit der Ergebnisse.

Durch das Verständnis und die Berücksichtigung dieser Präferenzen können Forscher die Zuverlässigkeit und Validität von Einzelzell-RNA-Sequenzierungsstudien verbessern.

Wichtige Überlegungen zur Zelltrennung in der Einzelzell-Sequenzierung

Vor der Durchführung von Einzelzell-Sequenzierungen ist es entscheidend, die Zellen effektiv zu trennen. Ein Versäumnis, dies innerhalb eines begrenzten Zeitrahmens zu tun, kann die Zellintegrität negativ beeinflussen und möglicherweise zu RNA-Austritt aus den Zellen führen. Hier sind mehrere wichtige Faktoren, die bei der Isolierung einzelner Zellen aus Geweben zu beachten sind:

Unvollständige Zelltrennung: Es ist möglich, dass mehrere Zellen während des Trennungsprozesses zusammenhaften.
Zellschäden und RNA-Abbau: Unzureichende Zelltrennungsbedingungen können die Zellen schädigen, was zu RNA-Abbau oder -Austritt führt.
Hintergrundsignal durch RNA-Leckage: Die Leckage von RNA während der Zelltrennung kann zu unerwünschten Hintergrundsignalen beitragen.
Voreingenommene Zellisolierung: Das Zellisolierungsverfahren kann eine Voreingenommenheit einführen, bei der bestimmte Zelltypen bevorzugt isoliert werden. Darüber hinaus kann der Prozess selbst Veränderungen in der Genexpression hervorrufen.

Daher ist es bei der Analyse von Clusterergebnissen entscheidend, gründlich zu überprüfen, ob es Gene gibt, die spezifische Expressionsmuster in bestimmten Zellgruppen aufweisen, die auf das Zelltrennungsexperiment zurückzuführen sein könnten.

Zellsortierung

Bei der Zellsortierung stehen wir vor mehreren Herausforderungen, darunter:

Inkonsistente Zellverteilung: Bestehende Einzelzell-Sequenzierungsmethoden stehen häufig vor dem Problem, leere Tropfen oder Wells zu begegnen, sowie Fällen, in denen mehrere Zellen in einem einzelnen Tropfen vorhanden sind.
Zellgrößenpräferenzen: Viele Einzelzell-Assays zeigen eine Präferenz für bestimmte Zellgrößen. Beispielsweise setzen Techniken wie Dropseq eine obere Grenze für die Zellgröße.
Zelltyppräferenzen: In Einzelzell-Experimenten gibt es häufig eine Präferenz für die Sortierung bestimmter Zelltypen.
Zellschäden und Hintergrundgeräusche: Längere Sortierexperimente können Zellen schädigen und Hintergrundgeräusche einführen, die die Qualität der gewonnenen Daten beeinträchtigen können.

Um diese Herausforderungen zu bewältigen, wurden verschiedene Strategien zur Sequenzierung einzelner Zellen entwickelt. Es ist entscheidend, die geeignete Einzelzellstrategie für das Studium spezifischer Gewebe sorgfältig auszuwählen. Darüber hinaus kann eine niedrige Zellqualität oder das Vorhandensein von toten Zellen oder Zelltrümmern dazu führen, dass mehrere Zellen innerhalb von Tröpfchen eingekapselt werden. Während der anschließenden Datenanalyse können diese Tröpfchen entweder einen eigenen Cluster bilden oder zwischen zwei Zellgruppen angereichert erscheinen.

Um das Vorhandensein von Tropfen mit mehreren Zellen zu bestimmen, werden typischerweise die folgenden Kriterien verwendet:

Hoher molekularer Barcode-Wert: Ein erhöhter molekularer Barcode-Wert weist auf die Wahrscheinlichkeit hin, dass ein Tropfen mehrere Zellen enthält.
Identifikation von Zellen, die durch multiple Zellpopulationen gekennzeichnet sind: Bestimmte Zellpopulationen, die Merkmale mehrerer Zelltypen aufweisen, können auf Tröpfchen hinweisen, die mehrere Zellen enthalten.
Im Fall von 10X Einzelzell-RNA-Sequenzierung kann der Anteil an Doppelten vorhergesagt werden, was direkt mit der Anzahl der vorhandenen Zellen korreliert.

Derzeit sind mehrere Softwaretools verfügbar, die bei der Identifizierung von Doppelten helfen, wie zum Beispiel:

DoubletFinder
Scrublet
DoubletDecon
DoubletCluster/DoubletCell in Scran

Diese Doppelterkennungsalgorithmen weisen Ähnlichkeiten in ihrem Ansatz auf und folgen einem grundlegenden Prinzip, das aus den folgenden Schritten besteht:

Zufälliges Zellverschmelzen: Zwei Zellen werden zufällig zusammengeführt, um Doppelzellen zu simulieren.
Datenumdimensionierung und Clusterbildung: Die zusammengeführten Daten werden umdimensioniert und geclustert, um Zellgruppen zu identifizieren.
Entfernung identifizierter Doppelgänger: Die Zellen, die mit den simulierten Doppelgängern gruppiert sind, werden identifiziert und anschließend aus der Analyse entfernt.

Zelllyse

Vor der Durchführung von Einzelzell-Sequenzierungen ist es notwendig, die Zellen zu lysieren. Die Lysisbedingungen variieren je nach den zu untersuchenden Zellgeweben. Wenn die Lysisbedingungen zu streng sind, hat dies negative Auswirkungen auf die Bibliotheksvorbereitung.

Reverse Transkription

Die Effizienz der reversen Transkriptase ist von größter Bedeutung. Die Ausfallrate liegt typischerweise zwischen 60 % und 90 %. In Fällen, in denen dieselbe Zelllinie auf dieselbe Weise verarbeitet wird, jedoch mit zwei verschiedenen Bibliotheken, kann die Ausfallrate erhebliche Schwankungen aufweisen.

Verstärkungsprozess

Jeder Amplifikationsschritt kann Verzerrungen einführen. Viele Techniken zur Einzelzell-Transkriptom-Sequenzierung nutzen molekulare Barcodes als Maßnahme, um Verzerrungen, die durch die Amplifikation verursacht werden, zu korrigieren. Vollständige Transkriptome wie SmartSeq2 verfügen jedoch nicht über molekulare Barcodes, was es unmöglich macht, Amplifikationspräferenzen mit auf molekularen Barcodes basierenden Methoden zu korrigieren.

Bibliotheksvorbereitung und Sequenzierung

Durch die Verwendung von Spike-in-RNAs, einer Sammlung von RNA-Transkripten mit bekannten Sequenzen, umfasste der Prozess der Bibliothekskonstruktion die Zugabe von Spike-in-Molekülen in bekannten Konzentrationen. Dieses Set von Spike-ins beinhaltete:

ERCC: Bestehend aus 92 RNAs, die aus verschiedenen Bakterien stammen, unterschiedliche Längen und GC-Gehalte aufweisen und in 22 unterschiedlichen Konzentrationen eingebracht wurden.
SIRV: Bestehend aus 69 synthetischen Transkripten, die entwickelt wurden, um menschliche Gene nachzuahmen. Hauptsächlich verwendet, um die Fähigkeit von Sequenzierungsergebnissen zur Erkennung von Isoformen innerhalb menschlicher Gene zu validieren.

Anwendungen von Spike-ins:

Technische Geräuschunterdrückung: Spike-ins helfen, technisches Rauschen zu beseitigen, das während der Bibliotheksvorbereitung und Sequenzierungsverfahren auftritt.
Erfassungseffizienzdetektion: Sie erleichtern die Bewertung der Erfassungseffizienz und messen, wie effektiv Ziel-RNAs erfasst werden.
Berechnung der RNA-Initiation: Spike-ins helfen bei der Berechnung der RNA-Initiationsraten und tragen zum Verständnis der transkriptionalen Aktivität bei.
Daten-Normalisierung: Sie ermöglichen die Normalisierung von Daten und gewährleisten genaue Vergleiche zwischen verschiedenen Proben.

Einschränkungen von Spike-ins:

Trotz ihrer Nützlichkeit unterscheiden sich Spike-Ins weiterhin von endogenen Genen, insbesondere in Bezug auf die Amplifikationspräferenz. Diese Diskrepanz muss bei der Interpretation der Ergebnisse berücksichtigt werden. Darüber hinaus werden Spike-Ins in der Regel nicht in Drop-Seq-Methodologien verwendet.

Qualitätskontrollpunkte von Einzelzell-RNA-Seq

Typischerweise umfassen die Kontrollpunkte für die Qualitätskontrolle (QC) Folgendes:

Quote von einzigartigen Übereinstimmungen
Verhältnis von Übereinstimmungen zu exonen Regionen
3' Präferenz in Einzelzell-Voll-Längen-Transkripten
Reads, die mit mRNA übereinstimmen
Molekulare Barcode-/Reads-Verhältnis
Anzahl der erkannten Gene
Nachweis von Spike-in-RNA
Mitochondriales zu ribosomalem RNA-Verhältnis

Ein niedriges Verhältnis oder eine geringe Anzahl von Reads kann auf Probleme bei der Bibliothekskonstruktion zurückgeführt werden. Eine geringe Anzahl von Reads kann auf eine erhöhte Bildung von Primer-Dimeren zurückzuführen sein, während ein niedriges Verhältnis typischerweise auf Probleme während der Bibliothekskonstruktion hinweist.

Das Fehlen von Spike-in-RNA-Sequenzen weist direkt auf einen Fehler bei der Bibliothekskonstruktion hin. Wenn jedoch der Spike-in normal ist und die Zelle eine geringe Anzahl von RNA-Sequenzen aufweist, könnte dies auf die geringe Größe der Zelle oder auf Schäden an der Zelle vor der Bibliothekskonstruktion zurückzuführen sein.

Die Anzahl der detektierten Gene steht in direktem Zusammenhang mit der Größe der Zelle. Wenn eine übermäßige Anzahl von Genen (molekularen Barcodes) detektiert wird, ist es wahrscheinlich, dass mehrere Zellen innerhalb des Tropfens vorhanden sind. Es kann jedoch nicht ausgeschlossen werden, dass die Zelle selbst einfach sehr groß ist. Wie unten gezeigt, wird es als nicht normal angesehen, zu viele oder zu wenige Gene zu haben.

Im Allgemeinen besteht eine positive Korrelation zwischen Zellgröße, Spike-in-RNA-Verhältnis und der Anzahl der detektierten Gene. Erhöhte Werte von mitochondrialer RNA weisen ebenfalls auf eine beschädigte Zelle hin. Wenn eine Zelle bricht, wird zytoplasmatische RNA freigesetzt, während mitochondriale RNA innerhalb der mitochondrialen Membran eingeschlossen bleibt. Daher steigt der Prozentsatz an mitochondrialer RNA, wenn die Zellmembran beschädigt ist. Hinweis: Dieses Phänomen kann auch während der Apoptose oder Nekrose auftreten.

Hohe Mengen an ribosomaler RNA können auf eine erhöhte RNA-Abbau innerhalb der Zelle hinweisen. In vollständigen Einzelzell-Transkriptomen kann die 3'-Präferenz genutzt werden, um erheblichen RNA-Abbau innerhalb der Zelle zu identifizieren.

Wie man Zellen filtert

In der Regel werden die meisten Zellen denselben Trend aufweisen, und wir kombinieren mehrere Metriken, um einige der Zellen zu entfernen, die nicht qualifizieren. Schauen Sie sich also die Verteilung der Daten an, bevor Sie entscheiden, welche Zellen herausgefiltert werden müssen.

Basierend auf PCA kann dieser Algorithmus auch für die Qualitätskontrolle verwendet werden, um Zellen zu finden, die eindeutig nicht mit anderen Zellen gruppiert sind. Diese Zellen gelten als diejenigen, die die Qualitätskontrollstandards nicht erfüllen.

Wie man Gene filtert

Der nächste Schritt besteht darin, zu besprechen, wie die Gene gefiltert werden sollen. In der überwiegenden Mehrheit der Fälle werden wir nicht alle Gene verwenden, um eine Herunterskalierungsanalyse durchzuführen, daher ist eine Auswahl von Gen-Sets erforderlich.

Das Gen-Set basiert auf:

Gene mit einer Expression über einem bestimmten Schwellenwert
Gene mit unterschiedlicher Variation in der Zellprobe
Verwendung von a priori Wissen zur Auswahl von Genen
Differenzielle Gene, die in der Bulk-RNA-Sequenzierung identifiziert wurden.

Nur die ersten paar Hauptkomponenten werden für die t-SNE-Reduzierung ausgewählt.

Wie man Batch-Effekte adressiert

Eines der herausforderndsten Probleme bei der Einzelzell-RNA-Sequenzierung sind die Batch-Effekte. Batch-Effekte können in verschiedenen Szenarien auftreten, wie:

Unterschiedliche Experimente, die an verschiedenen Tieren, Patienten oder Zellen durchgeführt wurden.
Verschiedene Sequenzierungslanes wurden während der Experimente eingesetzt.

Um Batch-Effekte zu mildern, ist es entscheidend, unterschiedliche Qualitätskontrollstandards für verschiedene Probenchargen festzulegen. Ein Ansatz besteht darin, die Hauptkomponentenanalyse (PCA) zu verwenden, um auffällige Batch-Effekte in den erhaltenen Ergebnissen zu identifizieren.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.