Das Feld der wissenschaftlichen Forschung wurde durch die bemerkenswerten Fähigkeiten von Langzeit-Sequenzierung (LRS)Unter den zahlreichen aufregenden Perspektiven, die es bietet, sticht ein Bereich in seiner explorativen Phase hervor - die menschliche Einzelzell-Genomik. Dieses aufstrebende Forschungsfeld, das über ein Jahrzehnt Geschichte hat, ist derzeit voller Aktivität und Potenzial. Die Einzelzell-Genomik, unterstützt durch LRS, hat die Fähigkeit, tiefgreifende Geheimnisse der Zellbiologie zu entschlüsseln. Sie kann Licht auf verschiedene Themen werfen, wie somatische genetische Variation, Tumorevolution, de novo Mutationsraten, meiotische Rekombination von Keimzellen und Neurogenetik. Einige wegweisende Studien haben bereits die bemerkenswerte Fähigkeit von LRS demonstriert, zuvor unbekannte Krankheiten zu identifizieren, die aus genetischen Variationen bei Menschen resultieren. Darüber hinaus kann sie klinisch signifikante genetische Varianten aufdecken, die in den rätselhaften „Dunklen DNA“-Regionen verborgen sind - Abschnitte des menschlichen Genoms, die sich der Analyse durch standardisierte Kurzleseverfahren (SRS) entziehen.
Das bestehende Paradigma der Einzelzell-Kurzlese Whole-Genome-Sequenzierung lässt eine beträchtliche Anzahl von Varianten unerforscht, insbesondere aufgrund ihrer Unzugänglichkeit mit standardmäßigen Ansätzen. Darüber hinaus erfordert LRS eine erhebliche Menge an DNA-Eingang, was eigene Herausforderungen mit sich bringt. Um Probleme im Zusammenhang mit Amplifikationspräferenzen, chimären Molekülen und allelischen Deletionen, die häufig aus der Amplifikation des gesamten Genoms (WGA) resultieren, zu umgehen, verwendet diese Studie eine innovative nanoskalige Tropfen-multiple-displacement-Amplifikation (dMDA)-Technik.
Kurz gesagt, nutzte diese Studie das Potenzial der fluoreszenzaktivierten Zellseparation (FACS), um eine einzelne Zelle zu isolieren und ihre DNA-Fragmente durch Lyse freizusetzen. Diese winzigen DNA-Moleküle wurden dann sorgfältig in etwa 50.000 Tröpfchen verpackt, die jeweils weniger als 100 µm im Durchmesser maßen. In diesen Tröpfchen war nur ein oder wenige DNA-Fragmente vorhanden, was eine kontrollierte, begrenzte Amplifikation erleichterte. Entscheidend war, dass dieser Ansatz das Risiko der Bildung intermolekularer Chimären ausschloss. Das Experiment konzentrierte sich auf zwei verschiedene CD8+ T-Zellen, A und B, die beide von demselben menschlichen Spender stammten. Diese Zellen durchliefen eine in vitro klonale Amplifikation, gefolgt von einer Amplifikation des gesamten Genoms (WGA) und Sequenzierung.
Übersicht über das Experiment zur Amplifikation und Sequenzierung von Einzelzell-DNA. (Hård et al., 2023)
In dieser Studie nutzten die Autoren die Leistungsfähigkeit der Einzelzell-Sequenzierungstechnologie, indem sie fünf dMDA-Einzelzellproben verwendeten, von denen zwei aus T-Zell-Klon A und drei aus T-Zell-Klon B stammten. Diese Proben wurden mit PacBio sequenziert, was im Durchschnitt 15,7 Gb Daten pro Einzelzelle erzeugte, während die Illumina-Sequenzierung erhebliche 48,7 Gb Daten produzierte. Beide Datensätze waren entscheidend für die anschließende Identifizierung von Einzelzell-SNVs.
Bemerkenswerterweise wiesen im Durchschnitt 880.000 SNVs, die in den Einzelzell-PacBio-Daten identifiziert wurden, eine Übereinstimmung mit den Bulk-PacBio-Daten auf, was ihre Authentizität als echte SNVs untermauerte. Um einen sinnvollen Vergleich zu ziehen, unterzogen die Autoren auch die Illumina-Einzelzell-dMDA- und Bulk-Daten derselben Analyse, was zu einem Durchschnitt von 1,06 Millionen validierten SNVs pro Zelle führte.
Überraschenderweise, obwohl das PacBio-Einzelzell-Sequencing nur 32 % des von Illumina erzeugten Datenvolumens lieferte, war die Anzahl der detektierten Keimbahn-SNVs mit den Ergebnissen von Illumina vergleichbar. Die Autoren führten zudem eine umfassende Bewertung der Präzision und Sensitivität der SNV-Erkennung durch, die ergab, dass die Sensitivität insgesamt relativ niedrig war, insbesondere bei den PacBio-Proben mit begrenzten verfügbaren Daten. Allerdings übertraf PacBio Illumina in Bezug auf die Präzision der SNV-Identifizierung, wenn auch mit leicht geringerer Sensitivität.
Interessanterweise entgingen 284.000 hochgradig zuverlässige PacBio-SNVs der Erkennung in Illumina-Bulkproben. Unter diesen Varianten befanden sich 6.336 in zuvor als "dunkel" bezeichneten Genregionen, Bereichen, die typischerweise für Standard-Short-Read-Sequenzierungsmethoden unzugänglich sind. Bemerkenswerterweise umfasste eine solche Region sowohl Introns als auch Exons von NBPF8 und CDC73, wobei letzterer in der Lücke existierte, die die Illumina-Bulk-Daten hinterließen.
Darüber hinaus entdeckten die Autoren erfolgreich 27 somatische SNVs innerhalb der PacBio-Daten, was den Umfang und die Tiefe ihrer Untersuchung weiter verbesserte.
Analyse von SNVs in Einzelzell-Daten mit kurzen und langen Reads. (Hård et al., 2023)
In dieser Studie nutzten die Forscher Sniffles2, um strukturelle Varianten (SVs) in PacBio-Daten zu identifizieren, was zahlreiche Deletionen, Insertionen, Duplikationen und Inversionen pro einzelner Zelle offenbarte. Über 80.000 einzigartige PacBio-SVs, hauptsächlich aus chimären dMDA-Molekülen, waren in Bulk-Proben nicht vorhanden.
Im Durchschnitt wies jede einzelne Zelle 5.473 echte SVs auf, wobei die Mehrheit Deletionen und Insertionen waren, während Duplikationen und Inversionen selten waren. Im Gegensatz dazu erfassten Illumina-Proben nur 327 echte SVs, deutlich weniger.
Die Präzision von PacBio für Deletionen und Insertionen betrug 0,73 und 0,66, mit leicht höherer Sensitivität. Duplikationen und Inversionen hatten eine geringe Präzision aufgrund chimerischer Ursprünge. Bemerkenswert ist, PacBio SVs hauptsächlich bestehend aus Einfügungen und Löschungen von bis zu 1 kb, mit einem Höhepunkt bei etwa 300 bp (ALU-wiederholende Elemente) und 6 kb (LINE-Elemente). Einige herausfordernde SVs in den Illumina-Daten wurden erfolgreich im Einzelzell-PacBio-Datensatz identifiziert, darunter eine 710 bp lange Einfügung und eine 4891 bp lange Löschung.
Analyse von SVs in Langlesedaten von Einzelzellen. (Hård et al., 2023)
Durch die Verwendung von Tandem-Genotypen identifizierten die Autoren 15.098 TRs, die zunächst als rein oder heterozygot kategorisiert wurden in PacBio-MassendatenIm Durchschnitt konnten 4.770 TR-Allele in Einzelzellen mit Profilen, die den Bulk-Daten ähnlich sind, genau genotypisiert werden.
Der längste TR, der beobachtet wurde, war 662 Basenpaare länger als das Referenzgenom und bestand hauptsächlich aus Dinukleotid-AT-Sequenzen – ein Aspekt, der in Kurzlesedaten schwer zu lösen ist. Während in den Langlesedaten einzelner Zellen keine klaren Hinweise auf klonale somatische Variation gefunden wurden, fehlte eine signifikante Anzahl repetitiver Sequenzen, insbesondere solche, die 500 Basenpaare überschreiten, in einzelnen Zellen aufgrund von Genotypisierungsfehlern. Dieser Fehler trat häufig auf, wenn eine Probe mehr als zwei unterschiedliche Wiederholungs-längen enthielt, was die genaue Bestimmung der TR-Größe erschwerte.
Tandemwiederholungen in Einzelzell-Langzeitdaten erkannt. (Hård et al., 2023)
Referenz: