Jede Sequenzierungsplattform besitzt einzigartige Eigenschaften, die sie von anderen unterscheiden. In glücklichen Fällen haben Forscher Zugang zu mehreren Plattformen, was es ihnen ermöglicht, die Stärken jeder einzelnen zu nutzen. Tatsächlich nutzen einige Studien die optimale Leistung verschiedener Plattformen und wählen diese basierend auf spezifischen Anforderungen aus. Zum Beispiel zeichnen sich die Reads von Illumina durch eine hohe Abdeckung aus, SOLID priorisiert die Genauigkeit, während Roche 454 oder Pacific Biosciences für ihre langen Read-Längen bekannt sind.
Die Wahl der geeignetsten Plattform erfordert die Berücksichtigung zahlreicher Faktoren, die verschiedene Dimensionen umfassen. Mit den hier bereitgestellten Informationen können Forscher jedoch diese Komplexitäten bewältigen und fundierte Entscheidungen bezüglich der Plattformauswahl treffen für RNA-Seq-Experimente und ihre jeweiligen Modalitäten.
Wie man sein nächstes RNA-Sequenzierungs-Experiment plant ist ein nützlicher Artikel, um verschiedene Arten von RNA-Sequenzierungstechnologien zu lernen.
Bei der Identifizierung von SNPs oder Einzel-Nukleotid-Bearbeitungsereignissen in RNA-Spezies ist die Auswahl einer Plattform mit minimaler Fehlerquote von größter Bedeutung. Es ist entscheidend, echte SNPs von Sequenzierungsfehlern zu unterscheiden. Angesichts einer menschlichen SNP-Häufigkeit von etwa 1 zu 800 ist eine Genauigkeitsrate von 99,9 % unerlässlich. Nur die SOLID-Plattform behauptet, diese Schwelle zu überschreiten, während einige Plattformen erheblich darunter liegen. Es ist jedoch bemerkenswert, dass eine Kompensation für niedrigere Genauigkeit möglich ist, indem die Anzahl der Reads erhöht wird. Zum Beispiel ergibt die Verwendung von 10 Reads mit 99,9 % Genauigkeit für dieselbe RNA effektiv eine Genauigkeitsrate von 99,99 %.
Im Gegensatz dazu, wenn das Ziel darin besteht, bekannte protein-codierende Gene zu identifizieren, die Annotationen von Genstrukturmodellen zu verbessern, Transkripte zu quantifizieren und möglicherweise neuartige Gene zu entdecken, sinkt die Nachfrage nach Präzision. Programme, die das Mapping von Reads auf etablierte Genmodelle erleichtern, erlauben oft ein oder sogar zwei unpaarige Übereinstimmungen. Zum Beispiel liegt bei Reads, die 50 Nukleotide umfassen und eine Fehlpaarung zulassen, die Genauigkeitsrate bei 98 %. An diesem Punkt sind die am häufigsten verwendeten Plattformen wie SOLID, Illumina, 454 und IonTorrent praktikable Optionen.
CD Genomics Hochdurchsatz-RNA-Sequenzierung und Bibliothekskonstruktionsdienste ermöglichen eine eingehende Analyse von Transkriptomen.
Es ist gängige Praxis, die Abdeckungsstatistiken in RNA-seq-Projekten zu bewerten. Als Faustregel gilt, dass das menschliche Genom etwa 3000 Millionen Nukleotide (Mnt) umfasst, wobei ungefähr 1/30 für protein-codierende Gene reserviert ist. Das bedeutet, dass die RNA, die für das Sequenzieren vorgesehen ist, etwa 100 Millionen Nukleotide beträgt. Wenn wir uns für das Einzelend-Sequenzieren mit Reads von jeweils 100 Nukleotiden (nt) entscheiden (oder für das Doppelend-Sequenzieren mit 50 nt Reads), dann ergibt das Erwerben von 1 Million Reads 100 Millionen nt Sequenzdaten, was einer 1x Abdeckung entspricht. Ein typischer Output für eine Standardplattform liegt bei 30 Millionen Reads, was eine 30x Abdeckung bietet. Mit 30 Millionen Reads können wir eine umfassende Abdeckung der meisten exprimierten Gene erwarten, obwohl einige weniger häufige möglicherweise übersehen werden.
Um die Wahrscheinlichkeit zu schätzen, dass ein Read einem bestimmten Gen zugeordnet wird, können wir eine durchschnittliche Genlänge von 4000 nt annehmen (abgeleitet von 100M nt geteilt durch 25.000 Gene). Mit 30 Millionen Reads, die 30-fache Abdeckung bedeuten, und unter der Annahme einer Read-Länge von 100 nt (oder 50 nt bei der Doppelend-Sequenzierung), wird erwartet, dass ein einzelner Read ungefähr 1200 Mal dem durchschnittlichen Gen zugeordnet wird. Folglich, wenn ein Gen mit 1/1200 der Expression eines durchschnittlichen Gens exprimiert wird, besteht eine 50:50-Chance, dass ein Read ihm zugeordnet wird. In der Praxis reichen 30 Millionen Reads aus, um die meisten, wenn auch nicht alle, exprimierten Gene in einer Probe zu erfassen. Da viele Plattformen bis zu 30 Millionen Reads erzeugen können, ist dies typischerweise kein limitierender Faktor. Plattformen, die höhere Read-Zahlen erzeugen können, werden bevorzugt, um eine verbesserte Abdeckung zu erreichen, insbesondere bei der Analyse alternativer Exon-Nutzung, seltener Ereignisse oder feinkörniger Genmodellierung.
Eine neuere Technik, die als 'Capture-Sequenzierung' bekannt ist, beinhaltet die Anreicherung von RNA an spezifischen Loci im menschlichen Genom. Diese Methode war erfolgreich darin, RNA von etwa 50 Loci zu erfassen, einschließlich protein-codierender Gene und langer nicht-codierender RNAs. Durch den Einsatz der Capture-Sequenzierung erreichten die Forscher eine Abdeckung von über 4600-fach für diese Loci, was die Entdeckung von unannotierten Exons, neuartigen Spleißmustern und eingehenden Untersuchungen gut erforschter Gene ermöglichte. Dies unterstreicht die Herausforderung, eine umfassende Abdeckung für jedes Transkript innerhalb eines Genlocus zu erreichen.
Alternativ bleibt die Bestimmung der minimalen Anzahl an Reads, die benötigt werden, um die Anwesenheit von Transkripten zu bestätigen, ein umstrittenes Thema. Die Literatur bietet widersprüchliche Beispiele, wobei einige Studien nahelegen, dass ein einzelner Read ausreicht, während andere argumentieren, dass weniger als 10 Reads unzureichend sind. Der angemessene Schwellenwert hängt von verschiedenen Faktoren ab, einschließlich des Studienkontexts, der Standards von Fachzeitschriften oder Datenbanken und den übergeordneten Forschungszielen.
Für die grundlegende Zuordnung zu bekannten Genen innerhalb eines Organismus können sogar schon 14 Nukleotide (nt) ausreichen. Da jedoch einige Reads möglicherweise an mehreren Stellen zugeordnet werden können, werden längere Reads unerlässlich. Mit einer Länge von 50 nt wird nur ein kleiner Teil der Reads weiterhin an mehreren Stellen zugeordnet, was typischerweise nur sehr wenige Vorkommen (<0,01%) ausmacht. Folglich ermöglichen längere Read-Längen in der Praxis robustere Studien zur differentiellen Expression und eine genauere Abgrenzung von Genmustern.
Dennoch erfordern zahlreiche Szenarien sogar längere Reads, insbesondere bei der Annotation neuer Gene in Arten, die über keine umfangreichen Sequenzdaten wie Genome, exprimierte Sequenz-Tags (ESTs) oder langsträngige cDNA verfügen. Längere Sequenzen bieten einen deutlichen Vorteil gegenüber dem Versuch, Genmuster ausschließlich aus kartierten, diskontinuierlichen 50 nt Reads abzuleiten. Plattformen wie Roche 454 haben sich in solchen Anwendungen als effektiv erwiesen, indem sie ihre Fähigkeit zur Erzeugung längerer Reads nutzen. Darüber hinaus haben Fortschritte in Pacific-Biosciences-Technologieinsbesondere die neueste Generation von Instrumenten und Kits ermöglicht die Erzeugung von Reads, die sich über bis zu 10.000 nt oder mehr erstrecken, und erweitert somit den Umfang der genomischen Erforschung.
CD Genomics Long-Read-RNA-Sequenzierung und Bibliothekskonstruktionsdienste ermöglichen eine eingehende Analyse von Transkriptomen.
In einem idealen Szenario, in dem jeder Schritt der Bibliotheksvorbereitung, von der RNA-Fragmentierung bis zur cDNA-Synthese, vollständig unverzerrte Fragmente erzeugt, die die RNA-Proben repräsentieren, würden Einzelend- (SR) und Paarend- (PE) Sequenzierung vergleichbare Ergebnisse liefern. Allerdings schleicht sich während dieser Vorbereitungsphasen unvermeidlich eine Verzerrung ein. Um dem entgegenzuwirken, verbessert die Sequenzierung beider Enden der klonierten Bibliothek die Fragment-Randomisierung und optimiert somit die Qualität der Sequenzierungsdaten.
Das Pair-End-Sequencing bietet einen doppelten Vorteil: Es erhöht nicht nur die Zufälligkeit der sequenzierten Fragmente, sondern ermöglicht auch die Überlappung von Sequenzen aus kurzen Fragmenten, was eine zusätzliche Bestätigung der Sequenzen bietet. Die meisten modernen Datenanalyseprogramme unterstützen sowohl SR- als auch PE-Daten nahtlos, wodurch Hindernisse bei der nachgelagerten Analyse beseitigt werden.
Leider unterstützen nicht alle Sequenzierungsplattformen das paired-end Sequencing. Daher ist es ratsam, wann immer möglich, sich für das paired-end Sequencing zu entscheiden, um die Datenqualität und analytischen Erkenntnisse zu maximieren.
Empfohlene Lektüre: Einzel-Read- vs. Paar-End-Sequenzierung.
Wie bereits besprochen, konzentrieren sich die meisten Sequenzierungsplattformen auf RNA-Moleküle, die aus revers-transkribiertem doppelsträngigem cDNA und PCR-amplifizierten RNA-Proben stammen. Bestimmte Forschungsprojekte legen jedoch den Schwerpunkt auf das Studium von RNA-strukturellen Modifikationen, wie z.B. mRNA-Capping. In solchen Fällen wird es bevorzugt, RNA direkt zu sequenzieren. Dieser Ansatz wird durch aktuelle Fortschritte wie die Nanopore-Sequenzierung veranschaulicht, die RNA direkt anstelle von cDNA sequenziert.
Mit dem Aufkommen der Sequenzierung von totaler RNA aus einzelnen Zellen stellt sich die Frage: Gibt es eine Mindestanforderung an das Probenmaterial? Plattformen, die amplifiziertes doppelsträngiges cDNA verwenden, haben effektiv keine Untergrenze, aber das bedeutet nicht, dass minimales Material ausreicht. Eine Erhöhung des Probenmaterials gewährleistet nicht nur eine ausreichende Menge für die Sequenzierung, sondern verbessert auch die Vielfalt der erfassten RNA-Spezies.
Die meisten modernen Sequenzierungsplattformen bieten spezialisierte Kits an, die für die Bibliotheksvorbereitung aus Nanogramm Gesamt-RNA zugeschnitten sind und unterschiedliche Probenmengen berücksichtigen. Einzelmolekül-Plattformen benötigen insbesondere nur ein Molekül für die Sequenzierung, wodurch praktische Einschränkungen zwischen verschiedenen Sequenzierungsplattformen entfallen.
Sie können sich auf unser beziehen Richtlinien zur Einreichung von Mustern für weitere Informationen zu Proben und Vorbereitung.
Während die Kosten für die Sequenzierung im vergangenen Jahrzehnt erheblich gesunken sind, ist es wichtig anzuerkennen, dass die Kosten nach wie vor ein Faktor sind, insbesondere angesichts der steigenden Anforderungen und Qualitätsstandards für die Veröffentlichung. Obwohl das ideale Szenario die Kosten außer Acht lassen würde, erfordern praktische Überlegungen eine Budgetierung.
Die Entscheidung, geschäftliche, nationale oder lokale zentrale NGS-Einrichtungen für das Hochladen zu nutzen. RNA-Seq Bibliotheken bieten eine effektive Strategie zur Kostenreduzierung, ohne die Qualität zu beeinträchtigen.
Im dynamischen Bereich der Genomik ist schneller Fortschritt unerlässlich. Idealerweise werden Proben zügig vorbereitet, Bibliotheken sorgfältig erstellt und die Sequenzierung nahtlos ohne Verzögerungen durchgeführt. In der Realität haben jedoch viele Plattformen wie Illumina, SOLID und 454 oft Warteschlangen, nicht weil die Maschinen untätig sind, sondern aufgrund unzureichender Bibliotheken, um den Fluss-Pool für einen einzelnen Durchlauf zu sättigen.
Somit entsteht der Engpass im Arbeitsablauf typischerweise während der Bibliothekskonstruktion, wo die Ansammlung einer erforderlichen Anzahl von Bibliotheken dem Start der Instrumentenläufe vorausgeht. Folglich stammt die Arbeitswarteschlange nicht aus der Verfügbarkeit der Instrumente, sondern aus der vorbereitenden Bibliotheksarbeit.
Nach Abschluss der Sequenzierung ist die Reise noch lange nicht zu Ende. Datenanalyse tritt als die nächste Phase auf, und ihre Dauer kann von Tagen bis zu Monaten oder sogar Jahren reichen, insbesondere bei Großprojekten. Folglich, trotz der Kürze der Sequenzierungsinstrumentläufe, erscheint die Datenanalysephase als ein potenziell langwieriges Unterfangen.