Isoform-Sequenzierung (Iso-Seq) ist eine Einzelmolekül-Echtzeit-Sequenzierungstechnologie, die von PacBio entwickelt wurde und zur Analyse und funktionalen Charakterisierung von vollständigen Transkripten verwendet wird. Diese Technologie kann hochwertige Sequenzdaten vollständiger Transkripte bereitstellen, indem RNA-Moleküle direkt sequenziert werden, ohne dass eine Transkriptomassemblierung erforderlich ist. Dieses Verfahren eignet sich besonders gut für die Genannotierung, Isomerentdeckung, alternatives Splicing, Forschung zur Polyadenylierung (APA) und die Erkennung von Genfusionen.
Iso-Seq ist ein Einzelmolekül-Echtzeit-Sequenzierung Technologie, die auf der PacBio-Plattform basiert und zur Sequenzierung und Analyse von vollständigen Transkripten verwendet wird. Die Kernschritte umfassen die folgenden Schlüsselverbindungen:
Transformation von RNA zu cDNA: Zunächst werden RNA-Proben in cDNA umgewandelt, die die Grundlage für die anschließende Sequenzierung bildet.
Bau einer cDNA-Bibliothek: cDNA-Fragmente in Bibliotheksvektoren einfügen, die für das Sequenzieren geeignet sind, wie z. B. im SMRTbell-Bibliotheksformat.
Sequenzierung: Das Sequel-System wird zur Sequenzierung verwendet, um hochwertige Langlesedaten zu erzeugen.
Erzeugung einer zirkulären Konsenssequenz (CCS): Verarbeitung der ursprünglichen Sequierungsdaten durch einen fortschrittlichen Algorithmus von PacBio zur Erzeugung einer hochwertigen zirkulären Konsenssequenz.
Datenanalyse: Verwenden Sie spezielle Softwaretools (wie SMRT Link oder TAGET), um die generierten Daten zu analysieren, einschließlich der Identifizierung von Transkript-Isomeren, Spleißvariationen, Polyadenylierungsstellen usw.
Schematisches Protokoll von Iso-Seq (An et al., 2018)
Bedeutung eines umfassenden Leitfadens für Iso-Seq-Experimente
Da das Iso-Seq-Experiment viele Schritte umfasst, von der Probenvorbereitung bis zu DatenanalyseJeder Schritt erfordert präzise Operationen und Optimierungen. Daher ist es sehr wichtig, einen umfassenden experimentellen Leitfaden bereitzustellen, um den Erfolg des Experiments und die Zuverlässigkeit der Ergebnisse sicherzustellen. Beispielsweise müssen die Qualitätskontrolle von RNA, die Optimierung des Bibliotheksaufbaus und die Anpassung der Sequenzierungsparameter während der Probenvorbereitung berücksichtigt werden.
Im Hinblick auf die Datenanalyse empfahl PacBio die Verwendung der SMRT Link-Software für Polyploidie- und Isomeranalysen sowie eine weitere funktionale Charakterisierung durch die Kombination mit Community-Tools wie SQANTI, TAMA und LoReAn. Darüber hinaus ist es für verschiedene Arten von Proben (wie Einzelzellen oder Langleseproben) notwendig, geeignete Kits und Analyseverfahren auszuwählen.
Um die Effizienz der Datenanalyse zu verbessern und Fehler zu reduzieren, benötigen Forscher einen systematischen Prozess zur Verarbeitung von Iso-Seq-Daten. Dies umfasst die Qualitätskontrolle, das Splicing und die Annotation der ursprünglichen Sequenzierungsdaten, die Analyse der differentiellen Expression und die funktionale Annotation. Darüber hinaus, mit der Vertiefung der Forschung, wie man Iso-Seq-Daten mit anderen Omik-Daten (wie RNA-Seq und Proteomikdaten) zu gewinnen, um umfassendere biologische Erkenntnisse zu erhalten, ist ebenfalls eine wichtige Richtung der aktuellen Forschung.
Dienste, an denen Sie interessiert sein könnten
Möchten Sie mehr über die Einzelheiten von Iso-seq erfahren? Schauen Sie sich diese Artikel an.:
Der Iso-seq-Prozess dient hauptsächlich der Extraktion von hochqualitativem RNA aus Proben, gefolgt von der reversen Transkription zur Synthese von voll-länglichem cDNA, dann wird die cDNA fragmentiert und mit Sequenzierungsadaptern verbunden, um eine Sequenzierungsbibliothek zu erstellen. Anschließend wird die Bibliothek in den PacBio-Sequenzer geladen, um durch die Verwendung von Single-Molecule-Real-Time-Sequenzierungstechnologie lange Lesesequenzen zu erhalten, die vollständige Transkriptinformationen enthalten. Schließlich wird spezielle Analysesoftware verwendet, um die Sequenzen zu korrigieren, zu clustern und zu annotieren, um verschiedene Transkript-Isomere genau zu identifizieren und zu klassifizieren.
A. Probenvorbereitung
a) Methoden und Werkzeuge: Die RNA-Extraktion erfolgt üblicherweise mit der Phenol-Chloroform-Methode, der Silikagel-Säulen-Methode oder der Magnetperlen-Methode. Die Phenol-Chloroform-Methode ist einfach, aber anfällig für Kontaminationen, die Silikagel-Säulen-Methode bietet hohe Reinheit, ist jedoch kostspielig, und die Magnetperlen-Methode kombiniert die Vorteile von Schnelligkeit, Automatisierung und hoher Ausbeute. Darüber hinaus gehören zu den gängigen Methoden die Verwendung von kommerziellen Kits, wie den Qiagen RNeasy Kits, die auf Silikamembran-Technologie basieren. Diese Kits können effizient totale RNA aus verschiedenen Probenarten isolieren, einschließlich Geweben, Zellen und Blut. Für Pflanzenproben wird häufig die CTAB-Methode (Cetyltrimethylammoniumbromid) verwendet, die sich als effektiv im Umgang mit den hohen Gehalten an Polysacchariden und Polyphenolen in Pflanzengeweben erweist. Werkzeuge wie Zentrifugen sind unerlässlich für die Trennung der Phasen während der Extraktion, und Spektrophotometer werden verwendet, um die Konzentration der extrahierten RNA zu messen.
Der Arbeitsablauf der RNA-Extraktion (Griffith et al., 2015)
b) Qualitätsevaluation: Die RNA-Qualität kann durch Messung des A260/A280-Verhältnisses (idealer Bereich ist 2,0-0,2) und des A260/A230-Verhältnisses (idealer Bereich ist 2,0-0,2) mit einem Spektrophotometer bewertet werden. Die Qualität der extrahierten RNA ist entscheidend für nachgelagerte Anwendungen. Die RNA-Integritätszahl (RIN) ist eine weit verbreitete Kennzahl zur Bewertung der RNA-Qualität. Sie reicht von 1 bis 10, wobei 10 die höchste Qualität anzeigt. RIN-Werte werden mit automatisierten kapillaren Elektrophoresesystemen, wie dem Agilent 2100 Bioanalyzer, bestimmt. Eine RNA-Probe mit einem RIN-Wert von 7 oder höher wird im Allgemeinen als geeignet für Iso-Seq angesehen. Proben mit niedrigeren RIN-Werten können zu degradierter RNA führen, was zu unvollständigen oder ungenauen Sequenzierungsergebnissen führt.
Qualitätskontrolle und Größenauswahl von RNA (Griffith et al., 2015)
a) Methode der reversen Transkription: Verwendung des Smarter Total RNA-SeqKit (Clontech) oder des Kapa Hifi RNA-to-cDNA Synthesis Kits zur Synthese von cDNA. Diese Methoden transkribieren RNA mithilfe von zufälligen Primern oder Oligo (dT) Primern in cDNA und verbessern die Amplifikationseffizienz durch den Einsatz des KAPA HiFi-Enzyms. Die Verwendung von zufälligen Hexamer-Primern ist ein allgemeineren Ansatz, der an jede Region des RNA-Moleküls binden kann, was ihn für eine breite Palette von Transkripten geeignet macht. Gen-spezifische Primer werden verwendet, wenn nur spezifische Transkripte von Interesse sind. Reverse Transkriptase-Enzyme, wie Superscript III, werden häufig in diesen Reaktionen eingesetzt.
Schematische Synthese von cDNA (Griffith et al., 2015)
b) cDNA-Qualitätsinspektion: Nach der cDNA-Synthese ist es wichtig, Qualitätsprüfungen durchzuführen. Dies kann durch das Laufenlassen der cDNA auf einem Agarosegel geschehen, um das Vorhandensein eines Schmiers oder spezifischer Banden zu überprüfen, was auf eine erfolgreiche Synthese hinweist. Darüber hinaus kann die quantitative PCR (qPCR) verwendet werden, um die Menge und Integrität der cDNA zu bewerten. Die cDNA sollte eine konsistente Konzentration aufweisen und frei von Inhibitoren sein, die die nachfolgenden Schritte der Bibliotheksvorbereitung und Sequenzierung beeinträchtigen könnten. Überprüfen Sie die Größenverteilung der cDNA-Fragmente, um sicherzustellen, dass sie für den anschließenden Bibliotheksaufbau geeignet sind.
Unterschiedliche Größenverteilung von cDNA vor und nach der Größenselektion (Griffith et al., 2015)
B. Bibliothekskonstruktion
a) Größenauswahl und Amplifikation: Bei der Konstruktion von PacBio-Bibliotheken ist die Größenauswahl ein wichtiger Schritt. Dies kann durch Techniken wie Gel-Extraktion oder die Verwendung von Größenauswahl-Perlen erreicht werden. Das Ziel ist es, cDNA-Fragmente innerhalb eines bestimmten Größenbereichs zu isolieren, typischerweise etwa 1-10 kb für die Analyse vollständiger Transkripte. Anschließend wurde die Bibliothek durch KAPA HiFi PCR amplifiziert, um die Bibliothekskonzentration zu erhöhen. Die in diesem Amplifikationsschritt verwendeten Primer sind so konzipiert, dass sie die notwendigen Adaptersequenzen für das Sequenzieren auf der PacBio-Plattform hinzufügen.
b) Qualitätskontrollschritt: Die Qualitätskontrolle der konstruierten Bibliothek ist unerlässlich. Dazu gehört die Messung der Konzentration der Bibliothek mit Methoden wie der Qubit-Fluorometrie, die eine genauere Messung der DNA-Konzentration im Vergleich zur Spektrophotometrie bietet. Darüber hinaus wird die Bibliothek mittels Kapillarelektrophorese oder anderer Hochdurchsatzmethoden analysiert, um das Vorhandensein der richtigen Größenverteilung der Fragmente zu überprüfen. Alle Bibliotheken, die nicht den Qualitätsstandards entsprechen, müssen möglicherweise erneut amplifiziert oder rekonstruiert werden.
Die häufigsten Methoden zur Konstruktion von Iso-Seq-Bibliotheken (Erwin et al., 2014)
a) SMRT-Zellbeladung: Die SMRT-Zelle ist die Plattform für die Sequenzierung im PacBio-System. Das Laden der SMRT-Zelle umfasst das sorgfältige Hinzufügen der vorbereiteten Bibliothek zur Zelle, wobei sichergestellt wird, dass die richtige Konzentration und das richtige Volumen verwendet werden. Die Bibliothek wird mit Sequenzierungsreagenzien, einschließlich Polymerase und Nukleotiden, gemischt, bevor sie in die Zelle geladen wird, und jede Zelle wird mit etwa 100-200 ng Bibliothek beladen.
b) Sequenzierungsparameter: Mehrere Sequenzierungsparameter müssen festgelegt werden, wie die Filmlänge, die bestimmt, wie lange der Sequenzierungslauf dauern wird. Längere Filmlängen können die Abdeckung erhöhen und die Wahrscheinlichkeit erhöhen, vollständige Transkripte zu erhalten, aber sie erhöhen auch die Kosten und die Dauer des Experiments. Weitere Parameter sind die Bindungszeit der Polymerase und die Temperatureinstellungen, die optimiert werden, um eine genaue und effiziente Sequenzierung zu gewährleisten. Die PacBio Sequel II-Plattform wird für die Sequenzierung empfohlen, und die Sequenzierungszeit ist auf 180 Minuten festgelegt, um hochwertige Langlesedaten zu erhalten.
C. Datenerzeugung und Qualitätskontrolle
a) Nach dem Sequenzierungslauf werden Rohdaten in Form von Signaldateien generiert. Diese Dateien müssen verarbeitet werden, um die Sequenzreads zu erhalten. Erste Überprüfungen der Rohdaten umfassen die Bewertung der Signalqualität, die Anzahl der generierten Reads und die Verteilung der Read-Längen. Offensichtliche Anzeichen für eine schlechte Signalqualität oder niedrige Read-Zahlen können auf Probleme mit dem Sequenzierungslauf oder der Bibliotheksvorbereitung hinweisen.
a) Die Fehlerkorrektur ist ein notwendiger Schritt in der Iso-Seq-Datenverarbeitung aufgrund der relativ hohen Fehlerquote der PacBio-Sequenzierungstechnologie. Werkzeuge wie Canu und Falcon werden häufig zur Fehlerkorrektur eingesetzt. Diese Werkzeuge verwenden Algorithmen, um die Sequenzierungsfehler zu korrigieren, indem sie mehrere Reads derselben Region vergleichen. Nach der Fehlerkorrektur werden Vorverarbeitungsschritte wie das Trimmen von Adaptern und das Filtern von niedrigqualitativen Reads durchgeführt. Software wie BBDuk kann zum Trimmen von Adaptern verwendet werden, und Werkzeuge wie FastQC können zur Bewertung der Qualität der vorverarbeiteten Reads eingesetzt werden.
D. Datenanalyse
a) Empfohlener Prozess und Werkzeuge: Die Transkriptzusammenstellung ist der Prozess, bei dem die korrigierten Reads zusammengefügt werden, um vollständige Transkripte zu bilden. Pipelines wie die PacBio Iso-Seq-Pipeline sind speziell für diesen Zweck konzipiert. Werkzeuge wie StringTie und Cufflinks können ebenfalls zur Transkriptzusammenstellung verwendet werden. Nach der Zusammenstellung erfolgt die Isoformidentifizierung, um verschiedene Spleißvarianten desselben Gens zu identifizieren. Diese Werkzeuge verwenden Algorithmen, um die zusammengefügten Transkripte zu vergleichen und Regionen alternativen Spleißens zu identifizieren.
a) Bioinformatik-Ressourcen und Datenbanken: Die funktionale Annotation der identifizierten Transkripte umfasst die Zuordnung biologischer Funktionen zu diesen. Dies kann unter Verwendung von Ressourcen wie der Gene Ontology (GO)-Datenbank erfolgen, die Informationen über die molekulare Funktion, den biologischen Prozess und die zelluläre Komponente von Genen bereitstellt. Die Kyoto-Enzyklopädie der Gene und Genome (KEGG)-Datenbank ist ebenfalls nützlich, um die Stoffwechselwege und biologischen Prozesse zu verstehen, an denen die Gene beteiligt sind. Für die Analyse alternativer Spleißvorgänge können Datenbanken wie die Human Splicing Database (HSD) verwendet werden, um die identifizierten Spleißereignisse mit bekannten Spleißmustern zu vergleichen.
E. Dateninterpretation und -visualisierung
a) Mehrere Werkzeuge stehen zur Verfügung, um Iso-Seq-Ergebnisse zu visualisieren. Der Integrative Genomics Viewer (IGV) ist ein beliebtes Tool, das die ausgerichteten Reads, Transkripte und Genmodelle anzeigen kann. Es ermöglicht Forschern, die alternativen Spleißereignisse, die Abdeckung der Reads und die Verteilung der Transkripte über verschiedene Gene hinweg zu visualisieren. Ein weiteres Tool, Circos, kann verwendet werden, um zirkuläre Visualisierungen der Daten zu erstellen, die nützlich sind, um mehrere Proben zu vergleichen oder die Beziehungen zwischen verschiedenen Genen zu visualisieren.
IGV-Screenshots von Reads aufgrund interner Oligo-dT-Primer (Prech et al., 2020)
a) Sobald die Datenanalyse abgeschlossen ist, ist es wichtig, die Iso-Seq-Daten zu berichten und zu teilen. Dies kann durch die Veröffentlichung der Ergebnisse in wissenschaftlichen Zeitschriften erfolgen, zusammen mit den Rohdaten, die in öffentlichen Datenbanken wie dem National Center for Biotechnology Information (NCBI) Sequence Read Archive (SRA) abgelegt sind. Darüber hinaus können Forscher ihre Analyse-Skripte und verarbeiteten Daten auf Plattformen wie GitHub teilen, was es anderen Forschern ermöglicht, die Analyse zu reproduzieren und auf den Ergebnissen aufzubauen. Eine klare und detaillierte Berichterstattung über die Methoden, Ergebnisse und Datenquellen ist entscheidend für die Reproduzierbarkeit und Transparenz der Forschung.
Die oben genannten Schritte decken den gesamten Iso-Seq-Experimentierprozess von der Probenvorbereitung bis zur Datenanalyse ab. Jeder Schritt kombiniert die aktuellen Mainstream-Technologien und -Werkzeuge, um die Effizienz und Genauigkeit des Experiments sicherzustellen. Zum Beispiel wird bei der RNA-Extraktion auf kommerzielle Kits zurückgegriffen, um Reinheit und Integrität zu gewährleisten. Die cDNA-Synthese verwendet das effiziente SMARTer-Kit. Der Bibliotheksaufbau kombiniert Größenselektion und Amplifikationstechniken. Im Bereich der Datenanalyse wird empfohlen, Werkzeuge wie LoRC und GMAP zu verwenden, um hochwertige Transkripte zu assemblieren und zu annotieren. Diese Schritte bieten eine solide Grundlage für eine eingehende Analyse der Genexpression und der Komplexität des Transkriptoms.
Obwohl die Iso-Seq-Technologie offensichtliche Vorteile hat, gibt es dennoch viele Probleme. Während der Probenvorbereitung ist die Qualität der RNA-Extraktion instabil, die leicht von Faktoren wie Kontamination, Abbau oder niedriger Reinheit beeinflusst wird, was die Qualität der Sequenzierungsdaten verringert. Bei der Sequenzierung ist es häufig der Fall, dass die Sequenzierungstiefe unzureichend ist, und es ist schwierig, genügend vollständige Transkriptominformationen aufgrund der kurzen Leselänge oder der geringen Probenmenge zu erhalten. In der Datenanalyse ist es schwierig, Isomere zu erkennen, was durch die Unvollständigkeit der genomischen Referenzsequenz und das niedrige Expressionsniveau der Isomere begrenzt ist.
Häufige Probleme bei Iso-Seq-Experimenten
Best Practices für die erfolgreiche Durchführung von Iso-Seq-Experimenten
Durch die oben genannten Fehlersuche und bewährten Praktiken kann die Erfolgsquote von Iso-Seq-Experimenten effektiv verbessert werden, und es kann eine hochwertige Datenunterstützung für nachfolgende Forschungen bereitgestellt werden.
Das Iso-Seq-Protokoll umfasst fünf Hauptschritte: die Umwandlung von RNA in cDNA, den Aufbau einer cDNA-zu-SMRTbell-Bibliothek, die Sequenzierung mit dem Sequel-System, die Generierung einer konsensbasierten zyklischen Sequenz (CCS) und das Auffinden von Isomeren durch die Iso-Seq-Analyse. Darüber hinaus unterstützt die Technologie auch Multiplex-Sequenzierung und Einzelzell-Sequenzierung, was ihr einzigartige Vorteile bei der Untersuchung komplexer Proben und seltener Zelltypen verleiht.
Die Probenvorbereitung ist entscheidend, da ihre Qualität die nachfolgende Sequenziergenauigkeit beeinflusst. Hochwertige RNA ist unerlässlich; Abbau oder Verunreinigung können zu einem Sequenzierungsfehler führen. Bei der Vorbereitung ist es notwendig, mehrere A-Schwänze hinzuzufügen und ein rRNA-Depletion-Kit gemäß den Standardverfahren zu verwenden.
Das experimentelle Design sollte rational sein und Typ, Sequierungstiefe und Zielanalyse der Proben berücksichtigen. Für die Pflanzenforschung sollten Gewebe und Zeitpunkte basierend auf der Genexpression ausgewählt werden. Integrieren Sie mehrere Strategien für eine bessere Datenabdeckung und Genauigkeit.
Die Sequenzierungsparameter wie die On-Board-Konzentration und die Zeit müssen entsprechend den Probenmerkmalen und den Analyseanforderungen optimiert werden. Verwenden Sie hochwertige Instrumente und Reagenzien gemäß den Anweisungen des Herstellers, um die Datenqualität zu verbessern.
Die Datenanalyse erfordert spezialisierte Werkzeuge wie SMRT Link oder TAGET, um komplexe Isomerdaten zu verarbeiten. Korrigieren Sie potenzielle Abweichungen und überprüfen Sie die Ergebnisse mit anderen Technologien wie RNA-seq. Überwachen Sie während des Experiments kontinuierlich die Qualität der Proben und der Sequenzierung. Überprüfen Sie, ob die Daten nach der Sequenzierung den Erwartungen entsprechen, und passen Sie das Schema umgehend an. Stellen Sie sicher, dass alle Daten nach dem Experiment vollständig sind.
Referenzen: