Homologe Sequenzierung (Iso-Seq) ist ein Einzelmolekül-Echtzeit (SMRT) Sequenzierung Technologie, die von PacBio entwickelt wurde und vollständige Transkriptlängen-Sequenzen erzeugen kann, wodurch der komplizierte Schritt der Transkriptomrekonstruktion in der traditionellen Transkriptom-Sequenzierung vermieden wird. Durch die direkte Sequenzierung der 5'- und 3'-unübersetzten Regionen sowie der Polyadenylierungsschwänze von cDNA kann diese Technik vollständige Transkripte erfassen, einschließlich Spleiß-Isomeren, alternativer Spleißung, alternativer Polyadenylierung (APA), Genfusionsevents und langen nicht-kodierenden RNAs (lncRNA).
Überblick über die Iso-Seq-Analyse
Der Workflow der Iso-Seq-Technologie umfasst die Vorbereitung von cDNA aus RNA-Proben, die Umwandlung in eine für die Sequenzierung geeignete Bibliothek und anschließend die Sequenzierung mithilfe der Plattformen Sequel oder Seeq II. Nach der Sequenzierung wurden die Daten mit speziellen bioinformatischen Werkzeugen analysiert, wie z.B. der Extraktion von FLNC-Leseabschnitten, Fehlerkorrektur, Ausrichtung und Homologeidentifikation. Diese Werkzeuge können hochwertige Transkriptsequenzen erzeugen und unterstützen eine Vielzahl von nachgelagerten Analysen, wie z.B. Genannotation, Analyse der differentiellen Expression, Erkennung von Spleißereignissen und Vorhersage der Genfunktion.
Die Iso-Seq-Technologie hat ein breites Anwendungspotenzial in der Pflanzen-, Tier- und Humanforschung gezeigt. Zum Beispiel wird sie im Bereich der Pflanzen eingesetzt, um die Regulationsmechanismen der Genexpression, Netzwerke der epigenetischen Regulation und die Komplexität des Transkriptoms aufzudecken. In der medizinischen Forschung hilft sie, krankheitsbezogene Genmutationen und Spleißanomalien zu identifizieren. Darüber hinaus kann Iso-Seq auch Transkripte mit geringer Häufigkeit oder seltene Transkripte nachweisen, was oft schwer mit RNA-Seq zu erreichen ist.
Datenanalyse-Workflow für die Analyse von Iso-Seq-Daten (Shannon et al., 2013)
Die Bedeutung der Beherrschung der Dateninterpretation in Iso-Seq
Es ist für Forscher sehr wichtig, die Fähigkeit zur Analyse von Iso-Seq-Daten zu beherrschen, aus folgenden Gründen:
Verbesserung der Datenakkuratheit: Die Interpretation von Iso-Seq-Daten enthält in der Regel reichhaltige biologische Informationen, jedoch erfordert ihre Komplexität von den Forschern eine starke Datenanalysefähigkeit. Beispielsweise kann die Genauigkeit der Transkriptionsannotation erheblich verbessert werden, indem FLNC-Lesesegmente korrekt behandelt, Fehler entfernt und diese verglichen werden. Darüber hinaus kann die Auswahl geeigneter Analysewerkzeuge (wie PRAPI, TAGET usw.) für verschiedene Forschungsprobleme die Zuverlässigkeit der Ergebnisse weiter erhöhen.
Die Komplexität des Transkriptoms aufdecken: Iso-Seq kann Transkript-Isomere und Spleißereignisse erkennen, die in traditionellen RNA-Seq-Analysen schwer zu finden sind. Zum Beispiel kann es lange nicht-kodierende RNAs, alternatives Spleißen und Genfusionsevents nachweisen. Daher ist das Beherrschen des Datenanalyseprozesses hilfreich, um den Mechanismus der Genexpressionsregulation und die Vielfalt des Transkriptoms vollständig zu verstehen.
Unterstützung der Multi-Omics-Integrationsanalyse: Iso-Seq-Daten können mit anderen Omics-Daten (wie Protein-Omics, Epigenetik usw.) kombiniert werden, um umfassendere biologische Einblicke zu bieten. Zum Beispiel kann durch die Integration von Iso-Seq-Daten mit Genexpressionsdaten die Genfunktion und die Krankheitskorrelation genauer vorhergesagt werden.
Optimierung des experimentellen Designs: Ein tiefes Verständnis des Datenanalyseprozesses kann Forschern helfen, das experimentelle Design zu optimieren. Zum Beispiel kann durch Anpassung der Sequenzierungstiefe und der Bibliothekskonstruktionsstrategie die Datenqualität maximiert und der Ressourcenverschwendung reduziert werden.
Fördern Sie interdisziplinäre Zusammenarbeit: Die Iso-Seq-Datenanalyse umfasst eine Vielzahl von bioinformatischen Werkzeugen und Technologien, was von den Forschern ein interdisziplinäres Wissensfundament erfordert. Zum Beispiel müssen die Forscher statistische Prinzipien, bioinformatische Algorithmen und Prinzipien des experimentellen Designs verstehen, um die Datenanalyse effizient abzuschließen und die Ergebnisse zu erklären.
Dienste, an denen Sie interessiert sein könnten
Möchten Sie mehr über die Details von Iso-seq erfahren? Schauen Sie sich diese Artikel an.:
Der Prozess der Iso-seq-Datenerzeugung ist komplex und rigoros. Zunächst erfolgt die Probenvorbereitung, bei der hochqualitative Gesamt-RNA aus spezifischen Geweben, Zellen oder biologischen Proben extrahiert werden muss. Die Integrität und Reinheit der RNA sollte hoch sein, um die nachfolgende Sequenzierung nicht zu beeinträchtigen.
Probenvorbereitung
RNA-Extraktion und Qualitätskontrolle: Die RNA-Extraktion erfolgt normalerweise mit Standardmethoden, wie dem Easy-Spin Plant RNA Extraction Kit oder dem Qiagen RNeasy Mini Kit, um die Integrität und Reinheit der RNA sicherzustellen. Die RNA-Integrität (RIN-Wert) sollte in der Regel ≥7,0 betragen. Die extrahierte RNA muss einer Qualitätsbewertung unterzogen werden, einschließlich Konzentrations- und Integritätstests, wie z.B. der Analyse mit NanoDrop oder dem Agilent Fragment Analyzer. Die Gesamt-RNA sollte in der Regel ≥200 ng betragen, um den Anforderungen der nachfolgenden Amplifikation gerecht zu werden.
cDNA-Synthese und Bibliothekskonstruktion: Das Clontech SMARTer PCR cDNA-Synthesekit wurde verwendet, um den ersten Strang cDNA zu synthetisieren. Das Kit unterstützt die Erzeugung von voll-längiger cDNA aus totalem RNA oder polyA+ RNA, und die minimale Ausgangsmenge beträgt 2 ng totale RNA oder 1 ng polyA+ RNA. SMARTScribe-Reverse-Transkriptase synthetisiert den komplementären Strang der cDNA vom Ende der polyA und fügt zusätzliche Adenin-Nukleotide hinzu, wenn die mRNA das 5'-Ende erreicht, wodurch eine universelle 3'-Sequenz für die Synthese des zweiten Strangs bereitgestellt wird. Der zweite Strang cDNA wurde mit KAPA HiFi DNA-Polymerase amplifiziert. Im Prozess der Bibliothekskonstruktion können wir die Methode ohne Größenselektion oder mit Größenselektion wählen.
Sequenzierungsoperation
PacBio-Sequenzierungsworkflow: Nach der Vorbereitung der Bibliothek wird die cDNA-Bibliothek in eine SMRTbell-Vorlage umgewandelt, die für die Sequenzierung geeignet ist, indem das PacBio SMRTbell-Vorlagenvorbereitungs-Kit (wie das Template Prep Kit 2.0) verwendet wird. Die Vorlagenbibliothek wurde in die PacBio Sequel II oder Sequel IIe Sequenzierungsplattform mit dem P6- oder P7-Chemiekit für die Sequenzierung geladen. Die Sequenzierungszeit beträgt normalerweise 6 Stunden, aber die genaue Zeit hängt von der Zielabdeckungstiefe und der Komplexität der Probe ab. Die während des Sequenzierungsprozesses generierten Daten umfassen die zyklische Konsenssequenz (CCS) und die azyklische Konsenssequenz (FLCC), wobei CCS verwendet wird, um qualitativ hochwertige Voll-Längen-Transkripte zu erzeugen, während FLCC zur Erkennung von niedrigqualitativen oder unvollständig amplifizierten Sequenzen verwendet wird.
Datenausgabeformat: PacBio-Sequenzierungsdaten werden normalerweise im BAM-Format ausgegeben, einschließlich der ursprünglichen Lese-Daten, gefilterter gültiger Lese-Daten und Annotationsinformationen. Nach der Datenverarbeitung können verschiedene Ausgabedateien generiert werden, einschließlich:
Iso-seq Datenanalyse verwendet spezielle Algorithmen und Werkzeuge, um die durch Sequenzierung gewonnenen langen Lese- und langen Sequenzdaten zu verarbeiten, um eine vollständige Erkennung von Transkripten, Analysen alternativer Spleißungen, die Erkennung von Genfusionen, die Entdeckung neuer Transkripte und die Quantifizierung des Genexpressionsniveaus zu ermöglichen, und somit die Komplexität und Vielfalt des Transkriptoms umfassend und tiefgehend zu analysieren.
Vorbehandlung und Qualitätskontrolle
Rohdatenfilterung: Vor der anschließenden Analyse müssen die ursprünglichen RNA-seq-Daten zunächst bewertet und gefiltert werden. Dies umfasst das Entfernen von Segmenten mit niedriger Qualität, nicht klassifizierten Segmenten und Adaptersequenzen. Häufig verwendete Werkzeuge sind FastQC, Trimmomatic usw. Diese Werkzeuge können Verunreinigungen, die Fehlerquote der Basen und überexprimierte Sequenzen in Proben erkennen. Insbesondere wird FastQC verwendet, um die Qualität der Lesesegmente vorläufig zu bewerten und Qualitätsberichte zu erstellen, die den Nutzern helfen, die Lesecharakteristika jeder Probe zu verstehen.
Fehlerkorrektur und Qualitätsbewertung: Für hochwertige Langlesedaten, wie sie aus der Iso-Seq-Technologie stammen, sind weitere Fehlerkorrekturen und Qualitätsbewertungen erforderlich. Beispielsweise können Lesesegmente mit dem HTSeq-Tool beschnitten werden, um die Fehlerquote zu reduzieren und die Genauigkeit der nachfolgenden Analysen zu verbessern. Darüber hinaus kann die Qualität des Lesesegments auch durch Indikatoren wie den Q-Wert (q = log10(p × N)) bewertet werden, wobei n die Länge des Lesesegments ist.
Transkriptomrekonstruktion und Isomererkennung
Iso-Seq-Analysetools und -software Die Iso-Seq-Datenanalyse erfordert in der Regel spezielle Tools und Software.
Annotation und Vergleich mit dem Referenzgenom: Nach der Rekonstruktion des Transkriptoms ist es notwendig, das rekonstruierte Transkript mit dem Referenzgenom zu vergleichen. Dieser Schritt wird normalerweise mit Vergleichswerkzeugen wie SAMtools oder BWA durchgeführt. Nach der Ausrichtung können Werkzeuge wie Trinity und HTSeq verwendet werden, um die Transkripte weiter zu analysieren, einschließlich der Identifizierung von Isomeren, der Schätzung von Expressionsniveaus und der Erkennung von Spleißereignissen. Zur Identifizierung von Isomeren können wir auch Methoden wie die Isoform-Zwei-Schritt-Analyse (I2A) verwenden, um die Unterschiede in der Genexpression zu untersuchen, indem wir die Isomer-Abundanz verschiedener Proben vergleichen.
Analyse-Pipeline von Iso-Sep (Kariuki et al., 2023)
Der Iso-Seq-Datenanalyseprozess umfasst zwei Hauptteile: Vorbehandlung und Qualitätskontrolle sowie Transkriptomrekonstruktion und Isomeridentifikation. In der Vorverarbeitungsphase liegt der Fokus auf der Filterung von Daten niedriger Qualität und der Korrektur von Fehlern; In der Phase der Transkriptomrekonstruktion ist es notwendig, spezielle Werkzeuge und Software zu verwenden, um die langen Lesedaten zu verarbeiten und sie mit dem Referenzgenom zu vergleichen, um Isomere zu identifizieren. Dieser Prozess gewährleistet die Genauigkeit und Zuverlässigkeit der Datenanalyse und bietet eine solide Grundlage für die nachfolgende Forschung zur Genexpression.
Iso-seq-Daten können die Transkriptstruktur umfassend und genau analysieren und bieten hochpräzise Informationen zu vollständigen Transkripten, um das Verständnis der Genfunktion, der regulatorischen Mechanismen und der krankheitsbedingten Transkriptomveränderungen zu fördern.
Identifizierung alternativer Spleißereignisse
Alternatives Spleißen (AS) ist ein wichtiger posttranskriptionaler Regulationsmechanismus in Eukaryoten, der viele Proteinisomere durch das Spleißen verschiedener Exon-Kombinationen erzeugt. Die Methode zur Identifizierung von AS-Ereignissen umfasst:
SpliceSeq-Vergleichsansicht verschiedener Patientenproben (Michael et al., 2012)
Quantifizierung der Transkriptexpressionsniveaus
Die Quantifizierung des Transkriptexpressionsniveaus ist ein wichtiger Schritt, um die Genfunktion und -regulation zu verstehen.
Funktionale Annotation und Pfadanalyse
Die funktionale Annotation und die Analyse von Signalwegen von AS-Ereignissen sind hilfreich, um ihre biologische Bedeutung zu enthüllen.
Visualisierung von Iso-Seq-Daten
Die Visualisierung von Iso-Seq-Daten ist ein entscheidender Schritt, um die Komplexität des Transkriptoms zu zeigen.
Das Gesamtdesign und die Visualisierung von Iso-Seq (Gao et al., 2018)
Iso-seq kann das vollständige Transkript direkt über die PacBio-Einzelmolekül-Sequenzierungsplattform sequenzieren, ohne die RNA zu unterbrechen. Dadurch können die strukturellen Informationen von Genen wie alternatives Splicing, Transkriptionsstartstelle und PolyA-Schwanz genau identifiziert werden, und es wird umfassende und präzise Informationen über vollständige Transkripte für die Transkriptomforschung bereitgestellt.
Erfolgreiche Iso-Seq-Analyse in veröffentlichter Forschung
Studie zum Pflanzen-Transkriptom: Die Iso-Seq-Technologie hat bemerkenswerte Vorteile in der Untersuchung des Pflanzen-Transkriptoms gezeigt. Zum Beispiel können Forscher durch die PacBio SMRT-Technologie vollständige cDNA-Sequenzen erzeugen, einschließlich der 5'- und 3'-unübersetzten Regionen sowie der Polyadenylierungsschwänze, wodurch der Schritt der Rekonstruktion von Transkriptionsgruppen vermieden wird. Dies ermöglicht es Iso-Seq, Informationen wie alternatives Spleißen, Transkriptionsstartstellen und Polyadenylierungsstellen genauer zu erfassen und bietet ein wichtiges Werkzeug zur Charakterisierung epigenetischer Regulationsnetzwerke.
Transkriptomanalyse Bei der Forschung zu Sojabohnen wurde die Iso-Seq-Technologie verwendet, um die Expression von Genen und Allelen umfassend zu analysieren. Es wurde festgestellt, dass die Iso-Seq-Daten mehr als 80 % der RNA-Seq-Abdeckungsstellen abdeckten und hochabundante Allele, die von RNA-Seq nicht identifiziert werden konnten, nachgewiesen werden konnten. Dies zeigt, dass Iso-Seq eine höhere Sensitivität bei der Offenlegung der Genfunktion und der Regulationsmechanismen aufweist.
Zusammenfassung der Iso-Seq-Daten (Liu et al., 2022)
Die Forschung zur lncRNA Iso-Seq-Technologie hat auch einen Durchbruch bei der Entdeckung und funktionalen Annotation von langen nicht-kodierenden RNAs erzielt. Zum Beispiel wurden in der Sojabohnenforschung eine große Anzahl neuer lncRNAs durch die Iso-Seq-Technologie nachgewiesen, und ihre Funktionen wurden durch bioinformatische Analysen aufgedeckt.
Eigenschaften von lncRNA in Wurzel- und Knötchengeweben von Sojabohnen (Liu et al., 2022)
Anwendung in der Krebsforschung: In der Krebsforschung wird die Iso-Seq-Technologie verwendet, um das vollständige Transkriptom von Tumormustern zu analysieren. Zum Beispiel zeigt die Forschung zur COLO 205 Zelllinie, dass Iso-Seq die Nachweisfähigkeit von Mutationen, Punktdeletion und strukturellen Variationen erheblich verbessern kann, wenn sie mit kurzen und langen Lesedaten kombiniert wird. Diese Technologie bietet eine neue Perspektive für die Krebsgenomforschung.
Landschaft der Isoformwechselereignisse bei primärem Leberkrebs (Chen et al., 2024)
Kreuzspeziesvergleich: In der Studie über den ägyptischen Gorilla (Macaca monophora) gelang es den Forschern, eine Genomassemblierung auf Chromosomenebene zu erstellen, indem sie Illumina- und PacBio Hi-C-Technologie kombinierten, und das vollständige Transkriptom umfassend mit Iso-Seq-Technologie zu analysieren. Die Ergebnisse zeigten, dass mit der Zunahme der Sequenzierungsdaten die Anzahl der Transkript-Isomere allmählich zunahm, wodurch die Qualität der Genannotierung verbessert wurde.
Verschiedene Spleißprofile in Mausmodellen mit kurzen oder pathogenen Wiederholungs-längen (Hannah et al., 2024)
Häufige Probleme und Problemlösungsfähigkeiten
Annotation und Klassifikation von Isomeren: Es kann Redundanz oder Fehlklassifikation im Prozess der Isomerannotation geben. Verwenden Sie Werkzeuge wie TAPSPI und SQANTI3, um Isomere effizient zu annotieren und zu klassifizieren. Diese Werkzeuge können die Genauigkeit der Annotationen verbessern und Fehler reduzieren.
Komplexität des Datenanalyseprozesses: Der Datenanalyseprozess ist kompliziert und erfordert mehrere Schritte, um die ursprünglichen Daten zu verarbeiten. Verwenden Sie automatisierte Werkzeuge wie nf Iso-seq oder TAGET, die den Datenanalyseprozess vereinfachen, menschliche Fehler reduzieren und die Effizienz verbessern können.
Hohe Nachfrage nach Rechenressourcen: Die Analyse von Iso-Seq-Daten erfordert viele Rechenressourcen. Nutzen Sie verteilte Rechenframeworks oder Cloud-Dienste (wie AWS oder Google Cloud), um die Nachfrage nach lokalen Rechenressourcen zu reduzieren.
AS-Ereigniserkennung: Die Erkennung alternativer AS kann durch kurze Lesungen und lange Daten eingeschränkt sein. Kombinieren Sie kurze Lesungen und lange Lesedaten mit Iso-Seq-Daten für eine gemeinsame Analyse, um die Erkennungsgenauigkeit von AS-Ereignissen zu verbessern.
Falsch-positive Ergebnisse in der Datenanalyse: Falsch-positive Ergebnisse können während der Datenanalyse auftreten. Verwenden Sie strenge Qualitätskontrollstandards und mehrere Verifizierungsmethoden (wie RT-QCPR), um die Zuverlässigkeit der Ergebnisse sicherzustellen.
Iso-Seq ist eine Methode zur Sequenzierung des vollständigen Transkriptoms, die auf der SMRT-Sequenzierungstechnologie basiert. Zu den Kernschritten gehören die Erzeugung von ursprünglichen Lesesegmenten, Fehlerkorrektur und Spleißung, Verfeinerung und Annotation von Transkripten, Isomer-Vorhersage und Ausdrucksberechnung sowie Datenvisualisierung und -analyse.
In der Iso-Seq-Forschung ist eine genaue Dateninterpretation aus folgenden Gründen sehr wichtig:
Unterstützung komplexer Transkriptomanalysen: Iso-Seq-Daten können verwendet werden, um das post-transkriptionale Regulationsnetzwerk von Genen tiefgehend zu analysieren, wie z. B. die Splicing-Selektion, Genfusionsevents und deren Auswirkungen auf die Proteinfunktion. Eine genaue Dateninterpretation ist hilfreich, um diese komplexen biologischen Mechanismen aufzudecken.
Fördern Sie die Forschung zum Vergleich zwischen Arten: Iso-Seq bietet ein wichtiges Werkzeug für den Vergleich zwischen Arten, indem es eine Voll-Längen-Transkript-Datenbank von Pflanzen erstellt oder andere Omik-Daten integriert. Zum Beispiel können wir mithilfe von Iso-Seq-Daten die Unterschiede in der Genexpression zwischen verschiedenen Arten und deren evolutionäre Beziehungen analysieren.
Förderung der klinischen Forschung und Krankheitsdiagnose: Die Iso-Seq-Technologie hat einen wichtigen Anwendungswert bei der Erkennung von krankheitsbezogenen Genvariationen und der Analyse von Unterschieden in der Genexpression. Eine genaue Dateninterpretation kann helfen, potenzielle Krankheitsmarker oder therapeutische Ziele zu identifizieren.
Daher benötigt die Iso-Seq-Forschung nicht nur Technologien zur Generierung und Verarbeitung von hochwertigen Daten, sondern auch fortschrittliche bioinformatische Werkzeuge und Algorithmen, um die Genauigkeit der Dateninterpretation sicherzustellen und somit die Entwicklung der biologischen Forschung und klinischen Anwendungen voranzutreiben.
Referenzen