Die Erstellung eines umfassenden Expressionsprofils ist entscheidend für das Studium der normalen Biologie und der Krankheitsprozesse. Transkriptom ist das vollständige Set von Transkripten einer Zelle oder Population, und Transkriptomanalyse enthüllt die Identität und Menge aller RNA-Moleküle. Die Korrelation von Transkriptomen über Entwicklungsstadien, Krankheitszustände im Vergleich zu normalen Zellen oder spezifische experimentelle Stimuli im Vergleich zu physiologischen Bedingungen ist eine wesentliche Anwendung von RNA-SeqDiese Art der Analyse erfordert die Identifizierung von Genen und ihren Isoformen sowie eine präzise Schätzung ihrer Häufigkeit beim Vergleich von zwei oder mehr Proben. Es ist entscheidend für das Verständnis der funktionalen Elemente des Genoms und die Bestimmung der molekularen Zusammensetzung, was zu neuen Erkenntnissen über die biologischen Mechanismen von Entwicklung und Krankheit führen kann. Cuffdiff, DESeq, DESeq2, EdgeR, PoissonSeq, Limma voom und MISO sind einige der am häufigsten verwendeten Werkzeuge für die differenzielle Genexpression.
Dienste, an denen Sie interessiert sein könnten
Nach dem Schritt der Vorverarbeitung RNA-Seq Die DGE-Analyse wird verwendet, um zu bestimmen, wie sich die Transkriptspiegel zwischen den Proben unterscheiden. Da die Mikroarray In der Vergangenheit wurden zahlreiche statistische Techniken entwickelt, die die Lesedichte nutzen, um die Transkriptmenge zu bewerten. Die RPKM (Reads per Kilobase per Million Mapped Reads)-Technik wird häufig verwendet, um die Expression und normalisierte Lesek counts im Verhältnis zur Gesamtzahl der gemappten Reads und der Genlänge zu berücksichtigen. Allerdings beeinflussen neben der Lesedichte auch andere Faktoren wie die Sequenzierungstiefe, die Genlänge und die Isoformhäufigkeit die geschätzte Transkriptmenge. Die RPKM-Methode wurde kritisiert, weil sie alle RNA-Seq liest sich fast gleich, zum Beispiel ohne Berücksichtigung von Isoformen. RNA-Seq Die Erwartungs-Maximierungs-Methode (RSEM) ist ein neu entwickeltes Softwaretool, das genaue Gen- und Isoform-Expressionsniveaus für Arten ohne Referenzgenom-Assembly bereitstellt.
Abbildung 1. RNA-seq-Analyse-Workflow für die Genexpression. (Corchete, 2020)
Bis heute verwenden die meisten Algorithmen zur Analyse der differentiellen Genexpression einfache zählbasierte Wahrscheinlichkeitsverteilungen, gefolgt von Fishers exaktem Test, ohne die biologische Variabilität zwischen den Proben zu berücksichtigen. Während RNA-Seq Daten weisen im Vergleich zu sehr niedrige technische Variabilität auf. Mikroarray Daten, die biologische Variabilität kann erheblich verringert werden, indem mehrere Replikate unter Verwendung von permutationsbasierten Methoden ausgewertet werden. Zur Bewertung der biologischen Variabilität wurde die serielle Analyse der Genexpression entwickelt, bei der großangelegte Datensätze verwendet werden, um einen zusätzlichen Streuungsparameter basierend auf einer erweiterten Poisson-Verteilung zu approximieren, was eine umfassende molekulare Charakterisierungsfähigkeit ermöglicht.
Allerdings kann eine große Anzahl von Replikaten für die meisten Anwendungen zu kostspielig sein, sodass viele etablierte Techniken das Problem überwunden haben, indem sie biologische Variabilität modellieren und die Signifikanz mit einer kleinen Anzahl von Proben messen, indem sie paarweise oder multiple Gruppenvergleiche verwenden. Mehrere Programme bieten gut gestaltete Lösungen für diesen Zweck, und sie wurden in zahlreichen biomedizinischen und klinischen Studien eingesetzt. Cuffdiff aus dem Cufflinks-Paket, DESeq, DESeq2 und EdgeR sind Beispiele für diese Programme. Da RNA-Seq Die Lesezahlen sind stark schiefe Ganzzahlen, die von null bis Millionen reichen. Eine Vielzahl von Transformationsalgorithmen wurde verwendet, um die Zählungen an statistische Verteilungsmodelle für die Erkennung von differentieller Expression anzupassen. Für RNA-Seq Zählungen, entwickelte Ansätze für Mikroarray Die Datenanalyse basierend auf kontinuierlichen Verteilungen wurde verbessert. Die Voom-Funktion im limma-Paket ist ein ausgezeichnetes Beispiel dafür, wie Zähldaten in normalverteilte Daten umgewandelt werden können, sodass die statistische Signifikanz getestet werden kann. Ein umfassender Vergleich der Leistung mehrerer DGE-Pakete wurde kürzlich veröffentlicht. Es gibt jedoch keine universelle Strategie, von der wir wissen.
Das Werkzeug zur differentiellen Genexpression (DGE) führt statistische Tests basierend auf der Quantifizierung exprimierter Gene durch, die aus der computergestützten Analyse von Rohdaten abgeleitet sind. RNA-Seq Analysen, wie Mapping und Assemblierung, um festzustellen, welche Gene statistisch signifikante Unterschiede aufweisen. Sie bietet auch Informationen über das Expressionsniveau jedes Gens und das Ausmaß der paarweisen Unterschiede. Die DGE-Analyse kann erhebliche Einblicke in die genetischen Mechanismen bieten, die den phänotypischen Unterschieden bei Organismen zugrunde liegen, einschließlich Wachstumsmustern von Pflanzen, der Erkennung von Tumorursprüngen und Studien zu mikrobiellen Gemeinschaften.
Algorithmen für die Lesezuordnung
Der erste rechnerische Schritt in der RNA-Sequenzierung Die Datenanalyse-Pipeline umfasst das Read-Mapping, einen grundlegenden Prozess, der darauf abzielt, Sequenzreads an das Referenzgenom oder die Transkriptom auszurichten, indem genomische Regionen identifiziert werden, die mit den Read-Sequenzen übereinstimmen. Eine Vielzahl von Mapping-Tools wurde entwickelt, um diesen Prozess zu erleichtern. In allen Fällen beginnt der Mapping-Prozess mit dem Aufbau eines Index für das Referenzgenom oder das Read-Set, der eine schnelle Abfrage potenzieller Standorte in der Referenzsequenz ermöglicht, an denen Reads am wahrscheinlichsten ausgerichtet werden. Anschließend werden langsamere, aber empfindlichere Algorithmen eingesetzt, um Reads innerhalb dieser Kandidatenregionen auszurichten.
Digitale Messung der Genexpression
Bei der Zuordnung wird jeder sequenzierte Lesevorgang, der mit einer kodierenden Einheit (wie einem Exon, Transkript oder Gen) übereinstimmt, zum Zählen verwendet, wodurch der Ausdrucksgrad geschätzt wird. Die gängigste Methode zum Zählen besteht darin, die Anzahl der Lesevorgänge zu zählen, die mit den Exons der Gene überlappen. Im analytischen Workflow erfolgt die Quantifizierung des Genexpressionsniveaus in RNA-Sequenzierung Daten werden typischerweise durch zwei Berechnungsschritte erzielt: das Ausrichten von Reads auf ein Referenzgenom oder Transkriptom und anschließend die Schätzung der Häufigkeit von Genen und Isoformen basierend auf den ausgerichteten Reads. Leider werden die von den am häufigsten verwendeten erzeugten Reads RNA-Sequenzierung Technologien sind oft viel kürzer als die Protokolle, aus denen sie stammen. Folglich ist es in Szenarien, in denen Protokolle mit ähnlichen Sequenzen existieren, nicht immer möglich, kurze Reads eindeutig bestimmten Genen zuzuordnen.
Quantifizierungsverzerrungen und Normalisierung
Zahlreiche Studien betonen die Notwendigkeit einer sorgfältigen Daten-Normalisierung vor der Bewertung der differentiellen Genexpression, um verschiedene Quellen von Verzerrungen zu korrigieren. Die erste Verzerrung, die zu berücksichtigen ist, ist die "Sequenzierungstiefe" der Probe, definiert als die Gesamtzahl der sequenzierten oder zugeordneten Reads. RNA-Sequenzierung Die Zählungen weisen auch Verzerrungen in Bezug auf die Genlänge auf: Die erwartete Anzahl der Reads, die einem Gen zugeordnet werden, ist proportional zur Häufigkeit und Länge der Isoformen, die von diesem Gen transkribiert werden.
Datenanalyse im Data Mining
In den letzten Jahren hat die Forschung im Bereich der RNA-Sequenzierung blühen, was zur Entstehung verschiedener Werkzeuge zur Erkennung von differentieller Genexpression geführt hat. Die einfachsten Methoden zur Erkennung differentieller Genexpression basieren auf statistischen Tests, um festzustellen, welche Gene unter verschiedenen Bedingungen statistisch signifikante Veränderungen in der Expression aufweisen. Theoretisch könnten nichtparametrische Methoden eingesetzt werden. Aufgrund der typischerweise begrenzten Anzahl an Replikaten, die verfügbar sind, jedoch nicht. RNA-Sequenzierung Experimente zeigen, dass nichtparametrische Methoden oft nicht genügend Erkennungskraft besitzen, wodurch parametrische Methoden beliebter werden. Bei einer bestimmten Anzahl von RNA-Sequenzen umfassen alle Werkzeuge zur Analyse der differentiellen Genexpression zwei Hauptschritte: die Schätzung der Modellparameter basierend auf den Daten und die Erkennung differentiell exprimierter Gene mithilfe statistischer Tests.
RNA-Seq ist eine hochmoderne Technologie, die die Analyse der differentiellen Genexpression revolutioniert und einen unvergleichlichen Einblick in die transcriptomische Landschaft bietet. Diese Methode ermöglicht es Forschern, RNA-Moleküle mit bemerkenswerter Genauigkeit zu identifizieren und zu messen, wodurch die komplexen Mechanismen der Genregulation sowohl in physiologischen als auch in pathologischen Bedingungen entschlüsselt werden. Die Anpassungsfähigkeit von RNA-Seq überschreitet disziplinäre Grenzen, die von grundlegender biologischer Forschung bis hin zu klinischen Untersuchungen reichen, und etabliert sich als unverzichtbares Gut in der modernen Molekularbiologie. Fortschritte in den Sequenzierungsmethoden versprechen, die Effizienz und Zugänglichkeit von RNA-Seq weiter. Die zukünftige Landschaft könnte verfeinerte Einzelzell-RNA-Seq-Techniken umfassen, Langzeit-Sequenzierung für eine verbesserte Transkriptomrekonstruktion und integrierte Multi-Omik-Strategien, die amalgamieren RNA-Seq Daten mit vielfältigen molekularen Datensätzen, um ein umfassendes Verständnis der zellulären Prozesse zu bieten.
Wenn Sie mehr über die Analyse der differentiellen Genexpression und den Datenanalyseprozess von RNA-Sequenzierung erfahren möchten, können Sie auf unsere Artikel "Was ist die differenzielle Genexpressionsanalyse?„ und “Bioinformatik-Workflow von RNA-Seq".
Referenzen: