Bioinformatik-Workflow und Werkzeuge für das Ribosomen-Profiling
Überblick über das Ribosomen-Profiling
Ribosomen-Profiling (Ribo-seq) ist eine etablierte Technik zur Erkennung von übersetzten Transkriptionsregionen mittels Next-Generation Sequencing (NGS). Ribo-seq hat die Lücke zwischen RNA-Sequenzierung und Proteomik geschlossen, indem es die Position der translatierten Ribosomen über das gesamte Transkriptom kartiert. Seit seiner Einführung haben Wissenschaftler Ribo-seq eingesetzt, um Fragen von der Erkennung übersetzter kleiner offener Leserahmen (OFRs) bis hin zur Quantifizierung der translationalen Kontrolle zu beantworten.
Das Ribo-seq-Protokoll besteht aus (i) Medikamentenbehandlung und Zellernte, (ii) Nuklease-Footprinting und Isolation ribosomengeschützter Fragmente (RPFs) sowie (iii) Bibliotheksvorbereitung und Tiefensequenzierung. Während das experimentelle Protokoll in dem Artikel "Überblick über das Ribosomen-Profiling: Definition, Anwendungen, Prinzipien und Arbeitsablauf„Hier werden wir uns auf die Datenanalyse des Ribosomenprofilings konzentrieren.“

Abbildung 1. Der experimentelle Arbeitsablauf des Ribosomenprofilings (Ribo-seq).
Datenanalyse in Ribo-Seq
Ribosomale Fußabdrücke sind sehr kurz (25-35 nt) und werden normalerweise durch Einzelend-Sequenzierung sequenziert. Der Ribo-seq-Analyse-Workflow besteht aus Qualitätskontrolle, Read-Mapping, Normalisierung und nachgelagerter Datenanalyse wie der Analyse der differentiellen Expression (Abbildung 2). Einige Werkzeuge wurden zur Verarbeitung von Ribo-seq-Daten entwickelt. Zum Beispiel kann RiboGalaxy verwendet werden, um die Qualität von Ribo-seq-Daten zu überprüfen, Reads auszurichten und Ergebnisse zu visualisieren. RiboVIEW ist ein rechnergestütztes Framework zur Visualisierung, Qualitätskontrolle und statistischen Analyse von Ribo-seq-Analysen.

Abbildung 2. Flussdiagramm der Datenanalyse im Ribosomen-Profiling (Bartholomäus, u. a.. 2016).
- Qualitätskontrolle
Der erste Schritt der Datenanalyse im Ribosomen-Profiling umfasst eine Qualitäts- und Adaptertrimmen. Die meisten Ribo-seq-Daten werden mit einem Phred-Score im Bereich von ~20-30 oder mit einer Basengenauigkeit von 99,0-99,9% verarbeitet. Die Adaptersequenzen müssen mit Werkzeugen wie Cutadapt entfernt werden. Ein hoher Prozentsatz an Reads, die aus kleinen strukturierten RNAs (rRNAs, tRNAs oder snoRNAs) bestehen, sollte mit einer splice-bewussten Ausrichtung wie STAR entfernt werden. Andernfalls kann ihre Überabundance die nachfolgende Quantifizierung stören.
- Lesekarte
Das Mapping von Reads ist ein entscheidender Prozess, um den einzigartigen Standort jedes Reads im Referenzgenom zu finden. Die vorverarbeiteten Daten können auf Genome oder Transkriptome abgebildet werden. Das Mapping auf das Genom wird bevorzugt, da es unvoreingenommen gegenüber bekannten Exons und Introns ist und die Entdeckung neuer ORFs ermöglicht. Darüber hinaus sind Genome besser definiert als Transkriptome, und das Genom-Mapping ist schneller und bietet oft eine größere Abdeckung. Zu den Mapping-Tools gehören hash-tabellenbasierte oder Burrows-Wheeler-Transformations (BWT)-Algorithmen. BWT-basierte Tools wie Bowtie werden bevorzugt, da sie schnell und weniger rechenintensiv sind. Während Bowtie nicht in der Lage ist, Spleißstellen zu mappen, wird TopHat häufig verwendet, um kurze Reads über Spleißstellen hinweg auszurichten und Spleißstellen zu entdecken. von Neuem.
RPFs sind sehr kurz und können mehreren Standorten zugeordnet werden. Es gibt jedoch keine einheitliche Strategie, wie mit diesem Problem umgegangen werden soll. Um eine Überinterpretation der Daten zu vermeiden, könnte die konservative Zuordnung mit eindeutig zugeordneten Reads in einigen Analysen, wie z.B. der differentiellen Analyse, die beste Wahl sein.
- Normalisierung
Nach der Zuordnung der Reads werden die Read-Zahlen jedem Gen oder nicht-kodierenden RNA zugewiesen. Überlappende Gene sind hierbei ein Problem. Der rpkM ist ein häufig verwendeter Ansatz zur Normalisierung der Read-Zahlen. Er berücksichtigt die Unterschiede in der Sequierungstiefe zwischen den Bibliotheken und die Längenvariation jedes Gens.
- Nachgelagerte Analyse
DifferentialanalyseWerkzeuge, die verwendet werden, um differentielle exprimierte Gene (DEGs) in RNA-seq-Datensätzen zu identifizieren, werden auch in Ribo-seq-Studien angewendet, wie DESeq, EdgeR und baySeq.
ORF-FundstückRibo-seq stellt eine leistungsstarke Technik zur Erkennung und Annotation von kodierenden Sequenzregionen (CDS) dar, die es ermöglicht, die Translation von upstream ORFs, die Verwendung von Startcodons oder die Translation von vermutlich nicht-kodierenden RNAs zu erkennen.
Referenzen:
- Calviello L, Ohler U. Über die bloßen Lesek counts hinaus: Ribo-seq-Datenanalyse zur Verständnis der Funktionen des Transkriptoms. Trends in Genetics, 2017, 33(10): 728-744.
- Bartholomäus A, Del Campo C, Ignatova Z. Kartierung der nicht standardisierten Verzerrungen des Ribosomen-Profils. Biochemie, 2016, 397(1): 23-35.
- Carja O, Xing T, Wallace E W J, et al. riboviz: Analyse und Visualisierung von Ribosomenprofiling-Datensätzen[J]. BMC Bioinformatik, 2017, 18(1): 461.