Kleine RNAs sind wichtige funktionale Moleküle in Organismen, die drei Hauptkategorien haben: Mikro-RNA (miRNA), kleine interferierende RNA (siRNA) und piwi-interagierende RNA (piRNA). Sie sind weniger als 200 nt lang und werden oft nicht in Proteine übersetzt. Kleine RNA erreicht im Allgemeinen die RNA-Interferenz (RNAi), indem sie den Kern des RNA-Protein-Komplexes (RNA-induzierten Silencing-Komplex, RISC) bildet. Kleine RNA-Sequenzierungein Beispiel für gezielte Sequenzierungist eine leistungsstarke Methode zur Profilierung von kleinen RNA-Spezies und zur funktionellen genomischen Analyse. Hier präsentieren wir die Richtlinien für die bioinformatische Analyse von kleinen RNA-Sequenzierungen.

Abbildung 1. Workflow der bioinformatischen Analyse von kleinen RNA-Sequenzierungen.
Tabelle 1. Entscheidende Schritte und Werkzeuge für die Analyse von kleinen RNA-Sequenzierungsdaten (Buschmann) u. a.. 2016).
| Schritt | In Betracht ziehen | Empfohlene Werkzeuge oder Algorithmen |
| Datenvorverarbeitung | Adaptertrimmen Entfernen kurzer Reads | Btrim, FASTX-Toolkit |
| Qualitätskontrolle | Bibliotheksgröße und Leseverteilung über Proben Phred-Score pro Basis / Sequenz Verteilung der Lese-Längen Abbau bewerten Überrepräsentierte Sequenzen überprüfen | Btrim, FASTX-Toolkit, FaQCs |
| Lesenausrichtung | Referenzdatenbank oder Genom Annotation Fehlerrate Umgang mit Multi-Reads | Bowtie, BWA, HTSEQ, SAMtools, SOAP2 |
| Normalisierung | Bibliotheksgrößen und Sequenzierungstiefe Batch-Effekte Leseverteilung Replikationsniveau Datenverteilung Replikationsniveau | DESeq2, EdgeR, svaseq |
| *DEG-Analyse | Datenverteilung Replikationsniveau Falsch-Entdeckungsrate | DESsq2, EdgeR, SAMSeq, voom limma |
| Zielvorhersage | In silico Vorhersage oder experimentelle Validierung Kanonische und nicht-kanonische Zielregulation | miRanda, miRTarBase, TarBase |
| Identifizierung von Biomarkern | Sensitivität Spezifität Klassifikationsrate | DESeq2, Simca-Q, zahlreiche R-Pakete: base, pcaMethods, Mixomics |
* DGE, differentielle Genexpression.
Rohdatenvorverarbeitung und Qualitätskontrolle
Um korrekte Ausrichtungen zu erleichtern, müssen Rohdaten bearbeitet werden, um Adapterartefakte und Sequenzen mit unzureichenden Längen zu berücksichtigen. Reads, die weniger als 16-18 nt umfassen und degradierte RNA oder Adapter-Dimere repräsentieren, müssen entfernt werden. Werkzeuge wie Btrim, FASTX-Toolkit, FaQCs und cutadapt werden zu diesem Zweck verwendet. Dies reicht jedoch nicht aus für hochwertige Datensätze und genaue Ausrichtungen. Es gibt Algorithmen wie Quake und ALLPATHSLG, die darauf abzielen, unzuverlässige Basenaufrufe zu korrigieren, indem sie die häufigsten und ähnlichsten Muster darüberlegen. Reads von niedriger Qualität müssen ebenfalls teilweise oder vollständig basierend auf ihren Phred-Scores entfernt werden. Beliebte Algorithmen zur Qualitätsbearbeitung sind Cutadapt, Btrim, FASTX Toolkit, FaQCs und SolexaQA.
Nach der Datenvorverarbeitung und Qualitätskontrolle sollten die verbleibenden Reads von Sequenzen mit niedriger Qualität (Qualitätswert < 20) und Adapterartefakten befreit werden, und die Längen der Reads sollten einen ausgeprägten Gipfel aufweisen, der auf die interessierenden kleinen RNA-Spezies basiert (z. B. 21-23 nt für miRNA und 30-32 nt für piRNA).
Kleine RNA-Leseausrichtung
Die Strategien zur Ausrichtung von Reads beinhalten das Mapping auf ein Referenzgenom oder spezifische kleine RNA-Datenbanken wie mirBase und Rfam. Neben dem Vergleich mit spezifischen Sequenzen sind homologe Datensätze von gut untersuchten Organismen ebenfalls nützlich, da es eine starke Erhaltung der Seed-Sequenzen zwischen den meisten kleinen RNA-Arten in verschiedenen Spezies gibt.
Tabelle 2. Die gängigen Werkzeuge für die kleine RNA-Sequenzierung.
| Werkzeuge zur Ausrichtung von kleinen RNA-Reads | Bewertungen oder Empfehlungen | |
| Algorithmus | BLAST-Ausrichter, Suffix / Präfix | Suffix-/Präfix-basierend auf der Burrows-Wheeler-Transformation ist schnell und effizient in der Zuordnung. |
| Software | Bowtie, BWE, SOAP2 | Eine Bewertung der Sensitivität und Spezifität der Zuordnung wird dringend empfohlen. Forschungen mit großen Datensätzen oder begrenzter Zeit könnten BarraCUDA, SOAP3-dp oder MICA ausprobieren. |
Normalisierung
Systematische Variationen müssen vor der Analyse der differentiellen Expression berücksichtigt werden. Dieser Prozess wird als Normalisierung bezeichnet, der sich mit unerwünschten Unterschieden zwischen Bibliotheken in Bezug auf Sequenzierungstiefe, GC-Gehalt und Batch-Effekte befasst. Die Median-Normalisierung von Expressionsverhältnissen aus geometrischen Mitteln hat sich als vorteilhaft für verschiedene Arten von Datensätzen erwiesen. Zyprich-Walczak u. a.(2015) schlug einen Workflow vor, um die am besten geeignete Normalisierungsmethode für einen bestimmten Datensatz zu bestimmen.
Differenzielle Expressionsanalyse
Die Analyse der differentiellen Genexpression (DGE) ist entscheidend für die Analyse von kleinen RNA-Daten, die zur Zielvorhersage und Identifizierung von Biomarkern beiträgt. Es gibt mehrere gute Werkzeuge für diesen Zweck (Tabelle 3), aber das optimale Werkzeug hängt stark vom spezifischen Datensatz ab.
Tabelle 3. Werkzeuge zur Analyse der differentiellen Expression von kleinen RNAs.
| Werkzeuge | Prinzipien | Anwendbare Bedingungen |
| edgeR | Ein gewichteter Likelihood-Ansatz zur gemeinsamen Dispersion | Geeignet für kleinere Datensätze; Übertrifft seine Wettbewerber bei einer geringen Anzahl von Replikaten. |
| DESeq | Modelliert die beobachtete Mittel-Varianz-Beziehung für alle Gene mittels Regression. | Geeignet für kleinere Datensätze; übertrifft seine Wettbewerber bei Experimenten mit mehr als 12 Wiederholungen. |
| SAMSeq | Basierend auf Wilcoxons Rangstatistiken und Resampling-Strategien | Geeignet für Datensätze mit ausreichenden Stichprobengrößen von 10 oder mehr; niedrige Power und Spezifität für Experimente mit geringen Stichprobengrößen. |
| NOISeq | Vergleicht die absoluten und relativen Ausdrucksunterschiede zwischen und innerhalb der experimentellen Bedingungen. | Geringe Power und Spezifität für Experimente mit kleinen Stichprobengrößen. |
| Voom + limma | Voom integriert den Mittelwert-Varianz-Trend in ein Präzisionsgewicht für jede einzelne normalisierte Beobachtung. Limma umfasst lineare Modellierung, quantitative Gewichte und empirische Bayes-Statistikmethoden. | Funktioniert gut mit verschiedenen Datensätzen. |
Biomarker-Identifizierung und Zielvorhersage
Biomarker-Kandidaten können durch differenzielle Expressionsanalysen identifiziert werden. Die in Tabelle 1 gezeigten Werkzeuge können ebenfalls zur Identifizierung von Biomarkern verwendet werden. Die detektierten kleinen RNA-Biomarker basieren hauptsächlich auf miRNAs. Es gibt mehrere Werkzeuge und Softwarepakete für die in silico funktionale Analyse von miRNA. Das TargetScan-Paket, TargetFinder und miRanda können verwendet werden für in silico Zielvorhersage. Die vorhergesagten Zielgene werden weiter durch Gene Ontologie (GO) und KEGG-Pfadanalysen untersucht.
Validierung
Um die Ergebnisse der kleinen RNA-Sequenzierung zu bestätigen, müssen die differentially exprimierten kleinen RNAs mittels qRT-PCR untersucht werden. Wenn sich herausstellt, dass sie mit den Ergebnissen der kleinen RNA-Sequenzierung übereinstimmen, sind die Daten der kleinen RNA-Sequenzierung vertraulich und zuverlässig. Das entdeckte Biomarker-Signatur kann daher nach der Datenvalidierung angenommen werden.
Zusätzliche Lektüren:
Die Herausforderungen und der Arbeitsablauf bei der kleinen RNA-Sequenzierung
Referenzen: