Bioinformatische Analyse von Small RNA-Sequenzierungen

Kleine RNAs sind wichtige funktionale Moleküle in Organismen, die drei Hauptkategorien haben: Mikro-RNA (miRNA), kleine interferierende RNA (siRNA) und piwi-interagierende RNA (piRNA). Sie sind weniger als 200 nt lang und werden oft nicht in Proteine übersetzt. Kleine RNA erreicht im Allgemeinen die RNA-Interferenz (RNAi), indem sie den Kern des RNA-Protein-Komplexes (RNA-induzierten Silencing-Komplex, RISC) bildet. Kleine RNA-Sequenzierungein Beispiel für gezielte Sequenzierungist eine leistungsstarke Methode zur Profilierung von kleinen RNA-Spezies und zur funktionellen genomischen Analyse. Hier präsentieren wir die Richtlinien für die bioinformatische Analyse von kleinen RNA-Sequenzierungen.

Bioinformatics Analysis of Small RNA Sequencing

Abbildung 1. Workflow der bioinformatischen Analyse von kleinen RNA-Sequenzierungen.

Tabelle 1. Entscheidende Schritte und Werkzeuge für die Analyse von kleinen RNA-Sequenzierungsdaten (Buschmann) u. a.. 2016).

Schritt In Betracht ziehen Empfohlene Werkzeuge oder Algorithmen
Datenvorverarbeitung Adaptertrimmen Entfernen kurzer Reads Btrim, FASTX-Toolkit
Qualitätskontrolle Bibliotheksgröße und Leseverteilung über Proben Phred-Score pro Basis / Sequenz Verteilung der Lese-Längen Abbau bewerten Überrepräsentierte Sequenzen überprüfen Btrim, FASTX-Toolkit, FaQCs
Lesenausrichtung Referenzdatenbank oder Genom Annotation Fehlerrate Umgang mit Multi-Reads Bowtie, BWA, HTSEQ, SAMtools, SOAP2
Normalisierung Bibliotheksgrößen und Sequenzierungstiefe Batch-Effekte Leseverteilung Replikationsniveau Datenverteilung Replikationsniveau DESeq2, EdgeR, svaseq
*DEG-Analyse Datenverteilung Replikationsniveau Falsch-Entdeckungsrate DESsq2, EdgeR, SAMSeq, voom limma
Zielvorhersage In silico Vorhersage oder experimentelle Validierung Kanonische und nicht-kanonische Zielregulation miRanda, miRTarBase, TarBase
Identifizierung von Biomarkern Sensitivität Spezifität Klassifikationsrate DESeq2, Simca-Q, zahlreiche R-Pakete: base, pcaMethods, Mixomics

* DGE, differentielle Genexpression.

Rohdatenvorverarbeitung und Qualitätskontrolle

Um korrekte Ausrichtungen zu erleichtern, müssen Rohdaten bearbeitet werden, um Adapterartefakte und Sequenzen mit unzureichenden Längen zu berücksichtigen. Reads, die weniger als 16-18 nt umfassen und degradierte RNA oder Adapter-Dimere repräsentieren, müssen entfernt werden. Werkzeuge wie Btrim, FASTX-Toolkit, FaQCs und cutadapt werden zu diesem Zweck verwendet. Dies reicht jedoch nicht aus für hochwertige Datensätze und genaue Ausrichtungen. Es gibt Algorithmen wie Quake und ALLPATHSLG, die darauf abzielen, unzuverlässige Basenaufrufe zu korrigieren, indem sie die häufigsten und ähnlichsten Muster darüberlegen. Reads von niedriger Qualität müssen ebenfalls teilweise oder vollständig basierend auf ihren Phred-Scores entfernt werden. Beliebte Algorithmen zur Qualitätsbearbeitung sind Cutadapt, Btrim, FASTX Toolkit, FaQCs und SolexaQA.

Nach der Datenvorverarbeitung und Qualitätskontrolle sollten die verbleibenden Reads von Sequenzen mit niedriger Qualität (Qualitätswert < 20) und Adapterartefakten befreit werden, und die Längen der Reads sollten einen ausgeprägten Gipfel aufweisen, der auf die interessierenden kleinen RNA-Spezies basiert (z. B. 21-23 nt für miRNA und 30-32 nt für piRNA).

Kleine RNA-Leseausrichtung

Die Strategien zur Ausrichtung von Reads beinhalten das Mapping auf ein Referenzgenom oder spezifische kleine RNA-Datenbanken wie mirBase und Rfam. Neben dem Vergleich mit spezifischen Sequenzen sind homologe Datensätze von gut untersuchten Organismen ebenfalls nützlich, da es eine starke Erhaltung der Seed-Sequenzen zwischen den meisten kleinen RNA-Arten in verschiedenen Spezies gibt.

Tabelle 2. Die gängigen Werkzeuge für die kleine RNA-Sequenzierung.

Werkzeuge zur Ausrichtung von kleinen RNA-Reads Bewertungen oder Empfehlungen
Algorithmus BLAST-Ausrichter, Suffix / Präfix Suffix-/Präfix-basierend auf der Burrows-Wheeler-Transformation ist schnell und effizient in der Zuordnung.
Software Bowtie, BWE, SOAP2 Eine Bewertung der Sensitivität und Spezifität der Zuordnung wird dringend empfohlen. Forschungen mit großen Datensätzen oder begrenzter Zeit könnten BarraCUDA, SOAP3-dp oder MICA ausprobieren.

Normalisierung

Systematische Variationen müssen vor der Analyse der differentiellen Expression berücksichtigt werden. Dieser Prozess wird als Normalisierung bezeichnet, der sich mit unerwünschten Unterschieden zwischen Bibliotheken in Bezug auf Sequenzierungstiefe, GC-Gehalt und Batch-Effekte befasst. Die Median-Normalisierung von Expressionsverhältnissen aus geometrischen Mitteln hat sich als vorteilhaft für verschiedene Arten von Datensätzen erwiesen. Zyprich-Walczak u. a.(2015) schlug einen Workflow vor, um die am besten geeignete Normalisierungsmethode für einen bestimmten Datensatz zu bestimmen.

Differenzielle Expressionsanalyse

Die Analyse der differentiellen Genexpression (DGE) ist entscheidend für die Analyse von kleinen RNA-Daten, die zur Zielvorhersage und Identifizierung von Biomarkern beiträgt. Es gibt mehrere gute Werkzeuge für diesen Zweck (Tabelle 3), aber das optimale Werkzeug hängt stark vom spezifischen Datensatz ab.

Tabelle 3. Werkzeuge zur Analyse der differentiellen Expression von kleinen RNAs.

Werkzeuge Prinzipien Anwendbare Bedingungen
edgeR Ein gewichteter Likelihood-Ansatz zur gemeinsamen Dispersion Geeignet für kleinere Datensätze; Übertrifft seine Wettbewerber bei einer geringen Anzahl von Replikaten.
DESeq Modelliert die beobachtete Mittel-Varianz-Beziehung für alle Gene mittels Regression. Geeignet für kleinere Datensätze; übertrifft seine Wettbewerber bei Experimenten mit mehr als 12 Wiederholungen.
SAMSeq Basierend auf Wilcoxons Rangstatistiken und Resampling-Strategien Geeignet für Datensätze mit ausreichenden Stichprobengrößen von 10 oder mehr; niedrige Power und Spezifität für Experimente mit geringen Stichprobengrößen.
NOISeq Vergleicht die absoluten und relativen Ausdrucksunterschiede zwischen und innerhalb der experimentellen Bedingungen. Geringe Power und Spezifität für Experimente mit kleinen Stichprobengrößen.
Voom + limma Voom integriert den Mittelwert-Varianz-Trend in ein Präzisionsgewicht für jede einzelne normalisierte Beobachtung. Limma umfasst lineare Modellierung, quantitative Gewichte und empirische Bayes-Statistikmethoden. Funktioniert gut mit verschiedenen Datensätzen.

Biomarker-Identifizierung und Zielvorhersage

Biomarker-Kandidaten können durch differenzielle Expressionsanalysen identifiziert werden. Die in Tabelle 1 gezeigten Werkzeuge können ebenfalls zur Identifizierung von Biomarkern verwendet werden. Die detektierten kleinen RNA-Biomarker basieren hauptsächlich auf miRNAs. Es gibt mehrere Werkzeuge und Softwarepakete für die in silico funktionale Analyse von miRNA. Das TargetScan-Paket, TargetFinder und miRanda können verwendet werden für in silico Zielvorhersage. Die vorhergesagten Zielgene werden weiter durch Gene Ontologie (GO) und KEGG-Pfadanalysen untersucht.

Validierung

Um die Ergebnisse der kleinen RNA-Sequenzierung zu bestätigen, müssen die differentially exprimierten kleinen RNAs mittels qRT-PCR untersucht werden. Wenn sich herausstellt, dass sie mit den Ergebnissen der kleinen RNA-Sequenzierung übereinstimmen, sind die Daten der kleinen RNA-Sequenzierung vertraulich und zuverlässig. Das entdeckte Biomarker-Signatur kann daher nach der Datenvalidierung angenommen werden.

Zusätzliche Lektüren:

Die Herausforderungen und der Arbeitsablauf bei der kleinen RNA-Sequenzierung

Referenzen:

  1. Buschmann D., Haberberger A., Kirchner B., u. a.Richtung zuverlässiger Biomarker-Signaturen im Zeitalter der Flüssigbiopsien - wie man den kleinen RNA-Seq-Workflow standardisiert[J]. Nucleic Acids Research, 2016, 44(13): 5995-6018.
  2. Miao X, Luo Q, Zhao H, u. a.Genomweite Analyse von miRNAs in den Eierstöcken von Jining Grey und Laiwu Black Ziegen zur Untersuchung der Regulierung der Fruchtbarkeit. Wissenschaftliche Berichte, 2016, 6: 37983.
  3. Zyprych-Walczak J., u. a.Die Auswirkungen von Normalisierungsmethoden auf die RNA-Seq-Datenanalyse. Biomed. Forsch. Int.., 2015, doi:10.1155/2015/621690.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
Sprechen Sie mit unseren Wissenschaftlern
Was möchten Sie besprechen?
Mit wem werden wir sprechen?

* ist ein erforderlicher Artikel.

Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben