Analyse-Pipeline für Whole Genome Bisulfite Sequencing (WGBS) Daten
Einführung
DNA-Methylierung ist ein wichtiger Bestandteil der Epigenetik und spielt eine bedeutende Rolle bei der Aufrechterhaltung der normalen Zellfunktion, der genetischen Prägung, der embryonalen Entwicklung und der menschlichen Tumorentstehung. Whole-Genome-Bisulfid-Sequenzierung (WGBS) konvertiert unmethylierte Cytosin (C) zu Thymin (T) mit der Bisulfitbehandlung auf genomischer DNA. Anschließend wurden Whole-Genome-Resequenzierungen der behandelten DNA durchgeführt und mit dem Referenzgenom verglichen, um eine Einzelbasisauflösung und eine hochgenaue Analyse des Methylierungsniveaus auf genomischer Ebene zu erreichen. WGBS wird häufig in Studien zur Zell-Differenzierung, Gewebeentwicklung sowie in der Tier- und Pflanzenzucht, der menschlichen Gesundheit und Krankheiten eingesetzt.
Datenanalyse-Pipeline von WGBS
Abbildung 1. Workflow und grundlegende bioinformatische Analyse von WGBS.
- Qualitätskontrolle
Die Qualitätskontrolle der Rohdaten ist ein wesentlicher Schritt, um sicherzustellen, dass die Daten von hoher Qualität sind und für weitere Analysen geeignet sind. Die Rohdaten können während der Bibliothekskonstruktion durch PCR-Primer und -Dimer kontaminiert oder während der Sequenzierung mit niedrigqualitativen Basen verunreinigt werden. Daher sind das Entfernen von Adaptern sowie das Trimmen/Filtern der Reads erforderlich, um niedrigqualitative Basen aus der anschließenden Analyse zu entfernen.
Viele Programme, wie FastQC, BIGpre und PIQA, können unterschiedliche Analysen zur Qualitätskontrolle bereitstellen. Unter ihnen ist FastQC das am meisten anerkannte Werkzeug zur Qualitätskontrolle. Es befasst sich mit vielen Aspekten der Rohdaten und erstellt einen HTML-Bericht, der jede durchgeführte Qualitätsprüfung zusammenfasst. Im Allgemeinen decken die Ergebnisse verschiedene Qualitätsaspekte der Rohdaten ab, wie die Gesamtzahl der Reads, die Verteilung der Read-Qualität, die Verteilung des GC-Gehalts, die allgemeine Sequenzqualität und vieles mehr.
- Mapping von Reads auf das Referenzgenom
Als nächstes sollten die Reads an das Referenzgenom ausgerichtet werden. Die herkömmlichen Ausrichtungswerkzeuge wie BWA, Bowtie oder Maq sind aufgrund der Unähnlichkeit zwischen standardisierten Referenzgenomen und Reads von bisulfitbehandelter DNA ungeeignet. Es gibt viele verfügbare Werkzeuge, wie Bismark, BS-Seeker2, Bison, Last oder B-SOLANA. Ausrichtungswerkzeuge, die durch Bismark repräsentiert werden, verwenden bestehende Short-Read-Ausrichter und bearbeiten die Anforderungen, die für die WGBS-Datenanalyse einzigartig sind, intern, indem sie C in T sowohl in den sequenzierten Reads als auch im Genomreferenz vor der Zuordnung umwandeln. Andere Methoden, wie Last, verwenden eine spezifische Bewertungsmatrix, die C-T-Mismatches tolerieren kann.
- Methylierungsaufruf
PCR-Duplikate können nach der Ausrichtung auf das Referenzgenom rechnerisch identifiziert werden, da sie fälschlicherweise die Genomabdeckungen erhöhen und in weiteren Analysen zu falsch positiven Fehlern führen können. Im Allgemeinen besteht die Methode zur Behebung von PCR-Bias darin, Reads zu entfernen, die an derselben Position auf demselben Strang des Referenzgenoms ausgerichtet sind. Die Methylierungsbestimmung kann unter Verwendung von Ausrichtungswerkzeugen wie Bismark durchgeführt werden, das BAM-Dateien sowie zusätzliche Metriken und Dateien im Zusammenhang mit der Methylierungsbestimmung bereitstellt.
Unvollständige Umwandlung und DNA-Abbau können bei der Behandlung mit Bisulfit auftreten, das heißt, nicht-methylierte Cs werden nicht vollständig in Ts umgewandelt. Daher muss die Qualitätskontrolle auch nach der Ausrichtung und der Methylierungsbestimmung durchgeführt werden, um falsch-positive Fehler zu entfernen. Es gibt zwei Möglichkeiten, die Umwandlungsrate zu kalibrieren: Die eine besteht darin, den Prozentsatz der nicht-CpG-Methylierung zu verwenden, die andere darin, unmethylierte Cs zu verwenden, um Spike-in-Sequenzen hinzuzufügen und die Anzahl der Ts zu berechnen.
Tabelle 1. DMR-Calling-Software (Condon) u. a.. 2018).
| Programm | DMR-Identifikation | Ausführung |
| trotzig | Gewichtete Welch-Erweiterung | Binär |
| BSmooth | Lokale Likelihood-Glättung mit Binomialtest | R |
| methylKit | Fischers exakter Test oder logistische Regression mit Tiling | R |
| MethylSig | Beta-Binomial | R |
| Metilen | p-Wert durch Beta-Binomial | Binär |
| MOABS | Beta-Binomial | Binär |
| RADMeth | Beta-binomial-Regression | Binär |
Die bioinformatische Analyse und Visualisierung von WGBS umfasst grundlegende Datenanalysen wie Methylierungsgrad- und Dichteanalysen, Motivanalysen sowie fortgeschrittene Datenanalysen wie die Analyse von Co-Expressionsnetzwerken.
- Identifizierung von unterschiedlich methylierten Regionen
Die Analyse der differentiellen Methylierung zielt darauf ab, differentiell methylierten Regionen (DMR) zwischen spezifischen Gruppen zu finden. DMS (differentiell methylierte CpG-Stellen) beziehen sich auf Cytosin-Stellen mit signifikant unterschiedlichen Methylierungsgraden zwischen verschiedenen Proben. Sie spiegeln den Unterschied in der Methylierungsmodifikation zwischen Proben auf Einzelbasenauflösung wider und sind eine grundlegende Einheit für das Studium der Expression von methylierungsregulierten Genen.
- Segmentierung des Methyloms
Die Analyse der Methylierungsdynamik ist auch innerhalb der Probe wichtig. Zum Beispiel deuten Senkungen in den Methylierungsprofilen normalerweise auf regulatorische Regionen hin, und viele Gene-Körper-Regionen sind stark methyliert und arm an CpG. Diese Beobachtungen können die Strukturen und Funktionen von Genen beschreiben. Die Methylierungszustände (einschließlich niedrig methylierten Regionen, vollständig methylierten Regionen und unmethylierten Regionen) können durch Segmentierung des Methyloms mithilfe computergestützter Ansätze wie MethylSeekR und MethPipe identifiziert werden.
- Annotation von MDR/DMS und Segmenten
Die DMR/DMS und Segmente müssen oft in biologischen Begriffen mit einer Genom-Annotationsdatenbank interpretiert werden. Es gibt mehrere Werkzeuge, die solche Annotationen erzeugen können. Zum Beispiel kann das Bioconductor-Paket genomation verwendet werden, um DMR/DMS zu annotieren und Methylierungsanteile zu integrieren. CHIPpeakAnno, ein weiteres ähnliches Paket, ist nicht nur für die Annotation von ChIP-seq-Peaks konzipiert, sondern auch bis zu einem gewissen Grad für die Annotation von DMR/DMC.
- Clusteranalyse
Clustering bezieht sich auf die Gruppierung von Objekten in Cluster basierend auf Ähnlichkeit. Die Clusteranalyse ist wichtig, um molekulare Subtypen von Krankheiten zu identifizieren. Die PCA-Analyse, auch bekannt als Hauptkomponentenanalyse, ist eine gängige Methode, um Muster in Methylierungsdaten zwischen verschiedenen Behandlungen oder unterschiedlichen Entwicklungsstadien zu erkennen, und erklärt somit die Variation der Methylierungsmuster in verschiedenen Behandlungen. Die PCA-Analyse erkennt auch Batch-Effekte. Eine weitere gängige Methode für die Clusteranalyse ist die hierarchische Clusterbildung. Werkzeuge wie HumMeth27QCReport und methylkit bieten sowohl PCA- als auch hierarchische Clusteroptionen unter Verwendung von normalisierten Daten an. M-Werte.
- Weganalyse
Basierend auf den Methylierungsdaten jeder Probe wurden Clusteranalysen und Anreicherungsanalysen durchgeführt, um die Ähnlichkeit zwischen den Proben zu analysieren. Dies umfasst in der Regel die GO-Anreicherungsanalyse und die KEGG-Pfad-Analyse, die beide den DAVID-Webserver nutzen.
GO-AnalyseDie Genontologie (GO) ist ein internationales Standardklassifikationssystem für die Genfunktion. Eine GO-Anreicherungsanalyse verwandter Gene kann die biologischen Funktionen, die Zellzusammensetzung und die biologischen Prozesse der von DMR regulierten Gene untersuchen.
KEGG-Pfad-Analyse. Die signifikante Anreicherung von KEGG-Wegen kann die wichtigsten biochemischen Stoffwechselwege und Signaltransduktionswege bestimmen, die an DMR-regulierten Genen beteiligt sind.
Bei CD Genomics sind wir bestrebt, zuverlässige Epigenomik-Sequenzierung Dienstleistungen, einschließlich gezielte Bisulfit-Sequenzierung, reduzierte Repräsentation Bisulfit-Sequenzierung (RRBS), Whole-Genome-Bisulfid-Sequenzierung, MeDIP-Sequenzierungund ChIP-seqWenn Sie an unseren Dienstleistungen interessiert sind, zögern Sie bitte nicht, uns zu kontaktieren.
Referenzen:
- De Carvalho D.D. u. a. DNA-Methylierungs-Screening identifiziert treibende epigenetische Ereignisse des Überlebens von Krebszellen. Krebszelle, 2012, 21(5):655-667
- Jeong M., Goodell M. A. Neue Antworten auf alte Fragen aus genomweiten Karten der DNA-Methylierung in hämatopoetischen Zellen. Exp Hematol, 2014, 42(8):609-617
- Kulis M., Esteller M. DNA-Methylierung und Krebs. Adv Genet, 2010 70:27-56
- Wu H., Xu T., Feng H., u. a.Erkennung von unterschiedlich methylierten Regionen aus Whole-Genome-Bisulfid-Sequenzierungsdaten ohne Replikate. Nukleinsäuren Forschungen, 2015, 43(21):132-141.
- Swarnaseetha A., Methodische Aspekte der Analyse von Whole-Genome-Bisulfid-Sequenzierung. Briefings in Bioinformatics, 2015, (1): 369-379.
- Condon D.E., u. a.Defiant: (DMRs: einfach, schnell, Identifizierung und Annotation) identifiziert differentiell methylierten Regionen aus dem eisenmangelbedingten Hippocampus von Ratten. BMC Bioinformatik, 2018, 19(1): 31.
- Wreczycka K, u. a.Strategien zur Analyse von Bisulfit-Sequenzierungsdaten. Journal of Biotechnology, 2017, 261: 105-115.