Wie man ChIP-Seq-Daten analysiert: Von der Datenvorverarbeitung bis zur nachgelagerten Analyse

DNA-Protein-Interaktionen werden häufig verwendet, um potenzielle Mechanismen der Zellphysiologie zu erhellen. Die Entwicklung von Chromatin-Immunpräzipitations-(ChIP)-Assays hat es ermöglicht, solche Mechanismen zu untersuchen. Mit weiteren Entwicklungen haben sich die Technologien zur Tiefensequenzierung (ChIP-Seq) sind entstanden, die Vorteile in Bezug auf Spezifität und Sensitivität bieten.

In diesem Artikel werden wir einen detaillierten Überblick über die Schritte geben, die an der ChIP-seq-Analyse beteiligt sind, sowie über die besten Praktiken, um genaue und zuverlässige Ergebnisse zu gewährleisten.

Workflow of ChIP sequencing and data analysis Workflow von ChIP-Sequenzierung und Datenanalyse (Ryuichiro Nakato)

Qualitätskontrolle und Lesen von Trimmings

Der erste Schritt in der ChIP-seq-Analyse ist die Qualitätskontrolle der Sequenzierungsreads. Die Qualitätskontrolle umfasst die Bewertung der Qualität der Rohsequenzierungsreads mit Tools wie FastQC oder Trimmomatic. Die Qualitätskontrolle stellt sicher, dass die Daten von hoher Qualität sind und für die nachgelagerte Analyse geeignet sind. Nach der Qualitätskontrolle werden die Reads getrimmt, um niedrigqualitative Basen oder Adapter mit Tools wie Cutadapt oder Trimmomatic zu entfernen. Wir haben einen strengen Prozess zur Handhabung von Rohdaten, der niedrigqualitative Reads, Adaptersequenzen und Reads mit niedriger Mapping-Qualität entfernt.

Wichtige Kennzahlen zur Qualitätskontrolle von ChIP-seq-Daten

Die Qualitätskontrolle (QC) von ChIP-seq ist entscheidend, um festzustellen, ob die Sequenzierungsdaten von hoher Qualität sind und weiter analysiert werden können. Einige der besonders wichtigen Metriken umfassen:

VerhältnisDas Verhältnis der sequenzierten Reads, das die Qualität der Reads und die genomische DNA widerspiegelt.

Liestiefe (Anzahl der Lesevorgänge nach Entfernung der Redundanz verglichen). Das ENCODE-Konsortium empfiehlt eine Mindestanzahl von 10 Millionen eindeutig zugeordneten Lesevorgängen als Mindestwert für scharfe Peaks bei der Analyse von menschlichen Proben. Breite Histonmarker haben typischerweise ein schwächeres Signal-Rausch-Verhältnis und erfordern mehr Lesevorgänge (>40 Millionen für menschliche Proben) als Mindestwert für die Peak-Erkennung.

Bibliothekskomplexität (Das Verhältnis von nicht redundanten Reads). Im Bereich von 0 bis 1 betrachtet ENCODE, dass die Komplexität des Verhältnisses von 10M zu Reads > 0,8 betragen sollte.

Normalisierter Strangkoeffizient (NSC, berechnet von SSP). Signal-Rausch-Verhältnis (S/N) Metriken für scharfe und breite Peaks, mit empfohlenen Schwellenwerten von NSC > 5,0 (scharfe Peaks) und NSC > 1,5 (breite Peaks), unter Verwendung der 10M ChIP-seq öffentlichen Datenbank für eine eingehende Validierung an mehreren Arten. Die Eingabemuster sollten ein niedriges S/N aufweisen und daher sollten die NSC-Werte < 2,0 betragen.

Hintergrundgleichmäßigkeit (Bu). bu spiegelt die Abweichung der Verteilung der Reads im Hintergrundbereich wider, die von 0 bis 1 reicht. Ein niedriger bu-Wert (<0,8) zeigt an, dass die Verteilung der Reads stärker konzentriert ist als erwartet oder eine Präferenz aufweist, was normalerweise zu vielen falsch positiven Ergebnissen unter den erhaltenen Peaks führt. Für Genome mit umfangreicher Kopienzahlvariation (z. B. MCF-7-Zellen) ist ein entspannter Bu-Schwellenwert (>0,6) erforderlich.

GC-Spitzenabweichung. Die während der Immunpräzipitation und PCR-Amplifikation reflektierenden Präferenzen zeigen typischerweise GC-Spitzen in ChIP-seq-Daten, die denen des Referenzgenoms ähneln. (GC-Bias (z. B. ~50 % bei Menschen) tritt häufig auf (z. B. >60 % bei Menschen) aufgrund von PCR-Amplifikationspräferenzen und/oder falsch positiven Spitzen aus "super-angereicherten" Regionen, die mit CpG-Inseln assoziiert sind.

Ausrichtung

Der nächste Schritt in der ChIP-seq-Analyse ist die Ausrichtung der Sequenzierungsreads auf das Referenzgenom oder die Transkriptom. Die Ausrichtung oder Zuordnung erfolgt typischerweise mit Ausrichtungssoftware wie Bowtie, BWA oder HISAT2. Die Ausrichtung stellt sicher, dass die Reads an der richtigen genomischen Stelle zugeordnet werden, und es ist entscheidend, geeignete Ausrichtungsparameter zu verwenden, um eine genaue Ausrichtung zu gewährleisten. Wir verwenden unterschiedliche Zuordnungstools, abhängig von Ihren spezifischen Bedürfnissen oder Projekten, wie der Größe des Genoms, der Sequenzierungstiefe und Ihren Forschungsfragen.

Peak-Erkennung aus ChIP-Seq-Daten

Spitzen sind Regionen des Genoms, in denen das interessierende Protein gebunden ist. Das Peak-Calling ist der Prozess der Identifizierung von Spitzen aus ausgerichteten Sequenzierungsreads. Die Bindung verschiedener Proteine an DNA kann entsprechend den Breiten- und Verteilungseigenschaften der Spitzen klassifiziert werden, enge Spitze (d.h. eine spezifische kurze Sequenz, die auf DNA mit einer kurzen Bindungsregion auftritt) und breite Spitze (die diffus und kontinuierlich auf DNA mit einem breiten Spitzenmuster verteilt ist). Es stehen mehrere Peak-Calling-Algorithmen zur Verfügung, wie MACS2, SICER und PeakSeq. Es ist wichtig, geeignete Peak-Calling-Parameter zu verwenden, um eine genaue Spitzenidentifizierung zu gewährleisten. Falsch positive Spitzen können mit Tools wie HOMER oder BEDTools entfernt werden.

Qualitätskontrolle der Peak-Erkennung

Nach der Spitzenanrufung werden Qualitätskontrollmaßnahmen angewendet, um sicherzustellen, dass die Spitzen von hoher Qualität sind und keine falsch positiven Ergebnisse vorliegen. Zu den Qualitätskontrollmaßnahmen gehören die Bewertung der Spitzenform, die Anreicherung und die Annotation der Spitzen. HOMER kann verwendet werden, um die Spitzen zu annotieren und angereicherte Motive zu identifizieren.

Funktionalanalysis

Motivanalyse untersucht spezifische Sequenzen in Peaks oder spezifischen epigenomischen Regionen (z. B. Enhancer-Loci) und sagt mögliche Bindungsstellen für Transkriptionsfaktoren innerhalb der identifizierten Regionen voraus. Im Allgemeinen können die Methoden der Motivanalyse in zwei Typen unterteilt werden:

de novo Motiventdeckung, verwendet zur Identifizierung potenzieller neuer Bindungsmotive für unbekannte Faktoren, die in den meisten der Peaks erscheinen;
Motivscanning, das verwendet wird, um die Ähnlichkeit der bereitgestellten DNA-Sequenzen mit allen bekannten Motiven in der Datenbank vorherzusagen und auszurichten.

ChIP-seq-Spitzen können auch für die funktionelle Anreicherungsanalyse verwendet werden. Diese Analyse sequenziert benachbarte Gene als potenzielle Ziele für bidirektionales Tagging oder quantitative Sequenzierung und gruppiert sie nach GO- oder KEGG-Analyse.

Hauptschritte der ChIP-seq-Datenanalyse

ChIP-seq-Kartierung: Identifizierung der Verteilung von Peaks oder Reads im Genom, die Anreicherung von Peaks auf genomischen Komponenten, die Verteilung von Peaks auf Genkomponenten, Motivanalyse von Peaks, Distanzanalyse von Peaks zu TSS-Loci und funktionale Analyse von peak-modifizierten Genen.
Screening von spezifischen differentiellen Peaks und Genen: die Identifizierung spezifischer differentieller Peaks und Gene. Dieser Schritt umfasst die Identifizierung differenzieller Peaks, Analyse-Strategien für nicht-chronologische Daten, Analyse-Strategien für chronologische Daten, funktionale Analyse von mit differentiellen Peaks assoziierten Genen, PPI-Analyse von mit differentiellen Peaks assoziierten Genen und die visuelle Darstellung der Zielregionen von Interesse.
ChIP-seq und Transkriptomik Assoziationsanalysedie entsprechende Assoziation von spitzenassoziierten Genen mit differentially exprimierten Genen (DEGs), Screening von Zielregionen und Zielgenen. Das Ziel dieses Schrittes ist es, die Gene zu identifizieren, die direkt durch das interessierende Protein reguliert werden, und zu verstehen, wie Veränderungen in der Proteinbindung die Genexpression beeinflussen.
Experimentelles Design im downstream BereichEs ist entscheidend, um die Ergebnisse der ChIP-seq-Analyse zu bestätigen und um zusätzliche Einblicke in die funktionale Bedeutung der Proteinbindungsstellen zu gewinnen. Abhängig von der Forschungsfrage und den Daten können nachgelagerte Experimente erforderlich sein, um die Zielregionen und die Kandidatengen für die Bindung von Transkriptionsfaktoren/Histonmodifikationen zu validieren.

ChIP-seq-Analysen sind ein komplexer Prozess, der ein tiefes Verständnis und die Anwendung der zugrunde liegenden Biologie sowie bioinformatischer Werkzeuge erfordert. CD Genomics bietet hochwertige ChIP-Seq-Analyse-Dienste an Forscher und Unternehmen weltweit, einschließlich Projektdesign, Datenerfassung, Rohdatenanalyse und nachgelagertem Experimentdesign. Unser professionelles Team bietet maßgeschneiderte Analyseberichte, einschließlich Qualitätskontrolle, Kartierung, Peak-Calling, Annotation und Visualisierung.

Referenz

Ryuichiro Nakato, Toyonori Sakata, Methoden zur ChIP-seq-Analyse: Ein praktischer Workflow und fortgeschrittene Anwendungen, Methoden, Band 187, 2021, Seiten 44-53, ISSN 1046-2023.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.

Verwandte Dienstleistungen