DNA-Protein-Interaktionen werden häufig verwendet, um potenzielle Mechanismen der Zellphysiologie zu erhellen. Die Entwicklung von Chromatin-Immunpräzipitations-(ChIP)-Assays hat es ermöglicht, solche Mechanismen zu untersuchen. Mit weiteren Entwicklungen haben sich die Technologien zur Tiefensequenzierung (ChIP-Seq) sind entstanden, die Vorteile in Bezug auf Spezifität und Sensitivität bieten.
In diesem Artikel werden wir einen detaillierten Überblick über die Schritte geben, die an der ChIP-seq-Analyse beteiligt sind, sowie über die besten Praktiken, um genaue und zuverlässige Ergebnisse zu gewährleisten.
Workflow von ChIP-Sequenzierung und Datenanalyse (Ryuichiro Nakato)
Der erste Schritt in der ChIP-seq-Analyse ist die Qualitätskontrolle der Sequenzierungsreads. Die Qualitätskontrolle umfasst die Bewertung der Qualität der Rohsequenzierungsreads mit Tools wie FastQC oder Trimmomatic. Die Qualitätskontrolle stellt sicher, dass die Daten von hoher Qualität sind und für die nachgelagerte Analyse geeignet sind. Nach der Qualitätskontrolle werden die Reads getrimmt, um niedrigqualitative Basen oder Adapter mit Tools wie Cutadapt oder Trimmomatic zu entfernen. Wir haben einen strengen Prozess zur Handhabung von Rohdaten, der niedrigqualitative Reads, Adaptersequenzen und Reads mit niedriger Mapping-Qualität entfernt.
Die Qualitätskontrolle (QC) von ChIP-seq ist entscheidend, um festzustellen, ob die Sequenzierungsdaten von hoher Qualität sind und weiter analysiert werden können. Einige der besonders wichtigen Metriken umfassen:
VerhältnisDas Verhältnis der sequenzierten Reads, das die Qualität der Reads und die genomische DNA widerspiegelt.
Liestiefe (Anzahl der Lesevorgänge nach Entfernung der Redundanz verglichen). Das ENCODE-Konsortium empfiehlt eine Mindestanzahl von 10 Millionen eindeutig zugeordneten Lesevorgängen als Mindestwert für scharfe Peaks bei der Analyse von menschlichen Proben. Breite Histonmarker haben typischerweise ein schwächeres Signal-Rausch-Verhältnis und erfordern mehr Lesevorgänge (>40 Millionen für menschliche Proben) als Mindestwert für die Peak-Erkennung.
Bibliothekskomplexität (Das Verhältnis von nicht redundanten Reads). Im Bereich von 0 bis 1 betrachtet ENCODE, dass die Komplexität des Verhältnisses von 10M zu Reads > 0,8 betragen sollte.
Normalisierter Strangkoeffizient (NSC, berechnet von SSP). Signal-Rausch-Verhältnis (S/N) Metriken für scharfe und breite Peaks, mit empfohlenen Schwellenwerten von NSC > 5,0 (scharfe Peaks) und NSC > 1,5 (breite Peaks), unter Verwendung der 10M ChIP-seq öffentlichen Datenbank für eine eingehende Validierung an mehreren Arten. Die Eingabemuster sollten ein niedriges S/N aufweisen und daher sollten die NSC-Werte < 2,0 betragen.
Hintergrundgleichmäßigkeit (Bu). bu spiegelt die Abweichung der Verteilung der Reads im Hintergrundbereich wider, die von 0 bis 1 reicht. Ein niedriger bu-Wert (<0,8) zeigt an, dass die Verteilung der Reads stärker konzentriert ist als erwartet oder eine Präferenz aufweist, was normalerweise zu vielen falsch positiven Ergebnissen unter den erhaltenen Peaks führt. Für Genome mit umfangreicher Kopienzahlvariation (z. B. MCF-7-Zellen) ist ein entspannter Bu-Schwellenwert (>0,6) erforderlich.
GC-Spitzenabweichung. Die während der Immunpräzipitation und PCR-Amplifikation reflektierenden Präferenzen zeigen typischerweise GC-Spitzen in ChIP-seq-Daten, die denen des Referenzgenoms ähneln. (GC-Bias (z. B. ~50 % bei Menschen) tritt häufig auf (z. B. >60 % bei Menschen) aufgrund von PCR-Amplifikationspräferenzen und/oder falsch positiven Spitzen aus "super-angereicherten" Regionen, die mit CpG-Inseln assoziiert sind.
Der nächste Schritt in der ChIP-seq-Analyse ist die Ausrichtung der Sequenzierungsreads auf das Referenzgenom oder die Transkriptom. Die Ausrichtung oder Zuordnung erfolgt typischerweise mit Ausrichtungssoftware wie Bowtie, BWA oder HISAT2. Die Ausrichtung stellt sicher, dass die Reads an der richtigen genomischen Stelle zugeordnet werden, und es ist entscheidend, geeignete Ausrichtungsparameter zu verwenden, um eine genaue Ausrichtung zu gewährleisten. Wir verwenden unterschiedliche Zuordnungstools, abhängig von Ihren spezifischen Bedürfnissen oder Projekten, wie der Größe des Genoms, der Sequenzierungstiefe und Ihren Forschungsfragen.
Spitzen sind Regionen des Genoms, in denen das interessierende Protein gebunden ist. Das Peak-Calling ist der Prozess der Identifizierung von Spitzen aus ausgerichteten Sequenzierungsreads. Die Bindung verschiedener Proteine an DNA kann entsprechend den Breiten- und Verteilungseigenschaften der Spitzen klassifiziert werden, enge Spitze (d.h. eine spezifische kurze Sequenz, die auf DNA mit einer kurzen Bindungsregion auftritt) und breite Spitze (die diffus und kontinuierlich auf DNA mit einem breiten Spitzenmuster verteilt ist). Es stehen mehrere Peak-Calling-Algorithmen zur Verfügung, wie MACS2, SICER und PeakSeq. Es ist wichtig, geeignete Peak-Calling-Parameter zu verwenden, um eine genaue Spitzenidentifizierung zu gewährleisten. Falsch positive Spitzen können mit Tools wie HOMER oder BEDTools entfernt werden.
Nach der Spitzenanrufung werden Qualitätskontrollmaßnahmen angewendet, um sicherzustellen, dass die Spitzen von hoher Qualität sind und keine falsch positiven Ergebnisse vorliegen. Zu den Qualitätskontrollmaßnahmen gehören die Bewertung der Spitzenform, die Anreicherung und die Annotation der Spitzen. HOMER kann verwendet werden, um die Spitzen zu annotieren und angereicherte Motive zu identifizieren.
Motivanalyse untersucht spezifische Sequenzen in Peaks oder spezifischen epigenomischen Regionen (z. B. Enhancer-Loci) und sagt mögliche Bindungsstellen für Transkriptionsfaktoren innerhalb der identifizierten Regionen voraus. Im Allgemeinen können die Methoden der Motivanalyse in zwei Typen unterteilt werden:
ChIP-seq-Spitzen können auch für die funktionelle Anreicherungsanalyse verwendet werden. Diese Analyse sequenziert benachbarte Gene als potenzielle Ziele für bidirektionales Tagging oder quantitative Sequenzierung und gruppiert sie nach GO- oder KEGG-Analyse.
ChIP-seq-Analysen sind ein komplexer Prozess, der ein tiefes Verständnis und die Anwendung der zugrunde liegenden Biologie sowie bioinformatischer Werkzeuge erfordert. CD Genomics bietet hochwertige ChIP-Seq-Analyse-Dienste an Forscher und Unternehmen weltweit, einschließlich Projektdesign, Datenerfassung, Rohdatenanalyse und nachgelagertem Experimentdesign. Unser professionelles Team bietet maßgeschneiderte Analyseberichte, einschließlich Qualitätskontrolle, Kartierung, Peak-Calling, Annotation und Visualisierung.
Referenz