Datenanalyse-Workflow für Cut&Tag-Sequenzierung: Von Rohdaten zu biologischen Erkenntnissen

Cut & Tag-Sequenzierung ist eine leistungsstarke Technik in der Molekularbiologie geworden, die es Forschern ermöglicht, Protein-DNA-Interaktionen mit hoher Spezifität und Sensitivität zu untersuchen. Mit dieser Methode können Bindungsstellen für Transkriptionsfaktoren, Histone und andere Proteine auf genomischer Ebene identifiziert werden. Um jedoch das volle Potenzial der Cut & Tag-Daten auszuschöpfen, ist ein umfassender Datenanalyse-Workflow unerlässlich. Dieser Artikel skizziert die wichtigsten Schritte in der Analyse von Cut & Tag-Sequenzierungsdaten, von den Rohsequenzierungsdaten bis hin zu biologischen Erkenntnissen.

Data processing flow and different types of enriched epigenetic signals.Datenverarbeitungsfluss und verschiedene Arten angereicherter epigenetischer Signale (Cheng S et al., 2024)

I. Datenqualitätskontrolle und Vorverarbeitung

1.1 Bewertung der Rohdatenqualität

FastQC wurde verwendet, um mehrdimensionale Qualitätsprüfungen der Rohsequenzierungsdaten im FASTQ-Format durchzuführen, wobei der Fokus auf den folgenden Kernindikatoren lag:

  • Basisqualitätsverteilung: Die Sequenziergenauigkeit an jeder Position wurde mithilfe eines Per-Base-Qualitätsdiagramms bewertet, wobei alle Basen einen Q-Wert ≥ 20 haben mussten (entsprechend einer Fehlerquote ≤ 1%).
  • Adapter-Kontaminationsanalyse: Die Verteilung des GC-Gehalts pro Sequenz wurde untersucht, um abnormale Spitzen (wie GC-Gehaltsschwankungen, die spezifisch für Illumina-Adapter sind) zu identifizieren.
  • Verteilung der Sequenzlängen: Kurze Fragmente, die durch Sequenzierungstrunkation verursacht wurden, wurden ausgeschlossen (normaler Bereich: 50-150 bp).

MultiQC wurde verwendet, um verschiedene Qualitätskontrollergebnisse zu integrieren und einen Visualisierungsbericht zu erstellen (einschließlich eines Histogramms der Qualitätsbewertung, einer Heatmap des Anteils repetitiver Sequenzen usw.).

1.2 Datenbereinigungsstrategien

  • Adapter-Trimmung: Für gepaarte Sequenzierungsdaten wurde die erste 19 bp lange Adaptersequenz mit Cutadapt entfernt (Parameter -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC).
  • Niedrigqualitätsfilterung: Dynamisches Trimmen wurde mit Trimmomatic durchgeführt, wobei ein gleitendes Fenster (4 bp Fenster, durchschnittliche Qualität ≥15) verwendet wurde, um gültige Reads mit einer Länge von ≥36 bp beizubehalten.
  • Entfernung repetitiver Sequenzen: Picard MarkDuplicates wurde verwendet, um doppelte Reads zu identifizieren, die durch PCR-Amplifikation erzeugt wurden (einzigartig ausgerichtete Reads beibehalten).

II. Sequenzanpassung und Peak-Erkennung

2.1 Referenzgenom-Ausrichtung

  • Schlüsselparameter: Verwenden Sie den `--very-sensitive-local` Modus von Bowtie2 (angepasst an die Tn5-Spaltungsmerkmale) und `-N 1` (was einzelne Basismismatches erlaubt), um eine effektive Ausrichtung von Fragmenten mit geringer Qualität sicherzustellen.
  • Genomversion: Menschen wird empfohlen, hg38 zu verwenden, Mäuse mm10, und die Version muss mit der Annotationsdatei übereinstimmen.

2.2 Spitzenaufruf

  • Histonmodifikationen: Aktivieren Sie den breiten Spitzenmodus (`--broad`) und einen entspannten Schwellenwert (`--broad-cutoff 0.1`), um kontinuierliche offene Chromatinregionen zu erfassen.
  • Transkriptionsfaktoren: Verwenden Sie den schmalen Peak-Modus (`--narrow`), kombiniert mit `--shift 100` und `--extsize 200`, um den Tn5-Spaltungseffekt auszugleichen.

GoPeaks und MACS2 schneiden besser ab als SEACR bei der Identifizierung einer Reihe von H3K4me3-Peakgrößen (Yashar WM et al., 2022).

2.3 Qualitätskontrollstandards

  • FRiP-Wert: Histonmodifikationen ≥5%, Transkriptionsfaktoren ≥15%, was die Signal-Spezifität widerspiegelt.
  • Spitzenlänge: Histonmodifikationsspitzenbreite > 1 kb, Transkriptionsfaktor-Spitzenbreite < 500 bp, Unterscheidung von Unterschieden in biologischen Eigenschaften.

2.4 Datenvalidierung

  • Filterung repetitiver Sequenzen: Der PCR-Amplifikationsbias wurde mit Picard MarkDuplicates entfernt.
  • Steuereinstellungen: Eingangs- oder IgG-Kontrollen müssen eingeschlossen werden, um das Signal-Rausch-Verhältnis zu verbessern.

III. Funktionale Annotation und Biologische Interpretation

3.1 Spitzenannotationsanalyse

  • Werkzeuge und Parameter: Verwenden Sie ChIPseeker (R-Paket), setzen Sie den Bereich der Promotorregion (TSS±3kb) und verknüpfen Sie ihn mit Genomanmerkungen (z.B. TxDb für hg38).
  • Schlüsselanalyse:
    • Genregionverteilung: Unterscheidung von Promotorregionen (TSS±1kb), Enhancerregionen (H3K27ac angereichert) usw.
    • Funktionale Annotation: GO (molekulare Funktion/biologischer Prozess), KEGG-Pfad-Anreicherung (p<0,01, FDR<5%).
    • Qualitätskontrolle: Promotorregion Prozentsatz ≥30%, FRiP-Wert ≥5% (Histon) oder ≥15% (Transkriptionsfaktor).

3.2 Dynamische Konstruktion von Regulierungsnetzwerken

  • Werkzeuge: GREAT, Eingabespitzen-Datei und Genomannotationen, definieren regulatorische Regionen (z.B. 500 bp stromaufwärts bis 1 kb stromabwärts).
  • Liste der direkten Zielgene und Diagramm des regulatorischen Netzwerks.
  • Fallstudie: H3K4me3 war signifikant in den Promotorregionen von WNT-Signalweggenen angereichert (p=2,3e-8), was auf eine Aktivierung des Signalwegs hindeutet.

3.3 Biologische Bedeutung

  • Mechanismusanalyse: Die Verknüpfung von epigenetischen Modifikationen (z. B. H3K27ac) mit der Genexpression zeigt die Aktivität von Enhancern/Promotoren.
  • Anwendung: Validierung von regulatorischen Netzwerken mittels RNA-Seq Daten zur Anleitung des Screenings von Krankheitszielen (z. B. abnorm modifizierte Signalwege bei Krebs).

IV. Datenvisualisierung und Berichterstattung

4.1 Visualisierung der Signalverteilung

  • IGV-Trajektorien-Diagramm: Vergleicht die Signalintensität zwischen Behandlungs- und Kontrollgruppen und lokalisiert unterschiedlich exprimierte Regionen (z. B. hohe Expression von H3K27ac in Enhancer-Regionen).
  • Heatmap: Zeigt Signalanreicherungsmuster in spezifischen Regionen (Promotoren, Enhancern) mit hoher Auflösung (z.B. --binSize 10) an.
  • Chromosomale Verteilungstrajektorie: Bietet einen umfassenden Überblick über die genomweite Signalverteilung und identifiziert chromosomspezifische Anreicherungen (z. B. verstärktes Signal auf Chromosomen, die Onkogene enthalten).

4.2 Differenzielle Analyse Strategie

  • Werkzeuge: DiffBind (R-Paket), Integration von BAM- und Peak-Dateien zur Analyse von Unterschieden zwischen Gruppen.
  • Schlüsselparameter:
    • FDR ≤ 0,05: Kontrolliert die falsch-positive Rate.
    • Mindestüberlappung ≥ 50 %: Gewährleistet Reproduzierbarkeit.
    • Faltwechsel ≥ 2-fach: Zeigt biologische Bedeutung.
  • Ausgabeergebnisse:
    • Differenzielle Peak-Liste: Enthält Standort, Länge, Faltveränderung und zugehörige Gene.
    • Funktionelle Anreicherung: GO (biologischer Prozess/molekulare Funktion) und KEGG-Pfad-Analyse zeigten regulatorische Mechanismen auf.

V. Workflow-Optimierung und Vorsichtsmaßnahmen

5.1 Wichtige Qualitätskontrollpunkte

Schritt Erkennungsanzeige Qualifikationsstandard Abnormaler Handlungsplan
Qualitätskontrolle FastQC Q-Wert Alle Basen ≥ 20 Neu anordnen oder kürzen
Ausrichtung Gesamtübereinstimmungsrate ≥ 80 % Überprüfen Sie die Genomversion/Verschmutzung.
Peak-Erkennung FRiP-Wert Histon ≥ 5 %, TF ≥ 15 % Passen Sie die Parameter für die Spitzenaufrufe an.
Annotation Promotorregion Prozentsatz ≥ 30 % Überprüfen Sie die Antikörperspezifität

5.2 Lösungen für häufige Probleme

  • Niedriger FRiP-Wert: Überprüfen Sie die Antikörperspezifität (unter Verwendung einer IgG-Kontrolle), optimieren Sie die Bedingungen für die Chromatinfragmentierung.
  • Nicht-spezifische Bindung: Erhöhen Sie die Waschschritte (z. B. durch Verwendung von Puffern mit hohem Salzgehalt), verkürzen Sie die Transpositionsreaktionszeit.
  • Datenvisualisierungsanomalien: Überprüfen Sie die Konsistenz der Genomversionen (z.B. Unterschiede in der Chromosomenbenennung zwischen hg38 und hg19).

VI. Wichtige Qualitätskontrollpunkte

Schritt Erkennungsanzeige Qualifikationsstandard Werkzeug/Parameter Ziel Abnormaler Handlungsplan
Qualitätskontrolle FastQC Q-Wert Alle Basen ≥ 20 FastQC/Q-Score ≥ 20 Schließe Daten von geringer Qualität aus. Neu anordnen oder kürzen
Ausrichtung Gesamtübereinstimmungsrate ≥ 80 % Bowtie2 -N 1 Genau die Ursprünge von DNA-Fragmenten lokalisieren Überprüfen Sie die Genomversion/Verschmutzung.
Peak-Erkennung FRiP-Wert Histon ≥ 5 %, TF ≥ 15 % MACS2 --breit Unterscheiden Sie breite Histonmodifikationsspitzen. Passen Sie die Parameter für die Spitzenaufrufe an.
Annotation Promotorregion Prozentsatz ≥ 30 % ChIPseeker TSS ± 3kb Assoziierte funktionale Genregionen Überprüfen Sie die Antikörperspezifität.

Referenzen und Toolchain

  • Kernwerkzeugversionen:
  • MACS2 2.2.6 (Unterstützt mehrfädige Beschleunigung)
  • ChIPseeker 1.28.0 (Integriert die neuesten Genomannotationen)
  • deepTools 3.5.1 (Unterstützt GPU-beschleunigte Berechnungen)
  • Datenspeicher-Spezifikationen:
    • Rohdaten: FASTQ.gz (Beinhaltet originale Indexinformationen)
    • Zwischen Dateien: BAM (Sortierung + Index), BED (Nullkompression)
    • Finalausgabe: BigWig (normalisiertes Signal), PDF (Vektorgrafik)

Performance comparison of bioinformatics tools in the peak calling analysis of narrow-type CUT and Tag data.Leistungsvergleich von Bioinformatik-Tools bei der Peak-Calling-Analyse von Narrow-Type CUT&Tag-Daten (Cheng S et al., 2024)

VII. Detaillierte Analyse von Anwendungsszenarien

7.1 Forschung zur epigenetischen Heterogenität

  • Li C et al. identifizierten durch CUT & Tag-Datenanalyse und Sequenzdatenverarbeitung (Bowtie2-Ausrichtung, MACS3-Peak-Rückruf) 2067 Bindungsstellen von NICD1 im Genom (44,84 % befinden sich in der Nähe von TSS, einschließlich bekannter Zielgene HES1/HES4). Die HOMER-Motiv-Analyse wurde verwendet, um regulatorische Elemente zu identifizieren, und die IGV-Visualisierung wurde genutzt, um die Peak-Positionen zu annotieren. Integration RNA-Seq (NOTCH1 Knockout-Expression) wurden 31 Zielgene (wie USP5, dessen Spitzenwert nur von HES1 übertroffen wird) untersucht. Immunfluoreszenz wurde verwendet, um die positive Korrelation zwischen der Expression von NICD1 und USP5 zu bestätigen, was letztendlich den Mechanismus aufdeckte, durch den die Notch-Signalgebung die Transkription von Zielgenen direkt reguliert und die Angiogenese über NICD1 fördert. Der Kern dieser Studie ist die Analyse der genomischen Bindungsmerkmale von NICD1 und des nachgeschalteten regulatorischen Netzwerks.
  • Tao X et al. konstruierten zwei biologische Replikate von H3K4me3 CUT&Tag (mit IgG als Kontrolle) und führten parallele ChIP-Experimente durch. Nach der Überprüfung der Fragmentqualität (~350 bp) mit Qubits und der Kartierung NGS bei den Referenzgenomen fanden sie, dass die CUT&Tag-Experimentgruppe eine extrem niedrige Korrelation mit der IgG-Kontrolle hatte (r=0,01, niedriger Hintergrund), und die Signalintensität war nach der Normalisierung signifikant höher als die von ChIP-seq (ChIP-Korrelation mit der simulierten Kontrolle r=0,89, schlechtes Signal-Rausch-Verhältnis). Die Peak-Verteilung zeigte, dass 60-70% des H3K4me3-Signals im 1-kb-Promotor und im ersten Exon/Intron angereichert waren (konsistent mit ChIP), und die Ergebnisse der Peak-Korrelationsverifizierung in der Nähe des Gens waren zuverlässig.CUT&Tag Zwei Replikate r=0,94, im Vergleich zu ChIP r=0,71). Dies zeigt, dass CUT&Tag weniger Ausgangsmaterial benötigt und hochauflösende Signale mit geringem Hintergrundrauschen erzeugen kann, was es für eine Vielzahl von epigenetischen Studien an Pflanzen geeignet macht.

7.2 Analyse des entwicklungsregulatorischen Netzwerks

Akdogan-Ozdilek B et al. verwendeten Zebrafisch-Embryonen im vollständigen Barrierenstadium als Material in CUT&Tag. Durch ein modifiziertes Säugetierprotokoll (in Kombination mit CUT&RUN) erzeugten sie hochauflösende Anreicherungs-Karten von H3K4me3, H3K27me3, H3K9me3, RNA-Polymerase II und H2A.Z. Die Sequenzierungsdaten wurden über CutAdapt von Adaptern befreit, das Zebrafisch-Genom mit Bowtie2 (GRCz.11) ausgerichtet, nicht zugeordnete Reads mit samtools gefiltert und PCR-Wiederholungen mit picard entfernt. Die Daten wurden dann mit macs2 analysiert und mit deepTools verarbeitet, um Genomtrajektorien und Heatmaps/Umrisse zu erstellen, was eine Kernanalyse der Chromatinlandschaft des Zebrafisch-Embryos lieferte. Die Identifizierung von Genuntergruppen, die während der Magenentwicklung bei Zebrafischen und Mäusen möglicherweise bivalent reguliert werden, liefert Hinweise auf die Evolution von H2A.Z. Ein robuster Signal von H2A.Z wurde in Embryonen im vollständigen Barrierenstadium nachgewiesen, mit Anreicherung an Gen-Promotoren (konsistent mit früheren Studien). Etwa 74 % der H2A.Z-Marker-Gene wurden während der Abschirmungsphase exprimiert (TPM>0,5).

CUT&Tag detects H2A.Z in shield stage zebrafish embryos.CUT&Tag erkennt H2A.Z in Schildstadium-Zebrafischembryonen (Akdogan-Ozdilek B et al., 2021)

Zusammenfassung

Durch diesen Workflow können Forscher CUT & Tag-Daten systematisch analysieren und eine vollständige Beweiskette von technischer Validierung bis zur Mechanismusinterpretation bilden. Es wird empfohlen, die Genomannotationsdateien regelmäßig zu aktualisieren (z. B. unter Verwendung der Ensembl-Version 109) und eine labor-spezifische Datenbank mit Qualitätskontrollschwellenwerten einzurichten.

Referenzen:

  1. Cheng S, Miao B, Li T, Zhao G, Zhang B. Überprüfung und Bewertung der bioinformatischen Analyse-Strategien von ATAC-seq- und CUT&Tag-Daten. Genomik Proteomik Bioinformatik2024 Sep 13;22(3):qzae054.
  2. Li C, Wu P, Xie X, Chen X, Chen L, Zhu L, Xuan Z, Liu T, Tan W, Zhang S, Lin D, Wu C. Abnormale Notch-Signalgebung fördert die Tumorangiogenese beim plattenepithelialen Karzinom der Speiseröhre.. Signaltransduktionszieltherapie2025 Jul 22;10(1):233. doi: 10.1038/s41392-025-02309-5. Erratum in: Signal Transduct Target Ther. 2025 Aug 31;10(1):288.
  3. Yashar WM, Kong G, VanCampen J, Curtiss BM, Coleman DJ, Carbone L, Yardimci GG, Maxson JE, Braun TP. GoPeaks: Spitzenaufruf für Histonmodifikationen bei CUT&Tag. Genome Biol. 2022 Jul 4;23(1):144.
  4. Tao X, Feng S, Zhao T, Guan X. Effiziente Chromatin-Profilierung der H3K4me3-Modifikation in Baumwolle mittels CUT&Tag. Pflanzenmethoden2020, 31. Aug.;16:120.
  5. Akdogan-Ozdilek B, Duval KL, Meng FW, Murphy PJ, Goll MG. Identifizierung von Chromatinzuständen während der Gastrulation von Zebrafischen mittels CUT&RUN und CUT&Tag. Dev Dyn. April 2022;251(4):729-742.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben