Wie man ATAC-Seq-Daten interpretiert
Chromosomen sind Strukturen, die durch die umfangreiche Kondensation und Spiralisierung von Chromatin gebildet werden. Ähnlich wie komprimierte Dateien in der Computertechnik ist dieser kondensierte Zustand nicht förderlich für das Lesen (Transkription). Folglich muss das Chromatin vor der Transkription zur Proteinsynthese dekomprimiert oder geöffnet werden, um die DNA lesbar zu machen.
Unter den verschiedenen epigenetischen Technologien, Assay für transposasezugängliche Chromatin mittels Sequenzierung (ATAC-seq) hat sich als eine bedeutende Methode zur Bewertung der Chromatinzugänglichkeit im gesamten Genom etabliert. Diese Technologie bewertet direkt die "Lesbarkeit" des Chromatins und hebt ihren erheblichen Anwendungswert hervor. Trotz ihrer Bedeutung konzentrieren sich viele Online-Ressourcen zu ATAC-seq hauptsächlich auf analytische Methoden und Arbeitsabläufe, während die biologischen Implikationen der Ergebnisse nur begrenzt diskutiert werden. Diese Übersicht zielt darauf ab, die folgenden Aspekte zu behandeln:
1. Ausrichtungs- und Sequenzierungsqualität
2. Peak-Erkennung
3. Nachgelagerte Analyse
4. Integration mit Multiomics-Daten
5. Visualisierung
Ausrichtung und Sequenzierungsqualität
Im Einklang mit dem analytischen Workflow für alle Next-Generation-Sequenzierungstechnologien besteht der erste Schritt in ATAC-seq-Analyse beinhaltet das Abgleichen von kurzen Sequenzlesungen mit einem Referenzgenom, gefolgt von vorläufigen Qualitätskontrollmaßnahmen.
Abbildung 1: Übersicht über die ATAC-Seq-Datenanalyse. (Von galaxyproject.org)
Das obige Diagramm zeigt, dass jeder Schritt im Analyseprozess (dargestellt durch rote Pfeile) Qualitätskontrollmaßnahmen umfasst. Qualitätskontrolle ist entscheidend, um genaue analytische Ergebnisse zu erzielen. Bei ATAC-seq konzentriert sich die Qualitätskontrolle hauptsächlich auf die Analyse von Insertionstags innerhalb von Bibliotheken und Signalen des Transkriptionsstartpunkts (TSS). Dies kann durch die folgenden Details verstanden werden:
Abbildung 2: Qualitätskontrollanalyse, die die Spitzenverteilung und die Nucleosomspaltungsmuster zeigt. (Kevin W. Trotter 2011)
Der erste Peak, der vor 150 Basenpaaren beobachtet wird, repräsentiert den Schnitt von offenen Chromatinregionen. Dieser Peak wird von periodischen, sägenartigen kleinen Peaks begleitet, mit ungefähr 10 Basenpaaren zwischen jedem kleineren Peak. Der Peak um 200 Basenpaare wird hauptsächlich dem Schnitt von Nukleosomen zugeschrieben. Wie bereits erwähnt, ist die DNA, die um ein Nukleosom gewickelt ist, ungefähr 147 Basenpaare lang; aufgrund von Variabilität in der Schnittgenauigkeit tritt der beobachtete Peak nahe 200 Basenpaaren auf. Nachfolgende Peaks repräsentieren das Vorhandensein von zwei, drei oder mehreren Nukleosomen, mit abnehmenden Peak-Höhen. Diese Reduktion zeigt eine geringere Wahrscheinlichkeit für das Schneiden von Nukleosomen, die weiter von der proximalen Region des Chromatins entfernt sind.
Peak-Calling von ATAC-seq
Unterschiede zwischen der Bedeutung von ATAC-seq- und ChIP-seq-Peaks
Die identifizierten Gipfel durch ATAC-seq und ChIP-seq stellen verschiedene biologische Phänomene dar und haben daher unterschiedliche Bedeutungen:
ChIP-seq-Spitzen
ChIP-seq beinhaltet die Verwendung von Antikörpern, die spezifisch für ein Zielprotein sind, um das Protein und die assoziierten DNA-Fragmente zu präzipitieren. Diese DNA-Fragmente werden anschließend auf das Genom abgebildet. Die Bindungsstellen des Zielproteins werden durch Regionen angezeigt, in denen die DNA-Fragmente dicht gestapelt sind. Die Visualisierung dieser Regionen als Balkendiagramme führt zu diskreten Spitzen. Typischerweise liefert ChIP-seq einen einzelnen ausgeprägten Gipfel, der der Bindungsstelle des interessierenden Proteins entspricht.
ATAC-seq-Spitzen
ATAC-seq basiert auf der Tn5-Transposase, die zugängliche DNA-Stellen innerhalb der Chromatinstruktur spaltet. Die Bindung der Tn5-Transposase an Chromatin ist ein stochastisches Ereignis. Die Bestimmung, ob die Lesetiefe eines Standorts einen Peak darstellt, erfolgt mithilfe von Software wie MACS (Model-based Analysis of ChIP-Seq). Wenn ein Transkriptionsfaktor an DNA bindet, hindert er die Tn5-Transposase daran, an dieser spezifischen Stelle zu schneiden, was zu einem schützenden Bereich führt, in dem die Reads verringert sind. Folglich weisen die von Transkriptionsfaktoren in ATAC-seq gebundenen Regionen typischerweise ein charakteristisches talähnliches Muster auf.
Abbildung 3. Schema der ATAC-Seq-Lesungen in Bezug auf Nucleosomen. (Kia u. a.. 2017.)
Einfluss der Modellerstellung auf die Spitzenidentifizierung mit MACS-Software
Bei der Verwendung von MACS-Software zur Peak-Erkennung beeinflusst die Methodik, die zur Konstruktion des Modells verwendet wird, erheblich die Kriterien, die MACS zur Identifizierung von Peaks anwendet.
MACS verwendet ein statistisches Modell, um zwischen echten Signalspitzen und Hintergrundrauschen zu unterscheiden. Die während der Modellerstellung festgelegten Parameter, einschließlich der Wahl der Eingabekontrolle, der Schwelle für die Spitzenanreicherung und der Sensitivität des Modells, beeinflussen direkt die Genauigkeit und Zuverlässigkeit der Spitzenentdeckung. Variationen dieser Parameter können zu Unterschieden in der Anzahl und den Eigenschaften der erkannten Spitzen führen, was die Bedeutung einer sorgfältigen Kalibrierung des Modells unterstreicht, um die experimentellen Bedingungen und Ziele widerzuspiegeln.
Durch die Optimierung dieser Parameter können Forscher die Spezifität und Sensitivität der Peak-Erkennung verbessern, wodurch die Interpretierbarkeit und biologische Relevanz der aus ATAC-seq und ähnlichen Hochdurchsatz-Sequenzierungstechniken gewonnenen Ergebnisse gesteigert wird.
Abbildung 4. Integration von ATAC-seq mit anderen Sequenzierungstechnologien
Vergleichende Analyse der Spitzenidentifikation in ChIP-seq und ATAC-seq
Sowohl ChIP-seq als auch ATAC-seq erzeugen unterschiedliche Lese-Bindungsmuster, die sich als Doppelspitzen in Regionen von Transkriptionsfaktoren (TF) oder Tn5-Integration manifestieren können.
In ChIP-seq spiegeln die beobachteten Peaks die Regionen wider, in denen DNA-Fragmente, die mit Transkriptionsfaktoren (TFs) ko-precipitiert wurden, gefunden werden. Diese Peaks erstrecken sich jedoch oft über die tatsächlichen TF-Bindungsstellen hinaus, da sie umgebende DNA-Fragmente einschließen, was eine Verschiebung der Lesepositionen nach innen erforderlich macht, um die TF-Bindungsstellen genau darzustellen.
Im Gegensatz dazu ist bei ATAC-seq auch eine Verschiebung erforderlich, um benachbarte Peaks zu einem einzigen Peak auszurichten; diese Verschiebung sollte nach außen vom Zentrum des Peaks gerichtet sein. Diese Anpassung berücksichtigt die Anreicherung von Reads in den flankierenden Regionen der TF-Bindungsstellen und nicht im zentralen Motiv.
Zum Beispiel zeigen im Fall von CTCF (CCCTC-bindendes Protein) die ChIP-seq-Spitzen die CTCF-Bindungsregionen, wobei der zentrale Standort das CTCF-Motiv darstellt. Im Gegensatz dazu sind die ATAC-seq-Reads in den flankierenden Regionen des Motivs angereichert, wie in der beigefügten Abbildung dargestellt. Die horizontale Achse der Abbildung repräsentiert genomische Koordinaten, während die vertikale Achse die Signalintensität von ATAC-seq angibt.
Abbildung 5. Illustration des CCCTC-Bindungsfaktors (CTCF)
Dienste, an denen Sie interessiert sein könnten
Nachgelagerte Analyse
Die nachgelagerte Analyse stellt einen Schwerpunkt dieses Artikels dar und wird in vier Hauptaspekte unterteilt: Peak-Analyse, Motiv-Analyse, Nucleosomen-Positionierung und TF-Footprinting.
Spitzenanalyse
Die Spitzenanalyse wird in zwei Hauptansätze unterteilt:
Differenzielle Spitzenanalyse basierend auf vordefinierten Spitzen-Sets: Diese Methode umfasst die Identifizierung von Spitzen aus einem vordefinierten Set und anschließend die Durchführung einer differentiellen Analyse basierend auf RNA-Sequenzierungsdaten (RNA-seq) oder anderen ähnlichen Methoden. Es wird empfohlen, alle Proben zusammenzuführen, um ein unverzerrtes und konsistentes Set von Spitzen zu identifizieren, bevor weitere Analysen durchgeführt werden.
Sliding-Window-Ansatz: Diese Methode arbeitet mit weniger Annahmen und bietet somit eine unvoreingenommene Analyse. Es wird jedoch angemerkt, dass dieser Ansatz zu einer höheren Rate an falsch positiven Ergebnissen führen kann, was strengere vorläufige Filterung erforderlich macht.
Spitzenannotation
Die Peak-Annotierung umfasst die Zuordnung von Peaks zu funktionalen genomischen Regionen – wie Exons, Promotoren, Enhancern und untranslatierten Regionen (UTRs) – um die regulatorischen Funktionen der Peaks auf Gene zu erhellen. Typische ATAC-seq-Peaks fallen in der Regel innerhalb von cis-regulatorischen Elementen. Nach der Peak-Annotierung kann eine funktionale Anreicherungsanalyse auf der resultierenden Genliste durchgeführt werden, um die biologische Bedeutung der identifizierten Peaks weiter zu erkunden.
Motive
TFs beeinflussen typischerweise die Transkription, indem sie an Motive binden, die sich in offenen Chromatinregionen befinden. Daher stellt die Analyse von Motiven und TF-Bindungsstellen einen entscheidenden Bestandteil der ATAC-seq-Analyse dar. Das menschliche Genom umfasst etwa 1.600 verschiedene Transkriptionsfaktoren, deren Bindungsstellen im gesamten Genom verteilt sind. Die Analyse der Aktivität und Zugänglichkeit verschiedener Motive erleichtert die Identifizierung und Interpretation wichtiger biologischer Regulationsprozesse.
Annotation: Zahlreiche Datenbanken bieten experimentell oder algorithmisch vorhergesagte Motive zu Annotierungszwecken an, darunter CIS-BP und RegulonDB. Diese Ressourcen sind entscheidend für die Motivanotation.
Anreicherung: Bei der Identifizierung von Motiven ermöglicht die Berechnung ihrer Häufigkeit innerhalb offener Peak-Regionen die Erkennung angereicherter Motive, die anschließend zur Vorhersage oder Assoziation von TF-Aktivität verwendet werden können.
TF Fußabdrücke
Ein alternativer Ansatz zur Beschreibung der TF-Regulation beinhaltet die Verwendung von Fußabdrücken. Die aktive Bindung von TF führt dazu, dass die Tn5-Transposase während der ATAC-seq-Bibliotheksvorbereitung nicht binden kann, was zur Bildung eines Dips (oder "Fußabdrucks") an der TF-Bindungsstelle innerhalb des Peaks führt. Es ist bemerkenswert, dass die genaue Identifizierung von Fußabdrücken herausfordernd ist und von einer hohen Sequenzierungstiefe abhängt. Darüber hinaus wurden viele Algorithmen, die derzeit für die TF-Fußabdruckanalyse verwendet werden, nicht speziell für ATAC-seq entwickelt, was zu Verzerrungen in den Ergebnissen führen kann.
Nukleosompositionierung
Typisch ATAC-seq-DatensätzeLängere Fragmente repräsentieren oft Regionen, die mit mehreren Nucleosomen assoziiert sind. Mehrere Methoden nutzen diese Informationen, um nucleosom-reiche Regionen zu erkennen. Aufgrund der geringeren Leseabdeckung in diesen Regionen im Vergleich zu offenen Chromatinbereichen können solche Analysen jedoch besonders herausfordernd sein.
Visualisierung
Visualisierung von genomischen Daten wird häufig durch die Darstellung von Spitzen und Heatmaps, die auf TSS zentriert sind, erreicht. Solche Visualisierungen sind entscheidend für die Interpretation der Chromatinzugänglichkeit und die Identifizierung regulatorischer Elemente.
Spitzen- und Heatmap-Visualisierung
Die grafische Darstellung umfasst typischerweise das Plotten von Peaks um die TSS, wobei jede Linie im Diagramm ein distinctes Transkript darstellt. Diese visuellen Werkzeuge ermöglichen die Identifizierung von offenen Chromatinregionen, potenziellen Enhancern oder Silencern.
Die Promotorregionen werden oft innerhalb eines häufig verwendeten Bereichs von 2,5 Kilobasen (kb) vom Transkriptionsstartpunkt (TSS) abgegrenzt. Da Promotorregionen keine klar definierten Grenzen aufweisen, bietet dieser Bereich eine praktische Annäherung für ihre Identifizierung.

Neben der Visualisierung von Daten, die auf TSS zentriert sind, können grafische Darstellungen auch auf spezifische Gen-Peaks zentriert werden, wie unten dargestellt:

Zusätzlich ist es üblich, spezifische DNA-Regionen innerhalb von Artikeln zu visualisieren, wie das unten dargestellte RAC2-Gen:

Diese Version bewahrt einen formellen und präzisen Ton, der für wissenschaftliche Kommunikation geeignet ist.
Integration von ATAC-seq mit ChIP-seq und RNA-seq
Die Frage, ob ATAC-seq allein kann ersetzen ChIP-Seq wird negativ angesprochen. In der Praxis wird ATAC-seq häufig mit anderen Sequenzierungstechnologien kombiniert, um umfassende Analysen zu ermöglichen.
ATAC-seq kombiniert mit RNA-seq:
Typischerweise wird RNA-seq vor ATAC-seq durchgeführt. Differenziell exprimierte Gene, die durch RNA-seq identifiziert wurden, können mithilfe von ATAC-seq weiter untersucht werden, um eine Motivanalyse durchzuführen, die dabei hilft, regulatorische Faktoren zu identifizieren, die mit Zielgenen assoziiert sind. Anschließend kann eine experimentelle Validierung durchgeführt werden, um diese Ergebnisse zu bestätigen.
Alternativ kann ATAC-seq verwendet werden, um die Chromatinzugänglichkeit zu untersuchen, mit dem Ziel festzustellen, ob Veränderungen im Chromatinzustand mit erhöhten Transkriptlevels korrelieren. Dieser Ansatz ermöglicht es RNA-seq, Gene zu identifizieren, die den angereicherten Transkripten entsprechen, und erleichtert die funktionale Analyse dieser Gene sowie die Integration mit phänotypischer Validierung. Dies schafft einen umfassenden Rahmen, der epigenetische Regulation, Expression, Funktion und Phänotyp umfasst.
ATAC-seq kombiniert mit ChIP-seq:
ChIP-seq wird häufig nach ATAC-seq eingesetzt, um zusätzliche Validierung zu bieten. Zum Beispiel kann nach der Identifizierung von Peaks mit ATAC-seq und der Erkennung von Motiven, die mit spezifischen Transkriptionsfaktoren assoziiert sind, ChIP-seq verwendet werden, um die Bindungsstellen dieser Transkriptionsfaktoren zu bestimmen. Dieser Ansatz ermöglicht es, festzustellen, ob die Transkriptionsfaktoren mit Promotorregionen oder Enhancerregionen interagieren.
Darüber hinaus hat das Aufkommen von Einzelzell-RNA-Sequenzierung zur Entwicklung neuer Techniken wie scATAC-seq in Kombination mit scRNA-seq geführt, die es ermöglichen, die Chromatinzugänglichkeit auf Einzelzellebene zu untersuchen.
Konstruktion von Regulierungsnetzwerken
ATAC-seq ermöglicht die Identifizierung offener Regionen für TF-Motive im gesamten Genom und erleichtert die Entdeckung von regulatorischen Elementen wie Enhancern, die sich in erheblichen Abständen von ihren Zielgenen befinden können. Diese Fähigkeit ist entscheidend für den Aufbau komplexer regulatorischer Netzwerke, einschließlich der Wechselwirkungen zwischen Enhancern und Promotoren.
Referenzen:
- Buenrostro JD, Wu B, Chang HY, Greenleaf WJ. ATAC-seq: Eine Methode zur Untersuchung der Chromatinzugänglichkeit im gesamten Genom. Curr Protoc Mol Biol2015;109:21.29.1-21.29.9.
- Bates SE. Epigenetische Therapien für Krebs. N Engl J Med2020;383(7):650-663.
- Yan F, Powell DR, Curtis DJ, et al. Von Reads zu Erkenntnissen: Ein Reiseführer zur ATAC-seq-Datenanalyse. Genom Biol. 2020;21:22.
- Smith JP, Sheffield NC. Analytische Ansätze zur Analyse von ATAC-seq-Daten. Curr Protoc Hum Genet. 2020.