Wie man ATAC-Seq-Daten interpretiert
Chromosomen sind Strukturen, die durch die umfangreiche Kondensation und Spiralisierung von Chromatin gebildet werden. Ähnlich wie komprimierte Dateien in der Informatik ist dieser kondensierte Zustand nicht förderlich für das Lesen (Transkription). Folglich muss das Chromatin vor der Transkription zur Proteinsynthese dekomprimiert oder geöffnet werden, um die DNA lesbar zu machen.
Unter den verschiedenen epigenetischen Technologien, Assay für transposase-zugängliche Chromatin mittels Sequenzierung (ATAC-seq) hat sich als eine herausragende Methode zur Bewertung der Chromatinzugänglichkeit im gesamten Genom etabliert. Diese Technologie bewertet direkt die "Lesbarkeit" des Chromatins und hebt ihren erheblichen Anwendungswert hervor. Trotz ihrer Bedeutung konzentrieren sich viele Online-Ressourcen zu ATAC-seq hauptsächlich auf analytische Methoden und Arbeitsabläufe, während die biologischen Implikationen der Ergebnisse nur begrenzt diskutiert werden. Diese Übersicht zielt darauf ab, die folgenden Aspekte zu behandeln:
1. Ausrichtungs- und Sequenzierungsqualität
2. Peak-Erkennung
3. Nachgelagerte Analyse
4. Integration mit Multiomics-Daten
5. Visualisierung
Ausrichtung und Sequenzierungsqualität
Im Einklang mit dem analytischen Workflow für alle Next-Generation-Sequenzierungstechnologien ist der erste Schritt in ATAC-seq-Analyse umfasst das Zuordnen von kurzen Sequenzlesungen zu einem Referenzgenom, gefolgt von vorläufigen Qualitätskontrollmaßnahmen.
Abbildung 1. Übersicht des ATAC-Seq-Workflows. (Adaptierte von Galaxy Training Network, ATAC-Seq-Datenanalyse, lizenziert unter CC BY 4.0.)
Das obige Diagramm zeigt, dass jeder Schritt im Analyseprozess (angezeigt durch rote Pfeile) Qualitätskontrollmaßnahmen umfasst. Qualitätskontrolle ist entscheidend für die Erzielung genauer analytischer Ergebnisse. Bei ATAC-seq konzentriert sich die Qualitätskontrolle hauptsächlich auf die Analyse von Einfüge-Tags innerhalb der Bibliotheken und Signalen der Transkriptionsstartstelle (TSS). Dies kann durch die folgenden Details verstanden werden:
Abbildung 2. Verteilung der Fragmentgrößen von ATAC-seq. (Links: Angepasst von Buenrostro et al., 2013; Rechts: Angepasst von Yan et al., 2014, DOI: 10.1186/1756-8935-7-33.)
Der erste Peak, der vor 150 Basenpaaren beobachtet wird, repräsentiert den Schnitt von offenen Chromatinregionen. Dieser Peak wird von periodischen, sägenartigen kleinen Peaks begleitet, mit ungefähr 10 Basenpaaren zwischen jedem kleineren Peak. Der Peak bei etwa 200 Basenpaaren wird hauptsächlich dem Schnitt von Nukleosomen zugeschrieben. Wie bereits erwähnt, ist die DNA, die um ein Nukleosom gewickelt ist, ungefähr 147 Basenpaare lang; aufgrund von Variabilität in der Schnittgenauigkeit tritt der beobachtete Peak nahe 200 Basenpaaren auf. Nachfolgende Peaks repräsentieren das Vorhandensein von zwei, drei oder mehreren Nukleosomen, mit abnehmenden Peak-Höhen. Diese Reduktion zeigt eine geringere Wahrscheinlichkeit an, Nukleosomen zu schneiden, die weiter vom proximalen Bereich des Chromatins entfernt sind.
Spitzenaufruf von ATAC-seq
Unterschiede zwischen der Bedeutung von ATAC-seq und ChIP-seq Peaks
Die identifizierten Gipfel von ATAC-seq und ChIP-Seq stellen verschiedene biologische Phänomene dar und haben daher unterschiedliche Bedeutungen:
ChIP-seq-Spitzen
ChIP-seq beinhaltet die Verwendung von Antikörpern, die spezifisch für ein Zielprotein sind, um das Protein und die assoziierten DNA-Fragmente zu präzipitieren. Diese DNA-Fragmente werden anschließend auf das Genom abgebildet. Die Bindungsstellen des Zielproteins werden durch Regionen angezeigt, in denen die DNA-Fragmente dicht gestapelt sind. Die Visualisierung dieser Regionen als Balkendiagramme führt zu diskreten Spitzen. Typischerweise liefert ChIP-seq einen einzelnen ausgeprägten Peak, der der Bindungsstelle des interessierenden Proteins entspricht.
ATAC-seq-Spitzen
ATAC-seq basiert auf der Tn5-Transposase, die zugängliche DNA-Stellen innerhalb der Chromatinstruktur spaltet. Die Bindung der Tn5-Transposase an Chromatin ist ein stochastisches Ereignis. Die Bestimmung, ob die Lesetiefe eines Standorts einen Peak darstellt, erfolgt mit Software wie MACS (Model-based Analysis of ChIP-Seq). Wenn ein Transkriptionsfaktor an DNA bindet, hindert er die Tn5-Transposase daran, an dieser spezifischen Stelle zu schneiden, was zu einem schützenden Bereich führt, in dem die Reads verringert sind. Folglich weisen die von Transkriptionsfaktoren in ATAC-seq gebundenen Regionen typischerweise ein charakteristisches talähnliches Muster auf.
Abbildung 3. Schema der ATAC-Seq-Lesungen in Bezug auf Nukleosomen. (Links: Adaptierte von Galaxy Training Network, ATAC-Seq-Datenanalyse; Rechts: Quelle unbekannt.)
Auswirkungen der Modellkonstruktion auf das Peak-Calling mit MACS-Software
Bei der Verwendung von MACS-Software zur Peak-Erkennung hat die Methodik, die zur Konstruktion des Modells verwendet wird, einen erheblichen Einfluss auf die Kriterien, die MACS zur Identifizierung von Peaks anwendet.
MACS verwendet ein statistisches Modell, um zwischen echten Signalspitzen und Hintergrundrauschen zu unterscheiden. Die während der Modellerstellung festgelegten Parameter, einschließlich der Wahl der Eingabekontrolle, des Spitzenanreicherungsgrenzwerts und der Empfindlichkeit des Modells, beeinflussen direkt die Genauigkeit und Zuverlässigkeit der Spitzenidentifikation. Variationen dieser Parameter können zu Unterschieden in der Anzahl und den Eigenschaften der erkannten Spitzen führen, was die Bedeutung einer sorgfältigen Kalibrierung des Modells unterstreicht, um die experimentellen Bedingungen und Ziele widerzuspiegeln.
Durch die Optimierung dieser Parameter können Forscher die Spezifität und Sensitivität der Peak-Erkennung verbessern, wodurch die Interpretierbarkeit und biologische Relevanz der aus ATAC-seq und ähnlichen Hochdurchsatz-Sequenzierungstechniken gewonnenen Ergebnisse gesteigert wird.
Abbildung 4. Vergleich der Spitzenidentifikation.
Vergleichende Analyse der Spitzenidentifikation in ChIP-seq und ATAC-seq
Sowohl ChIP-seq als auch ATAC-seq erzeugen unterschiedliche Lese-Bindungsmuster, die sich als Doppelspitzen in Regionen von Transkriptionsfaktoren (TF) oder Tn5-Integration zeigen können.
In ChIP-seq spiegeln die beobachteten Peaks die Regionen wider, in denen DNA-Fragmente, die mit Transkriptionsfaktoren (TFs) ko-precipitiert wurden, gefunden werden. Diese Peaks erstrecken sich jedoch häufig über die tatsächlichen TF-Bindungsstellen hinaus, da auch umliegende DNA-Fragmente einbezogen werden, was eine Verschiebung der Lesepositionen nach innen erforderlich macht, um die TF-Bindungsstellen genau darzustellen.
Im Gegensatz dazu ist bei ATAC-seq eine Verschiebung erforderlich, um benachbarte Peaks zu einem einzelnen Peak auszurichten; diese Verschiebung sollte nach außen vom Zentrum des Peaks gerichtet sein. Diese Anpassung berücksichtigt die Anreicherung von Reads in den flankierenden Regionen der TF-Bindungsstellen und nicht im zentralen Motiv.
Zum Beispiel zeigen im Fall von CTCF (CCCTC-bindendes Protein) die ChIP-seq-Spitzen die CTCF-Bindungsregionen, wobei die zentrale Position das CTCF-Motiv darstellt. Im Gegensatz dazu sind die ATAC-seq-Reads in den flankierenden Regionen des Motivs angereichert, wie in der beigefügten Abbildung dargestellt. Die horizontale Achse der Abbildung repräsentiert genomische Koordinaten, während die vertikale Achse die Signalintensität von ATAC-seq angibt.
Abbildung 5. Fußabdruckanalyse von Transkriptionsfaktoren mittels ATAC-Seq. (Angepasst von Buenrostro et al., 2013.)
Dienste, an denen Sie interessiert sein könnten
Nachgelagerte Analyse
Die nachgelagerte Analyse stellt einen Schwerpunkt dieses Artikels dar und wird in vier Hauptaspekte unterteilt: Peak-Analyse, Motiv-Analyse, Nukleosomen-Positionierung und TF-Footprinting.
Spitzenanalyse
Die Spitzenanalyse wird in zwei Hauptansätze unterteilt:
Differenzielle Spitzenanalyse basierend auf vordefinierten Spitzenmengen: Diese Methode beinhaltet die Identifizierung von Spitzen aus einer vordefinierten Menge und anschließend die Durchführung einer differenziellen Analyse basierend auf RNA-Sequenzierungsdaten (RNA-seq) oder anderen ähnlichen Methoden. Es wird empfohlen, alle Proben zusammenzufassen, um eine unvoreingenommene und konsistente Menge von Spitzen zu identifizieren, bevor weitere Analysen durchgeführt werden.
Sliding-Window-Ansatz: Diese Methode arbeitet mit weniger Annahmen und bietet somit eine unvoreingenommene Analyse. Es wird jedoch angemerkt, dass dieser Ansatz zu einer höheren Rate an falsch-positiven Ergebnissen führen kann, was eine strengere vorläufige Filterung erforderlich macht.
Spitzenannotation
Die Peak-Annotierung umfasst die Zuordnung von Peaks zu funktionalen genomischen Regionen – wie Exons, Promotoren, Enhancern und untranslatierten Regionen (UTRs) – um die regulatorischen Funktionen der Peaks auf Gene zu erhellen. Typische ATAC-seq-Peaks fallen in der Regel innerhalb von cis-regulatorischen Elementen. Nach der Peak-Annotierung kann eine funktionale Anreicherungsanalyse auf der resultierenden Genliste durchgeführt werden, um die biologische Bedeutung der identifizierten Peaks weiter zu erkunden.
Motive
TFs beeinflussen typischerweise die Transkription, indem sie an Motive binden, die sich in offenen Chromatinregionen befinden. Daher stellt die Analyse von Motiven und TF-Bindungsstellen einen entscheidenden Bestandteil der ATAC-seq-Analyse dar. Das menschliche Genom umfasst etwa 1.600 verschiedene Transkriptionsfaktoren, deren Bindungsstellen über das gesamte Genom verteilt sind. Die Analyse der Aktivität und Zugänglichkeit verschiedener Motive erleichtert die Identifizierung und Interpretation wichtiger biologischer Regulationsprozesse.
Annotation: Zahlreiche Datenbanken bieten experimentell oder algorithmisch vorhergesagte Motive zu Annotierungszwecken an, darunter CIS-BP und RegulonDB. Diese Ressourcen sind entscheidend für die Motivanotation.
Anreicherung: Bei der Identifizierung von Motiven ermöglicht die Berechnung ihrer Häufigkeit innerhalb offener Peak-Regionen die Erkennung angereicherter Motive, die anschließend zur Vorhersage oder Assoziation der TF-Aktivität verwendet werden können.
TF Fußabdrücke
Ein alternativer Ansatz zur Beschreibung der TF-Regulation beinhaltet die Verwendung von Fußabdrücken. Die aktive Bindung von TF führt dazu, dass die Tn5-Transposase während der ATAC-seq-Bibliotheksvorbereitung nicht binden kann, was zur Bildung eines Dips (oder "Fußabdrucks") an der TF-Bindungsstelle innerhalb des Peaks führt. Es ist bemerkenswert, dass die genaue Identifizierung von Fußabdrücken herausfordernd ist und von einer hohen Sequenzierungstiefe abhängt. Darüber hinaus wurden viele Algorithmen, die derzeit für die TF-Fußabdruckanalyse verwendet werden, nicht speziell für ATAC-seq entwickelt, was zu Verzerrungen in den Ergebnissen führen kann.
Nukleosomenpositionierung
Typisch ATAC-seq-DatensätzeLängere Fragmente repräsentieren oft Regionen, die mit mehreren Nukleosomen assoziiert sind. Mehrere Methoden nutzen diese Informationen, um nukleosomenreiche Regionen zu identifizieren. Aufgrund der geringeren Leseabdeckung in diesen Regionen im Vergleich zu offenen Chromatinbereichen können solche Analysen jedoch besonders herausfordernd sein.
Visualisierung
Visualisierung von genomischen Daten wird häufig durch die Darstellung von Spitzen und Heatmaps, die auf TSS zentriert sind, erreicht. Solche Visualisierungen sind entscheidend für die Interpretation der Chromatinzugänglichkeit und die Identifizierung regulatorischer Elemente.
Spitzen- und Heatmap-Visualisierung
Die grafische Darstellung umfasst typischerweise das Plotten von Peaks um die TSS, wobei jede Linie im Diagramm ein distinctes Transkript repräsentiert. Diese visuellen Werkzeuge ermöglichen die Identifizierung von offenen Chromatinregionen, potenziellen Enhancern oder Silencern.
Die Promotorregionen werden häufig innerhalb eines allgemein verwendeten Bereichs von 2,5 Kilobasen (kb) vom Transkriptionsstartpunkt (TSS) abgegrenzt. Da Promotorregionen keine klar definierte Grenze aufweisen, bietet dieser Bereich eine praktische Annäherung für ihre Identifizierung.
Bilder mit freundlicher Genehmigung von Lucille Delisle / Galaxy Training Network (CC BY 4.0).
Neben der Visualisierung von Daten, die auf TSS zentriert sind, können grafische Darstellungen auch auf spezifische Gen-Peaks zentriert sein, wie unten dargestellt:
Bilder mit freundlicher Genehmigung von Lucille Delisle / Galaxy Training Network (CC BY 4.0).
Darüber hinaus ist es üblich, spezifische DNA-Regionen in Artikeln zu visualisieren, wie das unten dargestellte RAC2-Gen:
Bilder mit freundlicher Genehmigung von Lucille Delisle / Galaxy Training Network (CC BY 4.0).
Diese Version bewahrt einen formellen und präzisen Ton, der für wissenschaftliche Kommunikation geeignet ist.
Integration von ATAC-seq mit ChIP-seq und RNA-seq
Die Frage, ob ATAC-seq allein kann ersetzen ChIP-seq wird negativ angesprochen. In der Praxis wird ATAC-seq häufig mit anderen Sequenzierungstechnologien kombiniert, um umfassende Analysen zu erreichen.
ATAC-seq kombiniert mit RNA-seq:
Typischerweise wird RNA-seq vor ATAC-seq durchgeführt. Differenziell exprimierte Gene, die durch RNA-seq identifiziert wurden, können mithilfe von ATAC-seq weiter untersucht werden, um eine Motivanalyse durchzuführen, die bei der Identifizierung von regulatorischen Faktoren, die mit Zielgenen assoziiert sind, hilft. Anschließend kann eine experimentelle Validierung durchgeführt werden, um diese Ergebnisse zu bestätigen.
Alternativ kann ATAC-seq verwendet werden, um die Chromatinzugänglichkeit zu untersuchen, mit dem Ziel festzustellen, ob Veränderungen im Chromatinzustand mit erhöhten Transkriptlevels korrelieren. Dieser Ansatz ermöglicht es RNA-seq, Gene zu identifizieren, die den angereicherten Transkripten entsprechen, und erleichtert die funktionale Analyse dieser Gene sowie die Integration mit phänotypischer Validierung. Dies schafft einen umfassenden Rahmen, der epigenetische Regulation, Expression, Funktion und Phänotyp umfasst.
ATAC-seq kombiniert mit ChIP-seq:
ChIP-seq wird häufig nach ATAC-seq eingesetzt, um zusätzliche Validierung zu bieten. Zum Beispiel kann nach der Identifizierung von Peaks mit ATAC-seq und der Erkennung von Motiven, die mit spezifischen Transkriptionsfaktoren assoziiert sind, ChIP-seq verwendet werden, um die Bindungsstellen dieser Transkriptionsfaktoren zu bestimmen. Dieser Ansatz ermöglicht es, festzustellen, ob die Transkriptionsfaktoren mit Promotorregionen oder Enhancerregionen interagieren.
Darüber hinaus hat das Aufkommen von Einzelzell-RNA-Sequenzierung zur Entwicklung neuer Techniken wie scATAC-seq in Kombination mit scRNA-seq geführt, die die Untersuchung der Chromatinzugänglichkeit auf Einzelzellebene ermöglicht.
Konstruktion von Regulierungsnetzwerken
ATAC-seq ermöglicht die Identifizierung offener Regionen für TF-Motive im gesamten Genom und erleichtert die Entdeckung von regulatorischen Elementen wie Enhancern, die sich in erheblichen Abständen von ihren Zielgenen befinden können. Diese Fähigkeit ist entscheidend für den Aufbau komplexer regulatorischer Netzwerke, einschließlich der Wechselwirkungen zwischen Enhancern und Promotoren.
Referenzen:
- Bérénice Batut, Saskia Hiltemann, Lucille Delisle u.a. ATAC-Seq-Datenanalyse (Galaxy-Sch Schulungsmaterialien). Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Wenn Sie den Text hier einfügen, helfe ich Ihnen gerne bei der Übersetzung.
- Buenrostro JD, Giresi PG, Zaba LC, et al. Transposition von nativer Chromatin für eine schnelle und empfindliche epigenomische Profilierung von offenem Chromatin, DNA-bindenden Proteinen und Nukleosomenposition. Nat Methoden2013;10(12):1213-1218.
- Yan F, Powell DR, Curtis DJ, et al. Von Reads zu Einsichten: Ein Reiseführer zur ATAC-seq-Datenanalyse. Genome Biol. 2020;21:22.
- Yan F, et al. Die Zugänglichkeit und Dekoration menschlicher protein-codierender und nicht-codierender Promotoren. Epigenetik & Chromatin2014;7:33.
- Buenrostro JD, Wu B, Chang HY, Greenleaf WJ. ATAC-seq: Eine Methode zur Untersuchung der Chromatinzugänglichkeit im gesamten Genom. Curr Protoc Mol Biol2015;109:21.29.1-21.29.9.
- Bates SE. Epigenetische Therapien für Krebs. N Engl J Med. 2020;383(7):650-663.
- Smith JP, Sheffield NC. Analytische Ansätze zur Analyse von ATAC-seq-Daten. Curr Protoc Hum Genet. 2020.