Wie man Hi-C-Sequenzierungsdaten analysiert

Die dreidimensionale (3D) Organisation des Genoms spielt eine entscheidende Rolle bei der Genregulation, DNA-Replikation und Genomstabilität. Hi-C, eine leistungsstarke Technik, die aus Methoden zur Chromosomenkonformationsfängung (3C) abgeleitet ist, ermöglicht die genomweite Kartierung von Chromatininteraktionen und bietet Einblicke in die räumliche Architektur des Genoms. Die Analyse von Hi-C-Daten ist jedoch eine komplexe Aufgabe, die spezialisierte bioinformatische Werkzeuge und Ansätze erfordert. Dieser Artikel zielt darauf ab, einen umfassenden Leitfaden zur Analyse von Hi-C-Sequenzierungsdaten aus bioinformatischer Sicht bereitzustellen, wobei wichtige Schritte wie Datenvorverarbeitung, Normalisierung, Identifizierung signifikanter Interaktionen und 3D-Modellierung behandelt werden.

Vorverarbeitung von Hi-C-Daten

1.1 Qualitätskontrolle und Lesen von Trimmings

Rohe Hi-C-Sequenzierungsdaten enthalten typischerweise Adaptersequenzen, niedrigqualitative Basen und PCR-Duplikate. Werkzeuge wie FastQC und Trim Galore werden verwendet, um die Lesequalität zu bewerten und Trimmvorgänge durchzuführen. Anschließend kartieren Alignierungswerkzeuge wie Bowtie2 oder BWA die Reads auf das Referenzgenom.

Bevor wir in die Feinheiten von Hi-C eintauchen DatenanalyseDie Sicherstellung der Qualität der Rohsequenzierungsdaten ist entscheidend. Dieser erste Schritt ist für die nachgelagerte Analyse von entscheidender Bedeutung, da Daten von schlechter Qualität Verzerrungen und Artefakte einführen können, die zu ungenauen Ergebnissen führen.

Bewertung der Lesbarkeit

Wie andere Next-Generation Sequencing (NGS) Daten, rohe Hi-C-Sequenzierungsdaten enthalten häufig Adaptersequenzen, niedrigqualitative Basen und PCR-Duplikate. Diese Probleme können die Genauigkeit und Zuverlässigkeit der nachfolgenden Analyse erheblich beeinträchtigen. Daher ist der erste Schritt bei der Verarbeitung von Hi-C-Daten die Bewertung der Qualität der Sequenzierungsreads.

FastQC ist ein weit verbreitetes Werkzeug zur Qualitätskontrolle von Sequenzierungsdaten. Es bietet einen umfassenden Bericht über verschiedene Qualitätsmetriken, einschließlich:

1. Per-Basen-Sequenzqualität: Diese Kennzahl bewertet die Verteilung der Qualitätswerte über jede Basenposition in den Reads. Hochwertige Basen sind entscheidend für eine genaue Zuordnung.

2. Pro Sequenz-Qualitätswerte: Dies bietet einen Überblick über die Gesamtqualität jeder Lesung.

3. Nach Basensequenzinhalt: Diese Kennzahl überprüft die Verteilung der Nukleotide (A, T, C, G) an jeder Position in den Reads. Eine verzerrte Verteilung könnte auf Sequenzierungsbias hinweisen.

4. Adapter-Inhalt: FastQC identifiziert das Vorhandensein von Adaptersequenzen, die die Zuordnung von Reads beeinträchtigen können.

Durch die Untersuchung dieser Metriken können Forscher potenzielle Probleme in den Sequenzierungsdaten identifizieren und die geeigneten Vorverarbeitungsschritte festlegen.

Lesen Trimmen

Sobald die Qualität der Reads bewertet wurde, besteht der nächste Schritt darin, die Reads zu kürzen, um niedrigqualitative Basen und Adaptersequenzen zu entfernen. Trim Galore ist ein beliebtes Werkzeug für diesen Zweck. Es integriert sich mit FastQC und bietet eine automatisierte Pipeline für das Trimmen und die Qualitätskontrolle. Trim Galore kann:

1. Adaptersequenzen trimmen: Adaptersequenzen werden häufig an die Enden von DNA-Fragmenten während der Bibliotheksvorbereitung ligiert. Wenn sie nicht entfernt werden, können sie die Zuordnung der Reads beeinträchtigen.

2. Entfernen Sie niedrigwertige Basen: Basen mit niedrigen Qualitätswerten sind weniger zuverlässig und können Fehler in der Analyse einführen. Trim Galore entfernt diese Basen von den Enden der Reads.

3. Kurze Reads herausfiltern: Nach dem Trimmen können einige Reads zu kurz werden, um nützlich zu sein. Trim Galore kann diese kurzen Reads herausfiltern, um die Gesamtqualität des Datensatzes zu verbessern.

1.2 Zuordnung und Filterung von Hi-C Reads

Der erste Schritt in der Hi-C-Datenanalyse besteht darin, die Sequenzierungsreads auf das Referenzgenom abzubilden. Dieser Prozess wird dadurch kompliziert, dass Hi-C-Bibliotheken chimäre Reads enthalten, die Fragmente sind, die aus der Ligation von zwei oder mehr nicht zusammenhängenden genomischen Regionen resultieren. Es können mehrere Strategien angewendet werden, um mit diesen chimären Reads umzugehen:

1. Vor-Trunkierung: Diese Methode beinhaltet das Trunkieren von Reads, um potenzielle Ligation-Junktionssequenzen vor der Zuordnung zu entfernen. Zum Beispiel, wenn das Restriktionsenzym HindIII verwendet wird, ist die Ligation-Junktionssequenz "AAGCTAGCTT".

2. Iterative Zuordnung: Die Reads werden zunächst auf eine kurze Länge (z. B. 25 bp) gekürzt und zugeordnet. Wenn die Zuordnung nicht eindeutig ist, werden iterativ zusätzliche Basen hinzugefügt, bis die volle Read-Länge erreicht ist.

3. Erlaube geteilte Ausrichtungen: Einige Alignertools, wie der bwa-sw-Modus von BWA, erlauben geteilte Ausrichtungen innerhalb eines Reads. Dieser Ansatz identifiziert Reads, die an mehreren Stellen abgebildet sind, und behält nur diejenigen mit eindeutigen Abbildungen bei.

4. Aufteilen, wenn nicht zugeordnet: Reads, die zunächst nicht zugeordnet werden können, werden auf das Vorhandensein einer einzelnen Restriktionsstelle überprüft. Wenn sie gefunden wird, wird der Read in zwei Teile aufgeteilt, und jeder Teil wird unabhängig zugeordnet.

Nach der Zuordnung werden die Reads basierend auf verschiedenen Kriterien gefiltert, einschließlich der Anzahl der Fehlanpassungen, der Mapping-Qualität (MAPQ-Score) und der Einzigartigkeit. Darüber hinaus werden die Reads dem nächstgelegenen Restriktionsschnitt zugewiesen, und diejenigen, die nicht der erwarteten Fragmentgröße entsprechen, werden verworfen.

1.3 Lesen-Paar-Ebene Filterung

Hi-C-Lese-Paare werden weiter klassifiziert, um informative Interaktionen zu identifizieren. Strangfilter entfernen Paare, die nicht den erwarteten Orientierungen entsprechen, wie z. B. nach innen oder außen gerichtete Paare. Distanzfilter eliminieren intra-chromosomale Paare, die zu nah beieinander liegen und wahrscheinlich Artefakte sind. Duplizierte Lese-Paare, die durch PCR-Amplifikation entstehen können, werden ebenfalls entfernt, um Verzerrungen zu vermeiden.

1.4 Normalisierung von Hi-C-Daten

Die Normalisierung ist entscheidend, um Verzerrungen in Hi-C-Daten zu korrigieren, die durch Sequenzierungstiefe, GC-Gehalt, Kartierbarkeit und andere Faktoren entstehen können. Es stehen mehrere Normalisierungsmethoden zur Verfügung:

Explizite Faktor-Korrektur: Dieser Ansatz modelliert Verzerrungen explizit. Zum Beispiel korrigiert die Methode von Yaffe und Tanay für GC-Gehalt, Mappbarkeit und Fragmentlänge [54]. HiCNorm verwendet Regressionsmodelle, um ähnliche Ergebnisse effizienter zu erzielen [55].

Matrix-Balancierung: Methoden wie ICE korrigieren iterativ Verzerrungen, um eine ausgewogene Matrix zu erreichen, in der jedes Locus die gleiche Sichtbarkeit hat. Dieser Ansatz geht davon aus, dass alle Loci in Abwesenheit von Verzerrungen gleich sichtbar sind.

Gemeinsame Korrektur: Einige Methoden, wie GDNorm, korrigieren gleichzeitig für Verzerrungen und den Effekt der genomischen Distanz.

Die Normalisierung verbessert die Reproduzierbarkeit von Hi-C-Daten erheblich und steigert die Erkennung signifikanter Interaktionen. Normalisierte Kontaktkarten sind glatter und besser interpretierbar als Rohdaten.

Hi-C analysis pipelines.Abbildung 1. Übersicht über Hi-C-Analyse-Pipelines. (Ferhat Ay et al., 2015)

Processing Hi-C Data.Abbildung 2. Flussdiagramm zur Verarbeitung von Hi-C-Daten. (Bryan R Lajoie et al., 2015)

Identifizierung signifikanter Interaktionen

2.1 Extrahieren von bedeutenden Kontakten

Die Identifizierung signifikanter Chromatin-Interaktionen ist entscheidend für das Verständnis der Genomarchitektur. Verschiedene Ansätze werden verwendet, um funktionale Interaktionen von zufälligen Kontakten zu unterscheiden:

1. Beobachtetes/Erwartetes Verhältnis: Diese Methode gruppiert Loci nach genomischer Distanz und berechnet ein Verhältnis von beobachteten Kontakten zu erwarteten Kontakten innerhalb jeder Gruppe.

2. Parametrische Anpassungen: Diese Methoden gehen von einer spezifischen Verteilung (z. B. Potenzgesetz oder doppelte Exponentialverteilung) aus, um die Abhängigkeit der Kontaktzahlen von der Distanz zu modellieren.

3. Nichtparametrische Anpassungen: Methoden wie Fit-Hi-C verwenden Glättungs-Splines, um die Abhängigkeit von der Distanz zu modellieren, ohne eine spezifische Verteilung anzunehmen.

4. Spitzenidentifikation: HiCCUPS identifiziert signifikante Interaktionen als Spitzen in der Kontaktkarte, die stabile Chromatin-Schleifen anzeigen.

2.2 Testen der dreidimensionalen Kolo-lokalisierung

Hi-C-Daten bieten ein leistungsstarkes Werkzeug zur Untersuchung der 3D-Organisation des Genoms, einschließlich der Frage, ob spezifische Loci-Sets räumlich kolokalisiert sind. Traditionelle Methoden wie der hypergeometrische Test und resampling-basierte Ansätze werden häufig verwendet, um die Signifikanz der Kolokalisation zu bewerten. Diese Methoden vergleichen die beobachtete Häufigkeit von Interaktionen zwischen Loci mit dem, was zufällig zu erwarten wäre, und helfen dabei, bedeutungsvolle räumliche Assoziationen zu identifizieren. Allerdings berücksichtigen sie oft nicht die komplexe genomische Architektur, wie z.B. die Kompartimentstruktur und die Domänenorganisation, die die Interpretation der Kolokalisationsergebnisse erheblich beeinflussen kann.

Um diese Einschränkungen zu beheben, wurden fortschrittlichere Methoden entwickelt. Beispielsweise führen die von Paulsen et al. vorgeschlagenen Ansätze ausgeklügelte statistische Modelle ein, die zusätzliche Faktoren berücksichtigen. Durch die Einbeziehung von Informationen über die gesamte genomische Organisation, einschließlich A/B-Kompartimente und TADs, bieten diese Methoden eine genauere Bewertung der Signifikanz der Kolokalisation. Sie helfen, echte räumliche Interaktionen von solchen zu unterscheiden, die möglicherweise lediglich strukturelle Verzerrungen im Genom widerspiegeln. Dies ermöglicht es Forschern, tiefere Einblicke in die funktionalen und strukturellen Beziehungen zwischen genomischen Loci zu gewinnen, was letztendlich unser Verständnis darüber verbessert, wie das 3D-Genom organisiert und reguliert ist.

Identifizierung von Domänen in Hi-C-Daten

Topologisch assoziierte Domänen (TADs) sind räumlich abgegrenzte Regionen des Genoms, in denen DNA-Interaktionen innerhalb der Domäne häufiger vorkommen als über deren Grenzen hinweg. Diese Strukturen sind entscheidend für die Organisation der Chromatinarchitektur, die Regulierung der Genexpression und die Aufrechterhaltung der genomischen Stabilität. TADs sind über Zelltypen und Arten hinweg konserviert, obwohl ihre Grenzen sich während der Entwicklung oder in Krankheitszuständen dynamisch verändern können.

Es wurden mehrere rechnerische Methoden entwickelt, um TADs aus Hi-C- oder anderen Chromatin-Interaktionsdaten (z. B. Micro-C, HiChIP) zu identifizieren. Diese Methoden unterscheiden sich in ihren zugrunde liegenden Annahmen, der Auflösung und der Empfindlichkeit gegenüber Rauschen. Im Folgenden sind die wichtigsten Ansätze aufgeführt:

1. Richtungsindex Verstecktes Markov-Modell (DI HMM): Diese Methode quantifiziert das Ungleichgewicht zwischen upstream- und downstream-Kontakten, um TAD-Grenzen zu identifizieren.

2. Distanz-Skalierungsfaktor: Dieser Ansatz identifiziert TAD-Grenzen als Spitzen in einem Distanz-Skalierungsfaktor, der die Isolierung misst.

3. Multiskalige und hierarchische Domänen: Methoden wie Armatus und HiCseg identifizieren TADs auf mehreren Auflösungen und leiten ein Konsensset von Domänen ab.

4. Pfeilspitzenalgorithmus: Diese heuristische Methode identifiziert kleine TADs, indem sie die Kontaktkarte in eine Pfeilspitzenmatrix umwandelt und nach charakteristischen Mustern sucht.

Dreidimensionale Modellierung der Chromatinstruktur

4.1 Konsensmethoden

Konsensmethoden sind darauf ausgelegt, die komplexen Informationen aus Hi-C-Daten in eine einzige, repräsentative 3D-Struktur der Chromatin zu destillieren. Dieser Ansatz ist besonders nützlich, um ein klares und interpretierbares Modell bereitzustellen, das die durchschnittliche räumliche Anordnung von Chromatinfasern im Zellkern erfasst. Eine der am häufigsten verwendeten Konsensmethoden ist die multidimensionale Skalierung (MDS). MDS funktioniert, indem sie die Kontaktfrequenzdaten aus Hi-C-Experimenten in räumliche Abstände zwischen genomischen Loci umwandelt. Durch die Minimierung der Differenz zwischen den beobachteten Kontaktzahlen und den berechneten Abständen im 3D-Raum erzeugt MDS ein Modell, das eine gute Annäherung an die gesamte Chromatinstruktur bietet. Allerdings hat MDS seine Einschränkungen. Es geht von einer linearen Beziehung zwischen Kontaktfrequenz und räumlichem Abstand aus, die aufgrund der komplexen und dynamischen Natur der Chromatininteraktionen nicht immer zutreffen muss. Darüber hinaus kann MDS Schwierigkeiten haben, feinere Details und lokale Variationen in der Chromatinstruktur zu erfassen.

Um diese Einschränkungen zu beheben, wurden fortschrittlichere Methoden wie die semidefinite Programmierung (SDP) entwickelt. SDP integriert zusätzliche Einschränkungen und Regularisierungstechniken, um genauere Rekonstruktionen der Chromatinstruktur zu ermöglichen. Durch die Berücksichtigung der physikalischen Eigenschaften von Chromatin und die Berücksichtigung von Rauschen in den Daten kann SDP ein präziseres 3D-Modell erzeugen. Diese erhöhte Genauigkeit hat jedoch einen erheblichen Rechenaufwand zur Folge, was SDP für großangelegte Datensätze weniger praktikabel macht.

4.2 Ensemble-Methoden

Während Konsensmethoden ein einzelnes Modell bereitstellen, verfolgen Ensemblemethoden einen anderen Ansatz, indem sie mehrere 3D-Strukturen erzeugen, um die inhärente zelluläre Heterogenität in Hi-C-Daten zu erfassen. Dies ist besonders wichtig, da die Chromatinorganisation zwischen einzelnen Zellen, selbst innerhalb desselben Zelltyps, erheblich variieren kann. Die Markov-Ketten-Monte-Carlo (MCMC)-Stichprobenahme ist ein probabilistischer Ansatz, der eine Reihe von Strukturen erzeugt, von denen jede eine plausible Konfiguration des Chromatins darstellt. Durch das Sampling aus einer Wahrscheinlichkeitsverteilung, die durch die Hi-C-Daten definiert ist, generiert MCMC ein Ensemble von Strukturen, die gemeinsam die Daten beschreiben. Dieser Ansatz ermöglicht es Forschern, die Unsicherheit in der Chromatinstruktur zu quantifizieren und Regionen mit hoher Variabilität zu identifizieren. Allerdings kann die MCMC-Stichprobenahme rechnerisch intensiv sein, insbesondere bei der Erzeugung einer großen Anzahl von Strukturen.

Fortgeschrittene Ensemble-Methoden wurden entwickelt, um die rechnerische Effizienz und Genauigkeit zu verbessern. Beispielsweise können Methoden, die von Kalhor et al. entwickelt wurden, gleichzeitig Tausende von Strukturen ableiten und bieten somit eine umfassendere und detailliertere Sicht auf die Chromatinorganisation. Diese fortschrittlichen Methoden nutzen paralleles Rechnen und fortgeschrittene Optimierungstechniken, um den weiten Raum möglicher Chromatin-Konfigurationen effizient zu erkunden. Durch die Nachahmung der massenhaften Natur von Hi-C-Experimenten können diese Methoden die dynamische und variable Natur der Chromatinstruktur besser erfassen.

Visualisierung von Hi-C-Daten

Visualisierungstools sind entscheidend für die Interpretation von Hi-C-Daten und die Identifizierung von Mustern. Der WashU Epigenome Browser und der Hi-C Data Browser ermöglichen es den Nutzern, Langstrecken-Kontakte zu visualisieren und diese mit anderen genomischen Daten zu integrieren. Juicebox ist eine Desktop-Anwendung, die interaktive Heatmaps bereitstellt und mehrere Hi-C-Datensätze unterstützt. Tools wie Genome3D und TADkit befinden sich in der Entwicklung zur Visualisierung von 3D-Chromatinstrukturen.

Das folgende Bild zeigt eine Heatmap von Hi-C-Daten, wobei der Farbton die Häufigkeit von Interaktionen zwischen verschiedenen Regionen des Genoms darstellt. Die diagonale Linie im Bild zeigt Selbstinteraktionen an, das heißt, Interaktionen zwischen denselben genomischen Standorten. Die dunklen Bereiche außerhalb der Diagonale repräsentieren Langstreckeninteraktionen, die möglicherweise Chromatin-Schleifen oder TADs entsprechen. Durch diese Art der Visualisierung können Forscher intuitiv räumliche Organisationsmuster innerhalb des Genoms identifizieren, was entscheidend für das Verständnis der Genregulation und der genomischen Funktion ist.

Processing Hi-C Data.Abbildung 3. Visualisierung von Hi-C-Daten. (Bryan R Lajoie et al., 2015)

Fazit

Die Hi-C-Sequenzierung hat unsere Fähigkeit revolutioniert, die dreidimensionale Organisation des Genoms zu untersuchen, und bietet beispiellose Einblicke in seine räumliche Architektur und funktionalen Implikationen. Dennoch bleiben erhebliche Herausforderungen in der computergestützten Analyse von Hi-C-Daten, insbesondere in vergleichenden Studien über mehrere Datensätze, der Integration mit Multi-Omics-Daten und der skalierbaren Verarbeitung von hochauflösenden und Einzelzell-Hi-C-Experimenten. Zukünftige methodische Fortschritte - einschließlich Werkzeuge zur Dekonvolution von Zellunterpopulationen und zur Auflösung haplotyp-spezifischer Strukturen - werden entscheidend sein, um die gesamte Komplexität der Genomorganisation in verschiedenen biologischen Kontexten zu entschlüsseln.

Bioinformatik spielt eine unverzichtbare Rolle bei der Umwandlung von Rohdaten aus Hi-C in bedeutungsvolle biologische Entdeckungen. Durch die Nutzung der in diesem Leitfaden besprochenen analytischen Strategien und computergestützten Werkzeuge können Forscher systematisch die Beziehung zwischen der 3D-Genomstruktur und der Genregulation untersuchen. Mit dem Fortschritt des Feldes wird die Entwicklung von ausgefeilteren, effizienteren und integrativen bioinformatischen Ansätzen entscheidend sein, um die nächste Generation von Entdeckungen in der Genomarchitektur und -funktion zu erschließen.

Referenzen:

  1. Ay, F., & Noble, W. S. (2015). Analysemethoden zur Untersuchung der 3D-Architektur des Genoms. Genombiologie, 16.183 Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Bitte geben Sie den Text, den Sie übersetzen möchten, direkt hier ein.
  2. Lajoie, B. R., Dekker, J., & Kaplan, N. (2015). Der Reiseführer für Hi-C-Analysen: praktische Richtlinien. Methoden (San Diego, Kalifornien), 72, 65–75. Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Bitte geben Sie den Text ein, den Sie übersetzen möchten.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben