PacBio-Sequenzierung betrifft das Konzept der parallelen Synthese und Sequenzierung. Dies beinhaltet die Immobilisierung freier dNTP auf dem Substrat, das Auslösen einer Lichtanregung zur Erzeugung eines fluoreszierenden Signals. Aufgrund der begrenzten Räume in den Sequenzierungsbrunnen hat das fluoreszierende Signal eine begrenzte Reiseentfernung. Am Ende jeder Basensynthese trennt sich die fluoreszierende Phosphatgruppe von dem dNTP, was zu einer Signalabschaltung führt. Dies führt zur Erzeugung eines fluoreszierenden Signals, das während jeder Basensynthese von schwach zu stark und wieder zurück schwankt. Die Echtzeitaufzeichnung dieser Signale durch einen Sensor ermöglicht deren Umwandlung in ein digitales Format, wodurch eine Zeit-Fluoreszenzsignalstärke-Puls-Kurve erstellt wird für präzise Basisidentifikation.
Die Unterscheidung von 5mC und non-5mC stellt im Vergleich zu die Erkennung von 6mA. Die subtile Auswirkung von 5mC auf die kinetischen Eigenschaften der DNA-Polymerase macht es schwierig, signifikante Unterschiede in den Puls-Kurven zu beobachten. Um dieses Hindernis zu überwinden, ist die Identifizierung charakteristischer Variablen erforderlich, die in der Lage sind, 5mC zu unterscheiden. Das bestehende Wissen hebt hervor Die Fähigkeit von PacBio Um Basistypen zu erkennen und variable Echtzeit-Fluoreszenzimpuls-Kurven zu generieren, hat das Forschungsteam systematisch verschiedene Variablen berücksichtigt, um die PacBio-Cytosinbasen und ihre Umgebungen zu charakterisieren. Zu diesen Variablen gehören die Kontextbasis des C, das Intervall zwischen benachbarten Kurvenpeaks (IPD) und der Unterschied zwischen den Anfangs- und Schlusspeaks (PW).
1. Kontextbezogene Basisinformationen:
Präzision bei der BasiserkennungDie genaue Identifizierung von Basistypen durch PacBio ermöglicht die Bestimmung der kontextuellen Base für jedes C.
2. Variablen der Fluoreszenz-Puls-Kurve:
Intervall für Zeitdifferenz (IPD): Die IPD beschreibt die Zeitdifferenz zwischen benachbarten Kurvenpeaks und charakterisiert die zeitliche Variation zwischen Basen innerhalb des synthetisierten DNA-Strangs.
Spitzenunterschied: Die Charakterisierung des Zeitunterschieds zwischen dem Eintritt und dem Austritt einer Base in den synthetisierten DNA-Strang liefert durch den Unterschied zwischen den Spitzen einer Kurve wertvolle Einblicke.
Durch die Nutzung dieser entscheidenden Variablen wollte das Forschungsteam zusätzliche Erkenntnisse über die Eigenschaften von Cytosinbasen und deren unmittelbare Umgebung im PacBio-Sequenzierungsprozess gewinnen. Diese Untersuchung zielt darauf ab, einen robusten Test zu entwickeln für die Detektion von 5mC.
Um robuste Trainingsdatensätze zu erstellen, erstellen die Autoren einen Whole Genome Amplification (WGA) Sequenzierungsdatensatz als negativen Testdatensatz, der die Amplifikation von unmethylierter dNTP nutzt. Für den positiven Testdatensatz wird ein Sequenzierungsdatensatz mit CpG-Methylierung verwendet, der mit dem M.SssI-Enzym behandelt wurde. Der negative Testdatensatz ist durch überwiegend unmethylierte Stellen gekennzeichnet, wobei potenzielle Methylierungssignale ausschließlich von den methylisierten Stellen des Hintergrundgenoms ausgehen.
Das M.SssI-Enzym, das aus einem E. coli Stamm, wird zu einem entscheidenden Element. Dieses Enzym, das ein Methyltransferase-Gen von Sprioplasma sp. MQ1 induziert Methylierung an allen. CpG-Stellen in doppelsträngiger DNA.
Positive Trainingsproben werden aus dem positiv behandelten M.SssI-Enzym-Datensatz extrahiert, während zusätzliche Trainingsproben aus dem negativen Testdatensatz mit moderaten CpG-Stellenmengen ausgewählt werden. Diese werden kombiniert, um das Hidden Markov Model (HMM) zu trainieren. Die verbleibenden Proben werden für die Evaluierung des Modells reserviert.
PacBio's Sequel II Sequenzierung Kits werden eingesetzt, um Sequenzierungsdaten für das Training von Modellen zu generieren.
Das HK-Modell zeigt seine Fähigkeit, effektiv zwischen methylierten und unmethylierten Cytosinen in verschiedenen Testdaten, die mit unterschiedlichen Sequenzierungskits erzeugt wurden, zu unterscheiden. Eine AUC-Kurvenanalyse identifiziert einen kritischen Grenzwert von 0,5 für diese Unterscheidung.
Ein zusätzliches verstecktes Markov-Modell (HMM) wird eingeführt, um Bewerten Sie die Leistung des 5mC-Assays.insbesondere für eine BC01-Probe mit hoher Sequenzierungstiefe. Bemerkenswert ist, dass die Methylierungsnachweisleistung des HMM für die BC01-Probe (83 % Sensitivität + 84 % Spezifität) niedriger ist als die des CNN-basierten HK-Modells (87 % Sensitivität + 92 % Spezifität).
Die Studie untersucht den Einfluss unterschiedlicher Fenstergrößen, kontextueller Sequenzlängen und Sequenzierungstiefen auf die Methylierungsdetektion durch das HK-Modell.
Referenzen: