Sanger-Sequenzierung, als eine ausgereifte und weit verbreitete DNA-Sequenzierung Technologie ist eine wichtige Grundlage für den Erhalt von Geninformationen in der molekularbiologischen Forschung, der klinischen Diagnostik und anderen Bereichen. Sanger-Sequenzierungsergebnisse werden normalerweise in zwei Formen präsentiert: Elektrophoresekarte (d.h. Sequenzierungsspitzenkarte) und entsprechende Basensequenz, wobei die Spitzenkarte direkt die Trennung verschiedener Basen im Sequenzierungsprozess zeigt, während die Basensequenz eine direkte Interpretation der Spitzenkarte ist.
Diese Ergebnispräsentationsform weist die grundlegenden Merkmale einer hohen Einzelbasenauflösung und hohen Genauigkeit auf und kann die Basisinformationen jeder Position in DNA-Fragmenten widerspiegeln. Für viele Forscher und Kliniker ist es jedoch nicht einfach, die Ergebnisse der Sanger-Sequenzierung zu interpretieren. In der Praxis können sie auf Probleme wie chaotische Peaks, abnormale Peakmuster und Schwierigkeiten bei der Basenidentifikation stoßen, insbesondere im Angesicht von Mutationen, Insertionen, Deletionen und anderen Variationen. Die genaue Beurteilung und Analyse dieser Informationen stellt eine große Herausforderung dar. Darüber hinaus erfordert die Kombination der Sequenzierungsergebnisse mit den Forschungszielen und deren angemessene Anwendung auf das experimentelle Design und die Ableitung von Schlussfolgerungen ebenfalls reichlich Erfahrung und Fachwissen.
Dieser Artikel erläutert die Präsentationsformen, Qualitätsbewertungsindikatoren, Datenanalysemethoden und Anwendung der Ergebnisse von Sanger-Sequenzierungen, mit dem Ziel, Forschern zu helfen, solche Ergebnisse genau zu interpretieren und anzuwenden.
Die Ergebnisse der Sanger-Sequenzierung werden hauptsächlich in zwei Formen präsentiert: Elektrophorese-Peakdiagramm und Basensequenz. Die Peaks verschiedener Farben im Peakdiagramm entsprechen den Basen A, T, C und G, und die Klarheit und Höhe der Peaks spiegeln die Signalqualität wider. Die Basensequenz wird aus dem Peakdiagramm mit dem angehängten Masswert umgewandelt. Sie zeichnet sich durch eine hohe Einzelbasenauflösung aus und kann Sequenzdetails intuitiv anzeigen, hat jedoch auch die Probleme der Begrenzung der Leselänge und der Abschwächung des Signals am Ende.
Die Elektrophoresekarte der Sanger-Sequenzierung wird durch die Trennung von DNA-Fragmenten unterschiedlicher Längen mittels Kapillarelektrophorese-Technologie erzeugt. In der Karte stellt die horizontale Achse die Basenposition (das heißt, die Sequenzierungslänge) dar, während die vertikale Achse die Fluoreszenzsignalintensität repräsentiert. Während der Elektrophorese werden Dideoxynukleotide (ddNTPs) mit unterschiedlichen fluoreszierenden Markierungen vom Detektor erkannt, während sich die DNA-Fragmenten bewegen. Verschiedene Basen entsprechen unterschiedlichen fluoreszierenden Farben: Adenin (A) ist grün, Cytosin (C) ist blau, Guanin (G) ist schwarz oder gelb, und Thymin (T) ist rot.
Die Bedeutung des Peaks ist der Kern des Lesens des Atlas. Jeder klare und scharfe Peak repräsentiert das Auftreten einer spezifischen Base an dieser Position, und die Höhe des Peaks steht im Zusammenhang mit der Signalintensität der Base. Je höher die Signalintensität, desto steiler ist der Peak-Typ, was darauf hinweist, dass die Sequenzierungsreaktion an dieser Position eine hohe Verlängerungseffizienz und gute Spezifität aufweist. Die kontinuierliche Anordnung des Peak-Musters bildet eine vollständige DNA-Sequenz, und die Farbe sowie die Position des Peaks können von Software identifiziert werden, die direkt in die entsprechende Basensequenz umgewandelt werden kann.
Sanger-Sequenzierungs-Karte (Li et al., 2022)
Um die Zuverlässigkeit der Sanger-Sequenzierungsergebnisse objektiv zu bewerten, führten die Forscher eine Reihe von Qualitätsbewertungsindikatoren ein, von denen die am häufigsten verwendeten der Phred-Massenteil und die Sequenzierungstiefe sind.
Der Massenteil (Q-Wert) von Phred ist ein wichtiger Index zur Messung der Genauigkeit der Einzelbasenerkennung, und seine Berechnungsformel lautet Q = -10log10 (P), wobei P die Wahrscheinlichkeit eines Basenerkennungsfehlers ist. Zum Beispiel bedeutet Q20, dass die Fehlerwahrscheinlichkeit dieser Base 1 % beträgt, und Q30 bedeutet, dass die Fehlerwahrscheinlichkeit 0,1 % beträgt. In der praktischen Anwendung wird in der Regel gefordert, dass der Anteil der Basen über Q20 mehr als 90 % und der Anteil der Basen über Q30 mehr als 80 % in den Sequenzierungsergebnissen beträgt, um die Genauigkeit der Sequenzierungsdaten sicherzustellen. Durch professionelle Sequierungsanalysetools (wie Sequencher, BioEdit usw.) kann der Phred-Massenteil jeder Base eingesehen werden, was Forschern hilft, die Glaubwürdigkeit der Sequenzierungsergebnisse in verschiedenen Regionen zu beurteilen.
Die Sequenzierungstiefe bezieht sich normalerweise auf die Anzahl der Male, die dasselbe DNA-Fragment bei der Sanger-Sequenzierung sequenziert wird. Im Gegensatz zur Hochdurchsatzsequenzierung ist die Sequenzierungstiefe der Sanger-Sequenzierung im Allgemeinen niedrig (gewöhnlich 1-2 Mal), aber aufgrund ihrer hohen Genauigkeit kann ein einzelnes Sequenzierungsergebnis die meisten experimentellen Anforderungen erfüllen. In einigen Szenarien, die eine hohe Genauigkeit der Ergebnisse erfordern (wie z.B. die Bestätigung von Mutationen in der klinischen Diagnostik), wird dasselbe Template normalerweise in zwei Richtungen (vorwärts und rückwärts) oder mehrfach sequenziert, um die Zuverlässigkeit der Ergebnisse zu erhöhen. Die Ergebnisse der bidirektionalen Sequenzierung können sich gegenseitig verifizieren, mögliche Fehler, die durch die eindirektionale Sequenzierung verursacht werden, reduzieren und sind besonders geeignet zur Erkennung von Variationen in langen DNA-Fragmenten.
Darüber hinaus ist die Leselänge der Sequenzierungsergebnisse ein wichtiges Bewertungsmerkmal. Die durchschnittliche Leselänge der Sanger-Sequenzierung beträgt normalerweise 500-800 Basen, und die Leselänge von hochwertigen Sequenzierungsergebnissen kann über 1000 Basen erreichen. Die Leselänge beeinflusst die Abdeckung langer DNA-Fragmente. Bei der Planung von Sequenzierungsexperimenten ist es notwendig, die Sequenzierungsstrategien entsprechend der Länge der Zielfragmente vernünftig zu gestalten, um sicherzustellen, dass der gesamte Zielbereich abgedeckt werden kann.
Sanger-Sequenzierung vs. Next-Generation-Sequenzierung (NGS) (Botella et al., 2015)
Sanger-Sequenzierung ist eine hochpräzise Gen-Sequenzierungstechnologie, und ihre Datenanalyse ist der Schlüssel zur Gewinnung von Geninformationen. Dieser Prozess muss auf professionellen Werkzeugen basieren, um die Elektrophorese-Peaks zu analysieren, Basensequenzen zu identifizieren, die Zuverlässigkeit durch die Kombination von Qualitätsbewertungsindikatoren zu beurteilen, Anomalien wie bimodale Verteilungen und Mutationen genau zu erkennen und genetische Variationen durch den Vergleich mit Referenzsequenzen offenzulegen, um eine zentrale Grundlage für wissenschaftliche Forschung und klinische Anwendungen zu bieten.
Die Analyse von Sanger-Sequenzierungsergebnissen erfordert die Unterstützung professioneller Softwaretools, die Forschern helfen können, Basensequenzen schnell zu identifizieren, die Sequenzqualität zu bewerten, Referenzsequenzen zu vergleichen und Variationen zu erkennen. Im Folgenden werden mehrere häufig verwendete Softwaretools und ihre Hauptfunktionen vorgestellt.
FinchTV ist eine kostenlose und benutzerfreundliche Software zur Anzeige von Sequenzierungsergebnissen, die verschiedene Sequenzierungsdateiformate unterstützt (wie .ab1, .scf usw.). Zu den Hauptfunktionen gehören die Anzeige des Elektrophoregramms, der Basensequenz und des entsprechenden Phred-Massenanteils. Benutzer können die Änderungen im Peakmuster direkt beobachten, indem sie die Details des Elektrophoregramms vergrößern und falsch automatisch identifizierte Basen manuell korrigieren. Darüber hinaus bietet FinchTV auch eine Funktion zum Sequenzvergleich, mit der die Sequenzierungsergebnisse einfach mit Referenzsequenzen verglichen und vorläufig beurteilt werden können, ob Variationen vorliegen.
Chromas ist eine weitere weit verbreitete Software zur Sequenzanalyse, die leistungsfähiger ist. Neben den grundlegenden Funktionen von FinchTV unterstützt sie auch die Sequenzbearbeitung, die Erzeugung revers komplementärer Sequenzen, die Analyse von Restriktionsstellen und vieles mehr.
Für Forscher, die großangelegte Sequenzanalysen oder komplexe Mutationsdetektionen durchführen müssen, können fortschrittliche Software wie Sequencher und BioEdit ausgewählt werden. Diese Software unterstützt multiple Sequenzanpassungen, automatische Mutationsdetektion, das Zusammenfügen überlappender Sequenzen und andere Funktionen und ist geeignet für Forschungsszenarien wie die Verifizierung von Genklonierungen und Mutationsscreening.
Die Benutzeroberfläche von SeqTrace, einschließlich des Projektfensters (A) und des Trace-Ansichtsfensters (B) (Stucky et al., 2012)
Dienste, an denen Sie interessiert sein könnten
Mehr erfahren
In den Ergebnissen der Sanger-Sequenzierung gibt es oft einige abnormale Peaks, wie z. B. Doppelpeaks, Löschungspeaks, Rauschpeaks usw. Diese Probleme beeinträchtigen die genaue Identifizierung von Basensequenzen und müssen korrekt identifiziert und verarbeitet werden.
Bimodal bezieht sich auf zwei hochgradig ähnliche Spitzen an derselben Basisposition, die normalerweise durch Template-Verschmutzung, Heterozygot-Proben oder unspezifische Amplifikation während der Sequenzierung verursacht werden.
A-N Die Hauptprobleme, die beim Lesen von DNA-Chromatogrammen von PCR-Produkten basierend auf der Sanger-Sequenzierungsmethode auftreten (Al-Shuhaib et al., 2023)
Der Vergleich der Sequenzierungsergebnisse mit der Referenzsequenz ist der entscheidende Schritt zur Analyse der Sequenzierungsdaten. Mutationsarten wie Mutation, Insertion und Deletion können durch den Vergleich erkannt werden, was eine Grundlage für nachfolgende Forschungen bietet.
Zunächst ist es notwendig, die Referenzsequenz des Zielgens oder -fragments zu erhalten, die aus öffentlichen Datenbanken wie GenBank heruntergeladen werden kann. Anschließend wird Software zur Sequenzvergleich (wie BLAST, ClustalW, MegAlign usw.) verwendet, um die sequenzierte Sequenz mit der Referenzsequenz zu vergleichen. Die Ausrichtungsresultate werden normalerweise in Form einer Sequenzausrichtung angezeigt, bei der die gleichen Basen durch dieselben Zeichen dargestellt werden, unterschiedliche Basen durch verschiedene Zeichen markiert sind und eingefügte oder fehlende Basen durch horizontale Linien oder andere Symbole dargestellt werden.
Bei der Mutationsdetektion ist die Punktmutation der häufigste Mutationstyp, der zeigt, dass eine Base in der Sequenzierungssequenz von der Referenzsequenz abweicht. Zum Beispiel ist die Base in der Referenzsequenz "A" und die entsprechende Position in der Sequenzierungssequenz ist "G", was darauf hinweist, dass an dieser Stelle eine Punktmutation mit G>A vorliegt. Durch die Betrachtung des Peaktyps und des Phred-Massenanteils dieser Position können wir die Zuverlässigkeit der Mutation bestätigen und falsch-positive Ergebnisse, die durch Sequenzierungsfehler verursacht werden, vermeiden.
Vergleich der verschiedenen Prozesse der Sanger-Methode und NGS bei der Erkennung verschiedener Pathogene (Nafea et al., 2023)
Die Sanger-Sequenzierung ist zum Grundpfeiler der molekularbiologischen Forschung geworden, da sie eine hohe Genauigkeit bietet, und ihre Ergebnisse haben in vielen Bereichen unersetzliche Anwendungen. Von der Überprüfung des Genklonens zur Sicherstellung der korrekten Einfügung von Fragmenten über die Diagnose und Behandlung von Krankheiten durch Mutationsnachweis bis hin zur Untersuchung der Genfunktion zur Aufdeckung der Wirkungsmechanismen von Genen ist die genaue Interpretation der Sequenzierungsergebnisse der Schlüssel zur Förderung von wissenschaftlicher Forschung und klinischem Fortschritt.
In der Forschung zur Gentechnik ist es notwendig, die Richtigkeit des eingefügten Fragments durch Sanger-Sequenzierung nach dem Bau des rekombinanten Plasmids zu überprüfen. Das Forschungsteam fügte ein Zielgen in den pET-28a-Vektor ein, um ein rekombinantes Expressionsplasmid zu konstruieren. Nach der Sequenzierung des rekombinanten Plasmids wurden die Sequenzierungsergebnisse mit der Referenzsequenz und der Vektorsequenz des Zielgens verglichen. Es wurde festgestellt, dass die Sequenz des eingefügten Fragments vollständig mit dem Zielgen übereinstimmte und die Einfügerichtung korrekt war, ohne Basismutationen oder -löschungen, was darauf hinwies, dass das rekombinante Plasmid erfolgreich konstruiert wurde und für nachfolgende Proteinexpressionsexperimente verwendet werden kann.
Sequenz-Chromatogramm (A) und Sequenzqualitätsbewertung (B) des klinischen Staphylococcus aureus Stammes 1 (Chen et al., 2014)
In der klinischen Diagnostik wird die Sanger-Sequenzierung häufig verwendet, um Genmutationen im Zusammenhang mit Krankheiten nachzuweisen. Bei der Erkennung von EGFR-Genmutationen in Tumorgewebeproben von verdächtigen Lungenkrebspatienten wurde in den Patientenproben durch Sequenzierung der Hot-Mutationsregionen des EGFR-Gens die Deletionsmutation von Exon 19 gefunden. In Kombination mit den klinischen Symptomen und anderen Untersuchungsergebnissen des Patienten kann festgestellt werden, dass der Patient für eine Behandlung mit EGFR-Tyrosinkinase-Inhibitoren geeignet ist.
In der Untersuchung der Genfunktion kann die Sanger-Sequenzierung verwendet werden, um die Auswirkungen von Gen-Knockout- oder Knock-in-Experimenten zu überprüfen. Die Forscher verwendeten die CRISPR-Cas9-Technologie, um ein Gen in Mäusen auszuschalten, amplifizierten die Zielgenregion durch PCR und sequenzierten sie. Wenn die Sequenzierungsergebnisse zeigen, dass eine erwartete Deletion oder Insertion in der Zielgenregion vorliegt und die Mutation dazu führt, dass sich der Leserahmen des Gens verschiebt, deutet dies darauf hin, dass der Gen-Knockout erfolgreich ist. Anschließend kann die biologische Funktion des Gens untersucht werden, indem die phänotypischen Veränderungen der Knockout-Mäuse beobachtet werden.
Amplifikationskurven (A) und Schmelzkurven (B) von teilweisen experimentellen Stämmen (Chen et al., 2014)
Die korrekte Interpretation und Analyse der Sanger-Sequenzierungsergebnisse sind der Schlüssel, um die Vorteile dieser Technologie voll auszuschöpfen, was nicht nur die Zuverlässigkeit der experimentellen Ergebnisse betrifft, sondern auch die Formulierung nachfolgender Forschungsrichtungen und die Genauigkeit wissenschaftlicher Forschungsergebnisse beeinflusst. Durch das Beherrschen der Präsentationsform, der Qualitätsbewertungsindizes und der Datenanalysemethoden von Sequenzierungsergebnissen können Forscher Basensequenzen genau identifizieren und Genvariationen nachweisen sowie Sequenzierungsdaten effektiv in der Genklonierungsüberprüfung, Mutationsdetektion, Genfunktionsforschung und anderen Bereichen anwenden.
Referenzen: