Interpretation von Sanger-Sequenzierungsergebnissen: Wie man Sequenzierungsdaten analysiert und anwendet

Sanger-Sequenzierung, als eine ausgereifte und weit verbreitete DNA-Sequenzierung Technologie ist eine wichtige Grundlage für den Erhalt von Geninformationen in der molekularbiologischen Forschung, der klinischen Diagnostik und anderen Bereichen. Sanger-Sequenzierungsergebnisse werden normalerweise in zwei Formen präsentiert: Elektrophoresekarte (d.h. Sequenzierungsspitzenkarte) und entsprechende Basensequenz, wobei die Spitzenkarte direkt die Trennung verschiedener Basen im Sequenzierungsprozess zeigt, während die Basensequenz eine direkte Interpretation der Spitzenkarte ist.

Diese Ergebnispräsentationsform weist die grundlegenden Merkmale einer hohen Einzelbasenauflösung und hohen Genauigkeit auf und kann die Basisinformationen jeder Position in DNA-Fragmenten widerspiegeln. Für viele Forscher und Kliniker ist es jedoch nicht einfach, die Ergebnisse der Sanger-Sequenzierung zu interpretieren. In der Praxis können sie auf Probleme wie chaotische Peaks, abnormale Peakmuster und Schwierigkeiten bei der Basenidentifikation stoßen, insbesondere im Angesicht von Mutationen, Insertionen, Deletionen und anderen Variationen. Die genaue Beurteilung und Analyse dieser Informationen stellt eine große Herausforderung dar. Darüber hinaus erfordert die Kombination der Sequenzierungsergebnisse mit den Forschungszielen und deren angemessene Anwendung auf das experimentelle Design und die Ableitung von Schlussfolgerungen ebenfalls reichlich Erfahrung und Fachwissen.

Dieser Artikel erläutert die Präsentationsformen, Qualitätsbewertungsindikatoren, Datenanalysemethoden und Anwendung der Ergebnisse von Sanger-Sequenzierungen, mit dem Ziel, Forschern zu helfen, solche Ergebnisse genau zu interpretieren und anzuwenden.

Präsentation der Sanger-Sequenzierungsergebnisse

Die Ergebnisse der Sanger-Sequenzierung werden hauptsächlich in zwei Formen präsentiert: Elektrophorese-Peakdiagramm und Basensequenz. Die Peaks verschiedener Farben im Peakdiagramm entsprechen den Basen A, T, C und G, und die Klarheit und Höhe der Peaks spiegeln die Signalqualität wider. Die Basensequenz wird aus dem Peakdiagramm mit dem angehängten Masswert umgewandelt. Sie zeichnet sich durch eine hohe Einzelbasenauflösung aus und kann Sequenzdetails intuitiv anzeigen, hat jedoch auch die Probleme der Begrenzung der Leselänge und der Abschwächung des Signals am Ende.

Interpretation des Elektrophorese-Atlas

Die Elektrophoresekarte der Sanger-Sequenzierung wird durch die Trennung von DNA-Fragmenten unterschiedlicher Längen mittels Kapillarelektrophorese-Technologie erzeugt. In der Karte stellt die horizontale Achse die Basenposition (das heißt, die Sequenzierungslänge) dar, während die vertikale Achse die Fluoreszenzsignalintensität repräsentiert. Während der Elektrophorese werden Dideoxynukleotide (ddNTPs) mit unterschiedlichen fluoreszierenden Markierungen vom Detektor erkannt, während sich die DNA-Fragmenten bewegen. Verschiedene Basen entsprechen unterschiedlichen fluoreszierenden Farben: Adenin (A) ist grün, Cytosin (C) ist blau, Guanin (G) ist schwarz oder gelb, und Thymin (T) ist rot.

Die Bedeutung des Peaks ist der Kern des Lesens des Atlas. Jeder klare und scharfe Peak repräsentiert das Auftreten einer spezifischen Base an dieser Position, und die Höhe des Peaks steht im Zusammenhang mit der Signalintensität der Base. Je höher die Signalintensität, desto steiler ist der Peak-Typ, was darauf hinweist, dass die Sequenzierungsreaktion an dieser Position eine hohe Verlängerungseffizienz und gute Spezifität aufweist. Die kontinuierliche Anordnung des Peak-Musters bildet eine vollständige DNA-Sequenz, und die Farbe sowie die Position des Peaks können von Software identifiziert werden, die direkt in die entsprechende Basensequenz umgewandelt werden kann.

The Sanger sequencing map (Li et al., 2022)Sanger-Sequenzierungs-Karte (Li et al., 2022)

Qualitätsbewertungsindex

Um die Zuverlässigkeit der Sanger-Sequenzierungsergebnisse objektiv zu bewerten, führten die Forscher eine Reihe von Qualitätsbewertungsindikatoren ein, von denen die am häufigsten verwendeten der Phred-Massenteil und die Sequenzierungstiefe sind.

Der Massenteil (Q-Wert) von Phred ist ein wichtiger Index zur Messung der Genauigkeit der Einzelbasenerkennung, und seine Berechnungsformel lautet Q = -10log10 (P), wobei P die Wahrscheinlichkeit eines Basenerkennungsfehlers ist. Zum Beispiel bedeutet Q20, dass die Fehlerwahrscheinlichkeit dieser Base 1 % beträgt, und Q30 bedeutet, dass die Fehlerwahrscheinlichkeit 0,1 % beträgt. In der praktischen Anwendung wird in der Regel gefordert, dass der Anteil der Basen über Q20 mehr als 90 % und der Anteil der Basen über Q30 mehr als 80 % in den Sequenzierungsergebnissen beträgt, um die Genauigkeit der Sequenzierungsdaten sicherzustellen. Durch professionelle Sequierungsanalysetools (wie Sequencher, BioEdit usw.) kann der Phred-Massenteil jeder Base eingesehen werden, was Forschern hilft, die Glaubwürdigkeit der Sequenzierungsergebnisse in verschiedenen Regionen zu beurteilen.

Die Sequenzierungstiefe bezieht sich normalerweise auf die Anzahl der Male, die dasselbe DNA-Fragment bei der Sanger-Sequenzierung sequenziert wird. Im Gegensatz zur Hochdurchsatzsequenzierung ist die Sequenzierungstiefe der Sanger-Sequenzierung im Allgemeinen niedrig (gewöhnlich 1-2 Mal), aber aufgrund ihrer hohen Genauigkeit kann ein einzelnes Sequenzierungsergebnis die meisten experimentellen Anforderungen erfüllen. In einigen Szenarien, die eine hohe Genauigkeit der Ergebnisse erfordern (wie z.B. die Bestätigung von Mutationen in der klinischen Diagnostik), wird dasselbe Template normalerweise in zwei Richtungen (vorwärts und rückwärts) oder mehrfach sequenziert, um die Zuverlässigkeit der Ergebnisse zu erhöhen. Die Ergebnisse der bidirektionalen Sequenzierung können sich gegenseitig verifizieren, mögliche Fehler, die durch die eindirektionale Sequenzierung verursacht werden, reduzieren und sind besonders geeignet zur Erkennung von Variationen in langen DNA-Fragmenten.

Darüber hinaus ist die Leselänge der Sequenzierungsergebnisse ein wichtiges Bewertungsmerkmal. Die durchschnittliche Leselänge der Sanger-Sequenzierung beträgt normalerweise 500-800 Basen, und die Leselänge von hochwertigen Sequenzierungsergebnissen kann über 1000 Basen erreichen. Die Leselänge beeinflusst die Abdeckung langer DNA-Fragmente. Bei der Planung von Sequenzierungsexperimenten ist es notwendig, die Sequenzierungsstrategien entsprechend der Länge der Zielfragmente vernünftig zu gestalten, um sicherzustellen, dass der gesamte Zielbereich abgedeckt werden kann.

Sanger sequencing versus next generation sequencing (NGS) (Botella et al., 2015)Sanger-Sequenzierung vs. Next-Generation-Sequenzierung (NGS) (Botella et al., 2015)

Sanger-Sequenzierungsdatenanalyse-Methode

Sanger-Sequenzierung ist eine hochpräzise Gen-Sequenzierungstechnologie, und ihre Datenanalyse ist der Schlüssel zur Gewinnung von Geninformationen. Dieser Prozess muss auf professionellen Werkzeugen basieren, um die Elektrophorese-Peaks zu analysieren, Basensequenzen zu identifizieren, die Zuverlässigkeit durch die Kombination von Qualitätsbewertungsindikatoren zu beurteilen, Anomalien wie bimodale Verteilungen und Mutationen genau zu erkennen und genetische Variationen durch den Vergleich mit Referenzsequenzen offenzulegen, um eine zentrale Grundlage für wissenschaftliche Forschung und klinische Anwendungen zu bieten.

Einsatz von professionellen Software-Tools

Die Analyse von Sanger-Sequenzierungsergebnissen erfordert die Unterstützung professioneller Softwaretools, die Forschern helfen können, Basensequenzen schnell zu identifizieren, die Sequenzqualität zu bewerten, Referenzsequenzen zu vergleichen und Variationen zu erkennen. Im Folgenden werden mehrere häufig verwendete Softwaretools und ihre Hauptfunktionen vorgestellt.

FinchTV ist eine kostenlose und benutzerfreundliche Software zur Anzeige von Sequenzierungsergebnissen, die verschiedene Sequenzierungsdateiformate unterstützt (wie .ab1, .scf usw.). Zu den Hauptfunktionen gehören die Anzeige des Elektrophoregramms, der Basensequenz und des entsprechenden Phred-Massenanteils. Benutzer können die Änderungen im Peakmuster direkt beobachten, indem sie die Details des Elektrophoregramms vergrößern und falsch automatisch identifizierte Basen manuell korrigieren. Darüber hinaus bietet FinchTV auch eine Funktion zum Sequenzvergleich, mit der die Sequenzierungsergebnisse einfach mit Referenzsequenzen verglichen und vorläufig beurteilt werden können, ob Variationen vorliegen.

Chromas ist eine weitere weit verbreitete Software zur Sequenzanalyse, die leistungsfähiger ist. Neben den grundlegenden Funktionen von FinchTV unterstützt sie auch die Sequenzbearbeitung, die Erzeugung revers komplementärer Sequenzen, die Analyse von Restriktionsstellen und vieles mehr.

  • In der Spitzenmusteranalyse kann Chromas automatisch abnormale Spitzenmuster wie bimodale Spitzen und Heterospitzen identifizieren und Bereiche mit niedriger Qualität markieren, was den Benutzern hilft, die Problemregionen in den Sequenzierungsergebnissen schnell zu finden.
  • Gleichzeitig kann die Software die Sequenzierungsergebnisse auch in verschiedene Formate (wie FASTA, GenBank usw.) exportieren, was die anschließende Datenanalyse und -speicherung erleichtert.

Für Forscher, die großangelegte Sequenzanalysen oder komplexe Mutationsdetektionen durchführen müssen, können fortschrittliche Software wie Sequencher und BioEdit ausgewählt werden. Diese Software unterstützt multiple Sequenzanpassungen, automatische Mutationsdetektion, das Zusammenfügen überlappender Sequenzen und andere Funktionen und ist geeignet für Forschungsszenarien wie die Verifizierung von Genklonierungen und Mutationsscreening.

SeqTrace's user interface comprises the project window (A) and the trace-view window (B) (Stucky et al., 2012)Die Benutzeroberfläche von SeqTrace, einschließlich des Projektfensters (A) und des Trace-Ansichtsfensters (B) (Stucky et al., 2012)

Identifikation und Behandlung häufiger Probleme

In den Ergebnissen der Sanger-Sequenzierung gibt es oft einige abnormale Peaks, wie z. B. Doppelpeaks, Löschungspeaks, Rauschpeaks usw. Diese Probleme beeinträchtigen die genaue Identifizierung von Basensequenzen und müssen korrekt identifiziert und verarbeitet werden.

Bimodal bezieht sich auf zwei hochgradig ähnliche Spitzen an derselben Basisposition, die normalerweise durch Template-Verschmutzung, Heterozygot-Proben oder unspezifische Amplifikation während der Sequenzierung verursacht werden.

  • Bei den Doppelspitzen, die durch Template-Kontamination verursacht werden, bleibt das Spitzenmuster normalerweise während des gesamten Sequenzierungsprozesses bestehen, und die Signalintensitäten der beiden Spitzen sind relativ stabil. In diesem Fall ist es notwendig, die Proben für die Sequenzierung erneut vorzubereiten.
  • Bei heterozygoten Proben (wie heterozygoten Mutationen im menschlichen Genom) erscheinen bimodale Peaks normalerweise an einer bestimmten Position, und der Peaktyp kehrt nach dieser Position zur Normalität zurück, was ein normales biologisches Phänomen ist. Es ist notwendig, die heterozygote Baseninformation an dieser Position zu dokumentieren.
  • Der fehlende Peak zeigt, dass an einer bestimmten Stelle kein offensichtliches Peaksignal vorhanden ist, was durch die Unterbrechung der Sequenzierungsreaktion, das Fehlen großer Fragmente im Template oder die Abnormalität der Primer-Bindungsstelle verursacht werden kann. Wenn der fehlende Peak im Anfangsbereich der Sequenzierung auftritt, kann dies auf eine schlechte Primerbindung zurückzuführen sein, sodass wir versuchen können, die Primer zu wechseln und die Sequenzierung erneut durchzuführen.
  • Rauschspitze (auch bekannt als Hintergrundspitze) bezieht sich auf die niedrigintensive Störspitze zwischen normalen Spitzen, die normalerweise durch unspezifische Erweiterung, Fluoreszenzinterferenz oder Instrumentenerkennungsfehler in der Sequenzierungsreaktion verursacht wird. Eine leichte Rauschspitze beeinträchtigt in der Regel nicht die Basiserkennung, aber wenn die Intensität der Rauschspitze hoch ist, kann dies zu einer Fehlinterpretation der Basen führen. Methoden zur Behandlung von Rauschspitzen umfassen die Optimierung der Sequenzierungsreaktionsbedingungen (wie Erhöhung der Annealing-Temperatur und Reduzierung der Primerdosierung), die Verwendung von hochwertigen Sequenzierungsreagenzien oder die manuelle Korrektur von niedrigqualitativen Basenbereichen durch Software.

The primary problems encountered when reading DNA chromatograms of PCR products using the Sanger sequencing method (Al-Shuhaib et al., 2023)A-N Die Hauptprobleme, die beim Lesen von DNA-Chromatogrammen von PCR-Produkten basierend auf der Sanger-Sequenzierungsmethode auftreten (Al-Shuhaib et al., 2023)

Vergleich mit der Referenzsequenz

Der Vergleich der Sequenzierungsergebnisse mit der Referenzsequenz ist der entscheidende Schritt zur Analyse der Sequenzierungsdaten. Mutationsarten wie Mutation, Insertion und Deletion können durch den Vergleich erkannt werden, was eine Grundlage für nachfolgende Forschungen bietet.

Zunächst ist es notwendig, die Referenzsequenz des Zielgens oder -fragments zu erhalten, die aus öffentlichen Datenbanken wie GenBank heruntergeladen werden kann. Anschließend wird Software zur Sequenzvergleich (wie BLAST, ClustalW, MegAlign usw.) verwendet, um die sequenzierte Sequenz mit der Referenzsequenz zu vergleichen. Die Ausrichtungsresultate werden normalerweise in Form einer Sequenzausrichtung angezeigt, bei der die gleichen Basen durch dieselben Zeichen dargestellt werden, unterschiedliche Basen durch verschiedene Zeichen markiert sind und eingefügte oder fehlende Basen durch horizontale Linien oder andere Symbole dargestellt werden.

Bei der Mutationsdetektion ist die Punktmutation der häufigste Mutationstyp, der zeigt, dass eine Base in der Sequenzierungssequenz von der Referenzsequenz abweicht. Zum Beispiel ist die Base in der Referenzsequenz "A" und die entsprechende Position in der Sequenzierungssequenz ist "G", was darauf hinweist, dass an dieser Stelle eine Punktmutation mit G>A vorliegt. Durch die Betrachtung des Peaktyps und des Phred-Massenanteils dieser Position können wir die Zuverlässigkeit der Mutation bestätigen und falsch-positive Ergebnisse, die durch Sequenzierungsfehler verursacht werden, vermeiden.

A comparison of the distinct processes between the Sanger method and NGS in detecting various pathogens (Nafea et al., 2023)Vergleich der verschiedenen Prozesse der Sanger-Methode und NGS bei der Erkennung verschiedener Pathogene (Nafea et al., 2023)

Ergebnisanwendung der Sanger-Sequenzierung

Die Sanger-Sequenzierung ist zum Grundpfeiler der molekularbiologischen Forschung geworden, da sie eine hohe Genauigkeit bietet, und ihre Ergebnisse haben in vielen Bereichen unersetzliche Anwendungen. Von der Überprüfung des Genklonens zur Sicherstellung der korrekten Einfügung von Fragmenten über die Diagnose und Behandlung von Krankheiten durch Mutationsnachweis bis hin zur Untersuchung der Genfunktion zur Aufdeckung der Wirkungsmechanismen von Genen ist die genaue Interpretation der Sequenzierungsergebnisse der Schlüssel zur Förderung von wissenschaftlicher Forschung und klinischem Fortschritt.

Genklonierungsverifizierung

In der Forschung zur Gentechnik ist es notwendig, die Richtigkeit des eingefügten Fragments durch Sanger-Sequenzierung nach dem Bau des rekombinanten Plasmids zu überprüfen. Das Forschungsteam fügte ein Zielgen in den pET-28a-Vektor ein, um ein rekombinantes Expressionsplasmid zu konstruieren. Nach der Sequenzierung des rekombinanten Plasmids wurden die Sequenzierungsergebnisse mit der Referenzsequenz und der Vektorsequenz des Zielgens verglichen. Es wurde festgestellt, dass die Sequenz des eingefügten Fragments vollständig mit dem Zielgen übereinstimmte und die Einfügerichtung korrekt war, ohne Basismutationen oder -löschungen, was darauf hinwies, dass das rekombinante Plasmid erfolgreich konstruiert wurde und für nachfolgende Proteinexpressionsexperimente verwendet werden kann.

Sequence chromatogram (A) and sequence quality evaluation (B) derived from clinical Staphylococcus aureus strain 1 (Chen et al., 2014)Sequenz-Chromatogramm (A) und Sequenzqualitätsbewertung (B) des klinischen Staphylococcus aureus Stammes 1 (Chen et al., 2014)

Mutationsdetektion

In der klinischen Diagnostik wird die Sanger-Sequenzierung häufig verwendet, um Genmutationen im Zusammenhang mit Krankheiten nachzuweisen. Bei der Erkennung von EGFR-Genmutationen in Tumorgewebeproben von verdächtigen Lungenkrebspatienten wurde in den Patientenproben durch Sequenzierung der Hot-Mutationsregionen des EGFR-Gens die Deletionsmutation von Exon 19 gefunden. In Kombination mit den klinischen Symptomen und anderen Untersuchungsergebnissen des Patienten kann festgestellt werden, dass der Patient für eine Behandlung mit EGFR-Tyrosinkinase-Inhibitoren geeignet ist.

Studie zur Genfunktion

In der Untersuchung der Genfunktion kann die Sanger-Sequenzierung verwendet werden, um die Auswirkungen von Gen-Knockout- oder Knock-in-Experimenten zu überprüfen. Die Forscher verwendeten die CRISPR-Cas9-Technologie, um ein Gen in Mäusen auszuschalten, amplifizierten die Zielgenregion durch PCR und sequenzierten sie. Wenn die Sequenzierungsergebnisse zeigen, dass eine erwartete Deletion oder Insertion in der Zielgenregion vorliegt und die Mutation dazu führt, dass sich der Leserahmen des Gens verschiebt, deutet dies darauf hin, dass der Gen-Knockout erfolgreich ist. Anschließend kann die biologische Funktion des Gens untersucht werden, indem die phänotypischen Veränderungen der Knockout-Mäuse beobachtet werden.

Amplification curves (A) and melting curves (B) belonging to partial experimental strains (Chen et al., 2014)Amplifikationskurven (A) und Schmelzkurven (B) von teilweisen experimentellen Stämmen (Chen et al., 2014)

Fazit

Die korrekte Interpretation und Analyse der Sanger-Sequenzierungsergebnisse sind der Schlüssel, um die Vorteile dieser Technologie voll auszuschöpfen, was nicht nur die Zuverlässigkeit der experimentellen Ergebnisse betrifft, sondern auch die Formulierung nachfolgender Forschungsrichtungen und die Genauigkeit wissenschaftlicher Forschungsergebnisse beeinflusst. Durch das Beherrschen der Präsentationsform, der Qualitätsbewertungsindizes und der Datenanalysemethoden von Sequenzierungsergebnissen können Forscher Basensequenzen genau identifizieren und Genvariationen nachweisen sowie Sequenzierungsdaten effektiv in der Genklonierungsüberprüfung, Mutationsdetektion, Genfunktionsforschung und anderen Bereichen anwenden.

Referenzen:

  1. Botella LM, Albiñana V, Ojeda-Fernandez L, Recio-Poveda L, Bernabéu C. "Forschung zu potenziellen Biomarkern bei der hereditären hämorrhagischen Teleangiektasie." Front Genet. 2015 6: 115 Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Bitte geben Sie den Text ein, den Sie übersetzen möchten.
  2. Li, Z., Lou, J., Li, W. et al. "Eine neu entdeckte c.180 + 1G > A-Variante verursacht eine Abnahme der FGA-Transkription bei Patienten mit kongenitaler Hypo-Dysfibrinogenämie." J Hematopathol2022 15 259–263 Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Bitte geben Sie den Text ein, den Sie übersetzt haben möchten.
  3. Stucky BJ. "SeqTrace: ein grafisches Werkzeug zur schnellen Verarbeitung von DNA-Sequenzierungs-Chromatogrammen." J Biomol Tech2012 23(3): 90-93 Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Bitte geben Sie den Text ein, den Sie übersetzt haben möchten.
  4. Dunitz MI, Lang JM., et al. "Abstriche zu Genomen: ein umfassender Arbeitsablauf." PeerJ. 2015 3: e960 Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Bitte geben Sie den Text ein, den Sie übersetzt haben möchten.
  5. Nafea AM, Wang Y, Wang D, et al. "Anwendung von Next-Generation-Sequencing zur Identifizierung verschiedener Erreger." Front Microbiol. 2024 14: 1329330 Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Bitte geben Sie den Text ein, den Sie übersetzt haben möchten.
  6. Al-Shuhaib MBS, Hashim HO. "Meisterung der DNA-Chromatogrammanalyse in der Sanger-Sequenzierung für zuverlässige klinische Analysen." J Genet Eng Biotechnol2023 21(1): 115 Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Bitte geben Sie den Text, den Sie übersetzt haben möchten, direkt hier ein.
  7. Chen L, Cai Y, Zhou G, et al. "Schnelle Sanger-Sequenzierung des 16S rRNA-Gens zur Identifizierung einiger häufiger Krankheitserreger." PLoS One2014 9(2): e88886 Es tut mir leid, aber ich kann keine Inhalte von externen Links oder spezifischen Dokumenten übersetzen. Wenn Sie den Text, den Sie übersetzen möchten, hier eingeben, helfe ich Ihnen gerne weiter.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben