Das Genom jedes einzelnen Organismus enthält seine gesamte genetische Information. Whole-Genome-Sequenzierung Die Technologie kann ganze Genome umfassend und genau analysieren, wodurch die darin enthaltenen Informationen entschlüsselt und die Komplexität sowie Vielfalt des Genoms offenbart werden. Das Aufkommen der Technologie zur gesamten Genomsequenzierung ist ein revolutionärer Fortschritt in allen Bereichen der Lebenswissenschaften. Die gesamte Genomsequenzierung kann Varianten erkennen, einschließlich einzelner Nukleotidvarianten, Insertionen/Löschungen, Änderungen der Kopienzahl und großflächiger struktureller Varianten. Whole-Genome-Sequenzierung kann in zwei Kategorien unterteilt werden, basierend auf der Verfügbarkeit eines Referenzgenoms: de-novo-Sequenzierung und Resequenzierung. Das Vorhandensein eines Referenzgenoms erleichtert und beschleunigt den Prozess der Genomassemblierung.
Whole Exome Sequenzierung (WES) beinhaltet die Nutzung von Zielanreicherungsverfahren, um die gesamte exone Region des Genoms zu erfassen und zu sequenzieren. Diese Methode kann direkt Einzelne Nukleotidpolymorphismen (SNPs) nachweisen, die mit funktionalen Variationen in Proteinen assoziiert sind. Im menschlichen Genom machen Exons (protein-codierende Regionen) trotz nur 1% des genischen Inhalts etwa 85% der krankheitsverursachenden Mutationen aus, was WES von entscheidender Bedeutung macht.
Whole-Genome-Sequenzierung (WGS) hingegen bezieht sich auf das Hochdurchsatz-Sequenzieren des gesamten Genoms, analysiert interindividuelle Variationen und annotiert SNPs sowie genomische Strukturen. Aufgrund der großen Mengen an umfassenden Daten, die WGS bereitstellt, erfasst es exklusive Details, die WES oder gezielte Sequenzierung könnte übersehen werden. Mit den Fortschritten in der Sequenzierungstechnologie und erheblichen Kostensenkungen in den letzten Jahren ist die Nutzung von WGS zunehmend machbar geworden. Darüber hinaus hat WGS einen Vorteil bei der Identifizierung von SNPs, Insertionen und Deletionen; daher ist es zu einer alternativen Wahl sowohl für klinische Anwendungen als auch für die Grundlagenforschung geworden.
Dienste, an denen Sie interessiert sein könnten
In den frühen 80er Jahren gelang es Sanger, eine vollständige Genomsequenzierung des Lambda-Phagen erfolgreich mit der Shotgun-Methode abzuschließen, und die Methode wurde erfolgreich auf die DNA größerer Viren, die DNA von Organellen und die Sequenzierung der bakteriellen Genom-DNA angewendet. Shotgun-Sequenzierung ist eine klassische Strategie für die vollständige Genomsequenzierung. Die Shotgun-Sequenzierungsstrategie bietet eine technische Garantie für die großangelegte Sequenzierung. Die Technologie unterbricht zunächst eine vollständige Zielsequenz zufällig in kleine Fragmente, sequenziert diese separat und fügt sie dann unter Verwendung der Überlappungsbeziehungen dieser kleinen Fragmente zu einer konsistenten Sequenz zusammen. Sie umfasst hauptsächlich zwei Methoden: die eine ist die hierarchische Shotgun-Sequenzierung (Clone-by-Clone-Methode) und die andere ist die vollständige Genom-Shotgun-Sequenzierung.
Dieses Verfahren wurde einst vom HGP-Konsortium übernommen. Dieses Verfahren kann hochdichte Karten erzeugen, was die Genomassemblierung erleichtert. Es umfasst in der Regel vier Schritte: die Vorbereitung einer BAC-Klonbibliothek, die Erstellung eines Klonfingerabdrucks, die Sequenzierung der BAC-Klone und die Sequenzassemblierung. Allerdings ist dieses Verfahren zeitaufwendig und kostspielig, weshalb es gegenwärtig selten verwendet wird.
Abbildung 1. Schritte, die am Klon-für-Klon-Sequenzieren beteiligt sind.
WGS umfasst im Allgemeinen sechs Schritte: die Isolierung von genomischer DNA, die zufällige Fragmentierung von genomischer DNA, die Größenauswahl mittels Elektrophorese, den Bibliotheksaufbau, das Paar-End-Sequencing (PE-Sequencing) und die Genomassemblierung. Zwei verschiedene Größen von DNA-Fragmenten, einschließlich längerer Einsätze (2-2,5 kb) und kurzer Einsätze (0,5-1,2 kb), werden aus dem Agarosegel ausgewählt. Während die langen Einsätze in Phagen- oder Socmid-Vektoren kloniert werden, werden die kurzen Einsätze in Plasmidvektoren kloniert. Die Klonbibliothek mit kurzen Einsätzen wird verwendet, um von beiden Enden zu sequenzieren. Da eine große Anzahl von Klonen sequenziert wird, wird jedes der Genome mehr als 10 Mal abgedeckt. Lange Klon-Einsätze können verwendet werden, um die Effizienz der Genomassemblierung zu erhöhen.
Abbildung 2. Schritte, die an der Ganzgenom-Shotgun-Sequenzierung beteiligt sind.
Vorteile:
Nachteile:
Im Gegensatz zu klonbasierten Bibliotheksansätzen nutzen Next-Generation-Sequencing-Plattformen eine drastisch vereinfachte Methode zur Bibliothekskonstruktion, die das gesamte Genom-Shotgun-Sequencing vereinfacht und beschleunigt hat. Im Allgemeinen wird genomische DNA zunächst zufällig fragmentiert, entweder durch Sonikation oder Nebelbildung, und dann mit einem plattformspezifischen Satz von doppelsträngigen Adaptern ligiert, um eine Shotgun-Bibliothek zu erzeugen. Anschließend können diese Bibliotheksfragmente in situ durch Hybridisierung und Verlängerung von komplementären Adaptern amplifiziert werden, die kovalent an der Oberfläche einer Glas-Mikrofluidikzelle oder einem kleinen Kügelchen (je nach Sequenzierungsplattform) befestigt sind. Alle NGS-Geräte verwenden ein mikrofluidisches Gerät, um die amplifizierten Fragmente der Shotgun-Bibliothek zu enthalten, gefolgt von einem Bildgebungsprozess, der Daten von den aktiv sequenzierten Fragmenten sammelt.
Abbildung 3. Wichtige Schritte bei der Anwendung von Hochdurchsatz-DNA-Sequenzierungsmethoden (Ginsburg & Willard 2008).
Wir werden den Illumina-Sequenzer als Beispiel verwenden, um den Workflow der WGS basierend auf Hochdurchsatz-Sequenzierung zu veranschaulichen.
Das Genom wird zunächst vorbereitet, und dann wird die DNA zufällig in Hunderte von Basen oder kürzere Fragmente mit spezifischen Adaptern an beiden Enden fragmentiert. Wenn die Transkriptionsgruppe sequenziert wird, ist die Bibliothekskonstruktion etwas komplizierter. Nach der RNA-Fragmentierung muss sie in cDNA umgewandelt werden, dann wird der Connector hinzugefügt, oder die RNA wird zuerst in cDNA umgewandelt, dann fragmentiert und das Joint hinzugefügt. Die Größe des Fragments (Insertgröße) hat Einfluss auf die anschließende Datenanalyse und kann je nach Bedarf ausgewählt werden. Für die Genomsequenzierung werden in der Regel mehrere unterschiedliche Insertgrößen gewählt, um beim Zusammenfügen mehr Informationen zu erhalten.
Die Reaktion der Solexa-Sequenzierung wird in einem Glasrohr durchgeführt, das als Flusszelle bezeichnet wird, und die Flusszelle ist in 8 Bahnen unterteilt, von denen jede eine Anzahl fester Einzelstrangverbindungen auf der Innenseite jeder Bahn aufweist. Das DNA-Fragment der Verbindung wurde in einen Einzelstrang umgewandelt und mit den Primern im Sequenzierungskanal kombiniert, um eine brückenartige Struktur für die anschließende Preamplifikation zu bilden.
Die unmarkierten dNTPs und das gängige Taq-Enzym wurden zur Amplifikation der festen Phasen-Brücken-PCR hinzugefügt, und die einzelsträngige Brückprobe wurde in ein doppelsträngiges Brückenfragment amplifiziert. Durch Denaturierung wird ein komplementärer Einzelstrang freigesetzt und an der nahegelegenen festen Oberfläche verankert. Durch kontinuierliches Zyklen werden Millionen von Clustern doppelsträngiger Analytmoleküle auf der festen Oberfläche der Flusszelle erhalten.
Vier fluoreszenzmarkierte dNTPs, DNA-Polymerasen und Linker-Primer wurden zu den sequenzierten Flusszellen zur Amplifikation hinzugefügt. Wenn jeder Sequenzierungscluster den komplementären Strang verlängert, wird jeder fluoreszenzmarkierte dNTP hinzugefügt, um die entsprechende Fluoreszenz freizusetzen. Der Sequencer erhält die Sequenzinformationen des zu testenden Fragmentes, indem er ein fluoreszentes Signal erfasst und das optische Signal mithilfe von Computer-Software in einen Sequenzierungsgipfel umwandelt. Die Leselänge wird von einer Reihe von Faktoren beeinflusst, die zu einer Signalabschwächung führen, wie z.B. unvollständiges Schneiden der fluoreszierenden Marker. Mit zunehmender Leselänge wird auch die Fehlerquote steigen.
Dieser Schritt ist nicht strikt Teil des Sequenzierungsprozesses, macht jedoch nur im Zusammenhang mit der Arbeit vor diesem Schritt Sinn. Die durch Sequenzierung gewonnenen Rohdaten bestehen aus einer Sequenz von nur wenigen Dutzend Basenlängen, und die Contigs, die diese kurzen Sequenzen mithilfe bioinformatischer Werkzeuge zusammenfügen, bilden sogar das Gerüst des gesamten Genoms. Alternativ werden diese Sequenzen an ein bestehendes Genom oder eine ähnliche Arten-Genomsequenz ausgerichtet und weiter analysiert, um biologisch sinnvolle Ergebnisse zu erhalten.
Abbildung 4. Der WGS-Prozess
Dienste, an denen Sie interessiert sein könnten
Die Sequenzierungstiefe, eine der wichtigsten Kennzahlen zur Bewertung des Volumens in der Genomik, wird definiert als das Verhältnis der insgesamt aufgezeichneten Basenpaare (bp) zur Größe des Genoms. Es besteht eine direkte Korrelation zwischen der Sequenzierungstiefe und dem Niveau der Genomabdeckung, sodass eine Erhöhung der erstgenannten zu einer Verringerung von falsch-positiven Ergebnissen oder Sequenzierungsfehlern beiträgt. Im Kontext der individuellen Sequenzierung können eine effektive Genomabdeckung und Fehlerkontrolle erreicht werden, wenn doppelseitige oder Mate-Pair-Sequenzierungsstrategien eingesetzt werden, vorausgesetzt, die Sequenzierungstiefe liegt im Bereich von 50X-100X. Diese erhebliche Tiefe erleichtert folglich die anschließende Zusammenstellung von Sequenzen zu Chromosomen, was den Prozess effizienter und genauer macht.
Inzwischen bezieht sich das Maß für die Sequenzierungsabdeckung auf den Anteil des gesamten Genoms, der erfolgreich sequenziert wurde. Dieses Maß ist ein bedeutender Indikator für die Zufälligkeit, die mit der Sequenzierung verbunden ist. Die Beziehung zwischen Sequenzierungstiefe und Abdeckung kann effektiv durch das renommierte Lander-Waterman-Modell (1988) bestimmt werden. Laut diesem Modell entspricht eine Sequenzierungstiefe von 5X ungefähr einer Abdeckung von 99,4 % des gesamten Genoms.
WGS findet Anwendung in verschiedenen Bereichen, einschließlich der Bestimmung der Mutationsrate, genomweite Assoziationsstudienmedizinische Diagnostik, Studien zu seltenen Variationen, Onkologie, epidemiologische Untersuchungen und medizinische Genetik, unter anderem.
Im Bereich der medizinischen Diagnostik führte Illumina, das führende Unternehmen im Bereich Genomik, im Jahr 2009 seinen ersten Whole-Genome-Sequencer ein. Dies stellte einen bedeutenden Übergang dar, da er für die klinische Nutzung genehmigt wurde, anstatt ausschließlich für Forschungszwecke verwendet zu werden. Im selben Jahr interpretierte ein Team unter der Leitung von Euan Ashley an der Stanford University das vollständige menschliche Genom des Bioingenieurs Stephen Quake klinisch, was die praktische Etablierung dieser Technologie im Bereich der medizinischen Diagnostik symbolisierte.
Der Bereich der medizinischen Genetik hat auch stark von der kosteneffizienten Natur profitiert. Whole-Genome-SequenzierungWGS wird zunehmend eingesetzt, um die genetischen Grundlagen sowohl von Mendelschen als auch von komplexen Krankheiten zu entschlüsseln, neuartige Krankheitsbiologien zu beleuchten und erhebliche Unterstützung bei klinischen Diagnosen und Behandlungsstrategien zu bieten.
WGS erleichtert die Identifizierung der Mutationsrate des gesamten menschlichen Genoms. Die Mutationsrate über verschiedene menschliche Generationen (von Eltern zu Nachkommen) liegt bei etwa 70 neuen Mutationen pro Generation.
Im Bereich der Onkologie umfasst die umfassende WGS die Rekonstruktion von Subklonen basierend auf zirkulierender Tumor-DNA.ctDNA) im Plasma. Dies ebnet den Weg für umfassende epigenomische und genomische Analysen, die die dynamische Expression von zirkulierender Tumor-DNA in jeder Situation offenbaren.
In epidemiologischen Untersuchungen verbessert die WGS, die über die letztendliche diskriminierende Fähigkeit verfügt, eng verwandte pathogene Stämme zu unterscheiden, erheblich die traditionellen epidemiologischen Untersuchungen von Ausbrüchen von Infektionskrankheiten. Durch die Kombination von WGS mit einer eingehenden epidemiologischen Analyse wurden neuartige Erkenntnisse über verschiedene Aspekte gewonnen. Dazu gehören die Ursprünge und Ausbreitungsdynamiken umfangreicher Ausbrüche, die durch Escherichia coli und Vibrio cholerae verursacht wurden. Auch Krankenhausausbrüche, die durch Methicillin-resistenten Staphylococcus aureus (MRSA), Klebsiella pneumoniae und Abscessus-Bazillen induziert wurden, wurden untersucht. Gemeinschaftsorientierte Ausbrüche durch Mycobacterium tuberculosis und umweltbedingte Pilzausbrüche, die mit Naturkatastrophen in Verbindung stehen, haben aufgrund der Integration von WGS umfassende Analysen erhalten.
Wenn Sie an unseren Genomik-Dienstleistungen interessiert sind, zögern Sie bitte nicht, unsere Wissenschaftler zu kontaktieren. Wir helfen Ihnen gerne weiter. Neben Genomsequenzierung, bieten wir auch Dienstleistungen an, einschließlich Transkriptomik, Epigenomik, mikrobielle Genomikund PacBio SMRT-Sequenzierung.
Referenzen: