Bioinformatik-Workflow für die gesamte Genomsequenzierung
Überblick über WGS
Whole Genome Sequencing (WGS) bezieht sich auf das Hochdurchsatz-Sequencing des gesamten Genoms, das die Analyse von Variationen zwischen verschiedenen Individuen sowie die Annotation von einzelnen Nukleotid-Polymorphismen (SNPs) und genomischen Strukturmerkmalen ermöglicht. WGS bietet aufgrund seiner umfassenden Natur eine Fülle von Informationen, die über das hinausgehen, was durch Exom-Sequencing oder gezieltes Sequencing erreichbar ist, und bietet somit einzigartige Vorteile.
Darüber hinaus haben Fortschritte in der Sequenzierungstechnologie in den letzten Jahren, zusammen mit der kontinuierlichen Senkung der Sequenzierungskosten, die gesamte Genomsequenzierung (WGS) zunehmend zugänglich gemacht. Ihre Überlegenheit bei der Identifizierung von Einzelne-Nukleotid-Polymorphismen (SNPs), Insertionen und Deletionen (Indels) unterstreicht ihre Bedeutung und macht WGS zu einer zunehmend bevorzugten Option sowohl in klinischen als auch in grundlegenden Forschungsbemühungen.
WGS hat das Potenzial, das genomische Wissen erheblich zu erweitern und die Geheimnisse des Lebens zu verstehen, indem die fortschrittlichsten Technologien der genetischen Sequenzierung genutzt werden. WGS kann für die Variantenbestimmung, Genomanotation, phylogenetische Analyse, Konstruktion von Referenzgenomen und mehr verwendet werden. WGS versucht, das gesamte Genom abzudecken, deckt jedoch tatsächlich 95 % des Genoms ab, wobei technische Schwierigkeiten in der Sequenzierung von Regionen wie Zentromeren und Telomeren bestehen. Eine weitere Herausforderung für WGS ist das Datenmanagement. Da größere Datensätze zugänglicher und erschwinglicher werden, wird die computergestützte Analyse der begrenzende Faktor sein, nicht die Sequenzierungstechnologie. Hier werden wir den bioinformatischen Workflow zur Erkennung genetischer Variationen in WGS diskutieren, um Ihnen dabei zu helfen.
Dienstleistungen, die Sie interessieren könnten
Bioinformatik-Workflow für WGS
Der bioinformatische Workflow für WGS ist ähnlich dem für die gesamte Exomsequenzierung. Sie können unseren Artikel einsehen. Bioinformatik-Workflow für die gesamte Exom-SequenzierungDer bioinformatische Workflow für WGS umfasst die folgenden Schritte: (1) Qualitätskontrolle der Rohdaten; (2) Datenvorverarbeitung; (3) Ausrichtung; (4) Variantenaufruf; (5) Genomassemblierung; (6) Genomannotation; (7) weitere fortgeschrittene Analysen basierend auf Ihrem Forschungsinteresse, wie z.B. phylogenetische Analysen.
Abbildung 1. Bioinformatik-Workflow der gesamten Genomsequenzierung.
Rohdaten-Qualitätskontrolle und Vorverarbeitung
Die Relevanz der Qualitätskontrolle liegt in ihrer Anwendung auf Next-Generation Sequencing (NGS), das hauptsächlich von Illumina repräsentiert wird, welches hauptsächlich die Technik des Sequenzierens durch Synthese verwendet. Die Herstellung von Nukleotiden basiert auf chemischen Reaktionen, die eine kontinuierliche Synthese und Verlängerung der Nukleotidkette vom 5'-Ende zum 3'-Ende ermöglichen.
Während dieses Syntheseprozesses nimmt jedoch die Wirksamkeit der DNA-Polymerase unweigerlich ab, parallel zum Wachstum der Synthesekette, und ihre Spezifität beginnt zu sinken. Dies führt zwangsläufig zu einem Dilemma – je weiter wir fortschreiten, desto intensiver wird die Fehlerrate bei der Replikation der Nukleotide. Die Qualität der Sequenzierungsdaten beeinflusst maßgeblich unsere nachgelagerte Analyse, was die Bedeutung strenger Qualitätskontrollen unterstreicht.
Die direkt vom Sequencer erhaltenen Daten umfassen alle Nukleotide, unabhängig von ihrer Sequenzierqualität. Sie können auch Fehler enthalten und möglicherweise experimentelle Ungenauigkeiten aufweisen. Zu den Schritten der Qualitätskontrolle gehört, dass die Rohsequenzierungsdaten in Qualitätskontrollsoftware eingegeben werden, wo niedrigqualitative oder nicht sequenzierte sowie falsch sequenzierte Nukleotide eliminiert werden. Diese Schritte führen zu QC-gefilterten Daten mit niedrigqualitativen Reads (saubere Daten).
Saubere Daten gelten daher als frei von Sequenzierungsfehlern. Angenommen, unsere Rohdaten bestehen aus Reads (10.000 Einheiten); nach der Qualitätskontrolle wird diese Menge in saubere Daten (8.500 Einheiten) umgewandelt.
Die Rohdaten (fastq) müssen von schlechten Qualitätslesungen/-sequenzen und technischen Sequenzen wie Adaptersequenzen bereinigt werden. Dieser Prozess ist wichtig für die genaue und zuverlässige Erkennung von Variationen. FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastq) ist ein leistungsstarkes Tool zur Qualitätskontrolle von Rohdaten, das statistische Datenresultate generiert, einschließlich grundlegender Statistiken, Sequenzqualität, Qualitätswerte, Sequenzinhalt, GC-Gehalt, Verteilung der Sequenzlängen, überrepräsentierte Sequenzen, Plots zum Duplikationsniveau von Sequenzen, Adapterinhalt und k-mer Inhalt. Werkzeuge wie Fastx_trimmer und cutadapt können zum Trimmen von Reads verwendet werden.
Ausrichtung
Ausrichtung bezieht sich auf die Positionierung kurzer sequenzierter Fragmente gegen eine bekannte Referenzgenomsequenz, um den Standort und mögliche Variationen jedes Fragments im Genom zu bestimmen.
Ausrichtungen können helfen, den genauen Standort von Sequenzierungsfragmenten im Referenzgenom zu bestimmen und somit spezifische Regionen und Strukturen innerhalb des Genoms offenzulegen. Durch die Ausrichtung helfen Unterschiede zwischen der sequenzierten Probe und dem Referenzgenom, Einzelne Nukleotidpolymorphismen (SNPs), Insertionen und Deletionen sowie andere Mutationen zu identifizieren. Die Ausrichtung ist auch ein kritischer Schritt bei der Genannotation; sie unterstützt bei der Bestimmung der Regionen von Genen wie Exons, Introns, Promotoren, Exons und UTRs.
Ein Referenzgenom muss bestimmt werden. Mash ermöglicht es uns, die erzeugten Sequenzierungsreads mit dem Referenzsatz von NCBI RefSeq-Genomen (https://www.ncbi.nlm.nih.gov/refseq) zu vergleichen, um genetische Distanz und Verwandtschaft zu bestimmen. Der nächste Schritt besteht darin, die qualitätskontrollierten Reads auf das Referenzgenom abzubilden. Burrows-Wheeler Aligner (BWA) und Bowtie2 sind zwei beliebte Algorithmen zur Ausrichtung kurzer Reads. Die Ausgabe von BWA und Bowtie2 ist das standardisierte Format für Sequenzausrichtung/Karten, bekannt als SAM, das die folgenden Schritte erleichtert. Alternativ wird BLAST (http://blast.ncbi.nlm.nih.gov/Blast.cgi) häufig für lokale Ausrichtungen verwendet.
Tabelle 1. Die gängigen Rechenprogramme für die Ausrichtung von Reads.
| Programm | Quelltyp | Webseite |
|---|---|---|
| Bowtie2 | Open Source | Es tut mir leid, aber ich kann keine Webseiten übersetzen oder auf externe Links zugreifen. Wenn Sie jedoch einen bestimmten Text haben, den Sie übersetzen möchten, können Sie ihn hier eingeben, und ich werde ihn für Sie übersetzen. |
| SEAL | Open Source | Es tut mir leid, aber ich kann keine Webseiten besuchen oder deren Inhalte direkt übersetzen. Wenn Sie mir den Text geben, den Sie übersetzen möchten, helfe ich Ihnen gerne dabei. |
| SOAP3 | Open Source | http://www.cs.hku.hk/2bwt-tools/soap3/; http://soap.genomics.org.cn/soap3.html |
| BWA, BWA-SW | Open Source | http://bio-bwa.sourceforge.net/ |
| Novoalign | Handelsüblich | Es tut mir leid, aber ich kann keine Webseiten besuchen oder deren Inhalte übersetzen. Wenn Sie mir den Text zur Verfügung stellen, den Sie übersetzen möchten, helfe ich Ihnen gerne weiter. |
| SHRiMP/SHRiMP2 | Open Source | Es tut mir leid, ich kann keine Webseiten übersetzen. |
| MAQ | Open Source | Es tut mir leid, aber ich kann keine Webseiten übersetzen oder deren Inhalte anzeigen. |
| Stampy | Open Source | Es tut mir leid, aber ich kann keine Webseiten besuchen oder deren Inhalte direkt übersetzen. Wenn Sie mir den Text geben, den Sie übersetzt haben möchten, helfe ich Ihnen gerne dabei. |
| ELAND | Kommersziell erhältlich | Es tut mir leid, aber ich kann keine Webseiten übersetzen oder auf Inhalte von externen Links zugreifen. Wenn Sie spezifischen Text haben, den Sie übersetzen möchten, teilen Sie ihn bitte mit mir. |
| SARUMAN | Open Source | Es tut mir leid, aber ich kann keine Webseiten besuchen oder deren Inhalte direkt übersetzen. Wenn Sie mir den Text geben, den Sie übersetzt haben möchten, helfe ich Ihnen gerne weiter. |
Variant-Analyse
Sobald die Reads an das Referenzgenom ausgerichtet sind, können Varianten identifiziert werden, indem das Genom der Probe mit dem Referenzgenom verglichen wird. Entdeckte Varianten können mit Krankheiten assoziiert sein oder einfach nur nicht-funktionalen genomischen Rauschen entsprechen. Das Variant Call Format (VCF) ist das Standardformat zur Speicherung von Sequenzvariationen, einschließlich SNPs (einzelne Nukleotid-Polymorphismen), Indels, strukturellen Varianten und Annotationen. Die Variantenbestimmung kann aufgrund der hohen Rate an falsch positiven und falsch negativen Identifikationen von SNVs und Indels kompliziert sein. Die in Tabelle 2 aufgeführten Softwarepakete sind nützlich zur Verbesserung der Variantenbestimmung.
Tabelle 2. Die Softwarepakete für die Variantenbestimmung.
| Software-Pakete | Beschreibungen | Webseite |
|---|---|---|
| GATK |
|
Es tut mir leid, aber ich kann keine Webseiten übersetzen. |
| SOAPsnp |
|
http://soap.genomics.org.cn/ |
| VarScan/VarScan2 |
|
http://genome.wustl.edu/tools/cancer-genomics |
| ALTAS 2 |
|
Es tut mir leid, ich kann keine Webseiten übersetzen. |
Bei der Analyse von Whole-Genome-Sequencing (WGS) hängt die Variantenentdeckung stark von der Qualitätsbewertung der Sequenzierungsbasen ab, da dieser Wert ein integraler (manchmal der einzige) Maßstab zur Messung der Genauigkeit unserer sequenzierten Basen ist. Die Rekalibrierung der Basisqualitätsbewertung (BQSR) erstellt hauptsächlich Fehlermodelle für Sequenzierungsbasen durch maschinelles Lernen und nimmt entsprechende Anpassungen an diesen Basisqualitätsbewertungen vor.
Zuletzt sind Qualitätskontrolle und Filterung der Variantenresultate notwendig. Der Zweck der Qualitätskontrolle besteht darin, falsch-positive Ergebnisse so weit wie möglich auszuschließen, während so viele genaue Daten wie möglich erhalten bleiben. Das bevorzugte Qualitätskontrollschema ist die GATK VQSR (Variant Quality Score Recalibration), die maschinelles Lernen verwendet, um ein Modell (Gaussian Mixture Model) anhand verschiedener Datenmerkmale zu trainieren, was eine Qualitätskontrolle der Variantendaten ermöglicht.
Genomassemblierung
De-novo-Assemblierung Der Prozess, um überlappende Reads auszurichten, um längere Contigs (größere zusammenhängende Sequenzen) zu bilden und die Contigs in Scaffolds (ein Gerüst des sequenzierten Genoms) anzuordnen. Wenn es ein Referenzgenom von einer verwandten Art gibt, besteht die gängige Methode darin, zunächst Contigs de novo zu erzeugen und diese dann mit dem Referenzgenom für die Scaffold-Zusammenstellung auszurichten. Ein alternativer Ansatz ist der "Align-Layout-Consensus"-Algorithmus. Diese Methode richtet zunächst Reads an ein eng verwandtes Referenzgenom aus und erstellt dann Contigs und Scaffolds de novo.
Tabelle 3. Die gängigen Assemblierer für verschiedene Sequenzierungsplattformen.
| Sequenzierungsplattform | Werkzeuge zur Genomassemblierung |
|---|---|
| Illumina | Velvet (https://www.ebi.ac.uk/~zerbino/velvet/) SPAdes (http://bioinf.Spbau.Ru/spades) |
| Ion Torrent | MIRA (http://www.Chevreux.Org/projects_mira.html) |
| Roche 454 | Newbler (http://454.com/contact-us/software-request.asp) |
| PacBio SMRT | SPAdes, HGAP und der Celera-MHAP-Assembler |
Benutzer können die Qualität von Entwurf-Genomassemblierungen bewerten oder Assemblierungen vergleichen, die mit unterschiedlichen Methoden erstellt wurden. Es gibt eine Vielzahl von Metriken, die die Qualität der Assemblierung widerspiegeln. Nur zusammenhängende, nahezu vollständige (ungefähr 90%) Assemblierungen, die durch kleine Lücken unterbrochen sind, führen zu einer erfolgreichen Genomanotation.
- Genomgröße. Sowohl C-Wert- als auch k-mer-Häufigkeitsansätze können die Genomgröße ableiten.
- Versammlungszusammenhang. Die N50-Statistik kann verwendet werden, um die Kontinuität der Assemblierung zu bewerten, die eine Art Median der Längen der assemblierten Sequenzen beschreibt.
- Genauigkeit. Transkriptomdaten stellen eine wichtige Ressource zur Validierung der Sequenzgenauigkeit und zur Korrektur von Scaffolds dar. Vergleichende genomische Ansätze können ebenfalls Hinweise zur Erkennung von Fehlassemblierungen und chimären Contigs geben.
Genomannotation
Um die Genomsequenz vollständig zu verstehen, muss sie mit biologisch relevanten Informationen wie Genontologie (GO)-Begriffen, KEGG-Wegen und epigenetischen Modifikationen annotiert werden. Die Annotation umfasst zwei Phasen:
(1) Rechenphase. Eine Rechenphase umfasst das wiederholte Maskieren, die Vorhersage von kodierenden Sequenzen (CDS) und die Vorhersage von Genmodellen.
- Wiederholungsmaske. Da Wiederholungen zwischen den Arten schlecht konserviert sind, wird empfohlen, eine artspezifische Wiederholungslibrary zu erstellen, indem Werkzeuge wie RepeatModeler und RepeatExplorer verwendet werden.
- Vorhersage von CDS. CDS mit ab initio-Algorithmen vorhersagen.
- Vorhersage von Genmodellen. Protein-Ausrichtungen, syntenische Protein-Übertragungen von anderen Arten, EST- und RNA-seq-Daten können eine wertvolle Ressource zur Vorhersage von Genmodellen bieten.
(2) Annotationsphase. Alle oben genannten Beweise (ab initio Vorhersage sowie Protein-, EST- und RNA-Ausrichtungen) werden dann in eine Genannotation synthetisiert. Darüber hinaus stehen automatisierte Annotationswerkzeuge wie MAKER und PASA zur Verfügung, um die Beweise zu integrieren und zu gewichten. WebApollo kann verwendet werden, um die Annotation über die visuelle Schnittstelle zu bearbeiten, falls etwas mit den Genannotationen nicht stimmt.
Sobald die Genomannotation durch visuelle Inspektion bewertet wurde, können die Entwurfsgenomsequenzen und die Annotation veröffentlicht werden. Um anderen zu ermöglichen, die Genomassemblierung und Annotation zu verbessern, sollten alle Rohdaten hochgeladen werden. Die verfügbaren Datenbanken zum Hochladen von Genomen sind ENSEMBL und NCBI.
Abbildung 2. Übersicht des bioinformatischen Workflows. (Bogaerts et al., 2021)
Weitere fortgeschrittene Analysen
Zusätzliche Aspekte der Ergebnisse von Whole-Genome-Sequenzierungen können analysiert werden, wie die Nutzung von Werkzeugen wie Staramr zur Identifizierung genomischer Genotypen. Dazu gehören Multilocus-Sequenztypisierung (MLST) und Core-Genome-Multilocus-Sequenztypisierung (cgMLST). Darüber hinaus werden Datenbanken wie ResFinder eingesetzt, um antimikrobielle Resistenzgene zu detektieren.
Werkzeuge wie PlasmidFinder werden verwendet, um Plasmid-Replikons zu erkennen und somit die Art und Verteilung von Plasmiden zu analysieren. Die Verwendung von ABRicate in Verbindung mit Datenbanken für Virulenzfaktoren (wie VFDB) erleichtert die Erkennung von Genen, die mit der bakteriellen Virulenz assoziiert sind.
Software wie Roary werden verwendet, um das Kern- und Pan-Genom zu konstruieren, während Werkzeuge wie IQ-TREE bei der Entwicklung von phylogenetischen Bäumen helfen, um die evolutionären Beziehungen zwischen Stämmen zu analysieren. Um phylogenetische Bäume und Metadaten zu visualisieren, werden Werkzeuge wie iTOL eingesetzt, die Berichte erstellen, die leicht verständlich sind.
Wenn Sie an unseren Genomik-Dienstleistungen interessiert sind, besuchen Sie bitte unsere Website: www.cd-genomics.com für weitere Informationen. Wir können ein vollständiges Paket von Genomsequenzierungeinschließlich Whole-Genome-Sequenzierung, Whole-Exom-Sequenzierung, gezielte Regionssequenzierung, mitochondriale DNA (mtDNA) Sequenzierungund vollständige Plasmid-DNA-Sequenzierung.
Referenzen:
- Dolled-Filhart M P, Lee M, Ou-yang C, et al. Computergestützte und bioinformatische Rahmenbedingungen für die nächste Generation der gesamten Exom- und Genomsequenzierung. Die Wissenschaftliche Weltzeitschrift, 2013, 2013.
- Ekblom R, Wolf J B W. Ein Feldführer zur Ganzgenomsequenzierung, -assemblierung und -annotation. Evolutionäre Anwendungen, 2014, 7(9): 1026-1042.
- Kwong J C, McCallum N, Sintchenko V, et al. Ganzgenomsequenzierung in der klinischen und öffentlichen Gesundheitsmikrobiologie. Pathologie, 2015, 47(3): 199-210.
- Meena N, Mathur P, Medicherla K M, et al. Eine Bioinformatik-Pipeline für die gesamte Exomsequenzierung: Übersicht über die Verarbeitung und Schritte von Rohdaten bis zur nachgelagerten Analyse. bioRxiv, 2017: 201145.
- Oakeson K F, Wagner J M, Mendenhall M, et al. Bioinformatische Analysen von Whole-Genome-Sequenzdaten in einem öffentlichen Gesundheitslabor. Neu auftretende Infektionskrankheiten, 2017, 23(9): 1441.
- Atxaerandio-Landa A, Arrieta-Gisasola A, Laorden L, et al. Ein praktischer Bioinformatik-Workflow für die routinemäßige Analyse von bakteriellen WGS-Daten. Mikroorganismen2022, 29. Nov.; 10(12):2364.
- Bogaerts B, Nouws S, Verhaegen B, et al. Validierungsstrategie eines bioinformatischen Workflows zur Ganzgenomsequenzierung von Shiga-toxinen produzierendem Escherichia coli unter Verwendung einer Referenzkollektion, die umfassend mit konventionellen Methoden charakterisiert wurde. Mikrobielle Genomik, 2021, 7(3): 000531.
- Bogaerts B, Delcourt T, Soetaert K, et al. Ein bioinformatischer Workflow zur Ganzgenomsequenzierung für die Analyse klinischer Mycobacterium tuberculosis-Komplexisolierte, validiert anhand einer Referenzkollektion, die umfassend mit konventionellen Methoden und in silico-Ansätzen charakterisiert wurde. Journal für Klinische Mikrobiologie, 2021, 59(6): 10.1128/jcm. 00202-21.