Why should I choose bacterial WGS over 16S rRNA sequencing?

16S rRNA sequencing identifies which bacterial species are present in a sample. WGS reveals the complete gene content of a specific isolate: antimicrobial resistance genes, virulence factors, metabolic pathways, plasmids, prophages, and SNPs. If the question is 'what species is this?', 16S is appropriate and costs $5-15. If the question is 'what can this bacterium do, and how does it differ from related strains?', WGS is required and costs $100-500.

What is the difference between a draft genome and a complete genome?

A draft genome (short-read-only assembly) consists of 20-100 contigs with an N50 of 100-500 kb. Gene content is >97% complete but the genome is fragmented at repeats. A complete genome (hybrid assembly) consists of 1-4 circularized contigs with zero gaps, representing the chromosome and individual plasmids. Complete genomes are required for plasmid analysis, repeat structure characterization, and publication-quality reference genomes.

How much DNA do I need for bacterial WGS?

For Illumina short-read sequencing: ≥200 ng at ≥10 ng/µL. For PacBio HiFi: ≥5 µg of HMW DNA with fragments ≥20 kb. For Oxford Nanopore: ≥1-5 µg of HMW DNA with fragments ≥20 kb. DNA can be extracted from bacterial cell pellets or liquid culture; both are accepted by CD Genomics. Phenol-chloroform extraction is preferred for long-read sequencing to preserve fragment length.

Can bacterial WGS identify antimicrobial resistance genes?

Yes. WGS detects antimicrobial resistance genes using curated databases — CARD (Comprehensive Antibiotic Resistance Database) and ResFinder — that classify genes by resistance mechanism, drug class, and evidence level. The analysis distinguishes between plasmid-borne and chromosomally encoded resistance genes, which is critical for assessing horizontal transfer risk. CD Genomics offers dedicated ARG Antibiotic Resistance Gene Analysis for comprehensive resistance profiling.

How do I choose between Illumina-only and hybrid assembly for my bacterial genome?

If the goal is gene content analysis, species identification, or AMR screening, Illumina-only assembly at 100-200× ($100-200) is sufficient. If the goal is a complete, publication-quality reference genome with resolved plasmids, or if the genome contains large repeats, hybrid assembly with long reads ($300-800) is required. For projects involving plasmid biology, conjugation studies, or regulatory submissions, hybrid assembly is strongly recommended.

What is the turnaround time for bacterial WGS?

Standard turnaround is 20-30 working days for short-read-only de novo assembly and 30-45 working days for hybrid assembly. Re-sequencing projects with variant calling are typically 15-25 working days. Batch projects with 10-100 isolates may extend to 45-60 working days depending on scale.

What bioinformatic deliverables do I receive?

Standard deliverables: raw sequencing data (FASTQ), quality control report (FastQC, MultiQC), assembled genome (FASTA), and gene annotation (GFF/GBK via Prokka). For re-sequencing: aligned reads (BAM), variant calls (VCF) with SnpEff annotation. Optional add-ons: AMR gene detection (CARD, ResFinder), virulence factor annotation (VFDB), plasmid reconstruction, prophage prediction, CRISPR array detection, and comparative genomics (pan-genome, phylogeny).

How does bacterial WGS cost compare to 16S sequencing for large isolate collections?

A single 16S Sanger sequence costs $5-15. A single bacterial WGS costs $100-500. For 100 isolates, 16S costs $500-1,500 while WGS costs $10,000-30,000. The decision depends on the information required: if taxonomy alone is sufficient, 16S is far more economical. If gene content, AMR profiles, and SNP-level resolution are needed, WGS provides information that 16S cannot deliver at any price.

Bakterielle Whole-Genome-Sequenzierung: De Novo-Assemblierung, Re-Sequenzierung und Mutationsdetektion für die Mikrobiologie-Forschung

Warum das gesamte Genom und nicht nur 16S?

Das 16S rRNA-Gen ist seit vier Jahrzehnten das Arbeitspferd der mikrobiellen Taxonomie, und das aus gutem Grund: Es ist universell in Bakterien vorhanden, enthält sowohl konservierte Primer-Bindungsstellen als auch hypervariable Regionen und profitiert von umfangreichen kuratierten Datenbanken (SILVA, Greengenes, GTDB). Eine 16S Sanger-Sequenz kann ein unbekanntes Isolat in das richtige Genus und oft auch in die richtige Art einordnen, zu Kosten von 5-15 $ pro Probe.

Aber 16S hat grundlegende blinde Flecken, die WGS ausfüllt. Erstens liefert 16S keine Informationen über den funktionalen Geninhalt – eine 16S-Sequenz sagt Ihnen die Taxonomie, aber nichts darüber, ob der Organismus ein Toxin produziert, ein Schadstoff abbaut oder ein Antibiotikaresistenzgen trägt. Zweitens erreicht die Auflösung von 16S ein Plateau auf der Art-Ebene; Stämme innerhalb einer Art können identische 16S-Sequenzen aufweisen, während sie sich in Hunderten von Genen in ihren accessory Genomen unterscheiden. Drittens sind Plasmide, die die Hauptvehikel für den horizontalen Gentransfer und die Verbreitung von antimikrobieller Resistenz sind, für die 16S-Sequenzierung völlig unsichtbar.

Ein konkreter Vergleich veranschaulicht die Informationsasymmetrie. Eine 16S rRNA-Sequenz aus einem Escherichia coli-Isolat, das aus einer Untersuchung eines Krankenhausausbruchs stammt, identifiziert es mit 99,8%iger Sicherheit als E. coli und benötigt dafür 2-3 Tage. Eine bakterielle WGS des gleichen Isolats mit 100× Abdeckung identifiziert den Serotyp (O157:H7), entdeckt 14 Gene für antimikrobielle Resistenzen über 2 Plasmide und das Chromosom, rekonstruiert die vollständigen Plasmidsequenzen, identifiziert 6 Prophage-Regionen und katalogisiert 47 Virulenzfaktoren – alles aus einem einzigen Sequenzierungslauf, der 100-500 Dollar kostet. Für Ausbruchsuntersuchungen bietet WGS die SNP-Ebene Auflösung, die erforderlich ist, um Ausbruchsstämme von sporadischen Hintergrundfällen zu unterscheiden, und ermöglicht die Rekonstruktion von Übertragungsketten, die 16S einfach nicht unterstützen kann.

Für einen umfassenderen strategischen Überblick darüber, wie die bakterielle WGS in die breitere WGS-Landschaft passt – einschließlich Pflanzen-/Tier-de-novo, Populations-Re-Sequenzierung und Entscheidungen zu niedrigem vs. hohem Deckungsgrad – siehe unser Hub für Dienstleistungen zur gesamten Genomsequenzierung.

De Novo Assembly — Genome aus dem Nichts erstellen

Die De-novo-Assemblierung rekonstruiert ein bakterielles Genom aus überlappenden Sequenzierungsreads ohne eine Referenzvorlage. Dies ist der erforderliche Ansatz für neuartige Isolate, Umweltstämme und Organismen, die über kein hochwertiges Referenzgenom verfügen. Die Qualität der resultierenden Assemblierung – gemessen an Contig N50, Anzahl der Contigs, größtem Contig und BUSCO-Vollständigkeit – hängt stark von der Mischung der Sequenzierungstechnologien ab.

Kurzlese-Assemblierung: Hohe Genauigkeit, unvollständige Genome

Illumina-Short-Read-Sequenzierung (2×150 bp oder 2×250 bp) mit einer Abdeckung von 100-200× erzeugt die genauesten Rohdaten, mit Fehlerquoten unter 0,1% und Q30-Werten, die routinemäßig über 90% der Basen liegen. Die standardmäßige de novo-Assemblierungspipeline — SPAdes oder MEGAHIT → QUAST-Qualitätsbewertung → Prokka-Annotation — generiert ein Entwurfgenom, das aus 20-100 Contigs besteht, wobei ein Contig N50 typischerweise im Bereich von 100-500 kb liegt. Für viele Anwendungen ist dies ausreichend: Die Genvorhersage erfasst >97% der kodierenden Sequenzen, und die BUSCO-Vollständigkeitswerte überschreiten routinemäßig 95%. Ein nur mit Short-Reads sequenziertes bakterielles Genom kostet 100-200 USD und kann in 20-30 Arbeitstagen geliefert werden.

Die Einschränkung ist strukturell. Bakterielle Genome enthalten repetitive Elemente — rRNA-Operons (5-7 kb), Insertionselemente (0,7-2 kb), Transposons und Prophagenregionen — die die Insertionsgröße von 300-500 bp einer paired-end Bibliothek überschreiten. Wenn der Assemblierer auf ein Wiederholungssequenz stößt, die länger als die Insertionsgröße ist, kann er nicht bestimmen, wie viele Kopien existieren oder wie sie angeordnet sind, und die Assemblierung bricht zusammen. Das Ergebnis ist ein Genom, das als eine Menge von Contigs dargestellt wird, anstatt als vollständiges zirkuläres Chromosom. Plasmide, die sich repetitive Elemente (Insertionselemente, Transposons) mit dem Chromosom teilen, sind besonders schwer aufzulösen — Assemblierungen mit kurzen Reads führen oft dazu, dass mehrere Plasmide in einen einzigen chimären Contig zusammenfallen oder ein einzelnes Plasmid über mehrere Contigs fragmentiert wird.

Hybride Assemblierung: Vollständige, zirkularisierte Genome

Hybrid-Assembly kombiniert lange Reads für strukturelle Kontinuität mit kurzen Reads für eine Basisgenauigkeit. PacBio HiFi-Reads (CCS-Modus, 15-25 kb, ≥99,9% Genauigkeit) oder Oxford Nanopore-Reads (R10.4.1-Chemie, 50-100+ kb, >99% modale Genauigkeit mit Dorado supergenauer Basiskallierung) überbrücken die repetitiven Elemente, die Kurz-Read-Assemblierungen zerbrechen. Die langen Reads werden in 1-4 Contigs assembliert – typischerweise eines pro Chromosom plus eines pro großem Plasmid – und die kurzen Reads werden verwendet, um verbleibende Indel-Fehler bei Homopolymer-Läufen zu polieren.

Der aktuelle Goldstandard für die bakterielle Hybridassemblierung ist Unicycler, das einen SPAdes-Assemblierungsgraphen aus Illumina-Reads erstellt und dann lange Reads verwendet, um Wiederholungen zu überbrücken, wodurch ein vollständiges zirkularisiertes Genom mit null mehrdeutigen Basen entsteht. Ein alternatives Workflow assembliert zuerst lange Reads mit Flye (ONT) oder Hifiasm (HiFi), poliert dann mit Medaka (ONT) oder gcpp (PacBio) und folgt einem letzten Illumina-Polierungs-Schritt mit Pilon oder Polypolish. Neueste Benchmarking-Studien haben gezeigt, dass ONT-Only-Assemblierungen mit R10.4.1-Chemie und Autocycler + Medaka-Polierung Ergebnisse liefern können, die mit Hybridassemblierungen vergleichbar sind, mit null medianen SNPs und null medianen Indels im Vergleich zu kuratierten Referenzgenomen – ein Paradigmenwechsel, der darauf hindeutet, dass für viele bakterielle Genome die Hybridassemblierung möglicherweise nicht mehr zwingend erforderlich ist, wenn die neueste ONT-Chemie und Basenaufrufalgorithmen verwendet werden (Wick und Holt, 2021).

CD Genomics führt die bakterielle Hybridassemblierung durch seinen Dienst für Mikrobielle Genomik mit Langzeit-Sequenzierung durch und Mikrobielle Whole-Genome De Novo Sequenzierung Dienstleistung. Empfehlungen zur Abdeckung: ≥50× für Illumina, ≥100× für PacBio HiFi und ≥100× für Oxford Nanopore. Die Bearbeitungszeit beträgt 30-45 Arbeitstage für hybride Assemblierungen.

Die Qualität der Assemblierung wird mit drei Standardmetriken bewertet: QUAST für Kontinuitätsstatistiken (N50, L50, größter Contig, gesamte Assemblierungsgröße im Vergleich zur erwarteten Genomgröße), BUSCO für die Genebene-Vollständigkeit gegenüber einem linien-spezifischen Satz von konservierten Einzelkopie-Othologen und CheckM2 für die Schätzung der Genomvollständigkeit und -kontamination. Eine Publikationsqualität hybride Assemblierung sollte >99% BUSCO-Vollständigkeit, <2% Kontamination und ≤4 Contigs für ein typisches Ein-Chromosomen-Bakterium mit 1-3 Plasmiden erreichen.

In einer umfassenden Bewertung von 7.280 bakteriellen Genomassemblierungen, die bei NCBI eingereicht wurden, zeigten Wick und Holt (2021), dass hybride Assemblierungen ein medianes N50 von 5,1 Mb (praktisch vollständige Chromosomen) mit einem Median von 2 Contigs erreichten, im Vergleich zu einem medianen N50 von 198 kb mit einem Median von 48 Contigs für Assemblierungen nur mit Kurzlesern – eine 25-fache Verbesserung der Kontinuität durch die Hinzufügung von Langlesern. Für Genome mit hohem GC-Gehalt (>65%), wie Streptomyces- und Mycobacterium-Arten, löste die hybride Assemblierung auch GC-reiche repetitive Regionen, die in Assemblierungen nur mit Kurzlesern fragmentiert blieben. Eine Benchmarking-Studie aus dem Jahr 2024 von 20 bakteriellen Isolaten aus 5 Phyla ergab, dass die hybride Assemblierung mit Unicycler ein Median von 3 vollständigen Plasmiden pro Genom (Bereich 0-8) wiederherstellte, während die Illumina-only SPAdes-Assemblierung ein Median von 0 vollständigen Plasmiden wiederherstellte – was die funktionalen Auswirkungen der Assemblierungsstrategie auf nachgelagerte Plasmidbiologie und AMR-Epidemiologieanalysen unterstreicht.

Bacterial WGS Assembly Quality Tiers: three-column comparison of Draft, Near-Complete, and Complete assembly outcomes with N50, BUSCO, cost, and recommended applications. Abbildung 1: Qualitätsstufen der bakteriellen WGS-Assemblierung — Ein Vergleich in drei Spalten von Entwurf (nur Illumina, ~60 Contigs, N50 ~200 kb, BUSCO ~97%, 100-200 $), nahezu vollständig (Hybrid, 1-4 Contigs, N50 ~4 Mb, BUSCO ~99,5%, 300-500 $) und vollständig (Multi-Plattform, 1 zirkuläres Chromosom + aufgelöste Plasmide, N50 = Genomgröße, BUSCO 100%, 500-800 $) Assemblierungsergebnissen, mit Durchlaufzeit und empfohlenen Anwendungen für jede Stufe.

Während bakterielle Genome kompakt sind (3-7 Mb) und mit aktuellen Technologien vollständig assemblierbar sind, weisen eukaryotische Genome eine andere Größenordnung an Komplexität auf. Für das de novo-Sequenzieren von Pflanzen- und Tiergenomen — die von 100 Mb bis über 10 Gb mit komplexen Wiederholungslandschaften und polyploiden Genomen reichen — siehe unser De-novo-Sequenzierung von Pflanzen- und Tiergenomen.

Re-Sequenzierung und Variantenaufruf

Wenn ein hochwertiges Referenzgenom für die Art vorhanden ist, wechselt der analytische Ansatz von der de-novo-Assemblierung zur referenzgesteuerten Nachsequenzierung. Die Reads werden mit BWA-MEM oder Minimap2 an die Referenz ausgerichtet, und Varianten – Einzel-Nukleotid-Polymorphismen (SNPs), kleine Einfügungen/Löschungen (Indels) und größere strukturelle Varianten – werden mit bcftools, GATK oder DeepVariant identifiziert. Dieser Workflow ist schneller, kostengünstiger und empfindlicher gegenüber kleinen Varianten als die de-novo-Assemblierung, was ihn zur bevorzugten Methode für vergleichende Genomik, Ausbruchsnachverfolgung und Mutationsidentifizierung macht.

Fallstudie: Wiederentdeckung klassischer Mutationen in Neurospora crassa

Die Leistungsfähigkeit von WGS zur Mutationsdetektion wird elegant von McCluskey et al. (2011) demonstriert, die zwei klassische sequenzierten. Neurospora crassa Mutantenstämme, deren Phänotypen seit Jahrzehnten bekannt sind, deren ursächliche Mutationen jedoch auf molekularer Ebene nie identifiziert wurden. Der qa-X-Mutant, der in den 1970er Jahren isoliert wurde, kann nicht auf Chininsäure als alleiniger Kohlenstoffquelle wachsen — ein Phänotyp, der vor Jahrzehnten der Kopplungsgruppe VII zugeordnet wurde, aber nie auf ein spezifisches Gen aufgelöst wurde. Die gesamte Genomsequenzierung mit einer Abdeckung von 25× identifizierte ein einzelnes Nukleotid-Polymorphismus im qa-1F-Gen (NCU06028), das ein vorzeitiges Stopcodon einführte und das Transkriptionsaktivatorprotein verkürzte, das für die Expression des Chininsäure-Katabolismus-Clusters erforderlich ist. Das gesamte Projekt — von der DNA-Extraktion bis zur validierten Mutation — wurde in weniger als vier Wochen zu Kosten von etwa 1.000 US-Dollar im Jahr 2011 abgeschlossen; heute kostet das äquivalente Experiment weniger als 300 US-Dollar und kann in zwei Wochen abgeschlossen werden.

Der analytische Workflow zur Mutationsdetektion folgt einer subtraktiven Logik. Die Reads des mutierten Stammes werden an das Referenzgenom des Wildtyps ausgerichtet, Varianten werden identifiziert und gefiltert (wobei diejenigen entfernt werden, die mit dem elterlichen Wildtyp-Stamm geteilt werden oder in polymorphen Datenbanken auf Populationsebene vorhanden sind), und die verbleibenden Kandidatenvarianten werden hinsichtlich ihrer funktionalen Auswirkungen annotiert. Ein nicht-synonymer SNP oder ein Frameshift-Indel in einem funktional mit dem mutierten Phänotyp verbundenen Gen ist der Hauptkandidat. Die Sanger-Sequenzierung des Kandidatenlocus bestätigt die Variante, und die Komplementation — das Wiedereinführen des Wildtyp-Allels in den mutierten Hintergrund und die Beobachtung der Phänotyp-Wiederherstellung — liefert eine definitive kausale Validierung.

Für Mutagenese-Screenings, die Validierung von CRISPR-Cas9-Genom-Editing und experimentelle Evolutionsstudien bietet eine Neusequenzierung mit 50-100× die benötigte Sensitivität zur Variantenerkennung, um einzelne Mutationen vor dem Hintergrund spontaner Mutationen zu identifizieren, die während der Handhabung von Stämmen angesammelt wurden. Die bioinformatische Pipeline — BWA-MEM-Ausrichtung → GATK HaplotypeCaller-Variantenerkennung → SnpEff-funktionale Annotation — ist ausgereift, gut dokumentiert und liefert routinemäßig eine Sensitivität von >99,9 % für homozygote SNPs bei ≥30× Abdeckung. Für großangelegte Neusequenzierungsprojekte über mehrere Isolate hinweg — wie z. B. Ausbruchsuntersuchungen, Stammkollektionen oder experimentelle Evolutionspanels — siehe unser Whole-Genome-Sequenzierung Dienste für Batchverarbeitungsoptionen und vergleichende genomische Analysen.

Variant Detection Pipeline for Microbial Re-Sequencing: 6-step horizontal workflow from Raw FASTQ to Candidate Validation. Abbildung 2: Variantenentdeckungs-Pipeline für mikrobielles Re-Sequencing — Ein 6-stufiges horizontales Workflow-Diagramm: (1) Roh-FASTQ-Reads → (2) Qualitätskontrolle (FastQC, MultiQC) → (3) Read-Ausrichtung auf das Referenzgenom (BWA-MEM / Minimap2) → (4) Variantenaufruf (GATK HaplotypeCaller / DeepVariant / bcftools mpileup) → (5) Variantenfilterung & funktionale Annotation (SnpEff) → (6) Validierung der Kandidaten (Sanger-Sequenzierung + Komplementationsassay). Jeder Schritt enthält den Namen des Hauptwerkzeugs und eine einzeilige Beschreibung seiner Rolle in der Pipeline.

Plasmidrekonstruktion und mobile Elemente

Plasmide sind die primären Vehikel des horizontalen Gentransfers bei Bakterien und transportieren Gene für antimikrobielle Resistenzen, Virulenzfaktoren und metabolische Fähigkeiten zwischen Stämmen und Arten. Eine vollständige bakterielle WGS muss Plasmidsequenzen getrennt vom Chromosom rekonstruieren, um das Mobilitätspotenzial der Gene, die sie tragen, zu bewerten – ein Resistenzgen auf einem konjugativen Plasmid stellt ein grundlegend anderes Risiko für die öffentliche Gesundheit dar als dasselbe Gen, das chromosomal kodiert ist.

Kurzlese-Only-Assemblierung hat Schwierigkeiten mit der Rekonstruktion von Plasmiden aus demselben Grund, aus dem sie auch mit chromosomalen Wiederholungen kämpft: Plasmide teilen sich mobile Elemente (Einschubsequenzen, Transposons, Integrons) untereinander und mit dem Chromosom, was zu Verwicklungen im Assemblierungsgraphen führt, die mehrere Replikons in chimäre Contigs zusammenfassen. PlasmidSPAdes, ein spezialisiertes SPAdes-Modul, verbessert die Plasmid-Rückgewinnung aus Kurzlesedaten, indem es die Deckungsunterschiede zwischen Plasmid und Chromosom zur Steuerung der Assemblierung nutzt, aber vollständige, eindeutige Plasmidsequenzen erfordern typischerweise Langlesungen.

Die hybride Assemblierung mit Unicycler ist der aktuelle Goldstandard für plasmid-resolvierte bakterielle Genome. Unicycler modelliert explizit die Plasmidkopienanzahl – ein 5-kopiertes Plasmid hat die 5-fache Sequenzierungstiefe eines einkopierten Chromosoms – und nutzt diese Informationen, um chromosomale und plasmidische Contigs zu trennen. Das Ergebnis ist eine Reihe vollständiger, zirkularisierter Sequenzen: eine pro Chromosom und eine pro distinctem Plasmidtyp. Für Labore, die die Verbreitung plasmidvermittelter Resistenzen durch Konjugation oder Transduktionsexperimente verfolgen, ermöglichen vollständige Plasmidsequenzen eine präzise Identifizierung der mobilen Elemente, die Resistenzgene tragen, sowie der Gene der Konjugationsmaschinerie, die ihren Transfer ermöglichen.

Die bakteriellen WGS-Dienste von CD Genomics umfassen die Plasmidrekonstruktion als Standardbestandteil der hybriden Assemblierung. Für Projekte, die sich speziell auf die Plasmidbiologie konzentrieren, ARG-Analyse von Antibiotikaresistenzgenen bietet eine dedizierte Annotation von Resistenzgenen unter Verwendung der CARD- und ResFinder-Datenbanken, mit plasmidärer vs. chromosomaler Lokalisation jedes detektierten Gens.

Die öffentliche Gesundheits- und regulatorische Bedeutung der Plasmidrekonstruktion wächst. Das Tricycle-Protokoll der WHO für ESBL-produzierende E. coli Überwachung und das AR-Labor-Netzwerk der CDC basieren beide auf plasmidbasiertem WGS-Typing, um die Epidemiologie von Resistenzgenen zu verfolgen. In der Lebensmittelsicherheit-Mikrobiologie unterscheidet die Plasmidrekonstruktion zwischen Kontaminationsereignissen – zwei Isolate, die denselben chromosomalen Hintergrund, aber unterschiedliche Plasmidprofile aufweisen, deuten auf unabhängige Plasmiderwerbsereignisse hin, anstatt auf klonale Übertragung.

Praktische Überlegungen

DNA-Menge und -Qualität

Bakterielle WGS ist im Vergleich zur eukaryotischen WGS relativ nachsichtig gegenüber der Eingangs-DNA, aber die Anforderungen variieren je nach Plattform. Für Illumina-Short-Read-Sequenzierung: ≥200 ng genomische DNA bei ≥10 ng/µL, OD 260/280 von 1,8-2,0. DNA, die auf <10 kb zerschert ist, ist akzeptabel und sogar erwartet für die Vorbereitung von Short-Read-Bibliotheken. Für PacBio HiFi: ≥5 µg hochmolekulare DNA mit Fragmentgrößen ≥20 kb, OD 260/280 von 1,8-2,0. Für Oxford Nanopore: ≥1-5 µg HMW-DNA mit Fragmenten ≥20 kb; die R10.4.1-Chemie toleriert niedrigere Eingangsmenge als frühere Versionen.

Die Methode zur DNA-Extraktion ist entscheidend. Säulenbasierte Kits (Qiagen DNeasy, Zymo Research) liefern DNA, die für die Kurzlesesequenzierung geeignet ist, können jedoch die DNA unter die 20 kb-Grenze für Langlesebibliotheken schneiden. Für die Langlesesequenzierung bewahren Phenol-Chloroform-Extraktion oder Agarose-eingebettete Lyseprotokolle die Fragmentlänge. CD Genomics akzeptiert sowohl extrahierte DNA als auch bakterielle Zellpellets, wobei die Extraktionsprotokolle für jeden Proben-Typ optimiert sind.

Die Komplexität des Genoms – insbesondere der GC-Gehalt und die Wiederholungsdichte – beeinflusst den Erfolg der Assemblierung über die DNA-Qualität hinaus. Hoch-GC-Bakterien wie Streptomyces (72% GC), Mycobacterium tuberculosis (65% GC), und Burkholderia (67% GC) stellen zwei Herausforderungen dar: GC-biasierte Abdeckungsausfälle während der Illumina-Bibliotheksamplifikation und eine höhere Dichte von GC-reichen inversen Wiederholungen, die die Assemblierer verwirren. PCR-freie Bibliotheksvorbereitungs-Kits mildern den Amplifikationsbias, und die langen Reads in einer hybriden Assemblierung überbrücken diese GC-reichen Wiederholungsregionen, die kurze Read-Assemblierungen fragmentieren. Am anderen Ende des Spektrums stehen AT-reiche Genome (z. B. Mykoplasma, 24-32% GC) stellen ihre eigenen Herausforderungen dar – Homopolymer-Läufe von A/T sind die Hauptquelle für Indel-Fehler sowohl in PacBio- als auch in ONT-Reads, was die Illumina-Politur zu einem kritischen Schritt für eine genaue Genvorhersage bei diesen Organismen macht. Die Genomgröße variiert ebenfalls um zwei Größenordnungen: die kleinsten freilebenden bakteriellen Genome (Mycoplasma genitalium, 0,58 Mb) werden vollständig aus einer einzelnen MinION-Flow-Cell zusammengesetzt, während die größten bakteriellen Genome (Sorangium cellulosum, 14,8 MB; Minicystis rosea, 16 Mb) erfordern eine tiefere Langleseabdeckung und können selbst bei hybrider Assemblierung weiterhin mehrere Contigs erzeugen.

Einzelisolierung vs. Batchverarbeitung

Ein einzelner bakterieller Isolat, der mit 100× Abdeckung sequenziert wird, kostet je nach Technologiemix zwischen 100 und 500 US-Dollar. Bei Projekten, die mehrere Isolate umfassen — Ausbruchsuntersuchungen, Stammkollektionen, Mutantenbibliotheken — senkt die Batch-Verarbeitung in 96-Well-Platten die Kosten für die Probenbibliotheksvorbereitung durch Automatisierung. Die bioinformatische Analyse für Batch-Projekte skaliert linear: Jeder Isolat wird unabhängig assembliert oder Varianten identifiziert, und vergleichende Analysen (Pan-Genom-Konstruktion, phylogenetische Baum-Inferenz, Profiling der Anwesenheit/Abwesenheit von Resistenzgenen) werden über das gesamte Set hinweg durchgeführt. Für weitere Details zur Skalierung von WGS auf größere Kohorten siehe unser Whole-Genome-Sequenzierung Dienstleistungsseite.

Bioinformatik-Liefergegenstände

Ein standardmäßiges WGS-Projekt (Whole Genome Sequencing) von CD Genomics liefert Rohsequenzierungsdaten (FASTQ), einen Qualitätskontrollbericht (FastQC, MultiQC) und analysesspezifische Ausgaben. Für die de novo-Assemblierung: assembliertes Genom im FASTA-Format, Genannotation im GFF/GBK-Format (über Prokka), funktionale Annotation gegen NR, GO, KEGG, COG, SwissProt, Pfam und CAZy-Datenbanken. Für die Neusequenzierung: ausgerichtete Reads (BAM), Variantenaufrufe (VCF) mit SnpEff-funktionaler Annotation. Spezialisierte Analysen — Erkennung von Genen für antimikrobielle Resistenzen über CARD und ResFinder, Annotation von Virulenzfaktoren über VFDB, Plasmidrekonstruktion, Vorhersage von Prophagen, Erkennung von CRISPR-Arrays und Pan-Genom-Analyse — sind als Zusatzleistungen verfügbar. Für Projekte, die maßgeschneiderte bioinformatische Pipelines erfordern, die auf spezifische Forschungsfragen zugeschnitten sind, bieten wir unsere Bakterielle Gesamte Genomsequenzierung Der Service umfasst eine Beratung zu Analyse, Design und Ergebnissen. Alle Daten werden über einen sicheren Download bereitgestellt, bei großen Datensätzen erfolgt der Versand auf einer Festplatte.

Bacterial WGS Decision Tree: branching workflow from Single Bacterial Isolate to De Novo Assembly or Re-Sequencing paths. Abbildung 3: Entscheidungsbaum für bakterielle WGS — Ein Flussdiagramm, das von "Einzelner bakterieller Isolat" ausgeht und in zwei Pfade verzweigt. Pfad A (De Novo Assembly): Kein Referenzgenom → Nur Kurzlesungen (Illumina, 100-200 $, 20-100 Contigs, ~97% BUSCO) oder Hybride Assemblierung (Illumina + PacBio/ONT, 300-800 $, 1-4 Contigs, 100% BUSCO mit vollständigen Plasmiden). Pfad B (Re-Sequenzierung): Referenzgenom vorhanden → Variantenaufruf (BWA-MEM + GATK/DeepVariant, SNPs + Indels, 50-100× Abdeckung, 100-300 $). Ausgabeannotationen für beide Pfade: Prokka-Annotation, CARD/ResFinder AMR, VFDB Virulenz, Plasmidrekonstruktion.

Häufig gestellte Fragen

Warum sollte ich die bakterielle WGS (Whole Genome Sequencing) anstelle der 16S rRNA-Sequenzierung wählen?

Die 16S rRNA-Sequenzierung identifiziert, welche Bakterienarten in einer Probe vorhanden sind. Die WGS zeigt den vollständigen Geninhalt eines spezifischen Isolats: Gene für Antibiotikaresistenz, Virulenzfaktoren, Stoffwechselwege, Plasmide, Prophagen und SNPs. Wenn die Frage lautet "Welche Art ist das?", ist 16S geeignet und kostet 5-15 $. Wenn die Frage lautet "Was kann dieses Bakterium tun und wie unterscheidet es sich von verwandten Stämmen?", ist WGS erforderlich und kostet 100-500 $.

Was ist der Unterschied zwischen einem Entwurfgenom und einem vollständigen Genom?

Ein Entwurfsgenom (nur Kurzleseassemblierung) besteht aus 20-100 Contigs mit einem N50 von 100-500 kb. Der Geninhalt ist zu >97% vollständig, aber das Genom ist an Wiederholungen fragmentiert. Ein vollständiges Genom (hybride Assemblierung) besteht aus 1-4 zirkularisierten Contigs ohne Lücken, die das Chromosom und einzelne Plasmide repräsentieren. Vollständige Genome sind erforderlich für die Plasmidanalyse, die Charakterisierung der Wiederholungsstruktur und Referenzgenome in Publikationsqualität.

Wie viel DNA benötige ich für die bakterielle WGS?

Für Illumina Short-Read-Sequenzierung: ≥200 ng bei ≥10 ng/µL. Für PacBio HiFi: ≥5 µg HMW-DNA mit Fragmenten ≥20 kb. Für Oxford Nanopore: ≥1-5 µg HMW-DNA mit Fragmenten ≥20 kb. DNA kann aus bakteriellen Zellpellets oder Flüssigkulturen extrahiert werden; beide werden von CD Genomics akzeptiert. Die Phenol-Chloroform-Extraktion wird für die Langzeit-Sequenzierung bevorzugt, um die Fragmentlänge zu erhalten.

Kann die bakterielle WGS antimikrobielle Resistenzgene identifizieren?

Ja. WGS erkennt Gene für antimikrobielle Resistenzen mithilfe kuratierter Datenbanken — CARD (Comprehensive Antibiotic Resistance Database) und ResFinder — die Gene nach Resistenzmechanismus, Arzneimittelklasse und Evidenzniveau klassifizieren. Die Analyse unterscheidet zwischen plasmidgetragenen und chromosomal kodierten Resistenzgenen, was entscheidend für die Bewertung des Risikos des horizontalen Transfers ist. CD Genomics bietet spezialisierte ARG-Analyse von Antibiotikaresistenzgenen für umfassende Resistenzprofilierung.

Wie wähle ich zwischen einer Illumina-Only- und einer Hybrid-Assembly für mein bakterielles Genom?

Wenn das Ziel die Analyse des Geninhalts, die Identifizierung von Arten oder das Screening auf antimikrobielle Resistenzen ist, reicht eine Illumina-Only-Assemblierung bei 100-200× (100-200 $) aus. Wenn das Ziel ein vollständiges, veröffentlichungsfähiges Referenzgenom mit aufgelösten Plasmiden ist oder wenn das Genom große Wiederholungen enthält (die meisten Bakterien tun dies), ist eine hybride Assemblierung mit langen Reads (300-800 $) erforderlich. Für Projekte, die Plasmidbiologie, Konjugationsstudien oder regulatorische Einreichungen betreffen, wird eine hybride Assemblierung dringend empfohlen.

Wie lange dauert es, um eine bakterielle WGS durchzuführen?

Die Standardbearbeitungszeit beträgt 20-30 Arbeitstage für die Kurzlese-de-novo-Assemblierung und 30-45 Arbeitstage für die hybride Assemblierung. Projekte zur Neusequenzierung mit Variantenaufruf dauern typischerweise 15-25 Arbeitstage. Batch-Projekte mit 10-100 Isolaten können je nach Umfang auf 45-60 Arbeitstage verlängert werden.

Welche bioinformatischen Ergebnisse erhalte ich?

Standardlieferungen: Rohsequenzierungsdaten (FASTQ), Qualitätskontrollbericht (FastQC, MultiQC), assembliertes Genom (FASTA) und Genannotation (GFF/GBK über Prokka). Für die Neusequenzierung: ausgerichtete Reads (BAM), Variantenaufrufe (VCF) mit SnpEff-Annotation. Optionale Zusatzleistungen: AMR-Gen-Detektion (CARD, ResFinder), Virulenzfaktor-Annotation (VFDB), Plasmidrekonstruktion, Prophagenvorhersage, CRISPR-Array-Detektion und vergleichende Genomik (Pan-Genom, Phylogenie).

Wie vergleicht sich die Kosten für die bakterielle WGS mit der 16S-Sequenzierung bei großen Isolatsammlungen?

Eine einzelne 16S Sanger-Sequenz kostet 5-15 $. Eine einzelne bakterielle WGS kostet 100-500 $. Für 100 Isolate kostet 16S 500-1.500 $, während WGS 10.000-30.000 $ kostet. Die Entscheidung hängt von den benötigten Informationen ab: Wenn die Taxonomie allein ausreicht, ist 16S deutlich wirtschaftlicher. Wenn Geninhalt, AMR-Profile und SNP-Ebene erforderlich sind, liefert WGS Informationen, die 16S zu keinem Preis bieten kann. Viele Projekte nutzen 16S für das erste Screening großer Sammlungen und reservieren WGS für Isolate von Interesse, die durch das 16S-Screening identifiziert wurden.

Referenzen:

Wick RR, Judd LM, Gorrie CL, Holt KE. Unicycler: Auflösung bakterieller Genomassemblierungen aus kurzen und langen Sequenzierungsdaten. PLoS Computational Biology2017;13(6):e1005595. doi:10.1371/journal.pcbi.1005595
Wick RR, Holt KE. Benchmarking von Long-Read-Assemblierern für die Ganzgenomsequenzierung von Prokaryoten. F1000Research. 2021;8:2138. doi:10.12688/f1000research.21782.4
McCluskey K, Wiest AE, Grigoriev IV, et al. Wiederentdeckung durch Whole Genome Sequencing: Klassische Mutationen und Genom-Polymorphismen in Neurospora crassa. G3: Gene|Genome|Genetik2011;1(4):303-316. doi:10.1534/g3.111.000307
De Coster W, Weissensteiner MH, Sedlazeck FJ. Auf dem Weg zur bevölkerungsweiten Langzeit-Sequenzierung. Nature Reviews Genetics2021;22(9):572-587. doi:10.1038/s41576-021-00367-3
Danecek P, Bonfield JK, Liddle J, et al. Zwölf Jahre SAMtools und BCFtools. GigaScience. 2021;10(2):giab008. doi:10.1093/gigascience/giab008
Parks DH, Imelfort M, Skennerton CT, Hugenholtz P, Tyson GW. CheckM: Bewertung der Qualität von mikrobiellen Genomen, die aus Isolaten, Einzelzellen und Metagenomen gewonnen wurden. Genomforschung2015;25(7):1043-1055. doi:10.1101/gr.186072.114
Tatusova T, DiCuccio M, Badretdin A, et al. NCBI-Prokaryoten-Genom-Annotationspipeline. Nukleinsäurenforschung2016;44(14):6614-6624. doi:10.1093/nar/gkw569
Bush SJ, Foster D, Eyre DW, et al. Genomische Vielfalt beeinflusst die Genauigkeit von Pipelines zur Erkennung von bakteriellen Einzel-Nukleotid-Polymorphismen. GigaScience. 2020;9(2):giaa007. doi:10.1093/gigascience/giaa007

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.