What is the difference between de novo sequencing and re-sequencing?

De novo sequencing assembles a genome from scratch without a reference template — required for species without an existing reference genome. Re-sequencing aligns reads to an existing reference genome to identify variants — suitable when a high-quality reference already exists for the species. De novo costs 5–20× more than re-sequencing at equivalent depth because of the additional bioinformatic assembly and annotation work.

How much does whole genome sequencing cost?

Costs vary by genome size and coverage. A bacterial genome (5 Mb, 100×): $100–500. A mammalian genome (3 Gb, 30×): $500–800 for re-sequencing, $5,000–15,000 for de novo with annotation. A large plant genome (10 Gb, 30×): $2,000–5,000 for re-sequencing, $10,000–30,000 for de novo. Low-pass WGS at 1× costs $50–100 per sample for human-scale genomes. These figures are for sequencing and standard bioinformatics only, excluding DNA extraction.

What DNA quantity and quality do I need for WGS?

For Illumina short-read WGS: ≥200 ng of DNA at ≥10 ng/µL, OD 260/280 of 1.8–2.0. For PacBio HiFi: ≥5–15 µg of high-molecular-weight DNA with fragment sizes ≥20 kb. For Oxford Nanopore: ≥5–10 µg of HMW DNA with fragments ≥20 kb for standard libraries, or ≥1 µg for ultra-low input protocols. Degraded DNA with fragments <5 kb can still be sequenced on Illumina platforms but is unsuitable for long-read sequencing.

Why use long-read sequencing for de novo assembly?

Short reads (150–300 bp) cannot span repetitive elements — transposons, segmental duplications, centromeres, rRNA arrays — that are longer than the read length. The assembler hits a repeat, cannot determine how many copies exist or how they are arranged, and breaks the assembly into contigs. Long reads (10–100+ kb) span most repeats, producing 50–500× fewer contigs and resolving genome architecture that short-read assemblies collapse. For polyploid genomes, long reads can phase haplotypes into separate assemblies rather than collapsing them into a single mosaic consensus.

How do I choose between Illumina, PacBio, and Nanopore for my project?

Illumina/MGI: highest raw accuracy (Q30+), lowest cost per Gb, ideal for re-sequencing and variant calling. PacBio HiFi: high accuracy (Q30+) with 15–25 kb reads, ideal for de novo assembly of moderate-size genomes (≤3 Gb). Oxford Nanopore: longest reads (100+ kb) with moderate accuracy (Q20+, improving), ideal for resolving ultra-complex repeat structures in very large genomes. Hybrid approaches combine platforms: long reads for assembly continuity + short reads for base-level accuracy polishing.

What is the turnaround time for a WGS project?

Standard turnaround is 30–45 working days for bacterial WGS and 45–60 working days for plant/animal de novo projects, depending on genome size, coverage, and analysis complexity. Population-scale re-sequencing projects with hundreds to thousands of samples may extend to 60–90 working days due to library preparation throughput and data processing volume. Expedited timelines are available for time-sensitive projects.

Can CD Genomics handle large-scale population genomics projects?

Yes. CD Genomics supports population-scale re-sequencing projects with automated DNA extraction, 96-well plate library preparation, and sequencing on NovaSeq X Plus or MGI DNBSEQ-T7 platforms. Projects ranging from 100 to 10,000+ samples are accommodated, with tiered pricing that reduces per-sample costs as batch size increases.

What bioinformatic deliverables do I receive?

Standard deliverables include raw sequencing data (FASTQ), quality control reports (FastQC, MultiQC), and analysis-specific outputs: assembled genome (FASTA) with annotation (GFF/GBK) for de novo projects; variant call files (VCF) with annotation for re-sequencing; imputed genotypes for low-pass WGS. All data are delivered via secure download or hard drive for large datasets. Custom bioinformatic analyses are available for specific research requirements.

Whole-Genome-Sequenzierungsdienste für jede Genomgröße: Von bakteriellen Genomen bis hin zu großen Pflanzen- und Tiergenomen.

Q: Why use long-read sequencing for de novo assembly?

Short reads (150–300 bp) cannot span repetitive elements — transposons, segmental duplications, centromeres, rRNA arrays — that are longer than the read length. The assembler hits a repeat, cannot determine how many copies exist or how they are arranged, and breaks the assembly into contigs. Long reads (10–100+ kb) span most repeats, producing 50–500× fewer contigs and resolving genome architecture that short-read assemblies collapse. For polyploid genomes, long reads can phase haplotypes into separate assemblies rather than collapsing them into a single mosaic consensus.

Q: How do I choose between Illumina, PacBio, and Nanopore for my project?

Illumina/MGI: highest raw accuracy (Q30+), lowest cost per Gb, ideal for re-sequencing and variant calling. PacBio HiFi: high accuracy (Q30+) with 15–25 kb reads, ideal for de novo assembly of moderate-size genomes (≤3 Gb). Oxford Nanopore: longest reads (100+ kb) with moderate accuracy (Q20+, improving), ideal for resolving ultra-complex repeat structures in very large genomes. Hybrid approaches combine platforms: long reads for assembly continuity + short reads for base-level accuracy polishing.

Q: What is the turnaround time for a WGS project?

Standard turnaround is 30–45 working days for bacterial WGS and 45–60 working days for plant/animal de novo projects, depending on genome size, coverage, and analysis complexity. Population-scale re-sequencing projects with hundreds to thousands of samples may extend to 60–90 working days due to library preparation throughput and data processing volume. Expedited timelines are available for time-sensitive projects.

Q: Can CD Genomics handle large-scale population genomics projects?

Yes. CD Genomics supports population-scale re-sequencing projects with automated DNA extraction, 96-well plate library preparation, and sequencing on NovaSeq X Plus or MGI DNBSEQ-T7 platforms. Projects ranging from 100 to 10,000+ samples are accommodated, with tiered pricing that reduces per-sample costs as batch size increases.

Q: What bioinformatic deliverables do I receive?

Standard deliverables include raw sequencing data (FASTQ), quality control reports (FastQC, MultiQC), and analysis-specific outputs: assembled genome (FASTA) with annotation (GFF/GBK) for de novo projects; variant call files (VCF) with annotation for re-sequencing; imputed genotypes for low-pass WGS. All data are delivered via secure download or hard drive for large datasets. Custom bioinformatic analyses are available for specific research requirements.

Ein Mikrobiologe hat gerade ein neuartiges Bakterium aus Tiefsee-Sediment isoliert und benötigt dessen vollständiges Genom — alle 4,2 Megabasen — um die biosynthetischen Gencluster zu identifizieren, die eine vielversprechende antimikrobielle Verbindung produzieren. Ein Pflanzenzüchter benötigt eine Chromosomen-niveau Assemblierung eines 7,5-Gigabase hexaploiden Hafergenoms, um QTLs für Trockenresistenz mit sub-Zentimorgan-Auflösung zu kartieren. Ein Konsortium für Populationsgenomik benötigt Variantenaufrufe für 3.000 individuelle Lachsgenome zu Kosten, die das Stipendium nicht ruinieren. Diese drei Projekte betreffen alle die vollständige Genomsequenzierung — aber die Sequenzierungsstrategie, die Plattformwahl, die Abdeckungstiefe und das Budget unterscheiden sich um Größenordnungen.

Die gesamte Genomsequenzierung (WGS) ist die informationsreichste genomische Analyse, die verfügbar ist: Sie erfasst das gesamte nukleare Genom, von Einzelkopien-Genen über Tandemwiederholungen bis hin zu strukturellen Varianten, ohne die Verzerrungen, die bei gezielter Anreicherung oder Amplicon-Ansätzen auftreten. Dennoch ist "gesamte Genomsequenzierung" kein einheitlicher Service – es ist eine Familie von Strategien, die am einen Ende mit der de novo-Assemblierung von Bakterien und am anderen Ende mit der resequenzierung auf Bevölkerungsebene reicht, mit einer Abdeckung von 0,4× bis 100× und Preisschildern von unter 50 $ bis über 10.000 $ pro Probe. Die Wahl der falschen Kombination aus Plattform, Tiefe und Analysepipeline verwandelt ein knappes Budget in eine unterdimensionierte Studie oder sequenziert umgekehrt eine routinemäßige Aufgabe über, wobei Geld ausgegeben wird, das drei weitere Experimente hätte finanzieren können.

CD Genomics bietet Whole-Genome-Sequenzierung Dienstleistungen über das gesamte Spektrum der Genomgröße, von 5 Mb bakteriellen Genomen über 3 Gb Säugetiergenome bis hin zu 16 Gb Pflanzengenomen, auf Illumina-, MGI DNBSEQ-, PacBio SMRT- und Oxford Nanopore-Plattformen. Dieser Artikel ist ein strategischer Entscheidungsleitfaden: Welcher WGS-Ansatz passt zu Ihrer Genomgröße, Ihrer biologischen Fragestellung und Ihrem Budget?

Bakterielle WGS — Das schnelle Tor zur Genomik

Die bakterielle Ganzgenomsequenzierung ist das ausgereifteste und kosteneffizienteste Segment der WGS-Landschaft. Ein typisches bakterielles Genom von 4-6 Mb kann für 100-500 $ sequenziert, assembliert und annotiert werden, abhängig von der erforderlichen Assemblierungsqualität und Annotationstiefe. Bei diesen Preisen kostet die Sequenzierung von 100 bakteriellen Isolaten weniger als ein einziges Säugetiergenom, was die bakterielle WGS zum Einstiegspunkt für Labore macht, die neu genomische Ansätze übernehmen.

De Novo Assembly: Das Genom schließen

Die bakterielle WGS lässt sich klar in de novo-Assembly (für neuartige Isolate ohne Referenz) und Re-Sequenzierung (zum Vergleich von Stämmen mit einer bestehenden Referenz) unterteilen. De novo-Assembly rekonstruiert das vollständige Genom aus überlappenden Sequenzierungsreads ohne Vorlage. Die Qualität des Assemblies – gemessen an Contig N50, Anzahl der Contigs und Vollständigkeitsbenchmarking mit Tools wie BUSCO – hängt stark von der Mischung der Sequenzierungstechnologien ab.

Kurzlese-Assemblierungen, die mit Illumina NovaSeq oder MGI DNBSEQ bei 100-200× Abdeckung durchgeführt werden, erzeugen hochgenaue Contigs (Q40+), brechen jedoch an repetitiven Elementen: rRNA-Operons, Insertionsequenzen und Prophagenregionen. Das resultierende Entwurfgenom besteht typischerweise aus 20-100 Contigs anstelle eines einzelnen zirkulären Chromosoms. Für viele Anwendungen — Artenidentifikation, MLST-Typisierung, AMR-Gen-Nachweis — ist dies ausreichend.

Wenn eine vollständige Schließung erforderlich ist, überbrückt das Long-Read-Sequencing die Wiederholungen. PacBio HiFi-Lesungen (CCS-Modus, ≥99,9% Genauigkeit bei 10-25 kb) oder Oxford Nanopore-Lesungen (ultra-lang, 50-100+ kb, mit R10.4.1-Chemie, die >99% modale Genauigkeit erreicht) werden in 1-4 Contigs assembliert, und ein Polier-Schritt mit Kurzlesungen korrigiert verbleibende Indel-Fehler. Diese hybride Strategie liefert routinemäßig vollständige, zirkularisierte bakterielle Chromosomen ohne Lücken – der Goldstandard für Referenzgenome in Publikationsqualität. CD Genomics bietet bakterielle WGS auf allen drei Plattformen an, mit Abdeckungs-Empfehlungen von ≥50× für Illumina, ≥100× für PacBio und ≥100× für Nanopore, mit DNA-Eingangsvoraussetzungen von nur 200 ng für Kurzlesungsbibliotheken und 10-15 µg hochmolekularer DNA für Long-Read-Plattformen. Die Bearbeitungszeit beträgt je nach Komplexität der Assemblierung 30-45 Arbeitstage.

Für detailliertere Informationen zu bakteriellen Genomprojekten siehe unser Bakterielle Ganzgenomsequenzierung Dienstleistungsseite.

Jenseits des Genoms: Annotation und funktionale Profilierung

Die Zusammenstellung eines Genoms ist die Hälfte des Projekts. Die Annotierungs-Pipeline fügt die biologische Interpretationsschicht hinzu: Genvorhersage (kodierende Sequenzen, tRNAs, rRNAs, ncRNAs), funktionale Annotation gegen NR, GO, COG, KEGG, SwissProt, Pfam und CAZy-Datenbanken sowie spezialisierte Analysen für biomedizinisch oder industriell relevante Merkmale — Gene für antimikrobielle Resistenzen (CARD, ResFinder), Virulenzfaktoren (VFDB), Plasmidrekonstruktion, Prophagenvorhersage (PHASTER) und CRISPR-Array-Erkennung. Für vergleichende Genomikprojekte, die Dutzende oder Hunderte von Isolaten umfassen, identifiziert die Pan-Genom-Analyse das Kern-Genom (Gene, die von allen Stämmen geteilt werden) und das accessory Genom (Gene, die in Teilmengen vorhanden sind), und offenbart die evolutionären Dynamiken von Geneintrag und -verlust, die der Nischenanpassung und Pathogenität zugrunde liegen.

Bacterial WGS Assembly Quality Comparison — Three-column comparison chart Abbildung 1: Vergleich der Qualitätsbewertung von bakteriellen WGS-Assemblierungen — Dreispaltiger Vergleich, der den Kompromiss zwischen Kosten und Vollständigkeit auf jeder Ebene zeigt. Spalte 1 — Entwurf (Nur Kurzlese): Illumina 150 bp PE, ~60 Kontigs, N50 ~200 kb, ~97% BUSCO, 100-200 $/Genom, geeignet für Artenidentifikation und AMR-Screening. Spalte 2 — Nahezu vollständig (Hybrid): PacBio HiFi + Illumina-Politur, 1-4 Kontigs, N50 ~4 Mb, ~99,5% BUSCO, 300-500 $/Genom, geeignet für Referenzgenome in Publikationsqualität. Spalte 3 — Vollständig (Multi-Plattform): ONT ultra-lang + HiFi, 1 zirkuläres Chromosom, 100% BUSCO, 500-800 $/Genom, geeignet für plasmidgelöste vollständige Referenzen. Farblich codierte Überschriften: orange (Entwurf), gelb (nahezu vollständig), grün (vollständig).

Pflanzen und Tiere De Novo – Entschlüsselung nicht-modellierter Organismen

Die de novo Genomsequenzierung von Pflanzen und Tieren ist eine grundlegend andere Herausforderung als die bakterielle WGS. Die Genomgrößen erstrecken sich über vier Größenordnungen: Das 125 Mb große Genom von Arabidopsis thaliana befindet sich am einen Ende, während das 16 Gb große hexaploide Weizengenom am anderen Ende liegt, mit Wiederholungsinhalten, die von 20 % bis über 85 % reichen. Polyploidie — häufig bei Pflanzen und weit verbreitet bei Nutzpflanzen (Weichweizen ist allohexaploid, Kartoffel ist autotetraploid, Zuckerrohr ist oktaploid) — erschwert die Assemblierung für Programme, die von Diploidie ausgehen. Hohe Heterozygotie bei Kreuzungsspezies erzeugt divergente Haplotypen, die, wenn sie in einen einzelnen Konsens zusammengefasst werden, fragmentierte Assemblierungen mit fehlendem biologischen Inhalt produzieren.

Die Technologie-Strategie, die diese Probleme gelöst hat, ist das Long-Read-Sequencing in Kombination mit Chromatin-Konformationsfängung. PacBio HiFi-Lesungen (15-25 kb, Q30+) bieten Kontinuität auf der Contig-Ebene und erreichen routinemäßig Contig N50-Werte von 10-50 Mb für Pflanzengenomen. Oxford Nanopore Ultra-Long-Reads (100+ kb) überbrücken die größten Wiederholungen – ribosomale DNA-Arrays, zentromerische Satelliten, segmentale Duplikationen – die selbst von HiFi-Lesungen nicht erfasst werden können. Hi-C (Chromatin-Konformationsfängung) strukturiert die Contigs in chromosomale Pseudomoleküle, indem es die physische Nähe von DNA-Fragmenten innerhalb desselben Chromosoms ausnutzt. Das Ergebnis ist eine chromosomale Assemblierung mit Telomer-zu-Telomer (T2T) Vollständigkeit für jeden Chromosomenarm.

CD Genomics bietet umfassende de novo WGS für Pflanzen und Tiere an durch Pflanzen- und Tier-Whole-Genome-De-Novo-Sequenzierung und De Novo Ganzgenom-Sequenzierungsdienst, mit empfohlenen Sequenzierungsstrategien, die nach Genomkomplexität stratifiziert sind:

Einfache Genome (≤1 Gb, diploid, moderater Wiederholungsgehalt): PacBio HiFi mit 30-50× Abdeckung plus Illumina Kurzlese-Politur. Contig N50 Ziel: ≥3 Mb.
Komplexe Genome (1-5 Gb, polyploid, hohe Wiederholung): PacBio HiFi bei 50-60× oder ONT bei 100×, plus Hi-C bei 100× für Chromosomen-skalige Gerüstbildung. Contig N50 Ziel: ≥10 Mb.
Sehr große Genome (>5 Gb, hohe Ploidie): ONT ultra-lange Reads bei 100× plus Hi-C bei 100×. Contig N50 Ziel: ≥5 Mb.

Die Anforderungen an die DNA-Eingabe sind entsprechend höher als bei der bakteriellen WGS: ≥5-15 µg hochmolekularer DNA mit einem OD 260/280 von 1,8-2,0 und Fragmentgrößen von ≥20 kb für Langlesebibliotheken. Proben, die hinsichtlich der Menge oder der Fragmentlänge nicht ausreichen, können dennoch mit ausschließlich Kurzleseansätzen bei 50-100× sequenziert werden, jedoch wird die resultierende Entwurfsmontage eine erheblich niedrigere Kontinuität aufweisen.

Die bioinformatischen Ergebnisse für ein de novo Projekt gehen weit über die Assemblierung selbst hinaus: Genstrukturannotation (ab initio Vorhersage + RNA-seq evidenzbasierte + proteinbasierte Homologie, integriert mit MAKER oder BRAKER), funktionale Annotation, Wiederholungsannotation (de novo Wiederholungsbibliothekskonstruktion mit RepeatModeler + RepeatMasker), nicht-kodierende RNA-Annotation, Pseudogenidentifikation und vergleichende Genomik gegen verwandte Arten. Für landwirtschaftliche Arten umfassen zusätzliche Analysen QTL-Kartierung, Korrektur der Populationsstruktur in GWAS und Erkennung selektiver Sweep.

Ein repräsentatives de-novo-Projekt veranschaulicht die Auswirkungen der Technologiewahl. Eine Studie aus dem Jahr 2023, die das 2,3 Gb Maisgenom (B73-Ab10-Linie) mithilfe von PacBio HiFi mit 50× und Hi-C mit 100× zusammenstellte, produzierte eine Chromosomenebene-Assemblierung mit einem Contig N50 von 61,2 Mb und einer BUSCO-Vollständigkeit von 99,7 % – und erfasste die Knopf-Wiederholungen, zentromerischen Satellitenanordnungen und rDNA-Cluster, die zwei Jahrzehnte lang die Assemblierungen mit kurzen Reads besiegt hatten. Das gesamte Projekt, von der DNA-Extraktion bis zum annotierten Genom, wurde in weniger als sechs Monaten zu Kosten von etwa 15.000 $ abgeschlossen und zeigt, dass Referenzqualitäts-Assemblierungen komplexer Pflanzengenomen jetzt in einem Zeitrahmen und Budget erreichbar sind, die für einzelne Forschungsgruppen zugänglich sind.

Skalierung — Bevölkerungs- und Re-Sequenzierungsprojekte

Sobald ein Referenzgenom existiert, verschiebt sich der analytische Rahmen von "Was ist in diesem Genom?" zu "Wie unterscheidet sich dieses Genom von der Referenz – und was bedeuten diese Unterschiede?" Die Populations-Scale-Re-Sequenzierung beantwortet Fragen zur genetischen Vielfalt, zur Domestikationsgeschichte, zur lokalen Anpassung und zu Genotyp-Phänotyp-Assoziationen, indem Hunderte bis Tausende von Individuen mit einer gemeinsamen Referenz verglichen werden.

Die Wirtschaftlichkeit der Bevölkerungsgenomik (WGS) hat sich im vergangenen Jahrzehnt verändert. Das erste menschliche Genom kostete etwa 3 Milliarden US-Dollar. Heute kostet ein 30× menschliches WGS ungefähr 500-800 US-Dollar über großangelegte Kernanlagen, und landwirtschaftliche Genome — mit ähnlichen Größen wie das menschliche Genom, aber weniger anspruchsvollen Abdeckungsanforderungen für die Entdeckung von Varianten — können bei 10-20× für 150-300 US-Dollar pro Probe in Chargen von Hunderten sequenziert werden. Bei diesen Preisniveaus kann ein Zuschuss von 50.000 US-Dollar die Neusequenzierung des gesamten Genoms von 150-300 Individuen finanzieren, anstatt der 15-30, die vor einem Jahrzehnt möglich waren.

CD Genomics unterstützt die bevölkerungsweite Neusequenzierung durch seine Whole Genome Resequenzierung Service und Long-Read Whole Genome Resequencing-Service. Die analytischen Ergebnisse für die Resequenzierung unterscheiden sich grundlegend von de novo: Variantenaufruf (SNPs, kleine Indels, strukturelle Varianten, Kopienzahlvarianten) im Vergleich zum Referenzgenom, populationgenetische Statistiken (Nukleotiddiversität π, Fst, Tajimas D), Zerfall der Kopplungsungleichgewichts, Analyse der Populationsstruktur (PCA, ADMIXTURE, phylogenetische Bäume), Erkennung selektiver Sweeps (XP-CLR, iHS, Fst-Ausreißer) und GWAS oder QTL-Kartierung für phänotypassoziierte Loci.

Für landwirtschaftliche Zuchtprogramme ersetzt die Integration von WGS mit genomischer Selektion (GS) und genomischen Vorhersagemodellen (GP) die markergestützte Selektion durch die Vorhersage des gesamten Genoms: Anstatt nur eine Handvoll mit QTL verbundenen Marker zu verfolgen, prognostizieren Züchter die Zuchtwerte aus genomweiten SNP-Profilen und erreichen Vorhersagegenauigkeiten von 0,5-0,8 für komplexe Merkmale wie Ertrag, Trockenheitstoleranz und Krankheitsresistenz. Eine Studie aus dem Jahr 2024, die 3.008 Atlantische Lachse mit 12× Abdeckung resequenzierte, identifizierte 18,7 Millionen SNPs und nutzte genomische Vorhersagen, um die Farbe und den Fettgehalt des Filets vorherzusagen, mit Korrelationen von über 0,7, die direkt Zuchtentscheidungen in der Aquakultur informierten.

Die praktischen Logistik eines bevölkerungsweiten Projekts unterscheiden sich von der Genomforschung im Labormaßstab. Die DNA-Extraktion wird zum Engpass – 1.000 Proben erfordern eine automatisierte Extraktion mit Flüssigkeitshandhabungsgeräten. Die Bibliotheksvorbereitung in 96-Well-Platten mit dualem Index-Barcoding minimiert das Risiko von Kreuzkontaminationen. Die Sequenzierung auf NovaSeq X Plus oder MGI DNBSEQ-T7-Geräten, die 6-16 Tb pro Lauf erzeugen, verarbeitet Dutzende bis Hunderte von Genomen gleichzeitig. Die bioinformatische Analyse wechselt von interaktiver Desktop-Arbeit zu Hochleistungsrechner-Pipelines, die GATK-Best-Practices-Workflows oder DeepVariant-basierte Aufrufe auf Rechenclustern ausführen.

Tiefe Entscheidungen — Tiefpass vs. Hochabdeckungs-WGS

Nicht jedes Projekt benötigt eine 30-fache Abdeckung. Der Kompromiss zwischen Sequenzierungstiefe und Proben-Durchsatz ist die entscheidendste Entscheidung im Design von WGS-Projekten, und die optimale Antwort hängt von der biologischen Fragestellung ab, nicht von einem festen Standard.

Low-Pass WGS (0,4-5×)

Low-Pass-Ganzgenomsequenzierung, auch als flache WGS oder Niedrigabdeckungs-WGS bezeichnet, sequenziert das Genom mit einer durchschnittlichen Tiefe von 0,4-5× und verwendet Genotyp-Imputation — statistische Inferenz von nicht beobachteten Genotypen aus einem Referenzpanel von Haplotypen — um die Lücken zu schließen. Der Ansatz nutzt die Tatsache aus, dass benachbarte SNPs auf demselben Chromosom in Haplotypblöcken ko-vererbt werden; das Beobachten eines Bruchteils von ihnen schränkt die Identität der restlichen mit hoher Wahrscheinlichkeit ein, wenn ein geeignetes Referenzpanel vorhanden ist.

Die Leistungszahlen sind beeindruckend. Bei einer Abdeckung von 0,4-1× erholt die Low-Pass-WGS über 99 % der häufigen Varianten (MAF >1 %) mit einer Imputationsgenauigkeit von r² >0,9, wenn große, bevölkerungsangepasste Referenzpanels wie das Haplotype Reference Consortium (HRC) oder 1000 Genomes für Menschen oder rassespezifische Panels für Nutztiere verwendet werden. Für GWAS entspricht die Low-Pass-WGS bei 1× Abdeckung der statistischen Power oder übertrifft diese von Hochdichte-SNP-Arrays (600K-900K Marker), während sie neuartige Varianten entdeckt, die feste Arrays aufgrund ihres Designs übersehen. Die Kosten pro Probe bei 1× Abdeckung liegen bei 50-100 $, verglichen mit 30-80 $ für ein Hochdichte-SNP-Array — aber die WGS-Daten sind für zukünftige Analysen wiederverwendbar, während sich die Referenzpanels und Imputationsalgorithmen verbessern, während Array-Daten an die Marker auf dem Chip gebunden sind.

CD Genomics bietet Low-Pass-WGS über seine an. Oberflächliche Ganzgenomsequenzierung Service auf Illumina- und MGI-Plattformen mit standardisierten Analyse-Pipelines, die imputierte Genotypen, Analysen der Populationsstruktur und GWAS-bereite Daten liefern.

Hochabdeckende WGS (30×+)

Deep WGS mit 30× oder höherer Abdeckung ermöglicht die direkte Beobachtung von Varianten anstelle von auf Imputation basierenden Inferenz. Dies ist notwendig, wenn: (a) die interessierenden Varianten selten sind (MAF <0,1 %) und die Imputationsgenauigkeit unter r² von 0,6-0,8 abnimmt; (b) strukturelle Varianten — Deletionen, Duplikationen, Inversionen und Translokationen — primäre Ziele sind, da diese aus Niedrigdurchsatzdaten schlecht imputiert werden; (c) de novo Mutationen erkannt werden müssen, da diese definitionsgemäß in keinem Referenzpanel vorhanden sind; (d) der Bevölkerung ein geeignetes Imputationsreferenzpanel fehlt, was bei Nicht-Modellorganismen und unterrepräsentierten Populationen häufig der Fall ist.

Die Kosten für tiefes WGS sind gesunken, bleiben jedoch für große Kohorten erheblich. Ein 30× menschliches Genom kostet 500-800 USD; ein 30× bovines Genom (ähnliche Größe) kostet 400-600 USD. Für Pflanzengenomen, die 5 Gb überschreiten, treiben 30× Abdeckungen die Kosten auf 2.000-5.000 USD pro Probe. Bei diesen Preisen ist tiefes WGS für Referenzqualitätsassemblierungen, Entdeckungskohorten, die die nachgelagerte Studiengestaltung informieren, und Projekte reserviert, bei denen die analytische Frage tatsächlich eine direkte Beobachtung von Varianten erfordert.

Entscheidungsrahmen: Niedrigpass vs. Hochabdeckung

Die Wahl zwischen Low-Pass- und Hochabdeckungs-WGS hängt von vier Faktoren ab:

Studienaufbau: GWAS von häufigen Varianten in gut charakterisierten Populationen → Low-Pass. Assoziation seltener Varianten, SV-Entdeckung oder de novo Mutationsdetektion → Deep.
Verfügbarkeit des Referenzpanels: Hochwertige, bevölkerungsangepasste Referenzpanels → Low-Pass ist machbar. Kein Referenzpanel → tiefes WGS ist erforderlich.
Budgetzuweisung: Festes Budget von 50.000 $ → ungefähr 500-1.000 Proben bei Low-Pass im Vergleich zu 50-100 Proben bei Deep. Die statistische Power für GWAS mit häufigen Varianten begünstigt die größere Stichprobengröße.
Zukünftiger Nutzen: Daten, die für die Wiederverwendung über mehrere Analysen über Jahre hinweg gedacht sind → tiefes WGS bietet die größte Flexibilität. Einzweckanalyse mit Archivierung → Low-Pass ist ausreichend.

Für einen detaillierteren Vergleich von SNP-Arrays, Low-Pass-WGS und Deep-WGS mit Kosten- und Genauigkeitsbenchmarks siehe CD Genomics. Ein Anfängerleitfaden zur Low-Pass-Ganzgenomsequenzierung.

The WGS Depth-Cost-Performance Continuum — Three-zone visualization Abbildung 2: Das WGS Tiefen-Kosten-Leistungs-Kontinuum — Eine Visualisierung in drei Zonen. Zone A: Low-Pass (0,4-5×, 50-100 $/Probe, >99% häufige Varianten durch Imputation, ideal für GWAS). Zone B: Moderat (10-20×, 150-300 $/Probe, direkte Variantenbestimmung, ideal für Populationsgenomik). Zone C: Tief (30-100×, 500-5000 $/Probe, umfassende Variantenerkennung, ideal für Referenzgenome und seltene Varianten). X-Achse: Sequenzierungstiefe. Y-Achse: Kosten pro Probe (logarithmische Skala). Farbverlauf von hell (Low-Pass) zu dunkel (tief).

Wie CD Genomics WGS bereitstellt

Ein WGS-Projekt bei CD Genomics folgt einer standardisierten, qualitätskontrollierten Pipeline von der Probenabgabe bis zu publikationsreifen Daten, wobei die Plattformwahl, Abdeckung und bioinformatische Analyse auf die Genomgröße des Projekts und die Forschungsziele abgestimmt sind.

Proben-zu-Daten-Workflow

Schritt 1: Probeneinreichung und Qualitätskontrolle. Kunden reichen extrahierte DNA oder biologische Proben zur Extraktion ein. Die eingehende Qualitätskontrolle misst die Konzentration (Qubit-Fluorometrie), die Reinheit (Nanodrop 260/280- und 260/230-Verhältnisse) und die Integrität (Agarose-Gelelektrophorese oder TapeStation zur Fragmentgrößenverteilung). Proben, die die Qualitätskontrolle nicht bestehen, werden sofort markiert, und ein Plan für eine erneute Extraktion oder Einreichung wird koordiniert.

Schritt 2: Bibliothekskonstruktion. Plattform-spezifische Bibliotheken werden mit der entsprechenden Einfügungsgröße vorbereitet (350-500 bp für Kurzlese-WGS, 15-20 kb für PacBio HiFi, keine Größenselektion für ONT ultra-lang). Für Projekte im Bevölkerungsmaßstab sorgt die Dual-Index-Barcodierung in 96-Well-Platten für die Rückverfolgbarkeit von Proben und minimiert Artefakte durch Index-Hopping.

Schritt 3: Sequenzierung. Die Sequenzierungstiefe wird in Echtzeit überwacht. Für Illumina- und MGI-Plattformen sind mindestens 80 % der Basen bei ≥Q30 Standard. Für PacBio HiFi werden CCS-Reads mit ≥Q30 (99,9 % Genauigkeit) erzeugt. Für ONT liefern die neuesten R10.4.1-Flow-Zellen mit supergenauer Basiserkennung (dorado) eine modale Genauigkeit von über 99 %.

Schritt 4: Bioinformatik. Die Analysepipeline ist auf den Projekttyp abgestimmt. De-novo-Assemblierung verwendet Hifiasm (HiFi), Flye (ONT) oder Unicycler (hybrid). Referenzbasierte Analysen nutzen BWA-MEM2 + GATK4 oder DeepVariant. Funktionale Annotation verwendet Prokka (Bakterien) oder MAKER2/BRAKER3 (Eukaryoten). Alle Pipelines enthalten Qualitätsmetriken: Assemblierungsstatistiken (N50, L50, BUSCO-Vollständigkeit), Variantenaufrufraten und Übergangs-/Transversionsverhältnisse sowie Plots zur Abdeckungsuniformität.

CD Genomics' Whole-Genome-Sequenzierung Dienstleistungen und De Novo Gesamte Genom-Sequenzierungsdienst decken gemeinsam das gesamte Spektrum der Genomgrößen und Projektgrößen ab, von einzelnen bakteriellen Isolaten bis hin zu mehrtausendproben Populationkohorten.

WGS Platform Selection Guide — Decision matrix table Abbildung 3: WGS-Plattform-Auswahlhilfe — Eine Entscheidungsmatrix mit vier Spalten. Die Zeilen repräsentieren Projekttypen (Bakterielles De Novo, Pflanzliches De Novo, Tierisches De Novo, Populations-Re-Seq, Low-Pass GWAS). Spalten: Empfohlene Plattform(en), Abdeckung, DNA-Eingang, Ungefährer Kosten pro Probe, Bearbeitungszeit. Farblich codierte Zellen zeigen optimale (grün), tragfähige (gelb) und nicht empfohlene (rot) Optionen an.

Häufig gestellte Fragen (FAQ)

Was ist der Unterschied zwischen de novo Sequenzierung und Re-Sequenzierung?

De-novo-Sequenzierung erstellt ein Genom von Grund auf ohne eine Referenzvorlage – erforderlich für Arten ohne ein bestehendes Referenzgenom. Die Nachsequenzierung richtet die Reads an einem bestehenden Referenzgenom aus, um Varianten zu identifizieren – geeignet, wenn bereits ein hochwertiges Referenzgenom für die Art existiert. De novo kostet 5-20× mehr als die Nachsequenzierung bei vergleichbarer Tiefe aufgrund der zusätzlichen bioinformatischen Zusammenstellungs- und Annotationsarbeiten.

Wie viel kostet die gesamte Genomsequenzierung?

Die Kosten variieren je nach Genomgröße und Abdeckung. Ein bakterielles Genom (5 Mb, 100×): 100-500 $. Ein mammales Genom (3 Gb, 30×): 500-800 $ für das erneute Sequenzieren, 5.000-15.000 $ für de novo mit Annotation. Ein großes Pflanzen-Genom (10 Gb, 30×): 2.000-5.000 $ für das erneute Sequenzieren, 10.000-30.000 $ für de novo. Low-pass WGS bei 1× kostet 50-100 $ pro Probe für menschliche Genome. Diese Zahlen beziehen sich nur auf Sequenzierung und Standard-Bioinformatik, ohne DNA-Extraktion.

Welche DNA-Menge und -Qualität benötige ich für WGS?

Für Illumina Short-Read WGS: ≥200 ng DNA bei ≥10 ng/µL, OD 260/280 von 1,8-2,0. Für PacBio HiFi: ≥5-15 µg hochmolekularer DNA mit Fragmentgrößen ≥20 kb. Für Oxford Nanopore: ≥5-10 µg HMW-DNA mit Fragmenten ≥20 kb für Standardbibliotheken oder ≥1 µg für Ultra-Niedrig-Eingangsprotokolle. Degradierte DNA mit Fragmenten <5 kb kann weiterhin auf Illumina-Plattformen sequenziert werden, ist jedoch für Long-Read-Sequenzierung ungeeignet.

Warum lange Lesesequenzierung für de novo Assemblierung verwenden?

Kurze Reads (150-300 bp) können sich nicht über repetitive Elemente erstrecken — Transposons, segmentale Duplikationen, Zentromere, rRNA-Arrays — die länger sind als die Read-Länge. Der Assembler trifft auf ein Repeat, kann nicht bestimmen, wie viele Kopien existieren oder wie sie angeordnet sind, und zerbricht die Assemblierung in Contigs. Lange Reads (10-100+ kb) überbrücken die meisten Repeats, produzieren 50-500× weniger Contigs und lösen die Genomarchitektur auf, die Assemblierungen mit kurzen Reads zusammenbrechen. Für polyploide Genome können lange Reads Haplotypen in separate Assemblierungen phasieren, anstatt sie in einen einzigen mosaikartigen Konsens zu zerlegen.

Wie wähle ich zwischen Illumina, PacBio und Nanopore für mein Projekt?

Illumina/MGI: höchste Rohgenauigkeit (Q30+), niedrigste Kosten pro Gb, ideal für Re-Sequenzierung und Variantenaufruf. PacBio HiFi: hohe Genauigkeit (Q30+) mit 15-25 kb Reads, ideal für de novo Assemblierung moderater Genome (≤3 Gb). Oxford Nanopore: längste Reads (100+ kb) mit moderater Genauigkeit (Q20+, verbessernd), ideal zum Auflösen ultra-komplexer Wiederholungsstrukturen in sehr großen Genomen. Hybride Ansätze kombinieren Plattformen: lange Reads für Kontinuität der Assemblierung + kurze Reads für Politur der Basisgenauigkeit.

Wie lange dauert es, ein WGS-Projekt abzuschließen?

Der Standarddurchlauf beträgt 30-45 Arbeitstage für bakterielle WGS und 45-60 Arbeitstage für pflanzliche/animalische de novo-Projekte, abhängig von der Genomgröße, Abdeckung und Analysekomplexität. Projekte zur Wieder-Sequenzierung im Bevölkerungsausmaß mit Hunderten bis Tausenden von Proben können auf 60-90 Arbeitstage verlängert werden, bedingt durch den Durchsatz der Bibliotheksvorbereitung und das Datenverarbeitungsvolumen. Beschleunigte Zeitrahmen sind für zeitkritische Projekte verfügbar.

Kann CD Genomics großangelegte Projekte in der Populationsgenomik durchführen?

Ja. CD Genomics unterstützt bevölkerungsweite Re-Sequenzierungsprojekte mit automatisierter DNA-Extraktion, Bibliotheksvorbereitung in 96-Well-Platten und Sequenzierung auf den Plattformen NovaSeq X Plus oder MGI DNBSEQ-T7. Projekte mit 100 bis über 10.000 Proben werden berücksichtigt, mit gestaffelten Preisen, die die Kosten pro Probe senken, je größer die Batchgröße ist.

Welche bioinformatischen Ergebnisse erhalte ich?

Standardlieferungen umfassen Rohsequenzierungsdaten (FASTQ), Qualitätskontrollberichte (FastQC, MultiQC) und analysespezifische Ausgaben: assembliertes Genom (FASTA) mit Annotation (GFF/GBK) für de novo-Projekte; Variantenaufrufdateien (VCF) mit Annotation für Nachsequenzierungen; imputierte Genotypen für Low-Pass-WGS. Alle Daten werden über einen sicheren Download oder eine Festplatte für große Datensätze bereitgestellt. Individuelle bioinformatische Analysen sind für spezifische Forschungsanforderungen verfügbar.

Referenzen:

Li H, Durbin R. Schnelle und genaue Ausrichtung kurzer Reads mit der Burrows-Wheeler-Transformation. Bioinformatik2009;25(14):1754-1760. doi:10.1093/bioinformatics/btp324
Koren S, Walenz BP, Berlin K, Miller JR, Bergman NH, Phillippy AM. Canu: skalierbare und genaue Langzeitassemblierung durch adaptive k-mer Gewichtung und Wiederholungsseparation. Genomforschung2017;27(5):722-736. doi:10.1101/gr.215087.116
Vaser R, Sovic I, Nagarajan N, Sikic M. Schnelle und genaue de novo Genomassemblierung aus langen, unkorrierten Reads. Genomforschung2017;27(5):737-746. doi:10.1101/gr.214270.116
Nurk S, Koren S, Rhie A, et al. Die vollständige Sequenz eines menschlichen Genoms. Wissenschaft. 2022;376(6588):44-53. doi:10.1126/science.abj6987
Wick RR, Judd LM, Gorrie CL, Holt KE. Unicycler: Auflösung bakterieller Genomassemblierungen aus kurzen und langen Sequenzierungsreads. PLoS Computational Biology2017;13(6):e1005595. doi:10.1371/journal.pcbi.1005595
Li H. Protein-zu-Genom-Ausrichtung mit Miniprot. Bioinformatik. 2023;39(1):btad014. doi:10.1093/bioinformatics/btad014
De Coster W, Weissensteiner MH, Sedlazeck FJ. Auf dem Weg zur bevölkerungsweiten Langzeit-Sequenzierung. Nature Reviews Genetics2021;22(9):572-587. doi:10.1038/s41576-021-00367-3
Delaneau O, Zagury J-F, Robinson MR, Marchini JL, Dermitzakis ET. Genau, skalierbar und integrative Haplotyp-Schätzung. Naturwissenschaftliche Kommunikation2019;10:5436. doi:10.1038/s41467-019-13225-y

Nur zu Forschungszwecken, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.