Low-Pass vs. High-Coverage WGS: Die richtige Sequenzierungstiefe für Ihre Forschungsziele und Ihr Budget wählen
Das Tiefenspektrum – Was jede Abdeckungsstufe tatsächlich bietet
Ein Populationsgenetiker, der eine GWAS mit 2.000 Sojabohnen-Zugängen plant, fragt: "Kann ich mit 1× Abdeckung und Imputation auskommen, oder brauche ich 10×?" Ein Krebsgenomik-Labor, das die klonale Evolution über 500 Einzelzellen verfolgt, fragt: "Reichen 30× aus, oder brauche ich 60×?" Ein Naturschutzbiologe mit einem Budget von 15.000 Dollar fragt: "Wie viele individuelle Genome kann ich mit welcher Tiefe sequenzieren, bevor ich kein Geld mehr habe?"
Diese drei Forscher teilen sich eine Frage, die auf drei Arten formuliert ist: Welche Sequenzierungstiefe benötige ich tatsächlich? Die Antwort ist nie eine einzelne Zahl – sie ist eine Funktion der biologischen Fragestellung, des interessierenden Varianten Typs, des verfügbaren Referenzpanels und des Budgets. Dieser Leitfaden bietet die Beweise, Kostenmodelle und Entscheidungsrahmen, um diese Frage zu beantworten.
CD Genomics bietet Whole-Genome-Sequenzierung auf jeder Tiefenstufe — von Ultra-Niederfrequenz (0,5×) für imputationsgestützte GWAS bis hin zu tiefen (30×+) für den Aufbau von Referenzpanels — ermöglicht es Projekten, die Tiefe genau auf die Forschungsziele abzustimmen, ohne für eine Abdeckung zu viel zu bezahlen, die sie nicht benötigen.
Die Sequenzierungstiefe (oder Abdeckung) ist die durchschnittliche Anzahl der Male, die jede Base im Genom vom Sequenzierer gelesen wird. Bei einer Abdeckung von 1× wird jede Base im Durchschnitt einmal gelesen – jedoch bedeutet die Poisson-Verteilung der Leseproben, dass ungefähr 37 % der Basen überhaupt nicht gelesen werden. Bei 30× sind mehr als 99,9 % der Basen mindestens einmal abgedeckt, und die durchschnittliche Tiefe an heterozygoten Varianten beträgt ungefähr 15 Reads – ausreichend, um echte Heterozygoten mit hoher Zuverlässigkeit von Sequenzierungsfehlern zu unterscheiden.
Tiefe ist nicht binär. Fünf operationale Ebenen definieren, welche Varianten erkannt werden können und welche Fragen beantwortet werden können:
| Tier | Abdeckung | Anteil des Genoms abgedeckt (≥1 Lesung) | Heterozygote Genotypgenauigkeit | Kosten/probe (Mensch, 2025) | Am besten geeignet für |
|---|---|---|---|---|---|
| Ultratiefpassfilter | 0,1–0,5× | 10–40 % | Nicht direkt aufgerufen (Imputation) | 15–30 $ | Biobank-Scale Abstammung, polygenetische Scores (PGS), umfassendes CNV-Screening |
| Tiefpass + Imputation | 0,5–4× | 40–98 % | Imputiert: r² 0,85–0,95 für häufige SNPs | 30–100 $ | GWAS von häufigen Varianten, genomische Selektion, Populationsstruktur |
| Standarddeckung | 10–15× | >99,9% | Genannt: >99% für SNPs | 150–250 $ | Auswahlscans, demografische Inferenz, Entdeckung seltener SNPs (MAF >2%) |
| Tiefgehende Berichterstattung | 25–35× | >99,99% | Genannt: >99,9% für SNPs | 250–400 $ | Referenzpanel-Konstruktion, hochkonfidente seltene Varianten (MAF 0,1–2%) |
| Ultra-tief | 50×+ | >99,999% | Genannt: >99,99% | 500–1.200+ $ | Somatischer Mosaizismus, Einzelzell-WGS, Tumor-Normal-Paare, Flüssigbiopsie |
Die kritische Variable ist nicht die Abdeckung an sich, sondern die Genotypgenauigkeit bei den Variantenklassen, die für Ihre Frage von Bedeutung sind. Ein mit einem gut abgestimmten Referenzpanel von 150.000 Haplotypen imputiertes 0,5× Genom kann r² > 0,90 für häufige SNPs (MAF > 5%) erreichen — was mit der Genauigkeit eines 500K SNP-Arrays konkurriert oder diese übertrifft (Rubinacci et al., 2023). Ein Benchmark zur Molekularökologie von 2026 durch Atsawawaranunt et al. zeigte, dass Methoden mit reduzierter Repräsentation (RADseq) falsch-positive Selektionssignale erzeugen, die durch Locus-Ausfälle in bestimmten Populationen verursacht werden — Fehler, die WGS, selbst bei niedriger Abdeckung, behebt, da die genomweite Probenahme das gesamte Allelfrequenzspektrum erfasst und nicht eine verzerrte Teilmenge. Verschiedene Tiefen ermöglichen unterschiedliche Biologien, und verschiedene Methoden haben unterschiedliche blinde Flecken.
Low-Pass WGS (0,5–4×) — Genotypisierung ohne das Budget zu sprengen
Low-Pass-Ganzgenomsequenzierung (lpWGS) sequenziert das gesamte Genom mit einer Abdeckung von 0,5× bis 4× und verwendet dann statistische Imputation – das Ableiten nicht beobachteter Genotypen aus einem Referenzpanel vollständig sequenzierter Haplotypen – um die fehlenden Daten zu ergänzen. Der Ansatz hat sich seit 2023 schnell weiterentwickelt, angetrieben von drei Entwicklungen: der GLIMPSE2-Imputations-Engine, die eine sublineare rechnerische Skalierung sowohl bei der Probenanzahl als auch bei der Markeranzahl erreicht (Verarbeitung eines 1× Genoms gegen 150.000 Haplotypen in ~11 Stunden zu <0,10 $ pro Genom); der Verfügbarkeit großer, populationsangepasster Referenzpanels (UK Biobank, gnomAD, All of Us, 1000 Genomes für Menschen; rasse- und populationsspezifische Panels für landwirtschaftliche Arten); und der Annäherung der Sequenzierungskosten an den Punkt, an dem 1× WGS weniger kostet als ein Mid-Density-SNP-Array und gleichzeitig eine genomweite Abdeckung ohne Selektionsbias bietet.
Wie Imputation das Low-Pass-Filtering ermöglicht
Die Imputation aus Daten mit geringer Abdeckung unterscheidet sich grundlegend von der Imputation aus SNP-Arrays. Die array-basierte Imputation beginnt mit 500K–2M bekannten Genotypen und füllt Lücken durch Haplotypanpassung. Die Low-Pass-Imputation beginnt mit spärlichen, genomweiten Genotyp-Wahrscheinlichkeiten – jede Position im Genom hat eine gewisse Wahrscheinlichkeit für jeden Genotyp, abgeleitet aus der Handvoll von Reads, die sie überlappen. Diese reichhaltigere Eingabe, kombiniert mit dem Li-Stephens versteckten Markov-Modell im Kern von GLIMPSE2, erzeugt genauere imputierte Genotypen als die array-basierte Imputation bei häufigen und seltenen Varianten, insbesondere in unterrepräsentierten Populationen auf kommerziellen Arrays.
Drei Werkzeuge definieren die aktuelle lpWGS-Imputationslandschaft:
- GLIMPSE2 (Rubinacci et al., 2023): Der Stand der Technik. Erfordert ein phasiertes Referenzpanel (SHAPEIT5-phasierte Haplotypen). Skaliert sublinear. Empfohlen für eine Tiefe von ≥0,5×. Leistet die besten Ergebnisse mit Referenzpanels von >1.000 Haplotypen.
--KDer Parameter (Anzahl der Bedingungszustände) sollte auf 2.000–4.000 erhöht werden für Populationen mit hoher genetischer Vielfalt.
- QUILT (Davies et al., 2021): Alternative zu GLIMPSE2, die vergleichbare Leistungen bei Tiefen ≥0,5× erbringt. Verwendet einen anderen algorithmischen Ansatz (diploides HMM, das sowohl Referenzhaplotypen als auch Leseinformationen gleichzeitig einbezieht). QUILT und GLIMPSE2 erreichen vergleichbare Genauigkeit für breite Ahneninferenz bei Tiefen von nur 0,15×, erfordern jedoch beide ≥0,5× für zuverlässige Genotypanrufe, die für GWAS geeignet sind (Rubinacci et al., 2023; Wasik et al., 2021).
- STITCH (Davies et al., 2016): Referenzfreie Imputation — erfordert kein phasiertes Referenzpanel. Stattdessen nutzt sie die Muster der Linkage-Disequilibrium direkt aus den Niedrigabdeckungs-Sequenzierungsdaten über viele Proben hinweg. Dies macht STITCH einzigartig wertvoll für Nicht-Modellorganismen ohne Referenzpanel, erfordert jedoch größere Stichprobengrößen (≥100 Individuen) und höhere Abdeckungen (≥2×), um eine Genauigkeit zu erreichen, die mit referenzbasierten Methoden vergleichbar ist. Eine Aquakulturstudie aus dem Jahr 2026 stellte fest, dass STITCH bei niedrigfrequenten Varianten im Schlammschneider unterperformte im Vergleich zu GLIMPSE2, jedoch für häufige Varianten-GWAS ausreichend war, wenn kein Referenzpanel vorhanden war.
Was der Low-Pass WGS erkennt – und was er verpasst
| Variant-Klasse | Erkennung bei 0,5–1× | Erkennung bei 2–4× | Notizen |
|---|---|---|---|
| Häufige SNPs (MAF >5%) | Ausgezeichnet (r² >0,90 über Imputation) | Ausgezeichnet (r² >0,95) | Vergleichbar mit 500K SNP-Array bei 1× |
| Niedrigfrequente SNPs (MAF 1–5%) | Gut (r² 0,75–0,85) | Sehr gut (r² 0,85–0,93) | Die Qualität des Referenzpanels ist der Engpass. |
| Seltene SNPs (MAF 0,1–1%) | Schlecht (r² <0,50) | Moderat (r² 0,50–0,70) | Benötigt ein großes, bevölkerungsangepasstes Referenzpanel |
| Private/neue SNPs | Undetektierbar | Sehr schlecht | Nicht durch Imputation wiederherstellbar — benötigt de novo Aufruf bei ≥10× |
| Große CNVs (>1 Mb) | Nachweisbar | Gut | cn.mops, CNVkit kann von 0,5–1× aufrufen. |
| Kleine CNVs (<100 kb) | Arm | Moderat | Die Auflösung verbessert sich mit der Tiefe. |
| Strukturelle Varianten | Arm | Schlecht–Mäßig | Erfordert ≥10× für zuverlässiges SV-Calling |
Die praktische Implikation: Wenn Ihre Forschungsfrage von häufigen und niederfrequenten Varianten getrieben wird — GWAS komplexer Merkmale, genomische Vorhersage in Zuchtpopulationen, Analyse der Populationsstruktur oder Ahneninferenz — liefert Low-Pass-WGS bei 1–2× mit Imputation eine statistische Power, die mit der von Deep WGS vergleichbar ist, und das zu einem Bruchteil der Kosten. Wenn Ihre Frage von seltenen, populationsprivaten oder de novo Varianten abhängt, ist Low-Pass das falsche Werkzeug.
Kosten-Effizienz: Der Vorteil des Tiefpassfilters in Zahlen
Betrachten Sie ein festes Budget von 50.000 $ für ein menschliches Genomprojekt im Maßstab 3 Gb:
| Tiefe Strategie | Proben sequenzierbar | Common-SNP GWAS-Power | Seltene Variantenidentifikation | Zukünftige Wiederverwendbarkeit |
|---|---|---|---|---|
| 30× tiefe WGS | ~170 | Gut (mäßig N) | Ausgezeichnet | Maximal |
| 10× Standard-WGS | ~330 | Besser | Gut | Hoch |
| 1× lpWGS + Imputation | ~1.600 | Beste (hohe N) | Keine | Moderat |
| 2× lpWGS + Imputation | ~800 | Sehr gut | Arm | Moderat |
Für die Power von GWAS bei häufigen Varianten dominiert die Stichprobengröße die Abdeckung über ~1×. Die Sequenzierung von 1.600 Individuen bei 1× wird mehr echte GWAS-Assoziationen finden als 170 Individuen bei 30× — dies ist die zentrale Erkenntnis, die seit 2023 die Einführung von lpWGS in Biobank-Maßstab und landwirtschaftlichen Zuchtprogrammen vorangetrieben hat.
CD Genomics Oberflächliche Ganzgenomsequenzierung Der Service bietet lpWGS auf Illumina- und MGI-Plattformen mit standardisierten Imputationspipelines (GLIMPSE2 + SHAPEIT5-phasierte Referenzpanels) und liefert analyseready Genotypaufrufe für GWAS, genomische Selektion und Populationsstrukturanalysen. Für Projekte, die niedrigdeckende Screenings mit gezielter tiefgreifender Validierung kombinieren, bietet CD Genomics' Whole-Genome SNP-Genotypisierung Der Service bietet eine orthogonale Validierung der imputierten Genotypen an ausgewählten Loci.
Abbildung 1: Low-Pass WGS Workflow und Imputationsgenauigkeit — Eine 3-Panel-Illustration. Linkes Panel: Ein Schema des lpWGS-Workflows — spärliche Reads über ein Chromosomensegment, Berechnung der Genotyp-Wahrscheinlichkeiten an jeder Position, Imputation gegen ein phasiertes Referenzpanel, Ausgabe der imputierten Genotypen mit Dosierung und Qualitätswerten. Mittleres Panel: Ein Liniendiagramm, das die Imputationsgenauigkeit (r² auf der Y-Achse) im Vergleich zur minoren Allelfrequenz für drei Abdeckungsniveaus (0,5×, 1×, 2×) zeigt, das den MAF-abhängigen Genauigkeitsabfall demonstriert. Rechtes Panel: Ein Balkendiagramm, das die GWAS-Power für 30× WGS bei 200 Proben im Vergleich zu 1× lpWGS bei 2.000 Proben für ein simuliertes polygenes Merkmal vergleicht und zeigt, dass lpWGS mit größerem N besser abschneidet als tiefes WGS mit kleinerem N.
Standardabdeckung (10–30×) — Das Arbeitstier der Re-Sequenzierung
Die Standardabdeckung von WGS bei 10–30× ist die Vorgabe für Projekte, bei denen individuelle Genotypen mit hoher Zuverlässigkeit bestimmt – nicht imputiert – werden müssen. Bei 10× wird ungefähr 99,5% des Genoms von mindestens einem Read abgedeckt; bei 30× ist die Abdeckung praktisch vollständig (>99,99%) und heterozygote Aufrufe werden durch eine Mediananzahl von 15 Reads unterstützt, was die statistische Power bietet, echte Heterozygoten von Sequenzierungsfehlern mit einer Genauigkeit von >99,9% zu unterscheiden (DePristo et al., 2011).
Was die Standarddeckung ermöglicht
De novo SNP- und Indel-Entdeckung. Im Gegensatz zu imputationsbasierten Ansätzen unterstützt der Standard-Coverage die variantenspezifische Anrufung pro Probe mit GATK HaplotypeCaller oder DeepVariant, wobei Varianten ohne Abhängigkeit von einem Referenzpanel erkannt werden. Dies ist entscheidend für Nicht-Modellorganismen, gemischte Populationen und Studien, in denen neuartige oder populationsprivate Varianten im Vordergrund stehen. Der Sensitivitätsgewinn von 10× auf 30× ist erheblich für seltene Varianten: Bei 10× wird ein heterozygoter SNP mit MAF von 0,5% bei etwa 85% der Träger erkannt; bei 30× steigt dieser Wert auf über 97% (Zhao et al., 2020).
Populationsgenetische Inferenz. Auswahlsscans (XP-CLR, iHS, nSL), demografische Rekonstruktion (PSMC, MSMC2, Stairway Plot 2) und Statistiken zur Populationsdifferenzierung (Fst, D-Statistik) profitieren alle von aufgerufenen Genotypen anstelle von imputierten Dosen – insbesondere wenn die Analyse Allelfrequenzspektren umfasst, bei denen Imputation die Häufigkeitsverteilung an niedrigen Frequenzen glätten oder verzerren kann. Für die PSMC-Analyse, die heterozygoten Aufruf über ein einzelnes diploides Genom erfordert, sind 15–20× das praktische Minimum.
Erkennung von strukturellen Varianten. Zuverlässige SV-Erkennung erfordert Lesetiefe, Split-Read- und gepaarte End-Diskrepanzen, die bei niedriger Abdeckung spärlich oder nicht vorhanden sind. Manta, Delly und Lumpy — die Standard-SV-Caller — erreichen eine Sensitivität von über 80 % für Deletionen >1 kb und Duplikationen >5 kb bei 15× in einem 3 Gb Genom; bei 30× übersteigt die Sensitivität für dieselben SV-Klassen 95 %. Für SV-fokussierte Studien führt eine Abdeckung unter 15× zu einer unakzeptabel hohen Rate an falsch-negativen Ergebnissen.
Wann 10× genug ist, wann 30× benötigt wird
| Anwendung | 10× Ausreichend? | 15× Ausreichend? | 30× empfohlen? |
|---|---|---|---|
| SNP-Calls (häufig, MAF >5%) | Ja | Ja | Übermaß |
| SNP-Identifizierung (selten, MAF <1%) | Marginal | Angemessen | Ja |
| Indel-Erkennung (<50 bp) | Marginal | Angemessen | Ja |
| SV-Erkennung (>1 kb) | Marginal | Angemessen | Ja |
| PSMC demografische Inferenz | Nein (≥18×) | Marginal | Ja |
| HLA/phased Haplotypenbestimmung | Nein | Nein | Ja |
| De-novo-Mutationsdetektion (Trio) | Nein | Nein | Ja (≥30× pro Probe) |
| Referenzpanelkonstruktion | Nein | Nein | Ja |
Eine praktische Regel: Für die Entdeckung von Einzel-Nukleotid-Varianten in Arten mit bestehenden Referenz-Panels ist 10× kosteneffektiv. Für jede Analyse, die Indels, strukturelle Varianten, Phasierung oder seltene Varianten umfasst, sollten Sie mit 30× rechnen. Die zusätzlichen Kosten für den Wechsel von 10× auf 30× — etwa 100–200 $ pro Probe zu den aktuellen Preisen — bringen unverhältnismäßige Vorteile in der Sensitivität der Variantenentdeckung und der zukünftigen Datenverwendbarkeit.
Eine repräsentative Anwendung: Das USDA-ARS-Sojabohnen-Pangenom-Projekt hat 300 neu sequenziert. Soja (Glycine max) Zugänge bei 15× zur Charakterisierung der Nukleotiddiversität (π), zur Identifizierung von selektiven Sweeps über XP-CLR und zur Rekonstruktion des Domestikationsengpasses mit PSMC. Bei 15× erreichten die aufgerufenen Genotypen eine Übereinstimmung von >99% mit tiefen WGS für SNPs mit MAF >2%, und MSMC2 rekonstruierte erfolgreich den bekannten ~8.000-jährigen Domestikationsengpass – Analysen, die mit imputierten 1× Genotypen unzuverlässig gewesen wären. Für population genomische Inferenz, die von Allelfrequenzspektren abhängt, anstatt von Genotypaufrufen auf individueller Ebene, stellt 15× einen pragmatischen Sweet Spot zwischen Kosten und Datenqualität dar.
Abbildung 2: Abdeckung vs. Sensitivität der Variantenerkennung — Ein Mehrlinien-Diagramm, das die Sensitivität der Variantenerkennung (Y-Achse, 0–100%) in Abhängigkeit von der Sequenzierungstiefe (X-Achse, 1× bis 60×) zeigt. Fünf Kurven, die verschiedene Variantentypen repräsentieren: homozygote SNPs (gelb, >95% bei 5×), heterozygote SNPs (blau, >95% bei 15×), kleine Indels 1–10 bp (grün, >90% bei 20×), große Deletionen >1 kb (orange, >90% bei 25×) und de novo Mutationen (rot, >90% bei 40×). Gepunktete vertikale Referenzlinien bei 10× und 30×. Sauberer weißer Hintergrund, wissenschaftliche Plot-Ästhetik, minimale Gitterlinien.
Hohe Abdeckung (30×+) — Seltene Varianten, somatische Mutationen und Referenzgenome
Deep WGS bei ≥30× nimmt eine besondere Nische ein: Es ist erforderlich, wenn die interessierenden Varianten einzeln selten, somatisch erworben oder als Gemeinschaftsreferenzressource für Jahre der Wiederanalyse dienen müssen.
Seltene Variantenassoziationstests
Seltene Varianten (MAF <1%) tragen unverhältnismäßig zur fehlenden Heritabilität komplexer Merkmale bei und sind die Hauptziele von genbasierten Assoziationstests (SKAT-O, Belastungstests). Die Identifizierung einer seltenen heterozygoten Variante erfordert eine ausreichende Lesetiefe, um das alternative Allel von Sequenzierungsfehlern zu unterscheiden: Bei 30× hat eine heterozygote Stelle eine mediane Tiefe des alternativen Allels von 15 Reads, und die Wahrscheinlichkeit, ≥3 alternative Allele allein durch Sequenzierungsfehler (Q30 Basisqualität → 0,1% Fehlerquote) an einer homozygoten Referenzstelle zu beobachten, beträgt ungefähr 10⁻⁶. Bei 10× steigt dieselbe Wahrscheinlichkeit auf ~10⁻³, was zu falsch-positiven Aufrufen seltener Varianten führt, die Assoziationssignale verwässern. Bei Belastungstests seltener Varianten in Kohorten von >1.000 Individuen ist die falsch-positive Entdeckungsrate seltener Varianten bei 10× 3–5× höher als bei 30×, was die statistische Power direkt verringert.
Referenzpanelbau
Hochwertige Imputationsreferenzpanels — das Rückgrat von Low-Pass-WGS-Strategien — basieren selbst auf tief sequenzierten Genomen. Das gnomAD-Referenzpanel verwendet 30× PCR-freie Illumina-WGS; das Hochdurchsatz-Phase des 1000 Genomes Project nutzte 30×; TOPMed verwendet 30–38×. Die Logik ist zwar zirkulär, aber schlüssig: Man benötigt eine relativ kleine Anzahl tief sequenzierter Genome, um die Kosteneffizienz der Niedrigabdeckung-Sequenzierung für Tausende weitere zu erschließen. Für Nicht-Modellorganismen reicht es aus, 50–100 genetisch repräsentative Individuen mit ≥25× zu sequenzieren und mit SHAPEIT5 zu phasieren, um ein maßgeschneidertes Referenzpanel zu erstellen, das ausreicht, um die verbleibende Kohorte mit 1–4× und >94% Übereinstimmung zu imputieren, wie am allo-oktoploiden Erdbeer (Koorevaar et al., 2025) demonstriert.
Somatische Mutationsdetektion
Die Krebsgenomik, die Altersforschung und Studien zur klonalen Evolution erfordern die Unterscheidung zwischen echten somatischen Varianten – die in einem Bruchteil der Zellen vorhanden sind – und Keimbahn-Heterozygoten sowie Sequenzierungsfehlern. Bei 30× hat eine somatische Variante, die in 10 % der Zellen vorhanden ist, eine mediane Tiefe des alternativen Allels von 1,5 Reads – am Rand der Nachweisbarkeit. Bei 60× hat dieselbe Variante eine mediane Tiefe von 3 Reads und überschreitet den standardmäßigen Mindestschwellenwert für somatische Aufrufe (≥3 unterstützende Reads). Für die Einzelzell-WGS oder die Detektion von somatischen Varianten mit ultra-niedriger Frequenz ist 60–100× der operationale Standard.
CD Genomics bietet 30× WGS auf den Plattformen Illumina NovaSeq und DNBSEQ an durch seine Whole-Genome-Sequenzierung Dienstleistung, mit optionalem Long-Read-Ergänzungsangebot über Long-Read-Sequenzierungsdienste zur Auflösung struktureller Varianten und Haplotyp-Phasierung.
Die verborgenen Kosten der Tiefe — Speicher, Rechenleistung und Zeit
Die Sequenzierungstiefe ist nicht nur ein Kostenfaktor für Reagenzien – sie erzeugt auch ein proportionales Datenvolumen, eine Speicherbelastung und Rechenzeit. Diese versteckten Kosten übersteigen oft die Kosten der Sequenzierung selbst über den Lebenszyklus eines Projekts.
Datenproduktion auf jeder Tiefenstufe
| Tiefe | FASTQ-Größe (3 Gb Genom) | BAM-Größe | CRAM-Größe | Gesamt pro Probe | 1.000 Proben |
|---|---|---|---|---|---|
| 0,5× | ~1,5 GB | ~1 GB | ~0,5 GB | ~3 GB | ~3 TB |
| 1× | ~3 GB | ~2 GB | ~1 GB | ~6 GB | ~6 TB |
| 4× | ~12 GB | ~8 GB | ~4 GB | ~24 GB | ~24 TB |
| 10× | ~30 GB | ~20 GB | ~10 GB | ~60 GB | ~60 TB |
| 30× | ~90 GB | ~60 GB | ~30 GB | ~180 GB | ~180 TB |
| 60× | ~180 GB | ~120 GB | ~60 GB | ~360 GB | ~360 TB |
Das CRAM-Format reduziert den Speicherbedarf für Ausrichtungen um 40–50 % im Vergleich zu BAM. Für Genotypdaten erreicht das PGEN-Format (PLINK 2.0) eine Kompression von 98 % im Vergleich zu flachen Text-VCFs — eine 2 TB große Genotypmatrix wird auf etwa 40 GB. Diese Formatwahl ist nicht kosmetisch; für ein Projekt mit 1.000 Proben bei 30× spart die Wahl von CRAM + PGEN von Anfang an etwa 100 TB Speicherplatz, was sich über einen Projektlebenszyklus von 5 Jahren in Kosten für Cloud-Speicher von 25.000–50.000 $ übersetzt.
Kosten steigen mit der Tiefe
Die Ausrichtung mit BWA-MEM2 skaliert ungefähr linear mit der Anzahl der Reads – ein 30× Genom benötigt etwa 30× länger für die Ausrichtung als ein 1× Genom. Die gemeinsame Genotypisierung mit GATK skaliert weniger günstig: Die Verarbeitungszeit von GenomicsDBImport ist ungefähr proportional zur Anzahl der Variantenstandorte, die selbst sublinear mit der Tiefe skaliert (abnehmende Erträge jenseits von ~15× für SNP-Entdeckung), aber die Laufzeit von GenotypeGVCFs skaliert sowohl mit der Anzahl der Proben als auch mit der Tiefe. Für eine Kohorte von 1.000 Proben bei 10× erfordert die gemeinsame Genotypisierung etwa 500 Kernstunden und 500 GB RAM; bei 30× benötigt dieselbe Kohorte etwa 1.500 Kernstunden und 1 TB RAM – eine 3× Erhöhung der Rechenkosten für einen 2× Gewinn an Sensitivität für seltene Varianten.
Die Entscheidung zwischen Cloud und HPC auf verschiedenen Ebenen
Für Projekte mit ~200 Proben bei ≤10× sind Cloud-Computing (AWS, Google Cloud) kostengünstig im Vergleich zu On-Premise-HPC und vermeiden anfängliche Infrastrukturkosten. Für Projekte mit mehr als 500 Proben bei ≥30× amortisiert sich On-Premise-HPC mit parallelem Speicher (Lustre, GPFS) zu niedrigeren Kosten pro Probe, erfordert jedoch eine sechsstellige Anfangsinvestition. Eine praktische Zwischenlösung: Verwenden Sie Cloud-Spot-/vorübergehende Instanzen für die Ausrichtung pro Probe (äußerst parallel), dann On-Premise- oder reservierte Cloud-Instanzen für die gemeinsame Genotypisierung (speicherintensiv, schwieriger zu parallelisieren).
Entscheidungsrahmen — Anpassung der Tiefe an Ihre Forschungsfrage
Die Wahl der Sequenzierungstiefe sollte von vier Fragen geleitet werden, die in folgender Reihenfolge beantwortet werden:
- Welche Variantenklasse beantwortet Ihre biologische Frage? Häufige SNPs (MAF >5%) → 0,5–2× + Imputation ist ausreichend. Seltene SNPs (MAF <1%) → ≥15× erforderlich. Strukturelle Varianten → ≥20×. Somatische Mutationen → ≥60×. De novo Mutationen → ≥30× in Trios.
- Haben Sie ein bevölkerungsangepasstes Referenzpanel? Ja, mit >1.000 Haplotypen → lpWGS bei 0,5–2× ist machbar. Kein Referenzpanel → zwei Optionen: (a) Sequenzierung von 50–100 Individuen bei ≥25×, um ein benutzerdefiniertes Panel zu erstellen, und dann die restlichen Proben bei 1–4× sequenzieren; oder (b) alle Proben bei ≥10× sequenzieren für genannte Genotypen ohne Imputation.
- Was ist Ihr Budget pro Probe? <$50 → 0,5–1× lpWGS. $50–100 → 1–4× lpWGS. $100–250 → 10–15× Standard. $250–400 → 30× Deep. Über $400/pro Probe → ultra-tiefe spezialisierte Anwendungen.
- Wie werden die Daten in Zukunft verwendet? Wenn der Datensatz über Jahre hinweg erneut analysiert, mit anderen Kohorten kombiniert oder als Gemeinschaftsressource genutzt wird → investieren Sie in ≥30× für maximale Flexibilität. Wenn die Analyse einen einzelnen Zweck hat (eine GWAS, eine Veröffentlichung) → ist lpWGS mit 1–2× die kosteneffiziente Wahl.
Schnelle Entscheidungstabelle
| Ihr Szenario | Empfohlene Tiefe | Rechtfertigung |
|---|---|---|
| GWAS, N >2.000, menschliches/populationsangepasstes Panel | 0,5–1× lpWGS | Gemeinsame Variante, angetrieben von N, nicht von der Tiefe. |
| GWAS, N 200–500, Nicht-Modellarten, kein Panel | 10–15× Standard | Benötigte genotypisierte Daten; Imputation nicht möglich. |
| Bevölkerungsstruktur + Demografie, 10–30 pro Bevölkerung | 10–15× | PSMC, Fst und π profitieren von aufgerufenen Genotypen. |
| Genomische Selektion, Zuchtprogramm | 1–4× lpWGS + benutzerdefiniertes Panel | Maximiere N; Imputation in der Landwirtschaft validiert |
| Seltene-Variantenschwere-Test, Fall-Kontroll-Studie | 30× | Niedrige MAF-Anrufe erfordern hohe Tiefe. |
| Referenzpanel-Konstruktion | 25–35× | Gemeinschaftsressource; maximiert die Genauigkeit der nachgelagerten Imputation |
| Somatischer Mosaizismus / Einzelzelle | 60×+ | Niedrige VAF-Anrufe erfordern extreme Tiefe |
| CNV-nur Screening, große Kohorte | 0,5–1× lpWGS | Große CNVs, die bei sehr geringer Tiefe nachweisbar sind |
| SV Entdeckung | 20–30× | Manta/Delly-Empfindlichkeit fällt unter 15× |
| De-novo-Assembly (Referenzgenom) | 30–50× HiFi + 15–20× ONT | Siehe unser Leitfaden zur De Novo Genomsequenzierung |
Abbildung 3: WGS-Tiefenentscheidungsflussdiagramm — Ein visuelles Entscheidungsbaum, das Forschungsfragen den empfohlenen Sequenzierungstiefen zuordnet. Beginnend von oben: (1) "Welche Variantenklasse beantwortet Ihre Frage?" verzweigt sich zu Häufigen SNPs → Low-Pass, Seltenen SNPs/SVs → Standard/Tief, Somatischen → Ultra-Tief. (2) "Ist ein Referenzpanel verfügbar?" verzweigt sich zu Ja → lpWGS + Imputation, Nein → Standard oder individuelles Panel erstellen. (3) "Budget pro Probe?" mit Dollargrenzen, die den Tiefenstufen zugeordnet sind. (4) "Zukünftige Wiederverwendung?" verzweigt sich zu Ja → 30× Tief, Nein → Tiefe an die unmittelbare Frage anpassen. Terminalknoten farblich codiert nach Tiefenstufe: hellblau (0,5–4×), mittelblau (10–15×), dunkelblau (30×), marineblau (60×+). Moderner flacher Infografikstil, weißer Hintergrund, klare serifenlose Typografie.
Der hybride Ansatz – Tiefen in einem Projekt mischen
Die kosteneffektivsten großflächigen Designs kombinieren oft Tiefenstufen innerhalb eines einzigen Projekts. Drei validierte hybride Strategien:
Referenzpanel + Entdeckungs-Kohorte. Sequenzieren Sie 10–20 % der Proben mit ≥25×, um ein benutzerdefiniertes Haplotyp-Referenzpanel zu erstellen; sequenzieren Sie die verbleibenden 80–90 % mit 1–4× und imputieren Sie gegen das benutzerdefinierte Panel. Diese Strategie lieferte eine Imputationsübereinstimmung von 94–98 % bei allo-oktoploiden Erdbeeren unter Verwendung von ~70 Referenzindividuen mit ≥25× (Koorevaar et al., 2025) und wurde bei Aquakulturarten (gescheckter Seebarsch, Olivenflunder, Schlammschnecke), Feldfrüchten (Mais, Sojabohne, Reis) und Nutztieren (Rinder, Schweine, Lachs) validiert.
WES + Tiefpass-WGS für CNV. Die gesamte Exomsequenzierung (WES) erfasst kodierende Varianten in hoher Tiefe, ist jedoch blind für nicht-kodierende CNVs. Das Hinzufügen von 2–4× lpWGS zu WES-Proben – der "blended genome-exome"-Ansatz – ermöglicht die genomweite CNV-Erkennung zu marginalen zusätzlichen Kosten (~40–80 $ pro Probe). Dies wird zunehmend in der Forschung zu seltenen Krankheiten angewendet, wo sowohl die Analyse kodierender SNVs (WES) als auch die Analyse nicht-kodierender CNVs (lpWGS) erforderlich sind.
Phasenweise Einführung über die Haushaltszyklen. Jahr 1: 1× lpWGS für die gesamte Kohorte (30 $/Probe, 2.000 Proben = 60.000 $). Analysieren, GWAS veröffentlichen. Jahr 2–3: 30× für die besten 200 Proben (300 $/Probe, 60.000 $). Erstellen eines benutzerdefinierten Referenzpanels, erneute Imputation der Daten aus Jahr 1, Veröffentlichung der Analyse seltener Varianten. Jahr 4: erneute Analyse des kombinierten Datensatzes mit verbesserten Methoden. Dieser gestufte Ansatz stimmt die Ausgaben mit den Förderzyklen ab und erhöht schrittweise die Datenauflösung.
Für Projekte, die sowohl eine Bevölkerungsmaßstab-Re-Sequenzierung als auch eine Tiefenoptimierung erfordern, siehe unseren Begleitleitfaden zu Großangelegte WGS-Nachsequenzierungsprojekte für die Abdeckung von Musterlogistik, gemeinsamer Genotypisierung im großen Maßstab und Analyse-Suiten der Populationsgenetik. Für den breiteren Kontext, wie Tiefenentscheidungen in die WGS-Landschaft passen, siehe unser Hub für Dienstleistungen zur gesamten Genomsequenzierung.
Praktische Beschaffung — Von der Entscheidung bis zur Bestellung
Wie man mit Sequenzierungsanbietern spricht
Bei der Anfrage nach Angeboten für ein WGS-Projekt sollten Sie diese Parameter angeben – Anbieter können ohne sie keine genauen Preise nennen:
- Genomgröße und erwartete Abdeckung pro Probe (nicht nur "WGS" — "3 Gb Genom, 10× Abdeckung, 150 bp Paar-Ende")
- Anzahl der Proben und ob sie als extrahierte DNA oder Gewebe bereitgestellt werden (DNA-Extraktion kostet 20–50 $/Probe)
- Bibliotheksvorbereitungstyp (PCR-frei vs. PCR-plus; PCR-frei kostet mehr, beseitigt jedoch GC-Bias)
- Multiplexing-Präferenz (wie viele Proben pro Bahn/Flusszelle; höhere Multiplexing reduziert die Kosten pro Probe)
- Datenlieferformat (Nur FASTQ vs BAM/CRAM + VCF; Analyse-Dienstleistungen kosten zusätzlich 50–200 $/Probe, abhängig von Tiefe und Komplexität)
- Durchlaufzeit (Standard 8–12 Wochen vs. beschleunigt 4–6 Wochen; beschleunigt trägt typischerweise einen Aufschlag von 25–50%)
Validierung Ihrer Tiefenwahl mit einem Piloten
Bevor Sie die gesamte Kohorte festlegen, führen Sie eine Pilotcharge von 8–16 Proben in der geplanten Tiefe plus einer höheren Stufe durch. Wenn Sie 1× lpWGS planen, testen Sie bei 1× und 4× für dieselben Proben. Vergleichen Sie: Imputationsgenauigkeit (r²) bei 1× vs. aufgerufene Genotypen bei 4×; Übereinstimmung an bekannten Variantenstandorten, falls Validierungsdaten vorhanden sind; und Bibliothekskomplexitätsmetriken (Duplikatrate, Insertgrößenverteilung, Abdeckungsuniformität). Ein Pilotprojekt von 1.500–3.000 $ kann einen Fehler von 50.000 $ verhindern.
Budgetvorlage für ein 3 Gb Genomprojekt
| Position | 1× lpWGS (1.000 Proben) | 10× Std (300 Proben) | 30× Tief (100 Proben) |
|---|---|---|---|
| DNA-Extraktion + Qualitätskontrolle | 20.000 $ (20 $/Probe) | 6.000 $ (20 $/Probe) | 2.000 $ (20 $/Probe) |
| Bibliotheksvorbereitung | 50.000 $ (50 $/Probe) | 21.000 $ (70 $/Probe PCR-frei) | 10.000 $ (100 $/Probe PCR-frei) |
| Sequenzierung | 30.000 $ (30 $/Probe) | 60.000 $ (200 $/Probe) | 30.000 $ (300 $/Probe) |
| Datenspeicherung (5 Jahre) | 3.000 $ | 15.000 $ | 15.000 $ |
| Bioinformatikanalyse | 15.000 $ | 15.000 $ | 10.000 $ |
| Imputation (sofern zutreffend) | 5.000 $ | — | — |
| Projektmanagement | 5.000 $ | 5.000 $ | 3.000 $ |
| Gesamt | 128.000 $ | 122.000 $ | 70.000 $ |
| Kosten pro Probe | 128 $ | 407 $ | 700 $ |
| GWAS-Power (h²=0,3) | Höchste (N=1.000) | Moderat (N=300) | Niedrig (N=100) |
CD Genomics bietet Genomweite Assoziationsstudie (GWAS) und Bevölkerungsentwicklung Analyse-Dienste, die mit WGS in beliebiger Tiefe integriert sind, von der Beratung zum experimentellen Design bis hin zu publikationsreifen Abbildungen. Für Projekte, die eine Kopienzahl-Analyse zur Ergänzung von Low-Pass-WGS erfordern, unser CNV-Sequenzierungsdienste bieten Sie tiefenoptimierte CNV-Erkennung sowohl bei niedriger als auch bei hoher Abdeckung an.
Häufig gestellte Fragen
Was ist der Unterschied zwischen Low-Pass-WGS und SNP-Arrays?
Low-Pass-WGS sequenziert das gesamte Genom mit einer Abdeckung von 0,5–4× und imputiert fehlende Genotypen, wodurch die genomweite Variation ohne vorab ausgewählte Marker erfasst wird. SNP-Arrays genotypisieren 500K–2M vorab ausgewählte Stellen. Low-Pass-WGS vermeidet Selektionsbias (Arrays sind hauptsächlich aus europäischen Populationen entworfen), erfasst Varianten, die Arrays übersehen, und erzeugt Daten, die erneut analysiert werden können, während sich Referenzpanels und Imputationsmethoden verbessern. Allerdings sind Arrays einfacher zu analysieren (keine Imputation für genannte Genotypen erforderlich) und bleiben bei sehr kleinen Stichprobengrößen (<50) kostengünstiger.
Bei welcher Abdeckung kann ich strukturelle Varianten zuverlässig identifizieren?
Große Deletionen und Duplikationen (>1 Mb) sind bei 0,5–1× lpWGS mit auf Lesetiefe basierenden Tools (cn.mops, CNVkit) nachweisbar. Für eine umfassende SV-Erkennung, einschließlich Insertionen, Inversionen und kleinerer Ereignisse (<100 kb), wird eine Abdeckung von ≥20× mit Split-Read- und Pair-End-basierten Callern (Manta, Delly) empfohlen. Die SV-Erkennung aus 30× Daten erreicht eine Sensitivität von >95% für Ereignisse >1 kb in einem 3 Gb Genom.
Benötige ich ein Referenzpanel für die Low-Pass-WGS-Imputation?
Für die auf GLIMPSE2 basierende Imputation ist ein phasierter Referenzpanel von ≥500 Haplotypen das Minimum, wobei >1.000 stark bevorzugt werden. Wenn kein Referenzpanel für Ihre Art existiert, gibt es zwei Alternativen: (1) Erstellen Sie ein benutzerdefiniertes Panel, indem Sie 50–100 genetisch diverse Individuen mit ≥25× sequenzieren und dann den Rest mit 1–4× imputieren; oder (2) verwenden Sie STITCH für die referenzfreie Imputation, die ≥100 Proben mit ≥2× Abdeckung erfordert.
Wie beeinflusst die Sequenzierungstiefe die statistische Power von GWAS?
Bei GWAS mit häufigen Varianten (MAF >5%) wird die statistische Power hauptsächlich durch die Stichprobengröße und nicht durch die Abdeckung bestimmt, sobald die Abdeckung etwa 0,5× mit Imputation überschreitet. Die Sequenzierung von 1.000 Individuen mit 1× wird mehr echte GWAS-Assoziationen entdecken als 100 Individuen mit 30×. Bei GWAS mit seltenen Varianten (MAF <1%) kehrt sich die Beziehung um: Die Sensitivität zur Variantenerkennung erfordert eine Abdeckung von ≥15×, und die Imputation kann Varianten, die im Referenzpanel fehlen, nicht wiederherstellen.
Was ist der günstigste Weg, 500 Genome zu sequenzieren?
Bei den aktuellen Preisen (2025) für ein 1 Gb Genom: 1× lpWGS zu etwa 30 $/Probe = insgesamt 15.000 $. Fügen Sie 5.000 $ für die Imputation gegen ein öffentliches Referenzpanel hinzu = 20.000 $. Dies liefert Genotypen für häufige Varianten, die für GWAS, Populationsstruktur und genomische Vorhersage geeignet sind. Wenn seltene Varianten oder SVs erforderlich sind, planen Sie 10× zu etwa 200 $/Probe = 100.000 $ für 500 Proben.
Kann ich Proben, die mit unterschiedlichen Tiefen sequenziert wurden, in einer Analyse kombinieren?
Ja. Die gemeinsame Genotypisierung mit GATK verarbeitet heterogene Abdeckungen über Proben hinweg, und die Imputation mit GLIMPSE2 kann ein Design mit gemischter Abdeckung harmonisieren, bei dem 10–20 % der Proben tief (≥25×) und der Rest niedrig abgedeckt (1–4×) ist. Dieses hybride Design ist die kosteneffektivste Strategie für Projekte im Bevölkerungmaßstab bei Nicht-Modellorganismen.
Wie viel Speicherplatz benötigt ein WGS-Projekt?
Ein Projekt mit 1.000 Proben bei 10× für ein 3 Gb Genom erzeugt ungefähr 60 TB an Daten in FASTQ-, BAM- und VCF-Dateien. Die Verwendung von CRAM anstelle von BAM reduziert dies um 40–50% (~36 TB). Die Hinzufügung von PGEN für Genotypdaten spart zusätzlich 1–2 TB. Die Kosten für Cloud-Archivspeicher liegen bei etwa 25–50 $ pro TB und Monat für aktiven Speicher und 1–4 $ pro TB und Monat für Archivspeicher (Gletscher-Speicher).
Wie lange dauert die Bearbeitung von WGS bei unterschiedlichen Tiefen?
Die Sequenzierungszeit skaliert linear mit der Abdeckung. Eine NovaSeq S4-Flusszelle produziert ~3 Tb Daten pro 44-stündigem Lauf. Bei 1× (3 Gb/Stichprobe) können ungefähr 1.000 Stichproben pro Lauf sequenziert werden. Bei 30× sind es ungefähr 33 Stichproben pro Lauf. Typische Projektzeitpläne einschließlich Bibliotheksvorbereitung, Sequenzierung und Bioinformatik: 1× lpWGS = 4–6 Wochen für 1.000 Stichproben; 30× WGS = 8–12 Wochen für 100 Stichproben.
Referenzen:
- Rubinacci S, Hofmeister RJ, Sousa da Mota B, Delaneau O. Imputation von Sequenzierungsdaten mit niedriger Abdeckung aus 150.119 Genomen der UK Biobank. Naturwissenschaften Genetik2023;55(7):1088-1090. doi:10.1038/s41588-023-01438-3
- Wasik K, Berisa T, Pickrell JK, et al. Vergleich von Low-Pass-Sequenzierung und Genotypisierung zur Merkmalskartierung in der Pharmakogenetik. BMC Genomik. 2021;22:197. doi:10.1186/s12864-021-07508-2
- Hofmeister RJ, Ribeiro DM, Rubinacci S, Delaneau O. Genaues Phasing seltener Varianten von Whole-Genome- und Whole-Exome-Sequenzierungsdaten in der UK Biobank. Naturwissenschaften Genetik2023;55(7):1243-1249. doi:10.1038/s41588-023-01415-w
- Koorevaar T, van de Weg E, Visser RGF, et al. Genotypisierung durch Imputation aus niedrig-aufgelöster WGS unter Verwendung von Haplotyp-Referenzpanels in kultiviertem Erdbeeren. BMC Genomics2025;26(1):968. doi:10.1186/s12864-025-12270-w
- DePristo MA, Banks E, Poplin R, et al. Ein Rahmenwerk zur Entdeckung von Variationen und Genotypisierung unter Verwendung von DNA-Sequenzierungsdaten der nächsten Generation. Naturwissenschaften Genetik2011;43(5):491-498. doi:10.1038/ng.806
- Danecek P, Bonfield JK, Liddle J, et al. Zwölf Jahre SAMtools und BCFtools. GigaScience. 2021;10(2):giab008. doi:10.1093/gigascience/giab008
- Atsawawaranunt K, Whibley A, Santure AW, et al. Fehlende oder falsch erzählte Geschichte? Abwägungen zwischen der mit Restriktionsstellen assoziierten Sequenzierung und der gesamten Genomsequenzierung. Molekulare Ökologie. 2026;35(5):e17707. doi:10.1111/mec.17707
- Zhao S, Agafonov O, Azab A, Stokowy T, Hovig E. Genauigkeit und Effizienz von Pipelines zur Erkennung von Keimbahnvarianten für menschliche Genomdaten. Wissenschaftliche Berichte2020;10:20222. doi:10.1038/s41598-020-77218-4
- Davies RW, Flint J, Myers S, Mott R. Schnelle Genotyp-Imputation aus Sequenzen ohne Referenzpanels. Naturwissenschaften Genetik2016;48(8):965-969. doi:10.1038/ng.3594
- Davies RW, Kucka M, Su D, et al. Schnelle Genotyp-Imputation aus Sequenzen mit Referenzpanels. Naturwissenschaften Genetik2021;53(7):1104-1111. doi:10.1038/s41588-021-00877-0
Nur zu Forschungszwecken, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.