What is large-scale whole genome re-sequencing and how is it different from de novo assembly?

Large-scale re-sequencing maps reads from hundreds to thousands of individuals against an existing reference genome to identify genetic variants (SNPs, indels, structural variants) across a population. It is fundamentally different from de novo assembly, which constructs a genome from scratch without a reference. Re-sequencing is faster and cheaper per sample but requires a high-quality reference genome.

How many samples do I need for a population genomics or GWAS study?

For population structure and demographic history, 10-30 individuals per population at ≥10× coverage is often sufficient. For GWAS, sample sizes of hundreds to thousands are required to detect loci explaining 0.1-1% of phenotypic variance. For genomic selection, 500-2,000 individuals is standard for training population construction in plant and animal breeding.

What sequencing depth should I choose for a large-scale re-sequencing project?

Low-coverage WGS (1-4×) with imputation is the default for cohorts exceeding 300 samples, capturing common variants at a fraction of deep WGS cost. Standard coverage (10-15×) provides reliable rare variant calls for demographic inference and selection scans. Deep coverage (30×) is recommended for reference panel construction and high-confidence variant detection.

How do I control costs for a project with hundreds to thousands of samples?

Three highest-impact strategies: (1) use low-coverage WGS + imputation for the full cohort with a custom reference panel from 10-20% of samples at 30×, (2) negotiate volume pricing and perform pre-pool QC runs to avoid costly requeueing, and (3) adopt compressed formats (CRAM, PGEN) to cut storage costs by 30-98%.

What bioinformatic infrastructure do I need for joint analysis of 1,000 genomes?

For alignment and per-sample variant calling, a 500-core HPC cluster or equivalent cloud compute can process 1,000 30× genomes in under a week. For joint genotyping, at least 1 TB of RAM and 50 TB of fast storage are recommended for cohorts exceeding 2,000 samples. Workflow managers (Nextflow, Snakemake) and containerized tools (Docker, Singularity) are strongly recommended for reproducibility.

Can I combine samples sequenced at different depths in the same analysis?

Yes, joint genotyping with GATK handles heterogeneous coverage. This is routine in projects combining a deeply sequenced reference panel with a low-coverage discovery cohort. Variant calling sensitivity differs by depth, so batch effects should be explicitly modeled. Imputation with GLIMPSE2 can harmonize coverage differences by imputing low-coverage samples to reference panel resolution.

What are the data storage requirements for a large re-sequencing project?

A single 30× genome generates 200-300 GB of total data; a 1,000-sample project at 10× requires 100-150 TB of active storage and 50-80 TB for long-term archival. Cloud archival storage costs roughly $100-400 per month for a 100 TB archive. Using CRAM instead of BAM cuts alignment storage by 30-50%; PGEN format cuts genotype storage by 98%.

How does CD Genomics handle the logistics of large-scale re-sequencing projects?

CD Genomics provides a dedicated project manager, LIMS-tracked sample handling in 96-well format, automated liquid handling for library preparation, pre-pool QC runs on every batch, joint variant calling with GATK, and comprehensive population genetics analysis. Raw data (FASTQ), aligned data (BAM/CRAM), variant calls (VCF), and publication-ready analysis outputs are delivered with a detailed methods document.

Großangelegte Whole-Genome-Re-Sequenzierungsprojekte: Populationsgenomik, GWAS und Kostenoptimierung für Hochdurchsatzproben

Über den Einzelgenomansatz hinaus – Wenn WGS auf Populationen skaliert

Ein Pflanzenzüchter muss 2.000 doppelt haploide Maislinien genotypisieren, um ein genomisches Auswahlmodell zu trainieren, das die Hybridleistung vor Feldversuchen vorhersagt. Ein Erhaltungsgenetiker möchte 500 Genome des Atlantischen Lachses auf Hinweise lokaler Anpassung an wärmer werdende Flüsse untersuchen. Ein Evolutionsbiologe plant, 300 Individuen aus 12 Populationen eines Nicht-Modellfisches neu zu sequenzieren, um seine demografische Geschichte seit dem letzten glazialen Maximum zu rekonstruieren. Diese Projekte teilen eine gemeinsame DNA: Sie alle erfordern eine vollständige Genom-Neusequenzierung (WGS) im Maßstab der Population – und die Logistik, Kosten und bioinformatischen Herausforderungen von 500 Genomen sind kategorisch anders als die von 5.

Großangelegte WGS-Nachsequenzierung — hier definiert als Projekte, die Hunderte bis Tausende von Individuen mit einer Abdeckung von 1× bis 30× sequenzieren — ist seit etwa 2022 zum Standardansatz für Populationsgenomik, genomweite Assoziationsstudien (GWAS), genomische Selektion in der Pflanzen- und Tierzucht sowie Evolutionsbiologie geworden. Die Konvergenz von stark sinkenden Sequenzierungskosten (ein 30× menschliches Genom kostet jetzt weniger als 300 Dollar nur für die Sequenzierungsverbrauchsmaterialien), ausgereiften bioinformatischen Pipelines, die in der Lage sind, Tausende von Proben gemeinsam auszuwerten, und validierten Methoden zur Imputation mit niedriger Abdeckung hat die Durchführung von WGS im Maßstab von Populationen für einzelne Forschungsgruppen möglich gemacht — nicht nur für Konsortien mit achtstelligen Budgets.

CD Genomics bietet Whole-Genome-Sequenzierung Dienste, die auf bevölkerungsweite Projekte skaliert sind, von der DNA-Extraktion im 96-Well-Format über gemeinsame Variantenbestimmung und populationgenetische Analysen. Dieser Artikel behandelt den kompletten Arbeitsablauf für großangelegte Neusequenzierungen: Projektplanung, Probenlogistik, Kostenoptimierung, bioinformatische Strategien für die gemeinsame Analyse von Hunderten bis Tausenden von Genomen und Datenmanagement für veröffentlichungsfertige Ergebnisse.

Was die Bevölkerungsmaßstab-Re-Sequenzierung beantwortet

Ein einzelnes Referenzgenom zeigt, was ein Individuum trägt. Eine Population von neu sequenzierten Genomen zeigt, was die Art trägt – und wichtiger noch, wie diese Variation über Geographie, Ökologie und Zeit verteilt ist. Die zentralen Fragen, die die populationsgenomweite WGS beantwortet, fallen in vier Kategorien:

Bevölkerungsstruktur und demografische Geschichte. Hauptkomponentenanalysen (PCA), auf ADMIXTURE basierende Ahnenabschätzungen und Verwandtschaftsanalysen durch Abstammung (IBD) aus WGS-Daten lösen Populationsunterteilungen, Genfluss und historische Flaschenhälse auf Auflösungen, die mit reduzierten Repräsentationsmethoden unerreichbar sind. Paarweise sequenzielle Markovsche Koaleszenz (PSMC) und ihre Mehrfachproben-Erweiterungen (MSMC, SMC++) rekonstruieren die Trajektorien der effektiven Populationsgröße über Hunderttausende von Generationen aus einem einzigen diploiden Genom oder einer Handvoll von Genomen und bieten einen Einblick in die demografische Geschichte von wenig erforschten Arten.

Selektive Sweeps und lokale Anpassung. Der Vergleich von Allelfrequenzspektren und Populationsdifferenzierung (Fst) über das Genom hinweg identifiziert Regionen, in denen Selektion dazu geführt hat, dass Allele zur Fixierung oder nahezu Fixierung getrieben wurden. Methoden wie XP-CLR (cross-population composite likelihood ratio), iHS (integrated haplotype score) und Nucleotiddiversität (π) Verhältnis-Scans bestimmen die spezifischen genomischen Intervalle, die unter Selektion stehen – von der Laktase-Persistenz-Sweep in menschlichen Populationen bis zu Salztoleranz-QTLs in Reislandrassen. Die Auflösung der WGS ist hier entscheidend: Genotypisierungsarrays erfassen nur häufige Varianten, die im Designpanel vorhanden sind, während WGS das vollständige Allelfrequenzspektrum erfasst, einschließlich der seltenen und populationsspezifischen Varianten, die oft die informativsten für die Erkennung jüngster Selektion sind.

Genomweite Assoziationsstudien (GWAS). Für Merkmale mit komplexen genetischen Architekturen — Ertrag in Nutzpflanzen, Krankheitsresistenz bei Vieh, Körpergröße bei Fischen — testet GWAS Millionen von SNPs auf statistische Assoziation mit dem Phänotyp. Moderne Mischmodellansätze (GEMMA, GCTA, BOLT-LMM) berücksichtigen die Populationsstruktur und kryptische Verwandtschaft, wodurch falsch-positive Ergebnisse, die frühe Kandidatengenstudien belasteten, reduziert werden. Die statistische Power von GWAS skaliert hauptsächlich mit der Stichprobengröße, nicht mit der Marker-Dichte über einen bestimmten Punkt hinaus — aber WGS bietet zwei Vorteile gegenüber Genotypisierungsarrays: Es erfasst seltene kausale Varianten, die Arrays übersehen, und ermöglicht die direkte Feinabstimmung von GWAS-Spitzen auf potenzielle kausale Varianten ohne anschließende gezielte Sequenzierung.

Ein konkretes Beispiel aus dem Jahr 2025 veranschaulicht, was die Populations-Resequenzierung für die GWAS von Pflanzen liefert. Zhang et al. (Frontiers in Plant Science) resequenzierten 348 diverse Sojabohnenzugänge mit einer Abdeckung von 10× und entdeckten 1.882.531 SNPs für eine GWAS zum hundert-Samen-Gewicht. Ein signifikanter Peak auf Chromosom 19 ko-lokalisiert mit einem biparentalen QTL (qHSW-19-4), der in einer unabhängigen RIL-Population kartiert wurde, wodurch der Kandidatenintervall auf 580 kb eingegrenzt wurde. Vier hochpriorisierte Gene innerhalb dieses Intervalls wurden durch qRT-PCR validiert — eine Pipeline von der Populations-WGS zu funktionalen Kandidaten, die veranschaulicht, wie die Resequenzierung mit moderater Abdeckung von einigen hundert Individuen ausreichend Auflösung für die Entdeckung von GWAS-Peaks bietet, nach der dann Fine-Mapping und funktionale Validierung übernehmen.

Genomische Selektion und Vorhersage. In der Pflanzen- und Tierzucht verwendet die genomische Selektion genomweite Marker, um Zuchtwerte (GEBVs) für Auswahlkandidaten vorherzusagen. Das Big BIT Maisexperiment 2025 – eine Validierungsstudie über mehrere Standorte und Jahre mit Tausenden von Hybriden – bestätigte, dass die genomische Selektion, die auf einer breiten Umweltdatenbasis basiert, die effektivste Strategie für die genetische Bewertung in der frühen Phase ist. WGS oder WGS mit niedriger Abdeckung und Imputation auf Sequenzniveau liefert die dichten Markerdaten, die die Modelle der genomischen Selektion benötigen, ohne die Verzerrung durch SNP-Arrays.

Wie viele Proben benötigen Sie wirklich?

Die Anforderungen an die Stichprobengröße hängen von der Fragestellung ab. Für die Populationsstruktur und demografische Inferenz sind typischerweise 10-30 Individuen pro Population mit WGS bei ≥10× Abdeckung ausreichend. Für GWAS mit realistischen Effektgrößen (die 0,1-1% der phänotypischen Varianz erklären) sind Hunderte bis Tausende von Individuen erforderlich — Power-Berechnungen sollten durchgeführt werden, bevor man sich für das Sequenzieren entscheidet. Für die genomische Selektion sind Trainingspopulationen mit 500-2.000 Individuen in Pflanzenzüchtungsprogrammen üblich, wobei die Vorhersagegenauigkeit abflacht, wenn die Trainingssätze mehrere Tausend überschreiten.

Eine praktische Faustregel: Wenn Sie Ihre Frage mit weniger als 100 Individuen beantworten können, ist WGS bei 10-30× unkompliziert und kosteneffektiv. Wenn Sie 500-5.000 Individuen benötigen, wird die Niedrigabdeckung von WGS (1-4×) mit Imputation auf ein Referenzpanel zur dominierenden Kostenoptimierungsstrategie. Bei mehr als 10.000 Individuen sollten Sie ein gestuftes Design in Betracht ziehen – Niedrigabdeckung WGS für die gesamte Kohorte, mit einem Teil von 10-20%, der bei 30× sequenziert wird, um als Imputationsreferenzpanel zu dienen.

Projektgestaltung für Skalierung — Logistik, nicht Biologie, ist der Engpass

Ein WGS-Projekt mit 500 Proben ist mehr ein Logistikproblem als ein biologisches Problem. Der Wet-Lab-Workflow – von der DNA-Extraktion über die Bibliotheksvorbereitung bis zur Sequenzierung – muss von Anfang an für parallele Durchsatzkapazität, Integrität der Probenverfolgung und Minimierung von Batch-Effekten ausgelegt sein. Nachträgliche Lösungen für Probenverwechslungen, ungleichmäßige Abdeckung oder durch Batch verursachte Variantenaufrufe sind teuer oder unmöglich.

DNA-Extraktion und Qualitätskontrolle im großen Maßstab

Für Projekte im Maßstab der Bevölkerung wechselt die DNA-Extraktion von einzelnen Spin-Säulen zu Formaten mit 96-Well-Platten. Wichtige Anforderungen:

Menge eingeben≥500 ng hochqualitative genomische DNA pro Probe werden für die PCR-freie Bibliotheksvorbereitung empfohlen, die GC-Bias und PCR-Duplikatartefakte eliminiert, die die Variantenbestimmung in Bevölkerungskohorten unverhältnismäßig beeinflussen. Für Proben mit niedrigem Input (degradierte Museumsproben, einzelne kleine Wirbellose) sind PCR-plus-Workflows akzeptabel, sollten jedoch einheitlich innerhalb eines Projekts angewendet werden — das Mischen von PCR-freien und PCR-plus-Bibliotheken verwirrt Batch mit Biologie.

QualitätskennzahlenJede Probe sollte durch einen fluoreszenzbasierten dsDNA-Test (Qubit oder PicoGreen) quantifiziert und durch Kapillarelektrophorese (TapeStation oder Fragment Analyzer) in der Größe bestimmt werden. DIN (DNA-Integritätszahl) Werte unter 6 weisen auf eine Degradation hin, die Anpassungen des Protokolls erforderlich machen kann. In großen Kohorten, die im Rahmen des Tohoku Medical Megabank Projekts analysiert wurden, lagen die DIN-Werte zwischen 1,6 und 9,2 über 100.000 Proben – der Schlüssel liegt darin, diese Variation zu dokumentieren und nicht zu eliminieren, damit sie als technische Kovariate modelliert werden kann.

Normalisierung und PlattierungDNA sollte auf eine einheitliche Konzentration (typischerweise 10-50 ng/µL) über alle Proben normalisiert und in 96-Well-Platten aliquotiert werden. Automatisierte Flüssigkeitshandhabungsgeräte (Agilent Bravo, Biomek NXp) werden ab etwa 100 Proben dringend empfohlen, um manuelle Pipettierfehler zu vermeiden, die zu Probenverwechslungen führen können. Alle Platten sollten mit Barcodes versehen und über ein Laborinformationsmanagementsystem (LIMS) verfolgt werden.

Bibliotheksvorbereitung und Multiplexing

Für die Populations-Re-Sequenzierung bestimmt die Bibliotheksvorbereitungsstrategie sowohl die Kosten pro Probe als auch die Datenqualität:

PCR-freie Bibliotheksvorbereitung wird bevorzugt, wenn der DNA-Eingang 500 ng überschreitet. PCR-freie Bibliotheken beseitigen amplifikationsbedingte GC-Bias, reduzieren die Duplikatraten und erzeugen eine gleichmäßigere Abdeckung – all dies verbessert die Sensitivität der Variantenbestimmung, insbesondere in GC-reichen und GC-arme Regionen. Der Nachteil sind höhere Anforderungen an den DNA-Eingang und strengere Qualitätsstandards.

Eindeutige doppelte Indizes (UDIs) sind für Projekte im Bevölkerungsmaßstab obligatorisch. Index-Hopping – bei dem Lesevorgänge von einer Probe fälschlicherweise einer anderen während des Demultiplexings auf gemusterten Flusszellen zugeordnet werden – kann falsche heterozygote Aufrufe erzeugen, wenn ein kontaminierender Lesevorgang ein anderes Allel als die echte Probe trägt. UDIs, bei denen sowohl die i7- als auch die i5-Indizes einzigartig für jede Probe sind und die Kombination validiert wird, beseitigen dieses Risiko. Einzelindex-Strategien sollten nicht für Projekte verwendet werden, die mehr als 96 Proben umfassen.

Multiplexdichte Hängt von der Sequenzierungsplattform ab: Eine NovaSeq S4 Flusszelle fasst 48-96 Proben bei 30× menschlicher Abdeckung; ein DNBSEQ-T7 kann über seine vier Flusszellen mehr als 150 Proben verarbeiten. Für Designs mit niedriger Abdeckung (1-4×) können 384-768 Proben auf einer einzigen S4 Flusszelle multiplexiert werden.

Vorbereitende Qualitätskontrolle der Pools — Sequenzierung eines gepoolten Aliquots von 48-96 Proben mit 1-2× Abdeckung, bevor man sich für eine vollständige Sequenzierung entscheidet — kostet etwa 500-1.000 USD und erkennt Bibliotheksbalanceprobleme, Kontaminationen und Probenverwechslungen, bevor sie sich auf den vollständigen Datensatz ausbreiten. Das Tohoku Medical Megabank und die UK Biobank verwenden beide diese Strategie; die Investition amortisiert sich, indem sie einen einzigen neu eingereichten Sequenzierungslauf verhindert.

Sequenzierungstiefe — Ein Spektrum von Strategien

Strategie	Abdeckung	Erkannte Varianten	Kosten/probe (ca.)	Am besten für
Ultratiefpassfilter	0,5-1×	~1-5M SNPs (mit Imputation)	20-40 €	Sehr große Kohorten (N>5.000); Abstammung, polygenetische Scores
Niedrige Abdeckung + Imputation	2-4×	~10-20M SNPs (mit Imputation)	50-100 $	GWAS in großen Kohorten; genomische Selektion in der Zucht
Standard WGS	10-15×	~30-40M SNPs, zuverlässige Aufrufe seltener Varianten	150-250 $	Bevölkerungsstruktur, Selektionsanalysen, demografische Inferenz
Tiefes WGS	30×	~40-50M SNPs, hochkonfidente Aufrufe seltener Varianten	250-400 $	Referenzpanels für Imputation; hochkonfidente Variantenentdeckung
Ultra-tief	60×+	Maximale Empfindlichkeit für somatische/einzelne Zellen	500-800 €+	Spezialisierte Anwendungen (Einzelzell-WGS, somatischer Mosaizismus)

Die entscheidende Erkenntnis aus der Literatur von 2023-2025 ist, dass Low-Coverage-WGS mit Imputation (unter Verwendung von GLIMPSE2 oder QUILT) nun eine Genotypisierungsgenauigkeit für häufige Varianten erreicht, die mit tiefem WGS oder hochdichten SNP-Arrays vergleichbar ist, und das zu einem Bruchteil der Kosten. Bei Fragen der Populationsgenomik, bei denen häufige Varianten (MAF > 1%) das Signal bestimmen — Populationsstruktur, demografische Inferenz, die meisten GWAS — begünstigt die Kosten pro statistischer Power größere Stichprobengrößen bei niedrigerer Abdeckung gegenüber kleineren Stichprobengrößen bei höherer Abdeckung.

Sequencing Depth vs. Sample Size Decision Matrix: 2D decision chart with four colored application zones and cost contours. Abbildung 1: Entscheidungsmatrix für Sequenzierungstiefe vs. Stichprobengröße — Ein 2D-Diagramm mit der Anzahl der Proben auf der X-Achse (logarithmische Skala, 10 bis 10.000) und der Abdeckungstiefe auf der Y-Achse (0,5× bis 60×). Vier Anwendungszonen farblich codiert: Blau (Ultra-niedrige Abdeckung 0,5-1×) — Abstammung/PGS; Grün (Niedrigabdeckung + Imputation 2-4×) — GWAS/genomische Selektion; Orange (Standard-WGS 10-15×) — Selektionsanalysen/Demografie; Rot (Tiefe WGS 30×+) — Konstruktion von Referenzpanels. Diagonale Kostenkonturen bei 5.000 $, 25.000 $, 100.000 $, 500.000 $ Gesamtkosten des Projekts. Wichtige Erkenntnis: Bei einem festen Budget führen mehr Proben mit niedrigerer Abdeckung zu einer höheren GWAS-Power für häufige Varianten als weniger Proben mit höherer Abdeckung.

Kostenkomponenten und Optimierung

Wohin das Geld geht

Ein bevölkerungsweites WGS-Projekt hat fünf Kostenkomponenten, und ihre relativen Beiträge ändern sich mit dem Maßstab:

DNA-Extraktion und Qualitätskontrolle (~5-10% des Gesamtbetrags): Dominiert von Verbrauchsmaterialien und Arbeitskraft. In großem Maßstab senken der Einkauf von Bulk-Reagenzien und automatisierte Flüssigkeitsverarbeitung die Kosten pro Probe um 40-60% im Vergleich zur manuellen Verarbeitung.
Bibliotheksvorbereitung (~15-25% des Gesamtbetrags): Die größten variablen Kosten. Kommerzielle Bibliotheksvorbereitungs-Kits kosten zum Listenpreis 50-150 USD pro Probe; verhandelte Mengenrabatte und die interne Produktion von Tn5-Transposase können dies auf 10-30 USD pro Probe senken. Bei Projekten mit mehr als 500 Proben amortisiert sich die Investition in die interne Infrastruktur zur Bibliotheksvorbereitung in der Regel innerhalb der ersten Charge.
Sequenzierung (~40-60% des Gesamtbetrags): Die dominierenden Kosten, die durch Abdeckung × Anzahl der Proben × Genomgröße bestimmt werden. Die Sequenzierungskosten sind seit 2021 um etwa 2-3× pro Jahr gesunken, und dieser Trend wird voraussichtlich anhalten. Die Preise von Kernanlagen variieren stark; direkte Verhandlungen mit Dienstleistern und flexible Terminplanung (teilweise belegte Flusszellen füllen) können die Kosten um 20-30% senken.
Daten Speicherung und Übertragung (~5-15% des Gesamtvolumens): Ein 30× menschliches Genom erzeugt ungefähr 90 GB FASTQ, 60 GB BAM und 1 GB VCF — plus Ausrichtungsindizes, temporäre Dateien und Backups, insgesamt ~200-300 GB pro Probe. Für 1.000 Proben sind das 200-300 TB. Die Kosten für Cloud-Speicher (0,02-0,05 USD pro GB und Monat) werden in diesem Maßstab erheblich und sollten für die Projektlaufzeit (typischerweise 3-5 Jahre) eingeplant werden. Das PGEN-komprimierte Format (PLINK 2.0) erreicht eine 98%ige Kompression der Genotypdaten und reduziert einen 2 TB Datensatz auf 39 GB — eine praktische Notwendigkeit für großangelegte Projekte.
Bioinformatische Analyse (~10-20% des Gesamtbetrags): Die Berechnungskosten steigen mit der Stichprobengröße, können jedoch durch Parallelisierung des Workflows optimiert werden. Cloud-basierte Analysen auf AWS oder Google Cloud kosten ungefähr 5-15 $ pro 30× Genom für die Ausrichtung und Variantenbestimmung; On-Premise-Hochleistungsrechnen (HPC) amortisiert sich auf niedrigere Kosten pro Probe, erfordert jedoch eine anfängliche Infrastrukturinvestition.

Population WGS Project Cost Breakdown: Side-by-side stacked bar comparison of two strategies. Abbildung 2: Kostenaufteilung des Population WGS Projekts — Vergleich von zwei repräsentativen Designs. Oben: 500 Proben × 10× (1 Gb Genom, insgesamt ca. 150.000 $). Unten: 2.000 Proben × 2× (1 Gb, lcWGS + Imputation, insgesamt ca. 230.000 $). Jede Balken zeigt die proportionale Aufteilung: DNA-Extraktion & QC (7%), Bibliotheksvorbereitung (20%/25%), Sequenzierung (50%/30%), Datenspeicherung (10%/15%), Bioinformatik (13%/23%). Unter den Diagrammen befinden sich Pillen-Hinweise für vier Kostenoptimierungshebel: lcWGS + Imputation (10-30× Einsparungen), interne Tn5 Bibliotheksvorbereitung (5 $ vs 50-100 $/Probe), Bulk-Vorpool-QC (verhindert 10-20% Überlauf), komprimierte Formate (CRAM 30-50%, PGEN 98% Speicherreduktion).

Kostenoptimierungsstrategien, die funktionieren

Neben der offensichtlichen Strategie, weniger Proben mit niedrigerer Abdeckung zu sequenzieren, wurden mehrere spezifische Optimierungen in großangelegten Projekten validiert:

Niedrigabdeckende WGS + Imputation auf ein Referenzpanel. Dies ist die kosteneffektivste Strategie zur Kostenoptimierung, die im Jahr 2025-2026 verfügbar ist. Die Sequenzierung von 1.000 Individuen mit 2× Abdeckung kostet ungefähr dasselbe wie die Sequenzierung von 70 Individuen mit 30× Abdeckung — und für die GWAS-Power gewinnen die 1.000 Genome mit niedriger Abdeckung fast immer. Das Imputationsreferenzpanel sollte an die Abstammung oder die Population der Zielkohorte angepasst sein; für Nicht-Modellorganismen ohne bestehende Referenzpanels ist es kosteneffektiv, 10-20% der Kohorte mit 30× zu sequenzieren, um ein benutzerdefiniertes Referenzpanel zu erstellen, bei Kohortengrößen über ~500.

Pooled-Sequenzierung für spezifische Fragen. Wenn Genotypen auf individueller Ebene nicht erforderlich sind – für die Schätzung von Allelfrequenzen, selektive Sweep-Scans oder Evolutions- und Ressequenzierungs-Experimente – kann das Poolen von DNA vor der Bibliotheksvorbereitung die Kosten um 5-20× senken. Pool-Seq opfert Informationen über individuelle Genotypen, bewahrt jedoch die Schätzungen der Allelfrequenzen mit quantifizierbarer Präzision, die von der Poolgröße und der Sequenzierungstiefe abhängt.

In-house Tn5 Transposase-Produktion. Kommerzielle Bibliotheksvorbereitungskits auf Basis von Transposasen (Nextera, TrueTag) kosten 50-100 $ pro Reaktion. Eine Studie aus dem Jahr 2026 in der Aquakultur zeigte, dass die hauseigene Reinigung und Optimierung von Tn5-Transposase die Kosten für die Bibliotheksvorbereitung auf unter 5 $ pro Probe senkt, während die Komplexität der Bibliothek vergleichbar mit kommerziellen Kits bleibt. Für Projekte mit mehr als 200 Proben ist die Investition von 3-4 Tagen in die Proteinproduktion äußerst lohnenswert.

Massen-QC-Läufe und Neuausbalancierung. Die Sequenzierung eines gepoolten Aliquots mit niedriger Abdeckung, bevor man sich für eine vollständige Sequenzierung entscheidet, kostet etwa 1-3% des Gesamtbudgets des Projekts und kann eine Kostenüberschreitung von 10-20% durch wiederholte Läufe verhindern.

Rechnerische Optimierungen. Die Verwendung von komprimierten Dateiformaten (PGEN für Genotypen, CRAM für Ausrichtungen anstelle von BAM), spärlichen Darstellungen für GWAS und Cloud-Spot-Instanzen für nicht zeitkritische Analysen kann die Rechenkosten um 40-60 % senken.

CD Genomics bietet flexible Sequenzierungstiefen und Multiplex-Konfigurationen an. Whole Genome Sequenzierung Plattform, die es Projekten ermöglicht, Abdeckung, Stichprobengröße und Budget auszubalancieren. Für Projekte, die bevölkerungsweite Neusequenzierung mit einer kleineren Anzahl von tief sequenzierten Referenzgenomen kombinieren, bietet CD Genomics' Pflanzen- und Tier-Whole-Genome-De-Novo-Sequenzierung Der Dienst stellt die hochwertigen Referenzassemblierungen bereit, gegen die die Neusequenzierungsreads ausgerichtet werden.

Large-Scale WGS Re-Sequencing Pipeline: 5-stage horizontal workflow from sample intake to population analysis. Abbildung 3: Großangelegte WGS-Re-Sequenzierungs-Pipeline — Ein 5-stufiger horizontaler Workflow von der Probenaufnahme bis zur Populationsanalyse. Stufen: (1) Probenaufnahme & QC — 96-Well-Platten, fluoreszenzbasierte DNA-Quantifizierung, TapeStation-Integritätsprüfung (Monat 1) → (2) Bibliotheksvorbereitung & Multiplexing — PCR-frei mit UDI-Barcodes, automatisierte Flüssigkeitsverarbeitung, Vor-Pool-QC bei 1-2× (Monat 2) → (3) Sequenzierung — NovaSeq S4 oder DNBSEQ-T7 bei 0,5×–30× (Monate 2-4) → (4) Gemeinsame Genotypisierung — GVCF pro Probe, ReblockGVCF-Kompression, GenomicsDBImport, GenotypeGVCFs, VQSR-Filterung (Monate 5-6) → (5) Populationsanalyse — PCA/ADMIXTURE, GWAS (GEMMA/PLINK), Selektionsscans (XP-CLR/iHS), demografische Inferenz (PSMC/MSMC2) (Monate 6-8).

Bioinformatik im großen Maßstab — Von FASTQ zur Populationsgenetik

Die bioinformatische Pipeline für ein WGS-Projekt mit 1.000 Proben ist nicht einfach die Ein-Proben-Pipeline, die 1.000 Mal ausgeführt wird. Die gemeinsame Analyse – bei der Informationen zwischen den Proben geteilt werden – verbessert die Genauigkeit der Variantenbestimmung, ermöglicht die Erkennung seltener Varianten, die in einzelnen Proben unsichtbar sind, und ist für populationgenetische Analysen erforderlich. Die rechnerische Architektur muss von Anfang an für Parallelisierung ausgelegt sein.

Lesen von Ausrichtung und Vorverarbeitung

Die Ausrichtung von kurzen Reads auf ein Referenzgenom ist ein paralleler Vorgang pro Probe – jede Probe kann unabhängig verarbeitet werden. Die Standardpipeline: Qualitätskontrolle mit FastQC und MultiQC → Adaptertrimmen und Qualitätsfilterung mit fastp → Ausrichtung mit BWA-MEM2 → Duplikatmarkierung mit Picard oder Sambamba → Neuberechnung der Basisqualitätswerte (BQSR) mit GATK (DePristo et al., 2011).

Für Projekte mit mehr als 100 Proben sind Workflow-Manager (Nextflow, Snakemake oder Cromwell/WDL) unerlässlich – sie übernehmen die parallele Einreichung von Jobs, die Ressourcenallokation und die automatische erneute Einreichung fehlgeschlagener Jobs. Eine gut konfigurierte Nextflow-Pipeline auf einem 500-Kern-HPC-Cluster kann 1.000 30× menschliche Genome von FASTQ zu analyseready BAMs in 3-5 Tagen verarbeiten.

Long-Read-Re-Sequenzierung — die Verwendung von PacBio HiFi oder Oxford Nanopore zur Entdeckung struktureller Varianten oder Phasierung — wird zunehmend in Bevölkerungsstudien integriert. Die Long-Read-Sequenzierungsdienste von CD Genomics bieten ergänzende Plattformen für SV-bewusste Re-Sequenzierung an einem Teil der Kohorte, wobei die Reads mit minimap2 ausgerichtet und strukturelle Varianten mit Sniffles2 oder SVIM identifiziert werden. Für einen umfassenden Überblick über Long-Read-Plattformen in allen Anwendungen — einschließlich der Entdeckung struktureller Varianten, Methylierungsdetektion und der Sequenzierung vollständiger Isoformen im Bevölkerungsmaßstab — siehe unser Langzeit-Sequenzierungsdienste Für jede Anwendung.

Variantenerkennung im großen Maßstab — Gemeinsame Genotypisierung

Die variantenspezifische Anrufung pro Probe mit GATK HaplotypeCaller im GVCF-Modus, gefolgt von einer gemeinsamen Genotypisierung über alle Proben hinweg, ist der Goldstandardansatz für WGS im Bevölkerungsskala. Die GATK "Biggest Practices", die für Kohorten mit mehr als 2.000 Proben eingeführt und an gnomAD (150.000 Exome), UK Biobank und All of Us validiert wurden, bringen wichtige Optimierungen mit sich:

ReblockGVCF komprimiert benachbarte Referenzblöcke in GVCFs pro Probe und entfernt niedrigqualitative alternative Allele (GQ < 20), wodurch die Dateigrößen um 70-90 % und die nachgelagerten Zusammenführungszeiten entsprechend reduziert werden. GnarlyGenotyper schätzt QUAL-Werte aus den INFO-Feld-Anmerkungen, ohne über jeden Genotyp zu iterieren, wodurch der Rechenengpass beseitigt wird, der das gemeinsame Aufrufen sehr großer Kohorten unpraktisch machte. VQSR-Streuwertmodus parallelisiert die Qualitätsbewertung von Varianten über genomische Intervalle, wodurch die Filterung von Zehntausenden von Millionen von Varianten über Tausende von Proben ermöglicht wird.

Für Nicht-Modellorganismen ohne etablierte Wahrheitsdatensätze erfordert VQSR mindestens 50 Proben für ein effektives Training des Gaussian-Mischmodells; für kleinere Kohorten ist das harte Filtern basierend auf den von GATK empfohlenen Schwellenwerten (QD < 2,0, FS > 60,0, MQ < 40,0 usw.) eine praktische Alternative.

Für Projekte, die strukturelle Varianten auf Bevölkerungsebene analysieren, bietet CD Genomics' Variantenaufruf Der Service umfasst Multi-Caller-Konsensansätze (Manta + Delly + Lumpy), die hinsichtlich Sensitivität und Präzision über eine Vielzahl von Genomgrößen und Wiederholungsinhalten validiert wurden.

Imputation — Daten mit geringer Abdeckung analysierbar machen

GLIMPSE2 (Rubinacci et al., 2023) ist der aktuelle Stand der Technik für die Imputation von WGS-Daten mit niedriger Abdeckung auf Sequenzauflösung. Es erreicht eine sublineare Skalierung sowohl bei der Anzahl der Proben als auch bei der Anzahl der Marker und verarbeitet ein 1× Genom gegen ein Referenzpanel von 150.000 Haplotypen in etwa 11 Stunden bei Kosten von unter 0,10 $ pro Genom. Die Methode verwendet eine spärliche Darstellung des Referenzpanels, eine positionale Burrows-Wheeler-Transformation für schnelles Haplotyp-Matching und hardware-optimierte HMM-Berechnungen – was eine Imputation im Maßstab der Bevölkerung ermöglicht, die mit früheren Methoden rechnerisch unerschwinglich war.

Für Nicht-Modellorganismen, bei denen große Referenzpanels nicht existieren, wird ein zweistufiges Design empfohlen: Sequenzieren Sie 50-100 Individuen mit ≥25×, um ein benutzerdefiniertes Referenzpanel zu erstellen, und sequenzieren Sie dann die verbleibende Kohorte mit 1-4× und imputieren Sie gegen das benutzerdefinierte Panel. Eine Studie aus dem Jahr 2025 an kultivierten Erdbeeren zeigte, dass ~70 genetisch repräsentative Individuen mit ≥25× ausreichten, um ein Imputationsreferenzpanel zu erstellen, das eine Übereinstimmung von 94-98% in einem allo-oktoploiden Genom erreichte — ein starkes Indiz dafür, dass diese Strategie auf verschiedene Organismen übertragbar ist.

Populationsgenetische Analyse

Mit einem gemeinsam erstellten, gefilterten VCF in der Hand umfassen die popuationsgenetischen Analysen, die Variantencalls in biologische Erkenntnisse umwandeln:

BevölkerungsstrukturPCA (PLINK), ADMIXTURE und phylogenetische Rekonstruktion (IQ-TREE, RAxML-ng). Die Verwandtschaftsschätzung mit KING oder PLINK identifiziert kryptische Verwandtschaft, die in nachgelagerten Analysen berücksichtigt werden muss.

Genetische VielfaltNukleotiddiversität (π), beobachtete und erwartete Heterozygotie sowie Tajimas D, berechnet in gleitenden Fenstern mit VCFtools oder pixy.

PopulationsdifferenzierungWeir und Cockerhams Fst, Hudsons Fst und Pattersons D-Statistik (ABBA-BABA) zur Erkennung von Genfluss und Introgression — implementiert in Dsuite und ADMIXTOOLS 2.

Selektive Sweep-ErkennungXP-CLR, iHS/nSL und Ansätze des zusammengesetzten Likelihood-Verhältnisses, die in selscan, RAiSD und SweeD implementiert sind.

Demografische GeschichtePSMC für einzelne diploide Genome, MSMC2 für mehrere Genome und Stairway Plot 2 für die auf der Allelfrequenzspektrum basierende Inferenz.

GWASGEMMA für gemischte Modellassoziationen, PLINK 2.0 für großangelegte lineare/logistische Regression und BOLT-LMM für Biobank-große Datensätze, bei denen Verwandtschaftsmatrizen für 500.000 Individuen rechnerisch unhandhabbar sind.

CD Genomics' Bevölkerungsentwicklung Der Analyse-Service bietet das vollständige Spektrum an populationengenetischen Analysen im Rahmen von großangelegten Neusequenzierungsprojekten und liefert veröffentlichungsfertige Abbildungen, Tabellen und Methodensektionen für jedes Analysemodul.

Datenmanagement und -freigabe

Ein 1.000-Proben, 10× WGS-Projekt erzeugt ungefähr 100 TB an Rohdaten, Zwischendateien und Analyseergebnissen. Datenmanagement ist kein nachträglicher Gedanke — es ist ein vorrangiges Designkriterium des Projekts, das Budget, Zeitplan und die Einhaltung von Datenfreigabeverpflichtungen von Zeitschriften und Geldgebern beeinflusst.

Speicherarchitektur

Aktive Analysedaten (FASTQ, BAM, VCF) sollten während der Analysephase auf hochleistungsfähigem parallelem Speicher (Lustre, GPFS oder BeeGFS) gespeichert werden. Nach Abschluss des Projekts werden die Daten in kostengünstigere Archivspeicher überführt: CRAM-Format für Ausrichtungen (30-50% kleiner als BAM), PGEN-Format für Genotypdaten (98% kleiner als flach-text VCF) und komprimierte Archive für rohe FASTQ. Cloud-Objektspeicher (AWS S3 Glacier, Google Cloud Archive) kostet $0,001-0,004 pro GB und Monat – etwa $100-400 pro Monat für ein 100 TB Archiv – aber die Kosten und die Latenz für die Wiederherstellung müssen in die Archivierungsentscheidungen einbezogen werden.

Öffentliche Datenbankeinreichung

Die meisten Fachzeitschriften und Förderer verlangen die Ablage von Sequenzierungsdaten in öffentlichen Repositorien. Die standardmäßigen Einreichungsziele sind:

NCBI Sequenzlesearchiv (SRA)Akzeptiert rohe Sequenzierungsdaten (FASTQ) und ausgerichtete Daten (BAM). Die Einreichung erfordert eine BioProject-Zugangsnummer (Projektmetadaten) und BioSample-Zugangsnummern (Stichprobenmetadaten) für jede Einzelperson. Der SRA-Einreichungsassistent und der auf Aspera basierende Dateitransfer bewältigen große Datensätze.

Europäisches Nukleotidarchiv (ENA)Entspricht der SRA für europäische Projekte; akzeptiert dieselben Datentypen und bietet eine Spiegelung zwischen SRA und ENA.

Europäisches Variationsarchiv (EVA)Akzeptiert Variantenaufrufe (VCF) mit zugehörigen Metadaten. Für Projekte im Bevölkerungsmaßstab wird die EVA-Einreichung des gemeinsam aufgerufenen VCF dringend empfohlen, um die Reproduzierbarkeit zu gewährleisten.

CD Genomics bietet einreichungsbereite Datenpakete, die für SRA/ENA/DDBJ formatiert sind, einschließlich validierter Metadaten-Tabellen, die die Anforderungen der INSDC (International Nucleotide Sequence Database Collaboration) erfüllen. Unser Whole Genome SNP-Genotypisierung und Genotypisierung durch Sequenzierung (GBS) Die Dienstleistungen bieten ergänzende Genotypisierungsansätze an, wenn WGS das unmittelbare Budget des Projekts überschreitet oder wenn eine gezielte Genotypisierung bekannter Varianten ausreicht.

Reproduzierbarkeit und Datenherkunft

Für Projekte im Maßstab der Bevölkerung erfordert die rechnerische Reproduzierbarkeit mehr als nur das Teilen von Skripten. Containerisierte Workflows (Docker- oder Singularity-Images mit festgelegten Softwareversionen), Workflow-Definitionsdateien (Nextflow .nf oder WDL-Skripte, die zusammen mit dem Manuskript abgelegt werden) und explizite Zufallszahlen für stochastische Algorithmen sollten archiviert werden. Die Workflow Description Language (WDL)-Skripte für die GATK Best Practices-Pipeline werden beispielsweise öffentlich auf Dockstore gepflegt und können über DOI referenziert werden – ein Standard, den Projekte der Populationsgenomik übernehmen sollten.

Praktische Überlegungen zur Projektplanung

Zeitachse

Ein 500-Proben, 10× WGS-Nachsequenzierungsprojekt für ein 1 Gb Genom folgt ungefähr diesem Zeitplan:

Monat 1Probenentnahme, DNA-Extraktion, Qualitätskontrolle, Normalisierung, Plattierung (parallelisiert über 96-Well-Platten)

Monat 2Bibliotheksvorbereitung und Multiplexing; Vor-Pool QC-Sequenzierung

Monat 2-4Vollständige Sequenzierung (6-10 NovaSeq S4-Läufe, abhängig von der Multiplexdichte)

Monat 3-5Ausrichtung und variantenspezifische Anrufung pro Probe (parallel; kann beginnen, sobald Sequenzierungsdaten eintreffen)

Monat 5-6Gemeinsame Genotypisierung, Variantenfilterung, Imputation (falls zutreffend)

Monat 6-8Populationsgenetische Analysen, Erstellung von Abbildungen, Manuskriptvorbereitung

Monat 8-9Öffentliche Datenbankeinreichung, Datenarchivierung

Gesamtdauer des Projekts: 8-9 Monate von der Probenannahme bis zu publikationsreifen Ergebnissen. Beschleunigte Zeitpläne (4-6 Monate) sind durch priorisierte Sequenzierung, cloudbasierte Berechnungen und parallele Ausführung von Analyse-Pipelines erreichbar.

Zusammenarbeit mit CD Genomics an Großprojekten

Für Projekte mit Hunderten bis Tausenden von Proben stellt CD Genomics einen dedizierten Projektmanager zur Verfügung, der die Probenlogistik, die Planung der Sequenzierung und die Datenlieferung koordiniert. Der Standardarbeitsablauf:

BeratungDefinieren Sie Projektziele, Stichprobengrößen, Abdeckungsstrategie und Analyseumfang. Wenn komplexe Merkmale oder die Populationsstruktur im Vordergrund stehen, bietet CD Genomics' Genomweite Assoziationsstudie (GWAS) Der Service bietet eine integrierte Phänotyp-Genotyp-Analyse mit gemischtem Modellkorrektur für die Populationsstruktur an.
ProbenaufnahmeProben werden mit 2D-Barcode-Röhrchen in das LIMS aufgenommen, gegen das Probenmanifest abgeglichen und einer eingehenden Qualitätskontrolle (Konzentration, Reinheit, Integrität) unterzogen.
PilotchargeDie ersten 48-96 Proben werden durch die gesamte Pipeline verarbeitet — Extraktion, Bibliotheksvorbereitung, Sequenzierung und vorläufige Analyse — um die DNA-Qualität, die Komplexität der Bibliothek und die Gleichmäßigkeit der Abdeckung zu validieren. Etwaige Protokollanpassungen werden vorgenommen, bevor die gesamte Kohorte skaliert wird.
ProduktionssequenzierungDie verbleibenden Proben werden in Chargen von 96 verarbeitet, wobei jede Charge über das LIMS verfolgt und einer Chargenqualitätskontrolle unterzogen wird.
Gemeinsame AnalyseAlle Proben werden gemeinsam aufgerufen, gefiltert und für die vereinbarten Module der Populationsgenetik analysiert. Die Ergebnisse werden interaktiv bereitgestellt – vorläufige PCA- und ADMIXTURE-Diagramme können beispielsweise überprüft und diskutiert werden, bevor die endgültigen Analysen durchgeführt werden.
Endgültige LieferungRohdaten (FASTQ), ausgerichtete Daten (BAM/CRAM), Variantenaufrufe (VCF), Ergebnisse der Populationsgenetik-Analyse (veröffentlichungsfertige Abbildungen und Tabellen) sowie ein umfassendes Methodendokument, das alle bioinformatischen Schritte beschreibt.

Für einen umfassenderen Überblick darüber, wie großangelegte Neusequenzierung in die Landschaft der WGS passt, von einzelnen bakteriellen Genomen bis hin zur de novo-Assemblierung nicht-modellierter Eukaryoten, siehe unser Hub für Dienstleistungen zur gesamten GenomsequenzierungFür Projekte, die das Zusammenstellen eines Referenzgenoms vor der Neusequenzierung erfordern, siehe unser De Novo Pflanzen- und Tiergenomsequenzierung Leitfaden. Für Hinweise zur Auswahl zwischen Niedrigpass- und Hochabdeckungsstrategien basierend auf Ihrer spezifischen Forschungsfrage siehe unser Low-Pass vs. High-Coverage WGS: Die richtige Sequenzierungstiefe für Ihre Forschungsziele und Ihr Budget wählen.

Häufig gestellte Fragen

Was ist großangelegte Whole-Genome-Re-Sequenzierung und wie unterscheidet sie sich von der de novo-Assemblierung?

Großangelegte Re-Sequenzierungsprojekte kartieren die Reads von Hunderten bis Tausenden von Individuen gegen ein bestehendes Referenzgenom, um genetische Varianten (SNPs, Indels, strukturelle Varianten) in einer Population zu identifizieren. Es unterscheidet sich grundlegend von der de novo Assemblierung, die ein Genom von Grund auf ohne Referenz erstellt. Die Re-Sequenzierung ist schneller und kostengünstiger pro Probe, erfordert jedoch ein hochwertiges Referenzgenom.

Wie viele Proben benötige ich für eine Populationsgenomik- oder GWAS-Studie?

Für die Populationsstruktur und demografische Geschichte sind oft 10-30 Individuen pro Population bei ≥10× Abdeckung ausreichend. Für GWAS sind Stichprobengrößen von Hunderten bis Tausenden erforderlich, um Loci zu identifizieren, die 0,1-1% der phänotypischen Varianz erklären – Power-Berechnungen sollten diese Entscheidung leiten. Für die genomische Selektion sind 500-2.000 Individuen als Standard für den Aufbau von Trainingspopulationen in der Pflanzen- und Tierzucht erforderlich.

Welche Sequenzierungstiefe sollte ich für ein großangelegtes Neusequenzierungsprojekt wählen?

Niedrigabdeckendes WGS (1-4×) mit Imputation ist der Standard für Kohorten mit mehr als ~300 Proben und erfasst häufige Varianten zu einem Bruchteil der Kosten von tiefem WGS. Standardabdeckung (10-15×) bietet zuverlässige Aufrufe seltener Varianten für demografische Inferenz und Selektionsanalysen. Tiefe Abdeckung (30×) wird für den Aufbau von Referenzpanels und die hochzuverlässige Variantenerkennung empfohlen.

Wie kontrolliere ich die Kosten für ein Projekt mit Hunderten bis Tausenden von Proben?

Die drei Strategien mit dem größten Einfluss: (1) Verwendung von niedrigabdeckendem WGS + Imputation für die gesamte Kohorte mit einem benutzerdefinierten Referenzpanel aus 10-20% der Proben bei 30×, (2) Verhandlung von Mengenpreisen und Durchführung von Vor-Pool-QC-Läufen, um kostspielige Wiederanstellungen zu vermeiden, und (3) Annahme komprimierter Formate (CRAM, PGEN), um die Speicherkosten um 30-98% zu senken.

Welche bioinformatische Infrastruktur benötige ich für die gemeinsame Analyse von 1.000 Genomen?

Für die Ausrichtung und die variantenspezifische Anrufung pro Probe kann ein 500-Kern-HPC-Cluster oder eine gleichwertige Cloud-Computing-Lösung 1.000 30× Genome in weniger als einer Woche verarbeiten. Für die gemeinsame Genotypisierung werden mindestens 1 TB RAM und 50 TB schnellen Speicher für Kohorten mit mehr als 2.000 Proben empfohlen — ab diesem Punkt werden die GATK "Biggest Practices" (ReblockGVCF + GnarlyGenotyper) unerlässlich. Workflow-Manager (Nextflow, Snakemake) und containerisierte Tools (Docker, Singularity) werden dringend für die Reproduzierbarkeit empfohlen.

Kann ich Proben, die mit unterschiedlichen Tiefen sequenziert wurden, in derselben Analyse kombinieren?

Ja, das gemeinsame Genotypisieren mit GATK bewältigt heterogene Abdeckung – dies ist Routine in Projekten, die ein tief sequenziertes Referenzpanel mit einer niedrig-abgedeckten Entdeckungs-Kohorte kombinieren. Die Sensitivität der Variantenaufrufe variiert jedoch je nach Tiefe, daher sollten Batch-Effekte explizit modelliert werden. Die Imputation mit GLIMPSE2 kann Abdeckungsunterschiede harmonisieren, indem sie niedrig-abgedeckte Proben auf die Auflösung des Referenzpanels imputiert.

Was sind die Datenlageranforderungen für ein großes Neusequenzierungsprojekt?

Ein einzelnes 30× Genom erzeugt etwa 200-300 GB Gesamtdaten; ein Projekt mit 1.000 Proben bei 10× erfordert 100-150 TB aktiven Speicher und 50-80 TB für die langfristige Archivierung. Die Kosten für Cloud-Archivspeicher liegen bei etwa 100-400 USD pro Monat für ein 100 TB Archiv. Die Verwendung von CRAM anstelle von BAM reduziert den Speicherbedarf für Ausrichtungen um 30-50%; das PGEN-Format reduziert den Speicherbedarf für Genotypen um 98%.

Wie geht CD Genomics mit der Logistik von großangelegten Re-Sequenzierungsprojekten um?

CD Genomics bietet einen dedizierten Projektmanager, LIMS-überwachte Probenbearbeitung im 96-Well-Format, automatisierte Flüssigkeitsverarbeitung für die Bibliotheksvorbereitung, Pre-Pool-QC-Läufe für jede Charge, gemeinsame Variantenbestimmung mit GATK und umfassende bevölkerungsgenetische Analysen. Rohdaten (FASTQ), ausgerichtete Daten (BAM/CRAM), Variantenaufrufe (VCF) und veröffentlichungsfertige Analyseergebnisse werden mit einem detaillierten Methodenbericht geliefert. Beschleunigte Zeitpläne sind verfügbar.

Referenzen:

DePristo MA, Banks E, Poplin R, et al. Ein Rahmenwerk zur Entdeckung von Variationen und Genotypisierung unter Verwendung von DNA-Sequenzierungsdaten der nächsten Generation. Naturwissenschaften Genetik2011;43(5):491-498. doi:10.1038/ng.806
Rubinacci S, Hofmeister RJ, Sousa da Mota B, Delaneau O. Imputation von Sequenzierungsdaten mit niedriger Abdeckung aus 150.119 Genomen der UK Biobank. Naturwissenschaften Genetik2023;55(7):1088-1090. doi:10.1038/s41588-023-01438-3
Chang CC, Chow CC, Tellier LCAM, Vattikuti S, Purcell SM, Lee JJ. Zweite Generation PLINK: Die Herausforderung größerer und reichhaltigerer Datensätze meistern. GigaScience2015;4:7. doi:10.1186/s13742-015-0047-8
Li H. Ausrichten von Sequenzlesungen, Klonsequenzen und Assemblierungscontigs mit BWA-MEM. arXiv:1303.3997v2 [q-bio.GN]. 2013. arXiv:1303.3997
Danecek P, Bonfield JK, Liddle J, et al. Zwölf Jahre SAMtools und BCFtools. GigaScience. 2021;10(2):giab008. doi:10.1093/gigascience/giab008
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: Zusammenfassung von Analyseergebnissen für mehrere Tools und Proben in einem einzigen Bericht. Bioinformatik2016;32(19):3047-3048. doi:10.1093/bioinformatics/btw354
Purcell S, Neale B, Todd-Brown K, et al. PLINK: ein Werkzeugset für Assoziationsanalysen des gesamten Genoms und bevölkerungsbasierte Verknüpfungsanalysen. Amerikanisches Journal für Humangenetik2007;81(3):559-575. doi:10.1086/519795
Zhou X, Stephens M. Effiziente gemischte Modellanalyse des gesamten Genoms für Assoziationsstudien. Natur Genetics2012;44(7):821-824. doi:10.1038/ng.2310
Koorevaar T, van de Weg E, Visser RGF, et al. Genotypisierung durch Imputation aus niedrigdeckender WGS unter Verwendung von Haplotyp-Referenzpanels in kultiviertem Erdbeeren. BMC Genomik2025;26(1):968. doi:10.1186/s12864-025-12270-w

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.