Prinzipien und Arbeitsablauf der gesamten Exomsequenzierung: Ein technischer Leitfaden für die Projektplanung

Die gesamte Exomsequenzierung (WES) zielt auf die protein-codierenden Regionen des Genoms ab – etwa 35 Mb oder 1-2 % der gesamten Genomsequenz – unter Verwendung von hybridisierungsbasierter Capture-Anreicherung in Kombination mit Hochdurchsatzsequenzierung. Trotz der Abdeckung nur eines kleinen Bruchteils des Genoms untersucht WES etwa 85 % der bekannten krankheitsverursachenden Mutationen, was es zu einer der kosteneffektivsten Strategien für sowohl Forschungs- als auch klinische genomische Analysen macht. Der Kompromiss zwischen Genomabdeckung und Sequenzierungskosten – WES bei 100× kostet etwa ein Fünftel von WGS bei 30× – positioniert die Exomsequenzierung als einen zugänglichen Einstiegspunkt für Projekte, die eine umfassende Variantenerkennung über viele Proben hinweg erfordern. Alle in diesem Leitfaden beschriebenen WES-Dienste und bioinformatischen Analysen sind ausschließlich für Forschungszwecke gedacht und nicht für klinische diagnostische Anwendungen vorgesehen.

Dieser Leitfaden bietet einen technischen Rahmen für Forscher, die WES-Projekte entwerfen. Er behandelt die biochemischen Prinzipien der Hybridfängereignis, die die Effizienz und Uniformität der Erfassung bestimmen, die quantitative Beziehung zwischen Sequierungstiefe und effektiver Abdeckung, die wesentlichen Unterschiede zwischen Tumor-Normal-Paar- und Tumor-einzelner Analyse-Strategien sowie die Qualitätskontrollmetriken, die hochwertige WES-Daten von kompromittierten Durchläufen unterscheiden. Der Fokus liegt auf der Gestaltung von Experimenten, die WES-Daten mit der für die beabsichtigte Anwendung erforderlichen Tiefe und Uniformität erzeugen – sei es zur Entdeckung von Keimbahnvarianten, zur Erkennung somatischer Mutationen oder zur klinischen Diagnostik-Sequenzierung. Jeder Abschnitt bietet umsetzbare Hinweise für eine spezifische Phase des Projektentwurfsprozesses, von der Auswahl des Erfassungs-Kits über die bioinformatische Analyse bis hin zur Varianteninterpretation.

Whole-Exom-Sequenzierungsdienste Verwenden Sie validierte Erfassungs-Kits und standardisierte Protokolle zur Bibliotheksvorbereitung, um >95 % der Zielbasen bei 20× Abdeckung mit Fold-80-Werten unter 2,0 zu erreichen. Die Wahl der Erfassungschemie, der Sequenzierungsplattform und der Tiefe bestimmt direkt die Datenqualität und die Arten von Varianten, die zuverlässig nachgewiesen werden können – was das informierte Projektdesign zum wichtigsten Faktor für den Erfolg von WES-Studien macht.

Was ist die gesamte Exom-Sequenzierung und wann sollten Sie sich dafür entscheiden?

Das gesamte Exom-Sequencing bereichert und sequenziert die exonen Regionen des Genoms – definiert als die kombinierten Exonsequenzen aller protein-codierenden Gene, plus untranslatierte Regionen (UTRs) und nicht-codierende RNA-Gene (miRNA, lncRNA), die von den meisten kommerziellen Capture-Kits erfasst werden. Das menschliche Exom enthält ungefähr 180.000 Exons über 20.000-25.000 Gene. Während dies nur 1-2% des Genoms ausmacht, beherbergt das Exom ungefähr 85% der bekannten Mendel’schen krankheitsverursachenden Varianten und einen erheblichen Anteil der treibenden Mutationen bei Krebs, was es zu einem äußerst effizienten Ziel für die Entdeckung von Varianten macht.

Die Entscheidung, WES anstelle von WGS oder einem gezielten Genpanel zu verwenden, hängt von drei Faktoren ab: dem erforderlichen Abdeckungsumfang, der Anzahl der Proben und dem Budget. WES bietet eine genomweite kodierende Abdeckung zu Kosten pro Probe, die die Analyse von Hunderten bis Tausenden von Proben ermöglicht – ein Maßstab, der mit WGS unerschwinglich teuer wäre. Gezielte Panels bieten eine noch höhere Tiefe zu niedrigeren Kosten, sind jedoch auf vordefinierte Gen-Sets beschränkt. Für Projekte, die die Entdeckung neuer kodierender Varianten über viele Proben hinweg erfordern, bietet WES das beste Gleichgewicht zwischen Umfang und Kosteneffizienz. Für Projekte, die sich auf bekannte Gene oder Wege konzentrieren, sind gezielte Panels kosteneffektiver. Für Projekte, die eine umfassende genomweite Analyse einschließlich nicht-kodierender Regionen, struktureller Varianten und regulatorischer Elemente erfordern, ist WGS erforderlich. Whole-Genome-Sequenzierung bietet die umfassendste Sicht, jedoch zu höheren Kosten pro Probe.

Ein zusätzlicher Faktor, der oft bei der Entscheidung zwischen WES und WGS übersehen wird, ist die analytische Reproduzierbarkeit über verschiedene Chargen hinweg. WES-Daten aus unterschiedlichen Capture-Kits oder verschiedenen Chargen desselben Kits zeigen chargenspezifische Abdeckungsmuster, die Vergleiche zwischen Studien und Meta-Analysen komplizieren. WGS hingegen, da es nicht von der Capture-Chemie abhängt, bietet konsistentere Abdeckungsprofile über verschiedene Labore und Sequenzierungsdurchläufe hinweg. Diese Berücksichtigung des Chargeneffekts ist relevant für großangelegte multizentrische Studien oder für Projekte, die planen, Daten aus mehreren Quellen zu integrieren.

Abbildung 1: WES vs WGS vs gezielte Panels — Umfang, Tiefe, Kosten und Anwendungsbereich

Figure 1

Das Prinzip der hybriden Erfassung — Wie die Exom-Anreicherung funktioniert

Die zentrale Ermöglichungstechnologie von WES ist die hybridisierungsbasierte Capture-Anreicherung, bei der biotinylierte DNA- oder RNA-Sonden (Baits), die komplementär zu exonen Sequenzen sind, an fragmentierte genomische DNA hybridisiert, auf streptavidin-beschichteten magnetischen Perlen eingefangen und gewaschen werden, um ungebundene Nicht-Ziel-DNA zu entfernen. Das Verständnis der Entwurfsparameter und Einschränkungen dieses Prozesses ist entscheidend für die Interpretation der Datenqualität von WES.

Sonden-DesignparameterKommerzielle Exom-Erfassungs-Kits verwenden Sonden mit 60-120 Nukleotiden, die mit einer Überlappungsdichte entworfen sind, die jede Zielregion mit 2× überlappenden Sonden abdeckt – was bedeutet, dass jede Zielbase von mindestens zwei unabhängigen Sonden aus verschiedenen Positionen abgedeckt wird. Diese Überlappungsstrategie stellt sicher, dass, wenn eine Sonde in einer Region aufgrund von Sequenzvariationen oder sekundären Strukturen nicht in der Lage ist, ihr Ziel zu erfassen, die überlappende Sonde eine redundante Abdeckung bietet. Der Sondenbestand für ein typisches menschliches Exom-Erfassungs-Kit enthält 400.000-700.000 einzigartige Sonden, abhängig vom Design der Zielregion und der Überlappungsdichte. Ein 2025 veröffentlichter Algorithmus in Bioinformatics (OLTA) optimiert die Auswahl der Baits, um die Anzahl der benötigten Sonden zu minimieren und gleichzeitig die Zielabdeckung aufrechtzuerhalten, wodurch die Erfassungskosten gesenkt werden, ohne die Effizienz zu opfern.

HybridisierungsbedingungenDie Hybridisierung erfolgt bei 65 °C für 16-24 Stunden im Standardprotokoll oder bei erhöhten Temperaturen mit kürzeren Zeiten (1,5-4 Stunden) in Schnellfangprotokollen, die höhere Sondenkonzentrationen und optimierte Pufferformulierungen verwenden. Stringenzwäschen bei 65 °C mit abnehmenden Salzkonzentrationen entfernen teilweise hybridisierte Nicht-Ziel-DNA. Die Stringenz dieser Wäschen bestimmt direkt die On-Target-Rate – strengere Wäschen erhöhen den Anteil der Reads, die auf Zielregionen abzielen, verringern jedoch den Gesamtertrag, während weniger strenge Wäschen mehr Off-Target-DNA erfassen (einschließlich nicht-zielgerichteter genomischer Regionen und mitochondrialer DNA), die für die CNV-Analyse informativ sein kann, jedoch die effektive Sequenzierungstiefe auf dem Ziel verringert. Die Hybridisierungstemperatur muss präzise kontrolliert werden – jede Abweichung von 1 °C von der optimalen Temperatur verringert die Fangeffizienz um etwa 5-10 % für GC-abgestimmte Ziele und mehr für AT-reiche oder GC-reiche Regionen.

Fold-80: die wichtigste EinheitlichkeitsmetrikFold-80 misst, wie oft die durchschnittliche Tiefe sequenziert werden muss, um 80 % der Zielbasen bei dieser durchschnittlichen Tiefe zu erreichen. Ein Fold-80 von 1,0 repräsentiert perfekte Uniformität (alle Zielbasen haben die gleiche Tiefe). Ein Fold-80 von 2,0 bedeutet, dass 1,8× der durchschnittlichen Tiefe benötigt werden, um 80 % der Ziele bei dieser Tiefe abzudecken. Das Whitepaper von Twist Bioscience hat gezeigt, dass Verbesserungen des Fold-80 (Uniformität) einen erheblich größeren Einfluss auf die effektive Abdeckung haben als Verbesserungen der On-Target-Rate. Zum Beispiel reduziert die Verbesserung des Fold-80 von 2,0 auf 1,5 die erforderliche Sequenzierung, um 80 % der Basen bei 20× zu erreichen, um etwa 25 %, während eine gleichwertige Verbesserung der On-Target-Rate (von 70 % auf 80 %) die erforderliche Sequenzierung nur um 12 % reduziert. Dies macht Fold-80 zur handlungsfähigsten Kennzahl zur Bewertung der WES-Datenqualität und zur Planung von Sequenzierungsbudgets.

2024 Kit-Benchmark-DatenEine vergleichende Bewertung von vier Exom-Anreicherungs-Lösungen (Roche, Agilent, Vazyme, Nanodigmbio) aus dem Jahr 2024, veröffentlicht in BMC Genomics im Jahr 2025, liefert die aktuellsten Leistungsdaten im direkten Vergleich. Alle vier Kits erreichten >97,5% der Zielbasen bei 10× und >95% bei 20×. Roche zeigte die gleichmäßigste Abdeckung (niedrigster Fold-80), während Nanodigmbio die höchste On-Target-Rate aufgrund weniger Off-Target-Reads erzielte. Die Sensitivität zur Variantenerkennung war bei allen Kits für SNVs hoch (>99% bei 20×), variierte jedoch stärker bei Indels (95-98%), wobei die Uniformität der Erfassung den größten Einfluss hatte. Die wichtigste Erkenntnis für das Projektdesign ist, dass bei der Auswahl des Kits die Uniformitätsmetriken (Fold-80) über der On-Target-Rate priorisiert werden sollten, wenn das Forschungsziel eine umfassende Variantenerkennung ist, insbesondere für klinisch relevante Regionen, in denen ein Abdeckungsversagen bei einzelnen Exonen das Verpassen eines pathogenen Variants bedeuten kann. Für Projekte, die sich auf ein spezifisches Genpanel oder bekannte genomische Regionen konzentrieren, könnten Kits mit gezielter Optimierung für diese Regionen besser abschneiden als allgemeine Exom-Kits.

Praktische Überlegungen zur Auswahl von ErfassungsgerätenÜber die Fold-80- und On-Target-Raten hinaus sollte die Auswahl des Kits auch die Definition der Zielregion berücksichtigen. Einige Kits umfassen flankierende intronische Regionen, die für die Analyse von Spleißstellen unerlässlich sind, UTRs, die für die Erkennung regulatorischer Varianten wichtig sind, und nicht-kodierende RNA-Gene, die für bestimmte Krankheiten relevant sind. Die CCDS (Consensus CDS) Abdeckung – der Anteil gut annotierter kodierender Exons, die in der Zielregion des Kits enthalten sind – variiert zwischen 92-98 % bei kommerziellen Kits. Für Projekte, die sich auf die Entdeckung von Krankheitsgenen konzentrieren, kann ein Kit mit höherer CCDS-Abdeckung bevorzugt werden, selbst wenn dessen On-Target-Rate etwas niedriger ist. Für große Kohortenstudien, bei denen die Kosten pro Probe die Hauptbeschränkung darstellen, bietet das Kit mit der effizientesten Erfassung (höchste On-Target-Rate bei akzeptablem Fold-80) den besten Wert.

Abbildung 2: Vollständiger WES-Workflow – von der Probenvorbereitung bis zur bioinformatischen Analyse

Figure 2

WES vs WGS vs gezielte Panels — Drei Ansätze im Vergleich

Die drei Sequenzierungsstrategien unterscheiden sich in der Genomabdeckung, der Sequierungstiefe, den Kosten pro Probe und den Arten von Varianten, die sie zuverlässig nachweisen können.

WGS bei 30× deckt das gesamte Genom ab, einschließlich kodierender, nicht-kodierender und regulatorischer Regionen. Es erkennt SNVs, kleine Indels, strukturelle Varianten und CNVs im gesamten Genom, ohne Erfassungsbias und ohne systematisch durch die Sondenkonstruktion ausgeschlossene Regionen. Bei 30× ist jedoch die durchschnittliche Tiefe in kodierenden Regionen geringer als bei WES, was die Sensitivität für niedrigfrequente somatische Varianten verringert. Im großen Maßstab ist WGS der teuerste der drei Ansätze für kodierzielgerichtete Analysen.

WES bei 100-200× Abdeckung umfasst nur die Zielregionen des Capture-Kits (typischerweise 35-50 Mb exoner Sequenzen und flankierende Sequenzen). Die höhere Tiefe ermöglicht die Erkennung von somatischen Varianten mit niedriger Frequenz bis zu 5-10% Allelfrequenz in hochreinen Proben. WES erkennt kodierende SNVs und kleine Indels mit hoher Sensitivität, hat jedoch eine begrenzte Fähigkeit zur CNV-Erkennung in erfassten Regionen und keine Möglichkeit, Varianten in nicht zielgerichteten Regionen zu erkennen. Für die großflächige Entdeckung kodierender Varianten über Hunderte von Proben hinweg bietet WES das effizienteste Gleichgewicht zwischen Sequenzierungskosten und Datenumfang.

Gezielte Panels decken 0,1-5 Mb ausgewählter Gene oder Regionen mit sehr hoher Tiefe (500-2.000×) ab. Diese Tiefe ermöglicht die Erkennung somatischer Varianten mit einer Allelfrequenz von 1-5%, wodurch Panels die bevorzugte Methode für Flüssigbiopsie-Assays und zur Überwachung minimaler Restkrankheit sind. Panels sind der kosteneffektivste Ansatz für vordefinierte Gen-Sets, bieten jedoch kein Entdeckungspotenzial über die gezielten Gene hinaus.

Für die meisten Forschungsprojekte folgt die Wahl zwischen den drei Ansätzen einer klaren Logik: Verwenden Sie WGS, wenn das Budget es zulässt und die Fragestellung eine genomweite Analyse erfordert. Verwenden Sie WES, wenn das Budget die Probenverarbeitung einschränkt und die Fragestellung sich auf kodierende Varianten konzentriert. Verwenden Sie gezielte Panels, wenn die interessierenden Gene gut definiert sind und maximale Tiefe erforderlich ist. Eine zunehmend gängige Strategie ist ein gestufter Ansatz – beginnend mit WES zur breiten Variantenentdeckung in einer Kohorte, gefolgt von der Validierung und Nachverfolgung spezifischer Ergebnisse mit gezieltem Deep Sequencing oder funktionalen Studien. Dieses Design maximiert das Entdeckungspotenzial von WES, während die Gesamtkosten des Projekts kontrolliert werden, indem teurere Tests für die Validierungsphase reserviert werden.

Abdeckungs-Tiefenanforderungen — Wie viel Sequenzierung ist ausreichend?

Die erforderliche Sequenzierungstiefe für WES hängt von den zu detektierenden Variantentypen und der erwarteten Allelfrequenz ab. Für die Erkennung von Keimbahn-SNVs bietet eine mittlere Zielabdeckung von 100× eine Sensitivität von über 99 % für heterozygote Varianten bei einer Allelfrequenz von 0,5. Die kritische Qualitätskontrollmetrik ist der Anteil der Zielbasen, die mit ausreichender Tiefe abgedeckt sind – für Keimbahndiagnosen sind über 95 % der Zielbasen bei 20× der Mindeststandard, und über 98 % bei 20× ist das Ziel für klinisch hochwertige Daten.

Für die Erkennung somatischer Varianten bei Krebs ist eine höhere Tiefe erforderlich, da somatische Mutationen je nach Tumorreinheit in niedrigeren Allelfrequenzen vorhanden sind. Bei einer mittleren Zielabdeckung von 150-200× erkennt WES somatische SNVs bei einer Allelfrequenz von 10-20% mit angemessener Sensitivität. Für Varianten mit niedrigeren Frequenzen sind tiefere Sequenzierungen oder gezielte Ansätze erforderlich. Die Beziehung zwischen mittlerer Tiefe, Allelfrequenz und Erkennungssensitivität folgt einer Poisson-Verteilung – um eine Variante mit 5% Allelfrequenz bei 95% Konfidenz zu erkennen, sind mindestens 200× Abdeckung an der Variantenposition erforderlich.

Die Einheitlichkeit der Abdeckung (fold-80) beeinflusst direkt, wie viel Sequenzierung erforderlich ist, um diese Tiefenmetriken zu erreichen. Eine Bibliothek mit einem fold-80 von 1,6 benötigt 40 % weniger Sequenzierung als eine mit einem fold-80 von 2,4, um denselben Prozentsatz an Zielbasen bei 20× zu erreichen. Dies macht die Optimierung des fold-80 zu einer der kosteneffektivsten Strategien zur Verbesserung der Effizienz von WES-Projekten. Deckungsanforderungen für WES-Projekte bietet einen detaillierten Leitfaden zur Tiefenplanung für verschiedene Anwendungen.

Praktische TiefenplanungDie Beziehung zwischen der durchschnittlichen Zieltiefe, der Anzahl der Proben und den Sequenzierungskosten folgt einer einfachen Berechnung. Ein Standard-Exom-Capture-Kit zielt auf 35-50 Mb ab. Bei einer durchschnittlichen Tiefe von 100× sind dafür 3,5-5 Gb an On-Target-Reads erforderlich. Bei On-Target-Raten von 60-75% beträgt die gesamte Sequenzierung, die benötigt wird, ungefähr 5-8 Gb pro Probe. Für ein Projekt mit 96 Proben, das auf einem NovaSeq 6000 S4-Flow-Cell multiplexiert ist und 1.000 Gb Daten produziert, entspricht dies ungefähr 120-190 Proben pro Flow-Cell, abhängig von der On-Target-Effizienz. Für LP-WES-Anwendungen, bei denen 30-50× für die Bevölkerungs-Screenings ausreichend sind, können die Kosten pro Probe um 50-60% gesenkt werden. Diese Berechnungen sollten vor der Festlegung des Projektbudgets mit der tatsächlichen Leistung des ausgewählten Capture-Kits und der Sequenzierungsplattform validiert werden.

Abbildung 3: Abdeckungstiefe vs. effektive Abdeckung — der Einfluss von Fold-80 auf die Sequenzierungseffizienz

Figure 3

WES-Bioinformatik-Pipeline — Wichtige Anpassungen für Exomdaten

Die standardmäßige GATK Best Practices-Pipeline zur Variantenentdeckung erfordert spezifische Anpassungen für WES-Daten, die sich von der WGS-Analyse unterscheiden. Die nicht uniforme Abdeckung der capture-basierten WES führt zu systematischen Verzerrungen, die mehrere Schritte in der Pipeline beeinflussen.

VorverarbeitungsanpassungenIm Gegensatz zu WGS, wo das Markieren von Duplikaten hauptsächlich der Entfernung von PCR-Duplikaten dient, erfordert WES-Daten eine sorgfältige Handhabung von Duplikaten, da der Erfassungsprozess selbst einen höheren Anteil an Duplikat-Lesungen aus demselben ursprünglichen DNA-Molekül produziert. Die Verwendung von Picard MarkDuplicates mit der Option REMOVE_DUPLICATES=false (markieren, aber nicht entfernen) ermöglicht es nachgelagerten Tools, Duplikate angemessen zu behandeln. Die Vorindizierung der deduplizierten BAM-Datei ist für die GATK-Verarbeitung unerlässlich.

Variantenerkennung in WES-DatenGATK HaplotypeCaller sollte mit dem Flag --exome-mode für WES-Daten ausgeführt werden, was die Erkennung aktiver Regionen anpasst, um die nicht-kontinuierliche Abdeckung der Exomziele zu berücksichtigen. Für somatische Variantenbestimmungen in tumor-normal gepaarten WES-Daten wird Mutect2 als der empfohlene Caller angesehen. Ein Benchmark aus dem Jahr 2025 in MDPI Biomolecules, der Mutect2, Strelka2 und FreeBayes für somatische WES vergleicht, ergab, dass Mutect2 die höchste Präzision (>95%) erreichte, während Strelka2 die höchste Sensitivität (>90%) für SNVs erzielte. Bei der Tumor-Only WES-Analyse (bei der kein passendes normales Gewebe verfügbar ist) sinkt die Sensitivität um 15-20% im Vergleich zur gepaarten Analyse, da Keimbahnvarianten nicht von somatischen Mutationen unterschieden werden können. Tumor-Only WES ist für das erste Screening geeignet, aber eine gepaarte Analyse wird dringend für Studien empfohlen, die eine genaue Identifizierung somatischer Varianten erfordern.

Filter- und Annotationsanpassungen für WESDie geringere Anzahl an Gesamtlesungen in WES im Vergleich zu WGS bedeutet, dass die Schwellenwerte für die Variantenfilterung entsprechend angepasst werden sollten. Für die Keimbahn-WES sind eine Mindesttiefe von 10× und eine Mindestanzahl alternativer Allele von 3 Standardfilterkriterien. Für somatische WES reduziert eine Filterung bei 20× mit 5 unterstützenden Lesungen falsch-positive Ergebnisse, die durch Erfassungsartefakte verursacht werden. Annotierungs-Pipelines für WES sollten Gene-Level-Coverage-Flags enthalten, die anzeigen, welche Exons eine unzureichende Tiefe für eine zuverlässige Variantenbestimmung hatten – ohne diese Flags könnte das Fehlen von Variantenaufrufen in einem schlecht abgedeckten Exon fälschlicherweise als Abwesenheit einer Mutation interpretiert werden. Die Annotierungstools VEP (Variant Effect Predictor) oder SnpEff erzeugen diese Coverage-Anmerkungen, wenn sie mit der BED-Datei der WES-Zielregion bereitgestellt werden.

CNV-Erkennung aus WES-DatenDie CNV-Erkennung aus WES ist grundsätzlich herausfordernder als aus WGS, da der Erfassungsprozess eine nicht uniforme Abdeckung einführt, die zwischen Proben und zwischen Erfassungsbatches variiert. Der Standardansatz verwendet ein gepooltes Referenzset von ≥30 passenden Normalproben, um das erfassungs-spezifische Rauschprofil zu modellieren, und vergleicht dann die Abdeckung jeder Probe mit der Referenz. ECOLE (2023, Nature Communications), ein auf Deep Learning basierender CNV-Caller, ist speziell für WES-Daten konzipiert und erzielt 20-30% weniger falsch-positive Ergebnisse als herkömmliche Methoden.

Durchlaufzeit und RechenressourcenDie Standard-WES-Bioinformatikverarbeitung für ein Projekt mit 96 Proben – von der FASTQ-Ausrichtung über die Variantenbestimmung, Annotation und QC-Berichterstattung – erfordert etwa 8-16 Stunden auf einem Rechencluster mit 32+ CPU-Kernen oder 24-48 Stunden auf einem High-End-Workstation mit 16 Kernen und 64 GB RAM. Die Speicheranforderungen liegen bei etwa 2-5 GB pro Probe für ausgerichtete BAM-Dateien (komprimiert) und 200-500 MB pro Probe für VCF-Dateien und Analyseergebnisse. Für Projekte mit mehr als 500 Proben wird eine cloudbasierte Verarbeitung oder ein lokales Rechencluster empfohlen, um die Laufzeiten zu verwalten.

Abbildung 4: Anwendungsbereiche von WES — erbliche Krankheiten, Krebsgenomik und Flüssigbiopsie

Figure 4

Anwendungen von WES in der Forschungs- und klinischen Genomik

ErbkrankheitsdiagnoseTrio-basierte WES (Sequenzierung des Probanden und beider Elternteile) erreicht diagnostische Raten von 25-50 % bei Verdacht auf genetische Störungen, mit den höchsten Erträgen bei neurodevelopmentalen Störungen, Epilepsie und angeborenen Anomalien. Die Entdeckungsrate für neuartige Krankheits-Gen-Assoziationen hat sich mit großangelegten WES-Kohorten wie dem 100.000 Genomes Project und dem Undiagnosed Diseases Network beschleunigt. Der analytische Rahmen für diagnostisches WES folgt einer systematischen Filterpipeline: Seltene Varianten (Populationsfrequenz < 0,1 %) werden priorisiert, gefolgt von der Bewertung der vorhergesagten funktionalen Auswirkungen (Nonsense, Frameshift, Splice-Stelle), der Kompatibilität des Vererbungsmusters und der Übereinstimmung des phänotypischen Merkmals auf Genebene. Bei WES nur für den Probanden sinkt die diagnostische Rate auf 15-30 %, da die Filterung nach Vererbung nicht möglich ist, aber dieser Ansatz bleibt in Forschungseinrichtungen, in denen Elternproben nicht verfügbar sind, üblich. Bevölkerungsweite WES-Projekte wie das 200.000 Exom-Datenset der UK Biobank ermöglichen Gentests auf Belastungen, die neuartige Krankheitsassoziationen identifizieren, indem sie seltene Varianten innerhalb von Genen über große Kohorten aggregieren.

KrebsgenomikTumor-Normal-Paar-WES ist der Standardansatz zur Identifizierung somatischer Treibermutationen, zur Berechnung der Tumormutationslast (TMB) und zur Erkennung mutationaler Signaturen. Für die Bewertung der homologen Rekombinationsdefizienz (HRD) – ein prädiktiver Biomarker für die Therapie mit PARP-Inhibitoren – wurden WES-basierte HRD-Scores, die aus genomweiten Mustern des Verlusts der Heterozygotie abgeleitet wurden, in mehreren Krebsarten validiert. Krebs WES-Dienste einschließlich tumor-normal gepaarter Sequenzierung mit bioinformatischer Analyse zur Erkennung somatischer SNVs, Indels und CNVs.

Flüssigbiopsie WESEine Studie aus dem Jahr 2025 in Nature Scientific Reports validierte einen KI-gestützten Exom/Transkriptom-Liquid-Biopsie-Test (Caris Assure), der WES von zirkulierender Tumor-DNA mit maschinellem Lernen zur Multi-Krebs-Erkennung kombiniert. Während WES für ctDNA vor der Herausforderung eines niedrigen Tumor-DNA-Anteils im Plasma (häufig < 1%) steht, machen aktuelle Fortschritte in der Hybrid-Capture-Chemie und der rechnerischen Dekonvolution cfDNA WES zunehmend praktikabel für nicht-invasive Krebsprofilierung. Für Frühstadium-Krebserkrankungen, bei denen der ctDNA-Anteil am niedrigsten ist, erfordert die auf WES basierende Liquid-Biopsie derzeit höhere Tiefen (500-1.000× auf Ziel) um die geringe Anzahl von tumordervierten Fragmenten im cfDNA-Pool nachzuweisen. Die Schlüsselinnovation, die cfDNA WES ermöglicht, ist die Verwendung von einzigartigen molekularen Identifikatoren (UMIs), um PCR-Duplikate in Konsenssequenzen zu konsolidieren, was den Rauschpegel erheblich reduziert und eine genaue Variantenbestimmung aus so wenigen wie 10-100 Template-Molekülen pro Zielregion ermöglicht.

WES-Datenanalyse und -Interpretation – Von Variantenlisten zu biologischen Erkenntnissen

Die Ausgabe eines WES-Bioinformatik-Pipelines ist eine Liste von Varianten, die mit ihrer genomischen Position, Allelfrequenz, funktionalem Einfluss und Populationsfrequenz annotiert sind. Die Umwandlung dieser Variantenliste in interpretierbare biologische oder klinische Erkenntnisse erfordert einen systematischen Filter- und Priorisierungsrahmen.

Interpretation von KeimbahnvariantenFür Studien zu erblichen Krankheiten beginnt der Filterprozess mit dem Entfernen von Varianten mit einer Häufigkeit von über 1 % in gnomAD oder ExAC, wobei nur seltene oder neuartige Varianten beibehalten werden. Anschließend werden die Varianten nach ihrem vorhergesagten funktionalen Einfluss klassifiziert: protein-truncierende Varianten (nonsense, frameshift, essentielle Spleißstelle) haben Vorrang vor missense Varianten, für die zusätzliche Beweise aus Erhaltungswerten (PhyloP, GERP) und in silico Vorhersagetools (SIFT, PolyPhen-2, CADD) erforderlich sind. Die verbleibenden Kandidatenvarianten werden auf die Kompatibilität mit dem Vererbungsmuster (autosomal dominant, rezessiv, X-gebunden, de novo) und auf die Übereinstimmung mit dem Phänotyp mithilfe von Tools wie Exomiser oder Phen2Gene bewertet. Variant-Interpretationsdienste Bieten Sie systematische Filterpipelines an, die Populationsdatenbanken, funktionale Vorhersagen und Phänotypabgleich integrieren.

Somatische VarianteninterpretationDie Krebs-WES-Analyse priorisiert Varianten anhand ihrer Häufigkeit über Proben innerhalb eines Tumortyps, ihrer Präsenz im COSMIC-Krebsgenkatalog und ihrer vorhergesagten Auswirkungen auf die Proteinfunktion. Die Tumormutationslast (TMB) wird als Anzahl der somatischen kodierenden Mutationen pro Megabase des sequenzierten Genoms berechnet. Die aus WES abgeleitete TMB korreliert gut mit der auf WGS basierenden TMB und wird als prädiktiver Biomarker für die Reaktion auf Immuntherapien verwendet. Die Analyse mutationaler Signaturen – die Zerlegung des Spektrums somatischer Mutationen in charakteristische Muster, die mit spezifischen mutationalen Prozessen (z. B. APOBEC-Aktivität, Rauchsigatur, UV-Schaden) assoziiert sind – wird mit Tools wie SigProfiler oder MutationalPatterns durchgeführt und erfordert mindestens 50-100 somatische Mutationen im gesamten Genom für eine zuverlässige Zuordnung der Signatur.

BerichtserwägungenWES-Analyseberichte sollten nicht nur die gefundenen Varianten dokumentieren, sondern auch die Abdeckungsleistung im Zielbereich. Ein gängiger Berichtsstandard umfasst die Anzahl der Exonziele mit unzureichender Abdeckung für die Variantenbestimmung (<10× für Keimbahn, <20× für somatische Varianten), die Fold-80-Uniformitätsmetrik und die allgemeine On-Target-Rate. Varianten, die aus schlecht abgedeckten Exons berichtet werden, sollten im Ergebnis als niedriges Vertrauen gekennzeichnet werden. Für klinische WES-Berichte sollten die ACMG-Richtlinien zur Variantenklassifikation (pathogen, wahrscheinlich pathogen, VUS, wahrscheinlich benign, benign) befolgt werden, wobei für jede Klassifikationsstufe unterstützende Beweise dokumentiert werden sollten.

Wesentliche technische Herausforderungen in WES-Projekten

Inter-Batch-ErfassungsvariationDie Effizienz der hybriden Erfassung variiert zwischen den Chargen aufgrund von Unterschieden in der Reagenziencharge, den Hybridisierungstemperaturprofilen und der Technik des Bedieners. Dieser Chargeneffekt führt zu systematischen Unterschieden in der Abdeckungsuniformität, die biologische Variation in nachgelagerten Analysen nachahmen können. Der Benchmark-Bericht 2024 von BMC Genomics stellte fest, dass die Inter-Chargen-Variation 5-15 % der Variabilität der Abdeckung bei einzelnen Exons ausmachte, selbst innerhalb desselben Kits. Standardpraxis ist es, alle Proben in einem Projekt in so wenigen Erfassungs-Chargen wie möglich zu verarbeiten, um chargenbalancierte Kontrollen zu erfassen und Replikatproben über Chargen hinweg zur Bewertung technischer Variationen einzuschließen.

GC-BiasHoch-GC-Regionen (>65% GC), zu denen viele Promotorregionen und erste Exons von Hauskeeping-Genen gehören, sind in WES-Daten erheblich unterrepräsentiert, da GC-reiches DNA eine geringere Hybridisierungseffizienz und eine höhere Sekundärstruktur aufweist, die die Erfassung behindert. GC-biasierte Sonden, die degenerierte Nukleotide oder modifizierte Basen enthalten, können teilweise kompensieren, aber einige GC-reiche Exons erreichen konsequent nicht die Zielabdeckung über alle kommerziellen Kits hinweg. Diese systematischen Abdeckungsdefizite sollten in den Analysemethoden identifiziert und dokumentiert werden, da Varianten in diesen Regionen nicht zuverlässig aus WES-Daten bewertet werden können.

FFPE-ArtefakteFFPE-Proben haben fragmentierte DNA (durchschnittliche Größe < 300 bp) und deaminierte Basen aufgrund von Formalinvernetzungen. Die Fragmentierung verringert die Erfassungs-effizienz, da kürzere Fragmente weniger stabil an Baits hybridisieren – ein 150 bp Fragment hat unter standardmäßigen Hybridisierungsbedingungen etwa 70 % der Erfassungs-effizienz eines 300 bp Fragments. Eine Erhöhung der DNA-Eingabe (200-500 ng für FFPE im Vergleich zu 50-100 ng für frisches Gewebe) und eine Senkung der Hybridisierungstemperatur auf 60 °C kompensieren teilweise, aber FFPE WES-Daten weisen konstant eine niedrigere Fold-80-Uniformität und höhere Duplikatraten auf als frisches Gefriergewebe. Bei Projekten mit archivierten FFPE-Proben kann die Validierung der Erfassungs-effizienz an einer Testprobe, bevor man sich auf die vollständige Bibliotheksvorbereitung festlegt, aufzeigen, ob die DNA-Qualität für die erforderlichen Abdeckungsmetriken ausreichend ist.

PCR-DuplikatansammlungWES-Bibliotheken haben von Natur aus höhere PCR-Duplikatraten als WGS-Bibliotheken, da der Capture-Schritt die Sequenzierungskapazität auf eine kleine Zielregion konzentriert und dabei jegliche Bibliotheksamplifikationsverzerrung verstärkt. Duplikatraten über 25 % weisen darauf hin, dass die Bibliothekskomplexität – die Anzahl der einzigartigen DNA-Fragmente, die für die Sequenzierung zur Verfügung stehen – für die angestrebte Tiefe unzureichend ist. Dies resultiert typischerweise aus einer niedrigen DNA-Eingabe (<50 ng für Standardprotokolle) oder aus einer Überzyklisierung während der PCR-Amplifikation vor dem Capture. Die Reduzierung der PCR-Zyklen von 14-16 auf 10-12 im Schritt der PCR vor dem Capture, kombiniert mit der Verwendung von 100-200 ng Eingangs-DNA, kann die Duplikatraten unter 15 % senken und gleichzeitig einen ausreichenden Bibliotheksausstoß für das Capture aufrechterhalten.

QC-Metriken für WES-Daten

MetrischZielwertMinimal akzeptabelAuswirkungen bei Misserfolg
Durchschnittliche Zielabdeckung≥100× (Keimbahn) / ≥200× (somatisch)≥80×Reduzierte Sensitivität bei der Variantenbestimmung
% Zielbasen bei 20×≥95 %≥90%Ungleichmäßige Abdeckung → verpasste Varianten in Exons mit niedriger Abdeckung
Trefferquote≥70%≥60%Verschwendetes Sequenzierungsbudget für Nicht-Ziel-Lesungen
Falte-80≤2,0≤2,5Hohe Nicht-Uniformität → unzureichende Tiefe für Zielexons
Dopplungsrate≤15%≤25%Reduzierte effektive Tiefe; kann auf eine niedrige DNA-Eingabe hinweisen.

Die QC-Metriken-Tabelle dient als praktische Checkliste zur Bewertung von WES-Daten, bevor mit der nachfolgenden Analyse fortgefahren wird. Eine Probe, die unter dem minimal akzeptablen Schwellenwert für eine dieser Metriken liegt, sollte für eine mögliche Wiederholungssequenzierung oder den Ausschluss von der Analyse markiert werden. In großen Kohortenstudien ist es üblich, 3-5 % der Proben in der QC-Phase abzulehnen, und diese erwartete Ablehnungsrate sollte in die Planung der Projektstichprobengröße einfließen, um nach der QC-Filterung ausreichende Probenzahlen sicherzustellen.

Abbildung 5: WES-Datenanalyse- und Filterpipeline — von Rohdaten zu annotierten Varianten

Figure 5

Abbildung 6: Qualitätsbewertungspyramide für WES-Daten — Hierarchie der QC-Metriken von der Probenaufnahme bis zum Variantenoutput

Figure 6

Häufig gestellte Fragen

Welche Sequenzierungstiefe benötige ich für WES?
Für die Erkennung von Keimbahn-SNVs ist eine durchschnittliche Zielabdeckung von 100× Standard. Für die Erkennung somatischer Varianten bei Krebs werden 150-200× empfohlen. Die entscheidende Kennzahl ist der Anteil der Zielbasen mit ausreichender Tiefe—>95% der Ziele bei 20× für die Analyse der Keimbahn.

Was ist Fold-80 und warum ist es wichtig?
Fold-80 misst die Abdeckungsuniformität in den Zielregionen. Ein Fold-80 von 1,0 bedeutet perfekte Uniformität; ein niedrigerer Fold-80 bedeutet, dass weniger Sequenzierung erforderlich ist, um alle Zielexons in der erforderlichen Tiefe abzudecken. Es ist die am besten umsetzbare Kennzahl zur Bewertung der Effizienz der WES-Erfassung.

Kann WES CNVs erkennen?
Ja, aber mit geringerer Sensitivität als WGS aufgrund der nicht uniformen Abdeckung der capture-basierten Anreicherung. Die CNV-Erkennung aus WES erfordert ein Referenzset von ≥30 normalen Proben und Werkzeuge, die speziell für WES-Daten entwickelt wurden, wie ECOLE oder CNVkit mit entsprechender Referenzkonstruktion.

Wie beeinflusst die Qualität von FFPE-Proben die Ergebnisse der WES?
FFPE-Proben erzeugen fragmentierte DNA, die die Erfassungs-effizienz und die Abdeckungsuniformität verringert. Fold-80 steigt typischerweise um 20-30 % für FFPE im Vergleich zu frisch gefrorenen Proben. Eine Erhöhung der DNA-Eingabe und die Verwendung von für FFPE optimierten Erfassungsprotokollen können dies teilweise mildern.

Sollte ich für die Krebsanalyse Tumor-Only oder Tumor-Normal gepaarte WES verwenden?
Tumor-normale gepaarte WES ermöglicht die Unterscheidung zwischen somatischen Mutationen und erblichen Keimbahnvarianten, wodurch die falsch-positiven Raten reduziert und die Erkennung von klonalen Hämatopoese-Artefakten ermöglicht wird. Tumor-einziges WES hat eine um 15-20 % geringere Sensitivität bei der Erkennung somatischer Varianten, kann jedoch zur Screening verwendet werden, wenn kein passendes normales Gewebe verfügbar ist.

Was ist der diagnostische Ertrag von WES bei genetischen Erkrankungen?
Trio-basierte WES erreicht Diagnoseraten von 25-50% bei Verdacht auf genetische Störungen, mit den höchsten Ausbeuten bei neurodevelopmentalen Störungen und angeborenen Anomalien. Probanden-allein WES hat niedrigere Diagnoseraten (15-30%).

Referenzen

  1. Vergleichende Bewertung von vier Exom-Anreicherungs-Lösungen im Jahr 2024. BMC Genomik2025;26:11196.
  2. Methoden, Anwendungen und rechnerische Herausforderungen bei der Bait-Capture-Anreicherung. Cell Reports Methoden2025;5:100210.
  3. OLTA: Optimierung der Köderauswahl für gezielte Sequenzierung. Bioinformatik. 2025;41:btaf146.
  4. Vergleichende Bewertung von Mutect2, Strelka2 und FreeBayes zur Erkennung somatischer Varianten aus WES. Biomoleküle2025;15:1532.
  5. Validierung eines KI-gestützten Exom/Transkriptom-Flüssigbiopsie-Assays. Naturwissenschaftliche Berichte2025;15:8986.
  6. ECOLE: Lernen, Kopienzahlvarianten aus WES-Daten zu identifizieren. Naturwissenschaftliche Kommunikation. 2023;14:44116.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
Sprechen Sie mit unseren Wissenschaftlern
Was möchten Sie besprechen?
Mit wem werden wir sprechen?

* ist ein erforderlicher Artikel.

Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben