What is the coverage of whole exome sequencing?

The typical coverage for clinical whole exome sequencing is 100x to 200x, which ensures accurate variant detection.

What does 30X coverage mean in sequencing?

It means the genome has been sequenced an average of 30 times to reliably detect genetic variants.

How to calculate coverage in sequencing?

We can use the coverage as the average number of occurrences and y as the exact number of times a base is sequenced, and then compute the probability that would happen: P(Y=3) = (6.33 × e-6.3)/3! = 0.077 Of course, this is the value for exactly 3.

What is the recommended sequencing depth for 10X?

Typically, we recommend a sequencing depth between 30,000 and 70,000 reads per cell for 10x Genomics projects. Schedule a call with one of our specialists to discuss your options.

What is coverage breadth and depth?

Coverage breadth refers to the proportion of the genome sequenced at least once, while coverage depth is the average number of times each base in the genome is sequenced.

What is the depth of exome sequencing?

In summary, with exome capture sequencing technique, the most significant clinical variations can be detected at an average depth of 120×.

What is the difference between 10x v3 1 and v4?

In 2024, 10x Genomics introduced the v4 chemistry. The library structure of v4 is exactly the same as v3 and v3. 1. However, the v4 chemistry uses a different set of cell barcodes (click here to see more details) and it has better cell recovery and sensitivity (number of detected genes per cell) compared to v3 and v3.

Deckungsanforderungen für Projekte zur gesamten Exomsequenzierung

Whole Exome-Sequenzierung (WES) bietet effiziente Unterstützung für die Forschung zu genetischen Erkrankungen, Tumoren und komplexen Krankheiten, indem es Variationsinformationen in den kodierenden Regionen der Gene (Exons) gezielt erfasst. Die Anforderungen an die Abdeckung müssen umfassend auf die Forschungsziele, den Probentyp und die klinischen Bedürfnisse abgestimmt werden. Im Folgenden sind die wichtigsten Parameter und technischen Spezifikationen aufgeführt.

I. Technische Prinzipien und Kernparameter

Exon-Capture-Technologie

Probe-Design: Verwendet RNA- oder DNA-Sonden (wie die 120-mer RNA-Sonden von Agilent SureSelect), um hauptsächlich kodierende Sequenzen (CDS) des Genoms abzudecken (ca. 30 Mb, 1%-2% des Genoms), die den Kern des gesamten Exoms bilden. Einige erweiterte oder "Plus"-Versionen kommerzieller Erfassungs-Kits (z.B. Agilent SureSelect Human All Exon V8) können zusätzlich untranslatierte Regionen (UTRs) (5'UTR/3'UTR) und pathogene Introns (z.B. Spleißstellen oder krankheitsassoziierte intronische Regionen) enthalten, diese gehören jedoch nicht zur standardmäßigen Definition der gesamten Exomsequenzierung (WES).
Erfassungs-Effizienz: Die Zielregion muss ≥60% aller ausgerichteten Basen ausmachen. Niedrige Ausgangsprobenvolumina (z. B. 50 ng DNA) können mit der Transposase-Methode vorbereitet werden.

Sequenzierungstiefe und Abdeckung

Abdeckungsgrad:
- Keimbahnvariationen: ≥50x (100x empfohlen), Q30-Wert ≥90%.
- Somatische Mutationen (Tumoren): ≥200x (Tumorgewebe), abgeglichen mit normalen Proben zur Filterung von Keimbahnvariationen.
Abdeckung:
- Keimbahnvariationen: Es wird empfohlen, eine durchschnittliche Sequierungstiefe von ≥100x zu erreichen, wobei ≥95% der Zielregionen eine Abdeckungstiefe von ≥20x erreichen sollten, um eine zuverlässige Erkennung sowohl homozygoter als auch heterozygoter Varianten zu gewährleisten.
- Niedrigfrequente Mutationen (z. B. somatische Varianten): Eine empfohlene durchschnittliche Sequierungstiefe von ≥200x wird empfohlen, um die Nachweisempfindlichkeit für Varianten mit einer Allelfrequenz unter 5 % zu erhöhen.

Datenqualitätsindikatoren

Q30-Score: Der Anteil der Basen mit einem Q30-Qualitätswert in den Rohsequenzierungsdaten sollte ≥85% betragen (ein allgemein akzeptierter Schwellenwert auf der Illumina-Plattform). Diese Kennzahl spiegelt indirekt die Zuverlässigkeit der Basenbestimmung der Primärdaten wider.
FOLD80-Strafe: ≤ 1,4 (idealerweise ≤ 1,2), was die Gleichmäßigkeit der Abdeckungstiefe widerspiegelt.
PCR-Duplizierungsrate: Diese sollte idealerweise ≤10% betragen. Eine hohe Duplizierungsrate kann auf unzureichendes Ausgangs-DNA-Material oder übermäßige PCR-Amplifikationszyklen zurückzuführen sein, was die effektive Nutzung der Sequenzierungsdaten verringert.

Coverage of target regions across WES and WGS samples. Abdeckung der Zielregionen in WES- und WGS-Proben (Barbitoff YA et al., 2020)

II. Abdeckungsanforderungen für verschiedene Forschungsszenarien

Erkennung von Keimbahnvariationen

Ziel: Einzelne Nukleotidvarianten (SNVs), Insertionen/Deletionen (InDels) und andere genetisch bedingte Krankheitsmutationen.
Technische Anforderungen:
- Eine Abdeckung von 93 % der Gene in der OMIM-Datenbank und 96 % der Standorte in ClinVar ist erforderlich. Für CNVs des DMD-Gens ist ein Design zur Verschlüsselung der Sonden notwendig.
- Datenvolumen ≥ 10 Gb. Gültige Daten müssen die CDS-Region und nicht-kodierende pathogene Regionen (z. B. Introns, UTRs) abdecken.

Tumor somatische Mutationsanalyse

Ziel: Bewertung von SNVs, Kopienzahlvariationen (CNVs) und Tumormutationslast (TMB).
Technische Anforderungen:
- Tumorproben: Eine durchschnittliche Sequierungstiefe von ≥200x wird empfohlen. Darüber hinaus ist es wichtig, eine gepaarte normale Gewebeprobe (z. B. angrenzendes normales Gewebe oder peripheres Blut) einzuschließen, mit einer empfohlenen Tiefe von ≥100x, um Keimbahn-Hintergrundvarianten herauszufiltern. Bei der Analyse muss die Tumorreinheit berücksichtigt werden, um die effektive Sequierungstiefe zu berechnen.
- Verwenden Sie den WES-CNV-Algorithmus, um große CNV-Fragmente zu erkennen, kombiniert mit MLPA oder Langfragment-PCR zur Validierung.

Komplexe Krankheiten und Multigenassoziationsanalyse

Ziel: Identifizierung von Multigen-Interaktionen und seltenen pathogenen Mutationen.
Wichtige technische Punkte:
- Eine normalisierte Abdeckung (≥0,3) ist erforderlich, die ≥80% des Zielbereichs abdeckt.
- Die Ganzgenomsequenzierung (WGS) wird integriert, um Informationen über Variationen in nicht-kodierenden Regionen zu ergänzen.

III. Experimentelles Verfahren und Qualitätskontrolle

Probenverarbeitung und Bibliothekskonstruktion

DNA-Anforderungen: Konzentration ≥ 50 ng/μL, Reinheit OD260/OD280 ≈ 1,8; FFPE-Proben erfordern eine Bewertung des Degradationsgrads.
Bibliothekskonstruktionsmethode: Die Konstruktion von Low-Cycle-PCR-Bibliotheken gewährleistet Homogenität; ein 1:1-Hybridisierungssystem wird in der Erfassungsphase verwendet.

Sequenzierung und Datenanalyse

Plattformauswahl: Illumina NovaSeq Plattform, PE150 Sequenzierungsstrategie, Datenvolumen ≥ 8-10 Gb/Stichprobe.
Analysefluss:
- Qualitätskontrolle: Ein zweistufiger Qualitätskontrollprozess wird empfohlen, um die Datenzuverlässigkeit sicherzustellen: (1) Rohdaten-QC: Verwenden Sie FastQC, um die Verteilung der Basisqualität, die Kontamination durch Adapter, den GC-Gehalt und überrepräsentierte Sequenzen zu bewerten. (2) Post-Alignement-QC: Verwenden Sie samtools flagstat, um die Alignierungsrate zu bewerten; verwenden Sie Picard CollectInsertSizeMetrics und CollectGcBiasMetrics, um die Verteilung der Einfügegrößen und den GC-Bias zu bewerten; verwenden Sie Picard MarkDuplicates, um die PCR-Duplizierungsrate zu berechnen; verwenden Sie Qualimap oder mosdepth für eine umfassende Bewertung der Abdeckungsdichte und -gleichmäßigkeit in den Zielregionen.
- Variationsdetektion: GATK HaplotypeCaller identifiziert SNVs/InDels; CNVkit oder Control-FREEC erkennen CNVs.

Variantenannotation und -filterung

Datenbankintegration: ClinVar, OMIM, gnomAD usw., kombiniert mit den ACMG-Richtlinien zur Einstufung der Pathogenität (P/LP/VUS/LB/B).
Falsch-Positiv-Filterung: Sanger-Sequenzierung zur Überprüfung positiver Ergebnisse, qPCR oder MLPA zur Bestätigung von CNVs.

Modeling of CDS coverage identifies key determinants of coverage evenness. Die Modellierung der CDS-Abdeckung identifiziert wichtige Determinanten der Gleichmäßigkeit der Abdeckung (Barbitoff YA et al., 2020)

IV. Besondere Proben und technische Herausforderungen

FFPE-Probenverarbeitung

DNA-Qualitätsbewertung: Die Fragmentgröße muss mit dem Agilent Bioanalyzer bestimmt werden. Bei einer Degradation von ≥30% muss die Anzahl der Amplifikationszyklen erhöht werden.
Bibliothekskonstruktionsoptimierung: Verwenden Sie ein Protokoll mit niedriger Ausgangsmenge (50 ng DNA) und optimieren Sie die Bedingungen für die Bibliotheksamplifikation.

Mikroprobenanalyse

Neonatale getrocknete Blutausstriche: Verwenden Sie die Transposase-Methode zur Bibliothekskonstruktion (z. B. Illumina Nextera) mit einer minimalen DNA-Menge von ≤50 ng.
Tumor-Heterogenitätsstudien: Erfordern Mehrregionenprobenahme, kombiniert mit UMI-Molekular-Tagging-Technologie, um Amplifikationsverzerrungen zu reduzieren.

Komplexe Regionenaufnahme

Hohe GC-Regionen: Verwenden Sie ein Paar-Ende-Proben-Design oder erhöhen Sie die Proben-Dichte, kombiniert mit einer PCR-freien Bibliothekskonstruktion, um die GC-Bias zu reduzieren.
Pseudogen-Interferenz: Verschlüsselte Sonden zur Abdeckung unterschiedlich exprimierter Sequenzen, kombiniert mit Langsequenzierung (z. B. PacBio) um strukturelle Variationen zu überprüfen.

V. Datenanalyse-Tiefe und klinische Anwendung

Variationsannotation und Filterstrategien

Funktionale Annotation: Integration von Datenbanken wie ClinVar, OMIM und gnomAD sowie Kombination mit den ACMG-Richtlinien zur Einstufung der Pathogenität (P/LP/VUS/LB/B).
Falsch-Positiv-Filterung: Überprüfung positiver Ergebnisse durch Sanger-Sequenzierung oder qPCR, um die Rate falscher Diagnosen zu reduzieren.

Technische Details zur CNV-Erkennung

Algorithmusauswahl: XHMM oder CNVkit wird für Exon-niveau CNVs empfohlen. Große CNV-Fragmente (>1 Mb) werden mit WGS-Daten oder MLPA validiert.
Tumorspezifische Analyse: Berechnung des Verhältnisses der Kopienzahl von Tumor- zu Normalgewebe, Filterung von Keimbahnpolymorphismen (z. B. >5% Häufigkeit) und Identifizierung von LOH (Verlust der Heterozygosität) Regionen.

Datenvisualisierung und Berichterstattung

Interaktive IGV-Analyse: Erstellung von Abdeckungs-Tiefenkarten und Verteilungskarten von Variantenstandorten zur Unterstützung von Mehrfachprobenvergleichen (z. B. Familien-Ko-Segregationsanalysen).
Berichtsvorlage: Klassifizieren gemäß den ACMG-Richtlinien (pathogen/pathogene Wahrscheinlichkeit/unklare Bedeutung), mit Validierungsmethoden (z. B., Sanger-Sequenzierung) und Empfehlungen zur genetischen Beratung.

VI. Ethik- und Compliance-Management

Management menschlicher genetischer Ressourcen

Probenentnahme: Eine informierte Einwilligung ist erforderlich, die die beabsichtigte Verwendung angibt (z. B. Forschung/Klinik). Extern versandte Proben müssen beim Ministerium für Wissenschaft und Technologie registriert werden.
Datenspeicherung: Rohdaten (FASTQ) müssen verschlüsselt und für mindestens 2 Jahre gespeichert werden. Der grenzüberschreitende Transfer ist untersagt, und die Einhaltung der "Vorschriften zur Verwaltung menschlicher genetischer Ressourcen" ist zwingend erforderlich.

Qualitätskontrollzertifizierung

Laborqualifikation: Eine CAP/CLIA-Akkreditierung ist erforderlich, sowie die regelmäßige Teilnahme an interlaboratorischen Qualitätsbewertungen.
Drittanbieter-Validierung: Wichtige Ergebnisse (z. B. pathogene Mutationen) müssen von unabhängigen Institutionen erneut getestet werden, um die Genauigkeit sicherzustellen.

VIII. Fallanalyse

Deckungsanforderungen

Die Abdeckungsanforderungen für WES in der Studie von LaDuca H et al. basierten hauptsächlich auf der Sequenzabdeckungstiefe, die wie folgt definiert ist:

Ausreichende Erkennungstiefe: Bezieht sich im Allgemeinen auf eine Sequenzierungstiefe von ≥10-fach (d.h. die Position wird mindestens 10 Mal sequenziert), um die Zuverlässigkeit der Variantenentdeckung zu gewährleisten.
Teilweise Abdeckung: Alle pathogenen Varianten haben eine teilweise Abdeckung in mindestens einer Exon-Sequenz (d.h. mindestens ein Sequenzlese deckt die Position ab).
Andere Tiefenmetriken: Ein durchschnittlicher Basisabdeckungsprozentsatz von ≥10-fach beträgt 94,8 % (Bereich 92,9–96,0 %), mit einer durchschnittlichen Tiefe pro Probe von 94-fach (Bereich 80X–114X); 98 % Basisabdeckung >20X, 48 % Abdeckung >100X, und keine Basen sind vollständig unbedeckt.

Abdeckungsresultate

Durch die Analyse der Abdeckung von 1533 pathogenen Varianten (aus 91 Genen, die 5 genetische Erkrankungen betreffen) in 100 klinischen WES Proben und Validierung in der ExAC-Datenbank von 60.706 Exonen, die Hauptergebnisse sind wie folgt:

1. Gesamte Erkennungsempfindlichkeit

Insgesamt wurden 153.300 Bewertungen (1.533 Varianten × 100 Proben) durchgeführt, wobei 99,7 % der Auswertungen eine Abdeckungstiefe von ≥10x erreichten (d.h. 152.798/153.300).
Aus der Perspektive individueller Varianten erreichten 97,3 % der Varianten (1.491/1.533) eine Abdeckungstiefe von ≥10x über alle 100 Proben hinweg.
Alle pathogenen Varianten hatten mindestens eine teilweise Abdeckung (keine Fälle von vollständiger Unbedeckung).

2. Unterschiede zwischen Krankheitskategorien

Marfan/Aortenaneurysma (TAAD): 99,8 % der pathogenen Varianten waren ausreichend nachweisbar (höchster Wert).
X-chromosomal intellektuelle Behinderung (XLID): 98,5 % der pathogenen Varianten waren nachweisbar (niedrigste), und der Anteil der angemessenen Abdeckung über alle 100 Proben betrug 73,9 % (niedrigste), möglicherweise aufgrund der kleinen Stichprobengröße (nur 23 pathogene Varianten) und der niedrigeren Allelfrequenz auf dem männlichen einzelnen X-Chromosom.
Primäre ziliäre Dyskinesie (PCD): Der höchste Anteil an angemessener Abdeckung über alle 100 Proben hinweg (98,2 %).

3. Unzureichende Abdeckung

2,7 % der pathogenen Varianten (42/1.533) hatten in mindestens einer WES-Probe eine Abdeckung von <10X.
Mögliche Gründe für unzureichende Abdeckung: 26,2% befanden sich in GC-reichen Regionen (GC>60%), 19,0% in repetitiven Regionen (polymerische Stränge ≥9 bp), 7,1% in Regionen mit Pseudogen-Interferenz; 47,6% hatten keine klare Erklärung.
Typisches Beispiel: Die hoch homologe Pseudogen-Variante (c.325DELG) im PMS2-Gen wurde nur in 35 von 100 Proben nachgewiesen.

4. Validierungsergebnisse (ExAC-Datenbank)

Die Auswertung von 60.706 Exons in der gnomAD-Datenbank ergab, dass etwa 98,6 % der bewerteten Stellen eine ausreichende Abdeckungstiefe (≥10x) erreichten.
86,2 % der pathogenen Varianten (1.321/1.533) waren in ≥99 % (60.099/60.706) der Proben nachweisbar.

5. Tatsächliche Erkennungsvalidierung

In der internen Datenbank wurden alle 16 Patienten (21 pathogene Varianten), die einen gezielten Paneltest durchliefen, erfolgreich durch WES nachgewiesen.

VII. Integration von Spitzentechnologien und zukünftigen Trends

Integration der Langzeit-Sequenzierung

Anwendungsszenarien: Analyse komplexer struktureller Variationen (z. B. ausgewogene Translokationen, Duplikationsamplifikationen), um die Einschränkungen der Kurzlesesequenzierung zu ergänzen.
Technologische Fortschritte: Die Oxford Nanopore Die Plattform ermöglicht die Echtzeit-Sequenzierung und unterstützt die direkte Erkennung von Methylierungsmodifikationen.

Einzelzell-WES

Anwendungsszenarien: WES wird hauptsächlich eingesetzt, um niederfrequente somatische Varianten (z. B. subklonale Amplifikationen bei Leukämie) zu analysieren und die klonale Evolution durch vergleichende Genomik von Tumor- und Normalgeweben zu verfolgen. Zum Beispiel kann WES Treibermutationen (z. B. EGFR, KRAS) und strukturelle Varianten (z. B. RUNX1-RUNX1T1-Fusionen) mit Allelfrequenzen von bis zu 0,1 % nachweisen, was Studien zur intratumoralen Heterogenität und evolutionären Trajektorien ermöglicht.
Technische Herausforderungen: Optimierung der Effizienz der Einzelzell-Erfassung (z. B. unter Verwendung der 10x Genomics-Plattform) und Ergänzung von Varianten in nicht-kodierenden Regionen mittels WGS.

KI-gestützte Analyse

Varianteneinstufung: Deep-Learning-Modelle wie AlphaMissense können die Pathogenität von Missense-Mutationen vorhersagen und liefern unterstützende computerbasierte Beweise (PP3) gemäß den ACMG/AMP-Richtlinien. Obwohl ihre Vorhersagen nicht als unabhängige Grundlage zur Bestimmung der Pathogenität dienen können, fungieren sie als leistungsstarke Screening- und Priorisierungstools. Diese Werkzeuge unterstützen Forscher dabei, schnell auf Hochrisiko-Kandidatenstandorte aus einer Vielzahl von Varianten mit ungewisser Bedeutung (VUS) zu fokussieren und verbessern so die Effizienz der manuellen Interpretation.
Automatische Berichtserstellung: Integration von Natural Language Processing (NLP), um konforme klinische Berichte automatisch zu erstellen.

Zusammenfassung

Die Anforderungen an die Abdeckungsoptimierung beim Whole-Exome-Sequencing müssen in mehreren Dimensionen optimiert werden: Probenverarbeitung, Datenanalyse, ethische Verwaltung und technologische Integration.
Beispielformat: Entwicklung maßgeschneiderter Bibliothekskonstruktionslösungen für FFPE- und Mikromuster zur Verbesserung der Abdeckungsuniformität bei niedrigen Ausgangsvolumina.
Analyseebene: Kombination von CNV-Erkennung, phänotypischer Assoziation und KI-Tools zur Verbesserung der klinischen Anwendbarkeit der Ergebnisse.
Management-Ebene: Stärkung der ethischen Überprüfung und Datensicherheit zur Gewährleistung der Einhaltung gesetzlicher Anforderungen.

In der Zukunft wird WES mit der Popularisierung von Long-Read-Sequenzierung und KI-Technologien eine zentralere Rolle in der Präzisionsmedizin spielen, insbesondere im Bereich der Analyse komplexer Krankheitsmechanismen und der dynamischen Überwachung.

Die Leute fragen auch

Was ist die Abdeckung des gesamten Exoms Sequenzierung?

Die typische Abdeckung für klinische Whole-Exome-Sequenzierung liegt bei 100x bis 200x, was eine genaue Variantenerkennung gewährleistet.

Was bedeutet 30X Abdeckung in der Sequenzierung?

Das bedeutet, dass das Genom im Durchschnitt 30 Mal sequenziert wurde, um genetische Varianten zuverlässig zu erkennen.

Wie man die Abdeckung in der Sequenzierung berechnet?

Wir können die Abdeckung als die durchschnittliche Anzahl der Vorkommen und y als die genaue Anzahl der Male, die eine Basis sequenziert wird, verwenden und dann die Wahrscheinlichkeit berechnen, dass dies passiert: P(Y=3) = (6,33 × e-6,3)/3! = 0,077. Natürlich ist dies der Wert für genau 3.

Was ist die empfohlene Sequenzierungstiefe für 10X?

Typischerweise empfehlen wir eine Sequenzierungstiefe von 30.000 bis 70.000 Reads pro Zelle für 10x Genomics-Projekte. Vereinbaren Sie einen Termin für ein Gespräch mit einem unserer Spezialisten, um Ihre Optionen zu besprechen.

Was ist die Breite und Tiefe der Abdeckung?

Die Abdeckungstiefe bezieht sich auf den Anteil des Genoms, der mindestens einmal sequenziert wurde, während die Abdeckungstiefe die durchschnittliche Anzahl der Sequenzierungen jedes Basenpaares im Genom angibt.

Was ist die Tiefe der Exom-Sequenzierung?

Zusammenfassend können mit der Exomfangsequenzierungstechnik die bedeutendsten klinischen Variationen bei einer durchschnittlichen Tiefe von 120× nachgewiesen werden.

Was ist der Unterschied zwischen 10x v3 1 und v4?

Im Jahr 2024 führte 10x Genomics die v4-Chemie ein. Die Bibliotheksstruktur von v4 ist genau die gleiche wie bei v3 und v3.1. Allerdings verwendet die v4-Chemie ein anderes Set von Zell-Barcodes (klicken Sie hier für weitere Details) und bietet eine bessere Zellrückgewinnung und Sensitivität (Anzahl der erkannten Gene pro Zelle) im Vergleich zu v3 und v3.

Referenzen:

Barbitoff YA, Polev DE, Glotov AS, Serebryakova EA, Shcherbakova IV, Kiselev AM, Kostareva AA, Glotov OS, Predeus AV. Systematische Analyse von Verzerrungen in der Whole-Exome- und Whole-Genome-Sequenzierung zeigt wesentliche Faktoren für die Abdeckung der kodierenden Sequenz auf.. Wissenschaftliche Berichte2020, 6. Februar; 10(1):2057.
LaDuca H, Farwell KD, Vuong H, Lu HM, Mu W, Shahmirzadi L, Tang S, Chen J, Bhide S, Chao EC. Die Exom-Sequenzierung erfasst über 98 % der Mutationen, die in gezielten Next-Generation-Sequenzierungs-Panels identifiziert wurden.. PLoS One2017 Feb 2;12(2):e0170843.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.

Verwandte Dienstleistungen