Qualitätskontrolle bei der gesamten Exomsequenzierung: Vom Sample zu den Daten

Whole-Exom-Sequenzierung (WES) zielt auf etwa 1-2% der protein-codierenden Regionen (Exons) im Genom ab und erkennt etwa 85% der pathogenen Varianten. Die Zuverlässigkeit der Daten hängt jedoch stark von strengen Qualitätskontrollverfahren ab. Die folgenden Punkte sind wichtige Qualitätskontrollpunkte, die auf experimentellen Verfahren und Literatur basieren.

I. Proben- und DNA-Qualitätskontrolle

Probenentnahme und -konservierung

  • Probenarten: Blut (EDTA-Antikoagulantienröhrchen empfohlen), Gewebe (erfordert schnelles Einfrieren oder RNAlater-Konservierung).
  • Erhaltungsbedingungen: Kurzfristig (4℃, ≤7 Tage); Langfristig (-80℃, wiederholte Gefrier-Tau-Zyklen vermeiden).
  • Vorsichtsmaßnahmen: Vermeiden Sie Kontamination mit Nukleasen; Gewebeproben erfordern mechanische Homogenisierung oder enzymatische Verdauung (z. B. Proteinase K-Verdau).

DNA-Extraktion und Qualitätskontrolle

  • Extraktionsmethoden: Phenol-Chloroform-Methode (hohe Reinheit), Magnetperlenmethode (automatisiert), Qiagen-Kit (klinische Qualität).
  • Qualitätskontrollindikatoren:
    • Konzentration: ≥50 ng/μL (Mindestanforderung für die Bibliothekskonstruktion), Qubit 4.0 quantitative PCR empfohlen.
    • Reinheit: A260/A280 = 1,8-2,0 (keine Proteinverunreinigung), A260/A230 > 2,0 (kein Salzrückstand).
    • Integrität: Agarose-Gelelektrophorese zeigt ein Hauptband ≥10 kb (keine signifikante Degradation), RIN-Wert ≥8.0 (RNA-Interferenzproben erfordern zusätzliche Tests).

DNA-Fragmente

  • Physikalische Fragmentierung: Covaris S220 Sonikation (Fragmentgröße 50-200 bp, CV <5%).
  • Enzymatische Verdauung: NEBNext Fragmentase (geeignet für FFPE-Proben), die Optimierung der Reaktionszeit ist erforderlich, um eine Überfragmentierung zu vermeiden.

II. Bibliothekskonstruktion und Optimierung der Erfassungs-effizienz

Adapter-Ligation und Amplifikation

  • Adapter-Design: Illumina TruSeq (mit molekularen Barcode-Markern) oder Agilent SureSelect (mit Blocker zur Verhinderung der Adapterdimerisierung).
  • Amplifikationsbedingungen: KAPA HiFi HotStart ReadyMix (niedrige GC-Bias), ≤12 Zyklen (um PCR-Bias zu vermeiden).

Exon-Erfassung

  • Probe-Design: Agilent SureSelect XT (deckt Exons ±50 bp ab), IDT xGen (angepasste Sonden).
  • Erfassungsbedingungen:
    • Hybridisierungstemperatur: 65℃ (hohe Stringenz), Zeit ≥16 Stunden.
    • Elutionsbedingungen: Waschen der magnetischen Perlen (Niedrigsalzpuffer zum Entfernen unspezifischer Bindungen).
  • Qualitätskontrolle nach der Erfassung:
    • Zielabdeckung: ≥70% (klinischer Standard), validiert mit dem SeqCap EZ Assay (Roche).
    • Reproduzierbarkeit: ≤5% (Picard Mark Duplicates-Erkennung).

III. Sequenzierung und Qualitätskontrolle von Rohdaten

Auswahl der Sequenzierungsplattform

  • Illumina NovaSeq 6000: Empfohlene paired-end Länge von 150 bp (PE150), Datenvolumen pro Einzelprobe ≥50 Gb (Abdeckungsgrad ≥100×).
  • HiSeq 4000: Geringere Kosten, aber kürzere Lesegröße (PE125), geeignet für Projekte mit begrenztem Budget.

Rohdatenfilterung

  • FastQC-Analyse:
    • GC-Gehalt: Der normale Bereich für das menschliche Genom liegt bei 40-60 %. Abnormale Schwankungen deuten auf Kontamination oder Bibliotheksverzerrung hin.
    • Niedrigqualitative Basen: Basen mit einem Tail-Q-Wert <20 müssen beschnitten werden (Trimmomatic-Parameter: LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15).
    • Adapter-Kontamination: Automatisch identifizieren und entfernen mit Fastp (Parameter: --adapter_sequence AGATCGGAAGAGC).
  • PhiX-Kontamination: Wenn der Anteil >0,1% beträgt, ist eine Neusequenzierung erforderlich (Kraken2-Erkennung, k-mer Länge = 31).

Figure 1.Workflow for data analysis Workflow für die Datenanalyse (Yin Y et al., 2019)

IV. Qualitätskontrolle der Ausrichtung und Variantenentdeckung

Sequenzanpassung

  • Werkzeugauswahl: BWA-MEM (Standardparameter, geeignet für lange Einsätze), Bowtie2 (geringer Speicherverbrauch).
  • Referenzgenom: hg38 (empfohlen) oder hg19 (auf die Versionskompatibilität achten).
  • Post-Alignmentsqualitätskontrolle:
    • Mapping-Rate: ≥95% (Ausreißer erfordern eine Überprüfung auf Probenkontamination oder Fehler im Sondendesign).
    • Einschubverteilung: Median 200-400 bp (Illumina-Plattform), Abweichungen deuten auf Anomalien in der Bibliotheksstruktur hin.

Variantenerkennungs-Workflow

  • GATK Best Practices:
    • Duplikat-Markierung: Picard MarkDuplicates (Parameter: REMOVE_DUPLICATES=true).
    • Basis-Korrektur: BaseRecalibrator (trainiert mit den 1000G- und Mills-Datensätzen).
    • Variantenerkennung: HaplotypeCaller (-ERC GVCF-Modus, gemeinsame Analyse mehrerer Proben).
  • Filterkriterien:
    • SNV: QD≥2.0, FS>60.0, MQRankSum≥-12.5.
    • Indel: QD≥2,0, ReadPosRankSum≥-20,0.
    • Funktionale Hinweise: ANNOVAR (Datenbanken: RefSeq, ClinVar, COSMIC).

V. Fortgeschrittene Qualitätskontrolle und Visualisierung

Abdeckungs-Tiefenanalyse

  • Werkzeuge: GATK DepthOfCoverage, IGV (visualisierte Abdeckungs-Hitze-Karte).
  • Standards:
    • Klinische Diagnose: Zielregion ≥20× Abdeckung ≥95%, Nicht-Zielregion ≤5×.
    • Tumorforschung: Somatische Mutationen müssen eine AF (Allelfrequenz) von ≥5% aufweisen, und Keimbahnvariationen müssen ausgeschlossen werden.

Kontaminationskontrolle

  • Inter-Sample-Kontamination: VerifyBAMID (Schwellenwert ≤0,1%), ContEst (basierend auf der Populationsfrequenz).
  • Reagenkontamination: PhiX-Kontrolle, template-freie Kontrolle (NTC) Nachweis.

Visualisierungstools

  • IGV: Untersucht den Sequenzkontext um Variantenstandorte (wie repetitive Elemente und Spleißstellen).
  • MultiQC: Integriert FastQC-, BWA- und GATK-Berichte, um ein Übersichtschart zur Qualitätskontrolle zu erstellen.

VI. Häufige Probleme und Lösungen

Problem Ursache Lösung
Geringe Abdeckung der Zielregion Niedrige Hybridisierungseffizienz von Sonden Optimieren Sie die Hybridisierungsbedingungen (auf bis zu 24 Stunden verlängern) oder erhöhen Sie die DNA-Eingabe auf 100 ng.
Hohe Faserneigung PCR-Amplifikationsbias Verwenden Sie molekulare Barcode-Labels oder passen Sie die BWA-Parameter an (z. B. -X 500)
Falsch Positive Varianten Niedrigqualitative Reads oder Sequenzierungsfehler Wenden Sie strengere Filterkriterien an (z. B. SAV ≥ 0,2) und validieren Sie mit Sanger-Sequenzierung.
Batch-Effekte Inkonsistente experimentelle Bedingungen Analysiere Chargen zusammen oder wende eine Chargenkorrektur an (z. B. ComBat in R)

VII. Klinische Anwendung und Compliance

Berichtsauswertung

  • ACMG-Richtlinien: Klassifizierung der Pathogenität (Pathogen, Möglicherweise pathogen, Unbestimmte Bedeutung usw.).
  • Familienvalidierung: Sanger-Sequenzierung bestätigt Probandenvarianten; elterliche Proben werden auf Vererbungsmuster getestet.

Ethik und Datenschutz

  • Informierte Einwilligung: Informieren Sie die Person klar über den Umfang der Tests und die Vorgehensweise im Umgang mit unerwarteten Befunden (z. B. BRCA1-Mutationen).
  • Datensicherheit: Rohdaten werden verschlüsselt und gespeichert (konform mit HIPAA/GDPR-Standards).

VIII. Referenzen und Werkzeuge

Kernreferenzen

  • T/CHIA 21.2-2021 (Qualitätskontrollstandard für Exom-Sequenzierung in China)
  • GATK Best Practices (Broad Institute)

Empfohlene Werkzeuge

  • Qualitätskontrolle: FastQC, MultiQC, Picard
  • Ausrichtung: BWA-MEM, Bowtie2
  • Annotations: ANNOVAR, VEP, SnpEff

IX. Qualitätskontrolle in praktischen Fällen

WES Qualitätskontrolle in VITT

Datenverarbeitung und -analyse

  • Ausrichtung: BWA-Ausrichtung von Reads auf das hg19-Genom; IGV-Visualisierung zur Qualitätsprüfung.
  • Variantenaufruf: GATK Haplotype Caller zur Identifizierung von Varianten; R-Skript zur Berechnung von Abdeckung und Tiefe.
  • Screening: Entfernen nicht-funktionaler Varianten (einschließlich Subtypen und Missense); Beibehalten seltener SNVs/Indels mit MAF <0,01; Fokussierung auf Zielweg-Gene (Koagulation, Thrombozytenaktivierung usw.).
  • Pathogenitätsbewertung: 7 Werkzeuge (PROVEAN usw.) + ACMG-Richtlinienklassifikation (VUS/LP/P).

Datenkonsistenz

Die Gesamtzahl der Varianten (über 140.000), der Anteil seltener Varianten (1619–1774) und die Verteilung der Typen (einschließlich Subtypen 38%–42% usw.) waren bei den 6 Patienten ähnlich. Die Abdeckung wurde mit einem einheitlichen Skript berechnet, um die Reproduzierbarkeit sicherzustellen.

Ethik und Unabhängigkeit

Mit der Genehmigung des Ethikkomitees (Erklärung von Helsinki) haben drei unabhängige, verblindete Rechtsexperten den Fall gemäß dem Pavord-Standard (Giusti B et al., 2024) beurteilt.

Qualitätskontrolle von WES für chinesische gleichzeitige Krebserkrankungen in Familien

Proben- und DNA-Qualitätskontrolle

  • Tumorgewebe: >200 mg, in flüssigem Stickstoff/-80°C eingefroren; behandelt mit FFPE (4% Formaldehydfixierung, Paraffin-Einbettung, 4 μm Schnitte), unabhängig von zwei Pathologen untersucht (Bestätigung der Bösartigkeit und Ausschluss von Metastasen).
  • Peripheres Blut: 5 ml, DNA mit dem QIAamp DNA Mini Kit extrahiert.
  • DNA-Quantifizierung: Sonikiertes Schneiden auf ~350 bp, gereinigt mit AMPure XP, Partikelgrößenverteilung analysiert mit einem Agilent 2100.

Bibliotheksvorbereitung und Qualitätskontrolle der Sequenzierung

  • Bibliothekskonstruktion: Exon-Erfassung mit Agilent SureSelect Human All ExonV5 (0,5 μg DNA-Eingang), Endpolitur/A-Schwanzbildung/Adapterligatur, gefolgt von KAPA HiFi HotStart PCR-Amplifikation.
  • Bibliotheksquantifizierung: KAPA-Kit PCR-Methode (Standardkurve), 3 nM Arbeitskonzentration.
  • Sequenzierung: Ion-Flow-Plattform, 100 bp Endsequenzierung.

Datenverarbeitung und Analyse Qualitätskontrolle

  • Datenfilterung: Entfernen von niedrigqualitativen Reads (mit Adaptern, N>10%, usw.), BWA-Mapping auf hg19, Picard+GATK v3.2 für Deduplication/Re-Alignment/Base-Kalibrierung.
  • Variationsannotation: Annotieren Sie SNVs mit GATK v3.0 (QD>2.0 ist "gut"); ANNOVAR bezieht sich auf die 1000 Genomes/dbSNP/CGC-Datenbanken und annotiert Funktion/Exontyp/amino-säureliche Veränderungen.
  • Filterkriterien: Entfernen Sie Reads mit einer Qualität <20, MAF>0,005 und synonymer Varianten; behalten Sie Exon-/Spleißstellen-Missense-Varianten bei.
  • Abdeckung: Durchschnittliche Tiefe 58-fach, ≥82,08% der Exons >10-fach abgedeckt, Übergangs-/Transversionsverhältnis 2,2–2,4 (normal).

Datenkonsistenzvalidierung

  • Variationsverteilung: Varscan2 v2.3.9 identifizierte somatische Mutationen und analysierte häufige Gene (z. B. NDUFS7); das Screening auf Keimbahnmutationen identifizierte Varianten, die von Patienten geteilt wurden, die jedoch keine Auswirkungen auf die Individuen hatten (16 Gene, 17 SNVs).
  • Reproduzierbarkeit: Stichprobenqualitätsbewertung >20, standardisierte Verfahren, konsistente Verteilung des Variantentyps.

Ethik und Unabhängigkeit

  • Ethik: Genehmigt von der Ethikkommission, gemäß der Deklaration von Helsinki; schriftliche informierte Einwilligung des Patienten.
  • Unabhängigkeit: Zwei Pathologen untersuchten unabhängig voneinander Tumorgewebe, um diagnostische Verzerrungen zu vermeiden (Yin Y et al., 2019).

Figure 2.Workflow for the identification of germline mutations. Workflow zur Identifizierung von Keimbahnmutationen (Yin Y et al., 2019)

WES-Qualitätskontrolle zur Erkennung mitochondrialer Varianten bei Hunderttausenden von Individuen

Datenvorverarbeitung und Varianzfilterung

Exom-Sequenzierung (415.000 Proben) und Array-Genotypisierungsdaten (784.000 SNPs) wurden zusammengeführt. Varianten von niedriger Qualität wurden herausgefiltert: auf Variantenebene (Löschrate >10 %, Einzelvarianten, Anzahl der Minorallele <6) und auf Probenebene (Löschrate >10 %) wurden ausgeschlossen. Es wurden 6.767.000 Varianten beibehalten (autosomal + X-Chromosom, MAF ≥ 0,001).

Kovariaten und Störfaktorenkontrollen

Alter, Geschlecht, 40 Hauptkomponenten (PCs) und WES Batch-Effekte wurden angepasst. Eine genetische Verwandtschaftsmatrix (GRM) wurde mit BOLT-LMM erstellt. Für spärliche GRMs wurden Verwandtschaftskoeffizienten <0,0442 auf 0 gesetzt.

Variationsanalyse und statistische Strenge

  • Einzelvariantanalyse: Es wurde eine Assoziation mit BOLT-LMM festgestellt, eine Stratifikation nach chrX wurde durchgeführt und METAL-Pooling-Statistiken wurden verwendet. Eine Power-Analyse wurde mit dem genpwr-Paket durchgeführt.
  • Aggregation seltener Varianten: Das GENESIS-Paket testete 9 Kombinationen (schädlich: alle nicht-synonymen/CADD≥18/pLoF; Häufigkeit: MAF≤1%/0,1%/0,01%), mit einer kumulativen Allelfrequenz ≥0,01%, einschließlich Varianten mit MAC<6; die p-Wert-Korrelation ergab 4 Cluster, mit einer effektiven Erkennungsrate von 18.557 Genen × 4 Cluster und einem Schwellenwert von 0,05/(18.557 × 4).
  • Überprüfung der Robustheit und Unabhängigkeit:
    • Auf Genebene: Die Leave-one-out-Methode und die bedingte Analyse wurden verwendet, um das Signal zu bewerten; die Gen-Set-Anreicherung wurde mit einem Gen-Set von 33.750 Genen aus MitoCarta et al. durchgeführt, t-Test, Ausschluss extremer Werte und Bonferroni-Korrektur (FWER 1,5 × 10⁻⁶).

Phänotypische Assoziation und multiple Testkorrektur

PheWAS: PheWAS umfasst die Zusammenführung von ICD10-Phänotypen, die Einschränkung irrelevanter Personen + kaukasische britische Abstammung, logistische Regression zur Anpassung von Kovariaten; simpleM berechnet effektive Tests bei 1.530, Bonferroni-Korrektur (p≤3,0×10⁻⁶); Mendelische Randomisierungsanalyse zur Kausalität (z.B. SAMHD1-mtDNA-CN und Brustkrebs) (Pillalamarri V et al., 2022).

Figure 3.A single variant significantly associated with mitochondrial DNA-CN was discovered. Eine einzelne Variante, die signifikant mit mitochondrialer DNA-CN assoziiert war, wurde entdeckt (Pillalamarri V et al., 2022).

Zusammenfassung

Qualitätskontrolle von Whole-Exom-Sequenzierung (WES) ist ein multidimensionales, dynamisch optimiertes systematisches Projekt, das über den gesamten Lebenszyklus von experimentellem Design, Durchführung und Datenanalyse implementiert werden muss. Standardisierte Abläufe, technologische Innovationen und interinstitutionelle Zusammenarbeit können die Nachweisempfindlichkeit und -spezifität erheblich verbessern und eine solide Grundlage für die Diagnose genetischer Erkrankungen, die präzise Onkologiebehandlung und die Arzneimittelentwicklung bieten. Labore sollten kontinuierlich Aktualisierungen internationaler Richtlinien überwachen und die Übersetzung der WES-Technologie von der Forschung in klinische Anwendungen fördern.

Die Leute fragen auch

Was ist der QV-Wert in der Sequenzierung?

Während des Sequenzierungsprozesses wird jedem Nukleotid in einem Read ein Qualitätswert (QV), auch bekannt als Qualitätsbewertung in der Literatur, zugewiesen. Diese Qualitätswerte drücken das Vertrauen aus, dass das entsprechende Nukleotid korrekt gelesen wurde.

Wie analysiert man Daten aus der gesamten Exomsequenzierung?

Ein typischer Arbeitsablauf von WES-Analyse umfasst diese Schritte: Qualitätskontrolle der Rohdaten, Vorverarbeitung, Sequenzausrichtung, Nachbearbeitung der Ausrichtung, Variantenaufruf, Variantenannotation sowie Variantenfiltration und -priorisierung.

Was ist der Datenoutput der gesamten Exomsequenzierung?

Die Datenausgabe der gesamten Exomsequenzierung besteht typischerweise aus Hochdurchsatz-Sequenzierungsreads (im FASTQ-Format) und einer verarbeiteten Variantencall-Datei (VCF), die identifizierte genetische Varianten in den protein-kodierenden Regionen des Genoms enthält.

Ein anderer Name für die gesamte Exom-Sequenzierung ist "Exom-Sequenzierung".

Exom-Sequenzierung, auch bekannt als gesamte Exom-Sequenzierung (WES), ist eine genomische Technik zur Sequenzierung aller protein-codierenden Regionen von Genen in einem Genom (bekannt als Exom).

Was kann durch die gesamte Exomsequenzierung nicht erkannt werden?

Es kann funktionale Varianten in nicht-kodierenden Regionen geben, die die Genexpression regulieren, wie z.B. Enhancer und lange nicht-kodierende RNAs. Diese nicht-kodierenden Varianten (NCVs) sind jedoch, selbst wenn sie genetisch identifizierbar sind, nicht durch WES abgedeckt und können daher nicht nachgewiesen werden.

Was sind sekundäre Befunde bei der gesamten Exomsequenzierung?

Was sind sekundäre Befunde bei der gesamten Exomsequenzierung? Ein sekundärer Befund ist eine Variation, die zur Erkrankung beitragen kann, jedoch nicht die Ursache für den aktuellen Zustand des Patienten ist. Sekundäre Befunde werden bei bis zu 5 von 100 (5%) Patienten gefunden, die sich für eine WES entscheiden.

Was ist die Trio-Analyse bei der gesamten Exom-Sequenzierung?

Whole Exome Sequencing (WES), Trio-Analyse ist ein molekularer Test, der Daten aus dem gesamten Exom erfasst, mit zusätzlicher Abdeckung für Gene mit bekannten Mendel’schen Krankheitsassoziationen, um die zugrunde liegende genetische Ursache der unerklärten medizinischen Erkrankung des Patienten zu identifizieren.

Referenzen:

  1. Sealock JM, Ivankovic F, Liao C, Chen S, Churchhouse C, Karczewski KJ, Howrigan DP, Neale BM. Tutorial: Richtlinien zur Qualitätsfilterung von Whole-Exome- und Whole-Genome-Sequenzierungsdaten für assoziationsanalysen im großen Maßstab. Nat Protokolle. 2025 Sep;20(9):2372-2382.
  2. Belova V, Pavlova A, Afasizhev R, Moskalenko V, Korzhanova M, Krivoy A, Cheranev V, Nikashin B, Bulusheva I, Rebrikov D, Korostin D. Systemanalyse der Sequenzierungsqualität von menschlichen Whole-Exome-Proben auf der BGI NGS-Plattform. Sci Rep2022 Jan 12;12(1):609.
  3. Giusti B, Sticchi E, Capezzuoli T, Orsi R, Squillantini L, Giannini M, Suraci S, Rogolino AA, Cesari F, Berteotti M, Gori AM, Lotti E, Marcucci R. Whole Exome Sequenzierung bei impfbedingter thrombotischer Thrombozytopenie (VITT). Biomedizinische Forschung International2024 Jul 14;2024:2860547.
  4. Yin Y, Wu S, Zhao X, Zou L, Luo A, Deng F, Min M, Jiang L, Liu H, Wu X. Studie zur gesamten Exomsequenzierung einer chinesischen Familie mit gleichzeitigem Krebs.. Onkol Lett2019 Sep;18(3):2619-2627.
  5. Pillalamarri V, Shi W, Say C, Yang S, Lane J, Guallar E, Pankratz N, Arking DE. Whole-Exom-Sequenzierung bei 415.422 Individuen identifiziert seltene Varianten, die mit der Anzahl der mitochondrialen DNA-Kopien assoziiert sind.. HGG Adv2022, 26. September; 4(1):100147.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben