What is “gene copy number” in practical terms?

Gene copy number is the inferred number of DNA copies overlapping a gene. Most pipelines infer it from segments whose boundaries may not match gene boundaries—so “gene-level CNV” is often a segment interpretation unless the assay provides dense locus evidence.

Can low-pass WGS reliably detect gene-level deletions/duplications?

Sometimes, but not consistently across loci. Low-pass is strongest for broad events. Gene-level detection depends on locus mappability, GC, bin size, and noise. If you must be right, plan deeper coverage or targeted confirmation.

Does smaller bin size always improve resolution?

No. Smaller bins increase spatial detail but also increase noise per bin. If coverage is not increased accordingly, smaller bins can produce more false positives and unstable segmentation.

Why do some loci show “recurrent CNVs” across many unrelated samples?

Often technical artifacts: low mappability, repeats, or reference bias. Cohort-wide recurrence in the same region is a strong signal to use masks/blacklists and treat that region cautiously.

What deliverables should we require for cohort CNV work?

At minimum: genome-wide plots, segment tables, QC summaries, and mask/blacklist reporting. For scale, request cohort QC dashboards and documented parameter defaults (bin size, segmentation rules, normalization approach).

How should we handle “tentative” gene-level calls in RUO pipelines?

Label them explicitly as tentative and route them to a predefined confirmation path (targeted sequencing, MLPA, or higher-depth WGS). Avoid embedding tentative calls into downstream decisions without confirmation.

How do microarrays compare for gene-level resolution?

Arrays can provide higher locus density in some regions, but probe placement is uneven and repeat regions remain difficult. Arrays and WGS have different bias profiles; the best choice depends on your question type and cohort scale.

What’s the most common reason CNV results differ between batches?

Batch effects: changes in library prep, sequencing runs, or sample handling that alter coverage bias patterns. The fix is rigorous batch QC, consistent protocols, and batch-aware normalization.

Genebasierte vs. Chromosomale CNV: Verständnis von Auflösung und Grenzen

Die Analyse von Kopienzahlvariationen (CNV) funktioniert nur, wenn die effektive Auflösung mit Ihrer Forschungsfrage und Ihrem Rauschboden übereinstimmt. Bei großen Kohorten müssen Sie möglicherweise nur konsistent ganze Chromosomen- und Chromosomenarmereignisse kennzeichnen. Aber wenn die Frage lautet: "Ist dieses spezifische Gen amplifiziert oder deletiert?", kann dasselbe Low-Pass-Design, das bei breiten CNAs hervorragend abschneidet, mehrdeutig werden – insbesondere in repetitiven, GC-schiefen oder schwer kartierbaren Regionen.

Diese Ressource erklärt, was CNV "Auflösung" wirklich bedeutet, was sie in Mikroarray-Analysen im Vergleich zur Ganzgenomsequenzierung steuert, warum "Genebene CNV" in Low-Pass-Designs nicht immer bestimmbar ist und wie man die richtigen Plattform- und Pipeline-Einstellungen für RUO-Kohorten-Workflows auswählt.

1. Was "Auflösung" beim CNV-Calling bedeutet

"Auflösung" ist keine einzelne Zahl. Es ist die kleinste Ereignisgröße, die Sie bei einem akzeptablen Risiko von falsch-positiven/falsch-negativen Ergebnissen unter Berücksichtigung Ihres Geräuschpegels konsistent erkennen und benennen können. In der Praxis wird die CNV-Auflösung durch Folgendes eingeschränkt:

Signalstärke: wie viele unabhängige Beobachtungen unterstützen einen CN-Verschiebung (z. B. Bins, Proben)
Geräusch: Abdeckungsvarianz, GC-Wellen, Mappability-Ausfälle, Batch-Effekte
Segmentierungsverhalten: Algorithmen "sehen keine Gene"; sie leiten stückweise konstante Segmente ab, die die Daten am besten erklären.

Eine nützliche Möglichkeit, über die Auflösung in RUO-Kohorten nachzudenken, ist: Was ist die kleinste CNV, die stabil bleibt, wenn Sie dieselbe Probe in einem anderen Batch, einer anderen Bahn oder Woche erneut analysieren? Wenn sich die Antwort ändert, liegen Sie unter der effektiven Auflösung Ihres Workflows.

1.1 Ereignisse auf Gen-, Segment- und Chromosomenebene

Teile deine Absicht in drei "Ereignisskalen" auf:

Chromosomale Ereignisse
Ganzchromosomale Gewinne/Verluste (Aneuploidie) oder sehr große CNAs.
Segmentebene Ereignisse
Kontinuierliche CN-Änderungen, die sich über Megabasen bis hin zu Hunderten von Kilobasen erstrecken. Viele Low-Pass-Pipelines befinden sich effektiv in diesem Bereich.
Genebasierte Ereignisse (fokale CNVs)
Kleine Deletionen/Duplikationen, die sich über ein oder wenige Gene erstrecken. Diese können mehrere zehn kb (oder kleiner) sein, manchmal mit komplexen Bruchpunkten und Wiederholungen.

Ein wichtiger praktischer Punkt: Selbst wenn ein CNV ein Gen überlappt, ist der Aufruf normalerweise segmentabgeleitet und nicht wirklich "genau bestimmt", es sei denn, der Test bietet eine ausreichende Dichte (Sonden) oder Tiefe/Bins (WGS) über dieses Gen.

1.2 Was steuert die Auflösung: Probedichte (Arrays) vs. Tiefe/Größe der Bins (WGS)

Mikroarrays: Die effektive Auflösung ist hauptsächlich durch die Dichte und Platzierung der Sonden begrenzt. Regionen mit spärlichen Sonden (Wiederholungen, segmentale Duplikationen) verringern die nutzbare Auflösung. Hochdichte Designs können in gut charakterisierten Regionen eine annähernde Exon-/Genabdeckung erreichen, jedoch ist die Leistung im gesamten Genom ungleichmäßig.
WGS-Lesetiefen-CNV: Die Auflösung wird durch zwei verbundene Regler gesteuert:

Abdeckung (×): höhere Abdeckung reduziert das Stichprobenrauschen
Bin-Größe (Fenstergröße): Kleinere Bins erhöhen die räumliche Detailgenauigkeit, führen jedoch zu mehr Rauschen pro Bin.

Bin-Größe × Tiefe Intuition (keine Formeln, nur Realität):
Das Verkleinern von Bins ohne Erhöhung der Tiefe neigt dazu, die Varianz in jedem Bin zu erhöhen. Das führt oft zu "überladenen" Profilen mit vielen kurzen Segmenten – genau dem Muster, das wie fokale CNVs aussieht, aber tatsächlich Instabilität ist. Wenn Sie die Bin-Größe aggressiv bei niedriger Abdeckung reduzieren, tauschen Sie typischerweise scheinbare "Details" gegen eine höhere Falsch-Positiv-Rate und schlechtere Reproduzierbarkeit zwischen den Chargen ein. Abbildung 1 ist eine hilfreiche Erinnerung: Auflösung wird durch Signal-Dichte und nicht durch wünschenswertes Heranzoomen erreicht.

Für kohortenbasierte Workflows streben Teams in der Regel eine stabile Standardisierung von Anfang bis Ende an: ein standardisierter Workflow für die gesamte Genomsequenzierung (WGS) kombiniert mit einem wiederholbare Variante-Identifizierungs-Pipeline und dokumentierte CNV-Parameter (Binning, Masken, Segmentierungsstandards).

Siehe Abbildung 1, um Ihre Fragen-Skala mit der minimalen Signal-Dichte abzugleichen, die erforderlich ist, bevor Sie "Genebene"-Ergebnisse interpretieren.

Figure 1. CNV Resolution Ladder: What You Can Call at Each Scale. Chromosome → arm → Mb segment → kb segment → gene; arrays are constrained by probe density, WGS by coverage and bin size. Abbildung 1. CNV-Auflösungsleiter: Was Sie in jedem Maßstab benennen können. Chromosom → Arm → Mb-Segment → kb-Segment → Gen; Arrays sind durch die Proben-Dichte eingeschränkt, WGS durch Abdeckung und Bin-Größe.

1.3 Warum "Genebene CNV" in Low-Pass-Designs nicht immer aufrufbar ist

Niedrigpass-Designs sind für Skalierbarkeit optimiert. Aber "Genebene CNV" erfordert hochkonfidente lokale Beweise über einen kurzen genomischen Bereich.

Häufige Gründe, warum Low-Pass auf Genebene Schwierigkeiten hat:

Zu wenige informative Bins überlappen das Locus (insbesondere wenn die Bins ≥100 kb sind)
Mappbarkeitseinschränkungen: Kurze Reads in Wiederholungen/segmentalen Duplikationen erzeugen mehrdeutige Abdeckung
GC-gesteuerte Wellen: Kleine Loci können von lokalem GC-Bias dominiert werden, anstatt von wahrer CN.
Segmentierungsglättung: Algorithmen bevorzugen längere, stabile Segmente, wenn das Rauschen hoch ist.

Fazit: In Low-Pass-Einstellungen sollten Genebeneaufrufe oft als Hypothesen betrachtet werden, es sei denn, Sie können starke lokale Unterstützung und stabile Qualitätskontrollen nachweisen.

2. Chromosomale Ereignisse: Worin Low-Pass hervorragend ist

Wenn Ihr Kohortenziel darin besteht, großflächige Kopienzahlveränderungen zuverlässig zu identifizieren (Chromosom / Arm / Multi-Megabase), ist eine Low-Pass-WGS oft eine gute Wahl.

2.1 Ganze Chromosomengewinne/-verluste (Aneuploidie)

Ganzchromosomale CN-Verschiebungen erzeugen ein großes, kohärentes Signal über ein ganzes Chromosom. Selbst bei moderater Abdeckung können diese Ereignisse als stabile Abweichungen im Kopierverhältnis über viele Bins erscheinen – was sie im Vergleich zu Rauschen und lokalen Verzerrungen relativ robust macht.

In RUO-Kohortenprogrammen ist ein gängiger Ansatz, die "breite CNA-Erkennung" als Produktionslieferung zu standardisieren unter CNV-Sequenzierung mit festem Binning, Maskierung und QC-Gates. Das Ziel ist nicht, die Detailgenauigkeit pro Probe zu maximieren; es geht darum, die Kohärenz der Kohorte zu maximieren.

2.2 Chromosomenarmereignisse und große CNAs

Arm-Level-Ereignisse (p-arm-Verlust, q-arm-Gewinn) sind ebenfalls "breite" Signale. Sie sind tendenziell nachweisbar, wenn Ihre Binning- und Normalisierungsverfahren stabil sind und Ihre Pipeline problematische Regionen angemessen auf die Blacklist setzt.

Betriebswirtschaftlich wird hier "Auflösung" handlungsfähig: Wenn Sie "Arm-Level und darüber" akzeptieren können, können Sie standardisierte Verarbeitung und Kohortenvergleichbarkeit priorisieren. Viele großangelegte Screenings verwenden Skim-Sequenzierung (niedrig-tiefe WGS) Ansätze insbesondere, weil sie eine breite Ereignissensitivität bewahren und gleichzeitig den pro-Proben-Fußabdruck überschaubar halten.

Siehe Abbildung 2 für die visuelle Signatur von breiten, stabilen CNAs, die für die Segmentberichterstattung geeignet sind.

Figure 2. Example CNA Landscape: Broad Shifts Across Chromosomes. Whole-chromosome and arm-level events create smooth shifts in copy ratio across many bins. Abbildung 2. Beispiel für eine CNA-Landschaft: Breite Verschiebungen über Chromosomen. Ereignisse auf Chromosomen- und Arm-Ebene erzeugen sanfte Verschiebungen im Kopieverhältnis über viele Bins hinweg.

2.3 Häufige Berichtsformate (genomweite Plots, Segmenttabellen)

Für die RUO-Kohortenarbeit sollten die CNV-Ausgaben Folgendes unterstützen:

Kohortenebene QC (Ausreißer kennzeichnen, Batch-Effekte)
Veranstaltungsbewertung (was sich geändert hat, wo, wie groß)
Downstream-Integration (Annotation, Stratifikation, Berichterstattung).

Typische Ergebnisse:

Genomweite Kopieverhältnis-Darstellung (pro Probe und/oder Kohortenübersicht)
Segmenttabelle (chr, Start, Ende, log2-Verhältnis, abgeleiteter CN-Zustand, optionale Zuversicht)
QC-Zusammenfassung (Mapping-Metriken, Rauschmetriken, Bias-Flags)
Mask-/Blacklistbericht (ausgeschlossene Regionen wie Zentromere/niedrige Abbildbarkeit)

Wenn Sie bereits vorbereitete Bibliotheken haben und die Kohortenverarbeitung konsistent halten möchten, vorgefertigte Bibliothekssequenzierung kann helfen, die Bedingungen von Lauf zu Lauf zu standardisieren, während Ihre nachgelagerte CNV-Pipeline vergleichbar bleibt.

3. Ereignisse auf Genebene: Wenn Sie mehr Signal benötigen

Wenn Ihre Frage fokussiert ist—„Hat dieses Gen einen Gewinn/Verlust?“—nehmen Sie an, dass Sie eine höhere Signalstärke oder eine gezielte Strategie benötigen.

3.1 Kleine fokale Amplifikationen/Deletion: warum sie schwieriger sind

Fokale Ereignisse sind schwierig, da sie mit Geräuschquellen auf ähnlichen Längenskalen konkurrieren:

GC-Wellen können wie ein kleiner Gewinn/Verlust aussehen.
Die Ambiguität bei der lokalen Ausrichtung verringert die nutzbaren Reads.
Die Segmentierung kann kleine Ereignisse mit benachbarten Baseline zusammenführen, wenn die Beweise dünn sind.

Mit anderen Worten, die fokale CNV-Erkennung ist nicht einfach "hineinzoomen". Es verändert das Experiment und die Pipeline, sodass das Locus genügend unabhängige Beweise hat.

3.2 Praktische Hebel: tiefere Abdeckung, gezielte Tests, hybride Strategien

Drei gängige Strategien:

A) Die Abdeckung erhöhen und die Behälter verengen
Wenn Sie von einem Tiefpassfilter zu tieferem WGS wechseln können, reduzieren Sie die Varianz pro Bin und können die Bin-Größen sicherer verkleinern. Dies erhöht die Empfindlichkeit für kleinere Ereignisse, erhöht jedoch auch den Rechen- und Speicheraufwand und kann Batch-Effekte verstärken, wenn die Protokolle nicht festgelegt sind.

B) Verwenden Sie gezielte Anreicherung, wenn nur eine Teilmenge von Loci wichtig ist.
Wenn Sie sich für definierte Loci interessieren, konzentrieren gezielte Ansätze die Reads dort, wo Sie sie benötigen:

gezielte Regionssequenzierung für benutzerdefinierte Loci
a Genpanel-Sequenzierungsdienst wenn die Orte stabil und gut definiert sind

Gezielte Designs können das Vertrauen auf Locus-Ebene verbessern, aber Sie müssen die Verzerrung durch Ziel-Dichte und das Normalisierungsverhalten, das sich von WGS unterscheidet, berücksichtigen.

C) Hybride Strategie: breit scannen, gezielt bestätigen
Ein häufiges Kohortenmuster ist: Low-Pass-WGS für breite Screening → gezielte/orthogonale Methode zur fokalen Bestätigung. Dies bewahrt den kohortenweiten Kontext und schützt gleichzeitig "muss-richtig"-Entscheidungen auf Genebene.

Für orthogonale Bestätigung der Kopienzahl an spezifischen Loci verwenden Sie orthogonale Kopienzahl-Assays (z.B. MLPA) wenn es für den Standort und die Durchsatzanforderungen angemessen ist.

3.3 Genaues Interpretieren von Genauigkeitsbewertungen (Wiederholungen, GC, Kartierbarkeit)

Wenn Sie Genebeneaufrufe aus einem Design mit niedrigem Signal melden müssen, tun Sie dies mit ausdrücklichen Vorbehalten und QC-Gates:

Segmentale Duplikationen und Paralogon können die Lesetiefe verzerren.
GC-Extremwerte: Systematische Abdeckungsartefakte erhöhen lokale falsch-positive Ergebnisse.
Kartierbarkeit: niedrige Einzigartigkeit verringert die effektive Lesekapazität, die das Locus unterstützt.
Grenzenambiguität: Breakpoints stimmen selten sauber mit Bins/Proben überein.

Eine praktische Berichtgewohnheit besteht darin, Ergebnisse auf Genebene als zu kennzeichnen:

"unterstützt" (mehrere benachbarte Behälter/Sonden unterstützen den Shift, niedrige GC-Restwerte, akzeptables Rauschen), oder
"vorläufig" (wenige Bins, GC/Mappability-Risiko) mit einer empfohlenen Nachfolgemethode.

4. Die richtige Plattform nach Fragetyp wählen

Dieser Abschnitt ist für zwei Zielgruppen konzipiert: Betriebsleiter (Skalierung, Durchsatz) und Pipeline-Eigentümer (QC-Bereitschaft). Siehe Abbildung 3 für einen schnellen "Frage → Methode"-Weg.

4.1 Großkohorten-Screening: Durchsatz und breite Ereigniserkennung priorisieren

Wenn Ihr Ziel die Screening von Kohorten im Hinblick auf Chromosomen-/Arm-/große Segmentereignisse ist, priorisieren Sie:

standardisierte Bibliotheksvorbereitung und Sequenzierungsparameter,
stabile Normalisierung über Chargen hinweg,
Liefergegenstände, die sich in großem Maßstab leicht überprüfen lassen.

Für die nachgelagerte Kompatibilität (Assoziationsstudien, Struktur, Stratifikation) koppeln einige Programme CNV-Ausgaben mit Genotypisierungsebenen wie Whole-Genome-SNP-Genotypisierung wo das Studiendesign von SNP-basierten Metriken profitiert.

Für einen plattformübergreifenden Vergleich von Low-Pass-WGS und Mikroarrays zur CNV-Screening siehe diese Anleitung.

4.2 Modell-/Programmbestätigung des Ziels (RUO): entscheiden, ob eine fokale Empfindlichkeit erforderlich ist

Wenn der nächste Schritt von einer genebenen Schlussfolgerung abhängt (zum Beispiel, ob ein Locus in einem nicht-klinischen Forschungsmodell gewonnen oder verloren wird), entscheiden Sie im Voraus, ob Sie Folgendes benötigen:

hochgradig zuverlässige fokale CNV-Anrufe, oder
breiter CNA-Kontext + eine explizite Bestätigungsnachricht.

Wenn fokale Empfindlichkeit erforderlich ist, ziehen Sie in Betracht:

tiefer WGS, oder
gezielte Anreicherung (z. B. ein Gen-Panel-Sequenzierungsdienst), plus
ein orthogonaler Bestätigungsworkflow.

Für einige Programme wird ein praktisches Bestätigungsbündel angestrebt, das die Sequenzierung gezielter Loci sowie die Validierung von Bruchpunkten umfasst durch Sanger-Sequenzierung wenn spezifische Verbindungen bekannt sind oder verstärkt werden können.

4.3 Pipeline-Bereitschaft: Was interne Teams für QC und Kompatibilität benötigen

Für Bioinformatik und Plattformbesitzer bedeutet Bereitschaft Wiederholbarkeit:

Referenzwahl und Masken: konsistenter Genomaufbau und Mappability-Blacklists
Normalisierungsstrategie: GC-/Mappierbarkeitskorrektur und batchbewusste Kontrollen
Segmentierungsparameter: stabile Standardwerte mit dokumentierten Abstimmungsregeln
Kohorten-QC-Dashboard: Früherkennung von Ausreißern, Drift und Batch-Effekten
Liefergegenstände Spezifikation: standardisierte Plots, Segmenttabellen, QC-Schwellenwerte

Für Implementierungsdetails – Binning, Qualitätskontrolle und Erwartungen an die Liefergegenstände in Low-Pass-Pipelines – siehe diesen Low-Pass-WGS-Bioinformatikartikel.

Figure 3. Question → Method Decision Tree. Choose broad screening vs higher-resolution follow-up vs orthogonal confirmation, with QC checkpoints. Abbildung 3. Frage → Methoden Entscheidungsbaum. Wählen Sie zwischen breiter Screening-Option, höherauflösender Nachverfolgung oder orthogonaler Bestätigung, mit QC-Prüfpunkten.

5. QC und Fehlersuche: "Auflösung" in großem Maßstab vertrauenswürdig machen

Auflösungsansprüche sind nur dann sinnvoll, wenn Sie zeigen können, dass die Daten stabil sind. Im Folgenden finden Sie ein praktisches QC-Playbook, das auf RUO-Arbeiten im Kohortenmaßstab ausgerichtet ist.

5.1 Mindest-QC-Signale zur Verfolgung (pro Probe)

Verfolgen Sie mindestens Folgendes:

Abgebildete Leseanzahl (verwendbare Reads nach Filterung)
Abdeckungsuniformität / Bin-Vollständigkeit (Anteil der Bins mit ausreichenden Reads)
GC-Bias-Restbestand (Nachkorrektur-Steigung/Restbestand)
Geräuschmetrik (MAD der log2-Verhältnisse, bin-zu-bin-Varianz oder Segmentierungsresidual)
Ausreißer/schwarze Liste Anteil (Anteil maskierter Bins)

Tipp: Definieren Sie eine "QC-Passband" anhand der ersten ~50–100 Proben und sperren Sie dann die Schwellenwerte für die Produktion, um sich bewegende Zielvorgaben zu vermeiden.

Modul B: QC-Schwellenwert-Starttabelle (kalibrieren, dann sperren)
Dies sind Ausgangspunkte, die an Ihren ersten 50–100 Proben kalibriert werden sollten; sperren Sie die Schwellenwerte für die Produktion, sobald sie validiert sind.

QC-Metrik	Start der Band "Go" (RUO)	"Caution" Band	Was es beeinflusst	Typische Handlung
Mapping-Rate (primäre Ausrichtung)	≥ 90 %	80–90 %	effektive Signalsdichte	Überprüfung der Kürzung/Referenz; Stichprobenkennzeichnung
Dopplungsrate	≤ 30 %	30–50 %	Geräusch, Segmentierungsinstabilität	Bibliothek/Inputs anpassen; erneutes Ausführen in Betracht ziehen
Bin-Vollständigkeit (nicht maskierte Bins mit Abdeckung)	≥ 95 %	90–95 %	effektive Auflösung überall	Überprüfung der Kontamination/Kartierung; Kennzeichnung
GC-Rest nach Korrektur (qualitativ)	niedrig/flach	mäßige Wellen	fokale falsch-positive Ergebnisse	Normalisierung straffen; Bin-Größe erhöhen
MAD der log2-Verhältnisse (genomweit)	≤ 0,25	0,25–0,35	falsche Segmentierung	Bin-Größe erhöhen; Segmentierung anpassen
Fraktion maskierter/schwarzer Listen-Bins	≤ 10 %	10–20 %	Interpretierbarkeit	annotieren; vermeiden, maskierte Loci anzurufen
Batchverschiebung (Median-Log2-Verhältnis-Drift)	~0	konstante Abweichung	Kohortenvergleichbarkeit	batchbewusste Normalisierung; Prüfprozess

(Die Ausgangspunkte sind absichtlich konservativ und sollten je nach Bibliotheksmethode, Abdeckung und Referenz angepasst werden.)

5.2 Fehlersuche Tabelle (Symptom → wahrscheinliche Ursache → Lösung)

Symptom (was Sie sehen)	Wahrscheinliche Ursache	Was es bricht	Beheben / nächste Aktion
Starkes "Wellen"-Muster über viele Chromosomen hinweg	GC-Bias, Bibliotheksbias, Batch-Effekt	inflatiert kleine falsch-positive Ergebnisse	GC-Korrektur straffen; Protokollkonsistenz überprüfen; größere Bins in Betracht ziehen
Viele kurze Segmente ("Übersegmentierung")	Geräusch zu hoch für die gewählte Bin-Größe	falsche fokale CNVs	Bin-Größe erhöhen; Segmentierungsstrafen erhöhen; Ausreißer-Bins entfernen
Großer Anteil an fehlenden/nähe-null Behältern	schlechte Zuordnung, Kontamination, Ausrichtungs-Konfiguration	senkt die effektive Auflösung	Überprüfen Sie die Mapping-Rate; bestätigen Sie den Referenzaufbau; überprüfen Sie das Trimmen; ziehen Sie eine Wiederholung in Betracht.
Wiederkehrende "CNV-Hotspots" an denselben Loci in vielen Proben	geringe Mappbarkeit/Wiederholungen/Artefakte	kohortenweite falsche Ereignisse	Mappbarkeit-Masken anwenden; schwarze Listen von Regionen; dort keine Interpretation vornehmen.
Eine Charge systematisch verschoben	Batch-Effekt / Unterschiede zwischen Bibliothekschargen	zerstört die Vergleichbarkeit der Kohorten	batch-bewusste Normalisierung; Batches neu ausbalancieren; Überprüfung der Wet-Lab-Schritte
Gene-Level-Anruf von Nachbarn nicht unterstützt	zu wenige informative Kategorien; lokale Verzerrung	unzuverlässige Standortinferenz	Label vorläufig; bestätigen Sie über gezielte/orthogonale Methode.

5.3 Praktische "Auflösungsleitplanken" (Faustregel-Gates)

Da Kohorten unterschiedlich sind, definieren Sie validierte Schwellenwerte. Praktische Leitlinien für RUO-Programme:

Behandeln Sie Chromosomen-/Arm-Level-Anrufe als primäre Ergebnisse für Low-Pass-Screening.
Behandle Sub-Megabase- / Genebasierte Aufrufe als Hypothesen-Grad, es sei denn, du kannst nachweisen:

mehrere benachbarte Behälter/Sonden unterstützen den Shift,
niedrige GC-Rückstände / minimale Wellenartefakte,
akzeptables genomweites Rauschen (stabile MAD/Varianz),
Der Locus befindet sich nicht in einem Bereich mit niedriger Mappbarkeit/hoher Wiederholungsdichte.

Wenn Ihr Programm konsistente Locus-Level-Sicherheit erfordert, integrieren Sie dies in das Design (tiefergehende WGS oder gezielte Anreicherung), anstatt Genauordnungen aus Low-Pass-Daten zu erzwingen.

6. Entscheidungsrahmen: Wann man was verwenden sollte (und wann nicht)

RUO-Grenze Erinnerung (bitte in diesem Abschnitt behalten):
Alle Empfehlungen hier sind für Forschungsabläufe wie Kohorten-QC, exploratives Screening, Modellcharakterisierung und Methodenentwicklung gedacht. CNV-Ausgaben und QC-Schwellenwerte sollten als analytische Signale interpretiert werden, um nachfolgende Experimente und interne Entscheidungen in RUO-Programmen zu leiten. Sie sind nicht für diagnostische, prognostische oder therapeutische Ansprüche konzipiert oder validiert und sollten nicht verwendet werden, um Ergebnisse abzuleiten oder klinische Maßnahmen zu leiten. Für jede Studie, die hochgradig vertrauenswürdige locus-spezifische Schlussfolgerungen erfordert, planen Sie eine geeignete Bestätigungsstrategie (z. B. Sequenzierung mit höherer Tiefe, gezielte Anreicherung oder orthogonale Kopienzahl-Assays) und definieren Sie Akzeptanzkriterien, bevor Sie auf Tausende von Proben skalieren.

Modul A: 1-Minuten-Entscheidungstabelle (Auswahlmethode + Notenberichterstattung)

Verwenden Sie diese Tabelle, um eine Methode auszuwählen und die Erwartungen festzulegen, was Sie als "Segment-Note" vs. "Hypothesen-Note" berichten werden.

Ihre Hauptfrage	Empfohlene Hauptmethode	Typische Berichtsnote	Häufige Nachverfolgung (RUO)	Hinweise / Fallstricke
Ganzchromosom / Arm CNA über viele Proben hinweg	Low-Pass-WGS-Lesetiefe-CNV	Segment-Note	keine oder Stichprobenkontrolle QC	robust gegenüber Störungen, wenn die Qualitätskontrolle stabil ist
Multi-Mb Segment-CNAs	Tiefpass-WGS + stabile Binning/Segmentierung	Segment-Note	Randfälle bestätigen	Die Bin-Größe ist zu klein, was zu einer Inflation von FP führen kann.
Fokale Genebene-Gewinne/Verluste, die für Programmentscheidungen erforderlich sind	Tiefere WGS oder gezielte Anreicherung	Gene-Grad (sofern validiert)	orthogonaler Test	Wiederholungen/GC/Mappierbarkeit dominieren oft
"Interessanter Ort" von der Tiefpassfilterung	Tiefpassfilter	Hypothesen-Grad	gezielte Analyse / MLPA / tiefere WGS	Überinterpretieren Sie keine isolierten Behälter.
Breakpoint-Level Charakterisierung	Gezielte Sequenzierung / Langzeitlesung (fallabhängig)	Strukturgrad	Junctionvalidierung nach Bedarf	Breakpoint-Mapping benötigt unterschiedliche Nachweise.

Verwenden Sie einen Tiefpass-WGS, wenn:

Ihr Hauptziel ist das umfassende CNA-Screening (ganze Chromosomen, Arme, große Segmente).
Sie benötigen eine hohe Durchsatzrate bei Tausenden von Proben.
Sie möchten Daten, die später wiederverwendet werden können (QC, Stratifikation, Sekundäranalysen).
Akzeptanzkriterien können auf Segment-/Chromosomenauflösung formuliert werden.

Vermeiden Sie es, sich ausschließlich auf niedrige WGS zu verlassen, wenn:

Entscheidungen hängen von der Vertrauenswürdigkeit der CNV auf Genebene ab.
Der Locus befindet sich in Wiederholungen / segmentalen Duplikationen / extremem GC.
Sie benötigen präzise Breakpoints oder sehr kleine Ereigniserkennungen.
Kohortenstichprobenarten erzeugen instabile Verzerrungsmuster.

Betrachten Sie eine hybride Strategie, wenn:

Sie möchten eine umfassende Screening in großem Maßstab, müssen jedoch bei einer Teilmenge richtig liegen.
Beispiel: Tiefpassfilter-Bildschirm → Bestätigen Sie ausgewählte Loci durch gezielte Sequenzierung oder MLPA (RUO).

Häufig gestellte Fragen

1) Was ist "Genkopienzahl" in praktischen Begriffen?

Die Genkopienanzahl ist die abgeleitete Anzahl von DNA-Kopien, die ein Gen überlappen. Die meisten Pipelines leiten sie von Segmenten ab, deren Grenzen möglicherweise nicht mit den Gen-Grenzen übereinstimmen – daher ist "Genebene CNV" oft eine Segmentinterpretation, es sei denn, der Test liefert dichte Lokusbeweise.

Kann ein Low-Pass-WGS zuverlässig Genebene-Deletionen/Duplikationen erkennen?

Manchmal, aber nicht konsistent über die Loci hinweg. Low-Pass ist am stärksten für breite Ereignisse. Die Genebene-Erkennung hängt von der Mappbarkeit des Locus, dem GC-Gehalt, der Bin-Größe und dem Rauschen ab. Wenn Sie sicher sein müssen, planen Sie eine tiefere Abdeckung oder eine gezielte Bestätigung.

Verbessert eine kleinere Bin-Größe immer die Auflösung?

Nein. Kleinere Bins erhöhen die räumliche Detailgenauigkeit, führen jedoch auch zu mehr Rauschen pro Bin. Wenn die Abdeckung nicht entsprechend erhöht wird, können kleinere Bins mehr falsch-positive Ergebnisse und instabile Segmentierungen erzeugen.

4) Warum zeigen einige Loci "wiederkehrende CNVs" über viele nicht verwandte Proben hinweg?

Häufig technische Artefakte: niedrige Mappbarkeit, Wiederholungen oder Referenzbias. Eine kohortenweite Wiederholung in derselben Region ist ein starkes Signal, Masken/Blacklist zu verwenden und diese Region vorsichtig zu behandeln.

5) Welche Ergebnisse sollten wir für die CNV-Arbeiten der Kohorte anfordern?

Mindestens: genomweite Plots, Segmenttabellen, QC-Zusammenfassungen und Masken-/Blacklist-Berichterstattung. Für den Maßstab, fordern Sie Kohorten-QC-Dashboards und dokumentierte Parameterstandards (Bin-Größe, Segmentierungsregeln, Normalisierungsansatz) an.

6) Wie sollten wir mit "vorläufigen" Genebene-Aussagen in RUO-Pipelines umgehen?

Kennzeichnen Sie sie ausdrücklich als vorläufig und leiten Sie sie zu einem vordefinierten Bestätigungsweg (gezielte Sequenzierung, MLPA oder höherauflösende WGS). Vermeiden Sie es, vorläufige Aufrufe in nachgelagerte Entscheidungen ohne Bestätigung einzubetten.

7) Wie schneiden Mikroarrays hinsichtlich der Gen-Ebene-Auflösung ab?

Arrays können in einigen Regionen eine höhere Locusdichte bieten, aber die Platzierung der Sonden ist ungleichmäßig und Wiederholungsregionen bleiben schwierig. Arrays und WGS haben unterschiedliche Verzerrungsprofile; die beste Wahl hängt von Ihrem Fragestellungstyp und der Kohortengröße ab.

8) Was ist der häufigste Grund, warum CNV-Ergebnisse zwischen Chargen variieren?

Batch-Effekte: Veränderungen in der Bibliotheksvorbereitung, Sequenzierungsläufen oder Probenhandhabung, die die Muster der Abdeckungsbias beeinflussen. Die Lösung besteht aus rigoroser Batch-QC, konsistenten Protokollen und batchbewusster Normalisierung.

Referenzen

Klambauer G, Schwarzbauer K, Mayr A, et al. cn.MOPS: Mischung von Poisson-Verteilungen zur Entdeckung von Kopienzahlvariationen in Next-Generation-Sequencing-Daten mit einer niedrigen Falsch-Entdeckungsrate. Nucleic Acids Research (2012). DOI: 10.1093/nar/gks003
Talevich E, Shain AH, Botton T, Bastian BC. CNVkit: Genomweite Erkennung und Visualisierung von Kopienzahlen aus gezielter DNA-Sequenzierung. PLOS Computational Biology (2016). DOI: 10.1371/journal.pcbi.1004873
Boeva V, Popova T, Bleakley K, et al. Control-FREEC: ein Werkzeug zur Bewertung der Kopienzahl und des allelischen Inhalts unter Verwendung von Daten aus der Next-Generation-Sequenzierung. Bioinformatik (2012). DOI: 10.1093/bioinformatics/btr670
Smolander J, Khan S, Singaravelu K, et al. Bewertung von Werkzeugen zur Identifizierung großer Kopienzahlvariationen aus ultra-niedrigabdeckenden Whole-Genome-Sequenzierungsdaten. BMC Genomics (2021). DOI: 10.1186/s12864-021-07686-z
Chaubey A, Shenoy S, Mathur A, et al. Low-Pass-Genomsequenzierung: Validierung und Nutzen aus 409 Fällen… Das Journal of Molecular Diagnostics (2020). DOI: 10.1016/j.jmoldx.2020.03.008

Dienste, an denen Sie interessiert sein könnten

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.