Was ist Copy Number Variation (CNV)? Ein Leitfaden für die genomische Forschung

Die Kopienzahlvariation (CNV) ist eines dieser Konzepte, das einfach klingt – „mehr oder weniger Kopien“ – bis ein Hochdurchsatzprogramm versucht, es über Tausende von Proben, mehrere Chargen und mehrere nachgelagerte Anwendungen zu standardisieren. Dieser Leitfaden ist geschrieben für RUO (Nur für Forschungszwecke) Genomik-Workflows: Bevölkerungsweite Kohorten-Screenings, Plattform-QC, Überwachung von Zelllinienabweichungen und Charakterisierung präklinischer Modelle. Es konzentriert sich auf klare Definitionen, was die Signale tatsächlich bedeuten, praktische Qualitätskontrolle/Fehlerbehebung und auslagerungsfähige Ergebnisse.

Wenn Sie zwischen Plattformen wählen, vergleichen Sie. LP-WGS vs. Mikroarray für skalierbares CNV-ScreeningFür präklinische Onkologie-F&E-Modelle (z. B. Zelllinien und Forschungs-Xenograft-Modelle) sowie die Interpretation von CNA siehe dies. Leitfaden zur präklinischen CNA-Profilierung.

1. CNV auf einer Seite: Definitionen, die Sie tatsächlich benötigen

Ein Kopienzahl ist ein Zustand einem genomischen Intervall zugeordnet: CN=0, 1, 2, 3, 4+ (und manchmal höher), abhängig vom Test und dem Aufrufmodell. A CNV ist eine Änderung in diesem Zustand relativ zu einer gewählten Referenzbasislinie – am häufigsten CN=2 für diploide Regionen in einem standardmäßigen Referenzkontext.

In der Praxis werden CNVs als dargestellt Segmente (chromosom, start, ende, länge, abgeleiteter CN-zustand, vertrauen/QC) anstelle von Einzelbasisereignissen. Diese segmentale Realität ist der Schlüssel zur Reproduzierbarkeit und QC-Fähigkeit der CNV-Erkennung in großen Programmen. Eine klassische Übersicht fasst die wichtigsten Mechanismen und wiederkehrenden Muster von Kopienzahlveränderungen zusammen (siehe Ref. 1).

1.1 Was "Kopienzahl" bedeutet (Genebene vs. Segmentebene)

Selbst wenn Ihre biologische Fragestellung genzentriert ist, ist die Messung fast immer segmentzentriert:

  • Segmentebene CNV"chr7: 55,20–55,45 Mb; CN≈1 (Verlust)"
  • Zusammenfassung der Genüberlappung"Segment überlappt GENE1 Exons; Zusammenfassung auf Gene-Ebene = verlustähnlich"

Warum das wichtig ist:

  • Arrays messen die Intensität und allelischen Signale bei Sonden.
  • Sequenzierungsmaßnahmen messen die Lesetiefe und (manchmal) das Allelgleichgewicht über bins/Fenster.
  • Beide implizieren ein Segment "Genebasierte CN" ist normalerweise ein abgeleitet Annotation, keine primäre Messung.

Segment-level copy number states and gene overlapAbbildung 1. Segmentebene Kopienzahlzustände und Genüberlappung. Die Kopienzahl wird genomic intervals (Segmente) nach Normalisierung und Segmentierung zugewiesen; die genebezogene "CN" ist typischerweise eine abgeleitete Annotation, die auf Überlappung und unterstützenden Bins/Sonden basiert.

Wenn Ihr Basisprogramm Arrays verwendet, beginnen Sie in der Regel mit einem konsistenten SNP-Array-Labor + QC-Vertrag, damit die Variation zwischen den Proben nicht von Rausch im Workflow dominiert wird. Für Hochdurchsatz-Kohortenarbeiten siehe SNP-Mikroarray.

1.2 CNV vs CNA vs Aneuploidie

Diese Begriffe werden in der alltäglichen Verwendung oft vermischt. In der RUO-Praxis ist es hilfreich, sie klar zu halten:

  • CNV (Copy Number Variation)eine Veränderung der Kopienzahl über eine genomische Region (Löschung/Duplikation/Amplifikation), die allgemein in der Bevölkerungs- und Modelforschung verwendet wird.
  • CNA (Kopienzahlveränderung)häufig verwendet in präklnische Onkologie-Modell Kontexte zur Hervorhebung von Kopienzahlveränderungen, die mit Genominstabilität, Subklonalität und Kulturauswahl verbunden sind.
  • Aneuploidie: ganzer Chromosom oder Verlust/Gewinn eines großen Chromosomenarms – großangelegte Kopienzahlverschiebungen, die sich von fokalen CNVs unterscheiden.

Ein praktischer Rahmen: CNV ist die allgemeine Messung.CNA ist ein Kontextlabel, das in der Onkologie-Modellanalyse stark verwendet wird, und Aneuploidie ist ein großangelegtes, karyotypähnliches Ergebnis.

1.3 Typische CNV-Klassen: Deletionen, Duplikationen, Mehrfachkopien-Amplifikationen

Die meisten CNV-Pipelines berichten:

  • LöschungenCN=0 (homozygotähnlicher Verlust), CN=1 (Einzelkopieverlust)
  • DuplikateCN=3 (Einzelkopiegewinn)
  • VerstärkungenCN≥4 (Multikopiergewinn; oft zusammengefasst als "CN=4+" in grober Screening)

Ob Sie CN=4 zuverlässig von CN=5 (und höher) unterscheiden können, hängt von der Signalmodell und Datenqualität. Bei Hochdurchsatz-Screenings ist es oft robuster, zu berichten grobe Staaten (z.B. "CN=4+") plus Vertrauen/QC anstelle von übergenauen Ganzzahlen.

2. Wie CNVs entstehen und warum sie in der Forschung wichtig sind

CNVs können durch mehrere Mechanismen entstehen, die die Genomarchitektur (Wiederholungen, segmentale Duplikationen) mit Rekombinations-/Replikations-/Reparaturprozessen verbinden. Klassische Synthesearbeiten betonen, dass eine Veränderung der Kopienzahl kein seltener Ausnahmefall ist – sie ist ein häufiges Ergebnis dafür, wie Genome sich erhalten und umstrukturieren (siehe Ref. 1).

2.1 Mechanismen (hohes Niveau): NAHR, Replikationsfehler, Umstellungen

Ein häufig gelehrter Mechanismus ist nicht-allelische homologe Rekombination (NAHR), wo Rekombination zwischen ähnlichen Sequenzen auftritt, die keine Allele sind, und häufig wiederkehrende Deletionen/Duplikationen in wiederholungsreichen Regionen erzeugt (siehe Ref. 1).

Auf operativer Ebene ist der Mechanismus wichtig, weil er vorhersagt:

  • wiederkehrende Hotspots (wiederholungs-/duplikationsreiche Loci),
  • schwer zu bestimmende Regionen (geringe Mappbarkeit für kurze Reads; geringe Proben-Eindeutigkeit für Arrays),
  • und warum die Definitionen von "aufrufbaren Regionen" explizit sein müssen.

2.2 Funktionale Auswirkungen: Dosiseffekt, Wegverschiebungen, phänotypische Variabilität (nicht immer linear)

CNVs können die biologische Funktion beeinflussen durch Dosierung (mehr oder weniger Kopien), die die Expression und nachgelagerte Phänotypen verändern können. Aber die Beziehung ist häufig kontextabhängig und nichtlinear—Regulation, Pufferung, epigenetischer Zustand und Struktur der Signalwege modulieren alle das Ergebnis (siehe Ref. 1).

Dosage effects are context-dependentAbbildung 2. Dosierungseffekte sind kontextabhängig. Die Kopienzahl kann die Expression und nachgelagerte Phänotypen beeinflussen, aber Pufferung, Regulation und epigenetischer Zustand können die Beziehung nichtlinear gestalten – behandeln Sie CNV als eine Forschungshypothese, die nachfolgende Tests erfordert.

Bei der Planung einer RUO-Studie fördert dies eine praktische Denkweise:

  • Verwenden Sie CNV-Anrufe als genomischer Kontext und QC-Signale (Baseline-Stratifizierung, Driftüberwachung).
  • Betrachten Sie "Dosierung impliziert Phänotyp" als Hypothese, die mit nachfolgenden Tests überprüft werden soll, anstatt als Garantie.

Wenn Sie eine Multi-Omics-Integration (CNV + Expression + epigenetischer Zustand) planen, halten Sie das gesamte Projekt an einem kohärenten Punkt verankert. Genomsequenzierungsstrategie (Stichproben, Tiefe, Batch-Design und Ergebnisse).

2.3 Warum CNVs in Langzeitzellkulturen und präklinischen Modellsystemen häufig vorkommen

In langfristig kultivierten Systemen und vielen präklinischen Modellen können sich die Kopienzahlprofile unter Selektion, Stress und klonalen Dynamiken verändern. In RUO-Workflows wird die CNV-Profilierung häufig verwendet, um:

  • eine Basislinie für einen "Genomzustand" für eine Modellcharge festlegen,
  • Überwachen Sie Abweichungen über Abschnitte oder Prozessänderungen,
  • und große Instabilitäten erkennen, die nachgelagerte Experimente beeinträchtigen könnten.

3. CNV-Erkennungslandschaft: Arrays vs Sequenzierung (Signals-First)

Eine zuverlässige Methode, um Methoden zu vergleichen, besteht darin, Markennamen zu ignorieren und zu fragen: Welche Beweise verwendet die Methode?

Die meisten CNV-Anrufe stammen von einem oder mehreren der folgenden:

  • Gesamtsignal (Array-Intensität oder Sequenzierungslesetiefe)
  • Allel-Balance-Signale (z. B. BAF)
  • Breakpoint-Beweis (discordante Paare, gesplittete Reads, lokale Assemblierungs-Signale)

Evidence signals used for CNV calling by methodAbbildung 3. Evidenzsignale, die für die CNV-Erkennung nach Methode verwendet werden. Arrays basieren auf Intensität (LRR) und allelischem Gleichgewicht (BAF), während Sequenzierung die Lesetiefe betont und je nach Design allelische/Breakpoint-Beweise hinzufügen kann; die Wahl der Methode ist ein Kompromiss zwischen Auflösung und Durchsatz.

3.1 Mikroarray-Analysen (CMA/SNP-Arrays): Stärken und Schwächen

SNP-Arrays liefern zwei zentrale Signale:

  • Log-Ratio (LRR)Gesamte Intensitätsabweichung (Proxy für die Kopienzahl)
  • B-Allel-Häufigkeit (BAF)alleleische Proportion (hilft, Muster der allelischen Ungleichgewicht zu interpretieren)

Klassische Array-CNV-Algorithmen (z. B. PennCNV) haben formalisiert, wie diese Signale zur CNV-Inferenz kombiniert werden können (siehe Ref. 2).

Stärken für Hochdurchsatz-RUO-Programme

  • Ausgereifte Labor- und Analyseverfahren
  • Vorhersehbare Verarbeitung pro Probe
  • BAF kann über die gesamte Intensität hinaus zusätzliche Struktur bieten.

Typische blinde Flecken

  • Überprüfen Sie Abdeckungsdefizite oder schlecht funktionierende Sonden in spezifischen genomischen Kontexten.
  • Segmentgrenzen, die durch die Dichte der Proben begrenzt sind
  • Batch-Effekte, die sich als Basisverschiebungen in der Intensität zeigen

Wenn Sie eine standardisierte Durchführung von Wet-Lab-Experimenten und konsistente Ergebnisse über große Kohorten hinweg benötigen, zentralisieren Sie die Durchführung über Mikroarray-Dienste kann die Standortspezifische Variabilität verringern.

3.2 Sequenzierungsbasierte CNV: Lesetiefe, allelischer Gehalt, Bruchpunkt-Signale

Sequenzierungsbasierte CNV beginnt oft mit Lese-Tiefe:

  • bin/Fenster das Genom,
  • Zähle die Lesevorgänge pro Bin,
  • normalisieren (GC/Kartierbarkeit),
  • Segment,
  • infer CN.

Eine repräsentative Methode ist cn.MOPS, welche Modelle die Lesezahlen über Proben hinweg analysieren, um CNVs mit kontrollierten falsch positiven Entdeckungen zu identifizieren (siehe Ref. 3).

Wenn die Sequenzierung die Genotypinferenz unterstützt (oder genügend Signal für allelbewusste Ansätze bietet), integrieren einige Werkzeuge den allelischen Inhalt. Control-FREEC ist ein bekanntes Beispiel, das die Kopienzahl und den allelischen Inhalt aus NGS-Daten schätzt (siehe Ref. 4).

Die Korrektur von Verzerrungen ist zentral: GC-Verzerrungen und Wiederholungs-/Mappierbarkeitseffekte können die Lesetiefe verzerren. Das Benutzerhandbuch von CNVkit bietet einen praktischen Überblick über Verzerrungsquellen und Korrekturstrategien, die in realen Pipelines verwendet werden.

Wenn Ihr CNV-Programm sequenzierungsfirst ist, ist das Hauptdienstleistungsmodell normalerweise Whole-Genome-Sequenzierung zur CNV-Profilierung kombiniert mit einem Analysevertrag, der CNV-Ausgaben und QC-Diagramme spezifiziert.

3.3 Warum Low-Pass-WGS zunehmend für skalierbares Screening verwendet wird

Für die kohortenbasierte CNV-Screening, Niederfrequenz-WGS (LP-WGS) ist beliebt, weil es die Messung über das Genom verteilt und durch Folgendes angepasst werden kann:

  • Tiefe,
  • Bin-Größe,
  • Referenzdesign,
  • und QC-Grenzwerte.

Der praktische Punkt: In LP-WGS, Die effektive Auflösung ist QC-begrenzt., nicht marketing-begrenzt. Sie werden bessere Ergebnisse erzielen, indem Sie Folgendes ausdrücklich definieren:

  • Welche Größen beabsichtigen Sie zu nennen?
  • Welche Regionen sind anrufbar?
  • Welche Vertrauensmetriken sind erforderlich?
  • und wie Chargen strukturiert sind.

Wenn Sie zwischen Plattformen wählen, vergleichen Sie. LP-WGS vs. Mikroarray für skalierbares CNV-ScreeningWenn Ihr Team Implementierungsdetails für die LP-WGS CNV-Erkennung benötigt, siehe Bioinformatik für Low-Pass WGS: Implementierung von cn.mops & Pipelines.

4. Interpretation von CNV-Ergebnissen in RUO-Workflows

Der größte Fehler in CNV-Programmen ist nicht der Anrufer – es ist die Interpretationsabweichung: Verschiedene Teams interpretieren dieselbe Segmentliste unterschiedlich. Sie verhindern das, indem Sie standardisieren, was "Auflösung", "Vertrauen" und "Aufrufbarkeit" bedeuten.

4.1 Was "Auflösung" wirklich bedeutet (Bin-Größe, Proben-Dichte, aufrufbarer Bereich)

In der RUO-Praxis, Auflösung ist keine einzelne Zahl.Es ist die Schnittmenge von:

  • Messgranularität: Abstand der Sonden (Arrays) oder Bin-/Fenstergröße (Sequenzierung)
  • Aufrufbarer BereichWelche Teile des Genoms sind analysierbar, unter Berücksichtigung von Einzigartigkeit/Kartierbarkeit und Qualitätskontrollen?
  • RauschbodenBatch-Effekte + Bibliotheksvariabilität + Normalisierungsqualität

Eine nützliche Faustregel für Programmdokumente:

Effektive Lösung ist die kleinste CNV-Größe, die verbleibt stabil unter QC und Nachbearbeitung in Ihrer Pipeline.

Wenn Sie eine tiefere Diskussion über die Grenzen der Genebene-Interpretation im Vergleich zu chromosomalen Aufrufen wünschen, siehe Genebasierte vs. Chromosomale CNV: Verständnis von Auflösung und Grenzen.

Für Designs, die sich auf definierte Orte/Intervalle konzentrieren, gezielte Regionen-Sequenzierung kann engere Fragen unterstützen – seien Sie einfach deutlich, wie Lücken und Erfassungsbias die CN-Inferenz beeinflussen.

4.2 Häufige Artefakte: GC-Bias, Wiederholungen, Mappierbarkeitsprobleme (und wie man sie erkennt)

GC-Bias präsentiert sich oft als systematische "Wellen" in der Lesetiefe über GC-reiche oder GC-arme Regionen; eine robuste Korrektur sollte die GC-Tiefen-Trends abflachen. Die Dokumentation zur Bias-Korrektur von CNVkit fasst häufige Verzerrungen zusammen und erläutert, wie sie in der Praxis korrigiert werden.

Wiederholungen und niedrige Abbildbarkeit Ursache, dass Bins/Proben unberechenbar reagieren. Bei der Sequenzierung kann mehrdeutige Zuordnung die Tiefe erhöhen; bei Arrays kann die Einzigartigkeit der Proben abnehmen. Dauerhafte Maßnahmen zur Minderung umfassen:

  • eine aufrufbare Maske definieren,
  • Ausschluss von minderwertigen Behältern/Sonden vor der Segmentierung,
  • Überlappende problematische Bereiche als "mit Vorsicht interpretieren" kennzeichnen,
  • und stärkere Nachweisgrenzen für die Interpretation in wiederholten dichten Kontexten erforderlich machen.

4.3 Was zu berichten ist: Segmente, Vertrauensmetriken und auslagerungsfähige Liefergegenstände

Ein nutzbares CNV-Lieferpaket im Kohortenmaßstab sollte Folgendes enthalten:

A) Kernsegmenttabellen

  • chr, start, ende, länge
  • abgeleiteter CN-Zustand (oder Log2-Verhältnis-Proxys)
  • Konfidenzscore(s) oder Modellposterior
  • aufrufbare Regionen-Flags (z. B. % maskierte Basen; Überlappung mit niedriger Abbildbarkeit)

B) QC-Paket

  • Probenabdeckungs-/Intensitätsstreuungsmetriken
  • GC-Bias-Diagramm (vor/nach Korrektur)
  • Segmentierungszusammenfassung Statistiken (Anzahl der Segmente; Größenverteilung)
  • Batch-Level-Vergleichsmetriken (Verteilungverschiebungen über Durchläufe hinweg)

C) Plots

  • genomweite Profil pro Probe (oder Repräsentant)
  • Chromosomenebene-Zoom-Diagramme für große Ereignisse
  • Kohortenebene CNV-Belastungszusammenfassungen

Wenn Sie die CNV-Analyse auslagern, definieren Sie dies ausdrücklich. CNV-Erkennung und QC-Liefergegenstände im Rahmen des Umfangs und benötigen einen reproduzierbaren Berichtvertrag (Dateien + Metriken + Diagramme). Für Unterstützung bei der End-to-End-Analyse siehe Bioinformatik-Dienstleistungen.

Für große Betriebsprogramme die Aufnahme und Metadaten frühzeitig standardisieren: Muster Einreichungsrichtlinien (PDF) enthält Eingangsmetadaten und Versandanforderungen.

5. QC und Fehlersuche (Betrieblich, Schwellenwertorientiert)

Sie haben nach QC-Schwellenwerten gefragt; für CNV sind universelle absolute Schwellenwerte schwierig, da sie von der Plattform, der Tiefe, der Binning und dem Design der Kohorte/Charge abhängen. Der robusteste Ansatz in RUO-Pipelines ist verteilungsbasierte Qualitätskontrolle (vergleichen Sie jede Probe mit den Kohortendistributionen) sowie einer kleinen Reihe von plattformspezifischen Prüfungen.

5.1 QC-Gates, die Sie ohne Überanpassung implementieren können

Plattformübergreifende QC-Gates

  • Ausreißerstreuung: Flagproben mit ungewöhnlich hoher Bin-/Probevarianz (z. B. oberes Ende der Varianzverteilung).
  • GC-Bias-RestbestandNach der Korrektur sollte die GC-Signal-Korrelation erheblich reduziert werden (verwenden Sie die Korrelation/Anpassungsresiduen als Akzeptanzmetrik).
  • Segment-SinnhaftigkeitExtreme Segmentanzahlen deuten normalerweise auf Rauschen (zu viele) oder Überglättung (zu wenige) hin. Verfolgen Sie die Verteilung der Segmentanzahl pro Charge.
  • Aufrufbare Bruchzahl: erfordern eine minimale Abdeckung des anrufbaren Bereichs; kennzeichnen Sie niedrig anrufbare Proben als "nur Screening / geringe Zuverlässigkeit."
  • Konkordanz replizieren (Ggf. verfügbar): Großveranstaltungen sollten sich über technische Replikate reproduzieren.

Array-spezifische Überprüfungen

  • Stabiles LRR-Basismodell und BAF-Struktur (siehe Ref. 2).

Sequenzierungs-spezifische Prüfungen

  • Tiefe Gleichmäßigkeit und Duplikationsverhalten; konsistente Abbildungs-/Abdeckungsmuster über die Charge hinweg.

Wenn Ihr Programm vorhersehbaren Durchsatz und standardisierte upstream Ausführung für große Probenmengen benötigt, kann die Kombination von CNV-Screening mit einem konsistenten NGS-Ausführungsworkflow hilfreich sein (z. B. Nächste Generation Sequenzierung).

5.2 Fehlersuche-Tabelle (Symptom → wahrscheinliche Ursache → Lösung)

Symptom Wahrscheinliche Ursache Beheben (nächste Schritte)
Viele kurze Segmente genomweit hoher Lärm; schwache Normalisierung; Batch-Effekte Erhöhe die Bin-Größe (Sequenzierung) oder verschärfe die Qualitätskontrolle der Sonden (Arrays); Referenz neu aufbauen; Ausreißerproben entfernen; batch-bewusste Normalisierung.
"Wellen" Muster ausgerichtet an GC-Extremen residuales GC-Bias Neuausrichtung der GC-Korrektur; sicherstellen, dass die Referenzkohorte mit der Bibliothek/Charge übereinstimmt; Maskierungspolitik bestätigen.
Anrufe, die in Wiederholungen/Segmentaldublikationen angereichert sind niedrige Abbildbarkeit/Sonden-Eindeutigkeit Maskieren Sie niedrig-mappbare Bins/Sonden; annotieren Sie Segmente mit aufrufbaren Flags; erfordern Sie stärkere Beweise für die Interpretation.
Basisverschiebungen unterscheiden sich zwischen den Durchläufen. Chargenebene Verschiebungen batchbewusste Referenzen; Kohorten ausbalancieren; konsistente Kontroll-/Referenzproben pro Batch einbeziehen
Replikate stimmen bei großen Ereignissen nicht überein. Beispiel für QC oder Instabilität der Pipeline Audit-Mapping und Abdeckungsuniformität; Überprüfung der Segmentierungsparameter; Untersuchung von Probenwechseln/Metadatenabweichungen.
Gene-Ebene-Aussagen stimmen nicht mit Segmentbeweisen überein. Missverständnis der Resolution Berichtsteil zuerst; erstellen Sie Zusammenfassungen der Genüberlappungen nur mit ausreichenden unterstützenden Bins/Proben; verknüpfen Sie die Interessengruppen mit der Erklärung zur Lösung.

6. Entscheidungsrahmen: Wann man CNV-Calling verwenden sollte (und wann nicht)

Unten finden Sie eine praktische Methode zur Auswahl, die für interdisziplinäre Teams (Wet-Lab + Bioinformatik + Programm-Operations) entwickelt wurde. Verwenden Sie sie, um eine "Erstwahl"-Plattform auszuwählen und die Erwartungen abzustimmen. effektive Lösung, Durchsatz und nachgelagerte WiederverwendungBestätigen Sie dann die Wahl mit einem kleinen Pilotprojekt, das die QC-Dispersion, die GC-Rückstände und die Segmentstabilität unter der Nachbearbeitung misst.

Schnelle Methodenauswahl (30-Sekunden-Vorauswahl)

Ziel / Einschränkung Beste Erstwahloption Warum es passt Achten Sie auf
Sehr große Kohorten; Kosten + Durchsatz priorisiert; genomweite Basislinie LP-WGS CNV (Read-Tiefe zuerst) skalierbar, wiederverwendbar, binning/QC einstellbar Die effektive Auflösung ist QC-begrenzt; das Chargendesign ist wichtig.
Standardisierte Genotypisierung + CNV aus Intensität/BAF in Kohorten SNP-Arrays (LRR/BAF) reife Arbeitsabläufe, stabile Konventionen Lücken prüfen; Batch-Intensitätsverschiebungen
Gezielte Loci-Panels; CN innerhalb definierter Regionen Gezielte Sequenzierung Ressourcen auf interessante Orte konzentrieren Erfassungsbias; ungleiche Berichterstattung; Lückenwirkungen
Benötige breakpoint-reiche strukturelle Kontexte Sequenzierung mit Breakpoint-Evidenz (designabhängig) kann Split-Reads/discordante Beweise hinzufügen Wiederholungsregionen bleiben schwierig; benötigen sorgfältige Kartierung/QC.

Wenn die CNV-Analyse eine starke RUO-Anpassung ist.

  • Kohorten-Baseline-Screening für bevölkerungsweite Forschungsdatenbanken und Wiederverwendung
  • Zelllinien-/Modell-QC und Driftüberwachung über Durchgänge/Partien
  • Charakterisierung von präklinischen Onkologie-Modellen, wo die Instabilität der Kopienzahl Teil der Modellbiologie ist

Wann die CNV-Erkennung wahrscheinlich frustrierend sein wird

  • Sie benötigen präzise Breakpoints in wiederholungsreichen Regionen unter Verwendung spärlicher Signale.
  • Sie benötigen hochgradig vertrauenswürdige, sehr kleine Ereignisse ohne ausreichende Tiefen-/Binning-Strategie.
  • Sie können die Batchstruktur und das Referenzdesign nicht steuern oder modellieren.

Eine praktische "Go/No-Go"-Checkliste für Programmleiter:

  • Können Sie einen aufrufbaren Regionsmasken und QC-Akzeptanz definieren?
  • Können Sie Batch-Effekte ausgleichen oder zumindest modellieren?
  • Können Sie die Ergebnisse standardisieren, damit nachgelagerte Teams die Ergebnisse nicht ad hoc neu interpretieren?

7. Häufige RUO-Anwendungsfälle

7.1 Hochdurchsatz-Kohorten-Screening / Grundlagen der Populationsgenomik

Für große Kohorten lauten die operativen Ziele:

  • vorhersehbarer Durchsatz,
  • niedrige Wiederholungsrate,
  • stabile QC-Durchsatzraten,
  • und Datenwiederverwendung in zukünftigen Analysen.

Früh definieren:

  • CNV-Größen, die Sie zu erkennen versuchen,
  • QC-Metriken, die die Akzeptanz definieren,
  • und die benötigten Ergebnisse für die Verbraucher (Segmente + QC-Paket + Diagramme).

7.2 Qualitätskontrolle und Driftüberwachung von Zelllinien

Ein praktisches Überwachungsmuster:

  • Basislinie CN-Profil in frühem Passage.
  • periodische Neuprofilierung nach wesentlichen Prozessänderungen,
  • Alarmregeln, die an großflächige Veränderungen gebunden sind, anstatt an einmalige Fokusanrufe.

Die Standardisierung von Plattformen und Berichterstattung verbessert die Vergleichbarkeit über die Zeit; halten Sie die Erwartungen an den Workflow und die Ergebnisse konsistent mit den Fähigkeiten Ihrer Plattform (siehe Plattformübersicht).

7.3 Präklinische Onkologie-Modelle (Kopienzahlinstabilität und CNA-Interpretation)

In der präklinischen Onkologie-Forschung und -Entwicklung werden CN/CNA-Profile verwendet, um:

  • Vergleichen Sie Lose und Durchgangsverläufe,
  • interpretieren Sie Veränderungen auf Pfad-Ebene unter Selektion,
  • Modellvergleichbarkeit zwischen den Teams kommunizieren.

Für DNA- vs. Expressionsrahmen in CN-Interpretationsabläufen siehe Validierung von RNA-Seq CNV: Warum DNA-Sequenzierung unerlässlich ist.

8. Häufig gestellte Fragen (FAQ)

CNV steht für "Copy Number Variation" und bezeichnet Unterschiede in der Anzahl von Kopien bestimmter DNA-Abschnitte zwischen Individuen.
Ein CNV ist ein Änderung der DNA-Kopienzahl eines genomischen Bereichs, dargestellt als ein Segment mit einem abgeleiteten CN-Zustand im Verhältnis zu einer Referenzbasislinie.

Ist die Kopienzahl eine Eigenschaft des Gens oder eine Eigenschaft des Segments?
Es ist hauptsächlich ein Segmenteigenschaft unterstützt durch Bins/Proben/Reads; genebasierte Zusammenfassungen sind abgeleitete Annotationen.

3) Wie unterscheidet sich CNV von Aneuploidie?
Aneuploidie bezieht sich auf Ganzchromosom oder große Arm Gewinne/Verluste; CNVs können fokal oder groß sein, werden jedoch oft als regionale Segmente beschrieben.

4) Welche Signale verwenden Arrays für die CNV-Erkennung?
Arrays basieren auf intensitätsbasierten CN-Proxys und allelischen Signalen (LRR/BAF), die ausdrücklich in klassischen Array-CNV-Methoden wie PennCNV verwendet werden (siehe Ref. 2).

5) Welche Signale verwendet die Sequenzierung?
Die Sequenzierung von CNV-Calls wird häufig verwendet. Lese-TiefeEinige Pipelines integrieren allelischen Inhalt und Beweis für Brüche, abhängig von den Daten und dem Design. cn.MOPS und Control-FREEC sind repräsentative Methoden (siehe Ref. 3–4).

6) Warum erscheinen CNV-Artefakte in GC-reichen oder GC-arme Regionen?
GC-Bias verzerrt die Lesetiefe; Korrekturen und Residualprüfungen sind in sequenzierungsbasierten CNV-Pipelines unerlässlich.

7) Was sollte ich anfordern, wenn ich die CNV-Analyse auslagere?
Mindestens: Segmenttabelle + QC-Paket (Dispersion, GC-Rückstände, abrufbare Fraktion) + Diagramme + dokumentiertes Referenzdesign und Maskierungsrichtlinie.

Kann die Exom-Sequenzierung die Inferenz von CNVs unterstützen?
Es kann, aber die Ungleichmäßigkeit der Abdeckung und der Erfassungsbias können die CN-Inferenz komplizieren. Wenn Sie exom-abgeleitete CN verwenden, seien Sie explizit bezüglich der aufrufbaren Intervalle und der Validierungsstrategie. Für Sequenzierungsoptionen siehe Whole Exome Sequencing: Gesamtes Exom-Sequenzierung.

Referenzen:

  1. Hastings PJ, Lupski JR, Rosenberg SM, Ira G. "Mechanismen der Veränderung der Genkopienzahl." Nat Rev Genet (2009). DOI: 10.1038/nrg2593
  2. Wang K, Li M, Hadley D, et al. "PennCNV: ein integriertes Hidden-Markov-Modell, das für die hochauflösende Erkennung von Kopienzahlvariationen in SNP-Genotypisierungsdaten des gesamten Genoms entwickelt wurde." Genomforschung (2007). DOI: 10.1101/gr.6861907
  3. Klambauer G, Schwarzbauer K, Mayr A, et al. "cn.MOPS: Mischung von Poisson-Verteilungen zur Entdeckung von Kopienzahlvariationen in Next-Generation-Sequenzierungsdaten mit einer niedrigen falsch-positiven Entdeckungsrate." Nukleinsäurenforschung (2012). DOI: 10.1093/nar/gks003
  4. Boeva V, Popova T, Bleakley K, et al. "Control-FREEC: ein Werkzeug zur Bewertung von Kopienzahl und allelischem Inhalt unter Verwendung von Next-Generation-Sequencing-Daten." Bioinformatik (2012). DOI: 10.1093/bioinformatics/btr670
  5. Talevich E, Shain AH, Botton T, Bastian BC. "CNVkit: Genomweite Erkennung und Visualisierung von Kopienzahlen aus gezieltem DNA-Sequencing." PLOS Computational Biology (2016). DOI: 10.1371/journal.pcbi.1004873
  6. "Biaskorrekturen für GC, Wiederholungen und Ziel-Dichte" cnvkit.readthedocs.io/de/stable/bias.html
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben