Was ist die Kopienzahlvariation (CNV)? Ein Leitfaden für die genomische Forschung
Die Kopienanzahlvariation (CNV) ist eines dieser Konzepte, das einfach klingt – „mehr oder weniger Kopien“ – bis ein Hochdurchsatzprogramm versucht, es über Tausende von Proben, mehrere Chargen und mehrere nachgelagerte Anwendungen zu standardisieren. Dieser Leitfaden ist geschrieben für RUO (Nur für Forschungszwecke) Genomik-Workflows: Screening von Kohorten in Bevölkerungsgröße, Plattform-QC, Überwachung von Zelllinienabweichungen und Charakterisierung präklinischer Modelle. Es konzentriert sich auf klare Definitionen, was die Signale tatsächlich bedeuten, praktische Qualitätskontrolle/Fehlerbehebung und auslagerungsfähige Ergebnisse.
Wenn Sie zwischen Plattformen wählen, vergleichen Sie. LP-WGS vs. Mikroarrays für skalierbares CNV-ScreeningFür präklinische Onkologie-F&E-Modelle (z. B. Zelllinien und Forschungs-Xenograft-Modelle) sowie die Interpretation von CNA siehe dies. Leitfaden zur präklinischen CNA-Profilierung.
1. CNV auf einer Seite: Definitionen, die Sie tatsächlich benötigen
Ein Kopienzahl ist ein Zustand einem genomischen Intervall zugewiesen: CN=0, 1, 2, 3, 4+ (und manchmal höher), abhängig von dem Test und dem Aufrufmodell. A CNV ist eine Änderung in diesem Zustand relativ zu einer gewählten Referenzbasislinie – am häufigsten CN=2 für diploide Regionen in einem standardmäßigen Referenzkontext.
In der Praxis werden CNVs als dargestellt Segmente (chromosom, start, ende, länge, abgeleiteter CN-zustand, vertrauen/QC) anstelle von Einzelbasisereignissen. Diese segmentale Realität ist der Schlüssel zur Reproduzierbarkeit und QC-Fähigkeit von CNV-Calls in großen Programmen. Eine klassische Übersicht fasst die wichtigsten Mechanismen und wiederkehrenden Muster von Kopienzahlveränderungen zusammen (siehe Ref. 1).
1.1 Was "Kopienzahl" bedeutet (Genebene vs. Segmentebene)
Selbst wenn Ihre biologische Frage genzentriert ist, ist die Messung fast immer segmentzentriert:
- Segmentebene CNV"chr7: 55,20–55,45 Mb; CN≈1 (Verlust)"
- Zusammenfassung der Genüberlappung"Segment überlappt GENE1 Exons; Zusammenfassung auf Genebene = verlustähnlich"
Warum das wichtig ist:
- Arrays messen die Intensität und allelischen Signale bei Sonden.
- Sequenzierungsmaßnahmen messen die Lesetiefe und (manchmal) das Allelgleichgewicht über bins/Fenster.
- Beide implizieren ein Segment "Genebasierte CN" ist normalerweise ein abgeleitet Annotation, keine primäre Messung.
Abbildung 1. Segmentebene Kopienzahlzustände und Genüberlappung. Die Kopienzahl wird genomischen Intervallen (Segmenten) nach Normalisierung und Segmentierung zugewiesen; die genebasierte "CN" ist typischerweise eine abgeleitete Annotation, die auf Überlappungen und unterstützenden Bins/Sonden basiert.
Wenn Ihr Basisprogramm Arrays verwendet, beginnen Sie in der Regel mit einem konsistenten SNP-Array-Wet-Lab- und QC-Vertrag, damit die Variation zwischen den Proben nicht von Workflow-Geräuschen dominiert wird. Für Hochdurchsatz-Kohortenarbeiten siehe SNP-Mikroarray.
1.2 CNV vs CNA vs Aneuploidie
Diese Begriffe werden im alltäglichen Gebrauch oft vermischt. In der RUO-Praxis ist es hilfreich, sie klar zu halten:
- CNV (Kopienzahlvariation)eine Veränderung der Kopienzahl in einem genomischen Bereich (Löschung/Duplikation/Amplifikation), die allgemein in der Populations- und Modelforschung verwendet wird.
- CNA (Kopienzahlveränderung)häufig verwendet in präklinisches Onkologie-Modell Kontexte zur Hervorhebung von Kopienzahlveränderungen, die mit Genominstabilität, Subklonalität und Kulturauswahl verbunden sind.
- Aneuploidie: ganzer Chromosom oder großer Chromosomenarm Gewinn/Verlust – großflächige Kopienzahlverschiebungen, die sich von fokalen CNVs unterscheiden.
Ein praktischer Rahmen: CNV ist die allgemeine Messung.CNA ist ein Kontextlabel, das in der Onkologie-Modellanalyse stark verwendet wird, und Aneuploidie ist ein großangelegtes, karyotypähnliches Ergebnis.
1.3 Typische CNV-Klassen: Deletionen, Duplikationen, Mehrfachkopien-Amplifikationen
Die meisten CNV-Pipelines berichten:
- LöschungenCN=0 (homozygotähnlicher Verlust), CN=1 (Einzelkopieverlust)
- Duplikate: CN=3 (Einzelkopiegewinn)
- VerstärkungenCN≥4 (Mehrfachkopiegewinn; oft zusammengefasst als "CN=4+" in grober Screening)
Ob Sie CN=4 zuverlässig von CN=5 (und höher) unterscheiden können, hängt von der Signalmodell und Datenqualität. Bei Hochdurchsatz-Screenings ist es oft robuster, zu berichten grobe Staaten (z.B. "CN=4+") plus Vertrauen/QC anstelle von übergenauen Ganzzahlen.
2. Wie CNVs entstehen und warum sie in der Forschung wichtig sind
CNVs können durch mehrere Mechanismen entstehen, die die Genomarchitektur (Wiederholungen, segmentale Duplikationen) mit Rekombinations-/Replikations-/Reparaturprozessen verbinden. Klassische Synthesearbeiten betonen, dass eine Veränderung der Kopienzahl kein seltener Ausnahmefall ist – sie ist ein häufiges Ergebnis dafür, wie Genome sich erhalten und umstrukturieren (siehe Ref. 1).
2.1 Mechanismen (hohe Ebene): NAHR, Replikationsfehler, Umstellungen
Ein häufig gelehrter Mechanismus ist nicht-allelische homologe Rekombination (NAHR), wo Rekombination zwischen ähnlichen Sequenzen auftritt, die keine Allele sind, und häufig wiederkehrende Deletionen/Duplikationen in wiederholungsreichen Regionen produziert (siehe Ref. 1).
Auf operativer Ebene ist der Mechanismus wichtig, weil er vorhersagt:
- wiederkehrende Hotspots (wiederholungs-/duplikationsreiche Loci),
- schwer zu bestimmende Regionen (geringe Kartierbarkeit für kurze Reads; geringe Proben-Eindeutigkeit für Arrays),
- und warum die Definitionen von "aufrufbaren Regionen" explizit sein müssen.
2.2 Funktionale Auswirkungen: Dosiseffekt, Wegverschiebungen, phänotypische Variabilität (nicht immer linear)
CNVs können die biologische Funktion beeinflussen durch Dosierung (mehr oder weniger Kopien), die die Expression und nachgelagerte Phänotypen verändern können. Aber die Beziehung ist häufig kontextabhängig und nichtlinear—Regulation, Pufferung, epigenetischer Zustand und Pfadstruktur modulieren alle das Ergebnis (siehe Ref. 1).
Abbildung 2. Dosierungseffekte sind kontextabhängig. Die Kopienzahl kann die Expression und nachgelagerte Phänotypen beeinflussen, aber Pufferung, Regulation und epigenetischer Zustand können die Beziehung nichtlinear gestalten – behandeln Sie CNV als eine Forschungshypothese, die Nachuntersuchungen erfordert.
Bei der Planung einer RUO-Studie fördert dies eine praktische Denkweise:
- Verwenden Sie CNV-Anrufe als genomischer Kontext und QC-Signale (Baseline-Stratifizierung, Driftüberwachung).
- Behandle "Dosierung impliziert Phänotyp" als Hypothese, die mit Nachuntersuchungen getestet werden soll, anstatt als Garantie.
Wenn Sie eine Multi-Omics-Integration (CNV + Expression + epigenetischer Zustand) planen, halten Sie das gesamte Projekt an einem kohärenten Punkt verankert. Genomische Sequenzierungsstrategie (Stichproben, Tiefe, Batch-Design und Ergebnisse).
2.3 Warum CNVs in Langzeitzellkulturen und präklinischen Modellsystemen häufig sind
In langfristig kultivierten Systemen und vielen präklinischen Modellen können sich die Kopienzahlprofile unter Selektion, Stress und klonalen Dynamiken verändern. In RUO-Workflows wird die CNV-Profilierung häufig verwendet, um:
- eine Basislinie für einen "Genomzustand" für eine Modellcharge festlegen,
- Überwachen Sie Abweichungen über Abschnitte oder Prozessänderungen,
- und großflächige Instabilitäten erkennen, die nachgelagerte Experimente beeinträchtigen könnten.
3. CNV-Erkennungslandschaft: Arrays vs Sequenzierung (Signals-First)
Eine zuverlässige Methode, um Methoden zu vergleichen, besteht darin, Markennamen zu ignorieren und zu fragen: Welche Beweise verwendet die Methode?
Die meisten CNV-Anrufe stammen von einem oder mehreren der folgenden:
- Gesamtsignal (array Intensität oder Sequenzierungslesetiefe)
- Allele-Balance-Signale (z.B. BAF)
- Breakpoint-Beweis (discordante Paare, Split-Reads, lokale Assemblierungs-Signale)
Abbildung 3. Evidenzsignale, die für die CNV-Erkennung nach Methode verwendet werden. Arrays basieren auf Intensität (LRR) und allelischem Gleichgewicht (BAF), während Sequenzierung die Lesetiefe betont und je nach Design allelische/Breakpoint-Beweise hinzufügen kann; die Wahl der Methode ist ein Kompromiss zwischen Auflösung und Durchsatz.
3.1 Mikrosensoren (CMA/SNP-Arrays): Stärken und Schwächen
SNP-Arrays liefern zwei zentrale Signale:
- Log R Verhältnis (LRR)Gesamtintensitätsabweichung (Proxy für die Kopienzahl)
- B-Allel-Häufigkeit (BAF)alleleische Proportion (hilft, Muster der allelischen Ungleichgewichtung zu interpretieren)
Klassische Array-CNV-Algorithmen (z. B. PennCNV) haben formalisiert, wie man diese Signale zur CNV-Inferenz kombiniert (siehe Ref. 2).
Stärken für hochdurchsatzfähige RUO-Programme
- Reife Labor- und Analyseverfahren
- Vorhersehbare Verarbeitung pro Probe
- BAF kann eine zusätzliche Struktur über die gesamte Intensität hinaus bieten.
Typische blinde Flecken
- Untersuchung von Abdeckungsdefiziten oder schlecht funktionierenden Sonden in spezifischen genomischen Kontexten
- Segmentgrenzen, die durch die Dichte der Sonden begrenzt sind
- Batch-Effekte, die sich als Basisverschiebungen in der Intensität zeigen
Wenn Sie eine standardisierte Durchführung von Wet-Lab-Experimenten und konsistente Ergebnisse über große Kohorten hinweg benötigen, zentralisieren Sie die Durchführung über Mikroarray-Dienste kann die Standort-zu-Standort-Variabilität verringern.
3.2 Sequenzierungsbasierte CNV: Lesetiefe, allelischer Gehalt, Bruchpunktsignale
Sequenzierungsbasierte CNV beginnt oft mit Lese-Tiefe
- bin/Fenster das Genom,
- Zähle die Lesevorgänge pro Bin,
- normalisieren (GC/Kartierbarkeit),
- Segment,
- infer CN.
Eine repräsentative Methode ist cn.MOPS, welche Modelle die Zählungen über Proben hinweg auswerten, um CNVs mit kontrollierten falsch positiven Entdeckungen zu identifizieren (siehe Ref. 3).
Wenn die Sequenzierung die Genotyp-Inferenz unterstützt (oder genügend Signal für allelbewusste Ansätze bietet), integrieren einige Werkzeuge den allelischen Inhalt. Control-FREEC ist ein bekanntes Beispiel, das die Kopienzahl und den allelischen Gehalt aus NGS-Daten schätzt (siehe Ref. 4).
Die Korrektur von Verzerrungen ist zentral: GC-Verzerrungen und Wiederholungs-/Abbildbarkeitseffekte können die Lesetiefe verzerren. Das Benutzerhandbuch von CNVkit bietet einen praktischen Überblick über Verzerrungsquellen und Korrekturstrategien, die in realen Pipelines verwendet werden.
Wenn Ihr CNV-Programm sequenzierungsorientiert ist, ist das gängige Dienstleistungsmodell normalerweise Whole-Genome-Sequenzierung zur CNV-Profilierung kombiniert mit einem Analysevertrag, der CNV-Ausgaben und QC-Diagramme spezifiziert.
3.3 Warum niederfrequente WGS zunehmend für skalierbares Screening verwendet wird
Für das Screening von CNVs im Kohortenmaßstab, Niederfrequenz-WGS (LP-WGS) ist beliebt, weil es die Messung über das gesamte Genom verteilt und durch Folgendes angepasst werden kann:
- Tiefe,
- Bin-Größe,
- Referenzdesign,
- und QC-Schwellenwerte.
Der praktische Punkt: In LP-WGS, Die effektive Auflösung ist durch die Qualitätskontrolle begrenzt., nicht marketing-begrenzt. Sie werden bessere Ergebnisse erzielen, indem Sie Folgendes ausdrücklich definieren:
- Welche Größen beabsichtigen Sie zu nennen?
- Welche Regionen sind anrufbar?
- Welche Vertrauensmetriken sind erforderlich?
- und wie die Chargen strukturiert sind.
Wenn Sie zwischen Plattformen wählen, vergleichen Sie. LP-WGS vs. Mikroarray für skalierbares CNV-ScreeningWenn Ihr Team Implementierungsdetails für die LP-WGS CNV-Erkennung benötigt, siehe Bioinformatik für Low-Pass WGS: Implementierung von cn.mops & Pipelines.
4. Interpretation von CNV-Ergebnissen in RUO-Workflows
Der größte Fehler in CNV-Programmen ist nicht der Anrufer – es ist die Interpretationsabweichung: Verschiedene Teams interpretieren dieselbe Segmentliste unterschiedlich. Sie verhindern das, indem Sie standardisieren, was "Auflösung", "Vertrauen" und "Aufrufbarkeit" bedeuten.
4.1 Was "Auflösung" wirklich bedeutet (Bin-Größe, Proben-Dichte, aufrufbarer Bereich)
In der RUO-Praxis, Die Auflösung ist keine einzelne Zahl.Es ist die Schnittmenge von:
- Messgranularität: Abstand der Sonden (Arrays) oder Bin-/Fenstergröße (Sequenzierung)
- Aufrufbare RegionWelche Teile des Genoms sind analysierbar, unter Berücksichtigung von Einzigartigkeit/Kartierbarkeit und QC-Filter?
- RauschpegelBatch-Effekte + Bibliotheksvariabilität + Normalisierungsqualität
Eine nützliche Faustregel-Definition für Programmdokumente:
Effektive Lösung ist die kleinste CNV-Größe, die verbleibt stabil unter QC und Nachbearbeitung in Ihrer Pipeline.
Wenn Sie eine tiefere Diskussion über die Grenzen der Genebene-Interpretation im Vergleich zu chromosomalen Aufrufen wünschen, siehe Gen-Level vs. Chromosomale CNV: Verständnis von Auflösung und Grenzen.
Für Designs, die sich auf definierte Loci/Intervalle konzentrieren, gezielte Regionssequenzierung kann engere Fragen unterstützen – seien Sie einfach ausdrücklich, wie Lücken und Erfassungsbias die CN-Inferenz beeinflussen.
4.2 Häufige Artefakte: GC-Bias, Wiederholungen, Mappierbarkeitsprobleme (und wie man sie erkennt)
GC-Bias präsentiert sich oft als systematische "Wellen" in der Lesetiefe über GC-reiche oder GC-arme Regionen; eine robuste Korrektur sollte die GC–Tiefe-Trends abflachen. Die Dokumentation zur Bias-Korrektur von CNVkit fasst häufige Verzerrungen zusammen und erklärt, wie sie in der Praxis korrigiert werden.
Wiederholungen und niedrige Abbildbarkeit Ursache, dass Bins/Proben unvorhersehbar reagieren. Bei der Sequenzierung kann mehrdeutiges Mapping die Tiefe erhöhen; bei Arrays kann die Einzigartigkeit der Proben abnehmen. Dauerhafte Maßnahmen zur Minderung umfassen:
- eine aufrufbare Maske definieren,
- Ausschluss von minderwertigen Behältern/Sonden vor der Segmentierung,
- Segmente, die sich über problematische Bereiche überschneiden, als "mit Vorsicht interpretieren" kennzeichnen,
- und stärkere Nachweisgrenzen für die Interpretation in wiederholten dichten Kontexten zu verlangen.
4.3 Was zu berichten ist: Segmente, Vertrauensmetriken und auslagerungsbereite Ergebnisse
Ein nutzbares CNV-Lieferpaket im Kohortenmaßstab sollte Folgendes umfassen:
A) Kernsegmenttabellen
- chr, start, ende, länge
- abgeleiteter CN-Zustand (oder Log2-Verhältnis-Proxydaten)
- Konfidenzscore(s) oder Modellposterior
- aufrufbare-Regionen-Flags (z.B. % maskierte Basen; Überlappung mit niedriger Abbildbarkeit)
B) QC-Paket
- Probenabdeckungs-/Intensitätsstreuungsmetriken
- GC-Bias-Diagramm (vor/nach Korrektur)
- Segmentierungszusammenfassung Statistik (Anzahl der Segmente; Größenverteilung)
- Batch-Level-Vergleichsmetriken (Verteilungverschiebungen über Läufe hinweg)
C) Plots
- genomweite Profil pro Probe (oder Repräsentant)
- Chromosomenebene-Zoom-Diagramme für große Ereignisse
- Kohortenebene CNV-Belastungszusammenfassungen
Wenn Sie die CNV-Analyse auslagern, definieren Sie dies ausdrücklich. CNV-Erkennung und QC-Liefergegenstände im Rahmen des Umfangs und benötigen einen reproduzierbaren Berichtvertrag (Dateien + Metriken + Plots). Für Unterstützung bei der End-to-End-Analyse siehe Bioinformatik-Dienstleistungen.
Für große Betriebsprogramme die Aufnahme und Metadaten frühzeitig standardisieren: Muster-Einreichungsrichtlinien (PDF) enthält Eingabemetadaten und Versandanforderungen.
5. QC und Fehlersuche (Betrieblich, Schwellenwertorientiert)
Sie haben nach QC-Schwellenwerten gefragt; für CNV sind universelle absolute Schwellenwerte schwierig, da sie von Plattform, Tiefe, Binning und Kohorten-/Batch-Design abhängen. Der robusteste Ansatz in RUO-Pipelines ist verteilungsbasierte Qualitätskontrolle (vergleiche jede Probe mit den Kohortendistributionen) sowie einer kleinen Menge plattformspezifischer Prüfungen.
5.1 QC-Gates, die Sie ohne Überanpassung implementieren können
Plattformübergreifende QC-Gates
- AusreißerstreuungFlaggenproben mit ungewöhnlich hoher Bin-/Probevarianz (z. B. oberes Ende der Varianzverteilung).
- GC-Bias-RestgrößeNach der Korrektur sollte die GC-Signal-Korrelation erheblich reduziert werden (verwendet Residuen der Korrelation/Anpassung als Akzeptanzmetrik).
- SegmentgesundheitExtreme Segmentanzahlen deuten normalerweise auf Rauschen (zu viele) oder Überglättung (zu wenige) hin. Verfolgen Sie die Verteilung der Segmentanzahl pro Batch.
- Aufrufbare Fraktion: erfordern eine minimale Abdeckung des aufrufbaren Bereichs; kennzeichnen Sie niedrig aufrufbare Proben als "nur Screening / geringe Zuverlässigkeit."
- Repliziere die Übereinstimmung (Ggf. verfügbar): Großveranstaltungen sollten in technischen Replikaten reproduziert werden.
Array-spezifische Überprüfungen
- Stabiles LRR-Basismodell und BAF-Struktur (siehe Ref. 2).
Sequenzierungsspezifische Prüfungen
- Tiefe Gleichmäßigkeit und Duplikationsverhalten; konsistente Abbildungs-/Abdeckungsmuster über die Charge hinweg.
Wenn Ihr Programm vorhersehbaren Durchsatz und standardisierte upstream Ausführung für große Probenvolumina benötigt, kann die Kombination von CNV-Screening mit einem konsistenten NGS-Ausführungsworkflow hilfreich sein (z. B. Nächste Generation Sequenzierung).
5.2 Fehlersuche-Tabelle (Symptom → wahrscheinliche Ursache → Lösung)
| Symptom | Wahrscheinliche Ursache | Fix (nächste Schritte) |
|---|---|---|
| Viele kurze Segmente genomweit | hohe Geräuschentwicklung; schwache Normalisierung; Batch-Effekte | Erhöhe die Bin-Größe (Sequenzierung) oder verschärfe die Qualitätskontrolle der Sonden (Arrays); Referenz neu aufbauen; Ausreißerproben entfernen; batch-sensible Normalisierung. |
| "Wellen" Muster, die mit GC-Extremen ausgerichtet sind | residuelle GC-Bias | Neujustierung der GC-Korrektur; sicherstellen, dass die Referenzkohorte mit der Bibliothek/Charge übereinstimmt; Maskierungspolitik bestätigen. |
| Anrufe, die reich an Wiederholungen/segmentalen Duplikationen sind | niedrige Mappbarkeit/Sonden-Eindeutigkeit | Maskieren Sie niedrig-mappbare Bereiche/Sonden; annotieren Sie Segmente mit aufrufbaren Flags; erfordern Sie stärkere Beweise für die Interpretation. |
| Baseline-Offsets unterscheiden sich zwischen den Durchläufen. | Chargenebene Verschiebungen | batchbewusste Referenzen; Kohorten ausbalancieren; konsistente Kontroll-/Referenzproben pro Batch einbeziehen |
| Replikate stimmen bei großen Ereignissen nicht überein. | Beispiel für QC oder Instabilität in der Pipeline | Audit-Abgleich und Abdeckungsuniformität; Überprüfung der Segmentierungsparameter; Untersuchung von Probenwechseln/Mismatch bei Metadaten |
| Gene-Ebene Aussagen stimmen nicht mit den Segmentbeweisen überein. | Missverständnis der Resolution | Berichtsegment zuerst; leiten Sie Zusammenfassungen der Genüberlappungen nur mit ausreichenden unterstützenden Bins/Proben ab; verknüpfen Sie die Interessengruppen mit der Erklärung zur Lösung. |
6. Entscheidungsrahmen: Wann man CNV-Calling verwenden sollte (und wann nicht)
Unten finden Sie eine praktische Methode zur Auswahl, die für funktionsübergreifende Teams (Wet-Lab + Bioinformatik + Programm-Operations) entwickelt wurde. Verwenden Sie sie, um eine "Erstwahl"-Plattform auszuwählen und die Erwartungen abzugleichen. effektive Auflösung, Durchsatz und nachgelagerte WiederverwendungBestätigen Sie dann die Wahl mit einem kleinen Pilotprojekt, das die QC-Dispersion, die GC-Rückstände und die Segmentstabilität unter der Nachbearbeitung misst.
Schnelle Methodenauswahl (30-sekündige Vorabprüfung)
| Ziel / Einschränkung | Beste Erstwahloption | Warum es passt | Achten Sie auf |
|---|---|---|---|
| Sehr große Kohorten; Kosten + Durchsatz priorisiert; genomweite Basislinie | LP-WGS CNV (Read-Tiefe zuerst) | skalierbar, wiederverwendbar, binning/QC einstellbar | Die effektive Auflösung ist qualitätsbeschränkt; das Batch-Design ist wichtig. |
| Standardisierte Genotypisierung + CNV aus Intensität/BAF in Kohorten | SNP-Arrays (LRR/BAF) | reife Arbeitsabläufe, stabile Konventionen | Probe-Lücken; Batch-Intensitätsverschiebungen |
| Zielgerichtete Loci-Panels; CN innerhalb definierter Regionen | Gezielte Sequenzierung | Ressourcen auf Interessensschwerpunkte konzentrieren | Erfassungsbias; ungleiche Berichterstattung; Lückenwirkungen |
| Benötigen Sie einen breakpoint-reichen strukturellen Kontext. | Sequenzierung mit Breakpoint-Evidenz (designabhängig) | kann Split-Read/discordante Beweise hinzufügen | Wiederholungsregionen bleiben schwierig; benötigen sorgfältige Kartierung/QC. |
Wenn die CNV-Analyse eine starke RUO-Eignung hat
- Kohorten-Baseline-Screening für bevölkerungsweite Forschungsdatenbanken und Wiederverwendung
- Zelllinie/-modell-QC und Driftüberwachung über Durchgänge/Partien
- Charakterisierung von präklinischen Onkologie-Modellen, wo die Instabilität der Kopienzahl Teil der Modellbiologie ist
Wann die CNV-Erkennung wahrscheinlich frustrierend sein wird
- Sie benötigen präzise Breakpoints in wiederholungsreichen Regionen unter Verwendung spärlicher Signale.
- Sie benötigen hochkonfidente, sehr kleine Ereignisse ohne ausreichende Tiefe/Histogrammstrategie.
- Sie können die Batchstruktur und das Referenzdesign nicht steuern oder modellieren.
Eine praktische "Go/No-Go"-Checkliste für Programmleiter:
- Können Sie eine aufrufbare Regionsmaske und die QC-Akzeptanz definieren?
- Können Sie Batch-Effekte ausgleichen oder zumindest modellieren?
- Können Sie die Ergebnisse standardisieren, damit nachgelagerte Teams die Ergebnisse nicht ad hoc neu interpretieren?
7. Häufige RUO-Anwendungsfälle
7.1 Hochdurchsatz-Kohorten-Screening / Grundlagen der Populationsgenomik
Für große Kohorten lauten die operativen Ziele:
- vorhersehbarer Durchsatz,
- niedrige Wiederholungsrate,
- stabile QC-Durchsatzraten,
- und die Wiederverwendung von Daten in zukünftigen Analysen.
Früh definieren:
- CNV-Größen, die Sie zu erkennen versuchen,
- QC-Metriken, die die Akzeptanz definieren,
- und die benötigten Ergebnisse für die Verbraucher (Segmente + QC-Paket + Diagramme).
7.2 Qualitätskontrolle von Zelllinien und Driftüberwachung
Ein praktisches Überwachungsmuster:
- Basislinie CN-Profil in frühem Passage.
- periodische Neuprofilierung nach größeren Prozessänderungen,
- Alarmregeln, die an großflächige Veränderungen gebunden sind, anstatt an einmalige Fokusanrufe.
Die Standardisierung von Plattformen und Berichterstattung verbessert die Vergleichbarkeit über die Zeit; halten Sie die Workflow-Erwartungen und Ergebnisse konsistent mit den Fähigkeiten Ihrer Plattform (siehe Plattformübersicht).
7.3 Präklinische Onkologie-Modelle (Kopienzahlinstabilität und CNA-Interpretation)
In der präklinischen Onkologie-Forschung und -Entwicklung werden CN/CNA-Profile verwendet, um:
- Vergleichen Sie die Los- und Durchgangshistorien,
- interpretieren Sie Veränderungen auf Pfad-Ebene unter Selektion,
- Modellvergleichbarkeit zwischen Teams kommunizieren.
Für DNA- vs. Ausdrucksrahmen in CN-Interpretationsworkflows siehe Validierung von RNA-Seq CNV: Warum DNA-Sequenzierung unerlässlich ist.
8. Häufig gestellte Fragen (FAQ)
CNV steht für "Copy Number Variation" und bezeichnet genetische Unterschiede, bei denen die Anzahl der Kopien eines bestimmten DNA-Abschnitts zwischen Individuen variiert.
Ein CNV ist ein Änderung der DNA-Kopienzahl eines genomischen Bereichs, dargestellt als ein Segment mit einem abgeleiteten CN-Zustand im Verhältnis zu einer Referenzbasislinie.
Ist die Kopienzahl eine Gen-Eigenschaft oder eine Segment-Eigenschaft?
Es ist hauptsächlich ein Segment-Eigenschaft unterstützt durch Bins/Proben/Reads; genebene Zusammenfassungen sind abgeleitete Annotationen.
3) Wie unterscheidet sich CNV von Aneuploidie?
Aneuploidie bezieht sich auf Ganzchromosom oder große Arm Gewinne/Verluste; CNVs können fokal oder groß sein, werden jedoch oft als regionale Segmente beschrieben.
4) Welche Signale verwenden Arrays für die CNV-Erkennung?
Arrays basieren auf intensitätsbasierten CN-Proxys und allelischen Signalen (LRR/BAF), die ausdrücklich in klassischen Array-CNV-Methoden wie PennCNV verwendet werden (siehe Ref. 2).
5) Welche Signale verwendet das Sequencing?
Die Sequenzierung von CNV-Calls wird häufig verwendet. Lese-TiefeEinige Pipelines integrieren allelischen Inhalt und Bruchpunktbeweise, abhängig von den Daten und dem Design. cn.MOPS und Control-FREEC sind repräsentative Methoden (siehe Ref. 3–4).
6) Warum treten CNV-Artefakte in GC-reichen oder GC-arme Regionen auf?
GC-Bias verzerrt die Lesetiefe; Korrekturen und Residualprüfungen sind in sequenzierungsbasierten CNV-Pipelines unerlässlich.
7) Was sollte ich anfordern, wenn ich die CNV-Analyse auslagere?
Mindestens: Segmenttabelle + QC-Paket (Dispersion, GC-Rückstände, abrufbare Fraktion) + Plots + dokumentiertes Referenzdesign und Maskierungsrichtlinie.
Kann die Exom-Sequenzierung die Inferenz von CNVs unterstützen?
Es kann, aber Ungleichmäßigkeiten in der Abdeckung und Erfassungsbias können die CN-Inferenz komplizieren. Wenn Sie exom-abgeleitete CN verwenden, seien Sie explizit bezüglich der aufrufbaren Intervalle und der Validierungsstrategie. Für Sequenzierungsoptionen siehe Whole Exome Sequenzierung.
Referenzen
- Hastings PJ, Lupski JR, Rosenberg SM, Ira G. "Mechanismen der Veränderung der Genkopienzahl." Nat Rev Genet (2009). DOI: 10.1038/nrg2593
- Wang K, Li M, Hadley D, et al. "PennCNV: ein integriertes Hidden-Markov-Modell, das für die hochauflösende Erkennung von Kopienzahlvariationen in SNP-Genotypisierungsdaten des gesamten Genoms entwickelt wurde." Genomforschung (2007). DOI: 10.1101/gr.6861907
- Klambauer G, Schwarzbauer K, Mayr A, et al. "cn.MOPS: Mischung von Poisson-Verteilungen zur Entdeckung von Kopienzahlvariationen in Daten der Next-Generation-Sequenzierung mit einer niedrigen falsch-positiven Entdeckungsrate." Nukleinsäurenforschung (2012). DOI: 10.1093/nar/gks003
- Boeva V, Popova T, Bleakley K, et al. "Control-FREEC: ein Werkzeug zur Bewertung von Kopienzahl und allelischem Inhalt unter Verwendung von Daten aus der Next-Generation-Sequenzierung." Bioinformatik (2012). DOI: 10.1093/bioinformatics/btr670
- Talevich E, Shain AH, Botton T, Bastian BC. "CNVkit: Genomweite Erkennung und Visualisierung von Kopienzahlen aus gezieltem DNA-Sequencing." PLOS Computational Biology (2016). DOI: 10.1371/journal.pcbi.1004873
- "Biaskorrekturen für GC, Wiederholungen und Ziel-Dichte" cnvkit.readthedocs.io/de/stabil/bias.html
Dienste, an denen Sie interessiert sein könnten