Analyse von Kopienzahlvariationen (CNV)

Kurze Übersicht

01 Was ist die Kopienzahlvariation (CNV)? 02 CNV-Analyse durch Sequenzierung 03 CNV-Erkennung in der Krebsforschung 04 CNV-Analyse: Eine Schritt-für-Schritt-Anleitung 05 Datenbanken für die Analyse von Kopienzahlvariationen

Was ist die Kopienzahlvariation (CNV)?

Die Kopienzahlvariation (CNV) ist eine Art von genomischer struktureller Variation, die Veränderungen in der Anzahl der Kopien eines bestimmten DNA-Segments umfasst. Diese Variationen werden allgemein in zwei Ebenen basierend auf ihrer Größe kategorisiert: mikroskopisch und submikroskopisch.

Mikroskopische genomische strukturelle Variationen sind unter dem Mikroskop sichtbar und umfassen chromosomale Aberrationen wie Aneuploidie, Deletionen, Insertionen, Inversionen, Translokationen und Störungen an fragilen Stellen. CNV äußert sich in verschiedenen Formen im Genom, einschließlich gleichzeitiger Deletion von Kopien auf beiden homologen Chromosomen, Deletion auf einem homologen Chromosom, während das andere normal bleibt, und Duplikation von Kopien auf einem homologen Chromosom, während das andere normal bleibt.

Types of copy number variants (CNVs). (Mollon et al., 2023) Arten von Kopienzahlvarianten (CNVs). (Mollon et al., 2023)

Andererseits treten submikroskopische genomische strukturelle Variationen auf der Ebene von DNA-Fragmenten im Bereich von 1Kb bis 3Mb auf. Diese Variationen umfassen Deletionen, Insertionen, Duplikationen, Umstellungen, Inversionen und Veränderungen in der DNA-Kopienzahl, die zusammen als CNV bezeichnet werden.

Ursprünglich in den Genomen von Patienten entdeckt, wurden CNVs auch in normalen menschlichen Populationen als verbreitet befunden, was auf ein Spektrum klinischer Bedeutung hinweist, das von benign bis pathogen oder unbekannt reicht. Der genaue Mechanismus hinter der Bildung von CNVs bleibt unklar, aber mögliche Mechanismen umfassen nicht-allelische homologe Rekombination (NAHR) und nicht-homologe Endverknüpfung (NHEJ).

Modernste Technologien wie Hochdurchsatz-Sequenzierung und Langlese-Sequenzierung, die von CD Genomics eingesetzt werden, erleichtern die Erkennung von CNV und Genotypisierung. Dieser fortschrittliche Sequenzierungsansatz ermöglicht eine umfassende und effiziente Untersuchung genetischen Materials und liefert wertvolle Einblicke in die molekulare Landschaft und potenzielle Biomarker, die mit verschiedenen Erkrankungen in Verbindung stehen.

CNV-Analyse durch Sequenzierung

Die Bestimmung der Kopienzahl von Zielfragmenten durch Sequenzierung der Lesetiefe stellt eine leistungsstarke Methode dar, die in der Lage ist, gleichzeitig Multi-Gen-CNVs und andere Biomarker zu erkennen. Die Wirksamkeit dieses Ansatzes wird jedoch von einer Vielzahl von Faktoren beeinflusst, darunter das Design des Panels, der GC-Gehalt der Sonden, der Tumorgehalt und die Kontaminationsniveaus, die alle die Genauigkeit des Algorithmusmodells beeinflussen.

Short-Read- und Long-Read-Sequenzierung bieten einen umfassenden Überblick über genomische Veränderungen und ermöglichen es Forschern, Kopienzahlvariationen präzise zu erkennen. Durch die Analyse der Lesetiefe über Zielfragmente hinweg können Forscher Veränderungen in der Kopienzahl aufdecken und so das genomische Landschaft von Interesse beleuchten.

Trotz seines Potenzials hängt die Effektivität der Sequenzierung von einer sorgfältigen Berücksichtigung verschiedener Faktoren ab. Das Design des Panels spielt eine entscheidende Rolle bei der Bestimmung der Interessensgebiete und der Gewährleistung einer umfassenden Abdeckung des Genoms. Ebenso beeinflusst der GC-Gehalt der Sonden die Effizienz der Zielerfassung und Sequenzierung, was die Genauigkeit der Bestimmung der Kopienzahl beeinflusst.

CNV-Erkennung in der Krebsforschung

Tumoren sind komplexe Manifestationen genomischer Anomalien, die aus einer Kaskade von Mutationen innerhalb der somatischen Zellen entstehen. Unter diesen Mutationen stechen Copy Number Variationen (CNVs) in Tumormustern als entscheidende Akteure hervor. In normalen somatischen Zellen ist das Genom diploid; jedoch erfahren in Tumorzellen bestimmte genomische Regionen Kopienzahlveränderungen oder -deletion, die die ursprüngliche genomische Landschaft in einem Größenbereich von etwa 50 bp bis 1 Mb verändern.

Deletionmutationen in einigen Tumoren lösen die Aktivierung von Proto-Onkogenen aus, was zur Inaktivierung von Onkogenen führt, wie am Beispiel von RB1, P16, PTEN und anderen. Im Gegensatz dazu induzieren Amplifikationsmutationen die Aktivierung von Proto-Onkogenen und Onkogenen, wie MYC, HER2, EGFR. Diese Gene sind eng in verschiedene Signalwege eingebunden, die entscheidend für die Entwicklung und Regulierung zellulärer Prozesse sind. Sie haben einen erheblichen Einfluss auf Zellwachstum, Proliferation, Metastasenbildung und Rückfälle.

Die Erkennung von tumorspezifischen CNVs bietet nicht nur Einblicke in die molekularen Grundlagen der Tumorentstehung, sondern beschleunigt auch die Entdeckung neuer Tumor-Protogenes und Onkogene. Dieses Wissen wird von unschätzbarem Wert im Streben nach effektiven therapeutischen Interventionen gegen Tumoren. Solche Studien ebnen den Weg für eine gezielte Therapie bei Tumorpatienten, die es Klinikern ermöglicht, personalisierte Behandlungen basierend auf individuellen Kopienzahlvariationen anzupassen. Zum Beispiel zeigen Medikamente wie Trastuzumab und Patozumab eine verbesserte Wirksamkeit bei metastasierendem Brustkrebs, der durch eine Überexpression des HER2-Gens gekennzeichnet ist.

Identification of copy number variation-driven enhancers in breast cancer. (Zhao et al., 2022) Identifizierung von durch Kopienzahlvariationen getriebenen Enhancern bei Brustkrebs. (Zhao et al., 2022)

CNV-Analyse: Eine Schritt-für-Schritt-Anleitung

Die Durchführung einer Analyse von Copy Number Variation (CNV) ist ein mehrstufiger Prozess, der von der Datenvorbereitung bis zur Identifizierung und Annotation von CNVs reicht. Im Folgenden finden Sie einen umfassenden Leitfaden, der das Standardverfahren für die CNV-Analyse umreißt, wobei die von der Sequenzierungsfirma bereitgestellte fq.gz-Datei verwendet wird:

Datenaufbereitung und Qualitätskontrolle

Beginnen Sie damit, die fq.gz-Datei zu entpacken, um die Rohsequenzierungsdaten im FASTQ-Format zu erhalten.

Bewerten Sie die Qualität der Sequenzierungsdaten mithilfe von Qualitätskontrollwerkzeugen wie FastQC. Überprüfen Sie Parameter wie Basenqualitätswerte, Verteilung der Sequenzqualität und GC-Gehalt, um die Datenintegrität sicherzustellen.

Ausrichtung an einem Referenzgenom

Ordnen Sie Sequenzierungsreads einem Referenzgenom zu, indem Sie Alignment-Tools wie BWA oder Bowtie verwenden.

Prozessausrichtungsresultate unter Verwendung von Tools wie SAMtools für die Formatkonvertierung (SAM zu BAM), Sortierung und Duplikatentfernung zur Optimierung der nachgelagerten Analyse.

Lesen Sie die Abdeckungsanalyse

Berechnen Sie die Lese-Segmentabdeckung für jede genomische Region basierend auf den Ausrichtungsresultaten.

Nutzen Sie Werkzeuge wie BEDTools, um Abdeckungsdateien zu erstellen, die eine präzise Charakterisierung von genomischen Regionen ermöglichen.

CNV-Erkennung

Verwenden Sie CNV-Erkennungstools wie CNVnator, DELLY oder LUMPY, um Abdeckungsdaten zu analysieren.

Identifizieren Sie Kopienzahlvariationen, indem Sie die Abdeckungsinformationen der Lesesegmente, die Paarungsinformationen und/oder gespaltene Reads nutzen.

Ergebnisfilterung und Annotation

Filtern Sie CNV-Ergebnisse basierend auf vordefinierten Kriterien wie CNV-Qualität, Größe und Häufigkeit, um Genauigkeit zu gewährleisten.

Verwenden Sie funktionale Annotationswerkzeuge wie ANNOVAR oder VEP, um erkannte CNVs zu annotieren und Einblicke in ihre biologische Bedeutung zu erhalten.

Datenbanken zur Analyse von Kopienzahlvariationen

UCSC-Genombrowser

Der UCSC Genome Browser ist ein Grundpfeiler in der Analyse von Kopienzahlvarianten und bietet unverzichtbare Werkzeuge wie den Genome Browser und die LiftOver-Funktion.

Der UCSC Genome Browser dient als vielseitiges virtuelles Mikroskop und ermöglicht eine nahtlose Navigation durch genomische Daten mit interaktiven grafischen Darstellungen. Seine benutzerfreundliche Oberfläche vereinfacht die Erkundung genomischer Landschaften und macht den Datenabruf schneller, zugänglicher und zuverlässiger. Durch die Zusammenführung einer Vielzahl von Genomannotationsdaten befähigt dieser Browser Forscher, tief in die Komplexität des menschlichen Chromosomen-Genoms einzutauchen, bis hin zu den Feinheiten einzelner Nukleotide. Wie unten dargestellt, können Benutzer ihre Abfrageinformationen in das vorgesehene Fenster eingeben, wobei das Anzeigefenster für Annotationen die Ergebnisse in einem intuitiven grafischen Format präsentiert.

DECIPHER-Datenbank

Die DECIPHER-Datenbank ist ein Grundpfeiler im Bereich der Bioinformatik, insbesondere in der molekularen Genetik. Sie dient als unschätzbare Ressource für Forscher, die umfassende Informationen über genetische Erkrankungen suchen, einschließlich Mutationsloci, klinischer Phänotypen und mehr. Derzeit beherbergt DECIPHER Daten von 44.153 Patienten und bietet ein reichhaltiges Repository genetischer Erkenntnisse.

Benutzer können die Datenbank leicht durchsuchen, um eine Vielzahl von Informationen über genetische Erkrankungen zu erkunden, einschließlich 65 Mikrodeletionen und Mikroduplikationssyndromen, die mit Entwicklungsstörungen verbunden sind, sowie 786 Genstörungen, die sorgfältig in GeneReviews dokumentiert sind. Jeder Eintrag bietet eine detaillierte Beschreibung der Erkrankung, Fragmentgröße, Literaturverweise und umfassende Informationen über die zugehörigen Gene, Varianten und Phänotypen.

Abfrage von grundlegenden Krankheitsinformationen innerhalb von Segmenten mit Kopienzahlvarianten

Forscher können die DECIPHER-Datenbank nutzen, um schnell grundlegende Krankheitsinformationen innerhalb von Segmenten mit Kopienzahlvarianten abzufragen, wie z. B. CNV-Syndrome und GeneReviews. Die Datenbank ermöglicht eine effiziente Abfrage relevanter Daten und unterstützt die Aufklärung genetischer Störungen und ihrer zugrunde liegenden molekularen Mechanismen.

Kopienzahlvarianten Anzahl der protein-codierenden Gene innerhalb einer Fragmentabfrage

Der dritte Abschnitt des CNV-Bewertungstools in den neuen ACMG-Richtlinien basiert auf der Anzahl der protein-kodierenden Gene innerhalb eines Segmentes mit Kopienzahlvarianten, um unterschiedliche Punktzahlen zuzuweisen. Die DECIPHER-Datenbank bietet eine nahtlose Plattform zur Abfrage dieser entscheidenden Informationen und ermöglicht es Forschern, fundierte Entscheidungen zu treffen. Standardmäßig arbeitet DECIPHER mit der Genomversion GRGh38, mit Möglichkeiten zur Umwandlung, falls die bewerteten Fragmente eine andere Genomversion verwenden. Vorsicht ist geboten, wenn Segmente mit Genclustern oder -familien bewertet werden. In Fällen, in denen die klinische Bedeutung einer Genfamilie unklar ist, kann jede Familie als ein Gen betrachtet werden. Allerdings sollten Gene mit bekannter klinischer Relevanz oder klaren Krankheitsassoziationen separat gezählt werden, um die Genauigkeit in der genetischen Analyse und Interpretation sicherzustellen.

ClinGen-Datenbank

ClinGen ist eine wichtige Ressource, die großzügig von den National Institutes of Health (NIH) finanziert wird und sich der umfassenden Aufbereitung von Erkenntnissen über die klinische Relevanz von Genen, Varianten und Krankheiten widmet, mit einem besonderen Fokus auf die Förderung der Forschung zur präzisen Medizin. In unserem Bestreben, Kopienzahlvariationen (CNVs) zu verstehen, treten zwei unverzichtbare Werkzeuge von ClinGen hervor: die ClinGen-Dosage Sensitivity und der ClinGen CNV Pathogenicity Calculator.

Die Nutzung von ClinGen-Dosage Sensitivity ist von größter Bedeutung in der CNV-Analyse, insbesondere bei der Bewertung, ob CNVs eindeutig oder voraussichtlich mit Genen oder Regionen überlappen, die einzelne Unterdosiseffekte (triple dose-sensitive effects) zeigen, oder umgekehrt, als eindeutig harmlos gelten. Dieser kritische Schritt bildet den zweiten Teil des CNV-Bewertungstools, das in den neuen ACMG-Richtlinien skizziert ist, und unterstützt Forscher dabei, die klinische Bedeutung identifizierter CNVs zu erkennen.

Die robuste Infrastruktur von ClinGen ermöglicht es Forschern, mit den notwendigen Werkzeugen die komplexe Landschaft der CNV-Analyse präzise und mit Vertrauen zu navigieren. Durch die Nutzung von ClinGen-Dosage Sensitivity erhalten Forscher Zugang zu kuratierten Daten, die entscheidend sind, um fundierte Entscheidungen über die klinischen Implikationen von CNVs zu treffen.

Referenzen:

Mollon, Josephine, et al. "Der Beitrag von Kopienzahlvarianten zu psychiatrischen Symptomen und kognitiven Fähigkeiten." Molekulare Psychiatrie 28.4 (2023): 1480-1493.
Zhao, Hongying, et al. "Identifizierung von enhancer-gesteuerten, subtype-spezifischen prognostischen Markern bei Brustkrebs basierend auf Multi-Omics-Daten." Grenzen der Immunologie 13 (2022): 990143.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.

Verwandte Dienstleistungen