Copy Number Variation (CNV) bezieht sich auf die Verstärkung oder Reduktion großer Segmente innerhalb eines Genoms und umfasst zwei Haupttypen: Deletion und Duplikation. Diese genomische strukturelle Variation moduliert die Plastizität eines biologischen Wesens durch Veränderungen in der Gen-Dosierung und der transkriptionalen Architektur. CNV fungiert als Grundpfeiler der genetischen Grundlagen, die zur phänotypischen Vielfalt und evolutionären Anpassung sowohl auf individueller als auch auf Populationsebene beitragen.
Innerhalb eines Genoms umfassen die Variationsformen von CNV überwiegend die Amplifikation, Deletion und mehrfachen Wiederholungen einzelner Segmente, wobei segmentale Duplikationen (SD) am häufigsten vorkommen. Charakteristisch zeigen segmentale Duplikationen über 90 % Sequenzhomologie zwischen verschiedenen Kopien. Eine vergleichende genomische Analyse innerhalb einer Art kann effektiv CNVs aufdecken, die einen erheblichen Einfluss auf den Phänotyp haben. Derzeit werden CNVs als einfügungs- oder deletionsbedingte Variationen von genomischen Sequenzen definiert, die von 50 Basenpaaren (bp) bis zu 5 Mega-Basenpaaren (Mb) reichen.
CNVs stellen eine Form von genomischen strukturellen Variationen dar, die basierend auf ihrem Maßstab in zwei Ebenen klassifiziert werden können: die sichtbare Ebene und die sub-sichtbare Ebene. Die sichtbare Ebene der genomischen strukturellen Variationen manifestiert sich hauptsächlich als chromosomale Aberrationen, die unter einem Mikroskop beobachtbar sind. Dazu gehören Polyploidien oder Aneuploidien, Deletionen, Insertionen, Inversionen, Translokationen und Varianten an fragilen Stellen unter anderen strukturellen Variationen. CNVs im Genom können in mehreren Formen auftreten: beide homologen Chromosomen zeigen gleichzeitig eine Reduktion der Kopienzahl; ein homologes Chromosom fehlt Kopien, während das andere normal ist; ein homologes Chromosom zeigt eine Verdopplung der Kopienzahl, während das andere normal ist; ein homologes Chromosom fehlt Kopien, während das andere eine Verdopplung der Kopienzahl zeigt; beide homologen Chromosomen zeigen gleichzeitig eine Verdopplung der Kopienzahl.
Auf der anderen Seite beziehen sich sub-visible genomische strukturelle Variationen auf strukturelle Variationen von DNA-Segmenten im genomischen Bereich von 1Kb-3Mb. Dazu gehören Deletionen, Insertionen, Duplikationen, Umstellungen, Inversionen und Veränderungen in der DNA-Kopienzahl, die gemeinsam als CNVs bekannt sind. Zunächst wurden CNVs in den Genomen von Patienten identifiziert. Nachfolgende Forschungen bestätigten jedoch ihre weit verbreitete Präsenz auch in der normalen Bevölkerung, was darauf hindeutet, dass sie eine Reihe von genomischen strukturellen Veränderungen mit gutartiger, pathogenetischer oder unbekannter klinischer Bedeutung darstellen. Derzeit sind die genauen Mechanismen der CNV-Bildung unklar, könnten jedoch Mechanismen der nicht-allelichen homologen Rekombination (NAHR) und des nicht-homologen End-Joining (NHEJ) beinhalten.
Verschiedene Arten von Kopienzahlvariationen (CNVs) und ein Beispiel für die genomweite Erkennung von CNVs.
Die CNV-Erkennung kann in zwei breite Kategorien unterteilt werden: solche, die auf die Erkennung unbekannter CNVs im gesamten Genom abzielen, und solche, die auf loci-spezifische bekannte CNVs abzielen. Für die genomweite Erkennung unbekannter CNVs umfassen gängige Techniken Chip-Methoden und Sequenzierungsmethoden.
Chip-Methoden umfassen hauptsächlich vergleichende genomische Hybridisierungsmikroarray (aCGH) und Einzel-Nukleotid-Polymorphismus-Mikroarrays (SNP-Arrays). Im Gegensatz dazu umfassen DNA-Sequenzierungsmethoden hauptsächlich die gesamte Genomsequenzierung (WGS) und Langlesesequenzierung auf der Ebene einzelner Moleküle.
Dienstleistungen, an denen Sie interessiert sein könnten
Methoden zur genomweiten Identifizierung von Kopienzahlvariationen (CNVs).
aCGH ist eine biotechnologische Technik, die eingesetzt wird, um Variationen in der DNA-Kopienzahl zwischen zwei Proben zu erkennen. Der Betriebsmechanismus ist wie folgt: Gleiche Mengen an Test-DNA und normaler Kontroll-DNA werden jeweils mit roten und grünen fluoreszierenden Farbstoffen (wie Cy5/Cy3) markiert. Diese Proben werden dann gemischt und wettbewerblich mit einem DNA-Mikroarray des gesamten Genoms hybridisiert. Nach der Hybridisierung wird das Mikroarray mit einem Laser gescannt, was die Analyse der Lichtintensität der roten und grünen Punkte ermöglicht. Dadurch können CNVs erkannt werden, was eine umfassende, genomweite Perspektive bietet.
Der SNP-Array Die Technologie verwendet einen einzigen Hybridisierungsansatz, bei dem die zu untersuchende DNA-Probe mit dem auf dem Array platzierten Sonden-Set interagiert. Diese Technik bestimmt die Kopienzahl an jedem spezifischen Ort, indem die Signalstärken zwischen verschiedenen Proben verglichen werden. In diesem Kontext sind SNP-Array-Sonden Sequenzen, die von SNP-Stellen abgeleitet sind, und ermöglichen die Bereitstellung kritischer SNP-Informationen. Neben der Erkennung von CNVs hat diese Methode den besonderen Vorteil, uniparentale Disomie (UPD), Verlust der Heterozygosität (LOH) und Mosaizismus zu identifizieren, wodurch der Umfang der genetischen Untersuchung erweitert wird.
Die CNV-seq-Technologie nutzt Hochdurchsatz-Sequenzierung, um eine Niedrigdurchsatz-Ganzgenomsequenzierung von Proben-DNA durchzuführen. Die Sequenzierungsergebnisse werden dann mit einer Referenzsequenz des menschlichen Genoms verglichen. Durch BioinformatikanalyseCNVs innerhalb der getesteten Proben können aufgedeckt werden.
WGS, unter Verwendung von Hochdurchsatz-Sequenzierungsplattformen, führt die Sequenzierung aller Gene im Genom eines Organismus durch und bestimmt die DNA-Basensequenzen. Es ermöglicht die Erkennung eines vollständigen Spektrums von Mutationen auf ganzem Genomniveau, einschließlich einzelner Nukleotidvarianten (SNVs), Insertionen und Deletionen (InDels), CNVs und struktureller Varianten (SVs). Die Einschränkungen der WGS-Technologien liegen jedoch in den hohen Erkennungskosten, dem enormen Datenvolumen und der erheblichen Herausforderung bei der Datenanalyse.
Whole Exome Sequencing (WES) ist eine genomische Analysemethode, die Sequenzfangtechnologie verwendet, um DNA aus dem gesamten Exom-Bereich eines Genoms für Hochdurchsatz-Sequenzierung zu extrahieren und anzureichern. Im Vergleich zur WGS ist WES kosteneffektiver und vorteilhafter für das Studium bekannter Gen-SNPs, INDELs usw. Zu den Einschränkungen der WES-Technologie gehören ungleichmäßiger Fang, geringere Abdeckung nicht-kodierender Bereiche, niedrigere Genauigkeit bei der CNV-Erkennung sowie das Potenzial für falsch-negative und falsch-positive Ergebnisse.
Dennoch sind Berichte über den Einsatz von WES zur CNV-Erkennung zunehmend verbreitet. Dieser Trend ist wahrscheinlich auf die Optimierung von bioinformatischen Algorithmen und die Verbesserung der Sequenzierungstiefe zurückzuführen. Um die Auswirkungen systematischer Fehler, wie GC-Gehalt und Sequenzfang, effektiv zu mindern, benötigen die meisten Softwarelösungen, die für die WES-Analyse verwendet werden, Referenzproben. Durch den Vergleich dieser Referenzproben mit den Testproben können Abweichungen identifiziert werden, wodurch der Einfluss systematischer Fehler umgangen wird. In der Onkologieforschung kann somatische CNV bestimmt werden, indem Tumorgewebeproben mit normalen Gewebeproben verglichen werden.
Ergebnisse zahlreicher Studien haben eine enge Beziehung zwischen CNV und menschlichen komplexen Krankheiten sowie wichtigen wirtschaftlichen Eigenschaften bei Tieren und Pflanzen bestätigt. Im Vergleich zu Einzelbasis-SNPs haben CNVs längere Längen, sie decken ein breiteres Spektrum an Gensequenzen ab und haben das Potenzial, Phänotypen durch Gene-Dosiseffekte zu verändern. Mit der zunehmenden Genauigkeit, dem wachsenden Datenvolumen und den sinkenden Kosten von Whole-Genome-Sequenzierung, die hochdurchsatzfähige großflächige CNV-Erkennung hat schnelle Fortschritte gemacht. Darüber hinaus mit der kontinuierlichen Verfeinerung von Genomweite Assoziationsstudien (GWAS) Methoden und Bedingungen werden geschaffen, um zuverlässigere, funktional relevante CNVs durch CNV-GWAS zu erschließen. Dies ebnet den Weg für die anschließende Erforschung phänotypisch relevanter CNV-molekularer Mechanismen und deren Anwendung im Bereich der Züchtung.
Dienste, an denen Sie interessiert sein könnten
Die Untersuchung der Ergebnisse zur CNV-Erkennung und der zugehörigen Statistiken, die präzise durch Säulendiagramme dargestellt werden, veranschaulicht die Verteilung verschiedener CNVs über unterschiedliche Fragmentlängen. Wie in der referenzierten Abbildung dargestellt, wurden insgesamt 51.461 CNV-Ereignisse (im Durchschnitt 24.729 Gewinn- und 26.732 Verlustereignisse) aus den 48 untersuchten Individuen identifiziert. Die durchschnittliche CNV-Zahl pro Individuum betrug 1072, mit einer ungefähren Verteilung von 557 Gewinn- und 515 Verlustereignissen. Die durchschnittliche Anzahl spezifischer CNV-Ereignisse pro Individuum wurde mit 107 erfasst.
Abbildung 2 Verteilung der CNV-Größenintervalle
Die CNV-Region (CNVR) bezieht sich auf einen überlappenden Bereich von CNVs, die zwischen verschiedenen Individuen nachgewiesen wurden. Die überlappenden CNVs werden integriert und zu einem CNVR kombiniert. Wie in Abbildung 3 dargestellt, wurden die CNVs von 47 Kühen zusammengeführt, was insgesamt 1.043 CNVRs identifizierte, die zusammen 44,63 Mb abdecken und ungefähr 2,06 % der typischen Genomsequenz einer Kuh ausmachen. Die Verteilung der bekannten CNVRs auf Chromosomen ist in Abbildung 3 dargestellt, wo 702 vom Verluststyp, 270 vom Gewinntyp und 71 vom komplexen Typ sind (beides, CNVRs, die gleichzeitig Gewinn und Verlust enthalten). Die Anzahl der CNVs vom Verlusttyp ist ungefähr 2,6-mal so hoch wie die des Gewinns. In Bezug auf die Länge ist der längste CNVR 2.111.937 bp lang und der kürzeste CNVR 3.600 bp. Diese Studie hat eine genaue Karte der CNVRs des gesamten Genoms für Holstein-Kühe erstellt.
Abbildung 3 Genomische Verteilung von CNVRs
Die Untersuchung der genetischen Struktur und Vielfalt innerhalb von Populationen der Caprinae-Arten wurde unter Verwendung eines genomweiten Satzes von Einzel-Nukleotid-Polymorphismen (SNPs) durchgeführt, die auf Autosomen identifiziert wurden, aus denen genetische Distanzen zwischen Individuen berechnet wurden. Ein phylogenetischer Baum, der mit der Neighbor-Joining (NJ)-Methode erstellt wurde (Abb. 5B), unterschied die Bezoar - eine Stammform der iranischen Wildziege - und Hausziegen als separate Zweige, wobei letztere nach geografischer Herkunft unterteilt wurden.
Die Analyse der genetischen Struktur mit der ADMIXTURE-Software (Abb. 5C) zeigte eine Differenzierung in drei Hauptlinien, als K=3 für die Bezoar- und Hausziegenpopulationen. Bei K=6 wurden vier signifikante Linien innerhalb der Hausziegenpopulationen beobachtet. Um die inhärente genetische Struktur dieser Hausziegen weiter zu umreißen, wurde eine Hauptkomponentenanalyse (PCA) mit den SNP-Daten dieser Populationen durchgeführt (Abb. 5D). Die Ergebnisse waren faszinierend - PC1 und PC2 kategorisierten die Hauspopulationen in vier individuelle Untergruppen basierend auf den geografischen Ursprüngen: Europäische Hausziegen (EUR), Afrikanische Hausziegen (AFR), Südwestasiatische Hausziegen (SWA-SAS) und Ostasiatische Hausziegen (EAS).
Abbildung 5 Geografische Verteilung und genetische Affinitäten von wilden und domestizierten Ziegen
Unter Verwendung von Merkmalscharakteristika und CNV-Genotypen wenden wir verschiedene Modelle an, um eine GWAS-Analyse durchzuführen. Nach Abschluss der GWAS-Analyse über diese unterschiedlichen Modelle werden QQ-Plots verwendet, um die Verteilung der tatsächlichen P-Werte und der theoretischen P-Werte unter verschiedenen Szenarien zu vergleichen, um die optimalen Analyseergebnisse zu bestimmen. Nach Feststellung des optimalen Modells werden Korrekturen für multiple Tests angewendet, um signifikante P-Wert-Schwellen zu bestätigen. Dies ermöglicht die Auswahl signifikanter Regionen und die Filterung von CNV-assoziierten Loci-Genen. Nachdem wir diese Kandidatengene erhalten haben, führen wir eine funktionelle Annotation und eine Anreicherungsanalyse durch. Wie in Abbildung 6 dargestellt, hat unsere GWAS-Analyse basierend auf der Erblichkeit der Überlebensfähigkeit von Ferkeln und CNVs 16 Regionen auf den Chromosomen 2, 3, 4, 11, 12, 13, 14, 15, 16 und 17 identifiziert, die insgesamt 22,54 % der genetischen Phänotypvarianz ausmachen.
Abbildung 6 Manhattan-Diagramm der GWAS-Analyse des Merkmals Überlebensrate von Ferkeln
Bedeutende Regionen der GWAS- und CNVR-Analysen wurden auf SSC2, SSC3, SSC12 und SSC17 bestimmt, die insgesamt 56 kodierende Gene enthalten. Diese Gene, wie in Tabelle 1 dargestellt, beeinflussen die Anzahl der überlebenden Ferkel durch Variation in der Gen-Dosierung.

Vst (Variant-Statistiken), ähnlich wie Fst, dient als statistisches Maß für das Ausmaß der Unterschiede in CNVR zwischen Populationen. Die Berechnung erfolgt mit der Formel Vst = (Vt - Vs) / Vt, wobei Vt die Standardabweichung der Kopienzahl in der Region für alle Proben darstellt und Vs die Summe der individuellen Standardabweichungen der beiden Populationen ist, wobei jede entsprechend der Größe der Population gewichtet wird. Die Vst-Werte reichen von 0 bis 1; ein höherer Wert weist auf eine größere Divergenz in der Kopienzahlvariante in der Gruppe hin, während ein niedrigerer Wert das Gegenteil impliziert.
Wie in Abbildung 7 dargestellt, beträgt der durchschnittliche Vst-Wert für CN im Vergleich zu WL 0,11, ebenso wie der Wert für CN im Vergleich zu RIR, während der Vergleich von WL und RIR einen durchschnittlichen Vst von 0,15 ergibt, was auf einen höheren Grad an Divergenz hindeutet. Darüber hinaus finden wir durch die Auswahl von Genen aus CNVRs, bei denen Vst > 0,79 und die Durchführung von funktionaler Annotation und Anreicherungsanalyse, eine wesentliche Beteiligung an der Organentwicklung, dem Stoffwechsel und der Immunregulation. Diese Forschung bietet wertvolle Einblicke in die genetischen Charakterisierungen von Geflügel auf CNV-Ebene und könnte nützliche Informationen für Zuchtstrategien bei Hühnern liefern.
Abbildung 7 Manhattan-Diagramm der genomischen Vst-Werte für verschiedene Hühnercluster
Die Bayescan-Analyse wird in der vorliegenden Studie eingesetzt. Bayescan nutzt bayesianische Methoden und die empirische Verteilung von Fst, um Ausreißer-Marker zu identifizieren, eine Technik, die typischerweise angewendet wird, wenn differenzielle Loci in vergleichenden Gruppen mit unterschiedlichen geografischen oder anderen Arten von Clusterinformationen ausgewählt werden. In dieser Forschung wurde Bayescan basierend auf den Clusterinformationen des Stichproben-Sets zur Erkennung differenzieller Loci verwendet.
Nach Abschluss des Erkennungsprozesses wurden iterative Konvergenzbewertungen und Ausreißerfiltration unter Verwendung von R-Skripten durchgeführt. Die erkannten Ausreißer wurden dann als potenzielle CNVRs (Copy Number Variation Regions) eingestuft. Abbildung 8 zeigt das Ergebnis der Ausreißerdetektion mit Bayescan:

Referenzen: