Dienst zur Analyse von Whole Exome Sequencing-Daten

Die Exom-Sequenzierung ist eine genomische Analysemethode, die Sequenzfangtechnologie nutzt, um die DNA in den exonspezifischen Regionen des gesamten Genoms zu erfassen und anzureichern, gefolgt von Hochdurchsatz-Sequenzierung. Durch die Sequenzierung von nur etwa 2 % des gesamten Genoms kann die Exom-Sequenzierung Informationen über über 95 % der bekannten funktionalen Regionen liefern, einschließlich 95 % der pathogenen Mutationen, die mit Mendel’schen Krankheiten und verschiedenen Krankheitsanfälligkeiten assoziiert sind. Daher hat sich die Exom-Sequenzierung zu einer gängigen Methode für krankheitsbezogene Gentests entwickelt, die weit verbreitet zur Identifizierung von ursächlichen Genen und Anfälligkeitsgenen für komplexe Krankheiten eingesetzt wird.

Variantenfilterung, Klassifikation und statistische Analyse

1) Filterung von SNP- und InDel-Varianten

SNP- und InDel-Varianten unterliegen einem Filterprozess basierend auf den folgenden Kriterien: Kein Anrufsatz >= 10 %: Varianten mit einem Anrufsatz von weniger als 10 % werden herausgefiltert; Minderheitsallelfrequenz < 0,05: Varianten mit einer Minderheitsallelfrequenz von weniger als 0,05 werden herausgefiltert; Nicht-Hardy-Weinberg-Gleichgewicht (HWE) Stellen: Varianten, die nicht dem HWE entsprechen, angezeigt durch einen HWE-P-Wert von weniger als 0,001, werden herausgefiltert.

Nach Anwendung dieser Filterkriterien werden die verbleibenden Varianten für weitere Analysen und Interpretationen ausgewählt.

Filter SNP siteAbbildung 1: SNP-Standort filtern

2) Frequenzberechnung

Die Frequenzberechnung umfasst die Bestimmung der Allel- und Genotypfrequenzen für jede Variante in den Fall- und Kontrollgruppen.

In diesem Schritt werden die Frequenzen verschiedener Allele und Genotypen separat für die Fall- und Kontrollgruppen berechnet. Diese Frequenzen liefern wertvolle Informationen über die Verteilung und das Vorkommen spezifischer genetischer Varianten innerhalb der untersuchten Population.

3) Assoziationsanalyse

In der Assoziationsanalyse werden verschiedene statistische Tests durchgeführt, um die Beziehung zwischen genetischen Varianten und den Fall-Kontroll-Gruppen zu untersuchen.

Die Analyse umfasst eine stratifizierte Analyse, den Chi-Quadrat-Test, den exakten Test von Fisher und den Cochran-Armitage-Trend-Test. Diese Tests werden verwendet, um die Häufigkeitsverteilung von Allelen und Genotypen zwischen den Fall- und Kontrollgruppen zu vergleichen und festzustellen, ob statistisch signifikante Unterschiede vorliegen.

Die stratifizierte Analyse hilft, die Assoziation zwischen genetischen Varianten und dem Krankheitsrisiko in spezifischen Untergruppen der Bevölkerung zu bewerten. Der Chi-Quadrat-Test, der exakte Fisher-Test und der Cochran-Armitage-Trend-Test werden angewendet, um zu überprüfen, ob es statistisch signifikante Unterschiede in der Häufigkeitsverteilung von Allelen und Genotypen zwischen den beiden Gruppen gibt. Diese Tests liefern wertvolle Einblicke in die potenzielle Assoziation zwischen spezifischen genetischen Varianten und dem untersuchten Phänotyp oder der Krankheit.

4) Haplotypanalyse

In der Haplotypanalyse werden genomische Regionen, die signifikante SNPs enthalten, für weitere Untersuchungen mithilfe von Haplotypanalyse-Software wie Haploview ausgewählt.

Die Analyse zielt darauf ab, gemeinsame Haplotypen innerhalb dieser Regionen zu identifizieren und zu charakterisieren. Die Häufigkeiten der identifizierten Haplotypen werden zwischen den Fall- und Kontrollgruppen verglichen. Dieser Vergleich wird unter Verwendung von Chi-Quadrat-Statistiken durchgeführt, um festzustellen, ob eine signifikante Assoziation zwischen spezifischen Haplotypen und der untersuchten Krankheit oder dem Phänotyp besteht.

Durch die Untersuchung der Verteilung und Frequenzen verschiedener Haplotypen in den Fall- und Kontrollgruppen liefert die Analyse Einblicke in die potenzielle Relevanz spezifischer Haplotypen für die untersuchte Krankheit. Der Chi-Quadrat-Test und die entsprechenden p-Werte werden verwendet, um die statistische Signifikanz der beobachteten Assoziationen zu bewerten.

Haplotype AnalysisAbbildung 2: Haplotyp-Analyse

5) Variantenfilterung

Im Prozess der Variantenfilterung werden mehrere Kriterien angewendet, um hochwertige Kandidatenvarianten auszuwählen.

Zuerst wird der Phred-Qualitätswert für jede Base ermittelt, und Kandidatenvarianten mit einem Qualitätswert unter 45 werden entfernt. Dieser Schwellenwert stellt sicher, dass Varianten mit niedriger Sequenzierungsqualität von der weiteren Analyse ausgeschlossen werden.

Als Nächstes werden heterozygote Varianten untersucht. Heterozygote Varianten sollten eine Abdeckungstiefe von mindestens 10-fach aufweisen. Darüber hinaus sollten die entsprechenden Sequenzlesungen unterschiedliche Start- und Endpositionen haben, was auf das Vorhandensein von allelischer Variation hinweist. Varianten, die diese Kriterien nicht erfüllen, werden herausgefiltert.

Es ist wichtig zu beachten, dass das menschliche Genom normale genetische Variationen enthält, einschließlich einzelner Nukleotid-Polymorphismen (SNPs). Um krankheitsassoziierte Varianten von diesen normalen Varianten zu unterscheiden, werden Datenbanken wie dbSNP, das 1000 Genomes Project und NHLBI-ESP6500 genutzt. Kandidatenvarianten, die mit bekannten normalen Variationen in diesen Datenbanken übereinstimmen, werden herausgefiltert, wodurch die Rate an falsch-positiven Ergebnissen verringert und der Fokus auf potenziell krankheitsverursachende Varianten gelegt wird.

6) Synonyme Varianten

Diese Varianten treten im kodierenden Bereich eines Gens auf, ändern jedoch nicht die Aminosäuresequenz des Proteins. Sie werden oft als harmlos oder neutral in Bezug auf ihre funktionalen Auswirkungen betrachtet.

Nicht-synonyme Varianten: Diese Varianten führen zu einer Veränderung der Aminosäuresequenz des Proteins. Je nach Art der Aminosäureveränderung können sie weiter in Missense-Varianten (eine andere Aminosäure wird kodiert), Nonsense-Varianten (ein vorzeitiges Stoppcodon wird eingeführt) oder Frameshift-Varianten (der Leserahmen wird gestört) kategorisiert werden.

Frühe Terminierungsvarianten: Diese Varianten führen zu einem vorzeitigen Stoppcodon in der kodierenden Sequenz, was zur Verkürzung des Proteins führt. Sie sind mit dem Verlust der Proteinfunktion verbunden und können pathogen sein.

Spleißstellenvarianten: Diese Varianten betreffen die Spleißstellen, die für das korrekte RNA-Spleißen entscheidend sind. Störungen beim Spleißen können zu abnormaler Genexpression und Proteinproduktion führen.

Indels: Indels beziehen sich auf Einfügungen oder Löschungen von Nukleotiden in der DNA-Sequenz. Sie können zu Rahmenverschiebungen führen oder den Leserahmen verändern, was zu Veränderungen in der resultierenden Proteinsequenz führt.

Durch die Klassifizierung und Analyse dieser Varianten können deren Zahlen und grundlegende Informationen bestimmt werden. Diese Informationen sind wertvoll für das Verständnis der potenziellen funktionalen Auswirkungen der Varianten und ihrer Relevanz für Krankheiten oder genetische Merkmale.

7) Genfusion

Die Identifizierung von Genfusionen erfolgt mithilfe von Werkzeugen wie FusionMap und GASVPro, um nach potenziellen genomischen Umstellungen zu suchen, die Genfusionen betreffen.

8) Vorhersage der Proteinstruktur von Varianten: Das Swiss-Model-Tool wird für die Homologiemodellierung verwendet, um die dreidimensionale Struktur von Variantenproteinen vorherzusagen. Zusätzlich können Tools wie Chimera oder DS für die Analyse des Moduls zur gerichteten Mutagenese verwendet werden. Nach der Modellierung wird eine dynamische Optimierung durchgeführt, um die Auswirkungen der Mutationen auf die Proteinstruktur vorherzusagen.

Protein structure prediction of the variantAbbildung 3: Vorhersage der Proteinstruktur der Variante

Genfunktion-Assoziationsanalyse

Wenn eine kleine Anzahl von Genvariationen, die mit dem untersuchten Phänotyp assoziiert sind, ermittelt wird, werden Literaturrecherchen und Datenbanksuchen (wie ClinVar, COSMIC-Datenbank) durchgeführt, um potenziell verwandte Genfunktionen zu erhalten, die die experimentellen Ergebnisse unterstützen. Wenn eine große Anzahl relevanter Gene ermittelt wird, wird eine GO-Analyse gewählt, um zu überprüfen, ob die mutierten Gene in Funktionen angereichert sind, die speziell mit dem Phänotyp assoziiert sind.

Bestimmung von Treibermutationen

Schritt 1: Priorisierung von potenziellen Krebs-Treiber-Mutationen aus somatischen Mutationen.

Um die Auswirkungen seltener und häufiger Mutationen auf die Krebsentwicklung zu bewerten, verwenden wir zunächst eine radiale Support-Vektor-Maschine (SVM), die auf nicht-synonymen Einzel-Nukleotid-Varianten (nsSNVs) aus den COSMIC- und UniProt-Datenbanken trainiert wurde. Mithilfe somatischer Mutationen als Eingabe berechnet das Bestimmungssystem die entsprechenden radialen SVM-Werte, um das Potenzial jeder Mutation vorherzusagen, ein Krebs-Treiber zu werden.

Schritt 2: Identifizierung von Kandidatentreibergenen aus den Kandidatentreibermutationen.

Aufbauend auf jahrzehntelangen wertvollen Erkenntnissen aus der Forschung fügen wir eine weitere Schicht über der radialen SVM-Schicht hinzu. Diese Schicht misst das Gewicht jeder Mutation basierend auf dem Phenolyzer-Score des entsprechenden Gens und bewertet somit die genetische Assoziation zwischen jedem Mutationsgenotyp und -phänotyp basierend auf vorherigem Wissen. Gene, die schädliche Mutationen enthalten, werden dann gefiltert und basierend auf ihren gesamten gewichteten Scores eingestuft.

Schritt 3: Identifizierung von Kandidatenmedikamenten aus den Kandidaten-Treibergenen.

Um Forschern/Klinikern bei potenziellen personalisierten Behandlungen besser zu helfen, führen wir einen dritten Schritt im Bestimmungsprozess ein, der einen priorisierten Medikamentenkatalog für jedes Krebsgen-Driver bereitstellt. Dieser Schritt identifiziert Kandidatenmedikamente basierend auf ihren Wechselwirkungen mit unseren vorhergesagten Krebsgen-Drivern und gewichtet sie mithilfe entsprechender Interaktionswerte der Zielgene. Die Aktivitätswerte der Medikamente werden durch Abfragen der PubChem-Datenbank ermittelt.

RNA Sekundärstruktur-Analyse

Die Auswirkungen von Einzel-Nukleotid-Variationen (SNVs) auf die RNA-Sekundärstruktur werden mithilfe der RNAsnp-Software bewertet. Die Bewertung der Struktur erfolgt wie folgt:

Impact of SNVs on RNA Secondary StructureAbbildung 4: Einfluss von SNVs auf die RNA-Sekundärstruktur

Vereinigung der Transkriptionsregulatoren

Die Assoziation von Transkriptionsregulatoren mit Ziel-SNVs wird durch eine kombinierte Analyse unter Verwendung der ENCODE-Datenbank bestimmt. Diese Analyse hilft dabei, die Transkriptionsfaktoren zu identifizieren, deren Bindung von den SNVs beeinflusst wird.

Transcription Factors at the Positions Corresponding to SNVsAbbildung 5: Transkriptionsfaktoren an den Positionen, die den SNVs entsprechen

Post-transkriptionales Regulationsnetzwerk

Die Auswirkungen von Ziel-SNVs auf die posttranskriptionale Regulation werden mit unserem intern entwickelten Netzwerk-Analyse-System RBP-Var analysiert. Dieses System bewertet die Effekte von SNVs auf die posttranskriptionale Regulation und identifiziert potenzielle regulatorische Mechanismen.

Network Analysis System for Post-transcriptional Regulation of SNVsAbbildung 6: Netzwerkanalysesystem für die posttranskriptionale Regulation von SNVs

Krebs-Gen-Interaktionsnetzwerk

Wir nutzen dSysMap: die Erkundung der edgetischen Rolle von Krankheitsmutationen, um ein Netzwerk von Krebsgeninteraktionen zu erstellen. Dieses Tool ermöglicht es uns, die funktionalen Auswirkungen von Krankheitsmutationen auf Protein-Protein-Interaktionen im Kontext von Krebs zu untersuchen.

Vorhersage der Struktur von Mutantenproteinen

Durch die Nutzung von Vorhersagesoftware können wir die Auswirkungen von Ziel-SNVs auf die tertiäre Struktur von Proteinen bewerten. Diese Analyse zeigt strukturelle Veränderungen im Protein, die durch schädliche Mutationen im Vergleich zum Wildtyp-Gen verursacht werden. Darüber hinaus ermöglicht sie auch die Untersuchung der Auswirkungen mutierter Proteine auf Protein-Protein-Interaktionen. Ferner erlaubt sie die Untersuchung der Effekte von Mutationen auf Proteininteraktionen.

Impact of SNVs on protein tertiary structure.Abbildung 7: Einfluss von SNVs auf die tertiäre Struktur von Proteinen.

Impact of SNVs on protein-protein interactions.Abbildung 8: Auswirkungen von SNVs auf Protein-Protein-Interaktionen.

Referenzen:

  1. Joon Ki Hong Eine genomweite Assoziationsstudie zu sozialen genetischen Effekten bei Landrasse-Schweinen 2017 Asiatisch-Australasiatische Zeitschrift für Tierwissenschaften
  2. Noriaki Itoh Next-Generation-Sequenzierungsbasierte gebündelte Segregationsanalyse zur QTL-Kartierung in der heterozygoten Art Brassica rapa 2019 Theoretische und Angewandte Genetik
  3. Alan P Boyle Annotation funktioneller Variation in persönlichen Genomen unter Verwendung von RegulomeDB Genomforschung 2012
  4. Mao Fengbiao RBP-Var: eine Datenbank funktioneller Varianten, die an der Regulation durch RNA-bindende Proteine beteiligt sind, 2015 Nucleic Acids Research
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben