Genetische Variation: Definition, Typen und Workflow zur Variantenbestimmung

Kurze Übersicht

01 Was ist genetische Variation? 02 Welche Arten von genetischer Variation gibt es? 03 Wie funktioniert die Variantenbestimmung?

Was ist genetische Variation?

Die genetische Zusammensetzung von Organismen innerhalb einer Population verändert sich, was als genetische Variation bezeichnet wird. Gene sind vererbbare DNA-Segmente, die die Anweisungen zur Herstellung von Proteinen enthalten. Alternative Versionen von Genen, bekannt als Allele, bestimmen unterschiedliche Merkmale, die von den Eltern an die Nachkommen weitergegeben werden können. Die natürliche Selektion und die biologische Evolution sind stark von genetischer Variation abhängig. Natürliche Selektion geschieht nicht zufällig, aber genetische Variationen, die in einer Population auftreten, tun dies.

Transposons sind ein weiterer wichtiger Begriff, der mit genetischer Variation verbunden ist. Mutationen können auf verschiedene Weise durch Transposons verursacht werden. Ein Transposon wird mit ziemlicher Sicherheit ein funktionales Gen schädigen, wenn es sich in dieses einfügt. Um die Aktivität eines Gens zu stören oder zu verändern, können Exons, Introns und sogar DNA, die die Gene flankiert (die möglicherweise Promotoren und Enhancer enthält), implantiert werden.

Sie könnten interessiert sein an

Welche Arten von genetischer Variation gibt es?

Einzelne Basenpaar-Substitution

SNPs (einzelne Nukleotid-Polymorphismen) sind Nukleinsäure-Substitutionen, die auch als einzelne Nukleotid-Polymorphismen (SNPs) bekannt sind. (1) Transition, die den Austausch von Purin (Adenin/Guanin) oder Pyrimidin (Cytosin/Thymin) Nukleinsäuren umfasst, und (2) Transversion, die den Austausch von Purin- und Pyrimidin-Nukleinsäuren beinhaltet.

Einfügung oder Löschung

Einfügen oder Löschen eines einzelnen DNA-Sequenzabschnitts, der in der Länge von zwei bis zu mehreren Hundert Basenpaaren variieren kann, auch bekannt als 'Indel'.

Strukturelle Variation

Genetische Variation, die über eine größere DNA-Sequenz hinweg auftritt, wird häufig als chromosomale Variation bezeichnet. Sowohl Variationen in der Kopienzahl als auch chromosomale Umordnungsereignisse fallen in diese Kategorie der genetischen Variation.

Kopienzahlvariation

Das Phänomen der Kopienzahlvariation (CNV) tritt auf, wenn Abschnitte des Genoms wiederholt werden und die Anzahl der Wiederholungen zwischen Individuen variiert.

Figure 1. Overview of a generalized workflow for calling variants (Bewicke-Copley, 2019). Abbildung 1. Ein generalisierter Arbeitsablauf zum Aufrufen von Varianten. (Bewicke-Copley, 2019)

Wie funktioniert die Variantenbestimmung?

Variant-Analyse Die Verarbeitung von Rohlesedaten ist ein mehrstufiger Prozess, der mit einer Vielzahl von Werkzeugen und Ressourcen durchgeführt werden kann. Die folgenden Schritte sind Teil des Verfahrens:

Um FASTQ-Dateien zu generieren, sequenzieren Sie das gesamte Genom oder Exom.
Richten Sie die Sequenzen an einem Referenzgenom aus, um BAM- oder CRAM-Dateien zu erstellen.
Erstellen Sie eine VCF-Datei, indem Sie bestimmen, wo die ausgerichteten Reads vom Referenzgenom abweichen.

Erwerb von Roh-Lesedaten: die FASTQ-Dateikonfiguration

Der beliebteste Ansatz, um Rohdaten von einem Sequenziergerät zu erhalten, sind FASTQ-Dateien, die ähnlich wie FASTA-Dateien sind und sowohl Sequenzinformationen als auch zusätzliche Informationen wie die Sequenzqualitätsinformationen enthalten.

Qualitätskontrolle

Rohsequenzdaten, die von einem Sequenzierungsdienstleister erhalten werden, sind im Allgemeinen nicht sofort bereit für die Entdeckung von Varianten. Die Qualitätskontrolle (QC), die nach der Datenerfassung erfolgt, ist die erste und wichtigste Phase in der WES/WGS Bewertungsrahmen. QC ist eine Methode zur Verbesserung von Rohdaten, indem Fehler, die erkannt werden können, entfernt werden. Durch die Durchführung von Qualitätskontrolle (QC) zu Beginn der Bewertung werden die Chancen verringert, auf Kontamination, Verzerrung, Fehler oder fehlende Daten zu stoßen.

Sequenzalignment

Jedes Read muss an ein Referenzgenom ausgerichtet werden, um seinen genauen Standort zu bestimmen. Da die Ausrichtung einer großen Anzahl von Reads Tage in Anspruch nehmen kann und eine ungenaue Ausrichtung zu unzureichenden Analysen führt, sind Zuverlässigkeit und Genauigkeit in dieser Phase entscheidend. Eine Sequence Alignment Map (SAM)-Datei wird erstellt, sobald die Ausrichtung abgeschlossen ist.

Nachbearbeitung der Ausrichtung

Die Nachbearbeitung von Daten nach der Ausrichtung zur Erstellung von analysierbaren BAM-Dateien ist in jedem Framework von Reads zu Varianten unerlässlich. Dieses Verfahren umfasst die Bereinigung von Daten, um technische Verzerrungen zu beseitigen, wie das Identifizieren von Duplikaten und das Rekalibrieren von Basisqualitätswerten.

Kurze Variantenentdeckung

Nach dem Durchlaufen der Datenverarbeitungsphasen sind die Reads bereit für die nachgelagerte Analyse, wobei die Variantenbestimmung die häufigste Phase ist. Die Variantenbestimmung ist ein Verfahren zur Klassifizierung von Unterschieden zwischen den Sequenzierungs-Reads, die erzeugt wurden von NGS Experimente und ein Referenzgenom. Aufgrund der Schwierigkeiten bei der Variantenbestimmung durch Ausrichtungs- und Sequenzierungsartefakte wurden zahlreiche Variantencaller entwickelt und werden weiterhin entwickelt, um bei dieser schwierigen Aufgabe zu helfen.

Filtration von Varianten

Nach der Variantenerkennung werden rohe SNVs und Indels im Variant Call Format (VCF) erhalten. Danach werden entweder harte Filter auf die Daten angewendet oder eine komplexere Methode wie die Variant Quality Score Recalibration (VQSR) von GATK verwendet, um sie zu filtern.

Variantenannotation

Die Variablenannotation ist ein weiterer entscheidender Prozess in der WES/WGS Bewertungsrahmen. Das Ziel aller funktionalen Annotationsinstrumente ist es, Daten über die Auswirkungen/Folgen von Varianten zu annotieren, wie z. B. die Identifizierung der betroffenen Gene/Transkripte, (ii) die Bewertung des Einflusses auf die Proteinsequenz und (iii) die Zuordnung der Variante zu bekannten genomischen Annotationen sowie (iv) das Finden und Ergänzen bekannter Varianten in Variantendatenbanken. Die Auswirkungen jeder Variante werden unter Verwendung von Sequence Ontology (SO)-Begriffen dargestellt. Qualifizierer werden häufig verwendet, um die Schwere und den Einfluss dieser Folgen zu kennzeichnen.

Referenzen:

Bewicke-Copley F, Kumar EA, Palladino G, et al. Anwendungen und Analysen der gezielten genomischen Sequenzierung in Krebsstudien. Journal für computergestützte und strukturelle Biotechnologie. 2019, 1. Jan; 17.
Bedo J, Goudey B, Wazny J, Zhou Z. Informations-theoretische, alignierungsfreie Variantenbestimmung. PeerJ Computer Science. 2016 Jul 25;2.
Muzzey D, Evans EA, Lieber C. Die Grundlagen von NGS verstehen: vom Mechanismus bis zur Variantenbestimmung. Aktuelle Berichte über genetische MedizinDezember 2015;3(4).

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.

Verwandte Dienstleistungen